999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數理公式的識別抽取與檢索研究綜述

2018-05-14 13:41:51甘露
知識文庫 2018年1期
關鍵詞:數理符號數學

甘露

隨著科技論文數的不斷增長,科技論文中的數理公式也大量增加,對數理公式的識別與檢索變得尤為重要。目前,許多國內外學者已經對該問題進行了研究。但由于數理公式本身表達方式多樣,格式多且復雜,使得數理公式的識別與檢索具有一定的難度。在大多數科技文獻中,數理公式都是不可或缺的一部分,對數理公式進行識別與檢索,構建一個通用的識別檢索系統,對于文獻的交流共享以及防止文獻抄襲作假等有著重要的作用。

1數理公式識別

1.1基于神經網絡的印刷體數理公式識別方法

針對印刷體數學公式符號識別進行研究。運用神經網絡對印刷體的數學公式符號進行識別首先需要對公式圖片進行圖像預處理。預處理包括:1)圖像二值化,2)細化處理。在預處理的基礎上,采用組合不變矩進行數學公式符號特征的提取。具體提取方法為主成分分析和奇異值分解。提取到的特征值將作為后續神經網絡的輸入。其次針對數學符號進行處理,預處理階段重點為符號的分割,仍然采用矩方法進行特征提取,運用多級神經網絡進行數學符號識別。在特征提取階段采用了決策樹方法對孤立的公式進行抽取,應用神經網絡對內嵌公式進行抽取。后又采用了改進的神經網絡模型——卷積神經網絡。識別公式特征時具有穩定性高的特點,但較為費時。在應用神經網絡對印刷體數學公式識別的研究中,已經取得了一定的研究成果。神經網絡在模式識別問題中也得到了廣泛應用,且識別效果較好。

1.2基于基線結構的印刷體數理公式識別方法

基于基線結構的數理公式識別方法,該方法將識別過程分為六個步驟,即字符預處理、字符分割、字符識別、字符空間關系確定、邏輯關系確定和語義搭建。由于脫機公式的結構固定,無法像聯機公式那樣可以改變,使分析容易進行,為此,對該算法進行改進. 但該方法只適用于一般的印刷體公式識別,對于結構不明確的公式的識別效果并不理想。

1.3基于多候選的數理公式識別方法

基于多候選的數學公式識別系統,該系統主要包括三部分:公式圖像預處理、多候選公式符號分割和多候選結構分析。預處理步驟與其他方法相同。在多候選符號分割階段,從數學公式圖像中分割出帶有屬性的公式符號串,應用動態規劃方法分割公式字符,字符分割完成后,采用基于層次結構的公式結構分析方法對公式進行分析,這里分為三個階段:多候選矩陣分析階段、多候選子表達式分析階段和多候選角標分析階段。在獲得數學公式結構分析結果后,用LaTex 格式和 MathType 格式分別表示這些結構關系樹。雖然該識別系統取得了較好的公式識別效果,由于符號的粘連、斷裂、多重角標的原因引起的分析錯誤仍使識別有一定的錯誤,還需進一步改進.

2數理公式檢索

2.1分層次索引法

基于分層次倒排索引的公式檢索方法。其公式檢索主要包括4個功能:Web頁面的下載、公式的提取、公式索引和查詢服務。公式提取時會將在Web頁面中提取到的LaTex格式和MathML格式的公式存入數據庫,并使用倒排表對數據庫進行索引,隨著索引層數的逐漸增多,索引也就越精確,從而達到了索引的目的。然而在數據量很大的情況下進行倒排索引,索引量會非常大,所占的存儲空間也非常大,存儲和檢索效率都比較低。

2.2基于文本的數學符號索引方法

當數學公式以文本字符串格式存儲表示時,數學公式可以看作是由各種數學符號如字母、數字、運算符、函數名等構成的句子。其中的數學符號相當于構成語句的單詞。對這些數學符號建立索引,并通過組合查詢可以實現數學公式的查詢。其中,分詞處理方法與普通文本分詞方法不同,在處理數學公式符號組成的符號文本時,需要開發新的數學公式分詞器。分詞結果的好壞對檢索結果具有重要的影響,是此方法需要克服的難點所在。且同一公式的表達方式中符號排列不同,無法進行準確的檢索。

2.3基于XML的關系型數據庫索引方法

由于倒排索引表無法保存公式間的運算關系,首先需要把 XML 文檔轉換成關系數據庫。在數據庫中,倒排表存儲數學公式索引的文檔列表信息,數學公式運算表存儲公式間的運算關系,通過表查詢實現數學公式索引查詢。基于數據庫的索引方法的主要問題包括數據庫設計、數學公式解析、數學查詢到數據庫查詢的轉換。

2.4 Math Search搜索引擎方法

Math Search是一個可進行數學內容檢索的搜索引擎,采用了基于全文的搜索引擎 Lucene。Math Search首先利用一系列爬蟲進程從網絡上收集信息,并判斷其是否有數學相關的內容,并從網頁中提取所需數學公式、數學符號等。為了實現細粒度的數學公式查詢,將搜集到的公式分為若干 N-grams 的子公式,并對每一子公式按照權重計算方法賦予一定權重并建立索引。但 Math Search 系統具有一定的局限性,即無法實現與格式無關的數學公式搜索。因為數學公式有多種描述形式,如果對每種描述形式都能進行索引,就需要開發多種索引方法。Math Search雖然已將幾種不同格式的數學公式轉換成一種格式,但是目前的轉換工作還不夠完善,還需要改進。

3總結

數理公式的識別與檢索是具有挑戰性且有重大現實意義的研究領域。公式檢索的關鍵問題是定義查詢語言,規范查詢和搜索的文檔,定義索引和匹配的方法,并提供相關反饋。公式識別的關鍵問題是檢測和分類數學符號、分析符號布局,并構建意義表示。公式識別與抽取未來的研究方向包括內嵌表達式的檢測、矢量圖形文檔中數學表達式的自動檢測、以及PDF文獻中公式的抽取等。公式檢索未來的研究方向是改進查詢和文檔表示歸一化的方法。包括數學公式的輸入、定位、識別和轉換等。

(作者單位:中國科學技術信息研究所)

猜你喜歡
數理符號數學
踐行“德融數理” 打造“行知樂園”
中國德育(2022年12期)2022-08-22 06:17:24
學符號,比多少
幼兒園(2021年6期)2021-07-28 07:42:14
“+”“-”符號的由來
數理:多少人吃飯
孩子(2019年9期)2019-11-07 01:35:49
最天然呆筆記 誰說數理就一定枯燥艱深?
變符號
我為什么怕數學
新民周刊(2016年15期)2016-04-19 18:12:04
數學到底有什么用?
新民周刊(2016年15期)2016-04-19 15:47:52
圖的有效符號邊控制數
數學也瘋狂
主站蜘蛛池模板: 久久综合亚洲鲁鲁九月天 | 尤物亚洲最大AV无码网站| 国产精品美女免费视频大全| 日韩精品一区二区三区大桥未久| 露脸真实国语乱在线观看| 欧美影院久久| 日韩国产综合精选| 久久天天躁狠狠躁夜夜2020一| 99久久精品无码专区免费| 凹凸国产熟女精品视频| 无码电影在线观看| 人妖无码第一页| 日韩无码视频专区| 国产成人1024精品| 国产无码精品在线播放| 成人国产三级在线播放| 国产麻豆精品久久一二三| 毛片网站在线看| 亚洲人成在线免费观看| 免费观看欧美性一级| 日韩精品久久无码中文字幕色欲| 成人福利在线观看| 中文字幕亚洲乱码熟女1区2区| 色老二精品视频在线观看| 精品国产成人高清在线| 伊人久久婷婷| 欧美日韩国产成人在线观看| 日本在线欧美在线| 欧美一区日韩一区中文字幕页| 在线日本国产成人免费的| 99在线观看精品视频| 色婷婷亚洲十月十月色天| 澳门av无码| 一级片免费网站| 色网站免费在线观看| 亚洲首页国产精品丝袜| 午夜日b视频| 男人的天堂久久精品激情| 全部免费特黄特色大片视频| 99久久亚洲综合精品TS| 日韩专区第一页| 丁香五月激情图片| 免费 国产 无码久久久| 五月婷婷综合色| 精品伊人久久大香线蕉网站| 欧美日韩激情在线| 热re99久久精品国99热| 亚洲国产成人麻豆精品| 亚洲欧美自拍中文| 亚洲另类国产欧美一区二区| 国产美女一级毛片| AV色爱天堂网| 高清无码手机在线观看 | 精品欧美日韩国产日漫一区不卡| 日韩av在线直播| 亚洲国产中文在线二区三区免| 国产午夜福利亚洲第一| 在线精品自拍| 久久永久免费人妻精品| 精品福利网| 婷五月综合| 亚洲大学生视频在线播放| 成年人国产网站| 亚洲一级毛片在线观播放| 国产在线91在线电影| 亚洲妓女综合网995久久| 亚洲伦理一区二区| 国产第三区| 成人免费网站久久久| 国产浮力第一页永久地址 | 在线国产欧美| 91啦中文字幕| 亚洲人成电影在线播放| 九九九九热精品视频| 激情在线网| 国产精品无码AV中文| 99re免费视频| 亚洲无码熟妇人妻AV在线| 日本少妇又色又爽又高潮| 亚洲欧州色色免费AV| 爽爽影院十八禁在线观看| 日韩精品一区二区三区大桥未久|