數理公式的識別抽取與檢索研究綜述

2018-05-14 13:41:51甘露

知識文庫 2018年1期

甘露

隨著科技論文數的不斷增長，科技論文中的數理公式也大量增加，對數理公式的識別與檢索變得尤為重要。目前，許多國內外學者已經對該問題進行了研究。但由于數理公式本身表達方式多樣，格式多且復雜，使得數理公式的識別與檢索具有一定的難度。在大多數科技文獻中，數理公式都是不可或缺的一部分，對數理公式進行識別與檢索，構建一個通用的識別檢索系統，對于文獻的交流共享以及防止文獻抄襲作假等有著重要的作用。

1數理公式識別

1.1基于神經網絡的印刷體數理公式識別方法

針對印刷體數學公式符號識別進行研究。運用神經網絡對印刷體的數學公式符號進行識別首先需要對公式圖片進行圖像預處理。預處理包括：1）圖像二值化，2）細化處理。在預處理的基礎上，采用組合不變矩進行數學公式符號特征的提取。具體提取方法為主成分分析和奇異值分解。提取到的特征值將作為后續神經網絡的輸入。其次針對數學符號進行處理，預處理階段重點為符號的分割，仍然采用矩方法進行特征提取，運用多級神經網絡進行數學符號識別。在特征提取階段采用了決策樹方法對孤立的公式進行抽取，應用神經網絡對內嵌公式進行抽取。后又采用了改進的神經網絡模型——卷積神經網絡。識別公式特征時具有穩定性高的特點，但較為費時。在應用神經網絡對印刷體數學公式識別的研究中，已經取得了一定的研究成果。神經網絡在模式識別問題中也得到了廣泛應用，且識別效果較好。

1.2基于基線結構的印刷體數理公式識別方法

基于基線結構的數理公式識別方法，該方法將識別過程分為六個步驟，即字符預處理、字符分割、字符識別、字符空間關系確定、邏輯關系確定和語義搭建。由于脫機公式的結構固定，無法像聯機公式那樣可以改變，使分析容易進行，為此，對該算法進行改進. 但該方法只適用于一般的印刷體公式識別，對于結構不明確的公式的識別效果并不理想。

1.3基于多候選的數理公式識別方法

基于多候選的數學公式識別系統，該系統主要包括三部分：公式圖像預處理、多候選公式符號分割和多候選結構分析。預處理步驟與其他方法相同。在多候選符號分割階段，從數學公式圖像中分割出帶有屬性的公式符號串，應用動態規劃方法分割公式字符，字符分割完成后，采用基于層次結構的公式結構分析方法對公式進行分析，這里分為三個階段：多候選矩陣分析階段、多候選子表達式分析階段和多候選角標分析階段。在獲得數學公式結構分析結果后，用LaTex 格式和 MathType 格式分別表示這些結構關系樹。雖然該識別系統取得了較好的公式識別效果，由于符號的粘連、斷裂、多重角標的原因引起的分析錯誤仍使識別有一定的錯誤，還需進一步改進.

2數理公式檢索

2.1分層次索引法

基于分層次倒排索引的公式檢索方法。其公式檢索主要包括4個功能：Web頁面的下載、公式的提取、公式索引和查詢服務。公式提取時會將在Web頁面中提取到的LaTex格式和MathML格式的公式存入數據庫，并使用倒排表對數據庫進行索引，隨著索引層數的逐漸增多，索引也就越精確，從而達到了索引的目的。然而在數據量很大的情況下進行倒排索引，索引量會非常大，所占的存儲空間也非常大，存儲和檢索效率都比較低。

2.2基于文本的數學符號索引方法

當數學公式以文本字符串格式存儲表示時，數學公式可以看作是由各種數學符號如字母、數字、運算符、函數名等構成的句子。其中的數學符號相當于構成語句的單詞。對這些數學符號建立索引，并通過組合查詢可以實現數學公式的查詢。其中，分詞處理方法與普通文本分詞方法不同，在處理數學公式符號組成的符號文本時，需要開發新的數學公式分詞器。分詞結果的好壞對檢索結果具有重要的影響，是此方法需要克服的難點所在。且同一公式的表達方式中符號排列不同，無法進行準確的檢索。

2.3基于XML的關系型數據庫索引方法

由于倒排索引表無法保存公式間的運算關系，首先需要把 XML 文檔轉換成關系數據庫。在數據庫中，倒排表存儲數學公式索引的文檔列表信息，數學公式運算表存儲公式間的運算關系，通過表查詢實現數學公式索引查詢。基于數據庫的索引方法的主要問題包括數據庫設計、數學公式解析、數學查詢到數據庫查詢的轉換。

2.4 Math Search搜索引擎方法

Math Search是一個可進行數學內容檢索的搜索引擎，采用了基于全文的搜索引擎 Lucene。Math Search首先利用一系列爬蟲進程從網絡上收集信息，并判斷其是否有數學相關的內容，并從網頁中提取所需數學公式、數學符號等。為了實現細粒度的數學公式查詢，將搜集到的公式分為若干 N-grams 的子公式，并對每一子公式按照權重計算方法賦予一定權重并建立索引。但 Math Search 系統具有一定的局限性，即無法實現與格式無關的數學公式搜索。因為數學公式有多種描述形式，如果對每種描述形式都能進行索引，就需要開發多種索引方法。Math Search雖然已將幾種不同格式的數學公式轉換成一種格式，但是目前的轉換工作還不夠完善，還需要改進。

3總結

數理公式的識別與檢索是具有挑戰性且有重大現實意義的研究領域。公式檢索的關鍵問題是定義查詢語言，規范查詢和搜索的文檔，定義索引和匹配的方法，并提供相關反饋。公式識別的關鍵問題是檢測和分類數學符號、分析符號布局，并構建意義表示。公式識別與抽取未來的研究方向包括內嵌表達式的檢測、矢量圖形文檔中數學表達式的自動檢測、以及PDF文獻中公式的抽取等。公式檢索未來的研究方向是改進查詢和文檔表示歸一化的方法。包括數學公式的輸入、定位、識別和轉換等。

（作者單位：中國科學技術信息研究所）