尹鋒 朱躍生 周昭坤
(北京大學(xué)深圳研究生院 廣東省深圳市 518055)
數(shù)學(xué)表達(dá)式是人類(lèi)知識(shí)和智慧的結(jié)晶,通過(guò)數(shù)字和字符就能夠揭示自然界不同事物之間的關(guān)系。印刷體數(shù)學(xué)表達(dá)式圖像識(shí)別(Printed Mathematical Expression Recognition,PMER)是光學(xué)字符識(shí)別(Optional Character Recognition,OCR)技術(shù)的一個(gè)重要分支。由于PMER 不僅需要從圖像中識(shí)別所有的符號(hào),而且還需要捕獲符號(hào)之間復(fù)雜的二維結(jié)構(gòu)信息,包括常量表達(dá)式、變量表達(dá)式、求積分、開(kāi)根號(hào)、復(fù)雜分?jǐn)?shù)、矩陣、求和、平方、立方等,而目前的OCR 技術(shù)無(wú)法處理含有二維結(jié)構(gòu)信息的數(shù)學(xué)表達(dá)式圖像。
傳統(tǒng)數(shù)學(xué)表達(dá)式圖像識(shí)別研究主要是基于字符分割的識(shí)別方法。1968 年,Anderson在其博士論文中首次提出了關(guān)于數(shù)學(xué)表達(dá)式圖像識(shí)別的研究。在Okamoto等人的系統(tǒng)中,將數(shù)學(xué)表達(dá)式識(shí)別分為依據(jù)字符投影的輪廓信息進(jìn)行數(shù)學(xué)表達(dá)式分割、使用模版匹配法進(jìn)行符號(hào)識(shí)別以及自頂向下和自底向上的結(jié)構(gòu)分析法。
目前基于深度學(xué)習(xí)的數(shù)學(xué)表達(dá)式圖像識(shí)別方法通常是基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)進(jìn)行圖像編碼,基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural NSetwork, RNN)并結(jié)合注意力機(jī)制生成字符級(jí)別的LaTeX 字符序列。中國(guó)科技大學(xué)語(yǔ)音和信息處理國(guó)家工程實(shí)驗(yàn)室張建樹(shù)和杜輝等人提出了基于GRU(Gated Recurrent Unit,GRU)的編碼器-解碼器框架的端到端的數(shù)學(xué)表達(dá)式識(shí)別方法,該方法能夠識(shí)別在線手寫(xiě)體數(shù)學(xué)表達(dá)式,它基于門(mén)控遞歸單元的循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)輸入的二維手寫(xiě)體軌跡進(jìn)行編碼,解碼器同樣是門(mén)控遞歸單元的循環(huán)神經(jīng)網(wǎng)絡(luò)在注意力機(jī)制作用下完成對(duì)數(shù)學(xué)表達(dá)式字符識(shí)別和結(jié)構(gòu)分析,最終輸出LaTeX 格式的字符序列?!?br>