999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ResNet 與Transformer 的離線手寫數(shù)學(xué)公式識(shí)別

2022-07-19 12:05:46周名杰
科技創(chuàng)新與應(yīng)用 2022年21期
關(guān)鍵詞:數(shù)學(xué)模型

周名杰

(南京郵電大學(xué) 自動(dòng)化學(xué)院、人工智能學(xué)院,江蘇 南京 210042)

隨著移動(dòng)設(shè)備的快速普及和相關(guān)技術(shù)的快速發(fā)展,更多的輸入和識(shí)別手寫數(shù)學(xué)表達(dá)式的情況出現(xiàn),這要求我們有快速、穩(wěn)定和準(zhǔn)確的手寫數(shù)學(xué)字符識(shí)別方法。但是,手寫字符通常風(fēng)格變化多樣,并需要關(guān)注上下文信息。除此之外,數(shù)學(xué)表達(dá)式結(jié)構(gòu)復(fù)雜,常常為復(fù)雜的二維結(jié)構(gòu),甚至出現(xiàn)多種結(jié)構(gòu)嵌套的情況。不同于在線識(shí)別,離線圖片中不包含筆跡信息,只能通過(guò)圖像本身作為單一信息源來(lái)識(shí)別表達(dá)式。因此,對(duì)于手寫數(shù)學(xué)表達(dá)式的識(shí)別研究充滿了挑戰(zhàn)。

在傳統(tǒng)的離線手寫數(shù)學(xué)表達(dá)式識(shí)別方法中,往往將數(shù)學(xué)表達(dá)式的識(shí)別分為兩大部分,符號(hào)的切分和識(shí)別部分以及結(jié)構(gòu)解析部分[1]。字符的切分往往是基于圖像中的像素點(diǎn)[2]或者是設(shè)計(jì)包圍字符[3]的包圍框等。卷積神經(jīng)網(wǎng)絡(luò)方法[4],常被用在字符的識(shí)別中。結(jié)構(gòu)解析部分,大致分為兩類算法,一類是基于語(yǔ)法的結(jié)構(gòu)解析,如有限從句語(yǔ)法[5],上下文無(wú)關(guān)語(yǔ)法[6]等。另一類算法是不基于語(yǔ)法的結(jié)構(gòu)解析算法,如MacLean 的貝葉斯模型方法[7],Hirata 的模板匹配方法[8]等。

近年來(lái),基于編碼解碼結(jié)構(gòu)的方法取得了較為明顯的成功。編碼解碼結(jié)構(gòu)在序列到序列的問(wèn)題,如自然語(yǔ)言處理任務(wù)中擁有不錯(cuò)的表現(xiàn)。ZHANG 的WAP模型[9]中,使用VGG[10]作為編碼環(huán)節(jié),將輸入圖片中的特征進(jìn)行提取,生成序列數(shù)據(jù);包含了注意力模塊的循環(huán)神經(jīng)網(wǎng)絡(luò)[11]作為解碼環(huán)節(jié)。密集連接卷積編碼器和多尺度注意力模型[12],進(jìn)一步提升了編碼解碼結(jié)構(gòu)的性能。

為了解決循環(huán)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的時(shí)序依賴問(wèn)題,文獻(xiàn)[13]提出了完全使用注意力實(shí)現(xiàn)的模型Transformer,代替了循環(huán)神經(jīng)網(wǎng)絡(luò),在翻譯任務(wù)上取得了很好的成績(jī)。

針對(duì)手寫數(shù)學(xué)表達(dá)式識(shí)別,本文提出基于ResNet[14]與Transformer 結(jié)合的方法,首先通過(guò)殘差網(wǎng)絡(luò),序列化圖片中的特征信息,之后經(jīng)過(guò)位置編碼[15]添加位置信息。經(jīng)過(guò)處理的特征序列輸入到Transformer 進(jìn)行編碼解碼計(jì)算,達(dá)到識(shí)別手寫數(shù)學(xué)表達(dá)式的目的。

1 方法概述

受編碼解碼模型以及注意力模型的啟發(fā),本文提出一種新型的基于ResNet 與Transformer 網(wǎng)絡(luò)的結(jié)構(gòu),用以實(shí)現(xiàn)對(duì)手寫數(shù)學(xué)表達(dá)式的識(shí)別工作,整體結(jié)構(gòu)如圖1 所示。本模型的輸入為單個(gè)圖像,輸出為L(zhǎng)aTex 序列的公式表達(dá)。

圖1 模型整體結(jié)構(gòu)圖

整體公式:

1.1 圖像特征提取

1.1.1 殘差網(wǎng)絡(luò)

本文使用的是標(biāo)準(zhǔn)的ResNet34 網(wǎng)絡(luò),但是將最后一層全連接層替換為線性網(wǎng)絡(luò),實(shí)現(xiàn)將C×H×W 的圖像轉(zhuǎn)化為N×D 的二維序列。

1.1.2 位置編碼

殘差網(wǎng)絡(luò)的輸出序列x,以及解碼器輸出將經(jīng)由位置編碼,用以利用序列之間的位置信息。本文使用的位置編碼方式為相對(duì)位置編碼,并使用三角函數(shù)來(lái)計(jì)算位置信息。公式如下所示:

1.2 編碼解碼

Transformer 網(wǎng)絡(luò)中的編碼模塊由多層子網(wǎng)絡(luò)組成,子網(wǎng)絡(luò)包含多頭注意力與前向網(wǎng)絡(luò)。解碼模塊具有類似的結(jié)構(gòu),但是增加了掩模多頭注意力網(wǎng)絡(luò)。解碼網(wǎng)絡(luò)的輸入是編碼網(wǎng)絡(luò)的輸出F、前部分解碼網(wǎng)絡(luò)的輸出Zl-1。

1.2.1 多頭注意力

多頭注意力(圖2 右)由多個(gè)注意力機(jī)制(圖2 左)組成,公式為

圖2 注意力以及多頭注意力

1.2.2 掩模多頭注意力

解碼器在進(jìn)行對(duì)查詢、鍵和值的注意力計(jì)算時(shí),需要有一個(gè)特殊的當(dāng)前查詢,它需要滿足能夠包含當(dāng)前位置以及之前的信息,并且在訓(xùn)練時(shí)不會(huì)包含“未來(lái)的”信息,即當(dāng)前位置之后的輸入。根據(jù)注意力模型中softmax 函數(shù)的性質(zhì),采用負(fù)無(wú)窮化將當(dāng)前位置之后的輸入,使softmax 計(jì)算的結(jié)果趨近于0,達(dá)到只注意當(dāng)前以及之前生成結(jié)果的目的。

2 訓(xùn)練和預(yù)測(cè)方法

在訓(xùn)練階段,目標(biāo)是最大化預(yù)測(cè)詞的概率,使用交叉熵作為目標(biāo)函數(shù):

loss=CrossEntropy (y,trg),其中y 是預(yù)測(cè)標(biāo)簽,trg 是正確標(biāo)簽。

本模型是整體訓(xùn)練的,輸入為圖片,輸出為一維向量,代表各字符所在字典中的序號(hào)。字典中包含115 個(gè)LaTex 符號(hào)以及開始標(biāo)志,結(jié)束標(biāo)志,空白標(biāo)志。正確標(biāo)簽在開頭與結(jié)尾分別加上開始標(biāo)志以及結(jié)束標(biāo)志。空白標(biāo)志用于各批次數(shù)據(jù)補(bǔ)齊。

在預(yù)測(cè)階段,目標(biāo)是得到最可能的預(yù)測(cè)字符向量:

與訓(xùn)練階段不同的是,我們將過(guò)去生成的結(jié)果作為假定的正確標(biāo)簽輸入,初始輸入為開始標(biāo)志。我們使用束搜索方法進(jìn)行預(yù)測(cè)。

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

我們的數(shù)據(jù)集使用CROHME2016 的競(jìng)賽數(shù)據(jù)集,數(shù)據(jù)集共包含8 852 個(gè)數(shù)學(xué)表達(dá)式的訓(xùn)練集和1 個(gè)包含1 147 個(gè)數(shù)學(xué)表達(dá)式的測(cè)試集。

3.2 驗(yàn)證

在CROHME 的比賽中,使用表達(dá)式正確識(shí)別率(競(jìng)賽組織者提供)來(lái)評(píng)價(jià)模型的表現(xiàn)。

我們?cè)趯?shí)驗(yàn)中還使用了單詞錯(cuò)誤率(WER[16]),每當(dāng)在表達(dá)式中發(fā)生替換、刪除和增加時(shí),都記作一次錯(cuò)誤。其計(jì)算公式如下:

3.3 結(jié)果及分析

表1 列出了本文方法及其他相關(guān)模型在數(shù)據(jù)集中的表達(dá)式正確識(shí)別率及WER。

表1 本文方法與其他相關(guān)模型對(duì)測(cè)試數(shù)據(jù)集中的表達(dá)式正確識(shí)別對(duì)比

與各個(gè)參賽的模型進(jìn)行對(duì)比,可以看到本文的方法對(duì)測(cè)試數(shù)據(jù)集中的表達(dá)式能達(dá)到有效識(shí)別,單詞錯(cuò)誤率與WAP 模型相近,證明了本模型的有效性。為了提升表達(dá)式正確識(shí)別率,我們使用擴(kuò)展的數(shù)據(jù)集,擴(kuò)展數(shù)據(jù)集除了現(xiàn)有數(shù)據(jù)之外,還包含了生成數(shù)據(jù)和采用了隨機(jī)旋轉(zhuǎn)、縮放和扭曲[17]的現(xiàn)有數(shù)據(jù),實(shí)驗(yàn)表明表達(dá)式正確識(shí)別率能夠得到提升,達(dá)到45.43%,WER 達(dá)到18.8%。

與傳統(tǒng)的分步公式識(shí)別方法進(jìn)行對(duì)比,見表1,盡管Wiris 的公式識(shí)別率較高,但是其模型使用了大量的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,這表明一個(gè)好的解析模型對(duì)結(jié)果的影響很大。

4 結(jié)束語(yǔ)

在本文中我們介紹了一種識(shí)別手寫數(shù)學(xué)表達(dá)式的新方法,它由殘差網(wǎng)絡(luò)與Transformer 網(wǎng)絡(luò)組成,本模型能有效地在不進(jìn)行顯示分割的情況下完成對(duì)字符的識(shí)別以及結(jié)構(gòu)的分析,在CROHME2016 數(shù)據(jù)集上進(jìn)行了測(cè)試。

在未來(lái)的工作中,我們計(jì)劃采用多尺度分析方法來(lái)改進(jìn)模型,以及探索本模型在文本識(shí)別等其他場(chǎng)景下的應(yīng)用。

猜你喜歡
數(shù)學(xué)模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
我們愛數(shù)學(xué)
3D打印中的模型分割與打包
我為什么怕數(shù)學(xué)
新民周刊(2016年15期)2016-04-19 18:12:04
數(shù)學(xué)到底有什么用?
新民周刊(2016年15期)2016-04-19 15:47:52
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
數(shù)學(xué)也瘋狂
錯(cuò)在哪里
主站蜘蛛池模板: 成人无码一区二区三区视频在线观看| 亚洲AⅤ波多系列中文字幕| 欧美成人A视频| 日韩精品一区二区三区免费| 国产乱子伦手机在线| 一本久道久综合久久鬼色| 国产av无码日韩av无码网站| 亚洲午夜福利精品无码不卡| 又爽又大又黄a级毛片在线视频| 91免费观看视频| 久久激情影院| 久久狠狠色噜噜狠狠狠狠97视色| 国产va在线观看免费| 婷婷综合缴情亚洲五月伊| 丁香婷婷久久| av在线手机播放| 精品国产一区二区三区在线观看| 国产精品尹人在线观看| 特级毛片免费视频| 亚洲成a人在线观看| 91破解版在线亚洲| 露脸一二三区国语对白| 国产又爽又黄无遮挡免费观看| 露脸一二三区国语对白| 免费不卡视频| 日韩a在线观看免费观看| 91精选国产大片| AV不卡无码免费一区二区三区| 91亚洲免费视频| 亚洲精品国产首次亮相| 麻豆国产精品视频| 久久精品亚洲热综合一区二区| 国产女人18水真多毛片18精品 | 国产在线精彩视频论坛| 欧洲成人免费视频| 欧美一区二区丝袜高跟鞋| 人人澡人人爽欧美一区| 99久久国产综合精品2020| 日本在线亚洲| 97在线观看视频免费| 日韩A∨精品日韩精品无码| 五月天在线网站| 久久免费精品琪琪| 亚洲日本中文字幕天堂网| 亚洲国产精品无码久久一线| 欧美中文字幕第一页线路一| 亚洲色图狠狠干| 无码乱人伦一区二区亚洲一| 精品视频一区二区三区在线播| 成年人视频一区二区| 91国内在线观看| 日本国产精品| 国产h视频在线观看视频| 99一级毛片| 国产最新无码专区在线| 国产精品第三页在线看| www.99在线观看| 亚洲成综合人影院在院播放| 国产在线专区| 女高中生自慰污污网站| 亚洲无码久久久久| 人妻无码中文字幕第一区| 亚洲嫩模喷白浆| 欧美成人午夜影院| 久久99国产综合精品1| 91精品国产一区自在线拍| 色首页AV在线| 免费国产黄线在线观看| 欧美三级视频网站| 国产内射一区亚洲| 国产午夜一级淫片| 欧美在线一二区| 久久天天躁狠狠躁夜夜2020一| 国产精选小视频在线观看| 99re精彩视频| 久久久受www免费人成| 试看120秒男女啪啪免费| 国产一区二区三区在线无码| 中文字幕永久在线看| 无码又爽又刺激的高潮视频| 久久这里只有精品23| 美女毛片在线|