999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力增強網絡的場景文字識別

2020-04-25 07:53:02徐富勇
現代計算機 2020年9期
關鍵詞:方法

徐富勇

(四川大學計算機學院,成都610065)

0 引言

近年來,由于自然場景文字識別在廣泛應用中的重要性,其引起了學術界和工業界的廣泛關注。很多應用都受益于場景文字的豐富語義信息,例如:交通標志的識別[1]、產品識別、圖片搜索和無人駕駛等。隨著場景文字檢測方法的發展,場景文字識別也成為當前研究的前沿課題,也是一個開放性和極具挑戰性的研究課題。

目前,規則的文字識別[2]取得了顯著的成功。基于卷積神經網絡的方法[2]得到了廣泛的應用。有很多研究方法將遞歸神經網絡[3-4]和注意機制[5-8]結合到識別模型中,并且還取得了很好的效果。然而,目前大多數的識別模型仍然不穩定,無法處理來自環境的多種干擾。不規則文字的各種形狀和扭曲模式對識別造成了更大的困難。如圖1 所示,透視和曲線形狀等不規則的場景文字仍然很難識別。

因此,我們提出了一種注意力增強網絡(Attention Enhanced Network,AEN),它可以識別自然場景中縮放和拉伸的文字,AEN 將含有文字的圖像作為輸入,直接輸出預測的單詞。

圖1 規則和不規則場景文字例子

當前的文字識別網絡存在一些問題,例如Cheng等人[5]發現現有的基于注意力的方法會出現注意力偏移的情況。因此,根據他們所提出方法的啟發,我們針對自己的模型,提出了注意力增強的方法來改進和訓練AEN。提出了基于相鄰注意力權重的雙向LSTM 解碼器。由于注意力增強的作用,AEN 對于上下文的變化更加魯棒。簡而言之,本文的主要貢獻如下:第一我們提出了一種基于注意力增強的解碼器方法,本方法可以解決注意力偏移的問題。第二我們提出的方法可以以弱監督的方式進行訓練,只需要提供文字標簽,這樣省去了大量的標注工作。

1 相關工作

隨著遞歸神經網絡(RNN)的廣泛應用,基于CNN(Convolutional Neural Network)與RNN(Recurrent Neural Network)結合的方法可以更好地學習上下文信息。施等人提出了一個具有CNN 和RNN 的端到端可訓練網絡,稱為CRNN。此外,注意力機制側重于信息區域以實現更好的性能。李等人[7]提出了一種基于注意力機制的遞歸網絡,用于場景文字識別。Cheng 等人[5]使用聚焦注意網絡(FAN)來糾正注意力機制的變化,實現更準確的注意力位置預測。

與規則場景文字識別工作相比,不規則文字識別更加困難。一種不規則的文字識別方法是自底向上的方法[8],它搜索每個字符的位置然后連接它們。另一種是自頂向下的方法[4]直接從整個輸入圖像識別文本,而不是檢測和識別單個字符。我們提出的AEN 方法采用的是自頂向下的方法。注意力增強方法被用于提高注意力的準確度。

2 方法

AEN,由帶有注意力增強解碼器的CNN-BLSTMLSTM 架構構成,直接處理和識別文字圖像,輸出預測結果。

圖2 AEN整體架構

2.1 AEN

如圖2 所示,AEN 的主要結構是CNN-BLSTMLSTM 框架。編碼器部分我們采用的是CNN-BLSTM架構。目前方法的解碼器是基于LSTM 直接生成目標序列(y1,y2,…,yT)。解碼器生成的最大步數為T。解碼器在預測到序列結束標記EOS 時停止處理。在時間步t,輸出yt如下:

公式中,st是時間第t 步隱藏層狀態,我們使用LSTM 來更新st,由如下公式計算更新:

st=LSTM( )yprev,gt,st-1(2)

yprev代表的是前一個時間段的輸出yt-1的嵌入向量,gt代表注意力權重向量。

在公式(4)中hi代表的是序列特征向量,L 是特征圖的長度。而第一項αt,i是注意力權重向量,計算如下:

4、移民安置監測。監測結果表明:6個移民安置點規劃建設總規模為3415.76畝,實際建設規模為4100.40畝,超規劃建設684.64畝;規劃人均建設用地面積84.36 m2,超出規劃要求的人均建設面積4.36 m2。2017年實際監測人均建設用地面積101.26 m2,相比于水區淹沒區人均建設用地面積108.97 m2,移民集中安置點人均建設用地減少了7.71 m2,新建設的城鎮移民安置點比淹沒前的居住建設更能體現出合理用地與集約節約用地。

在上述的公式中Wout,bout,Ws,Wh和b 都是可訓練的參數。注意:在訓練階段yprev是來自最后一步的真實標記。然而,在測試階段使用最后一步的預測輸出作為yt-1。本文解碼器是基于注意力增強的解碼器,借鑒于文獻[5]的思想,本文提出了相鄰注意力權重和雙向LSTM 解碼器方法,在2.2 小節詳細說明。AEN 的架構詳細信息見表1。

表1 AEN 架構

2.2 相鄰注意力權重方法

解碼器通過正確注意力的反饋,可以增強選擇正確注意力區域的能力。但是,自然場景圖像中存在著各種類型的噪聲。在實際應用中,解碼器可能會被欺騙以關注模糊背景區域。如果解碼器生成不正確的注意力區域,選擇非對應的特征,這將會導致預測失敗。

我們使用了一種稱為相鄰注意力權重的訓練方法,它在訓練階段每一個時間步都獲取一對相鄰的特征。通過此方法訓練的注意力解碼器可以感知相鄰的字符。我們在解碼器的每個時間步選擇和修改一對注意力。在時間步t,αt,k和αt,k+1以如下方式更新:

上式中的β 是(0,1)之間隨機生成的小數,k 是[1,T-1]之間隨機生成的整數。T 代表的是解碼器的最大步長。

基于相鄰注意力權重方法的解碼器,在αt,k和αt,k+1中都加入了隨機性。這意味著:即使對于相同的圖像,在訓練階段的每個時間步長,αt的分布都會發生變化。如等式(4)中所述,注意力向量gt根據αt的各種分布來獲取序列特征向量hi,其等同于特征區域在變化。 β 和k 的隨機性不僅可以避免過擬合,并且可以增強解碼器的魯棒性。注意:αt,k和αt,k+1是相鄰的。在不使用相鄰注意力權重方法時,序列特征向量hk的誤差項是:

δhk=δgtαt,k(8)

上式中δgt是注意力向量gt的誤差項,δhk僅與αt,k有關。但是,使用相鄰注意力權重方法,誤差項變為:

其中αt,k+1與hk相關,如等式(5)和(6)所示,這意味著δhk受相鄰特征決定,因此,反向傳播的梯度能夠在更寬范圍的相鄰區域上動態地優化解碼器。

使用上述方法訓練的AEN 在每個時間步驟產生更平滑的αt。所以,我們不僅可以提取目標字符的特征,而且還提取了前景和背景上下文的特征。如圖3所示,使用此方法能夠正確地預測目標字符。

2.3 模型訓練

網絡訓練的優化算法使用Adadelta,本文通過Adadelta 分別計算每個參數上的學習率。在實際使用中,Adadelta 的收斂速度更快。

圖3 是否帶相鄰注意力權重方法訓練的比較

3 實驗

在本節中,我們將在各種基準數據集上進行廣泛實驗,包括規則和不規則文字數據集。所有方法的性能都是通過單詞級的精度來衡量的。

3.1 數據集

IIIT5K-Words(IIIT5K)[9]包含用于測試的3000 張裁剪單詞圖像。每張圖像都有一個50 詞的詞匯表和一個1000 詞的詞匯表。詞匯表由一個正確的單詞和其他隨機選擇的單詞組成。

ICDAR 2003(IC03)是ICDAR 2003 競賽所使用的數據集。本文只使用其識別數據集。包含非字母數字和長度小于3 的文字圖片被從數據集中剔除。過濾后的識別數據集包含860 張裁剪圖片。

Street View Text(SVT)[10]采集自Google Street View,其測試集包含647 張裁剪后的圖片。許多圖片都受到噪聲的嚴重影響,或者分辨率很低。每個圖像都與一個50 詞的詞匯表相關聯。

ICDAR 2013(IC13)[11]的 大 部 分 樣 本 都 繼 承 自IC03,它包含1015 個裁剪文字圖像。沒有與此數據集關聯的詞匯表。

3.2 實現細節

網絡結構:有關AEN 的詳細信息分表1 中給出。解碼器中LSTM 的隱藏單元數為256。

模型訓練:AEN 以端到端的方式進行訓練。訓練數據由Jaderberg 等人發布的800 萬張合成圖像[21]和Gupta 等人發布的600 萬合成圖像構成[22]。使用Adadelta 自適應學習率調整的優化方法,我們在開始時將學習率設置為1.0。

實現:我們基于PyTorch 1.0 框架實現了我們的方法。我們的實驗中使用NVIDIA RTX-1060 GPU、CUDA 9.0 和CuDNN v7 后端,所有圖像尺寸都調整為32×100。

3.3 AEN在文字數據集上的性能

我們在常用規則文字數據集上進行評估,這些數據集中大多數測試樣本是規則文字,其中有一小部分是不規則文字。我們將本文方法與之前4 種方法進行比較,結果如表2 所示。AEN 在沒有詞匯表的模式下優于所有當前最好的方法。

3.4 AEN的局限

為了公平比較和良好的可重復性,我們選擇了廣泛使用的訓練數據集進行測試。我們發現由于場景文字背景復雜,當文字彎曲角度太大時,本文方法可能會失效,其可能會錯誤地將復雜背景視為前景。上述實驗均基于裁剪文字識別,沒有文字檢測器的AEN 不是端到端場景文字檢測識別系統。在更多應用場景中,不規則和多方向的文字對于檢測和識別都具有很大的挑戰性。所以,任意形狀場景文字識別仍然是一個等待解決方案的挑戰性問題。

4 結語

在本文中,我們提出了一個用于場景文字識別的注意力增強網絡。本文方法使用基于相鄰注意力權重的雙向解碼器的序列識別網絡來識別文字圖像并預測輸出。我們在規則和不規則文字數據集上進行了大量實驗,都表現出了優異的識別性能。將來,我們有必要擴展這種方法來處理任意方向和任意弧度的文字識別問題,由于文字和背景的多樣性,這個問題更具挑戰性。由于端到端文字識別性能的改進不僅取決于識別模型,還取決檢測模型。所以,找到一種將AEN 與場景文字檢測器結合起來的正確有效方法也是值得研究的方向。

表2 AEN 在規則文字測試集上的準確率

猜你喜歡
方法
中醫特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數學教學改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學反應多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學習方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 伊人五月丁香综合AⅤ| 天堂网亚洲综合在线| 91精品啪在线观看国产60岁| 久久久久免费精品国产| 沈阳少妇高潮在线| 91精品专区国产盗摄| 毛片免费高清免费| 欧美激情综合一区二区| 99在线国产| 欧美视频在线观看第一页| 99视频精品全国免费品| 亚洲经典在线中文字幕| 一级毛片免费观看不卡视频| 亚洲婷婷六月| 色婷婷色丁香| 国产精品人成在线播放| 欧美自拍另类欧美综合图区| 狠狠干综合| 色妞永久免费视频| 综合色天天| 呦视频在线一区二区三区| 国产精品99r8在线观看| 国产极品美女在线| 亚洲91精品视频| 9啪在线视频| 日日拍夜夜操| 又爽又大又光又色的午夜视频| 国产精品福利在线观看无码卡| 国产欧美专区在线观看| 亚洲无码高清视频在线观看| 伊人久久青草青青综合| yjizz视频最新网站在线| 高清乱码精品福利在线视频| 国产喷水视频| 51国产偷自视频区视频手机观看| 国产无码精品在线| 国产福利免费视频| 久热精品免费| 性色生活片在线观看| 爆操波多野结衣| 久久99精品久久久久久不卡| 免费精品一区二区h| 精品国产香蕉在线播出| 亚洲中文字幕国产av| 午夜日b视频| 国产精品嫩草影院av| 久久无码高潮喷水| 中文字幕免费在线视频| 亚洲国产成人自拍| 91区国产福利在线观看午夜| 黄色网址免费在线| 激情亚洲天堂| 亚洲精品色AV无码看| 亚洲一区二区约美女探花| 22sihu国产精品视频影视资讯| 国产成人啪视频一区二区三区| 四虎精品免费久久| 欧美精品H在线播放| 欧美成人精品欧美一级乱黄| 久久人搡人人玩人妻精品一| 一区二区三区在线不卡免费| 国产全黄a一级毛片| 国产丝袜一区二区三区视频免下载| 免费又爽又刺激高潮网址| 国产免费网址| 国产女人在线| www.99在线观看| 超薄丝袜足j国产在线视频| 久久精品国产一区二区小说| 免费一级毛片完整版在线看| 欧美激情福利| 国产91精品最新在线播放| 99国产在线视频| 中国黄色一级视频| 九月婷婷亚洲综合在线| 欧美成人综合在线| 国产精品视频导航| 亚洲欧美极品| 91亚洲视频下载| 久久国产高清视频| 丝袜国产一区| 综合社区亚洲熟妇p|