999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

雙網(wǎng)絡(luò)模型下的智能醫(yī)療票據(jù)識別方法

2020-06-18 05:50:30鄭祖兵盛冠群唐新功李長晟
計算機(jī)工程與應(yīng)用 2020年12期
關(guān)鍵詞:文本檢測方法

鄭祖兵,盛冠群,,謝 凱,唐新功,文 暢,李長晟

1.長江大學(xué) 電工電子國家級實驗教學(xué)示范中心,湖北 荊州434000

2.長江大學(xué) 電子信息學(xué)院,湖北 荊州434023

3.油氣資源與勘探技術(shù)教育部重點實驗室(長江大學(xué)),武漢430100

4.長江大學(xué) 計算機(jī)科學(xué)學(xué)院,湖北 荊州434023

1 引言

隨著現(xiàn)代社會醫(yī)療水平的提高,每天有大量醫(yī)療票據(jù)需要錄入計算機(jī)存儲與處理。傳統(tǒng)方式為人工將票據(jù)中數(shù)據(jù)錄入計算機(jī),其成本高、效率低,票據(jù)錄入工作任務(wù)重、強(qiáng)度大,極易導(dǎo)致錄入人員疲勞致使工作出錯。醫(yī)療行業(yè)迫切需要一種自動票據(jù)識別錄入方法。

在票據(jù)識別領(lǐng)域:Wei等[1]提出了通過集成稀疏編碼和矢量量化(VQ)技術(shù)開發(fā)的緊湊型MQDF分類器,在沒有精度損失的情況下實現(xiàn)了低存儲空間的手寫漢字分類;Song等[2]提出了應(yīng)用圖像濾波的銀行票據(jù)單號識別方法,對彩色紙幣圖像進(jìn)行圖像增強(qiáng)處理,應(yīng)用模式匹配方法對單號信息進(jìn)行準(zhǔn)確地提?。恢x文彬等[3]通過建立一種基于結(jié)構(gòu)特征的分類器,根據(jù)票據(jù)中每個單號的結(jié)構(gòu)特征值,能對發(fā)票單號進(jìn)行分類識別;薛峰[4]提出了一種針對銀行票據(jù)的自動識別系統(tǒng),用以提取票據(jù)中部分信息。目前國內(nèi)外學(xué)者對于票據(jù)識別的研究較少,上述票據(jù)識別方法只能識別票據(jù)中部分信息(如票據(jù)單號),無法完成對全部信息的提取識別,且現(xiàn)階段票據(jù)識別方法均是針對標(biāo)準(zhǔn)的打印字體,其字體規(guī)范、無斷點、易于辨認(rèn),而醫(yī)用針式打印機(jī)打印出字符筆畫含有斷點、分辨率低,如圖1所示,現(xiàn)有的方法難以準(zhǔn)確識別此類不規(guī)范的字體。

圖1 針式打印字體效果圖

在深度學(xué)習(xí)領(lǐng)域:Yang等[5]從實例感知分割角度提出了一種端到端場景文本檢測器IncepText,并引入了可變形的PSROI池化層來處理面向多向的文本檢測,解決了場景文本中的寬高比、比例和方向不確定造成的識別精度低的問題;Zhu等[6]提出了滑動線點回歸(SLPR)方法,以檢測自然場景中的任意形狀的文本;Dai等[7]提出了面向多向場景的神經(jīng)網(wǎng)絡(luò)文本檢測方法,在特征提取過程中結(jié)合了多級網(wǎng)絡(luò)的特征,使得模型具有更精細(xì)的特征表達(dá);Zhang等[8]提出了一種新的基于軌跡的激進(jìn)分析網(wǎng)絡(luò)(TRAN),利用字符的固有結(jié)構(gòu)特點,首先識別自由基并同時分析基團(tuán)之間的二維結(jié)構(gòu),然后通過基于內(nèi)部自由基的分析來識別漢字;李偉山等[9]以Faster-RCNN算法為基礎(chǔ),對候選區(qū)域網(wǎng)絡(luò)(RPN)結(jié)構(gòu)進(jìn)行了改進(jìn),提出了一種“金字塔RPN”結(jié)構(gòu)來解決井下行人檢測存在的多尺度問題,同時算法中加入了特征融合技術(shù),將不同卷積層輸出的特征圖進(jìn)行融合,增強(qiáng)煤礦井下模糊、遮擋和小目標(biāo)行人檢測的性能;史凱靜等[10]提出一種基于FasterRCNN的前方車輛檢測方法,能準(zhǔn)確定位與識別出不同交通環(huán)境場景下的前方車輛。上述方法應(yīng)用神經(jīng)網(wǎng)絡(luò)于字符、圖像識別領(lǐng)域,能實現(xiàn)快速準(zhǔn)確的識別,雖然識別目標(biāo)受環(huán)境的影響較大,但神經(jīng)網(wǎng)絡(luò)模型具有較強(qiáng)的魯棒性,模型均能維持穩(wěn)定較好的識別效果。

目前國內(nèi)外尚無成熟的醫(yī)療票據(jù)處理系統(tǒng),且傳統(tǒng)票據(jù)識別大多采用模板匹配方法,靈活性差;深度學(xué)習(xí)的應(yīng)用廣泛,基于深度學(xué)習(xí)的目標(biāo)檢測研究較為深入,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測方法基于單網(wǎng)絡(luò)進(jìn)行物體的定位與識別,對于簡單且類別數(shù)較少的分類任務(wù),單網(wǎng)絡(luò)方法能減小網(wǎng)絡(luò)的參數(shù)量和復(fù)雜度,但對于復(fù)雜背景下的多目標(biāo)檢測任務(wù),如字符識別任務(wù),其需要進(jìn)行大規(guī)模的定位與識別,單網(wǎng)絡(luò)的同一參數(shù)值既難以描述位置信息又難以描述類別信息,且普通的淺層網(wǎng)絡(luò)難以實現(xiàn)此類復(fù)雜需求,隨著網(wǎng)絡(luò)層數(shù)的加深,網(wǎng)絡(luò)的參數(shù)量呈幾何倍數(shù)增加,當(dāng)參數(shù)量過大、層數(shù)過深時導(dǎo)致網(wǎng)絡(luò)龐大、難以訓(xùn)練。

基于以上分析,本方法將深度學(xué)習(xí)與票據(jù)識別相結(jié)合,提出了基于FasterRCNN與深度卷積神經(jīng)網(wǎng)絡(luò)的雙網(wǎng)絡(luò)模型針式打印字體醫(yī)療票據(jù)識別方法,分步實現(xiàn)定位與識別,避免了因網(wǎng)絡(luò)層數(shù)過深導(dǎo)致的梯度消失或梯度爆炸的問題,針對票據(jù)中的全部信息進(jìn)行準(zhǔn)確識別。此外,本文還提出了自適應(yīng)學(xué)習(xí)策略與新型票據(jù)矯正方法以提高雙網(wǎng)絡(luò)模型的性能。

2 雙網(wǎng)絡(luò)模型票據(jù)識別方法

本文采用FasterRCNN與深度卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的雙網(wǎng)絡(luò)模型進(jìn)行票據(jù)中字符的定位識別。層數(shù)較深的神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練的時候容易出現(xiàn)梯度消失(gradient vanishing problem)或梯度爆炸(gradient exploding problem)的問題,且隨著網(wǎng)絡(luò)層數(shù)的增加變得越來越明顯,這是因為深度神經(jīng)網(wǎng)絡(luò)在反向傳播的過程中,根據(jù)鏈?zhǔn)角髮?dǎo)法則[11],梯度會隨著反向傳播層數(shù)的增加而呈指數(shù)衰減或增長趨勢,從而導(dǎo)致梯度消失或梯度爆炸。在復(fù)雜特征多分類任務(wù)上,本文方法通過使用雙模型來降低網(wǎng)絡(luò)深度。

圖2 使用雙網(wǎng)絡(luò)模型進(jìn)行票據(jù)識別算法原理圖

本方法只需標(biāo)記不同區(qū)域的類別與位置就能生成文本定位訓(xùn)練集,字符識別訓(xùn)練集由程序基于字體文件自動生成,數(shù)據(jù)集制作難度低、工作量小。

利用雙網(wǎng)絡(luò)模型進(jìn)行票據(jù)識別的算法流程如圖2所示,主要分為:(1)構(gòu)建文本定位網(wǎng)絡(luò)模型;(2)構(gòu)建字符識別網(wǎng)絡(luò)模型;(3)票據(jù)圖像處理與基于雙網(wǎng)絡(luò)模型的票據(jù)識別。

2.1 文本定位網(wǎng)絡(luò)模型

2.1.1 票據(jù)數(shù)據(jù)集制作

醫(yī)療票據(jù)中的信息分為出廠印刷內(nèi)容和后期打印內(nèi)容。在構(gòu)建票據(jù)識別系統(tǒng)時,固定格式的出廠印刷內(nèi)容預(yù)先導(dǎo)入數(shù)據(jù)庫,識別階段只需處理后期打印的醫(yī)療信息。本方法預(yù)先采集了3 000張具有完整信息的醫(yī)療票據(jù)圖像用以制作數(shù)據(jù)集,根據(jù)票據(jù)的版面信息標(biāo)定文本位置并標(biāo)注所屬類別,如圖3,以生成用于文本定位網(wǎng)絡(luò)訓(xùn)練的票據(jù)訓(xùn)練集。

圖3 文本位置標(biāo)定示意圖

2.1.2 構(gòu)建文本定位網(wǎng)絡(luò)

文本定位模塊采用基于VGG16[12]的FasterRCNN,其包含13個卷積層,如圖4,適中深度的卷積層既能保證網(wǎng)絡(luò)有足夠的參數(shù)擬合字符的深層次特征,又避免了網(wǎng)絡(luò)過深引起的網(wǎng)絡(luò)難收斂的現(xiàn)象。

圖4 基于VGG16的FasterRCNN中的卷積層

FasterRCNN使用候選區(qū)域網(wǎng)絡(luò)(Region Proposal Network,RPN)來生成檢測目標(biāo)的建議框,較傳統(tǒng)的選擇性搜索(Selective Search)建議框生成算法性能更優(yōu)。RPN能學(xué)習(xí)預(yù)測建議框A與真實標(biāo)記框G之間的差異,通過對建議框微調(diào)得到輸出框G′,如圖5,從而準(zhǔn)確預(yù)測文本的位置。

圖5 建議框位置回歸示意圖

針對票據(jù)中字符位置、大小不固定的特點,本方法對FasterRCNN網(wǎng)絡(luò)結(jié)構(gòu)做出了改進(jìn),使用多個1×1,3×3的卷積核來代替?zhèn)鹘y(tǒng)的3×3固定大小的卷積核,如圖6,多尺度卷積核可有效融合圖像不同尺寸的相鄰區(qū)域的特征,大卷積核提取圖像的全局性特征,小卷積核提取圖像的局部特征,使網(wǎng)絡(luò)捕獲圖像特征的能力更強(qiáng),模型的文本檢測能力大幅提升。

圖6 多尺度卷積核示意圖

2.1.3 網(wǎng)絡(luò)訓(xùn)練與測試

在網(wǎng)絡(luò)訓(xùn)練過程中,將票據(jù)訓(xùn)練集作為網(wǎng)絡(luò)的輸入,記網(wǎng)絡(luò)的輸入為?(Ai),平移量為(tx,ty),尺度因子為(tw,th),學(xué)習(xí)率為λ,網(wǎng)絡(luò)需要學(xué)習(xí)的參數(shù)為w,則損失函數(shù)[13]表示為(*表示x,y,w,h):

網(wǎng)絡(luò)的優(yōu)化目標(biāo)為:

則網(wǎng)絡(luò)通過反復(fù)迭代,利用誤差的反向傳播來更新網(wǎng)絡(luò)參數(shù)w*。

本文提出了基于inv學(xué)習(xí)策略[14]改進(jìn)的自適應(yīng)學(xué)習(xí)策略(adaptive learning rate),其規(guī)定了網(wǎng)絡(luò)在第iter次迭代時的學(xué)習(xí)率lriter可表示為:

其中,baselrgamma power均為人工設(shè)定值,baselr為網(wǎng)絡(luò)初始學(xué)習(xí)率,gamma為控制曲線下降的速率,power為控制曲線在飽和狀態(tài)下學(xué)習(xí)率可達(dá)的最低值,iter表示網(wǎng)絡(luò)當(dāng)前迭代次數(shù)。

自適應(yīng)學(xué)習(xí)策略的優(yōu)勢在于學(xué)習(xí)率在每次迭代時都會有細(xì)微變化,當(dāng)loss下降時學(xué)習(xí)率會減小,而當(dāng)loss上升時學(xué)習(xí)率會增大,由于隨機(jī)梯度下降法[15](Stochastic Gradient Descent)在更新參數(shù)時不一定會按照正確的方向進(jìn)行,自適應(yīng)學(xué)習(xí)率能在loss上升時增大學(xué)習(xí)率,較大的學(xué)習(xí)率有利于跳出局部最小值,到達(dá)全局最低點,從而使網(wǎng)絡(luò)能更快地找到梯度下降最快的方向。選取的參數(shù):gamma=0.01,power=0.75。

當(dāng)網(wǎng)絡(luò)進(jìn)行了15000次反復(fù)迭代時,誤差小于1×10-3,此時認(rèn)為網(wǎng)絡(luò)已經(jīng)擬合,停止網(wǎng)絡(luò)訓(xùn)練。利用測試集測試網(wǎng)絡(luò)性能,模型能對字符所在位置進(jìn)行精準(zhǔn)的標(biāo)注。

2.2 字符識別網(wǎng)絡(luò)模型

2.2.1 字庫數(shù)據(jù)集制作

本方法采用國標(biāo)一級字庫和醫(yī)療術(shù)語字庫共4 200類字符,通過程序自動生成字庫圖像,并聯(lián)合高斯模糊、腐蝕等多種圖像處理方法處理字庫圖像,模擬針式打印字體,使得用于訓(xùn)練的字庫數(shù)據(jù)集最大程度地接近真實票據(jù)中的字體,再對字符圖像進(jìn)行類別標(biāo)注,生成用于字符識別網(wǎng)絡(luò)訓(xùn)練的字庫訓(xùn)練集(圖7為算法實現(xiàn)流程圖),貼近真實票據(jù)字體的訓(xùn)練集訓(xùn)練得到的網(wǎng)絡(luò)模型的識別率高。

圖7 字庫數(shù)據(jù)集的制作流程圖

2.2.2 構(gòu)建字符識別網(wǎng)絡(luò)

字符識別網(wǎng)絡(luò)通過增加網(wǎng)絡(luò)的層數(shù)來增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力,從而獲得更好的特性表征。網(wǎng)絡(luò)采用自適應(yīng)矩估計(Adaptive Moment Estimation,Adam)優(yōu)化算法[16],Adam算法綜合考慮梯度的一階矩估計[16](First Moment Estimation)和二階矩估計[16](Second Moment Estimation)來動態(tài)調(diào)整網(wǎng)絡(luò)中每個參數(shù)的學(xué)習(xí)率,設(shè)mt與vt分別為梯度一階矩估計與二階矩估計,學(xué)習(xí)率為η,為防止分母為零設(shè)置ε為平滑項,則對于t+1時刻,其參數(shù)更新規(guī)則可表示為:

Adam優(yōu)化算法下網(wǎng)絡(luò)通常僅需微調(diào)其超參數(shù)就能擬合,選取的參數(shù)為:學(xué)習(xí)率α=0.001、一階矩估計的指數(shù)衰減率β1=0.9、二階矩估計的指數(shù)衰減率β2=0.999和參數(shù)ε=1×10-8。

字符識別網(wǎng)絡(luò)采用“標(biāo)簽平滑歸一化”(Label Smoothing Regularization)方法[17]對真實標(biāo)簽進(jìn)行改造,使其不再是one-hot形式。在one-hot形式下,4 200分類任務(wù)中某類標(biāo)簽的表示形式為:

網(wǎng)絡(luò)輸出的預(yù)測概率為:

其中,zi為未被歸一化的對數(shù)概率,q為樣本的真實類別標(biāo)簽概率,則交叉熵?fù)p失表示為:

訓(xùn)練目標(biāo)是最小化損失函數(shù),網(wǎng)絡(luò)需要用預(yù)測概率去擬合真實概率,因為one-hot中全概率和零概率使得本類別與其他類別的差距達(dá)到最大值,當(dāng)訓(xùn)練充分時,網(wǎng)絡(luò)容易過擬合,最終會造成模型過于相信預(yù)測的類別。為防止模型把預(yù)測結(jié)果偏向于概率較大類別上,“標(biāo)簽平滑歸一化”方法將零概率替換為一個較小的數(shù)ε,將全概率替換為較接近的數(shù)1-ε,而使得網(wǎng)絡(luò)不會完全貼近訓(xùn)練數(shù)據(jù),從而降低了網(wǎng)絡(luò)過擬合的風(fēng)險。

2.2.3 網(wǎng)絡(luò)訓(xùn)練與測試

在網(wǎng)絡(luò)訓(xùn)練階段,將票據(jù)訓(xùn)練集作為網(wǎng)絡(luò)的輸入,采用“Xavier”方法[18]初始化網(wǎng)絡(luò)權(quán)重,使得網(wǎng)絡(luò)參數(shù)能獲得一個合適的初值以利于網(wǎng)絡(luò)中傳遞信息的流通。設(shè)定權(quán)重初始化的范圍為[-a,a],“Xavier”方法需使得網(wǎng)絡(luò)每一層輸出的方差盡量相等,則方差為:

設(shè)第k層網(wǎng)絡(luò)有n個參數(shù),則采用“Xavier”方法會將參數(shù)初始化為內(nèi)的均勻分布。

當(dāng)網(wǎng)絡(luò)進(jìn)行了10 000次反復(fù)迭代時,誤差小于1×10-4,此時認(rèn)為網(wǎng)絡(luò)已經(jīng)擬合,停止網(wǎng)絡(luò)訓(xùn)練。利用測試集測試網(wǎng)絡(luò)性能,模型能對字符進(jìn)行準(zhǔn)確的分類。

2.3 票據(jù)識別

票據(jù)識別的流程如圖8所示。

2.3.1 票據(jù)校正

本文設(shè)計了的新型票據(jù)校正方法,其算法流程如圖9所示。

圖8 票據(jù)識別流程圖

圖9 票據(jù)校正方法流程圖

Roberts算子定位邊緣精度高,但其抗噪聲能力弱,而在票據(jù)的邊緣檢測過程中,票據(jù)中字符、折痕、污漬、拍攝時產(chǎn)生的噪點等都可能成為噪音而干擾票據(jù)邊緣的檢測。在進(jìn)行邊緣檢測之前先采用高斯濾波對圖像進(jìn)行平滑處理,濾除噪音。記σ為正態(tài)分布的標(biāo)準(zhǔn)差,參數(shù)σ決定了平滑程度,則對于圖像中任意一點(x,y),二維高斯濾波的如公式(8)所示:

對于降噪后的圖像,采用Roberts算子檢測圖像中票據(jù)的邊緣。最后對圖像中票據(jù)邊緣所在的直線進(jìn)行霍夫變換(Hough Transform),將原始票據(jù)圖像的邊緣直線映射為參數(shù)空間的一個點。于是笛卡爾坐標(biāo)系中的直線檢測問題轉(zhuǎn)換為在極坐標(biāo)下尋找對應(yīng)數(shù)量的曲線的交點的問題,如圖10,由交點在極坐標(biāo)系中的位置可求得票據(jù)的傾斜角度。

圖10 霍夫變換檢測邊緣結(jié)果圖

2.3.2 檢測定位

本方法使用FasterRCNN模型進(jìn)行文本定位,將預(yù)處理后的票據(jù)圖像輸入網(wǎng)絡(luò),模型將定位出不同類別字塊的位置信息,根據(jù)文本定位結(jié)果對票據(jù)圖像進(jìn)行切分,實現(xiàn)了票據(jù)圖像中的待識別的文本與無關(guān)背景的分離。由于文本的定位功能由FasterRCNN模型單獨實現(xiàn),因此對于不同類型的票據(jù)的識別,無需重構(gòu)整個系統(tǒng),只需采集少量票據(jù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行微調(diào),就能遷移至不同類型的票據(jù)的識別,模塊化的設(shè)計增強(qiáng)了系統(tǒng)的靈活性。

2.3.3 文本分割與處理

對字塊圖像進(jìn)行顏色分割[19],只保留后期打印內(nèi)容,進(jìn)行平均法灰度化與閾值法二值化處理,獲得清晰的字符輪廓。

進(jìn)行基于垂直投影直方圖的字符分割,按照投影的間隔切分字塊為單字符圖像,如圖11所示。

圖11 垂直投影切割示意圖

2.3.4 字符識別

利用字符識別網(wǎng)絡(luò)模型對單字符圖像進(jìn)行識別,該網(wǎng)絡(luò)學(xué)習(xí)了針式打印字體的深層特征,網(wǎng)絡(luò)的參數(shù)量足夠龐大,因此即使字符類別數(shù)較多,在不同參數(shù)學(xué)習(xí)到不同目標(biāo)的特征的情況下,網(wǎng)絡(luò)仍然能準(zhǔn)確地進(jìn)行數(shù)千類字符的分類。因為在文本定位階段保留了票據(jù)原始的版面信息,所以識別結(jié)果仍可按照票據(jù)版面中的個人信息、金額等進(jìn)行結(jié)構(gòu)化分類存儲于數(shù)據(jù)庫之中。

3 實驗與結(jié)果分析

雙網(wǎng)絡(luò)模型的具體應(yīng)用方法如圖12所示,分為離線部分與在線部分,離線部分通過GPU運算服務(wù)器進(jìn)行模型的訓(xùn)練,在線部分通過醫(yī)院端采集發(fā)票信息,上傳至服務(wù)器后進(jìn)行識別,識別結(jié)果傳回醫(yī)院端顯示。

3.1 實驗運行平臺

本實驗采用的硬件平臺及軟件平臺見表1所示。

表1 實驗運行平臺配置

本實驗的流程如圖13所示。

3.2 網(wǎng)絡(luò)參數(shù)設(shè)定

3.2.1 不同學(xué)習(xí)率對測試準(zhǔn)確率的影響

本實驗利用現(xiàn)場采集的票據(jù)圖片,測試了不同學(xué)習(xí)率下模型的識別準(zhǔn)確率,見圖14,學(xué)習(xí)率太大會導(dǎo)致梯度爆炸或者震蕩劇烈,學(xué)習(xí)率太小會導(dǎo)致參數(shù)更新緩慢且難以找到梯度下降最快的方向,依據(jù)實驗結(jié)果,網(wǎng)絡(luò)采用的學(xué)習(xí)率為0.001,使模型的識別準(zhǔn)確率最高。

圖12 具體應(yīng)用方法圖

圖13 實驗流程圖

圖14 不同學(xué)習(xí)率下的模型測試正確率

3.2.2 不同激活函數(shù)對網(wǎng)絡(luò)收斂速度的影響

ReLU函數(shù)[20](公式(9))在輸入x為正數(shù)的時候,不存在梯度飽和問題,且只存在線性關(guān)系,而Sigmoid函數(shù)[21](公式(10))和Tanh函數(shù)[22](公式(11))都存在指數(shù)關(guān)系,在前向傳播與反向傳播過程中,ReLU函數(shù)速度也是最快的。實驗測試了不同激活函數(shù)對網(wǎng)絡(luò)收斂速率的影響,見圖15,根據(jù)實驗結(jié)果,本方法采用了使網(wǎng)絡(luò)收斂最快的ReLU激活函數(shù)。

圖15 不同激活函數(shù)對網(wǎng)絡(luò)收斂速度的影響

3.3 不同校正方法效果對比

圖16所示為幾種不同算子的票據(jù)邊緣檢測效果對比結(jié)果??梢钥闯鯮oberts算子在邊緣檢測方面的效果更好,邊緣輪廓更明顯,結(jié)合本文對票據(jù)邊緣精確檢測的需要,選用Roberts算子來檢測圖像中票據(jù)的邊緣。

圖16 不同邊緣檢測算子的檢測效果對比圖

實驗將本文圖像校正方法、旋轉(zhuǎn)投影法[23]和Radon變換法[24-25]進(jìn)行對比分析,結(jié)果見表2,其中,以水平方向為標(biāo)準(zhǔn)位置,數(shù)值為正表示校正后的順時針角度誤差,反之為逆時針誤差。

表2 在不同票據(jù)圖像狀態(tài)下的校正結(jié)果

本文設(shè)計的校正方法選取Roberts算子檢測邊緣,為霍夫變換提供了清晰的邊緣直線,使得變換結(jié)果中峰值明顯。由表2可知,本文校正方法的校正效果比傳統(tǒng)方法更精準(zhǔn)。

3.4 模型性能分析

利用現(xiàn)場采集的50張票據(jù)測試本方法性能,測試結(jié)果如表3所示。

文本定位網(wǎng)絡(luò)使用了多尺度的卷積核,其能學(xué)習(xí)目標(biāo)不同粗細(xì)粒度的特征,使得定位時不會遺漏目標(biāo);網(wǎng)絡(luò)中PRN層利用卷積神經(jīng)網(wǎng)絡(luò)提取特征并生成目標(biāo)建議框,經(jīng)過充分訓(xùn)練后其參數(shù)學(xué)習(xí)了目標(biāo)的深層特征,更能貼合實際數(shù)據(jù),能在復(fù)雜環(huán)境下精確定位目標(biāo),由表3可知,定位精度達(dá)98.6%;文本定位網(wǎng)絡(luò)采用的自適應(yīng)學(xué)習(xí)率策略,能夠根據(jù)loss的變化動態(tài)地調(diào)整學(xué)習(xí)率的大小,合適的學(xué)習(xí)率使得網(wǎng)絡(luò)迅速找到梯度下降最快的方向,并且一定程度上避免了網(wǎng)絡(luò)陷入梯度的局部最小值情況的出現(xiàn),因此,網(wǎng)絡(luò)訓(xùn)練所需的時間大幅降低。

表3 待識別文本定位正確率

字符識別網(wǎng)絡(luò)采用了深度卷積神經(jīng)網(wǎng)絡(luò),其參數(shù)量大,大量參數(shù)能夠準(zhǔn)確擬合到字符的深層次特征,網(wǎng)絡(luò)采用“Xavier”方法初始化權(quán)重,使得網(wǎng)絡(luò)在初始狀態(tài)就具有較合適的初始權(quán)重,節(jié)省了通過反復(fù)迭代調(diào)整權(quán)重所需的時間,網(wǎng)絡(luò)訓(xùn)練時的速度有明顯提升;“標(biāo)簽平滑歸一化”方法使得網(wǎng)絡(luò)在充分貼合訓(xùn)練數(shù)據(jù)的同時避免了過擬合,因此網(wǎng)絡(luò)可以充分訓(xùn)練以學(xué)習(xí)到每個字符的特征,使得識別精度維持在較高水平;上述傳統(tǒng)的方法只利用了圖像的淺層特征,由表4可知,本方法的字符識別精度較傳統(tǒng)方法提升了約3%~8%;由于神經(jīng)網(wǎng)絡(luò)只需通過對輸入圖像進(jìn)行數(shù)學(xué)計算可直接得到最終結(jié)果,由表5可知,本方法識別速度優(yōu)于其他方法。由于文本定位網(wǎng)絡(luò)幾乎能定位出所有字符,且字符識別的精度較高,由表7可知,在正常情況下本方法的字符識別召回率達(dá)92.7%。

表4 與傳統(tǒng)字符識別方法的精度對比

表5 與傳統(tǒng)字符識別方法的速度對比

訓(xùn)練數(shù)據(jù)集中不可能包含各種干擾下拍攝的票據(jù)圖片,而在實際應(yīng)用過程中,部分票據(jù)表面存在折痕與污漬,票據(jù)圖像曝光不均衡,票據(jù)中字符打印內(nèi)容相對于規(guī)定位置有不同程度的偏離,可見在實際過程中輸入網(wǎng)絡(luò)的數(shù)據(jù)攝動較大,如表6、表7所示,在不同的干擾環(huán)境下,票據(jù)識別的準(zhǔn)確率浮動不超過2.4個百分點,召回率穩(wěn)定維持在90%以上,當(dāng)輸入的信息發(fā)生有限范圍的變化時,神經(jīng)網(wǎng)絡(luò)仍能維持穩(wěn)定的輸入、輸出關(guān)系,這是由于雙網(wǎng)絡(luò)模型聯(lián)合了兩個網(wǎng)絡(luò)模型分別實現(xiàn)定位與識別,而定位與識別模型均利用了圖像的深層特征,數(shù)據(jù)的攝動被分散到兩個模型上,因此輸入數(shù)據(jù)的攝動對于結(jié)果的影響被限定在一定量的較小的程度上,使得網(wǎng)絡(luò)具備較強(qiáng)的泛化能力與魯棒性,并且由于數(shù)據(jù)攝動的影響被分散,使得單個網(wǎng)絡(luò)模型的性能不會受到太大的影響,最終使得疊加的雙模型識別精度高。

表6 在不同環(huán)境下的識別準(zhǔn)確率

表7 在不同環(huán)境下的識別召回率

4 結(jié)束語

本文詳細(xì)地描述了雙網(wǎng)絡(luò)模型下的票據(jù)識別方法,并通過實驗驗證了該方法的有效性。實驗結(jié)果表明,本方法識別準(zhǔn)確率可達(dá)95.4%,召回率達(dá)92.7%,識別速度達(dá)0.76 s/張,且模型具有較強(qiáng)的泛化能力。醫(yī)療票據(jù)識別系統(tǒng)搭建在高性能的GPU云端服務(wù)器上,任何具備圖像錄入功能的可聯(lián)網(wǎng)設(shè)備均可作為客戶端,實現(xiàn)了成本控制下的醫(yī)療票據(jù)識別。下一步的工作方向主要將為研究通用票據(jù)檢測系統(tǒng),以實現(xiàn)不同行業(yè)不同種類的票據(jù)的識別。

猜你喜歡
文本檢測方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
小波變換在PCB缺陷檢測中的應(yīng)用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 在线国产91| 永久免费av网站可以直接看的| 精品国产Ⅴ无码大片在线观看81| 无码中文字幕乱码免费2| 国产精品精品视频| 午夜高清国产拍精品| 中文字幕2区| 欧美www在线观看| 中文字幕免费在线视频| 国产又大又粗又猛又爽的视频| 日韩一二三区视频精品| 中文字幕佐山爱一区二区免费| 2020极品精品国产| 免费在线一区| 日韩av高清无码一区二区三区| 亚洲av日韩av制服丝袜| 欧美激情伊人| 国产精品国产主播在线观看| 91系列在线观看| 欧美一区二区精品久久久| 美女扒开下面流白浆在线试听 | 亚洲国内精品自在自线官| 成人va亚洲va欧美天堂| 精品久久高清| 二级毛片免费观看全程| 呦女亚洲一区精品| 欧美一级高清免费a| 欧美一级高清片欧美国产欧美| 国产理论一区| 精品人妻AV区| 国产成人艳妇AA视频在线| 亚洲男人的天堂网| 国产精品熟女亚洲AV麻豆| 干中文字幕| 婷婷综合在线观看丁香| 91一级片| 亚洲精品在线影院| 国产国模一区二区三区四区| 国产不卡网| 91精品国产一区自在线拍| 亚洲欧美精品一中文字幕| 日本不卡在线视频| 成人国产精品网站在线看| 免费不卡在线观看av| 看你懂的巨臀中文字幕一区二区 | 日韩免费成人| 99手机在线视频| 成人亚洲天堂| 色综合成人| 亚洲av色吊丝无码| 日日噜噜夜夜狠狠视频| 国产香蕉97碰碰视频VA碰碰看 | 免费亚洲成人| 第九色区aⅴ天堂久久香| 国产情侣一区| 欧美一级视频免费| 国产对白刺激真实精品91| 亚洲一区免费看| 亚洲AV人人澡人人双人| 国产美女91呻吟求| 尤物精品国产福利网站| 日韩欧美网址| 青青青国产视频手机| 国产浮力第一页永久地址| 亚洲女同欧美在线| 最新日韩AV网址在线观看| 国产欧美精品一区二区| 国产又黄又硬又粗| 精品视频第一页| 日韩a级片视频| 在线看片免费人成视久网下载| 久久综合色视频| 在线视频精品一区| 精品无码人妻一区二区| 亚洲成人免费在线| 国产麻豆91网在线看| jizz国产视频| 亚洲综合经典在线一区二区| 国产精品视频观看裸模| 国产一级裸网站| 她的性爱视频| 国产免费高清无需播放器|