999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的表格類型工單識別設計與實現

2020-08-21 09:09:32潘煒劉豐威
數字技術與應用 2020年7期
關鍵詞:深度學習

潘煒 劉豐威

摘要:針對電力行業,基于OCR技術和TensorFlow深度學習框架,設計了一種表格文本的識別模型,同時支持印刷、手寫字符的識別,模型使用了OpenCV中的形態學函數,以及CTPN+CRNN算法,可實現電力營銷業務辦理過程中各類業務表格類工單的批量識別,實現海量掃描件、拍照件等圖像數據的檢索并返回營銷業務人員需要核查的信息。這種借助計算機輔助的新方式,相比人工核查,速度快,效率高,誤差低,有較好的應用價值。

關鍵詞:電力營銷業務;OCR技術;深度學習;表格文本識別模型

中圖分類號:TP391.1 文獻標識碼:A 文章編號:1007-9416(2020)07-0150-03

0 引言

互聯網技術的飛速發展,信息系統的廣泛應用,給企業帶來更全面、及時的信息,但快速準確核查信息也變得更加困難。特別是信息系統中上傳的各類掃描件、證照等附件,相比較傳統的人工查閱核查方式效率低,易錯漏的情況,采用基于深度學習的機器識別模型則可從海量附件數據中檢索并返回給用戶需要核查的信息。機器輔助的新方式,提高了工作效率,降低了錯漏率[1]。

1 研究現狀

1.1 背景和意義

日常生活中,我們每天都會接觸到數字表格,以電力行業為例,在辦理業擴報裝業務時,操作人員在收集了用戶提供的基本信息后,通過系統打印一份業務申請單,交給用戶簽字,之后掃描存檔,以為后續業務環節辦理提供材料支撐[2]。同時,為保障用電業務開展的規范性、安全性,業務辦理人員還會對掃描件進行核查,這項工作重要、繁雜且枯燥。所以,如果找到一種自動識別掃描后的表格文檔的方法,把數據的處理交給電腦來做,就能極大地節省時間,提高核查比對的工作效率,也可及時發現材料存在的相關問題[3]。

1.2 現狀及分析

表格的分析和字符識別在實際生活中有巨大的應用意義,已成為近年來圖像處理應用的研究的熱門。美國成立了一個專門研究表格字符識別的機構,即國家標準及技術研究所,我國在表格字符處理領域起步較早,處于一個較先進的水平層次,1992年,重慶大學就設計開發出Av-100型表格自動閱讀機。

表格字符識別的核心技術就是表格內字符的提取及識別[4]。目前人們對表格文檔類的自動識別系統的研究主要面向郵編識別、票據識別、考試成績識別等應用領域,雖然表格文檔類自動識別已經有一定研究,但是由于表格多樣性、復雜性、加上印刷體和手寫體在表格中時常混合存在,都加大了字符識別正確率提高的難度,能夠實用的系統卻比較少,這一方面的理論有待完善。

2 模型設計

2.1 特征分析

以下是一張電力裝拆工作單的部分內容截圖(如表1所示),混合表單的字符內容存在以下特征:

(1)表單樣式有固定的設計,多有嵌套的表格存在。(2)表單中存在印刷的內容,也會有手寫的內容。(3)表單有掃描,也有拍照的,其受噪聲干擾較嚴重,方向也可能存在傾斜,獲取到的字符信息存在不同程度的干擾。

2.2 模型設計及開發

一般情況下,通過OCR(光學字符識別)技術進行圖形字符識別的基本流程可分為5步,如圖1所示。

第1步執行版面分析,判斷頁面上的文本朝向;第2步預處理,做角度矯正和去噪;第3步行列切割,對每一行做行分割,再對每一行文本做列分割,切割出每個字符;第4步字符識別,該字符送入訓練好的OCR識別模型進行字符識別,得到結果;第5步后處理識別矯正,對其進行識別結果的矯正和優化。

在初期識別時,先從表格中找到相匹配的表格模板,如找到,則直接進行字符圖像的提取,如未找到,則將表格信息加入表格模板,再提取字符圖像,分割、細化、歸一化處理,得到正規的單個字符后進行特征提取然后送入已經訓練好的神經網絡去進行識別。識別后根據識別結果提取單元格字符串的整體特征,訓練整體識別的神經網絡。

依據上述過程的設計,對圖1的基本流程做優化,得到表格的后期識別流程,如圖2所示。

根據上述流程,表格識別過程設計如下:

(1)對圖片做二值化處理,腐蝕和膨脹后得到表格線。這里利用OpenCV里面的形態學函數(cvErode、cvDilate)完整的識別出圖片中的表格。(2)由表格線獲取單元格交點坐標,按坐標把表格分割為多個單元格圖片。(3)對圖片文字做檢測定位。基于tensorflow框架,采用CTPN算法完成文本的檢測定位,并使用RNN提升文本檢測效果。(4)文本識別,輸出結果。基于pytorch+warp-ctc框架,采用CRNN(CNN+RNN+CTC)算法完成文本識別過程,其中CNN提取像素特征,RNN提取時序特征,由于手寫字符的隨機性,可以使用CTC確定哪些像素范圍對應的字符[5]。

表格字符的識別,字符分割的處理很關鍵,為保證分割結果的準確性[6],在分割過程中嵌入了一個BP識別神經網絡計算其廣義置信度;其次,再利用統一的算法來反求出置信度。

根據當多層前向神經網絡在使用均方誤差或庫爾貝克(Kullback)鑒別熵做代價函數時,其輸出的期望值是各個類別的后驗概率。假設Oi是Ki類對應的神經網絡的輸出,則:

E{Oi}=P(Ki│x)

分類判決時可以取最大輸出對應的分類,在某種程度上Oi輸出的最大可以作為置信度,但是,卻忽略了其他的輸出值,用這種方法會產生誤識。所以這里利用最大值和次大值的差值比作為置信度。先把Oi的輸出值做排序,得到最大值Omax,次大值為Osec,則置信度為:

c=(Omax-Osec)/Omax

判斷置信度c的值,值越大其識別結果的可靠性越高,這里取閾值為0.95,如果大于0.95,則判斷識別結果正確,否則錯誤。

圖像識別后輸出結果存在在數據庫中,其響應參數設計如表2所示。

3 模型應用

目前該模型已應用在廣州供電局稽查業務中,對業務掃描件、拍照件進行合規性檢查,提取各種表單數據中的關鍵信息[7](例如用電戶身份信息,用電類別、電能表計編號、型號等),并與營銷系統中錄入的數據做一致性比對。通過使用,機器識別相比人工識別,效率提升至少10倍以上,印刷手寫表單混合字符識別的準確率可達到75%以上。

4 結語

本文以電力行業為例,針對業務辦理人員面對海量的表單掃描件、拍照件的信息收集、核查需求,基于深度學習,研究了一種印刷手寫混合表單識別模型,經過模型驗證和實際應用,較好的實現了機器輔助識別表單內容的能力。相比人工核查,速度快,效率高,誤差低,亦可推廣至其他行業,有較好的應用價值。

參考文獻

[1] 王科俊,陳卉.印刷體中文文檔識別系統的研究[C].北京圖像圖形學學會.圖像圖形技術研究與應用2009——第四屆圖像圖形技術與應用學術會議論文集.北京圖象圖形學學會,2009:311-316.

[2] 于伯峰.印刷體中文文檔中表格和漢字的識別研究[D].哈爾濱:哈爾濱工程大學,2011.

[3] 馬然.基于深度學習的自然場景文本識別系統的設計與實現[D].長春:吉林大學,2015.

[4] 吳畏,丁茂祥,郝紅衛.通用票據識別系統中的字符切分方法[J].計算機工程與設計,2004(1):19-21.

[5] 劉曉春.基于深度學習的手寫體圖像分類識別研究[J].江西通信科技,2016(04):35-39.

[6] 高學,金連文,尹俊勛,等.一種基于支持向量機的手寫漢字識別方法[J].電子學報,2002,30(5):651-654.

[7] 高學,王有旺.基于CNN和隨機彈性形變的相似手寫漢字識別[J].華南理工大學學報(自然科學版),2014(1):78-82+89.

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 午夜福利在线观看成人| 一级香蕉人体视频| 久久99国产精品成人欧美| 久久精品人人做人人综合试看| 无码精品国产dvd在线观看9久| 夜精品a一区二区三区| 永久免费av网站可以直接看的| 少妇精品网站| 国产免费黄| 日韩资源站| 日韩美女福利视频| 啪啪永久免费av| 免费 国产 无码久久久| 亚洲综合色吧| 亚洲av日韩av制服丝袜| 成年人福利视频| 天天操精品| 天堂亚洲网| 人妖无码第一页| 亚洲精品国产自在现线最新| 国产成人综合网| 制服丝袜 91视频| 亚洲精品国产综合99久久夜夜嗨| 亚洲二三区| 99久久性生片| 人妻出轨无码中文一区二区| 一级毛片免费高清视频| 人妻丰满熟妇啪啪| 日本一区二区三区精品国产| 国产aⅴ无码专区亚洲av综合网| AV片亚洲国产男人的天堂| 日韩精品成人网页视频在线| 99在线视频免费| 亚洲美女一级毛片| 亚洲精品中文字幕无乱码| 97在线公开视频| 看你懂的巨臀中文字幕一区二区| 日韩一区二区在线电影| 国产精品成人一区二区| 亚洲V日韩V无码一区二区| 五月天香蕉视频国产亚| 人妻精品全国免费视频| 国产一区二区视频在线| 国产人成网线在线播放va| 国产区免费| 再看日本中文字幕在线观看| 国产精品太粉嫩高中在线观看| 58av国产精品| 人妻无码中文字幕一区二区三区| 欧洲亚洲欧美国产日本高清| 在线精品欧美日韩| 日韩欧美国产三级| 午夜福利在线观看成人| 久久黄色毛片| 欧美国产成人在线| 久久免费视频播放| 天堂在线视频精品| 67194亚洲无码| 成人91在线| 综合人妻久久一区二区精品 | 亚洲国产天堂在线观看| 久久久噜噜噜久久中文字幕色伊伊| 香蕉久久永久视频| 精品伊人久久久久7777人| 精品一区二区三区无码视频无码| 五月天久久综合| 国产福利观看| 免费 国产 无码久久久| 国内熟女少妇一线天| 伊人久久久久久久| 美女被躁出白浆视频播放| 国产精品视频观看裸模| 三上悠亚精品二区在线观看| 最新亚洲av女人的天堂| 国产精品亚洲五月天高清| 欧美啪啪精品| 欧亚日韩Av| 狠狠亚洲婷婷综合色香| 在线精品自拍| 91小视频在线观看免费版高清| 丁香婷婷激情网| 激情影院内射美女|