999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的手寫表格識別系統研究與實現

2019-05-24 14:17:58李若月錢強張瀚文
軟件導刊 2019年5期

李若月 錢強 張瀚文

摘 要:為了對非固定樣式的手寫表格文檔進行批量識別處理,實現自動錄入功能,首先通過空表識別生成單元格信息,分析版面結構;其次對圖片進行去噪、傾斜校正、二值化等處理,對手寫內容進行分割;最后搭建識別手寫字符的卷積神經網絡。實驗結果表明,最終實現的識別系統能對不同格式的手寫表格進行識別并生成數據格式文件。基于空表識別得到單元格信息的手寫表格識別系統能對不同樣式的表格進行批量識別處理,且通過CNN搭建識別模型,手寫漢字也能被識別,使系統通用性更好,便于應用擴展。

關鍵詞:手寫漢字識別;表格識別;卷積神經網絡;識別系統

DOI:10. 11907/rjdk. 191307

中圖分類號:TP303 文獻標識碼:A 文章編號:1672-7800(2019)005-0017-04

Abstract: In order to carry on the batch recognition processing to the non-fixed style handwritten documents and realize the function of automatic input, at first, the cell structure is generated by identifying the empty table, and the layout structure is analyzed. Then, the image is processed by denoising, skew correction, binarization, and the handwritten content is segmented. Finally, a convolutional neural network for handwritten character recognition is built. The experimental results show that the recognition system can recognize different handwritten forms and generate data format files. The handwritten form recognition system based on recognizing blank table and getting cell information can recognize different forms in batches, and the recognition model is set up by CNN, so handwritten Chinese characters can be recognized, which increases the generality of the system and easiness for application.

Key Words: handwritten Chinese character recognition; form recognition; convolutional neural network; recognition system

0 引言

紙質表格是日常生活工作中應用非常廣泛的文檔類型,其功能多樣、形式各異。為實現管理信息化,將紙質表格上的信息轉換為電子數據是企業、單位的必要選擇。傳統人工數據錄入方法整理紙質表格耗費大量人力,且效率低下、成本高昂。尤其是手寫表格,由于每個人字跡不一,加大了人工錄入工作量,并且錄入錯誤率也較高。雖然已有自動表格錄入系統,但這些系統多用于如發票等具有固定形式的表格,且識別對象多為手寫數字,難以對其進行推廣應用。

虞飛等[1]設計了一種通用機打發票識別系統,使用傾斜檢測的方法對表格進行處理,采用統計數字投影的方法識別數字;李彬等[2]提出一種特征目標自動識別表格,通過對感興趣的區域進行檢測,以此識別一張完整的考核測評表。但是上述系統只能針對具有特定或相似格式的表格進行識別處理,是一種通過提取表格線完成模板匹配[3]的簡單的表格識別方法。文獻[4]提出了表格數據識別處理輸出規則概念,成功研發出一種手寫表格數字識別系統;Coüasnon等[5]提出一種根據預定義模型對表格進行分類識別處理的方法;Watanabe等[6]提出通過引入分類樹獲取版面結構并識別多種表格文檔圖像布局結構的方法;Kieninger[7]提出輸入單詞邊界框信息,再輸出文本塊邏輯單元,用于標識表格環境和單元格;Zanibbi等[8]通過建立能定義表格的物理和邏輯結構檢測表格;文獻[9]提出通過交點特征和交點軌跡法對表格單元進行提取的方法。

除金融等行業具有固定格式的手寫表格外,在人事登記、醫療、教育等領域還有其它手寫表格。這些表格文檔數量大、形式不固定,而且待識別內容不僅有手寫數字,還有識別難度更大的手寫漢字。為擴大應用范圍,手寫表格的錄入、管理以及數據存儲有重大研究意義。

表格自動錄入系統通常由4部分組成:表格分析、單元格提取、單元格內容識別、數據錄入。由于本文研究對象不只局限于具有固定格式的表格,因此分析表格版面結構成為系統工作基礎。一個表格文檔由不同大小、位置的單元格組成,通過分析表格版面結構,可以得到需要識別的單元格位置。在單元格提取階段使用位置信息提取其內容,采用卷積神經網絡(Convolutional Neural Network,CNN)進行識別,最終將得到的結果生成數據格式文件,以便后期數據管理及系統推廣應用。本文系統流程如圖1所示。

1 表格信息生成

現有表格識別軟件通常先進行圖像處理,再進行表格版面結構分析,從而完成表格類型判斷[10]。由于現實中的手寫表格類型多樣、應用廣泛,若采用該方法,僅能識別、處理少數固定形式的表格文檔,難以擴大應用范圍。本文采取生成表格信息的方法完成表格類型判斷,并得到其位置信息,該過程可通過空白表格識別完成。

空白表格一般含有兩種類型的單元格:有印刷文字的標題單元格與待人工填寫的單元格。在獲取含需要識別手寫內容的單元格過程中,主要難點在于手寫漢字或數字提取。因此本文首先依次判斷每個單元格內是否含有文字,從而確定其屬性,即單元格類型,并將其記錄。

根據上述判斷,識別并記錄每個標題單元格的印刷內容,從而生成數據文件各標題欄。與此同時,記錄每個標題單元格對應的待提取內容單元格位置。內容單元格的位置用二元組表示,用于描述其所在行及在該行的位置。定義代碼如下所示:

//記錄標題格的屬性

int type_num;//表格的標題數目

//記錄內容單元格對應的標題和位置

int type;//內容單元格對應標題

int x,y;//內容單元格位置信息

2 表格處理

2.1 圖片預處理

一般情況下,表格圖片可通過拍照、掃描等方式得到,而設備、環境光線等諸多因素會影響最終成像圖片質量,使圖片留存噪點。噪點是由圖像中亮度或顏色隨機變化引起的,會給圖像帶來錯誤或多余信息,造成圖像識別困難。

為了去除圖像中的噪點,本文采用中值濾波法對表格圖像進行處理。中值濾波是一種非線性平滑濾波,用待處理的像素及其鄰近的若干像素組成一個領域,將領域中的像素按照灰度等級進行排序,選擇序列中值作為輸出像素值以代替原像素值。其抑制效果佳,可以基本保持畫面清晰度[11]。

在進行光學掃描時,由于環境、光線等客觀原因,可能導致掃描的圖像位置不正,同樣會影響后期圖像識別效果。尤其對于表格文檔來說,如果表格框線傾斜會對框線檢測和單元格提取造成極大影響, 因此需進行圖像校正。

本文采用透視變換(Perspective Transformation)的方法對表格圖像進行角度校正[12]。透視變換可以將原始圖像投影到一個新的視平面,通過變換矩陣可以將任意一個四邊形變換為長方形。經去噪和角度校正后的圖像與原始圖像對比如圖2所示。

通過攝像頭得到的圖片一般為彩色圖像,需要對其進行灰度化處理。在RGB型彩色圖像中,若每一個像素點的3種顏色成分值相等,則為灰度圖像,其值也稱為灰度值?;叶葓D像和彩色圖像一樣,可以描述圖像整體、局部亮度與色度等級分布及特征。對獲得的灰度圖像進行二值化處理,以便后期檢測與框線提取。圖像二值化指將圖像上各像素點灰度值設置為0或255,使整個圖像呈現黑白分明的效果。二值化算法即取一個閾值,圖像任一像素點陰影值高于閾值,則為黑色;陰影值低于閾值,則為白色。

常用全局二值化法極易受光線影響,因為閾值固定,如圖像有陰影,該區域則會出現全黑。因此本文采用自適應二值化法處理圖像,其每一個像素點比對的閾值根據其鄰域其余各像素點灰度值獲得,因此處理后的圖片受環境光線影響更小[13]。二值化后的圖像如圖3所示。

2.2 單元格檢測及提取

表格圖片經過上述預處理后,即可得到含有待識別單元格的表格圖像,在單元格提取過程中,將檢測并提取表格框架及單元格框線。本文采用數學形態學中腐蝕運算和膨脹運算進行表格框線檢測[14]。

腐蝕運算的目的是求圖像交集,即實現圖像白色部分“領域縮小”,使圖像光亮部分縮小,黑暗部分放大。膨脹運算為求圖像并集,即實現圖像白色部分“領域擴大”,使效果圖擁有比原圖更大的白色區域。通過先腐蝕后膨脹的方法,去掉表格中除了框線以外的其它部分,即可留下各單元格及其框線,提取表格框架。處理后的圖像如圖4所示。

3 內容識別

3.1 分割

提取完單元格后可對單元格內容進行識別。字符識別的關鍵在于分割,分割準確度在一定程度上決定識別成功率。投影法是進行字符分割最簡單的方法,其原理是將二值化后的圖像在垂直方向進行投影,根據投影后得到的極值判斷邊界以進行分割[15]。本文使用水平投影和垂直投影實現字符分割。首先對圖像進行橫向掃描,分割出每一行的內容;再對每一行進行縱向掃描,即可得到每一個字符。

由于投影法效果不是特別理想,可能會出現多個字符粘連的情況,因此本文還采用連通域分割法對字符進行分割優化。連通域分割法針對無粘連字符有很好的分割效果[16]。由于字符間沒有粘連,每個字符都是一個單獨的連通域。首先在二值化圖像中找到一個黑色像素,并將所有與之相連的黑色像素遍歷標記,即可判斷出每個字符的分割位置。分割后的字符如圖5所示。

3.2 識別

在手寫數字識別方面已積累諸多研究成果,例如模糊邏輯方法[17]、粗糙集方法[18]、統計方法[19]、梯度與曲率方法[20]等。由于手寫表格文檔存在手寫漢字,且手寫漢字識別難度較大,因此本文采用卷積神經網絡對分割后的字符進行識別。識別手寫漢字的網絡結構如圖6所示。12層網絡從上往下進行,每一層的輸入為上一層的輸出。輸入層大小為96×96×1,使用32個3×3的卷積核對輸入圖像卷積,然后進行大小為2×2的池化。手寫數字識別的網絡結構與漢字識別的網絡結構相比較為簡單,設置輸入層大小為28×28×1,使用32個4×4的卷積核對輸入進行5層網絡的卷積即可。本系統使用的訓練數據為mnist數據集和HWDB1.1數據集。

4 實驗與應用

在實際問題中的手寫表格文檔樣式各異,應用場景也不同,沒有如發票等固定格式表格的普適性。但若能實現手寫表格自動識別與錄入,將會大幅提高工作效率。因此本文通過實驗,驗證系統對不同類型表格識別的有效性。對某簽到表進行識別處理,最終得到的數據格式文件如圖7所示。

為了驗證系統對各種類型表格的處理效果,本文選取圖書借閱登記表進行實驗。首先識別空表,得到單元格描述信息。待批量處理的手寫表格圖像如圖8所示。

將上述圖像輸入本文系統中,通過圖片預處理、表格框線檢測與提取、字符分割、手寫字符識別等過程,最終得到數據格式文件如圖9所示。

由實驗結果可以看出,本系統對不同格式的表格圖像均能進行批量處理,并得到標準格式數據文件。本系統可生成為xlsx格式文件,根據不同的需求,還可對輸出文件格式進行修改。

5 結語

本文設計了一個手寫表格文檔識別系統。通過識別空表得到單元格信息,因此可以對同類型表格進行批量識別。從實驗結果可以看到,本文系統可對不同類型的表格進行批量處理和識別,并得到相應數據格式文件。針對沒有粘連的字符,系統識別率達95%以上,能夠滿足一般實際應用的需要。下一步研究內容是如何提高分割算法準確率和識別模型可靠性。

參考文獻:

[1] 虞飛,皮佑國. 通用機打商業發票識別系統研究與實現[J]. 信息技術,2013(6):36-40.

[2] 李彬,趙連軍, 劉帥. 表格圖像特征目標識別技術的研究[J]. 科技視界,2016(23):105-106.

[3] 蔣東玉,田英鑫. 圖像中表格轉換成HTML表格的研究與實現[J]. 科學技術創新,2014(24):172-172.

[4] 王行榮,應俊. 手寫表格識別系統研究和實現[J]. 計算機科學, 2008,35(6):268-271.

[5] COüASNON B,LEMAITRE A. Handbook of document image processing & recognition[M]. Berlin:Springer,2014.

[6] WATANABE T,LUO Q,SUGIE N. Layout recognition of multi-kinds of table-form documents[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,1995,17(4):432-445.

[7] KIENINGER T. Table structure recognition based on robust block segmentation[C]. Proceedings of the International Society for Optical Engineering, 1998:22-32.

[8] ZANIBBI R, BLOSTEIN D, CORDY J R. A survey of table recognition[J]. International Journal on Document Analysis and Recognition, 2004, 7(1):1-16.

[9] 劉昱. 印刷體表格識別的研究[D]. 哈爾濱:哈爾濱工程大學, 2013.

[10] 張慧. 基于模型驅動的表格識別的研究[D]. 濟南:山東大學, 2011.

[11] 高浩軍,杜宇人.中值濾波在圖像處理中的應用[J].電子工程師,2004(8):35-36.

[12] LO R C,TSAI W H. Perspective-transformation-invariant generalized Hough transform for perspective planar shape detection and matching[J]. Pattern Recognition,1997,30(3):383-396.

[13] 江明,劉輝,黃歡.圖像二值化技術的研究[J].軟件導刊,2009,8(4):175-177.

[14] 戴青云,余英林.數學形態學在圖象處理中的應用進展[J].控制理論與應用,2001(4):478-482.

[15] 楊曉娟,宋凱.基于投影法的文檔圖像分割算法[J].成都大學學報:自然科學版,2009,28(2):139-141.

[16] 郭麗, 孫興華. 一種基于連通域的版面分割方法[J]. 計算機工程與應用,2003(5):105-107.

[17] HOUGH P V C. Method and means for recognizing complex patterns[P] .US Patent 3069654, 1962-12-16.

[18] GONZALEZ R C, WOODS R E. Digital image processing[M]. Second Edition. Beijing:Publishing House of Electronics Industry, 2006.

[19] WONG K Y,CASEY R G,WAHL F M. Document analysis system[J]. IBM Journal of Research and Development, 1982, 26(6):647-656.

[20] SHI M,FUJISAWA Y,WAKABAYASHI T,et al. Handwritten numeral recognition using gradient and curvature of gray scale image[J]. Pattern Recognition, 2002, 35(10):2051-2059.

(責任編輯:江 艷)

主站蜘蛛池模板: 国产高清在线观看91精品| 91欧美在线| 欧美亚洲国产视频| 久久国产免费观看| 日韩AV无码免费一二三区| 欧美亚洲日韩不卡在线在线观看| 久久精品一卡日本电影| 国产综合精品一区二区| 又黄又爽视频好爽视频| 久热中文字幕在线观看| 国产人成网线在线播放va| 欧美一区二区精品久久久| 久草青青在线视频| 国产亚洲精品在天天在线麻豆| 国产乱人伦AV在线A| 日韩av无码DVD| 欧美亚洲国产精品久久蜜芽| 国产h视频免费观看| 国产丝袜一区二区三区视频免下载| 国产日韩精品一区在线不卡| 日本一区中文字幕最新在线| 国产91丝袜在线观看| 亚洲成人动漫在线| 亚洲看片网| aa级毛片毛片免费观看久| 欧美成人一级| 91亚洲视频下载| 毛片久久网站小视频| 福利一区三区| 亚洲成a∧人片在线观看无码| 亚洲日韩精品欧美中文字幕| 99热这里都是国产精品| 国产美女免费网站| av尤物免费在线观看| 欧美一级在线| 亚洲人成影视在线观看| 中字无码av在线电影| 精品99在线观看| 国产91视频免费| 黄色网址免费在线| 日韩精品专区免费无码aⅴ| 怡红院美国分院一区二区| 亚洲乱亚洲乱妇24p| 国产精品网址你懂的| 99久久人妻精品免费二区| 一本久道热中字伊人| 97国产一区二区精品久久呦| 中文字幕在线观看日本| 青青草原国产精品啪啪视频| 99尹人香蕉国产免费天天拍| 精品成人一区二区| 日本成人在线不卡视频| a级毛片毛片免费观看久潮| 免费国产高清精品一区在线| 国模私拍一区二区三区| 老色鬼久久亚洲AV综合| 92午夜福利影院一区二区三区| 亚洲中文制服丝袜欧美精品| 精品国产免费观看| 一边摸一边做爽的视频17国产| 国产第一页第二页| 国产一区在线观看无码| 国产激爽爽爽大片在线观看| 国产精品无码作爱| 欧美一区二区自偷自拍视频| 性网站在线观看| 日本中文字幕久久网站| 亚洲综合专区| 日韩在线成年视频人网站观看| 91啦中文字幕| 亚洲一级毛片免费看| 波多野结衣中文字幕一区| 77777亚洲午夜久久多人| 亚洲第一视频免费在线| 国产亚洲欧美日韩在线一区| 国产国产人免费视频成18| 久久国产亚洲偷自| 国产综合欧美| 欧美一级黄片一区2区| 中文字幕 欧美日韩| 国产成人综合网| 国产福利大秀91|