999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖像的表格識別問題研究

2021-06-20 02:22:18雷寰宇
科技視界 2021年13期

雷寰宇

(桂林電子科技大學信息科技學院,廣西 桂林 541004)

0 引言

傳統的企業、事業單位收集數據、保存數據一般采用紙質文檔表格進行。紙質文檔表格雖然能夠比較方便地進行數據的收集工作,但是紙質文檔表格在處理數據方面,需要將紙質表格數據先通過手工錄入電腦中,形成電子表格再進行處理。其過程極其煩瑣,需要花費大量的人力物力進行錄入操作,并且錄入錯誤率和速度都容易受人為因素影響。不僅如此,紙質文檔表格在后續的存檔和查閱工作方面都存在較大的難題。為了減輕人工的負擔,提高紙質文檔表格的處理速度,本文研究了一種基于圖像的表格識別應用,通過本應用,可以將固定版面的紙質文檔表格圖像進行灰度化處理,二值化處理等,使計算機更容易處理圖像,再通過圖像矯正,橫豎線識別和輪廓提取等技術得到表格框架,然后對表格框架進行單元格分割,最后利用光學符號識別技術識別單元格中的英文,數字和中文。本應用的研究,將極大地節約人力物力,提高處理紙質表格的工作速度。

1 圖像預處理

通過手機等移動設備采集的圖像容易受拍照環境的影響,容易產生圖像過曝,失真等情況。而在圖像分析中,圖像質量的好壞將直接影響識別應用效果的精度和速度,所以在圖像處理前,需要對圖像進行預處理,以便消除圖像中的無關信息,恢復有用的信息,增強有關信息的可檢測性,最大限度簡化圖像數據。

1.1 圖像灰度化

在灰度圖中,RGB色彩分量全部相等。現在大部分的彩色圖像包含三種顏色(紅色、綠色和藍色)通道,可以將灰度化看作是將三維通道信息轉換為一維灰度數據的過程[1]。因此,為了提高處理速度,需要減少所需處理的數據量。本應用使用Opencv中的cvtColor()函數對圖像進行顏色空間轉化處理,將彩色圖像轉化成只有灰度顏色通道且灰度范圍在0~255之間的灰度圖,大大減少了圖像中的無用信息,如圖1所示。

圖1 灰度化圖像

1.2 二值化

二值化是選取適當的閾值Tn與每一個像素點的灰度值進行比較,將所有大于或等于閾值的像素點的灰度值設置為255,所有小于閾值的像素點的灰度值設置為0,從而將灰度圖像中每個像素點的灰度值設為0或255,使整副圖像呈現出明顯的黑白效果[2]。為了減少不必要的圖像信息,保留有用的圖像輪廓信息,本應用使用Opencv中的adaptiveThreshold()自適應閾值化函數實現對圖像的二值化處理,通過像素的鄰域塊的像素值分布來確定該像素位置上的二值化閾值。

1.3 高斯模糊處理

由于拍攝的圖像會很容易受到許多環境因素的影響,容易出現圖像失真,較多噪點等問題,為了消除圖像中的噪點,本應用使用Opencv中的GaussianBlur()函數對圖像進行高斯模糊處理。

1.4 橫豎線提取

由于圖像處理后期可能需要不含內容的表格框架圖像,本應用使用Opencv中getStructuringElement()函數,得到指定形狀和尺寸的結構元素,并通過腐蝕和膨脹操作將橫豎線識別出來,其次再將識別出來的橫豎線結合起來,形成表格框線圖,如圖2所示。

圖2 表格框線提取圖像

2 圖像矯正處理

通過手機采集拍攝的圖像往往存在表格圖像傾斜問題,如圖3所示。為了解決此問題,本應用通過圖像邊緣檢測,圖像輪廓檢測,尋找最大輪廓和輪廓多邊形擬合等操作獲取表格四個頂點坐標,并通過透視變換操作將傾斜的圖像矯正,得如圖4所示結果。

圖3 變換前的圖像

圖4 透視變換后的圖像

2.1獲取傾斜表格的四個頂點坐標

為了后一步的透視變換矯正圖像操作,必須獲得傾斜后的圖像中表格的四個頂點坐標。

2.1.1 獲得預處理圖像

為了去除無用信息,保存需要的圖像信息,本應用通過對獲取到的圖像使用高斯模糊操作,灰度化,二值化和表格橫豎線識別操作得到只含有表格框線的二值化圖像。

2.1.2 獲取表格輪廓數據

為了提取出圖像中的表格,本應用在已經預處理好的圖像上首先使用opencv中的Canny()函數進行邊緣檢測操作,通過表格框線與其兩側像素點數值相差較大,變化較快的特性,將表格框線提取出來。再利用已經提取出來的表格框線進行圖像輪廓檢測操作。由于表格存在多個單元格,每個單元格都可以被檢測出輪廓,為了消除表格內存在一個輪廓包含多個輪廓的問題,本算法將輪廓檢索模式設置cv2.RETR_EXTERNAL只檢測最外層輪廓,輪廓逼近方法為cv2.CHAIN_APPROX_SIMPLE壓縮水平方向、垂直方向和對角線方向的元素,保留該方向的終點坐標。

2.1.3 獲取最外層表格輪廓的四個頂點

預處理圖像進行輪廓提取處理后產生了圖像的輪廓數據,將輪廓數據存儲在一個數據列表中,使用輪廓所構成的面積大小作為排序依據,對輪廓數據列表進行從大到小排序,其次對列表中每個輪廓數據進行遍歷,對每一個輪廓數據進行計算輪廓周長,然后利用計算出的輪廓邊長作為參數,進行輪廓多邊形擬合處理,如果擬合處理的結果為四個頂點的,表示找到該表格的最大外邊框,并同時得到最大外邊框的四頂點坐標。

2.2 透視變換

對于發生了透視畸變的圖像,透視變換解決了一般仿射變換不能改變圖像內部點相對位置的缺陷[3]。本應用將源圖像的四頂點坐標與目標圖像的四頂點坐標統一按照左上,右上,左下,右下的順序排序,使用Opencv中的getPerspectiveTransform()函數得到由源圖像中矩形到目標圖像矩形的變換矩陣。然后使用Opencv中的warpPerspective()函數來得到變換好的正視圖。

3 單元格的分割

在識別出橫豎線后,分別將識別出來橫線圖和豎線圖結合形成交點圖,得到了每個橫豎線的交點坐標,將其保存到兩個數據列表中。其次在這兩個數據列表中進行排序,刪除掉相鄰兩個像素點的像素值差值小于該表格最小單元格長度的后一個像素點。最后嵌套循環兩個數據列表對表格進行圖像分割剪裁,取出單元格。

4 單元格內容光學符號識別

本應用利用PaddlePaddle生態下的預訓練模型chinese_ocr_db_crnn_mobile(版本為1.1.1),使用預測API進行單元格圖片文字識別。其基于chinese_text_detection_db_mobile檢測得到文本框,識別文本框中的中文文字,之后對檢測文本框進行角度分類。最終識別文字算法采用CRNN(Convolutional Recurrent Neural Network)即卷積遞歸神經網絡。

5 實驗分析

本次實驗采用的實驗平臺為Python3.7+Pycharm2020.1.3+opencv-python4.1.2.30。圖5為一張表格圖像傾斜的測試樣圖。

圖5 測試原圖

通過對測試樣圖進行圖片矯正和表格框線提取,單元格分割操作并保存每張分割后的單元格圖像后,得到圖6的結果。通過本次實驗可以看出,單元格內容識別率并不是很高。

圖6 csv結果圖

6 結語

本文提出了一種基于圖像的表格提取應用,通過對源圖像進行圖像預處理,圖像矯正等處理,消除圖像因環境和拍攝產生的干擾,再通過橫豎線識別,提取出表格框線,并通過表格框線的交點坐標進行表格圖像的單元格分割,再經過光學符號識別得到單元格中的內容并寫入csv文件。

主站蜘蛛池模板: 99这里只有精品在线| 日本国产一区在线观看| 亚洲啪啪网| 成人福利在线视频免费观看| 污视频日本| 91精品aⅴ无码中文字字幕蜜桃| 免费无码又爽又黄又刺激网站 | 国产精品久久精品| 五月激情婷婷综合| 国产v欧美v日韩v综合精品| 亚洲成人手机在线| 色婷婷狠狠干| 欧美午夜在线观看| 日韩欧美成人高清在线观看| 在线欧美a| 九九热精品在线视频| 真实国产乱子伦视频| 久久黄色影院| 中文天堂在线视频| 午夜福利亚洲精品| 亚洲欧洲日产无码AV| 黄色网站不卡无码| 国产综合网站| 97国产在线视频| 免费在线色| 久久国产毛片| 成人在线观看不卡| 制服无码网站| 亚洲国产天堂在线观看| 2021国产v亚洲v天堂无码| 亚洲国产天堂在线观看| 91久久偷偷做嫩草影院| 伊人激情久久综合中文字幕| 99这里只有精品在线| 亚洲精品波多野结衣| 亚洲日韩精品无码专区97| 日本人妻一区二区三区不卡影院| 色哟哟国产精品| 亚洲视频一区| 亚洲系列无码专区偷窥无码| 国产噜噜噜视频在线观看 | AV老司机AV天堂| 亚洲Aⅴ无码专区在线观看q| 在线欧美日韩| 六月婷婷精品视频在线观看| 丁香六月激情综合| 永久免费AⅤ无码网站在线观看| 亚洲人成成无码网WWW| 久久精品只有这里有| 九九热精品视频在线| 国产精品护士| 国产激情国语对白普通话| 国产成人AV男人的天堂| 成人午夜福利视频| 日本久久网站| 婷婷午夜天| 国产不卡一级毛片视频| 欧美综合区自拍亚洲综合天堂| 香蕉久久国产精品免| 国产精品视频3p| 福利视频一区| 色综合天天视频在线观看| 99人妻碰碰碰久久久久禁片| 成年午夜精品久久精品| 国产微拍精品| 夜色爽爽影院18禁妓女影院| 无码中文字幕乱码免费2| 国产乱人伦精品一区二区| 亚洲天堂成人在线观看| 性做久久久久久久免费看| 亚洲精品波多野结衣| 精品国产aⅴ一区二区三区| 九色视频最新网址| 亚洲国产成人无码AV在线影院L| 沈阳少妇高潮在线| 久久精品一品道久久精品 | 久久美女精品| 午夜成人在线视频| 依依成人精品无v国产| 免费一级毛片不卡在线播放| 国产精品成人观看视频国产| 高清无码不卡视频|