999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

表格圖像轉換成Word表格的研究

2019-12-17 08:48:46姚鵬威張愛梅
重慶理工大學學報(自然科學) 2019年11期
關鍵詞:特征檢測

姚鵬威,楊 炯,張愛梅,黃 曉

(鄭州大學 機械工程學院, 河南 鄭州 450001)

隨著計算機技術的高速發展,人類社會各方面信息的更新與傳遞也更加快捷和便利。然而,傳統紙質表格存儲的信息不易管理與交換,已經無法滿足人們的需求。市場上的識別軟件以識別純文字的居多,這些產品能完成簡單表格圖像的轉換,但無法很好地完成簡歷類、采購單類和信息采集類表格的轉換。有些產品需要自己的模板庫,對于復雜多變的簡歷類表格有時無法完成匹配,也就無法完成表格圖像中表格的提取。還有一些產品對圖像的要求較高,如圖像大小、位深度和分辨率。基于以上情況,本文將紙質表格掃描成圖像并保存為圖片,利用圖像處理技術在Word中繪制可編輯的電子表格,從而大大提高信息錄入的效率,有利于實現從紙質表格到電子表格的轉換。

1 提取圖像橫線和豎線的端點坐標

本文采用BRISK方法實現表格圖像中特征點的檢測和描述,通過篩選提取表格的4個角點和圖像的4個角點,然后以圖像的4個角點為模板利用透視變換完成表格圖像的傾斜校正。接著對其進行圖像預處理,提取表格圖像的橫線和豎線并對其進行修復和細化。本文采用投影法完成表格橫線和豎線的細化,利用Shi-Tomasi角點檢測完成表格圖像中橫線和豎線端點坐標的提取。算法流程如圖1所示。

圖1 橫線和豎線端點提取算法流程

1.1 表格圖像傾斜校正

首先,進行光照均衡化預處理,目的是消除光照變化的影響,增強對比度,這樣有利于特征點的檢測。利用BRISK方法完成特征點的檢測,然后對特征點進行兩次篩選以去除干擾點。第1次篩選時,文字上的特征點數量多且密集,因此可以采用密度聚類的思想去除文字上的特征點,方法是以每一個特征點為圓心、給定距離為半徑建立累加器,當累加器的數量大于一定數量時,判斷為雜點,然后將其去除。第2次篩選時,首先判斷特征點是否存在重疊,若存在則對重疊的特征點進行特征響應值的判斷,保留特征響應值較強的特征點,刪除響應值小的特征點,從而達到去除雜點的目的。通過對傾斜表格分析可知:表格邊框4個角點的坐標x和y值要么最大要么最小,根據這一特征得到表格邊框的4個角點坐標,然后用表格邊框的4個角點坐標與表格圖像的4個角點坐標進行距離比較,從而完成表格邊框4個角點和圖像4個角點的一一對應。接下來利用透視變換實現表格圖像的傾斜校正。

1.1.1利用BRISK方法檢測特征點

BRISK方法[1]是BRIEF算法的改進,也是一種基于二進制編碼的特征描述子,對噪聲有很好的魯棒性,并且具有尺度不變性和旋轉不變性。它采用FAST算法進行特征點檢測,為了滿足尺度不變性,通過構造圖像金字塔在多尺度空間內進行特征點檢測。

在BRISK框架下,其尺度空間金字塔由n個組層(用ci表示)和n個組間層(用di表示)組成,其中i={0,1,2,…,n-1},組間層di在組層ci和ci+1之間,一般情況下n=4。c0層是原圖像,c1層是c0的2倍下采樣得到,c2層是在c1層的2倍下采樣得到,ci層是在ci-1層的2倍下采樣得到。組間層d0是由原始圖像c0層的1.5倍下采樣得到。d1層是d0的2倍下采樣得到,d2層是在d1層的2倍下采樣得到,di層是在di-1層的2倍下采樣得到。圖像尺度用t表示,則每個組層的尺度為[2-3]

t(ci)=2i

(1)

每個組間層的尺度為

t(di)=1.5×2i

(2)

尺度空間金字塔建立后,對每個組層和組間層采用FAST角點檢測算法檢測特征點。對檢測到的特征點進行非極大值抑制,去掉魯棒性差的特征點。比較它們的角點響應值即得分值,非特征點得分值為0。利用最小二乘法提取特征點的位置信息。本文以特征點檢測常用的兩種方法BRISK方法和SIFT方法[4]進行對比。由表1數據分析可知:BRISK方法檢測的特征點多,速度快,從角度偏差看SIFT檢測的特征點更準確,但是BRISK方法檢測的特征點并不影響表格橫線和豎線的提取,綜合考慮采取BRISK方法完成特征點的檢測。2種方法的對比分析見表1。

表1 BRISK方法和SIFT方法對比分析

1.1.2透視變換實現表格圖像校正

確定了表格邊框的4個角點和圖像邊框的4個角點后,以表格的4個角點為目標、圖像的4個角點為模板獲取變換矩陣,采用透視變換[5]達到校正表格圖像的目的。

分別以表格的4個角點為原點計算每個角點到圖像4個角點的距離,篩選出每組計算結果的最短距離,以此來確定表格4個角點的排列順序。這時表格的4個角點和圖像的4個角點就形成了一一對應的關系。

使用estimateAffine 2D方法生成變換矩為

(3)

特征矩陣R寫成數學表達式為

R=T·s+b

(4)

其中:T旋轉矩陣;s為縮放因子;b為平移矩陣。

(5)

a2+b2=s2(cosθ2+sinθ2)=s2

(6)

因為透視變換使用的變換矩陣為3×3矩陣,因此需要對R矩陣進行補齊。補齊后的R矩陣為:

(7)

為了便于提取表格圖像中表格橫線和豎線端點坐標,保證表格圖像矯正后大小保持不變。需要去除變換矩陣的縮放因子s,變換后的H矩陣為:

(8)

修改后的變換矩陣H使表格圖像居中,使用矩陣H對表格的4個角點進行變換,變換后4個角點統一到圖像的4個角點坐標所在的位置,使用逆變換求得移動變換矩陣H1。移動4個角點位置使表格圖像居中,完成表格圖像的傾斜校正。逆變換矩陣H1為:

(9)

表格圖像傾斜校正前后如圖2所示。

圖2 校正前后的表格圖像

1.2 表格圖像預處理

圖像預處理的目的是消除圖像中冗雜的信息,增強有關信息的可檢測性和最大限度地簡化數據處理,從而有利于特征提取、圖像分割和識別。

首先,對表格圖像進行灰度化處理[6]。本文采用加權平均法對表格圖像進行灰度化處理,其計算公式為[7]:

f(i,j)=0.11R(i,j)+0.59G(i,j)+

0.3B(i,j)

(10)

式中:R、G、B分別表示彩色圖像中第i行第j列像素的紅綠藍3種顏色的亮度值;f(i,j)則是經轉換得到的灰度圖像中第i行第j列像素的灰度值。

然后,進行二值化處理[8]。二值化處理的閾值采用最大類間方差法計算,它可以自適應地進行閾值選擇,即算法在實現過程中,讓閾值遍歷所有灰度級并計算其對應的類間方差。取使類間方差最大的灰度級作為二值化的閾值。

如果灰度閾值取值為T,則圖像像素按灰度級被分為2類:前景C0和背景C1。則最佳閾值的求值公式為:

(11)

式中:μ為圖像總平均灰度級;ω(T)表示C0類灰度級出現的概率;μ(T)表示C0類的平均灰度級。當方差σ2(T)最大時,前景和背景差異最大,灰度T為最佳閾值。

1.3 形態學處理方法提取表格橫線和豎線

利用形態學處理方法[9]提取預處理后的表格圖像的橫線和豎線,通過采用最基本的兩個形態學操作膨脹和腐蝕,用不同的結構元素實現對輸入圖像的處理以得到目標圖像。

檢測表格橫線結構元素的Size寬度必須大于文字橫線的最大寬度,目的是去除文字和豎線保留橫線;檢測表格豎線結構元素的Size高度必須大于文字豎線的最大高度,目的是去除文字和橫線保留豎線。然后,用以上兩種結構元素分別對圖像的水平方向以及豎直方向做閉運算操作,以去除橫線或豎線以外的細節干擾,得到表格橫線和豎線并完成下一步表格橫線和豎線的修復和細化。

1.3.1修復表格橫線和豎線

圖3所示為4種表格豎線的缺損情況,黑色部分為值是0的像素點,其他部分是像素值為255的待填充像素點,以剖面線部分為例進行填充。

如圖3中(a)和(b)所示,遍歷方式為從左向右,從上向下。圖(a)待填充部分坐標為(i,j),(i-1,j)像素值為0,在i行向后搜索像素值不為255的點,若有,則待填充部分為0,即填充為黑色像素點,其他缺失的像素點按照相同的方式進行填充。圖(b)待填充坐標為(i,j),(i,j-1)和(i-1,j)像素值為0,則待填充部分像素值應為0,即待填充部分為黑色像素,其他缺失的像素點按照相同的方式進行填充。

對于圖3中(c)和(d)所示的情況,遍歷方式為從右向左,從下向上。圖(c)待填充部分坐標為(i,j),(i-1,j)像素值為0,沿i行向前搜索像素值不為255的點,若有,則待填充部分為0,即填充為黑色像素點,其他缺失的像素點按照相同的方式進行填充。圖(d)待填充坐標為(i,j)、(i,j-1)和(i-1,j)像素值為0,則待填充部分像素值應為0,即填充部分為黑色像素,其他缺失的像素點按照相同的方式進行填充。

圖3 直線修復示意圖

同理,完成表格橫線的4種缺損情況的修復。表格橫線和豎線的修復前后對比如圖4所示。

圖4 表格橫線和豎線修復前后對比

1.3.2利用投影法細化表格橫線和豎線

在進行表格橫線和豎線圖像處理時,需要對圖像進行細化,提取出圖像的骨架信息,即原圖像的中心線,有利于獲取更加有效的端點坐標。利用投影法細化表格橫線和豎線的算法流程如下:

步驟1對水平線進行從左向右投影。

步驟2從上向下遍歷投影圖最右端,獲取每條水平線豎直方向的起點的和終點,也就是水平線的線寬。遍歷圖像,當像素值不為0時,記錄該點位置為i,設定閾值k<15,建立累加器m。判定i+k行像素值是否為0。若不為0,累加器m+1,繼續循環;若i+k點像素值為0時,結束循環,輸出i和m,此時m為線寬。

步驟3若m為偶數,記錄i+m/2行,此時i+m/2行為單像素行;若m為奇數,記錄i+(m+1)/2行,此時i+(m+1)/2行為單像素行。

步驟4將所有單像素行從原圖中提取出來并在所建與原圖一樣大小的空白圖中保存,完成水平線細化。

豎直線細化同理,豎直線從下向上投影,遍歷圖像從左向右。

1.4 Shi-Tomas算法獲取橫線和豎線端點坐標

在本文1.3節表格橫線和豎線提取中得到橫線和豎線的灰度圖后,分別對橫線和豎線進行相應的形態學處理,尋找到相應的矩形輪廓,用每個相同位置的矩形輪廓框選細化后的表格橫線和豎線,每次框選1條,并將其放到新建的大小相同的空白圖像上。使用Shi-Tomasi角點檢測方法[10]分別對新的圖像進行角點檢測并記錄每條橫線和豎線的端點坐標。

端點坐標的取值。由于傾斜校正和檢測誤差等因素會導致同一坐標的坐標值有偏差,不利于后面的表格繪制。因此,有必要對獲得的端點坐標進行取值處理。行的形式為[xs,ys,xe,ye],先計算數據行與行之間x值坐標差值,如果差值小于3說明x值應相等,同取首個x值。然后比較行內部數據,如果|xs-xe|<3,說明xs=xe,同取首個x值。y的取值同理。

2 Word表格繪制

Word繪制表格的流程如下:

步驟1根據橫線和豎線端點坐標統計得到m條橫線和n條豎線。

步驟2Word生成(m-1)行和(n-1)列的表格。

步驟3合并單元格。

根據同一條橫線端點坐標y值相同,即有m條橫線,同一豎線端點坐標x值相同,有n條豎線,完成表格橫線和豎線的統計。進而在Word中生成(m-1)行和(n-1)列的表格。

表格單元格的合并策略:對于橫線,按照y值從小到大進行排序。對于豎線,則是x值從小到大進行排序。豎格合并,每個單元格標記為(i,j)(其中i=1,2,3…,j=1,2,3…),單元格不進行合并的條件是ys=ye=y且xs≤x

圖5 單元格合并類型

橫格合并時,每個單元格標記為(i,j),(其中i=1,2,3…,j=1,2,3…),單元格不進行合并的條件是xs=xe=x且ys≤y

Word中自動生成的表格效果如圖6。

圖6 自動生成的表格效果

3 結束語

本文主要研究簡歷類、采購單類和信息采集類表格的掃描圖像。通過對紙質表格的掃描圖像進行傾斜校正,然后對表格圖像預處理,實現了表格橫線和豎線的提取、修復和細化,進而完成橫線和豎線端點坐標的提取、數據處理和數據存儲。利用提取的端點坐標在Word中完成表格的自動繪制,為表格圖像內文字識別后填充到Word表格中準備條件,進而完成表格圖像到可編輯電子表格的自動化轉換。表格紙質化到電子化的轉變為信息的存儲和交換提供了極大的便利,具有廣闊的應用前景。不足之處是識別表格種類較少和缺少文字填充,且圖像獲取方式存在局限性。下一步的研究重點是文字識別后的填充和票據類、快遞單等復雜圖像的識別以及數據的提取,還包括擴大圖像的獲取方式。

猜你喜歡
特征檢測
抓住特征巧觀察
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: 天天综合色网| 亚洲无码精彩视频在线观看| 免费a级毛片18以上观看精品| 国产精品久久久久久久久久久久| 婷婷综合亚洲| 日韩乱码免费一区二区三区| 亚洲a级毛片| 天堂成人av| 国产一区在线视频观看| 国产最爽的乱婬视频国语对白| 国产极品美女在线观看| 亚洲色精品国产一区二区三区| 欧美a级在线| 亚洲黄色视频在线观看一区| 激情综合网址| 九色在线观看视频| 奇米精品一区二区三区在线观看| 国产日韩欧美视频| 亚洲高清无码久久久| 成人久久精品一区二区三区| 亚洲三级片在线看| 久久一级电影| 福利片91| 国产欧美日韩免费| 欧美成人二区| 麻豆精选在线| 亚洲精品天堂在线观看| 在线欧美国产| 91无码人妻精品一区| 亚洲欧美极品| 色有码无码视频| 日本91在线| 沈阳少妇高潮在线| 国产精品久久久久久久久kt| 91在线中文| 精品综合久久久久久97| 国产一级在线播放| 亚洲国产成人精品青青草原| 黄色污网站在线观看| www.日韩三级| 58av国产精品| 一级福利视频| 亚洲色成人www在线观看| 亚洲人成网站色7799在线播放| 无遮挡国产高潮视频免费观看| 2020亚洲精品无码| 国产福利微拍精品一区二区| 亚洲大尺码专区影院| 久久人搡人人玩人妻精品一| 亚洲精品大秀视频| 欧美国产在线精品17p| 亚洲第一极品精品无码| 色窝窝免费一区二区三区| 久久频这里精品99香蕉久网址| 在线观看欧美国产| 日韩中文字幕亚洲无线码| 人妻丰满熟妇啪啪| 亚洲水蜜桃久久综合网站| 亚洲国产天堂在线观看| 在线99视频| a亚洲视频| 欧美色图久久| 国产aⅴ无码专区亚洲av综合网| 久久精品国产精品青草app| 国产成人精品一区二区秒拍1o| 国产另类视频| 久久国产成人精品国产成人亚洲| 亚洲床戏一区| 亚洲全网成人资源在线观看| 欧美激情综合| 精品天海翼一区二区| 日本在线国产| 国产内射一区亚洲| 国产制服丝袜91在线| 国产精品入口麻豆| 激情六月丁香婷婷| 婷婷六月激情综合一区| 精品国产91爱| 久久狠狠色噜噜狠狠狠狠97视色 | 欧美一区二区三区不卡免费| 一区二区三区成人| 一本久道热中字伊人|