999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Tesseract-OCR 文本識別的檢票系統研究

2022-07-10 13:45:45聶霜霜楊軼男衛晶馬建鐘
現代信息科技 2022年5期

聶霜霜 楊軼男 衛晶 馬建鐘

摘 ?要:通過對已有手寫字符識別相關技術和應用實例進行研究,發現Tesseract文本識別方法具有經濟、可訓練、識別準確等優點,設計了基于Tesseract文本識別的特殊手寫字符檢票系統。此系統結合數字圖像處理技術,以谷歌開源OCR引擎Tesseract的字符識別技術為核心,并通過訓練字庫實現對多種選民手寫選票的準確識別。測試結果表明,該系統具有實時性、交互性、高可靠性等特點,為紙質選票的傳統人工唱票計票方式提供了智能解決方案。

關鍵詞:手寫字符識別;選票識別系統;圖像處理;Tesseract-OCR

中圖分類號:TP391.1 ? ? ? 文獻標識碼:A文章編號:2096-4706(2022)05-0001-05

Research on Ticket Checking System Based on Tesseract-OCR Text Recognition

NIE Shuangshuang, YANG Yinan, WEI Jing, MA Jianzhong

(School of Information Technology and Engineering Tianjin University of Technology and Education, Tianjin ?300222, China)

Abstract: According to the research of related technologies and application examples of existing handwritten character recognition, it is found that Tesseract text recognition method has the advantages of economy, trainable and accurate recognition and so on, and a special handwritten character ticket checking system based on Tesseract text recognition is designed. This system combines digital image processing technology, with the character recognition technology of Google open source OCR engine Tesseract as the core, and realizes the accurate recognition of multiple voters’ handwritten ballots through the training word library. The testing results show that the system has the characteristics of real-time, interaction and high reliability and so on, which provides an intelligent solution for the traditional manual vote counting method of paper ballots.

Keywords: handwritten character recognition; ballot recognition system; image processing; Tesseract-OCR

0 ?引 ?言

在信息技術高速發展的今天,傳統計票方式已經不能滿足社會的普遍需求。面對大型選舉中產生的數量龐大的手寫選票,傳統計票方式已無法準確并且快速地得出選舉結果。為解決人工唱票統計方式中存在的諸多問題,多種基于圖像識別技術的選票統計方法陸續被提出。此類方法基于計算機自動識別方式統計選票內容,大大提高了選票統計的速度,在一定程度上彌補了傳統計票方式存在的缺陷,同時避免了人工唱票時因人為因素導致的不公平問題。然而,基于圖像識別技術的選票統計方法在已有技術基礎上很難快速適應人們的常規選舉習慣,傳統選票通常采用手寫字符“√,×,○”進行選舉,但現有的計算機識別字庫中基本無法對手寫字符“√,×,○”進行比較準確的識別,所以仍需要進行深入研究以獲得適合現實選舉場景的自動識別系統[1]。

Tesseract是目前最完備的開源OCR引擎,不僅具備極高的精確度,同時也具有很高的靈活性,可以讀取多種格式的圖像,并可以將它們轉化成多種語言的文本,而且支持使用者不斷訓練字庫來識別出任何需要的字體[2]。目前該技術已被應用于文檔掃描、票據識別、古漢語識別等多種場景,并且得到了很好的反響[3]。

根據前期調查結果,針對某些需要手寫式投票的場合,初步確立了手寫特殊字符“√,×,○”檢票識別系統的設計方案:首先使用高拍儀快速獲取選票圖片,并結合圖像處理技術和Tesseract的字符識別技術對手寫特殊字符“√,×,○”進行快速準確識別,最后將識別結果進行統計并以表格形式進行可視化,有效地提高對手寫特殊字符“√,×,○”識別的效率,解決傳統選票識別方法存在的效率低,容易出錯等問題。

1 ?整體框架

1.1 ?技術路線

本系統運用高拍儀進行選票圖像獲取,同時以Tesseract的字符識別技術為核心,結合圖像處理、字符區域檢測、字庫訓練等技術,實現對特殊手寫字符“√,×,○”進行準確識別和快速統計功能。

實施階段主要分為系統功能實現和系統優化兩大部分,其中系統功能實現階段分為:圖像獲取、圖像預處理、字庫訓練、字符識別、顯示統計結果。圖像預處理實現字符位置的確定,字符識別實現對特定字符進行識別,字庫訓練實現生成系統特有的字庫,顯示統計結果實現對識別結果進行統計并顯示在界面上。系統優化階段包括優化算法,加大字庫樣本訓練。研究技術路線如圖1所示。

圖1 ?技術路線圖

1.2 ?系統功能實現

實現系統功能階段的實施方案主要分為四個部分:(1)選票圖像獲取。(2)圖片預處理,即通過運用數字圖像處理技術確定要識別的字符區域。(3)選票字符識別,用jTessBoxEditor對手寫字符“√,×,○”進行樣本訓練,得到本系統專用字庫,運用Tesseract對字符進行識別。(4)識別結果處理,統計識別結果并顯示。系統功能實現流程如圖2所示。

圖2 ?系統功能實現流程

1.3 ?系統優化

在實現系統功能后,對系統的識別準確率和識別速率等進行多方面測試,根據測試結果對系統進行優化。具體優化內容包括:識別速度優化、識別準確率優化。其中識別速度主要與系統采用的圖像處理算法、圖片獲取方式等因素有關,可以通變改進圖像處理算法、改進選票圖像獲取方式進行系統識別速度優化。識別準確率與圖像處理效果、字庫質量等有關,可以通過加大字庫訓練樣本數量、增加樣本隨機性來優化識別準確率。優化流程圖如圖3所示。

圖3 ?系統優化流程

2 ?系統軟件設計

2.1 ?系統實現流程

本系統基于OCR引擎Tesseract的字符識別技術,對手寫符號“√,×,○”進行自動識別及選票數目統計工作,實現基于視覺檢測方法的手寫選票特殊字符自動識別統計。系統實現具體流程如圖4所示。

圖4 ?系統功能實現流程

首先,用高拍儀獲取選票圖片,對獲取的圖片進行圖像形態學操作、傾斜矯正、獲取字符區域等操作。確定要識別字符的區域,利用jTessBoxEditor對特定字符“√,×,○”進行針對性的訓練來獲得系統的專門字庫。接著基于字庫,采用Tesseract進行手寫字符“√,×,○”識別,通過定義每張選票圖片的左頂角為原點、并以水平向右為X軸正向、豎直向下為Y軸正向,建立一套標準坐標系。計算圖片中原點與各文字區域框的距離遠近,用sorted函數實現按升序排列。調用Tesseract對按此順序排列的一系列文本框進行識別,將識別數據按sorted升序排列寫入字典中,通過循環檢票輸出識別結果,并寫入result.txt文本文檔,最終將識別結果顯示在界面上。

2.2 ?實現步驟及原理

2.2.1  字符區域檢測——處理選票圖像對選民意向字符區域進行提取

使用數字圖像處理技術,對用高拍儀獲取的選票圖像進行灰度化、二值化等處理,利用高斯濾波對選票圖像進行平滑、過濾、降噪處理,檢測出特殊手寫字符“√,×,○”所在區域的輪廓,提取輪廓,利用透視變換對選票圖像進行分割處理進而去除不符合文字特點的邊框[4]。處理流程如圖5所示。

(1)對要處理的選票圖像進行灰度化處理。對獲取的選票圖像的灰度化處理作為圖像處理的預處理步驟,為圖像分割、圖像識別和圖像分析等操作做準備,灰度化處理將彩色圖像轉化為灰度圖像,根據每一張圖像是由像素點矩陣構成對圖像的處理,所以就可以看作是對像素點矩陣進行處理,而一個像素點的顏色由藍、綠、紅三個變量表示,通過對這三個變量的賦值來改變這個像素點的顏色,因此將BGR格式轉換成灰度圖片來實現選票圖像灰度化處理效果[5]。

(2)將灰度化的選票圖像進行二值化處理。接著對掃描得到的圖像進行二值化處理,而二值化處理對顏色、灰度等信息作處理,還可以用來去掉不必要的信息,來提高圖片的質量進而提高識別速度,并為手寫符號特征提取打下基礎。在這里通過將圖像的像素點矩陣中的每個像素點的灰度值變為為0或者255讓整個圖像凸顯出黑白效果,有利于對圖像的進一步處理,使處理變得簡單[6]。

圖5 ?字符區域檢測流程

(3)對圖像進行高斯濾波處理。高斯濾波用于圖像處理的降噪過程,用來去除高斯噪聲,高斯濾波將整幅選票圖像的每一個像素點本身的值和鄰域內的其他像素值經過加權平均后得到每個像素點的新值,用一個卷積、掩模板確定的鄰域內像素的加權平均灰度值來替代模板中心像素點的值[7]。

(4)對圖像進行腐蝕膨脹處理。膨脹對選票圖像求局部最大值的處理是對圖像中的高亮部分進行擴張,讓白色區域變多。腐蝕是選票圖像中的高亮部分被蠶食,讓黑色區域變多。在這里通過一次膨脹讓輪廓突出,通過一次腐蝕去掉細節再通過一次膨脹使特殊手寫字符區域的輪廓突出,并去除掉一些邊框線條,而后通過查找輪廓的方法就可以計算出字符區域的位置[8]。

2.2.2 ?字符識別——Tesseract-OCR對選民意向字符進行識別

通過訓練特殊手寫字符“√,×,○”的專用字庫提高識別準確率,jTessBoxEditor對選票中的特殊手寫字符“√,×,○”進行訓練,形成專門的字庫,可以大大提高對圖片文字的識別準確率[9]。同時,結合谷歌開源OCR引擎Tesseract實現對特殊手寫字符“√,×,○”的準確識別,首先計算圖片中原點與各文字區域框的距離遠近,用sorted函數實現按升序排列。再調用Tesseract對按此順序排列的一系列文本框進行識別,將識別數據按sorted升序排列寫入字典中,最終通過循環檢票輸出識別結果并寫入result.txt文本文檔[10]。特殊手寫字符“√,×,○”字庫訓練具體流程如圖6所示。

圖6 ?字庫訓練具體流程

2.2.3 ?將識別結果放入指定文檔并進行分類展示在界面中

紙質選票圖像的幾何結構區優先識別問題可歸類于選票表格幾何結構優先識別問題,因此,可通過分析特定選票圖像中的表格設計結構來解決選票圖像幾何結構區優先識別的難題[11]。

文字區域檢測(圖片預處理:灰度化、二值化等系列處理)后,通過定義所拍攝每張選票圖片的左頂角為原點,并以選票水平向右為X軸正向,豎直向下為Y軸正向,建立一套標準坐標系。計算圖片中原點與各文字區域框的距離遠近,用sorted函數實現按升序排列。具體實現方法思想為,計算圖片原點與各文本框的距離。如將左下角坐標(x1,y1)作為統一參考點,具體算法為,首先在所有框里選出y值越大的優先排序(y降序),再在這些框里按x值越小的優先排序(x升序),從而經由雙重排序算法求出各框與圖中原點距離的遠近。文本識別Tesseract識別按此順序排列的一系列文本框后,將識別數據按sorted升序排列寫入字典中。最終可以通過循環檢票輸出最終識別結果寫入result.txt文本文檔,并進行分類展示在界面中。確定識別順序具體操作如圖7所示。

系統優化——系統功能基本已經實現,經過測試,選票識別速率和識別準確性還未能達到目的。我們通過優化圖像處理算法,采用合適的濾波器最大程度還原圖像質量,保護圖像的細節信息。同時,我們加大了樣本圖片的訓練,我們結合系統需要,打印出1 000份相同的空選票作為數據集的載體,隨機尋找不同年齡段的群眾,進行選票的隨機填寫,獲得了1 000張數據集,并對樣本圖片進行訓練,獲得了識別手寫字符“√,×,○”的專用字庫,最終系統對手寫字符“√,×,○”的識別速度和識別精度得到了大大的提高,在之前系統基礎上完善了選舉模型的信息流程部分[12]。通過對比測試結果可以看出本系統已基本可以滿足需求。系統優化前后識別結果對比如圖8所示。

圖7 ?確定識別順序具體操作

圖8 ?系統優化前后識別結果對比

3 ?硬件設計

本系統使用高拍儀快速獲取尺寸一致的樣本圖片。高拍儀具有操作簡單、拍攝速度快、省電、拍攝清晰、可設定獲取圖片格式等優點,可以很好地滿足檢票系統獲取樣本圖片高質量、低成本、快速、圖片格式固定等需求。通過使用高拍儀獲取選票圖片的設計大大縮短了選票樣本圖片獲取時間,提高了獲取選票樣本圖片的質量,使系統對手寫字符“√,×,○”的識別效率得到了很大的提高。高拍儀獲取樣本圖片過程如圖9所示。

圖9 獲取樣本圖片

4 ?檢票識別結果顯示與系統調試

顯示界面運用GUI設計工具,通過Python語言交互式編程環境來設計和實現,在整體項目實施中充分考慮了代碼的可移植性、可維護性及可復用性[13]。

運行系統,以6位候選人數據采集為例,其數據采集終端界面如圖10所示。

上傳批量選票后,點擊“開始識別選票”按鈕,統計結果通過“選票識別結果統計”窗口在用戶界面呈現,選票統計結果顯示界面如圖11所示。測試結果表明,該系統最終實現了對手寫紙質選票快速精準的自動識別及計票統計工作。

圖10 ?數據采集終端界面

圖11 ?選票統計結果顯示界面

在測試過程中,系統對樣本圖片的預處理過程存在拒識、字符定位不準等問題,通過改進圖像獲取方式,優化圖像處理算法,采用合適的濾波器來最大程度還原圖像質量,保護圖像的細節信息,提高圖像預處理效率。在字符識別過程中,字符識別準確率低,通過提高樣本隨機性,加大樣本訓練數量來積累字庫,從而提高字符識別準確率。另外,在識別結果的顯示界面上,存在信息展示不夠清晰等問題,通過重新設計界面模塊,提高結果顯示清晰度。經過系統優化,使系統可以更好地應用于實際生活中的各種檢票場景。

5 ?結 ?論

以“紙質選票—智能計票”為主線,對大量不同情況下的選票完成監督學習訓練,為紙質選票的傳統人工唱票計票方式提供智能化解決方案。系統基于谷歌開源OCR引擎Tesseract的字符識別技術,針對某些需要手寫式投票的場合,設計并實現基于視覺檢測方法的選票自動識別統計系統,對手寫符號“√,×,○”進行自動識別及選票數目統計工作。系統結構簡單,使用方便,可視性強,在實際應用中可以減輕選票統計時的工作量,同時增加選舉的可靠性,可以在多數需要手寫投票的活動上進行推廣。

參考文獻:

[1] 彭程,韓嘯,等.深度卷積神經網絡下選票系統智能化識別研究與實現 [J].計算機應用,2019,39(S2):85-90.

[2] 曾悅,馬明棟.基于Tesseract_OCR文字識別的研究 [J].計算機技術與發展,2021,31(11):76-80.

[3] 王君,柳清瑞,藤淑娟,等.基于表格的手寫體字符識別技術研究 [J].小型微型計算機系統,2002(7):890-893.

[4] 李俊山,李旭輝,朱子江.數字圖像處理:第3版 [M].北京:清華大學出版社,2017.

[5] 章毓晉.圖像處理和分析 [M].北京:清華大學出版社,1999.

[6] 李紅俊,韓冀皖.數字圖像處理技術及其應用 [J].計算機自動測量與控制,2002(9):620-622.

[7] 周作梅,宋蘭霞.頻域濾波器在數字圖像處理中的應用研究 [J].信息與電腦(理論版),2021,33(15):198-200.

[8] 鄒宏偉.基于OpenCV的數字圖像處理技術研究與實現 [J].無線互聯科技,2019,16(22):118-119.

[9] 潘浩,李蘭.基于Tesseract引擎樣本訓練的驗證碼識別 [J].信息與電腦(理論版),2020,32(1):138-139+142.

[10] 張中良.基于機器視覺的圖像目標識別方法綜述 [J].科技與創新,2016(14):32-33.

[11] 張站.基于符號識別技術的選舉計票系統研究 [D].合肥:安徽大學,2012.

[12] 謝金寶,劉暉波.電子選舉系統的基本框架與信息流程 [J].計算機工程,2000(S1):97-102.

[13] 康計良.Python語言的可視化編程環境的設計與實現 [D].西安:西安電子科技大學,2013.

作者簡介:聶霜霜(2000—),女,漢族,湖北襄陽人,本科在讀,研究方向:字符識別技術、圖像處理技術;楊軼男(2002—),女,漢族,山西運城人,本科在讀,研究方向:字符識別技術、圖像處理技術;衛晶(2000—),女,漢族,山西臨汾人,本科在讀,研究方向:字符識別技術、圖像處理技術;馬建鐘(2002—),男,漢族,福建龍巖人,本科在讀,研究方向:字符識別技術、圖像處理技術。

主站蜘蛛池模板: 亚洲中文字幕久久精品无码一区| 真实国产乱子伦高清| 亚洲日韩精品综合在线一区二区| 国产成人高清精品免费软件| 亚洲欧美成人影院| h网址在线观看| 国产视频一区二区在线观看| 国产美女在线观看| 91青青在线视频| 狠狠色综合久久狠狠色综合| 欧美一级高清片久久99| 2021国产在线视频| 日本久久免费| 国产精欧美一区二区三区| 国产精品第三页在线看| 青青操国产| 91青青草视频在线观看的| 中国一级特黄大片在线观看| 国产精品自在拍首页视频8 | a色毛片免费视频| 国产在线专区| 免费一级毛片在线播放傲雪网| 在线人成精品免费视频| 国产一级毛片yw| 欧美激情第一区| 97影院午夜在线观看视频| 久草视频精品| 亚洲成人精品久久| 亚洲va视频| 人妻精品全国免费视频| 久久网综合| 国产高潮流白浆视频| 久久黄色小视频| 亚洲一级毛片在线播放| 国产精品爽爽va在线无码观看| 久久黄色免费电影| 国产杨幂丝袜av在线播放| 99精品国产自在现线观看| 欧美精品高清| av一区二区三区高清久久| 亚洲一区免费看| av一区二区三区高清久久| 国产麻豆永久视频| 国产一区二区三区日韩精品| 97久久超碰极品视觉盛宴| 在线观看国产黄色| 精品国产黑色丝袜高跟鞋| 国产专区综合另类日韩一区| 国产特一级毛片| 亚洲国产日韩在线观看| 四虎影院国产| 精品三级网站| 在线高清亚洲精品二区| 女人爽到高潮免费视频大全| 国产成人亚洲毛片| 精品一区二区三区视频免费观看| 国产一区二区网站| 亚洲精品视频免费观看| 亚洲自偷自拍另类小说| 亚洲大尺度在线| 成人小视频网| 久久久久国产精品嫩草影院| 久热这里只有精品6| 成人av手机在线观看| 人妻无码一区二区视频| 99在线视频免费观看| 日韩精品欧美国产在线| 欧美午夜久久| 韩日无码在线不卡| 91精品视频网站| 亚洲黄色视频在线观看一区| 亚洲AV成人一区国产精品| a亚洲天堂| 国产精品成人不卡在线观看 | 精品一区二区三区无码视频无码| 国产精品爆乳99久久| 亚洲成人免费在线| 久久伊人久久亚洲综合| a毛片免费看| 尤物午夜福利视频| 极品尤物av美乳在线观看| 久久综合久久鬼|