肖艷玲
摘要隨著國民經濟的不斷發展和法治社會的不斷完善,對面電力業務量的不斷增加,面對規范化要求不斷提高,如何甄別客戶提交海量的申請材料中各種證書文件的真偽工作成了電力業務流程中的重要環節,一旦使虛假的證件通過審批,將給電力正常工作帶來極大的風險和不穩定因素。
同時由于人工鑒別印章真偽,對人員的要求也十分高,需要有長期的工作經驗積累,而這個經驗又無法在別人身上復制推廣,因此往往只有少數固定的幾名乃至一名工作人員能勝任鑒別工作,導致了已經海量的鑒別工作成了整個業務審批工作的瓶頸所在,不但降低了整體的電力服務效率,也大大提高了客戶的等待時間,造成了客戶的不滿和投訴。為了很打破這個瓶頸,提高工作的效率,降低虛假證件通過的風險,必須要從信息化手段入手,設計一種智能化識別平臺,支撐大多數的工作人員都能快速、準確的識別證件的印章真偽,最大限度的降低虛假證件通過的風險。
關鍵詞:OCR; 鑒別印章; 信息化; 風險
一、 前言
目前電力公司對各種證件的有效性的鑒別仍處于人工鑒別階段。而傳統的人工鑒別真偽,由于工作人員的責任心、主觀意識、業務熟練程度、身體疲勞等不確定因素和人眼本身的弱點造成的誤判,將給電力企業帶來極大的隱患和漏洞。
通過本項目設計、開發一種面向客戶提交的申請材料的真偽識別輔助設備,以幫助用檢人員能快速有效的辨別真偽,以提高電力企業的管理水平,減少人員工作量,提高工作效率。
二、 國內外研究水平綜述
目前,ocr(圖形識別,為人工智能的一種)技術經過多年的發展,已經取得了很多突破性的發展,例如我們常見的“指紋識別”、“虹膜識別”、“車牌識別”等,雖然本次項目的技術要求要比這些都高,但是基于神經網絡方法的基本圖像處理技術已經很成熟。再結合目前流行的高斯濾波算法和去噪技術,為本項目研發奠定了技術基礎。
OCR是英文Optical Character Recognition的縮寫,即光學字符識別。它通過掃描和攝像等光學輸入方式獲取圖像信息,通過對圖像灰度化、灰度圖二值化、細化、濾波平滑去噪等圖像處理技術和幾何形態學、圖形模板匹配方法與神經網絡學等識別算法進行識別和定位,并按通用格式存儲在文本文件中。
OCR的概念是在1929年由德國科學家Tausheck最先提出來的,后來美國科學家Handel也提出了利用技術對文字進行識別的想法。我國研究識別技術的起步比較晚,20世紀70年代末才開始進行OCR的研究工 作。
隨著OCR技術的廣泛應用,它正逐漸被人們所知曉。國際軟件巨頭微軟在研發 XP系統的時候,就意識到OCR的市場需求,在發布的Office 2003中全面配裝了TH-OCR;硬件方面的領袖企業英特爾公司也確定TH-OCR為MMX技術支持項目。近期,一些大公司意識到OCR的好處,開始在自己的產品中捆綁OCR技術。Google已經啟動OCR軟件的開發工作,隨著Google啟動OCR開發工 作,OCR應用進入了全面爆發時代。
2011年10月成功研發了“電費卡戶號識別系統”,運用OCR技術識別電力公司統一的電費卡號,成功率高達99%,識別時間<200ms,設備已經在全省推廣使用,運行至今,得到了13個地市公司的一致認可,電費卡識別器的成功研發為印章識別平臺的開發提供了技術前提。
三、 項目的理論和實踐依據
3.1理論依據
OCR系統從輸入影像到最后的結果輸出,須經過影像輸入、影像前處理、特征抽取、比對識別等過程。
影像輸入:透過光學儀器,如影像掃描儀、傳真機或攝影器材,將影像轉入計算機。影像設備的分辨率越高,輸入的影像越清晰,就越能增進OCR軟件的處理效率。
影像前處理:影像前處理是OCR系統中解決問題最多的一個模塊,從得到一個不是黑就是白的二值化影像。影像前處理過程包含了影像正規化、去除噪聲、影像矯正等的影像處理,及圖文分析、文字行與字分離的文件前處理。
特征抽取:特征抽取可 分為兩類:一為統計的特征,如文字區域內的黑/白點數比,當文字區分成好幾個區域時,這一個個區域黑/白點數比之聯合,就成了空間的一個數值向量,在比對 時,基本的數學理論就足以應付了。而另一類特征為結構的特征,如文字影像細線化后,取得字的筆劃端點、交叉點之數量及位置,或以筆劃段為特征,配合特殊的 比對方法,進行比對。
對比識別:根據不同的特征特性,選用不同的數學距離函數,比對方法有,歐式空間的比對方法、松弛比對法 (Relaxation)、動態程序比對法(Dynamic Programming,DP),以及類神經網絡的數據庫建立及比對、HMM(Hidden Markov Model)…等,為了使識別的結果更穩定,也可利用各種特征比對方法的相異互補性,使識別出的結果,其準確率特別的高。
3.2實現技術關鍵和難點
1、印鑒采集技術
印鑒圖像的采集是整個印章系統的基礎,它由硬件和軟件兩項關鍵技術組成。本次項目中采用了國內外目前最新的成熟技術,軟件充分利用目前最先進的數值圖像處理等前沿理論方法和技術,經過潛心研究,設計出處理算法,該算法在色度學和光度學的配合下,將證件上印章與證件底紋等背景噪音完全剝離,清晰地錄入印章圖像。在印章結構多方面分析上,對印章圖像進行邊界標定、壓縮、過濾等預處理,進一步提高采集印章的準確度。
2、旋轉重合技術
旋轉重合技術是印鑒識別系統中很重要的一項關鍵技術,是系統識別基礎。它有兩項重要指標:旋轉速度和旋轉精度。以很高的精確度在0.2秒內自動地完成任意角度各類印章(方章、圓章、橢圓章)快速旋轉重合的系統。
四、 項目研究內容和實施方案
1、硬件設備
利用柜臺現有計算機,采用USB接口的CMOS,固定位置,配合固定燈光。直接獲得高精度清晰數字圖像。連接框圖如下:
2、印章數據庫模塊:
用于建立、刪除、修改和更換各個單位的印章圖片、客戶資料等業務。作為基礎對比圖片數據保留在系統中。
3、驗印自動識別模塊:
通過圖像采集設備提取印章,與印章數據庫中的圖片進行比對,通過信息提取、印章配準、誤差分析等方法,自動判別印鑒真偽,顯示兩章差異并給出識別結果。
1)利用物理光學的多譜系圖象分離技術及形狀分析,把掃描待驗印章從無關背景的徹底分離。
2)調出數據庫中的印章,利用非線性規劃的高速算法使備案印章與去除背景的待驗印章圖像重合,印鑒圖象是一個二維隨機函數,兩幅相同或相近的印鑒圖象其函數是相關的,圖象越接近,相關度越高。
3)利用OCR識別算法,分析每一塊誤差的大小、形狀及與周圍信息的關系,對各點的誤差進行多級多維的模糊推理,既能非常有效地濾掉了印鑒正常使用中的隨機誤差又敏銳的鑒別假印鑒所造成的圖象偏差。得出正確結論。
4、人工驗證干預模塊:
系統驗印無法自動通過,使用驗印人工干預模塊進行驗印。