鄧勝江,姜 利,尚 迪,劉子寬
(中國鐵道科學研究院 電子計算技術研究所,北京 100081)
鐵路客票票號自動識別系統的研究
鄧勝江,姜 利,尚 迪,劉子寬
(中國鐵道科學研究院 電子計算技術研究所,北京 100081)
本文結合我國鐵路客票售票系統逐步自動化、智能化的特點,將人工智能技術應用于鐵路車票售票設備,詳細論述鐵路火車票票號自動識別的基本理論與具體實現方法,對圖像采集系統獲取的原始圖像進行圖像處理、字符數據訓練和字符識別。并從理論上對字符識別過程進行論述,通過實驗驗證其可行性。
鐵路客票; 票號; 字符識別
鐵路客票作為一種“有價證券”,每張車票票底都有預印刷紅色票號作為票據的唯一標識。在售票過程中,需要將該票號與系統保存的票號進行核對,若存在差異,則需要進行調整。窗口售票采用人工的方式進行核對票號,自動售取票設備則不能核對票號,一旦出現問題,將很難處理。
目前,我國自動售取票設備已經得到廣泛應用,售票量占到了相當大的比重,針對自動售取票設備還不能自動核對票號這一不足之處,本文將研究鐵路票號的文字識別功能,為實現票號的自動核對打下基礎。
票號識別系統結構如圖1所示。在系統中,票紙上的票號信息首先通過圖像采集模塊掃描,然后通過圖像處理模塊,對圖像進行平滑、去噪與切割產生只含有單個數字或字模的圖像。在訓練階段,已知分類的字符被輸入系統,提取共有的特征,生成識別用特征信息。在識別階段,圖像處理模塊產生的圖像將與字庫中每種字符的特征信息比對,得到相似度,最高相似度所對應的字符即為識別結果。本文描述了系統的整個過程,并對圖像處理、字庫訓練和票號識別模塊進行了重點描述。

圖1 票號識別系統結構圖
2.1 圖像采集
原始票紙上的票號圖像采用 CIS(接觸式圖像傳感器)進行采集,并通過施密特觸發器進行模數轉換將 CIS 采集的灰度圖進行二值化,將其保存在系統的內存之中。得到的二值化圖像數據,每一位對應一個像素,其中“1”代表黑點,“0”代表白點。
該部分已在參考文獻 [4]中進行了詳細的描述,此處不再贅述。
2.2 圖像處理
由于圖像采集電路在使用時存在震蕩,并且受到噪聲影響,所生成的圖像存在毛刺、噪點,需要在識別前處理防止影響識別準確率。
(1)圖像平滑去噪
中值濾波器平滑法是一種簡單且執行效率高的平滑方法。其數學表達式為:

其中,f(x,y)為二值化圖像在 (x, y)位置的值。濾波器的輸出結果為:

在實驗中發現,一次濾波達不到預期的效果,經過3次中值濾波器平滑處理后,圖像中的毛刺基本消除。
圖像經過平滑處理后,仍會有部分較大的噪點殘留。在本文中,通過使用閥值的方法去除較大的噪 點。 具 體 算 法 為 :若 W<WThr且 H<HThr則 視 為噪點并去除。其中W、H分別為一片黑色圖像區域的最大寬度和高度,WThr、HThr為噪點的寬度與高度閥值。
圖像采集模塊采集到的原始圖像,經過平滑、去噪后,噪點基本被去除,圖像平滑去噪前后的圖像如圖2所示。同時,原始圖像中字符上的毛刺在處理后明顯平滑。與原始圖像相比,將處理后的圖像用于識別,識別率會有較大的提高。

圖2 圖像平滑、去噪效果圖
(2) 圖像切割
因圖像掃描時存在干擾,得到的圖像中可能出現字符相連情況。在后續的識別中,相連的字符將導致系統無法正確識別單個字符,故下列圖像切割算法被引入到系統中:
將圖像逆時針旋轉 90度后,取任意連續的 7行,令 BorderL(n)為所取第 n 行中第一個非零位的坐標、BorderR(n)為所取第 n 行中最后一個非零位的坐標。
如果每一行只有一次黑點到白點和白點到黑點的變化,且滿足:

所取 7 行的第 3、4、5 行中所有點將被改為白點,從而實現圖像的切割。
在實際實驗中圖像切割的過程如圖3所示。從圖中可以清楚的看到,由于存在噪點,在經過平滑、去噪的圖像中字符存在相連的現象,如字符“6”和字符“4”。在使用本節所述算法切割處理后,相連的字符基本被分開。之后通過探測字符之間空白的方法,即可得到每一個單獨的字符。

圖3 圖像切割效果圖
2.3 字庫訓練
訓練是自動識別系統的重要模塊,也稱作機器學習。通過訓練,系統自動在多個樣本中歸納出其共同特征,產生字模,作為后續識別時的依據。
基于樣本數據統計的模式識別,是一種廣泛運用的機器學習、識別方法。相比其它識別方法(如基于神經網絡、基于規則的識別方法),此種方法識別率高、魯棒性強、識別正確率受人為主觀影響較小。雖然基于樣本數據統計的模式識別需要較大的訓練用樣本庫,同時實現算法需要較高的計算量,但是由于此項目的特殊性,樣本庫和計算量不會對算法的實現產生較大的影響。項目中所用字符樣本由制票機掃描的車票圖像經處理后得到。因為有大量可供掃描的車票,故樣本數量可以得到充分保證。所處理的車票圖像為二值化的圖像,故數據分析中并不涉及復雜的數學運算(如計算均值、方差、協方差或建立更加復雜的統計模型等),同時圖像的數據量較小,一般嵌入式處理器完全滿足性能需要。
機器學習問題一般會用任務,性能標準,訓練經驗,目標函數和目標函數的表示來定義。對此,本文中所關注的機器學習問題可以被定義為:
任務:識別火車票票號;
性能標準:識別的正確率;
訓練經驗:已知分類的票號字符數據庫;
目標函數 :V :B → R ;
目標函數的表示 :V(b)=aw(b)+aB(b),其中 aw(b)和 aB(b)為對字符兩種特征的識別相似度。
在本項目中,圖像的特征共分為兩類:特定位置的白點和特點位置的黑點。對于兩種特征的訓練算法如下所示。
對于某一種字符,兩種特征字模為:

其中(xw, yn)和(xB, yB)分別為該種字符的白點特征字模和黑點特征字模中的相應坐標點的數據,(xn, yn)為該種字符的第 n 個訓練樣本中對應的坐標點的數據。訓練過程遵循圖4所示流程,分別訓練每種字符已歸類的樣本,得到訓練結果并保存。
(2)設計一個簡單的實驗方案,證明上述所得的塊狀熔融物中含有金屬鋁。該實驗所用試劑是____,反應的離子方程式為____。
通過訓練,系統對樣本圖片共有的白點特征和黑點特征分別提取,最大限度地歸納了樣本的特征信息,為后續的圖像識別建立良好基礎。字符“4”的白點特征字模和黑點特征字模圖如圖5所示。
2.4 票號圖像識別
對于票號圖像的識別,本文采用的實現方法是將字模中的像素和圖像中的像素逐一比對,得到圖像和每個字模的相似度,相似度最大的字模便是識別結果。算法的具體表達式為:


圖4 字符特征訓練流程圖

圖5 字符特征字模效果圖

aw(k)與 aB(k)分別代表字符和特征信息庫中第k個字符的白點特征字模和黑點特征字模的相似度。(xw(k), yw(k)) 和 (xB(k), yB(k)) 分別為特征庫中第 k 個字符的白點特征字模和黑點特征字模對應點的數據。MaxRoww,MaxColw,MaxRowB和 MaxColB分別為白點特征、黑點特征字模的最大高度、寬度。
在對所有字模和被識別字符做上述運算后,當存在 j滿足公式(7)的條件時,第 j個字符即為識別結果。對圖片中每一個字符進行識別后,便可得到完整的票號。

系統的最終實現是在制票終端上,但是制票終端的控制系統均為ARM控制器,且不含操作系統,內存空間只有 64 kbytes,直接在 ARM 上進行調試是無法觀測中間過程的圖像。因此,本設計采用先在PC 上模擬測試,再將代碼移植到ARM 上的方式進行調試。其調試過程包括以下幾個步驟:
(1)通過制票機的通訊端口將 CIS 采集的圖像數據傳輸到PC上;
(2)PC 上采用 VC++ 編程,實現 2.2、2.3、2.4的過程,對每一個子過程的結果均生成圖像,觀測其處理結果,若不能達到預期目的,則對算法進行優化 ;
(4)將在 ARM 環境中進行大量測試,將采集的圖像和識別的結果均傳輸到PC上,并進行保存,觀測其測試結果;
(5)若在(4)中出現識別錯誤,則將提取識別錯誤的圖像,針對該數據優化算法,重復過程(2)、(3)、(4),直到達到預期的效果 ;
(6)刪除運行在 ARM 中的調試代碼,即圖像數據傳輸等,并針對ARM的特點進行優化,提高運行效率。
通過上面6個步驟的代碼調試以及大量的測試,不僅縮短了調試周期,而且提高了系統運行的穩定性。
通過機器學習和模式識別的方式,實現了鐵路客票自動售取票設備上的票號自動識別功能。經過實驗測試,系統的識別正確率達到 99%,在此基礎上,采用多次識別和雙向驗證技術,正確率能達到100%,滿足使用需求。票號自動識別的成功,實現了自動售取票設備的票號識別,為票號的自動核對打下了基礎,提高了制票系統的自動化和智能化程度。
[1] Tom M. Mitchell. Machine Learning[M]. McGraw-Hill Science/ Engineering/Math, 1997.
[2] 馬少平,朱曉燕 . 人工智能 [M]. 北京 :清華大學出版社,2004.
[3] 鄧勝江,王海峰,姜 利 . 鐵路客票自動核對票號的研 究 [J].鐵路計算機應用, 2011, 20 (1): 30-32.
[4] 姜 利,汪 洋,鄧勝江,王曉冬 . 基于 CIS 的鐵路客票票號的圖像采集 [J]. 鐵路計算機應用,2014,23(3):7-9.
責任編輯 陳 蓉
Automatic recognition of railway ticket number
DENG Shengjiang, JIANG Li, SHANG Di, LIU Zikuan
( Institute of Computing Technologies, China Academy of Railway Sciences, Beijing 100081, China )
Considering the increasing development of automation and arti cial intelligent (AI) technologies in the Railway Ticketing and Reservation System, the AI technology was used on the ticket issuing machine (TIU). This paper introduced the theories and implementation method for the recognition of railway ticket number. In detail, the steps of image processing, characters data training and recognition were discussed. And at last, the feasibility was proved with the experimental results.
railway ticket; ticket number; characters recognition
U293.22 ∶ TP39
:A
1005-8451(2015)01-0008-04
2014-08-08
鄧勝江,副研究員;姜 利,副研究員。