付 強,袁 磊
(北京交通大學(xué) 軌道交通運行控制系統(tǒng)國家工程研究中心,北京 100044)
計算機與通信信號
基于聚類分析及SVM的DMI機車信號自動識別
付 強,袁 磊
(北京交通大學(xué) 軌道交通運行控制系統(tǒng)國家工程研究中心,北京 100044)
本文針對CTCS-3級列車控制系統(tǒng)車載設(shè)備DMI機車信號基本特征及識別的特點,提出一種基于綜合聚類分析和SVM算法的DMI機車信號自動識別方法。建立DMI機車信號模型,通過圖像二值化等處理技術(shù)提取其目標特征,通過聚類分析對機車信號圖像進行初步分類,利用SVM分類器對初步分類后的各種不同機車信號進行目標識別,為進一步實現(xiàn)DMI機車信號的自動數(shù)據(jù)采集提供了方法支持。試驗結(jié)果表明,該方法具有良好的性能,機車信號圖像的平均識別率達到了95%左右。
機車信號;數(shù)據(jù)挖掘;特征提取;聚類分析;SVM算法
在CTCS-2級或CTCS-3級列車控制系統(tǒng)中,DMI是一種重要的列控車載設(shè)備,用于司機與ATP車載設(shè)備之間的人機交互。DMI顯示屏上顯示的機車信號作為CTCS-2級行車的重要依據(jù),提示司機前方閉塞分區(qū)空閑數(shù)量或進路情況。DMI機車信號顯示真實反應(yīng)地面列車控制中心設(shè)備與軌道電路發(fā)碼情況,為保證行車安全,三者信號必須完全一致。由于DMI設(shè)備無記錄功能,因此,通過圖像識別技術(shù)實時識別DMI機車信號,將對信號數(shù)據(jù)自動分析起到數(shù)據(jù)采集的作用。
在圖像識別技術(shù)中,一般通過對目標圖像中具有獨特性質(zhì)的區(qū)域進行特征提取,對此特征運用神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)挖掘等方法建立模型后,就可以對此類目標圖像進行自動識別。數(shù)字圖像處理技術(shù)運行圖像形態(tài)學(xué)方法對圖像進行腐蝕膨脹等變換,提取圖像特征,可以用于圖像分割等領(lǐng)域的研究。同時,顏色是圖像內(nèi)容的一個基本要素,蘊含著圖像的豐富信息,但由于其分析的復(fù)雜性,目前運用顏色分析進行圖像識別仍處于探索階段。本文綜合利用顏色特征及其他輔助特征分析實現(xiàn)機車信號的自動識別。
高速鐵路線路上機車信號有4種基本顏色:紅、黃、綠、白,所用機車信號主要有L5、L4、L3、L2、L、LU、U、H、U2、U2S、UU、UUS、HU、HB、 無碼。本文采用靜態(tài)圖像識別方法,排除需動態(tài)圖像識別的U2S、UUS、HB機車信號。因此,需識別的機車信號為L5、L4、L3、L2、L、LU、U、H、U2、UU、HU、無碼,靜態(tài)圖像如圖1所示。

圖1 機車信號目標圖像
目前對機車信號的識別關(guān)注點主要在于對地面機車信號的識別,以防止司機未看清信號導(dǎo)致調(diào)車冒進等行車事故的發(fā)生。文獻[1]研究了圖像識別技術(shù)在調(diào)車安全中的運用,提出了運用圖像分割技術(shù)實現(xiàn)監(jiān)控并識別地面信號以防止調(diào)車冒進的方法;文獻[2]中對純彩色信號燈如L、U、UU、LU、UUS等進行了動態(tài)識別,并設(shè)計了相應(yīng)的硬件實現(xiàn)模塊。但上述文獻均沒有涉及到L5、L4、U2等帶有數(shù)字的CTCS-3級DMI機車信號的模式識別問題,本文將利用數(shù)據(jù)挖掘中的相關(guān)技術(shù)對上述目標圖像進行處理。
待識別的機車信號含有顏色特征和數(shù)字特征,據(jù)此將目標圖像分為兩大類:(1)I型:兩種顏色混合的機車信號,如LU、HU。(2)II型:單種顏色的機車信號,如L5、L、U、UU等,可進一步劃分為L系列、U系列、H碼系列、無碼系列。
劃分的依據(jù)是混合顏色的機車信號可以在聚類分析時明顯地聚類為兩種不同的類型,所以可以做初步識別;剩余的機車類型為單種顏色,聚類分析后雖可以分辨出顏色,但因為可能含有其他數(shù)字特征,因此無法精確識別,需要用其他方法來做進一步的分析。
建模時,將目標數(shù)據(jù)分為訓(xùn)練集和測試集,訓(xùn)練集用來訓(xùn)練模型,測試集用來驗證模型的準確性。對訓(xùn)練集中的每一類型樣本,根據(jù)顏色特征進行聚類分析,計算其均值與方差,然后在訓(xùn)練集上進行SVM多分類器的設(shè)計;對于測試集,通過聚類分析找出每個樣本可能對應(yīng)的圖像類型(I型或II型),對II型數(shù)據(jù)根據(jù)SVM多分類器進行進一步的分類,得到其精確識別結(jié)果。整個分析過程如圖2所示。

圖2 機車信號識別過程
2.1 圖像預(yù)處理
圖像由于受到環(huán)境及采集手段的影響而夾雜一定的噪聲,噪聲會對識別結(jié)果造成影響。因此,在識別圖像前,需要對圖像進行預(yù)處理。常用的去噪方法包括圖像平滑、濾波等。根據(jù)噪聲特性,所選用的去噪方法也有所不同。本文采用比較常用的小波分析去除圖像中的高頻噪聲,提取圖像經(jīng)過二級小波分解后的低頻分量,既可以濾掉高頻噪聲,又減少了待處理的數(shù)據(jù)量。
如圖3所示,提取彩色圖像二維離散小波分解后的LL低頻分量,其保留了原圖像的低頻信息,且圖像大小縮小為原來的四分之一,減少了數(shù)據(jù)處理量,可用作進一步的模式識別。

圖3 二維離散小波分析變換
2.2 聚類分析
聚類分析是將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程,目標就是在相似的基礎(chǔ)上收集數(shù)據(jù)來分類。本文采用k-means方法對圖像的顏色特征進行聚類提取。
k-means方法首先從n個數(shù)據(jù)對象任意選擇 k 個對象作為初始聚類中心;而對于所剩下其它對象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復(fù)這一過程直到標準測度函數(shù)開始收斂為止。一般都采用均方差作為標準測度函數(shù)。k個聚類具有以下特點:各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。
對于本文要識別的機車信號,將其隨機劃分為訓(xùn)練集和測試集。首先根據(jù)顏色特征對訓(xùn)練集進行k-means分析,針對I型和II型分別進行2-means和1-means聚類分析,計算聚類后每一類的均值和方差。在判斷測試集圖像類別時,可根據(jù)以下步驟做初步分類。
(1)對測試集圖像均進行2-means分類,分為C1類和C2類。
(2)計算C1類和C2類元素個數(shù)比Ratio。
(3)根據(jù)Ratio初步確定圖像屬于I型或II型。
(4)對I型圖像根據(jù)訓(xùn)練集I型聚類后的均值和方差計算距離,確定屬于I型中LU或HU碼。
(5)對II型圖像根據(jù)訓(xùn)練集II型聚類后的均值和方差計算距離,確定屬于II型中L碼系列、U碼系列、無碼系列或H碼系列,并根據(jù)SVM方法進行進一步識別。
對于II型圖像樣本,其與各II型聚類的距離定義如下:

其中x為測試集中某個圖像,C為任一II型聚類,μ為C的均值, ∑為C的協(xié)方差。
對于I型圖像樣本,其與各I型聚類的距離定義如下:

其中x為測試集中某個圖像, x1為x中類別1的均值, x2為類別2 的均值;C為任一I型聚類,μ1為C中類別1的均值,∑1為類別1的協(xié)方差,μ2為類別2的均值, ∑2為類別2的協(xié)方差。
x的判別類型取與之距離值最小的相應(yīng)聚類類型。
2.3 SVM模式識別
支持向量機是Cor-tes和Vapnik于1995年首先提出的[3],它在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應(yīng)用到其他機器學(xué)習問題中。
SVM可用于分類和回歸問題,分類問題是一種有監(jiān)督的學(xué)習過程,通常將樣本分為訓(xùn)練集和測試集進行建模與驗證。回歸問題是一種無監(jiān)督的學(xué)習過程。二分類SVM分類器的基本設(shè)計思路是通過尋找最優(yōu)分類超平面H,將兩類數(shù)據(jù)正確分開,且使分類間隔最大。對于非線性不可分問題,可以通過非線性變換將其轉(zhuǎn)換為線性可分問題。對于多分類問題,可以將其分解為二分類問題進行處理。本文處理的是一個多分類的問題。
對于上一節(jié)經(jīng)過聚類分析分類后II型測試集圖像的進一步識別,可以看做一個數(shù)字模式識別的問題。運用Hopfield神經(jīng)網(wǎng)絡(luò)或SVM均可以實現(xiàn)對含有數(shù)字圖像的識別[4~5]。本文采用SVM實現(xiàn)含數(shù)字機車信號的識別,首先將彩色圖像轉(zhuǎn)換為灰度圖像,并提取其中的數(shù)字特征。以L4機車信號為例,其彩色圖像及經(jīng)過灰度變換后的二值圖像如圖4所示。

圖4 L4碼彩色圖像及灰度變換后的圖像
可以看出,經(jīng)過二值化處理的L4機車信號圖像,其數(shù)字部分作為主體特征被提取出來,綠色部分被濾掉(變?yōu)楹谏?/p>
通過SVM方法對訓(xùn)練集中提取的數(shù)字特征進行建模,生成多分類器,對II型測試集圖像進行進一步精確的預(yù)測分類。
模型訓(xùn)練完成后,進行預(yù)測。根據(jù)經(jīng)驗值,對測試集進行2-means聚類分析時,如果分成的兩類元素數(shù)量大致相等,可認為樣本屬于I類型,否則屬于II類型,需根據(jù)SVM分類器模型進一步預(yù)測。
綜合聚類分析和SVM分類,部分機車信號識別結(jié)果如表1所示。

表1 部分機車信號識別結(jié)果
可以看出,綜合聚類分析和SVM分類器進行DMI機車信號的自動識別,識別準確率達到了較高水平,表明此方法是可行的。
本文提出了一種綜合運用數(shù)據(jù)挖掘中的聚類分析與SVM分類器進行DMI機車信號自動識別的方法,可以識別含有數(shù)字的復(fù)雜機車信號靜態(tài)圖像。經(jīng)過實驗驗證,該方法具有較高的識別精度。本文只針對靜態(tài)圖像的識別,不能處理實時動態(tài)圖像,可考慮進一步研究動態(tài)圖像識別,以實時得到DMI機車信號的識別結(jié)果。
[1]何 港.圖像識別技術(shù)在調(diào)車安全中的應(yīng)用[J].鐵道機車與動車,2013(7).
[2]趙志帥.基于彩色圖像處理的鐵路信號燈識別及測距技術(shù)研究[D].武漢:武漢理工大學(xué),2010.
[3]Cortes C,Vpnik V. Support vector networks [J].Machine Learning ,1995,20(3) .
[4]高 錦.基于SVM的圖像分類[D].西安:西北大學(xué),2010.
[5]史 峰,王小川,郁 磊,李 洋.Matlab神經(jīng)網(wǎng)絡(luò)30個案例分析[M].北京:北京航空航天大學(xué)出版社,2010.
責任編輯 陳 蓉
DMI cab signal automatic identif i cation based on Cluster Analysis and SVM Algorithm
FU Qiang, YUAN Lei
( National Engineering Research Center of Rail Transportation Operation and Control System, Beijing Jiaotong University, Beijing 100044, China )
In this paper, according to the characteristics of basic feature and identif i cation about onboard equipment DMI cab signals of CTCS-3 level Train Control System, a novel method based on Cluster Analysis and SVM Algorithm was proposed for DMI cab signal automatic identif i cation. The paper established a model of cab signal, extracted the target features by binary image processing techniques, classif i ed cab signal image preliminary cluster analysis made target identif i cation for various cab signals by SVM classif i er, provided a method supporting for further automatic data collection of DMI cab signals. Results showed that the novel method was with good performance. The average image recognition rate was reached about 95%.
cab signal; data mining; feature extraction; Cluster Analysis; SVM Alogrithm
U284.4∶TP39
A
1005-8451(2015)08-0046-04
2014-12-30
付 強,研究實習員;袁 磊,講師。