姚漢利,趙金金,鮑文霞
(安徽大學 電子信息工程學院,安徽 合肥 230601)
交通標志識別系統主要包括交通標志的檢測、跟蹤定位以及識別[1]。文中主要研究的是交通標志識別,它的功能是將檢測到的交通標志準確地識別為具體的類別。在自然場景中,快速而準確地識別出交通標志是重要且艱巨的。總結國內外學者的多年研究,主要從三個方面來提高識別率和系統的實時性:
(1)底層特征與分類器相結合。由于底層特征與分類器相結合有利于控制交通標志識別的準確率與實時性,因此受到眾多學者的關注。INI-RTCV組織[2]將HOG特征與線性判別分析(linear discrimination analysis,LDA)相結合,取得了95.68%的分類準確率。Tang S S等[3]提取交通標志圖像的HOG、Gabor、LBP特征并進行融合,再使用線性SVM進行分類識別。底層特征與分類器的結合方式還有很多,在一定場合下,分類性很好,但都有自身的缺陷。
(2)底層特征再表達。根據稀疏編碼理論,圖像底層特征經過稀疏編碼會有效地保留底層特征的主要信息,因此,在模式識別領域中得到了廣泛的應用,其中包括交通標志識別。Liu等[1]對局部約束線性編碼(locality-constrained linear coding,LLC)進行了改進,提出稀疏編碼組的學習方法。該方法主要使用K-means生成的初始碼本中的原子對交通標志的sift特征進行稀疏編碼,該編碼特征既保留了局部性,也促進了相似的描述子共享相似的稀疏編碼模式。Fan等[4]對交通標志類別間的固有區分信息進行有效的分層稀疏編碼,取得了較好的分類識別率。Liu等[5]對多類別交通標志進行擴展稀疏表示,對存在遮擋的標志有較好的識別效果。
(3)基于機器學習的識別。深度學習在模式識別的各領域均取得了不錯效果,其中一些學者也將其應用到交通標志識別中。例如,IDSIA[6]采用多層卷積神經網絡對交通標志圖像進行學習,在GTSRB數據集上取得了99.46%的準確率。Sermanet等[7]使用多尺度卷積神經網絡獲得較優的識別效果。Zeng等[8]利用深度卷積網絡提取交通標志圖像的特征,再結合極限學習機(extreme learning machine,ELM)分類器,也取得了不錯的識別效果。
基于機器學習的識別效果雖很高,但需要大量的訓練樣本,調參繁瑣且速度慢等。文中提出的方法主要包括兩部分:提取交通標志的HOG與GIST特征,并使用廣義典型相關分析算法(GCCA)求取融合特征[9];使用K-SVD字典學習算法對融合特征進行稀疏表示。最后通過實驗驗證其有效性。
HOG特征[10]是通過統計圖像局部區域的梯度信息來表征該局部區域的細節信息。HOG特征提取的步驟是:
(1)將交通標志圖像等分成連續而不重疊的m個細胞單元,且每個細胞單元被均勻劃分為n個梯度方向區間;
(2)計算每個細胞單元內所有像素的梯度方向,并進行統計,且每個方向區間的值是通過梯度幅值加權求和得到的,因此,每個細胞單元的特征可以有一個n維向量表示;
(3)將2×2個相鄰細胞單元的特征向量聯結得到塊區域特征向量,并進行歸一化處理;
(4)以局部塊為單位,細胞單元為步長對整個標志圖像掃描計算塊的歸一化方向梯度直方圖,級聯所有塊的特征向量得到整幅圖像的HOG特征向量。
由于交通標志與行人存在一定的屬性差異,原有的HOG特征不能很好地對交通標志進行表示。通過多次對比實驗選取各參數對其進行改進,改進的HOG描述子的主要參數設置為:細胞單元的大小為5×5,塊的大小為10×10;每個細胞單元被劃分為16個有方向的梯度方向區間;梯度算子為Sobel算子;塊的歸一化方式為L2-Hys。因此交通標志的HOG特征維數為7 744。
GIST描述子通常用于場景分類[11]。該描述子是通過多尺度多方向的Gabor濾波器組對圖像濾波獲取結構信息。
1.2.1 Gabor濾波器組
1985年,Daugman將1維Gabor函數擴展為2維,定義如式(1)所示:

cos(2πf0x+φ)
(1)
其中,x和y是像素坐標;σx和σy分別是x和y方向Gaussian因子的方差;f0為濾波器中心頻率;φ為該諧波因子的相位差。
多尺度多方向Gabor濾波器組是在二維Gabor函數g(x,y)基礎上通過尺度和旋轉變換擴展而成的,是一種自相似Gabor小波,即
(2)
其中,a-m為母小波膨脹的尺度因子;θ為旋轉角度;m、n分別為Gabor濾波器組的尺度數與方向數,通過改變m、n的值可以得到不同的Gabor濾波器組。
1.2.2 GIST特征提取
將一幅大小為r×c的灰度圖像f(x,y)劃分成ng=np×np的規則網格。各網格塊按行依次記作Pi,i=1,2,…,ng。網格塊大小為r'×c',其中r'=r/np,c'=c/np。
用nc個通道的濾波器對每個網格塊進行濾波,并將各通道的濾波結果級聯得到塊的GIST特征,即
(3)


(4)

文中將GIST描述子應用到交通標志識別中,并將以交通標志為中心的區域分成為10×10網格,Gabor濾波器組的方向和尺度數分別為4和8。因此,最終GIST特征的維數是3 200(10×10×4×8)。
文中將廣義典型相關分析(GCCA)[12]應用到交通標志識別中,并實現HOG特征與GIST特征的融合。GCCA是在典型相關分析(CCA)判據準則函數的基礎上加入訓練樣本的類別信息,使類內更加緊聚。
1.3.1 廣義典型相關分析
假設A和B是樣本空間Ω上的兩組特征集。任意的模式樣本ξ∈Ω,對應的兩個特征矢量分別為x∈A,y∈B。令Cwx,Cwy分別為訓練樣本空間A和B的類內散布矩陣,如下所示:

(5)

(6)

令Lxy是A和B間的協方差矩陣且r=rank(Lxy),定義如下:
(7)

假定Cwx和Cwy是正定矩陣,則GCCA的判據準則函數如式(8)所示:
(8)
通過最大化準則函數Jg(α,β)可以求得一對投影矢量(α,β),通過該投影獲得的特征向量,可以使得相關性最大化,即類內散布矩陣最小化。
1.3.2 融合分析
設X與Y為兩組不同的特征集,x∈X?Rp,y∈Y?Rq分別為X和Y的兩個特征向量。根據求解得到的最佳投影向量Wx=(α1,α2,…,αd)和Wy=(β1,β2,…,βd),可以得到一對廣義正則判別特征(generalized canonical projective vectors,GCPV):

(9)

(10)
對于特征融合,有以下兩種融合方案:
(11)

(12)
式(11)和式(12)在文獻[13]中被稱為特征融合策略1(feature fusion strategy1,FFS1)和特征融合策略2(FFS2)。文中使用融合策略1對交通標志的HOG和GIST特征進行融合,融合后的特征維數是3 200。
交通標志有多個大類別,大類別中存在著多個結構相似的子類別。為了減少相似類別交通標志間的干擾,實現更精確識別,文中對融合特征進行了進一步地優化,即K-SVD字典學習稀疏編碼。
正交匹配追蹤(orthogonal matching pursuit,OMP)算法是在MP算法[14]的基礎上進行改進,即每次分解產生的殘差與之前所選取的基準特征都是正交的。具體的定義如式(13)所示:
(13)
其中,y表示原特征向量;a表示過完備字典中的原子;xk表示稀疏系數;Rky表示第k-1項正交匹配后的殘差。
具體的算法分析如下:
(1)目標模型定義如式(14):
(14)
(2)輸入參數:原始向量y,過完備字典D,稀疏度控制參數k,殘差r,且初始時r0=y。
(3)輸出結果:y由字典D中原子近似k稀疏表示。

K-SVD字典學習算法是用過完備字典中的多個原子進行線性組合近似表示原特征y,且該算法是稀疏編碼與字典更新交替進行。算法分析如下:
(1)輸入參數:原特征Y,初始完備字典A,稀疏度控制參數T0,迭代次數J。
(2)輸出結果:最佳的過完備字典A和稀疏系數矩陣X。
(3)程序步驟:
初始J=1。
反復迭代直至收斂:
①稀疏編碼。
使用OMP算法求解目標函數的定義如式(15)所示,得到稀疏系數X=[x1,x2,…,xN];

s.t. ‖xi‖0≤T0
(15)
②更新字典。
通過以下步驟對每列字典原子ak,k=1,2,…,K進行更新:

計算求取整體殘差矩陣Ek(前K-1項):
(16)

SetJ=J+1。
文中利用K-SVD字典學習算法對融合特征再次進行稀疏編碼。在訓練階段,各參數的設置為:利用K-means對訓練樣本聚類生成大小為3 200的字典,并對每列進行歸一化處理;設置迭代次數J為20;稀疏度控制參數k為10。
實驗是基于GTSRB數據集,共有43類,包含有51 839張交通標志圖片,每張圖片中僅包含一個交通標志并有10%左右的邊緣(最少5個像素)環繞。圖片尺寸在15×15到250×250之間,且該數據集是在各種情況下拍攝的,基本包括了由于外界環境影響而出現的形狀、外觀、亮度以及分辨率等不同的情況。
根據交通標志類型的定義規則,將整個數據集分成六大類:限速類、車輛限制類、方向指示類、解除限制類、警告指示類以及其他類型標志,如表1所示。
大多數交通標志識別算法是以總分類準確率為評估指標,卻忽略了各類的分類均衡問題,即可能存在較好與較差的情況。文中選取平均分類準確率(mTPR),定義如式(17)所示。該指標能較全面地評估算法的效果。
表1 六大類及其對應的標志


(17)
其中,Pl為類別l中正確分類的測試樣本數量;Nl為其測試樣本的總數量;L為數據集中的類別總數。
實驗中使用Liblinear[15]工具箱中的線性SVM進行訓練分類。各特征的分類比較如圖1所示。

圖1 各特征的分類比較
從圖1可以得出,融合特征的稀疏編碼的分類效果比其他特征要好;隨著各類訓練樣本數量的增加,分類準確率有所上升;當訓練樣本數大于210時,分類準確率增加緩慢,甚至不再增加。因此后續的實驗中,各類的訓練樣本數為210。
表2是融合特征對應的六大類各分類準確率。

表2 六大類融合特征對應的分類準確率
從中可以看出,融合特征對方向指示類、車輛限制類、解除限制類、警告指示類以及其他類的交通標志有很好的表示能力,但對限速類的表達存在一定缺陷,這是由于限速類交通標志內部結構相似度較高所致。
從圖2和圖3可以看出,限速類標志的融合稀疏表示在總體上更優于其融合特征的表示,然而也存在個別類別的融合稀疏表示比融合特征的效果差的情況,如類7。各算法的比較如表3所示。

圖2 限速類的融合特征的混淆矩陣

圖3 限速類的融合-稀疏特征的混淆矩陣

方法分類準確率CommitteeofCNNs0.9946文中方法0.9923Multi-scaleCNNs0.9831Randomforests0.9614LDAonHOG0.9568
從表3可以看出,方法1的分類準確率最高,但該方法的訓練樣本數較多,調參復雜,計算成本高。而文中方法訓練樣本較少,調參簡單,更能滿足實時性。
介紹了交通標志識別的研究難點與常見的研究方法,并提出了融合-稀疏的交通標志識別方法。經過多組對比實驗表明,提出方法有效,且融合特征經過稀疏編碼后,特征冗余信息減少,類內更緊湊,分類效果優于融合特征的分類效果,特別是限速類的交通標志。
[1] LIU H,LIU Y,SUN F.Traffic sign recognition using group sparse coding[J].Information Sciences,2014,266:75-89.
[2] STALLKAMP J,SCHLIPSING M,SALMEN J,et al.2012 Special issue:man vs.computer:benchmarking machine learning algorithms for traffic sign recognition[J].Neural Networks,2012,32:323-332.
[3] TANG S,HUANG L L.Traffic sign recognition using complementary features[C]//Proceedings of the 2013 2nd IAPR Asian conference on pattern recognition.Washington,DC,USA:IEEE,2013:210-214.
[4] FAN Y,SUN H,ZHOU S,et al.Hierarchical sparse representation for traffic sign recognition[C]//Chinese intelligent automation conference.[s.l.]:[s.n.],2013:653-660.
[5] LIU C,CHANG F,CHEN Z,et al.Fast traffic sign recognition via high-contrast region extraction and extended sparse representation[J].IEEE Transactions on Intelligent Transportation Systems,2016,17(1):79-92.
[6] AN D,MEIER U,MASCI J,et al.Multi-column deep neural network for traffic sign classification[J].Neural Networks,2012,32:333-338.
[7] SERMANET P, LECUN Y. Traffic sign recognition with multi-scale convolutional networks[C]//International joint conference on neural networks.[s.l.]:IEEE,2011:2809-2813.
[8] ZENG Y,XU X,FANG Y,et al.Traffic sign recognition using deep convolutional networks and extreme learning machine[M]//Intelligence science and big data engineering:image and video data engineering.[s.l.]:Springer International Publishing,2015.
[9] PONG K H,LAM K M.Gabor-feature hallucination based on generalized canonical correlation analysis for face recognition[C]//International symposium on intelligent signal processing and communications systems.[s.l.]:IEEE,2011:1-6.
[10] DALAL N,TRIGGS B.Histograms of oriented gradients for human detection[C]//IEEE computer society conference on computer vision & pattern recognition.[s.l.]:IEEE,2005:886-893.
[11] OLIVA A,TORRALBA A.Modeling the shape of the scene:a holistic representation of the spatial envelope[J].International Journal of Computer Vision,2001,42(3):145-175.
[12] SUN Q S,ZENG S G,LIU Y,et al.A new method of feature fusion and its application in image recognition[J].Pattern Recognition,2005,38(12):2437-2448.
[13] SUN Q S,HENG P A,JIN Z,et al.Face recognition based on generalized canonical correlation analysis[C]//International conference on advances in intelligent computing.[s.l.]:[s.n.],2005:958-967.
[14] MALLAT S G,ZHANG Z.Matching pursuits with time-frequency dictionaries[J].IEEE Transactions on Signal Processing,1993,41(12):3397-3415.
[15] FAN R E,CHANG K W,HSIEH C J,et al.LIBLINEAR:a library for large linear classification[J].Journal of Machine Learning Research,2008,9(9):1871-1874.