賈小云, 潘德燃
(陜西科技大學電子信息與人工智能學院,西安 710021)
在一幅圖像中,如何定位車牌位置是車牌識別中的關鍵步驟。而目前常見的車牌定位方法大致可以分為下三類:一是基于車牌顏色特征的車牌定位方法[1],但該類方法只能適用于道路卡口或停車場管理等特定的應用場景,在復雜環境中由于角度位置各異、光照不同、背景變化等原因,很難達到滿意的識別準確度;二是基于連通域分析的方法,隨著自然場景文本檢測的不斷發展,應用MSER(maximally stable extremal regions)與SWT(stroke width transform)算法的車牌定位方法[2-3]也不斷被提出。通過對連通域進行合理的分析,從而能夠有效地定位車牌位置;三是基于滑動窗口[4-5]的方法,該類方法綜合多種圖像特征,利用滑動窗口結合機器學習或神經網絡,能夠精準地定位車牌位置,但其運算復雜,耗時較高。
本文提出一種基于MSER算法與DRLBP特征的復雜背景車牌定位方法。該方法充分利用車牌文本的上下文信息并設計出一種連通域分析器,該分析器通過對車牌字符進行合并從而完成車牌定位,此外還利用 DRLBP 特征對定位出的車牌進行再次檢驗從而提高定位的準確率。通過實驗表明,該方法可以在多種場景下有效地對車牌進行定位,且對計算資源需求較小,基本不受車牌格式、顏色的影響。
由于輸入圖像的分辨率不一,車牌的尺寸大小也會有較大差異,過大或者過小的車牌都會對檢測造成一定的誤判斷。因此預處理的第一步就是將圖像等比縮放到合適大小,所有圖像均等比縮放到400 000像素左右。第二步提取灰度圖像和紅通道圖像,由于車牌的字符顏色和車牌的底色具有明顯的差異因此不需要在全部通道上進行MSER候選區域提取,而車牌底色和字符顏色又少有同時擁有紅色分量,故本文僅在灰度圖像和紅色通道圖像中進行候選區域提取。第三步,由于在縮放后的圖像中車牌字符的筆畫寬度通常不超過5像素,因此用5×5的結構元素分別對得到的灰度圖像和紅通道圖像進行Top-Hat變換。Top-Hat變換可以消除不均勻的光照和增強暗的細節,從而減少MSER的漏檢測。第四步,分別對變換后的圖像提取Canny邊緣,并用Sobel算子對邊緣圖像提取其垂直方向的邊緣信息,從而消除掉大部分水平非字符邊緣,而字符通常擁有豐富的垂直邊緣信息,因此不會對車牌字符造成明顯影響。第五步,對上一步得到的垂直邊緣圖像圖進行高斯模糊,以模糊圖中對應像素點的灰度比上模糊圖中最大的灰度的比值乘以原圖中的相應像素點的灰度值從而得到強調豎直邊緣的灰度圖像。第六步,由于處理后的圖像對比度會有所降低,故分別對圖像進行直方圖均衡化,再進行伽瑪變換以增強對比度。在實驗中,由于光照強度不同伽瑪得取值也有所不同,如在實驗中白天光照充分伽瑪取2.0~3.0,而在夜晚光照不充分時伽瑪取9.0~10.0可以得到較好的結果。如圖 1所示,分別是白天和夜晚的原圖和預處理后的圖。由圖1(b)、圖1(d)可以看到,預處理后圖像中大多數變化平滑的區域幾乎完全變為黑色,而車牌和一些豎直邊緣密集的區域仍有較高的對比度。

圖1 圖像預處理Fig.1 Image pre-processing
MSER算法是一種檢測圖像中最大穩定極值區域的算法,最早應用于3D場景重建,目前在自然場景文本檢測中也得到了廣泛的應用。MSER算法的主要步驟是將一幅灰度圖像以閾值從0~255進行多次二值化,從一幅純白圖像變為純黑圖像,或相反。其中每一幅二值圖像中的黑色或白色的連通區域就是一個極值區域Q,即在原圖像中該區域內的像素的灰度值都小于或都大于區域邊界像素的灰度值。而在相鄰閾值的二值圖像中,極值區域Q1,Q2,…,Qi,…則構成嵌套關系,即Qi?Qi+1。當q(i)=|Qi+Δ/Qi-Δ|/|Qi|在i處取得最小值時,Qi即為最大穩定極值區域。而車牌字符又是顯著的最大穩定極值區域,因此MSER算法能夠有效地提取到車牌字符區域。但是MSER算法也會提取到很多非車牌字符的候選區域,因此需要對提取到的候選區域用簡單特征進行篩選。文獻[6]中所描述的可以快速計算的簡單特征能夠很好地除去大部分明顯非車牌字符候選區域。具體MSER候選區域提取的步驟如下。
第一步,利用MSER算法對預處理后的圖像進行候選區域提取得到一組候選區域;第二步,分別計算每一個候選區域的寬度、高度、邊緣總長度、長寬比、占空比、緊密度這六個簡單特征并排除掉不符合條件的候選區域,具體特征說明見表 1;第三步,用所有符合條件的候選區域為前景構造一幅二值圖像,以此合并掉重疊的候選區域,在該二值圖像中每一個連通區域即為一個候選區域;第四步,對其中的每一個候選區域用3×3的結構元素進行腐蝕運算,以此消除候選區域中細小的突出并使區域邊界變得光滑;但如果腐蝕后連通域消失或者面積減小到1/9以下則說明候選區域的輪廓形狀已經被顯著改變,因此對于這類候選區域則跳過該步驟;第五步,用6×6的結構元素對面積小于500像素的候選區域進行膨脹運算以增大面積過小的候選區域;第六步,對每一個候選區域用3×3的結構元素再次進行閉運算,以填充區域內部的空洞、細小的裂痕并使得區域邊界更加光滑。
對圖 1中的兩幅圖像提取MSER候選區域的結果如圖 2所示,車牌字符區域已經被提取出,但是由于場景復雜其中也包含很多非車牌字符區域。

表1 簡單特征說明及其閾值Table 1 Description of simple characters and its threshold

圖2 車牌字符候選區提取Fig.2 License plate character candidate area extraction
在上步得到的二值圖像中包含了車牌字符區域以及其他非車牌字符區域。但是由于復雜場景帶來過多的噪聲區域使得一些基于MSER的車牌合并算法不再適用。如文獻[7]中通過構造最近鄰對的方式進行合并,但此方法無法應對車牌區域過小而產生字符粘連的情況。由于車牌字符候選區域成線性排列、位置鄰近、大小近似具有一定的規律性,而非車牌字符區域的位置和大小則相對任意。因此本文提出一種新的基于車牌字符合并的車牌定位方法。首先對于每一個候選區域計算五個屬性,寬度、高度、面積、寬高比及方向。然后依據每兩個區域的屬性來判斷是否將其合并。在判斷每兩個候選區域時,需要判斷面積、寬高比、重疊度、位置相關度、方向及距離這六個方面。
(1)面積和寬高比:由于圖像數據量在400 000像素左右,實驗數據中車牌所占的像素尺寸通常在20 000像素以內。面積大于20 000像素或者寬高比大于4.0 的通常是非車牌區域不對其進行合并。
(2)重疊度:如果兩個區域并集像素個數除以其交集像素個數的值大于0.75,則說明這兩個區域具有較強的相關性,應當將其合并。
(3)位置相關度:該值為兩個候選區域的最小外接矩形面積之和除以包含這兩個候選區域的最小外接矩形面積,該比值用于評估兩個候選區域的鄰近度和相似度。當該值為1時,說明兩個候選區域的外接矩形緊鄰且形狀相似。當兩個區域相距較遠、或大小不一都會使得位置相關度降低。將其閾值設置為0.7,即大于0.7時滿足位置相關度條件。
(4)方向:候選區域的方向為其最小外接矩形中邊長較長的邊所指向的方向。能夠合并的兩個候選區域其方向需滿足平行條件或者垂直條件,即兩個方向最小夾角的角度需要在精度范圍內。由于寬高比越小,其區域方向便越不穩定,故當兩個候選區域中存在一個候選區域寬高比小于2.0時,精度范圍取35°以內,否則為20°以內。即夾角小于35°或20°滿足平行條件,大于65°或70°滿足垂直條件。同時將候選區域面積小于2 000像素并且長寬都小于60像素的區域作為單個字符區域,否則為非單個字符區域。符合合并條件的候選區域需滿足以下規則。
規則1若兩個候選區都是非單個字符區域,那么兩個候選區域的方向要滿足平行條件,兩個候選區域的中點的連線方向也要與兩候選區域的方向滿足平行條件。
規則2若兩個候選區域中有一個是單個字符區域,由于單個字符區域的寬高比接近1.0,因此其方向并不穩定。此時只需兩個候選區域中點的連線方向與非單個字符區域的方向滿足平行條件即可合并。
規則3如果兩個候選區域都是單個字符區域,則不需要對方向進行判斷。
(5)距離:在兩個候選區域面積相差較大的情況下,面積較小通常為噪聲區域。將這些區域進行合并會意外增加另一個區域的面積,從而降低車牌字符合并的準確度。因此,能夠合并的兩個候選區域還需滿足兩個候選區域的距離應當小于面積較小候選區域面積開方的1.0倍。
當所有候選區域都不能再進行合并時,輸出所有面積在400~20 000像素之間且寬高比大于2.0的區域即為車牌候選區域。
通過基于MSER車牌字符合并的車牌定位方法能夠有效地定位車牌候選區域,但也會存在一些誤判的非車牌候選區域。而這些非車牌候選區域已經難以用簡單特征進行有效的區分。因此本文在最后應用DRLBP[8](dominant rotated local binary pattern)紋理特征結合支持向量機(support vector machine,SVM)分類完成最后的精確定位。

圖3 車牌定位結果Fig.3 The result of license plate location
DRLBP是LBP[9](local binary pattern)特征的擴展,對LBP特征增加了旋轉不變特性并使用主要模式來代替uniform模式。LBP是一種基于圖像像素的紋理特征,該特征及其相關拓展在目標檢測中有著廣泛的應用,如人臉識別[10]。它以中心像素為原點,以L為半徑,在其圓周上等分采樣P個頂點。如果采樣點p的坐標不是整數,則對其坐標進行向上和向下取整。用鄰近的四個像素的灰度對其進行雙線性插值從而計算出點P的灰度。如果點P的灰度大于中心點,那么該點則標記為0否則為1。將這P個采樣點的標記連接起來就是中點像素的LBP編碼,取L=1,P=8則LBP編碼共有256種。但是LBP編碼與圖像旋轉相關,因此在不同起點得到的LBP編碼中以值最小的作為該中心點的LBP編碼,以增加旋轉不變性即RLBP(rotated local binary pattern)。又因為LBP編碼的uniform模式只允許編碼中最多出現兩次0-1或1- 0跳變。當圖像的紋理主要是由直線構成或者彎折較少時,uniform模式可以有力地代表其紋理特征。但是對于復雜的紋理,如字符通常擁有較多的曲線彎折時,uniform模式則不能很好地表示其紋理特征。因此文字區域的特征采用DLBP(dominant local binary pattern),即使用主要模式代替uniform模式。DLBP是通過計算圖像全部的LBP編碼,根據不同LBP編碼的出現的數量建立統計直方圖,并對其進行降序排列。當前K個LBP編碼的數量占據總編碼數的80%時,則將前K個編碼作為主要模式。根據Liao等[11]在Brodatz、Meastex、CUReT數據庫上進行的測試,占全部編碼數量80%的模式種類大約只占所有編碼種類的20%左右。因此DLBP特征能夠在有效捕獲復雜紋理特征的同時只較少地增加數據維數。
結合RLBP與DLBP的特點,采用DRLBP,即主要旋轉不變的局部二值模式作為候選區域的紋理特征并結合SVM分類實現對車牌候選區域的再次定位。結果如圖 3所示,紅色和綠色框即為基于MSER車牌字符合并的車牌定位方法的結果。通過應用DRLBP特征進行車牌再定位可以將非車牌區域排除,只保留最終的車牌區域,用綠色框標出。
實驗數據集包含400張白天不同場景的車牌圖像,其中300張作為訓練圖像,其余100張作為測試圖像,另有300張夜晚的車牌圖像,其中200張作為訓練圖像,其余100張作為測試圖像。使用f-measure作為測量評價標準,其中包含召回率R、準確率P及F。每幅圖像均包含一組真實的車牌區域T,用本文所述方法對其每幅進行車牌定位也可得到一組評估的車牌區域E。在一幅圖像中任取一組(t,e)其中t∈T,e∈E,這兩個區域交集的像素個數比上其并集的像素個數的值即為其m。而當m(t,e)=1時評估區域t則與真實區域e完全重合,當m(t,e)=0時,區域t與區域e則完全分開。召回率則是對每一個真實區域與所有評估區域計算其m,并取其最大值。然后所有真實區域的m相加并除以真實區域的個數。而準確率則是對每一個評估區域與所有真實區域計算其m并取其最大值。然后將所有評估區域的m相加并除以評估區域的數量。

|t∈T}
(1)

|e∈E}
(2)
F的大小由召回率、準確率和其權值α的大小共同決定。令α=0.5。F的計算方法如下:
F=1/[α/P+(1-α)/R]=2RP/(R+P)
(3)
實驗采用以下四種算法進行對照。一是僅利用本文提出的基于MSER車牌字符合并的車牌定位算法;二是在算法一的基礎上使用DRLBP結合SVM進行車牌區域再定位;三是文獻[7]所提及的基于構造最近鄰對的方法;四是文獻[5]中所采用的基于Faster R-CNN結合VGG網絡的車牌的定位方法。實驗平臺為Ubuntu 16.04系統,8G內存,Intel i3-3225, 3.3 GHz CPU。相關實驗結果如表2、表3所示。
對不同國家的車牌在多種場景中進行定位的結果如圖 4所示。
通過上述實驗可得以下結論。
(1)提出的基于MSER車牌字符合并的車牌發現方法能夠有效地定位車牌位置,在測試圖像中其召回率為95%。

表2 白天車牌定位結果Table 2 License plate location in the daylight

表3 夜晚車牌定位結果Table 3 License plate location in the night

圖4 對不同國家的車牌進行定位的結果Fig.4 Locating license plate in different countries
(2)通過SVM結合DRLBP紋理特征進行再次定位后,能夠顯著地提高定位準確率而召回率只有略微的降低,顯示本文方法的有效性。
(3)本文方法基本不受車牌顏色、格式的影響,對國內外各種車牌均有一定效果。
(4)文獻[7]所提及的構造最近鄰對的方法在復雜場景中易受過多干擾的影響,因此其準確率和召回率均低于本方法。其所設計的最近鄰對合并方法也只針對于中國車牌。
(5)基于神經網絡的方法雖然在準確率和召回率上均高于其他方法,但在缺乏GPU僅依靠CPU運算時,其耗時明顯高于其他方法,因此不適于計算資源有限的情況。
首先利用MSER算法以及自主設計的車牌字符合并算法進行車牌定位,其次采用DRLBP特征對定位結果進行進一步驗證。實驗表明對多種車牌均有較好定位效果。但實際環境紛繁復雜,實驗難以囊括全部,而通過調整本文所述方法的參數,如預處理中的伽馬、MSER算法的相關參數、文本合并算法的相關閾值,則能夠使得本方法快速適應不同的復雜環境并得到滿意的結果。
另一方面,本方法基于MSER算法。MSER算法的高召回率既是優點,也是缺點。在復雜場景中,MSER會帶來非常多的難以通過簡單特征篩選掉的非字符候選區域。大量的非字符候選區域會使得車牌字符合并變得困難。后續會對MSER候選區域提取的篩選能力做進一步提高。