基于單字符注意力的全品類魯棒車牌識別

2023-01-16 07:36:12穆世義徐樹公

自動化學(xué)報(bào) 2023年1期

關(guān)鍵詞：分類特征

穆世義徐樹公

機(jī)動車車牌作為機(jī)動車重要的身份標(biāo)識,對車牌的精準(zhǔn)識別具有較高的應(yīng)用價(jià)值.車牌識別技術(shù)已經(jīng)廣泛應(yīng)用在交通監(jiān)控、門禁管理、智慧交通等場景中.然而大部分現(xiàn)有算法僅在光照、拍攝距離和拍攝角度等相對固定的受限場景中達(dá)到實(shí)用的準(zhǔn)確度,甚至有些識別系統(tǒng)只能識別單品類的車牌.

本文主要研究車牌識別中多品類車牌兼容和復(fù)雜場景下的大角度傾斜的兩大挑戰(zhàn).

多品類兼容的難點(diǎn)在于不同品類的車牌的字符布局不同.除字符個(gè)數(shù)不同外,字符空間布局差異較大,尤其是單行文本車牌的一維布局和雙行文本車牌的二維布局之間的差異難以兼容.

角度傾斜的車牌和角度水平的車牌之間不同之處也在于其空間布局方式的不同.水平的車牌圖像中字符序列沿水平方向從左到右依次排列.傾斜車牌圖像中的字符布局存在高度差,呈現(xiàn)出一種二維的對角線布局狀態(tài).

針對不同長度的單行文本車牌,通常可采用基于連接時(shí)序分類(Connectionist temporal classification,CTC)的算法進(jìn)行識別.Li 等[1]提出了基于卷積神經(jīng)網(wǎng)絡(luò)與CTC 結(jié)合的算法.Wu 等[2]提出了DenseNet[3]結(jié)合CTC 的算法.Yang 等[4]提出了基于卷積、全連接分類頭和CTC 的HomoNet 算法.He 等[5]采用了場景文本識別領(lǐng)域中廣泛應(yīng)用的卷積神經(jīng)網(wǎng)絡(luò)結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)的組合方式,利用循環(huán)神經(jīng)網(wǎng)絡(luò)對前后語義信息進(jìn)行建模.Lee 等[6]、Cheng 等[7]和Zou 等[8]提出了一些基于一維注意力的算法用于提高識別準(zhǔn)確率.此類針對一維水平布局的單行字符而設(shè)計(jì)的算法無法很好地解決二維布局的傾斜車牌和雙行車牌.

可兼容一維和二維布局的方法有四種:基于多個(gè)分類頭的算法、基于單字符檢測分割的方法、基于空間矯正的方法和基于二維注意力的方法.

基于多個(gè)分類頭的算法對單雙行車牌設(shè)計(jì)不同的分類頭以實(shí)現(xiàn)分而治之.依據(jù)車牌品類分類結(jié)果選擇對應(yīng)品類的分類頭進(jìn)行字符分類.Qin 等[9]在識別器中設(shè)計(jì)分支結(jié)構(gòu)預(yù)測車牌品類后選擇對應(yīng)的字符分類頭.此類方法解決了單雙行的兼容問題,但是無法應(yīng)對大角度傾斜導(dǎo)致的二維空間布局問題.

基于單字符檢測分割的算法[10-14]對車牌圖像中的單字符進(jìn)行逐一檢測定位,并逐一進(jìn)行分割分類,根據(jù)空間位置關(guān)系對多個(gè)分類結(jié)果進(jìn)行排序重組即組成所預(yù)測的車牌字符序列.該種算法可有效地解決傾斜導(dǎo)致的二維布局問題,同時(shí)可兼容單雙行的車牌識別.但是存在不足之處,訓(xùn)練階段需要每個(gè)單字符的位置和類別標(biāo)簽進(jìn)行監(jiān)督訓(xùn)練.

基于空間矯正的算法將傾斜的車牌圖像整體矯正為水平狀態(tài)再進(jìn)行車牌識別.Luo 等[15]提出了基于空間變換網(wǎng)絡(luò)[16]的車牌識別算法,周曉君等[17]提出了相似的算法用于車牌圖像的空間矯正.此類算法可將傾斜單行文本的二維布局矯正為一維布局,但是無法將雙行文本矯正為單行文本.

基于二維注意力的算法則無需對輸入圖像進(jìn)行空間矯正,而是利用二維注意力在特征提取過程中更加關(guān)注單字符區(qū)域特征從而依次對單字符進(jìn)行識別.Li 等[18]提出基于長短時(shí)記憶網(wǎng)絡(luò)的二維注意力機(jī)制用于場景文本識別,Xu 等[19]和Zhang 等[20]將該注意力機(jī)制應(yīng)用在復(fù)雜場景的車牌識別,提高了傾斜車牌的識別魯棒性.Hu 等[21]提出了采用圖卷積網(wǎng)絡(luò)(Graph convolutional nueral network,GCN)代替基于長短時(shí)記憶網(wǎng)絡(luò)的二維注意力結(jié)構(gòu)應(yīng)用于文本識別,加快了網(wǎng)絡(luò)推理速度.Yan 等[22]引入GCN 增強(qiáng)了單字符特征的表達(dá)能力,有效地提升了場景文本識別的魯棒性.

上述算法中基于單字符檢測分割的算法和基于二維注意力的算法可用于解決雙行字符和傾斜車牌的二維布局識別問題.前者需要大量的單字符位置標(biāo)簽,后者無需單字符位置標(biāo)簽.然而后者結(jié)構(gòu)中的串行解碼器耗時(shí)較大,并且無法實(shí)現(xiàn)并行化.在實(shí)際應(yīng)用中,部署車牌識別算法的嵌入式設(shè)備計(jì)算能力較弱,因此需要較小的計(jì)算復(fù)雜度和較少的參數(shù)量才能夠滿足車牌識別應(yīng)用部署階段的實(shí)時(shí)性需求.

本文提出基于字符注意力的識別網(wǎng)絡(luò)(Character attention based recognition network,CARNet),采用二維注意力的機(jī)制對全局特征圖進(jìn)行單字符特征分割,提出可并行化的多分支結(jié)構(gòu)代替現(xiàn)有的串行解碼結(jié)構(gòu),提高了算法推理速度.并在多個(gè)分類頭之間進(jìn)行參數(shù)共享,有效降低網(wǎng)絡(luò)參數(shù)量.本文的主要貢獻(xiàn)包括:

1)采用了單字符注意力解決單雙行布局不同的兼容難題.

2)設(shè)計(jì)了參數(shù)共享的多字符分類頭網(wǎng)絡(luò),實(shí)現(xiàn)多字符的并行化預(yù)測.

3)在中國城市停車場數(shù)據(jù)集(Chinese city parking dataset,CCPD)和中國車牌數(shù)據(jù)集(China license plate dataset,CLPD)上實(shí)現(xiàn)了超越現(xiàn)有公開算法的車牌識別準(zhǔn)確率

1 車牌識別算法

1.1 算法結(jié)構(gòu)分析與改進(jìn)

基于循環(huán)神經(jīng)網(wǎng)絡(luò)的二維注意力算法結(jié)構(gòu)見圖1 中算法1.該種算法在循環(huán)解碼器的解碼過程中依次進(jìn)行二維注意力圖預(yù)測,并采用全連接(Fully connected,FC)網(wǎng)絡(luò)進(jìn)行單字符分類.該種算法的串行結(jié)構(gòu)無法實(shí)現(xiàn)并行化推理,并且單步耗時(shí)較大.由于循環(huán)神經(jīng)網(wǎng)絡(luò)在預(yù)測當(dāng)前一步的字符時(shí)需要前一步的字符預(yù)測結(jié)果的編碼作為輸入,當(dāng)解碼過程中的某一步發(fā)生識別錯(cuò)誤時(shí),會影響到后一步的注意力圖預(yù)測,直接導(dǎo)致識別結(jié)果錯(cuò)位.

針對注意力漂移現(xiàn)象,Wang 等[23]提出解耦合的單字符注意力機(jī)制應(yīng)用于場景文本識別和手寫字符識別,解決了注意力漂移問題.其結(jié)構(gòu)見圖1 中算法2.該算法將注意力預(yù)測過程與循環(huán)解碼過程解耦,先對多個(gè)字符的注意力圖進(jìn)行并行化預(yù)測,再進(jìn)行循環(huán)解碼的分類過程.該算法對自然場景中的字符串識別性能提升顯著,但是該種結(jié)構(gòu)保留了循環(huán)神經(jīng)網(wǎng)絡(luò)作為串行解碼器.自然場景中的字符串多為單詞或有規(guī)律的序列,字符間存在前后語義關(guān)聯(lián).然而在車牌識別的任務(wù)中這種規(guī)律并不存在,除第1 位字符和第2 位字符表示地區(qū)以外,其余字符可看作為隨機(jī)排列的字符序列,這種序列并不存在語義關(guān)聯(lián).因此,本文在解耦合注意力的基礎(chǔ)上優(yōu)化了串行解碼器結(jié)構(gòu),采用了可并行化推理的多分支分類頭進(jìn)行替代.此并行分支結(jié)構(gòu)見圖1 中算法3.與基于解耦合注意力的算法B 類似,首先并行化地預(yù)測多個(gè)單字符注意力圖,利用注意力圖對多個(gè)字符特征進(jìn)行解耦分離.不同之處在于本文直接采用多分支全連接分類頭進(jìn)行單字符預(yù)測,而不是采用之前的串行解碼結(jié)構(gòu).這種多分支結(jié)構(gòu)實(shí)現(xiàn)了并行化推理,相對于循環(huán)神經(jīng)網(wǎng)絡(luò)組成的串行結(jié)構(gòu),并行化結(jié)構(gòu)優(yōu)勢為可節(jié)約推理階段的耗時(shí),并且全連接網(wǎng)絡(luò)的簡單結(jié)構(gòu)相較于循環(huán)神經(jīng)網(wǎng)絡(luò)能夠更輕易地在嵌入式設(shè)備上實(shí)現(xiàn)部署.

圖1 注意力機(jī)制改進(jìn)Fig.1 Evolution of attention mechanism

本文提出多分支結(jié)構(gòu)對多個(gè)位置的字符進(jìn)行獨(dú)立預(yù)測,將車牌字符序列識別任務(wù)轉(zhuǎn)化為多個(gè)并行的單字符識別任務(wù).事實(shí)上多個(gè)獨(dú)立字符識別任務(wù)并不是完全不相關(guān)的任務(wù).不同位置的分類頭所需預(yù)測的字符類別是高度重疊的,故本文將多個(gè)獨(dú)立的字符分類任務(wù)融合為單個(gè)字符分類任務(wù).實(shí)現(xiàn)方式是在多個(gè)分類頭之間進(jìn)行參數(shù)共享,既降低了網(wǎng)絡(luò)參數(shù)量又?jǐn)U大了單個(gè)分類頭的訓(xùn)練樣本.多分支的分類頭結(jié)構(gòu)被簡化成為單支分類頭的孿生結(jié)構(gòu),模型結(jié)構(gòu)及模型參數(shù)量得以簡化.

1.2 CARNet 車牌識別網(wǎng)絡(luò)結(jié)構(gòu)

本文提出基于單字符注意力的CARNet 車牌識別算法的整體框架見圖2,主要包含以下3 個(gè)部分:

圖2 CARNet 算法結(jié)構(gòu)圖Fig.2 Framework of the proposed algorithm CARNet

1)輕量化特征提取,由多層卷積網(wǎng)絡(luò)組成.主干網(wǎng)絡(luò)從圖像中提取出多種尺度的全局特征圖,代表不同的視野域特征.并將多個(gè)尺度不同的全局特征圖融合形成一個(gè)全局特征圖.

2)單字符注意力網(wǎng)絡(luò),使用卷積下采樣結(jié)構(gòu)和反卷積上采樣結(jié)構(gòu)結(jié)合,預(yù)測每個(gè)字符的注意力圖,并進(jìn)行單字符特征分割.

3)并行化單字符分類,使用共享參數(shù)的并行多分支結(jié)構(gòu)對分割出的單字符特征進(jìn)行并行化分類.

1.3 輕量化特征提取

本文在Xception[24]基礎(chǔ)上改進(jìn)得到19 層卷積結(jié)構(gòu)作為特征提取網(wǎng)絡(luò).基礎(chǔ)單元由深度可分離卷積組成.本文提出的輕量化特征提取網(wǎng)絡(luò)相對于現(xiàn)有算法[23,25]中常用的Resnet45 特征提取網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)點(diǎn)在于獲得相同準(zhǔn)確率表現(xiàn)的情況下使用更少的網(wǎng)絡(luò)參數(shù),具有更快的推理速度.輕量化特征提取網(wǎng)絡(luò)包括淺層特征提取模塊、中層特征提取模塊和深層特征提取模塊3 個(gè)模塊.隨著網(wǎng)絡(luò)加深,網(wǎng)絡(luò)可獲得更大視野域的特征.19 層卷積結(jié)構(gòu)由多個(gè)塊組成,每個(gè)塊之間由卷積核大小為1 的卷積層進(jìn)行跳躍連接.其細(xì)節(jié)設(shè)置如圖3 所示,其中虛線區(qū)域結(jié)構(gòu)重復(fù)2 次.

圖3 輕量化特征提取Fig.3 Lightweight feature extraction

輸入的車牌圖像為X∈RC×H×W,在本文的實(shí)驗(yàn)中網(wǎng)絡(luò)輸入車牌圖像的寬W為256 像素,車牌圖像的高H為64 像素,并且為單通道的灰度圖.本文輕量化特征提取網(wǎng)絡(luò)所輸出的多尺度特征圖包括:淺層特征圖fL∈R32×(H/2)×(W/2)、中層特征圖fM∈R128×(H/4)×(W/4)和深層特征圖fS∈R512×(H/4)×(W/4).

使用式(1)的方式對多個(gè)尺度的特征圖進(jìn)行特征融合.首先對淺層特征fL進(jìn)行卷積下采樣操作以調(diào)整其尺寸,再與中層特征fM相加,再次經(jīng)過卷積操作將其擴(kuò)大通道數(shù)與fS尺寸相同后與深層特征fS相加.融合后的特征圖為f∈R512×(H/4)×(W/4),所獲得的全局特征圖f包含三種尺度視野域的特征信息,有利于解決車牌檢測誤差導(dǎo)致的字符尺度不一的問題.

1.4 單字符注意力網(wǎng)絡(luò)

在現(xiàn)有的基于單字符檢測分割的車牌識別算法中,通過字符分割算法將一張多字符車牌圖像分割為多張單字符圖像,從而進(jìn)一步對單字符圖像進(jìn)行單字符分類.在一些基于注意力機(jī)制的文本識別算法中利用二維注意力對字符特征進(jìn)行加權(quán).可以觀察到二維注意力圖和原圖中的單字符位置存在一一對應(yīng)的空間分布.受此啟發(fā),本文利用該種空間對應(yīng)關(guān)系,利用二維注意力圖對二維的全局特征圖進(jìn)行單字符特征分割,實(shí)現(xiàn)單字符特征間的解耦合.

如圖4 所示,單字符注意力網(wǎng)絡(luò)的輸入為融合后的全局特征圖f輸出為多個(gè)字符特征注意力圖A∈RT×(H/4)×(W/4).A由T張單字符注意力圖α∈R1×(H/4)×(W/4)組成,其中T為最大可識別字符長度.單字符注意力網(wǎng)絡(luò)結(jié)構(gòu)由4 個(gè)卷積層和4 個(gè)反卷積層結(jié)構(gòu)組成.上下采樣結(jié)構(gòu)的對稱位置之間存在跳躍連接,這種連接的方式和圖像分割任務(wù)圖像分割任務(wù)中的 “U”形網(wǎng)絡(luò)[26]方式相同.

圖4 單字符注意力網(wǎng)絡(luò)Fig.4 Single character attention network

與圖像分割任務(wù)不同的是,本文分割過程用于特征空間的特征圖裁剪,而非對原始輸入圖像進(jìn)行的單字符圖像裁剪.單字符注意力網(wǎng)絡(luò)的參數(shù)在訓(xùn)練過程中僅使用最終的字符識別損失進(jìn)行監(jiān)督訓(xùn)練,并未使用像素級別的單字符位置標(biāo)簽進(jìn)行監(jiān)督訓(xùn)練.與Zhang 等[20]的基于循環(huán)神經(jīng)網(wǎng)絡(luò)的二維注意力的串行結(jié)構(gòu)不同,本文使用的單字符注意力結(jié)構(gòu)為并行結(jié)構(gòu),可并行化地預(yù)測出全部單字符的注意力圖.實(shí)現(xiàn)了各字符注意力之間的解耦合,后一個(gè)字符的注意力預(yù)測不依賴于前一個(gè)字符的位置信息,可有效地避免注意力漂移現(xiàn)象的發(fā)生.同時(shí)并行結(jié)構(gòu)相對于串行結(jié)構(gòu)能夠節(jié)約網(wǎng)絡(luò)推理的耗時(shí),實(shí)現(xiàn)更快的推理速度.

本文以注意力圖為權(quán)重對全局特征圖中的各像素位置的特征進(jìn)行加權(quán),保留單字符特征,并抑制背景紋理和其他字符的特征.可理解為利用注意力圖對全局特征圖進(jìn)行像素級別的軟分割,分割出多個(gè)單字符各自獨(dú)有的字符特征圖.單字符特征圖的分割過程如式(2)所示,分割后的第t個(gè)字符的字符特征為ft∈R512×(H/4)×(W/4)由該字符的注意力圖αt和全局特征f進(jìn)行哈達(dá)瑪積計(jì)算而來.多次進(jìn)行乘法操作對f中的多個(gè)單字符特征進(jìn)行逐個(gè)增強(qiáng),同時(shí)抑制了背景特征,實(shí)現(xiàn)對多個(gè)單字符特征的分割分離.其分割過程如圖5 所示,注意力圖αt的數(shù)值較大位置所對應(yīng)f中的相同位置的特征得以保留,其余位置的特征被抑制.

圖5 單字符特征分割Fig.5 Single character feature segmentation

基于式(3)對分割分離后的單字符特征圖ft進(jìn)行求和,獲得所需的第t個(gè)字符特有的單字符特征向量ct∈R512×1,用于后續(xù)并行化單字符分類.這種求和操作并行化地進(jìn)行T次即可分離出全部字符特有的單字符特征向量.

1.5 并行化單字符分類

上述字符特征分割過程將單字符特征從全局特征中分離并映射為T個(gè)長度為512 的單字符特征向量ct.為提高車牌識別算法的運(yùn)行速度,避免使用基于長短時(shí)記憶網(wǎng)絡(luò)的串行解碼器結(jié)構(gòu).本文在解碼階段設(shè)計(jì)了多個(gè)共享參數(shù)的多分支并聯(lián)解碼結(jié)構(gòu),實(shí)現(xiàn)多個(gè)字符的并行化解碼.每個(gè)分支結(jié)構(gòu)由兩層全連接網(wǎng)絡(luò)組成分類頭網(wǎng)絡(luò).第1 層全連接層作為隱藏層輸出特征向量為ht∈R256×1,第2 層全連接層輸出為單字符分類結(jié)果yt∈RN×1,其中N為車牌字符類別數(shù).為降低網(wǎng)絡(luò)參數(shù)量,多個(gè)分支之間進(jìn)行網(wǎng)絡(luò)參數(shù)共享.

式中,W1和W2表示全連接層的可學(xué)習(xí)權(quán)重參數(shù),b1和b2表示偏置參數(shù).本文采用的多分支分類頭輸出結(jié)果為固定長度的字符序列,而不同品類車牌的字符長度不同,例如藍(lán)色車牌為7 位字符,新能源車牌為8 位字符.因此實(shí)驗(yàn)中對短的字符序列使用“&”符號進(jìn)行占位補(bǔ)齊.

1.6 損失函數(shù)

單個(gè)分支的分類損失函數(shù)為交叉熵?fù)p失函數(shù),字符序列預(yù)測總損失函數(shù)為多個(gè)分支分類損失的平均值.如式(6)所示,其中∈RN×1為字符分類標(biāo)簽.本文所提出的CARNet 車牌識別算法在訓(xùn)練過程中僅使用式(6)所表示的平均交叉熵?fù)p失進(jìn)行監(jiān)督訓(xùn)練.

2 車牌識別數(shù)據(jù)集

2.1 CCPD 車牌數(shù)據(jù)集

中國車牌數(shù)據(jù)集CCPD 由Xu 等[27]提出,該車牌數(shù)據(jù)集包含7 個(gè)子集共計(jì)28 萬張藍(lán)色車牌.其中基礎(chǔ)集圖像數(shù)量最大,并且為識別難度較小的常規(guī)車牌圖像,明暗集為光照條件極端亮或暗的車牌圖像,遠(yuǎn)近集為拍攝較遠(yuǎn)和較近的車牌圖像,旋轉(zhuǎn)集為水平角度旋轉(zhuǎn)的車牌圖像,傾斜集為傾斜角度較大的車牌圖像,天氣集為不同天氣條件下采集的車牌圖像,挑戰(zhàn)集為圖像質(zhì)量較差的高難度車牌圖像.該數(shù)據(jù)集的標(biāo)簽數(shù)據(jù)中包含車牌位置標(biāo)簽和車牌字符標(biāo)簽,每張圖像中僅包含一個(gè)車牌.

2.2 CLPD 車牌測試數(shù)據(jù)集

CLPD 由Zhang 等[20]提出,該數(shù)據(jù)集包含1 200張中國大陸各地區(qū)的車牌圖像,省份類別字符種類分布相對于CCPD 更均衡.除少量黃色單行車牌和新能源車牌以外,其余均為小型汽車藍(lán)色車牌.標(biāo)簽數(shù)據(jù)與CCPD 數(shù)據(jù)集標(biāo)簽相似,CLPD 中的標(biāo)簽數(shù)據(jù)包含車牌位置標(biāo)簽和車牌字符標(biāo)簽,且每張測試圖像中僅有1 個(gè)車牌.

2.3 混合品類車牌測試數(shù)據(jù)集

SYSU-ITS[28]車牌數(shù)據(jù)集為混合品類車牌識別測試集,所包含的車牌品類豐富,包括小型車藍(lán)牌、新能源綠牌、大型車后牌、教練車牌、港澳車牌和大型車前牌.該數(shù)據(jù)集的標(biāo)簽數(shù)據(jù)中僅包括車牌字符類別標(biāo)簽,無車牌位置標(biāo)簽,且每張測試圖像中僅有1 個(gè)車牌.由于SYSU-ITS 中子集樣本數(shù)量較小,本文在該數(shù)據(jù)集基礎(chǔ)上進(jìn)行了樣本擴(kuò)充.添加了新的測試樣本,并對原有的樣本進(jìn)行隨機(jī)圖像增廣,增廣方式包括高斯模糊、運(yùn)動模糊、對比度調(diào)整和圖像質(zhì)量壓縮.擴(kuò)充后的樣本量為原有測試集的10 倍.

2.4 合成車牌圖像訓(xùn)練數(shù)據(jù)集

為了更好地驗(yàn)證本文算法在混合品類車牌上的性能表現(xiàn).本文使用圖像合成算法對CCPD 訓(xùn)練樣本進(jìn)行了大量樣本擴(kuò)充.主要針對多省份車牌和多品類車牌兩個(gè)方面進(jìn)行了擴(kuò)充.

Wu 等[2]、Sun 等[29]、Han 等[30]和Sun 等[31]提出基于生成對抗網(wǎng)絡(luò)(Generative adversarial networks,GAN)[32]的車牌生成算法用于擴(kuò)充真實(shí)樣本中稀缺部分的車牌樣本.本文采用了類似于Wu 等[2]的生成方法,結(jié)合圖像生成與圖像質(zhì)量退化的兩種方式進(jìn)行訓(xùn)練樣本擴(kuò)充.合成的品類包括各省份的藍(lán)色車牌、新能源車牌、黃色單雙行車牌及其他稀有品類車牌.圖像質(zhì)量退化方式包括運(yùn)動模糊、高斯模糊、圖像壓縮和隨機(jī)光影.合成圖像的可視化效果如圖6 所示.合成的混合品類車牌訓(xùn)練集樣本共計(jì)10 萬張,不同省份和不同品類的車牌樣本數(shù)量分布均衡.

圖6 腳本生成的車牌樣本Fig.6 License plate samples generated by script

3 實(shí)驗(yàn)測試與結(jié)果

3.1 實(shí)驗(yàn)實(shí)施細(xì)節(jié)

為公平地比較本文算法對車牌識別速度和識別準(zhǔn)確率,以Zhang 等[20]為基線算法,并在本文實(shí)驗(yàn)的軟硬件環(huán)境中參照該論文細(xì)節(jié)對其進(jìn)行了復(fù)現(xiàn)實(shí)驗(yàn).復(fù)現(xiàn)的準(zhǔn)確率和速度與原文獻(xiàn)[20]實(shí)驗(yàn)結(jié)果接近.為了控制車牌檢測算法對車牌識別準(zhǔn)確率造成的影響,本文算法和GCN[22]對比算法均采用與基線算法Zhang 等[20]相同的車牌檢測算法進(jìn)行車牌定位和圖像裁剪.

本文所有實(shí)驗(yàn)均在相同軟硬件環(huán)境進(jìn)行:GPU為顯存6 GB 的英偉達(dá)1660 s 顯卡,CPU 為AMD3600處理器.實(shí)驗(yàn)中使用的神經(jīng)網(wǎng)絡(luò)框架為PyTorch,訓(xùn)練數(shù)據(jù)的批大小為32,學(xué)習(xí)率為0.001,優(yōu)化器為Adam,訓(xùn)練輪數(shù)為150.輸入圖像的寬和高分別為256 像素和64 像素.

3.2 算法評估指標(biāo)

車牌識別準(zhǔn)確率RLP定義為所有測試樣本中預(yù)測結(jié)果正確的樣本數(shù)NC占測試樣本總數(shù)NLP的比例.其中車牌中所有字符全部預(yù)測正確則判定為該車牌識別正確.

字符準(zhǔn)確率RChar定義為所有測試樣本中預(yù)測正確的單字符個(gè)數(shù)MC占總樣本中所有字符個(gè)數(shù)MChar的比例.

中文字符準(zhǔn)確率RC_Char定義為所有測試樣本中的中文字符正確個(gè)數(shù)MC_C占所有測試樣本中文字符總數(shù)MC_Char的比例.其中中文字符包括各地區(qū)簡稱及 “警”、“掛”、“領(lǐng)”、“使”等.

西文字符準(zhǔn)確率RW_Char定義為所有測試樣本中的西文字符預(yù)測正確的個(gè)數(shù)MW_C占全部西文字符總數(shù)MW_Char的比例.其中西文字符包括數(shù)字和英文字符.

3.3 算法識別準(zhǔn)確率分析

3.3.1 CCPD 數(shù)據(jù)集測試評估

與Zhang 等[20]和Xu 等[27]的樣本劃分方式相同,表1 實(shí)驗(yàn)過程使用CCPD 基礎(chǔ)集的二分之一樣本作為訓(xùn)練數(shù)據(jù)集,用于對車牌檢測網(wǎng)絡(luò)和車牌識別網(wǎng)絡(luò)進(jìn)行訓(xùn)練.剩余的基礎(chǔ)集二分之一樣本和其他各子集樣本用于性能測試.此階段實(shí)驗(yàn)不使用額外合成數(shù)據(jù)集.

為公平對比各識別算法的有效性,表1 實(shí)驗(yàn)中Zhang 等[20]、GCN[22]與本文CARNet 算法均使用同樣的車牌檢測算法,其中GCN 算法是對Yan 等[22]提出的場景文本識別算法的復(fù)現(xiàn),訓(xùn)練設(shè)置和本文算法保持一致.從表1 中可以看出,本文算法在CCPD各測試子集上均超過現(xiàn)有算法的最高準(zhǔn)確率.各子集的平均準(zhǔn)確率達(dá)到99.5%,超越其他算法的最高準(zhǔn)確率0.7%,并在最難的挑戰(zhàn)子集上的識別準(zhǔn)確率提升2%.

表1 在CCPD 上的車牌識別準(zhǔn)確率(%)Table 1 License plate recognition accuracy on CCPD (%)

表2 給出了本文算法在CCPD 測試集上與GCN算法[22]的各項(xiàng)評估指標(biāo)比較結(jié)果.括號內(nèi)為多次實(shí)驗(yàn)的準(zhǔn)確率的標(biāo)準(zhǔn)差.由表2 可以看出,本文算法在各測試子集上的車牌準(zhǔn)確率、字符準(zhǔn)確率、中文字符準(zhǔn)確率和西文字符準(zhǔn)確率,與對比算法中的較優(yōu)算法GCN 算法相比,均具有顯著優(yōu)越性.

表2 本文算法有效性評估(%)Table 2 Evaluation of the effectiveness of the algorithm of this paper (%)

3.3.2 CLPD 數(shù)據(jù)集測試評估

表3 實(shí)驗(yàn)結(jié)果顯示,在僅使用CCPD 基礎(chǔ)集作為訓(xùn)練數(shù)據(jù)的條件下,CARNet 算法在CLPD 測試集上的準(zhǔn)確率顯著高于現(xiàn)有算法.并且在引入混合數(shù)據(jù)集訓(xùn)練后識別準(zhǔn)確率得到進(jìn)一步提升.其中混合數(shù)據(jù)集由CCPD和合成圖像組成,合成圖像包含藍(lán)色、綠色和黃色車牌數(shù)量相等共計(jì)10 萬張.

表3 在CLPD 上的車牌識別準(zhǔn)確率Table 3 License plate recognition accuracy on CLPD

3.3.3 混合品類數(shù)據(jù)集評估

表4 實(shí)驗(yàn)為本文和對比算法在混合品類車牌數(shù)據(jù)集上的識別準(zhǔn)確率.此實(shí)驗(yàn)使用CCPD 藍(lán)色車牌樣本和算法合成的多品類車牌樣本進(jìn)行混合訓(xùn)練,測試集是在SYSU-ITS 基礎(chǔ)上擴(kuò)充的混合品類測試集.本文CARNet 算法和GCN 對比算法均采用相同的實(shí)驗(yàn)設(shè)置和車牌檢測器.表4 結(jié)果表明,本文算法在各品類車牌上的識別準(zhǔn)確率均顯著高于對比算法,尤其是在雙行大型車后牌上性能優(yōu)勢明顯.

表4 在混合品類車牌上的識別準(zhǔn)確率Table 4 Recognition accuracy on mixed types of license plates

3.4 算法時(shí)間復(fù)雜度分析

3.4.1 GPU 平臺算法速度評估

表5 給出了本文和對比算法在GPU 平臺的識別速度比較結(jié)果.得益于本文采用的并行化解碼結(jié)構(gòu),本文算法對單張車牌圖像的識別耗時(shí)減少至4.9 ms,與基線算法Zhang 等[20]串行結(jié)構(gòu)識別耗時(shí)7.9 ms 相比,本文識別算法的識別速度提升了38%.與對比算法中準(zhǔn)確率較高的GCN 算法相比,單張圖像識別速度提升了74%.

表5 各算法速度比較Table 5 Comparison of algorithm speed

3.4.2 嵌入式平臺算法速度評估

本文將CARNet 車牌識別算法運(yùn)行在3 款低功耗設(shè)備進(jìn)行速度測試,分別為英偉達(dá)的Jetson Nano和Jetson TX2,以及海思的Hi3516DV300.前2 種英偉達(dá)平臺使用Pytorch 神經(jīng)網(wǎng)絡(luò)框架進(jìn)行網(wǎng)絡(luò)推理.Hi3516DV300 采用NNIE 神經(jīng)網(wǎng)絡(luò)框架進(jìn)行開發(fā)部署.速度對比結(jié)果見表6,本文的車牌識別算法在3 種低功耗嵌入式設(shè)備速度達(dá)到22FPS至33FPS,可很好地滿足低功耗場景下的實(shí)時(shí)性需求.

表6 低功耗嵌入式硬件測試Table 6 Low-power embedded device test

3.5 算法消融實(shí)驗(yàn)與分析

本節(jié)討論本文算法涉及的改進(jìn)部分對識別準(zhǔn)確率和算法復(fù)雜度的影響.實(shí)驗(yàn)中的訓(xùn)練數(shù)據(jù)集均為CCPD 基礎(chǔ)集的二分之一,不使用合成數(shù)據(jù)集.測試數(shù)據(jù)集是CCPD中基礎(chǔ)集的余下二分之一和其他子集.表7～9 中準(zhǔn)確率為全部測試子集的車牌識別準(zhǔn)確率的平均值,參數(shù)量為車牌識別網(wǎng)絡(luò)所需的全部網(wǎng)絡(luò)參數(shù)量,計(jì)算復(fù)雜度為車牌識別網(wǎng)絡(luò)在推理過程中所需的復(fù)雜度,不包含車牌檢測網(wǎng)絡(luò)所需的復(fù)雜度.

表7 特征提取網(wǎng)絡(luò)消融實(shí)驗(yàn)Table 7 Feature extraction ablation experiment

3.5.1 特征提取網(wǎng)絡(luò)消融實(shí)驗(yàn)

表7 實(shí)驗(yàn)結(jié)果表明,輕量化的19 層類Xception 結(jié)構(gòu)在保持準(zhǔn)確率相近的情況下,由于深度可分離卷積的設(shè)計(jì)優(yōu)勢,可有效地降低參數(shù)量和計(jì)算復(fù)雜度.Xception19 結(jié)構(gòu)比Resnet45 結(jié)構(gòu)參數(shù)量降低87%,計(jì)算復(fù)雜度下降88%.

3.5.2 分類頭參數(shù)共享消融實(shí)驗(yàn)

如表8 所示,參數(shù)共享的識別網(wǎng)絡(luò)整體參數(shù)量降低約51%,同時(shí)車牌識別準(zhǔn)確率提升了0.1%.這是由于當(dāng)使用非共享參數(shù)的多個(gè)分類頭時(shí),多個(gè)分類頭是獨(dú)立的單字符分類任務(wù).CCPD數(shù)據(jù)集中大部分的樣本是在合肥市采集,第2 位字符的類別分布存在嚴(yán)重的長尾效應(yīng).當(dāng)采用共享參數(shù)的分類頭時(shí),第2 位字符和后幾位字符的分支共用一組網(wǎng)絡(luò)參數(shù),長尾效應(yīng)得以輕微改善.

表8 分類頭參數(shù)共享消融實(shí)驗(yàn)Table 8 Classification head weight sharing ablation experiment

3.5.3 字符注意力消融實(shí)驗(yàn)

表9 為單字符注意力消融實(shí)驗(yàn).由圖5 可以看出,若取消本文結(jié)構(gòu)中的單字符注意力機(jī)制,則會導(dǎo)致式(3) 計(jì)算出的多個(gè)單字符特征向量完全相等,若用共享參數(shù)的分類頭則會導(dǎo)致多個(gè)分支預(yù)測的字符類別相同,網(wǎng)絡(luò)模型則無法有效地進(jìn)行監(jiān)督訓(xùn)練.因此表9 無注意力對比實(shí)驗(yàn)僅可使用參數(shù)不共享的多個(gè)并行化分類頭.表9 實(shí)驗(yàn)結(jié)果表明,若取消單字符注意力機(jī)制可降低網(wǎng)絡(luò)整體計(jì)算復(fù)雜度,但是準(zhǔn)確率也會降低0.4%.

表9 單字符注意力消融實(shí)驗(yàn)Table 9 Ablation experiments for single-character attention

3.6 單字符注意力可視化

為展示本文提出的單字符注意力機(jī)制在不同品類車牌的可視化效果,本文對各品類車牌的字符注意力圖進(jìn)行了可視化,如圖7和圖8 所示.由于注意力圖的尺寸為輸入車牌圖像尺寸的四分之一,在可視化的過程中將注意力圖插值到原始尺寸的大小并轉(zhuǎn)化為熱力圖與原圖疊加.其中高亮區(qū)域代表注意力所關(guān)注區(qū)域,亮度越大代表該位置的注意力值接近1,反之接近于0.圖7和圖8 中第1 行圖像為原始車牌圖像,第2 行開始依次為各字符注意力圖效果.可以看出,每個(gè)字符的注意力圖與原圖中字符所在位置一一對應(yīng).圖7 為常見7 字符車牌圖像,圖7(a)為低分辨率的車牌,圖7(b)為傾斜的藍(lán)色牌照,圖7(c)為白色警車車牌,圖7(d)為模糊的教練車牌,圖7(e)為光線條件較差的黃色車牌.

圖7 常見7 字符車牌注意力圖Fig.7 Attention maps of seven-character license plates

圖8 雙行黃牌、新能源車牌及黑色車牌注意力圖Fig.8 Attention maps of double-line and new energy and black plate licenses

圖8(a)為大型汽車雙行字符后牌,且存在角度傾斜,本文的單字符注意力能夠自適應(yīng)地?fù)Q行并準(zhǔn)確定位第2 行的首位字符.圖8(b)和圖8(c)分別為新能源小型汽車和新能源大型汽車車牌.由于這種類型的車牌比其他車牌多出1 個(gè)字符.相對于前7個(gè)字符的注意力圖的亮度,第8 個(gè)字符的注意力圖亮度偏暗,這是由于訓(xùn)練數(shù)據(jù)集中多數(shù)的車牌為7個(gè)字符車牌,較少部分車牌樣本為8 個(gè)字符綠色車牌.故第8 個(gè)字符多數(shù)情況下為 “&”占位符,類別分布非常不均衡.在圖8(b)和圖8(c)中,最后1 行可視化效果中新能源車牌的第8 個(gè)字符的注意力仍能夠準(zhǔn)確聚集于最后1 個(gè)字符,而在7 個(gè)字符車牌中第8 個(gè)字符注意力亮點(diǎn)無明顯聚集.本文提出的字符注意力機(jī)制可以有效地判斷第8 個(gè)字符為常規(guī)字符或?yàn)檎嘉环?“&”,能夠?qū)崿F(xiàn)對不同字符個(gè)數(shù)的自適應(yīng).綜合觀察圖7和圖8 各種品類車牌的注意力圖效果,本文提出的單字符注意力能夠?qū)崿F(xiàn)對不同行數(shù)、字?jǐn)?shù)、顏色的車牌進(jìn)行精準(zhǔn)地單字符特征定位.

3.7 復(fù)雜場景測試樣例

考慮到第3.3 節(jié)算法識別準(zhǔn)確率分析實(shí)驗(yàn)中測試集的車牌場景固定,本文收集各種更加復(fù)雜場景下的車牌圖像進(jìn)行車牌檢測和車牌識別的端到端測試.測試場景包含各類角度、光照和分辨率.如圖9所示,第1 行左數(shù)第1 張圖的車牌傾斜角度接近45 度,具有很大識別難度.得益于單字符注意力機(jī)制,本文算法能夠?qū)A斜車牌圖像中的單字符做到精準(zhǔn)的特征分割和分類.本文提出的識別算法在圖9各種真實(shí)的復(fù)雜場景中對各品類車牌能夠保持一定的魯棒性.

圖9 真實(shí)復(fù)雜場景下的檢測識別測試Fig.9 Detection and recognition test in complex scene

3.8 識別失敗樣例分析

盡管本文算法在公開數(shù)據(jù)集上獲得了比較高的識別準(zhǔn)確率,但在極端場景下仍然存在不足.圖10展示了本文實(shí)驗(yàn)中的一些失敗案例,可以看出在低分辨率、車牌形變、極端光照條件和污漬遮擋的情況下仍會出現(xiàn)識別錯(cuò)誤的情況.這種錯(cuò)誤通常發(fā)生在相似字符之間,如 “E”和 “F”、“D”和 “0”、“7”和 “Z”、“A”和 “4”等.

圖10 識別錯(cuò)誤示例Fig.10 Recognition error cases

4 結(jié)束語

針對多品類車牌和復(fù)雜場景下的傾斜車牌識別難題,本文提出一種基于單字符注意力的二維特征分割方案,將車牌識別這個(gè)序列識別任務(wù)簡化為多分支單字符分類任務(wù).在不需要單字符位置標(biāo)簽監(jiān)督訓(xùn)練的情況下,充分發(fā)揮二維注意力的優(yōu)勢實(shí)現(xiàn)并行化的單字符特征分割.基于深度可分離卷積設(shè)計(jì)出更加輕量化的特征提取主干網(wǎng)絡(luò),并且設(shè)計(jì)了共享參數(shù)的多分支結(jié)構(gòu)代替了基于循環(huán)神經(jīng)網(wǎng)絡(luò)的串行解碼器結(jié)構(gòu),提升了車牌識別算法的速度,降低了模型參數(shù)量.

本文提出的CARNet 算法同時(shí)兼容國內(nèi)絕大多數(shù)品類常規(guī)和特種車牌識別,實(shí)現(xiàn)對不同字?jǐn)?shù)和行數(shù)車牌的兼容識別.但是稀有品類的車牌在實(shí)驗(yàn)中僅使用合成數(shù)據(jù)集進(jìn)行監(jiān)督訓(xùn)練,所合成的訓(xùn)練樣本與真實(shí)車牌圖像樣本仍然存在一定的域差異,識別準(zhǔn)確率低于常規(guī)藍(lán)色車牌準(zhǔn)確率.未來可通過采集更多訓(xùn)練樣本或通過域遷移的方法來提高稀有品類車牌識別效果.