基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志識(shí)別分類方法

2023-09-25 01:31:24龔新奇

中阿科技論壇(中英文) 2023年9期

關(guān)鍵詞：分類模型

王璐龔新奇

（中國(guó)人民大學(xué),北京 100872）

道路交通標(biāo)志是指在道路上設(shè)置的一系列用特定圖形、符號(hào)、文字表示管理內(nèi)容和行為規(guī)則的交通設(shè)施，如指示牌、立面標(biāo)記等，旨在利用簡(jiǎn)潔清晰的標(biāo)志向道路使用者傳達(dá)路況信息和交通規(guī)則，在引導(dǎo)交通系統(tǒng)穩(wěn)定運(yùn)行、維護(hù)交通安全等方面起到至關(guān)重要的作用。但是，受到交通標(biāo)志系統(tǒng)的多樣性以及環(huán)境等因素的影響，只靠肉眼觀察交通標(biāo)志存在一定安全隱患[1]。此外，輔助駕駛和自動(dòng)駕駛技術(shù)也急需高精度的智能圖像識(shí)別算法來(lái)加強(qiáng)對(duì)現(xiàn)有交通標(biāo)志的利用[2]。

鑒于此，人們相繼提出了一些有效的交通標(biāo)志識(shí)別方法。例如，王鏗等（2014）針對(duì)數(shù)據(jù)冗雜的問(wèn)題和標(biāo)志輪廓相似的特點(diǎn)，在主成分分析（PCA）、線性判別分析（LDA）等特征提取算法的基礎(chǔ)上提出了一種基于核距離的稀疏表示方法（KTSR），選取樣本的M近鄰幫助分類，提高了大樣本情形下交通標(biāo)志識(shí)別的準(zhǔn)確率[3]。宋超等（2011）利用計(jì)算和匹配Hu不變矩的方法，克服了動(dòng)態(tài)拍攝中可能的幾何失真問(wèn)題，對(duì)交通標(biāo)志實(shí)時(shí)識(shí)別有較大的參考價(jià)值[4]。但是，考慮到實(shí)際應(yīng)用中交通標(biāo)志通常具有比較復(fù)雜的形態(tài)和環(huán)境背景，僅僅采用上述特征提取算法很難排除外在因素的干擾。為了讓計(jì)算機(jī)更好地理解和學(xué)習(xí)交通標(biāo)志圖像的主要特征和內(nèi)在聯(lián)系，人們開始使用卷積神經(jīng)網(wǎng)絡(luò)（CNN）及其各種變形。相較于其他方法，CNN的變化多樣，層次結(jié)構(gòu)復(fù)雜，擬合能力更強(qiáng)，從而能適用于各種場(chǎng)景下的圖像識(shí)別、分類，也成了主流的交通標(biāo)志識(shí)別算法，并得到了多種改進(jìn)。耿經(jīng)邦等（2020）將多尺度融合機(jī)制引入Resnet18網(wǎng)絡(luò)，提升了殘差網(wǎng)絡(luò)的表達(dá)能力，實(shí)現(xiàn)了復(fù)雜環(huán)境下交通標(biāo)志的精準(zhǔn)檢測(cè)[5]。楊遠(yuǎn)飛等（2017）提出了一種結(jié)合多尺度輸入、并行交叉以及恒等映射的網(wǎng)絡(luò)結(jié)構(gòu)，增加了特征提取的充分性以及特征的多樣性、魯棒性，以此提高網(wǎng)絡(luò)的分類精度[6]?？自卢幍龋?021）針對(duì)交通標(biāo)志圖像易受復(fù)雜背景、光照、運(yùn)動(dòng)模糊等影響的問(wèn)題，提出了基于非對(duì)稱雙通道卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別方法，融合不同粒度的特征信息，并采用更穩(wěn)定的激活函數(shù)，提高了識(shí)別準(zhǔn)確率[7]。王新美等（2020）則將卷積神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)結(jié)合，提高了模型的泛化能力[8]。

盡管CNN具有強(qiáng)大的圖像特征提取和擬合能力，但它對(duì)數(shù)據(jù)集的依賴性強(qiáng)，且計(jì)算成本隨網(wǎng)絡(luò)深度增加而迅速上升。本文提出一種基于參數(shù)優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò)方法，首先對(duì)選用的數(shù)據(jù)集進(jìn)行圖像變換和灰度化等預(yù)處理增強(qiáng)操作，然后對(duì)CNN的規(guī)模、結(jié)構(gòu)等做出適當(dāng)調(diào)整，并使用網(wǎng)格法對(duì)相關(guān)參數(shù)進(jìn)行協(xié)同優(yōu)化。最后，使用改進(jìn)后的CNN模型在CTSDB（Chinese Traffic Sign Database，中國(guó)交通標(biāo)志數(shù)據(jù)庫(kù)）數(shù)據(jù)集上進(jìn)行訓(xùn)練和驗(yàn)證。

1 模型與方法

1.1 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)是最重要的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)之一，在圖像分類、目標(biāo)檢測(cè)等領(lǐng)域廣泛應(yīng)用。典型的卷積神經(jīng)網(wǎng)絡(luò)通常由輸入層、卷積層、池化層和全連接層疊加而成[9-10]。

卷積層用于提取圖像局部特征。在圖像處理中，卷積層內(nèi)通過(guò)濾波器在輸入圖像上滑動(dòng)來(lái)進(jìn)行卷積操作，從而提取出圖像輪廓、對(duì)比、明暗等特征信息。卷積網(wǎng)絡(luò)中參數(shù)為濾波器權(quán)重，通過(guò)反向傳播算法進(jìn)行參數(shù)學(xué)習(xí)。對(duì)于卷積層，第層的輸入值為第層輸出值和卷積核的卷積，如式（1）所示。

其中卷積核w(l)和b(l)偏置為可學(xué)習(xí)參數(shù)。梯度計(jì)算使用鏈?zhǔn)椒▌t。

池化層用于特征選擇，它可以減少參數(shù)數(shù)量，避免過(guò)擬合。本文使用最大池化采樣方法，選取每個(gè)子區(qū)域內(nèi)神經(jīng)元最大輸出作為該區(qū)域的概括表示。

全連接層的作用是將卷積部分學(xué)習(xí)到的特征表示映射到樣本類別空間，為最后的分類或回歸提供輸入。

本文使用的多層卷積神經(jīng)網(wǎng)絡(luò)模型包含輸入層、三個(gè)自定義卷積單元（包括卷積層、批量標(biāo)準(zhǔn)化層、ReLU激活層和池化層）、全連接層（包括展平層和dropout層）以及輸出層等主要部分，如圖1所示。

圖1 改進(jìn)CNN模型結(jié)構(gòu)示意圖

三個(gè)卷積單元的卷積層參數(shù)如表1所示，其中池化層濾波器均為2×2大小。

表1 改進(jìn)CNN模型各卷積層參數(shù)

在實(shí)際訓(xùn)練中，本文使用ReLU類型的激活函數(shù)代替?zhèn)鹘y(tǒng)的Sigmoid激活函數(shù)，其優(yōu)點(diǎn)是減少計(jì)算量、規(guī)避梯度彌散和緩解過(guò)擬合。此外，還在每個(gè)卷積層與對(duì)應(yīng)ReLU激活層之間插入批量標(biāo)準(zhǔn)化（Batch Normalization）層進(jìn)行數(shù)據(jù)歸一化。該層將數(shù)據(jù)規(guī)整到統(tǒng)一區(qū)間，降低數(shù)據(jù)發(fā)散程度，同時(shí)在一定程度上保留原數(shù)據(jù)分布，避免梯度爆炸或者梯度消失，并且起到一定的正則化作用，從而加快模型收斂速度，使訓(xùn)練過(guò)程更加穩(wěn)定。

1.2 數(shù)據(jù)預(yù)處理方法

CTSDB數(shù)據(jù)集中的圖片均為自然場(chǎng)景或現(xiàn)實(shí)街景下采集的數(shù)據(jù)，所以環(huán)境、設(shè)備等因素都會(huì)影響識(shí)別效果，不利于使用統(tǒng)一模型進(jìn)行學(xué)習(xí)和訓(xùn)練。

因此，實(shí)驗(yàn)中在數(shù)據(jù)預(yù)處理步驟對(duì)所使用的圖片數(shù)據(jù)進(jìn)行一系列增強(qiáng)操作，以突出圖片的典型特征，便于分類。根據(jù)數(shù)據(jù)特點(diǎn)，本文主要采用圖片縮放裁剪和灰度化兩種圖像增強(qiáng)方法。具體數(shù)據(jù)處理流程如圖2所示。

圖2 數(shù)據(jù)預(yù)處理流程

1.2.1 圖片變換操作

CTSDB數(shù)據(jù)集中包含圖片的多個(gè)縮放視圖，此處使用縮放變換將圖像統(tǒng)一為256×256大小。觀察各類圖像可知，數(shù)據(jù)集中的圖片拍攝視角全部為正面，并且標(biāo)志主體部分均位于圖片正中。因此，將縮放后的圖像從中心裁剪為128×180大小，基本只留下交通標(biāo)志部分，從而降低無(wú)關(guān)景物的干擾。

1.2.2 灰度化處理

CTSDB數(shù)據(jù)集中的交通標(biāo)志均為規(guī)則形狀，而且標(biāo)志底色和邊框顏色相對(duì)單一，整體構(gòu)圖方式也基本一致。因此，圖像實(shí)際色彩對(duì)識(shí)別效果影響不大，故對(duì)圖片進(jìn)行灰度化和標(biāo)準(zhǔn)化處理，將原來(lái)的RGB三個(gè)顏色通道縮減為單個(gè)灰度通道，在保留圖像主要輪廓特征的同時(shí)減少運(yùn)算成本，提高識(shí)別效率。

1.3 CNN模型多策略協(xié)同優(yōu)化

實(shí)驗(yàn)中，分類器的AUC值過(guò)高，經(jīng)檢查推測(cè)模型存在一定的過(guò)擬合現(xiàn)象。為了緩解過(guò)擬合，提高模型泛化能力，從而提升其對(duì)更多交通標(biāo)志的識(shí)別效果，本文主要采用添加dropout層和L1正則化兩種方法[11-12]對(duì)模型及損失函數(shù)進(jìn)行改進(jìn)。

1.3.1 添加dropout層

dropout層一般用來(lái)配合全連接層等含權(quán)重參數(shù)較多的層使用，其原理是在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時(shí)隨機(jī)丟棄一部分神經(jīng)元及其對(duì)應(yīng)的連接邊來(lái)避免過(guò)擬合。這樣通過(guò)每次只激活一定比例的神經(jīng)元，可以生成多個(gè)不同的網(wǎng)絡(luò)結(jié)構(gòu)并綜合考察它們的學(xué)習(xí)效果，從而提高模型的魯棒性。dropout層每次丟棄的神經(jīng)元是隨機(jī)選取的，一般的做法是事先設(shè)置一個(gè)固定概率p，然后對(duì)每一個(gè)神經(jīng)元都以概率p進(jìn)行丟棄（即將該神經(jīng)元輸出置為0）。本實(shí)驗(yàn)在模型的全連接層之后添加了一個(gè)dropout層，p取為0.5。這是因?yàn)楦鶕?jù)基本不等式，p為0.5時(shí)p(1-p)取得最大值，dropout層有最強(qiáng)的正則化效果。

1.3.2 正則化交叉熵?fù)p失

在圖像識(shí)別任務(wù)中，數(shù)據(jù)的特征數(shù)量較多，使得模型在對(duì)這些特征進(jìn)行學(xué)習(xí)的時(shí)候難以取舍，得到的模型往往過(guò)于復(fù)雜，影響分類效果。因此，可以考慮在損失函數(shù)中引入L1正則懲罰項(xiàng)，對(duì)模型參數(shù)進(jìn)行稀疏化，起到特征選擇、簡(jiǎn)化模型和加快計(jì)算速度的作用。同時(shí)，L1正則化也可以在一定程度上防止過(guò)擬合。

實(shí)驗(yàn)采用的L1正則項(xiàng)為全連接層所有參數(shù)絕對(duì)值的和，并進(jìn)行加權(quán)處理以適應(yīng)交叉熵?fù)p失函數(shù)值的規(guī)模。完整的損失函數(shù)表達(dá)式如式（2）所示。

其中，LOSS,CEL表示交叉熵?fù)p失，α為懲罰項(xiàng)的權(quán)重參數(shù)（可調(diào)整），求和號(hào)表示對(duì)全連接層的所有權(quán)值參數(shù)的1-范數(shù)求和。經(jīng)試驗(yàn)，α取值0.01時(shí)模型的分類效果和損失函數(shù)收斂性質(zhì)均較好。

2 訓(xùn)練過(guò)程與實(shí)驗(yàn)結(jié)果

2.1 仿真環(huán)境與數(shù)據(jù)來(lái)源

本文使用的數(shù)據(jù)集為CTSDB。CTSDB數(shù)據(jù)集包含58個(gè)類別的5 998個(gè)交通標(biāo)志圖像，每個(gè)圖像都是單個(gè)交通標(biāo)志的縮放視圖，圖片注釋提供圖像的文件名、寬度、高度和類別等基本屬性信息。數(shù)據(jù)樣例如圖3所示。

圖3 CTSDB部分?jǐn)?shù)據(jù)展示

在實(shí)驗(yàn)中，將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集（4 000張圖片）、驗(yàn)證集（800張圖片）和測(cè)試集（1 198張圖片）。實(shí)驗(yàn)所用仿真環(huán)境如表2所示。

表2 實(shí)驗(yàn)仿真環(huán)境參數(shù)設(shè)置

在訓(xùn)練過(guò)程中，選取Adam作為優(yōu)化器，將batch_size設(shè)置為50，將初始學(xué)習(xí)率設(shè)定為0.000 8，將epoch設(shè)置為30。

2.2 交通標(biāo)志分類實(shí)驗(yàn)

本實(shí)驗(yàn)使用前述參數(shù)設(shè)置在CTSDB數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試，損失函數(shù)選用交叉熵?fù)p失。

2.2.1 分類效果評(píng)價(jià)

本實(shí)驗(yàn)是一個(gè)多分類任務(wù)，由于數(shù)據(jù)集各類別之間存在不平衡性，在對(duì)模型分類效果進(jìn)行評(píng)估時(shí)，通常的準(zhǔn)確率指標(biāo)（Acc）并不足以全面地表征預(yù)測(cè)準(zhǔn)確率，還需要引入其他的指標(biāo)。

注意到CTSDB數(shù)據(jù)集共有58個(gè)類別標(biāo)簽，還可以借助混淆矩陣計(jì)算出每個(gè)類別對(duì)應(yīng)的預(yù)測(cè)精確率（p-value）Pi和召回率（r-value）Ri（將類別Ci視為正樣本，其他類別視為負(fù)樣本）

進(jìn)一步計(jì)算分類結(jié)果的真陽(yáng)率（TPR，等同于召回率）和假陽(yáng)率（FPR）：

并據(jù)此繪制ROC曲線，計(jì)算曲線下面積（即AUC）值。AUC越大，ROC曲線越接近左上角，即TPR遠(yuǎn)大于FPR，模型趨向于一個(gè)完全準(zhǔn)確的分類器。

為了將二分類任務(wù)的AUC指標(biāo)拓展到多分類情形，可以引入所謂“micro-AUC”，即全局AUC值。具體計(jì)算方法是將所有類別的混淆矩陣?yán)奂?，再?jì)算TPR、FPR、AUC。此法兼顧了數(shù)據(jù)集類別不平衡的特點(diǎn)，作為評(píng)價(jià)指標(biāo)更加合理。

2.2.2 訓(xùn)練過(guò)程和結(jié)果

改進(jìn)后的模型訓(xùn)練總用時(shí)為369.5 s，訓(xùn)練和驗(yàn)證過(guò)程中的損失函數(shù)值變化如圖4所示。

圖4 交通標(biāo)志分類任務(wù)中損失函數(shù)在訓(xùn)練集和驗(yàn)證集上的收斂情況

顯然，loss曲線在迭代30個(gè)epoch后較平穩(wěn)地收斂，而且收斂速度相對(duì)較快。可以看到，訓(xùn)練過(guò)程和驗(yàn)證過(guò)程的損失函數(shù)值都持續(xù)穩(wěn)定下降，說(shuō)明模型達(dá)到了一個(gè)比較理想的學(xué)習(xí)狀態(tài)。經(jīng)計(jì)算，分類模型的ACC值為89.65%，AUC值為0.99，繪制的ROC曲線如圖5所示。

圖5 交通標(biāo)志分類結(jié)果的ROC曲線標(biāo)志

圖線表示在設(shè)定分類器的判斷閾值為[0,1]中不同值時(shí)分類結(jié)果的真陽(yáng)率和假陽(yáng)率指標(biāo)的關(guān)系。由圖5中可見(jiàn)，左半段ROC曲線接近縱軸，說(shuō)明可以取到某個(gè)合適的閾值使得分類器在控制假陽(yáng)率很低的前提下達(dá)到盡可能高的真陽(yáng)率，也即該分類器在實(shí)際應(yīng)用中具有良好的性能。

2.2.3 參數(shù)優(yōu)化實(shí)驗(yàn)

為達(dá)到盡量好的識(shí)別與分類效果，在保持卷積神經(jīng)網(wǎng)絡(luò)整體結(jié)構(gòu)不變的情況下，可以對(duì)模型中的部分參數(shù)進(jìn)行調(diào)整和優(yōu)化，以提高網(wǎng)絡(luò)的效率和精度。經(jīng)過(guò)分析，本文選取learning rate、batch_size和epoch這三個(gè)超參數(shù)進(jìn)行優(yōu)化。

鑒于數(shù)據(jù)集大小適中且缺少相關(guān)的經(jīng)驗(yàn)公式，考慮使用網(wǎng)格法搜索最佳超參數(shù)，取步長(zhǎng)和搜索范圍如表3所示。

表3 通過(guò)網(wǎng)格法進(jìn)行超參數(shù)優(yōu)化的搜索范圍和步長(zhǎng)

經(jīng)驗(yàn)證，選擇超參數(shù)組合為（learning rate,batch_size,epoch）=（0.001,80,40）時(shí)，模型在CTSDB上的分類準(zhǔn)確率達(dá)到92.57%，相比于初始超參數(shù)組合有明顯提高，基本能夠滿足實(shí)際應(yīng)用需求。此時(shí)的損失函數(shù)收斂情況如圖6所示。

圖6 超參數(shù)優(yōu)化后損失函數(shù)在訓(xùn)練集和驗(yàn)證集上的收斂情況

由圖6可知，適當(dāng)增加訓(xùn)練的epoch數(shù)后，損失函數(shù)在訓(xùn)練的早期階段收斂速度更快，且收斂曲線平滑度進(jìn)一步上升，模型收斂更加穩(wěn)定。另外，計(jì)算可知參數(shù)優(yōu)化后模型的AUC值超過(guò)0.995，說(shuō)明模型的分類效果也更加優(yōu)良了。

3 總結(jié)

本文主要研究了基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志識(shí)別問(wèn)題。根據(jù)數(shù)據(jù)集中圖片的特點(diǎn)，對(duì)數(shù)據(jù)集進(jìn)行適當(dāng)預(yù)處理，并且選取適當(dāng)?shù)木W(wǎng)絡(luò)結(jié)構(gòu)以在控制運(yùn)算成本的同時(shí)盡可能保留圖像的主要特征。此外，還添加了dropout層和L1正則懲罰項(xiàng)來(lái)緩解過(guò)擬合，提高了模型的穩(wěn)健性。最終得到的模型分類準(zhǔn)確率達(dá)到92.57%，分類器的AUC值達(dá)到0.99以上，從而高精度、高效率地完成了交通標(biāo)志的識(shí)別與分類任務(wù)。