顧嘉城, 龍英文
(上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院, 上海 201620)
計(jì)算機(jī)視覺(jué)[1]是人工智能的一個(gè)重要部分,能為計(jì)算機(jī)提供解釋和理解現(xiàn)實(shí)世界的能力。 可以讓機(jī)器識(shí)別和分類物體的圖像,并對(duì)機(jī)器所看到的東西做出反應(yīng)。 計(jì)算機(jī)視覺(jué)三大基本任務(wù)有:圖像分割、目標(biāo)檢測(cè)和圖像分類。 其中,圖像分割包括了語(yǔ)義分割、實(shí)例分割、全景分割。 研究可知,語(yǔ)義分割[2]作為圖像分割的常用任務(wù)之一,在2015 年提出的全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolution Network,F(xiàn)CN)即是其開(kāi)山之作,代表著深度學(xué)習(xí)技術(shù)首次被應(yīng)用于圖像分割之中。 語(yǔ)義指的是圖像中每一個(gè)物體的含義,比如車、建筑、墻、道路,語(yǔ)義分割可理解成按像素對(duì)圖像進(jìn)行分類。 但是不區(qū)分屬于相同類別的不同實(shí)例(即同一物體的不同實(shí)例無(wú)需單獨(dú)分割出來(lái),且需要分割出背景信息)[3]。 目前,語(yǔ)義分割技術(shù)常應(yīng)用于自動(dòng)駕駛[4]、人機(jī)交互[5]、手術(shù)中的醫(yī)療設(shè)備檢測(cè)[6]等。
在自動(dòng)駕駛和無(wú)人機(jī)技術(shù)等核心技術(shù)中,與語(yǔ)義分割技術(shù)密切相關(guān)的是對(duì)環(huán)境信息的處理,需要高質(zhì)量高水平的語(yǔ)義分割技術(shù)作為保障,能夠給車輛的安全駕駛提供周圍環(huán)境信息的重要分析。 使得車輛內(nèi)部系統(tǒng)能夠?qū)χ車h(huán)境做出正確的判斷,以此保證車輛的安全行駛。 由此可見(jiàn),對(duì)城市場(chǎng)景語(yǔ)義分割任務(wù)的研究具有極其重要的現(xiàn)實(shí)意義[7],已經(jīng)成為當(dāng)下的一個(gè)熱門方向。
以往的語(yǔ)義分割方法,如PSPNet[8]和SegNet[9],都是為了獲得更高的MIoU等其他評(píng)價(jià)指標(biāo),并使用GPU 硬件的算力獲取更高的精度,但運(yùn)算速度比較低。 另一方面,ENet[10]和BiSeNet 都設(shè)計(jì)了較小的編碼器和解碼器模型,更傾向于提高速度,但卻造成了精度的下降。 同時(shí)總結(jié)了其他研究者為了減少網(wǎng)絡(luò)模型參數(shù)的研究成果。 有些工作是使用裁剪來(lái)減少輸入圖像的大小,但很容易失去邊界周圍的空間細(xì)節(jié)和小對(duì)象;或是減少網(wǎng)絡(luò)通道的數(shù)量;或是使用更少的卷積計(jì)算操作,而不是平方卷積來(lái)減少模型參數(shù),如利用深度可分離卷積,可以提高模型的運(yùn)算速度[11]。 還有的研究者[12]使用多分支框架結(jié)合上下文信息,來(lái)提高網(wǎng)絡(luò)模型的運(yùn)算準(zhǔn)確性,以及通過(guò)添加注意機(jī)制,使得處理后分割的邊緣更加平滑。
在2018 年,提出了ICNet[13],ICNet 采用多尺度輸入,在大分辨率采用較少的卷積核與層,在小分辨率使用較深網(wǎng)絡(luò),最后進(jìn)行融合,并且在3 個(gè)尺度提取出來(lái)的特征圖進(jìn)行預(yù)測(cè)分類來(lái)輔助整個(gè)損失函數(shù),上采樣部分采用空洞卷積和雙線性采樣。 其優(yōu)勢(shì)在于:
(1)該網(wǎng)絡(luò)是新穎、且獨(dú)特的圖像級(jí)聯(lián)網(wǎng)絡(luò)用于實(shí)時(shí)語(yǔ)義分割,利用了低分辨率語(yǔ)義信息和高分辨率圖像的細(xì)節(jié)。
(2)提出的級(jí)聯(lián)特征融合單元和級(jí)聯(lián)標(biāo)簽引導(dǎo)能夠以較低的計(jì)算成本逐步恢復(fù)和細(xì)化分割預(yù)測(cè)。
(3)ICNet 速度快,內(nèi)存占用小。
在2018 年還同時(shí)提出了BiSeNet。 BiSeNet 采用單尺度原圖輸入,2 個(gè)分支,路徑使用3 層卷積來(lái)避免破壞邊緣信息且降低計(jì)算量,上下文模塊使用深層網(wǎng)絡(luò)獲得更好的上下文信息,使得感受野更大,并在上下文模塊增加了注意力機(jī)制和預(yù)測(cè)分類來(lái)輔助損失函數(shù),最后進(jìn)行融合。
2 種算法都沒(méi)有采用常見(jiàn)的U 型結(jié)構(gòu),而是使用了多路分支,既要提取分辨率大時(shí)的信息,又要提取分辨率小時(shí)的信息。 且在分辨率大的特征圖采用淺層網(wǎng)絡(luò),在分辨率小的特征圖使用深層網(wǎng)絡(luò),BiSeNet 相較于ICNet 的提升較大。 受到先前研究的ICNet 和BiSeNet 的啟發(fā),本文設(shè)計(jì)了一種輕量化基于注意力機(jī)制的實(shí)時(shí)語(yǔ)義分割網(wǎng)絡(luò)模型。 該模型使用的是以輕量級(jí)非對(duì)稱的編碼器—解碼器結(jié)構(gòu)型網(wǎng)絡(luò)進(jìn)行實(shí)時(shí)的城市道路場(chǎng)景分割,以追求速度和準(zhǔn)確性之間的平衡。 使用2 個(gè)方向來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)可以實(shí)時(shí)分割城市道路場(chǎng)景。 并且使用非對(duì)稱卷積思想來(lái)減少卷積操作參數(shù)操作。 與非對(duì)稱卷積導(dǎo)致的特征圖精度降低相比,以殘差塊作為主干,彌補(bǔ)了通過(guò)跳躍連接來(lái)提高準(zhǔn)確性,同時(shí)使用擴(kuò)張卷積[14]來(lái)增加感受野。 在殘差塊中,使用分組卷積進(jìn)一步減少參數(shù),并且網(wǎng)絡(luò)通道可以通過(guò)編碼器網(wǎng)絡(luò)中的通道分段和打亂操作相互通信。 在解碼器decoder 部分,結(jié)合特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,F(xiàn)PN)結(jié)構(gòu)思想,利用自注意力機(jī)制和通道注意機(jī)制來(lái)提升網(wǎng)絡(luò)的性能,同時(shí)利用顯示通道內(nèi)嵌空間信息模塊進(jìn)行上采樣并恢復(fù)圖像。 在Cityscapes 數(shù)據(jù)集和Camvid 數(shù)據(jù)集上測(cè)試了該網(wǎng)絡(luò)驗(yàn)證其有效性。
在本節(jié)中,描述了非對(duì)稱卷積、群卷積和所設(shè)計(jì)的ALRNet 網(wǎng)絡(luò)結(jié)構(gòu),包括了其內(nèi)部編碼器網(wǎng)絡(luò)中的ALR 模塊和解碼器部分的ARPN 模塊,ARPN 模塊即結(jié)合了注意機(jī)制和ECRE 塊的特征金字塔網(wǎng)絡(luò)結(jié)構(gòu),在解碼器中實(shí)現(xiàn)網(wǎng)絡(luò)復(fù)雜性和分割性能之間的平衡。
在ALRNet 網(wǎng)絡(luò)中結(jié)合了ResNet 模塊的網(wǎng)絡(luò)結(jié)構(gòu),提出了編碼器網(wǎng)絡(luò)中的ALR 模塊,其卷積過(guò)程如圖1 所示。

圖1 ALR 模塊示意圖Fig. 1 ALR module diagram
ALR 模塊的輸入通道分為了3 組,第一組的通道采用了1*3、3*1 和1*3、3*1 的卷積核進(jìn)行卷積。 第二組的通道采用了1*1、3*1、1*3、1*1 的卷積核進(jìn)行卷積。 第三組則采用3*1、1*3 和1*3、3*1 的卷積核來(lái)卷積(diated 代表空洞卷積)。其中,空洞卷積的好處在于不增加參數(shù)量為前提,還能夠增加感受野的大小。 為了清晰對(duì)比ALR 模塊運(yùn)算的過(guò)程,圖2 和圖3 分別列出了ENet 的常規(guī)卷積流程和非對(duì)稱卷積的流程。

圖2 ENet 中卷積示意圖Fig. 2 Schematic diagram of convolution in ENet

圖3 非對(duì)稱卷積示意圖Fig. 3 Schematic diagram of asymmetric convolution
非對(duì)稱卷積能夠降低運(yùn)算量,非常接近于平方核卷積運(yùn)算。 其特點(diǎn)總結(jié)為:
(1)先進(jìn)行n*1 卷積,再進(jìn)行1*n卷積。 這與直接進(jìn)行n*n卷積的結(jié)果是等價(jià)的。
(2) 該卷積的目的是降低運(yùn)算量,假設(shè)原為n*n次的卷積,變更之后為2*n次卷積,如果n越大,那么減少的運(yùn)算量會(huì)越多。
在實(shí)時(shí)語(yǔ)義分割任務(wù)中,減少參數(shù)是首要目標(biāo),這可以提高速度和效率,但還需要進(jìn)一步的研究來(lái)確保網(wǎng)絡(luò)的準(zhǔn)確性。 殘差塊用于道路場(chǎng)景分割、目標(biāo)分類等各種應(yīng)用場(chǎng)景。 不僅可以跳轉(zhuǎn)來(lái)連接卷積操作前的特征圖和卷積操作后的特征圖,還可以很好地提高網(wǎng)絡(luò)的精度。 不對(duì)稱卷積經(jīng)常被添加到網(wǎng)絡(luò)模型中減少降采樣過(guò)程中的計(jì)算量。 然而,非對(duì)稱卷積會(huì)導(dǎo)致精度的損失。 本文在ALR 塊中加入了空洞卷積,以增加網(wǎng)絡(luò)的感受野。
群卷積的應(yīng)用最早始于AlexNet。 因?yàn)樵谀菚r(shí)硬件條件有限。 當(dāng)機(jī)器訓(xùn)練AlexNet 模型網(wǎng)絡(luò)時(shí),無(wú)法在一個(gè)GPU 中同時(shí)處理全部卷積操作。 所以當(dāng)時(shí)把特征圖分配于多個(gè)GPU 中分別進(jìn)行處理運(yùn)算,運(yùn)算后再把多個(gè)GPU 的結(jié)果進(jìn)行融合。 這樣就可以減少訓(xùn)練參數(shù),且不容易過(guò)擬合。
圖4 是一個(gè)常規(guī)的且沒(méi)有分組的卷積層CNN結(jié)構(gòu)。 圖4 中展示了CNN 的結(jié)構(gòu),一個(gè)卷積核對(duì)應(yīng)一個(gè)輸出通道。 研究發(fā)現(xiàn)當(dāng)網(wǎng)絡(luò)的層數(shù)不斷變大時(shí),通道數(shù)會(huì)隨之增加,空間維度也隨之減少,因?yàn)榫矸e層的卷積核越來(lái)越多,以及卷積池化的操作,則使得特征圖會(huì)越來(lái)越小。 因此在深層網(wǎng)絡(luò)中,通道會(huì)顯得越來(lái)越重要。

圖4 卷積層CNN 結(jié)構(gòu)Fig. 4 Convolutional layer CNN structure
圖5 是一個(gè)群卷積的CNN 結(jié)構(gòu)。 卷積核被分成了2 個(gè)組。 每個(gè)組都只有原來(lái)一半的大小。

圖5 群卷積的CNN 結(jié)構(gòu)Fig. 5 CNN structure of group convolution
為了進(jìn)一步減少網(wǎng)絡(luò)參數(shù),在下采樣過(guò)程中增加了群卷積操作,該設(shè)計(jì)的目的是為了減少卷積操作的運(yùn)算量以及運(yùn)算參數(shù)。 采用了普通卷積后,比采用了非對(duì)稱卷積在參數(shù)上多了約1/5。
所提出的ARPN 模塊用于特征融合和上采樣。該解碼器采用了特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,F(xiàn)PN)結(jié)構(gòu),結(jié)合了通道注意機(jī)制和顯示通道內(nèi)嵌空間信息的方法,從而實(shí)現(xiàn)了網(wǎng)絡(luò)復(fù)雜度和分割性能之間的平衡。
1.3.1 顯示通道內(nèi)嵌空間信息模塊
特征金字塔網(wǎng)絡(luò)被許多的網(wǎng)絡(luò)模型所使用。 特征金字塔網(wǎng)絡(luò)目的是為了進(jìn)行多尺度增強(qiáng)來(lái)提高網(wǎng)絡(luò)的性能,但卻會(huì)增加計(jì)算量。 由于硬件計(jì)算能力的限制,于是實(shí)時(shí)語(yǔ)義分割網(wǎng)絡(luò)從多尺度增強(qiáng)的思想中學(xué)習(xí),并采用注意力機(jī)制,從而加強(qiáng)注意力的集中程度。 受ExfuseNet[15]的啟發(fā),超分辨率上采樣可以提高網(wǎng)絡(luò)的精度和處理數(shù)據(jù)不平衡問(wèn)題,因此在上采樣過(guò)程中添加了顯示通道內(nèi)嵌空間信息方法(Explicit Channel Eesolution Embedding,ECRE)。 該方法是采用子像素上采樣,即重建空間與通道維度,把4 個(gè)像素拼接在一起放大特征圖。 并且無(wú)需調(diào)參的方式來(lái)替代反卷積層。 顯示通道內(nèi)嵌空間信息模塊的運(yùn)行結(jié)構(gòu)如圖6 所示。

圖6 顯示通道內(nèi)嵌空間信息模塊Fig. 6 Displays the channel embedded spatial information module
1.3.2 注意力機(jī)制模塊
注意力機(jī)制來(lái)源于人類大腦,甫一面世就被引入到自然語(yǔ)言處理技術(shù)中,隨后才將其運(yùn)用到計(jì)算機(jī)視覺(jué)的應(yīng)用范疇內(nèi)。
基于通道注意力機(jī)制的特征處理模塊可以對(duì)特征通道之間的相互依賴關(guān)系進(jìn)行精確建模,以提高網(wǎng)絡(luò)產(chǎn)生的表示質(zhì)量,使網(wǎng)絡(luò)運(yùn)用全局信息來(lái)有選擇地強(qiáng)調(diào)信息特征[16]。
圖7 為通道注意模塊,設(shè)輸入特征映射X=[x1,x2,…,xC] ∈RC×H×W,文中應(yīng)用全局平均池化,輸出的Z∈RC×1×1可以表述如下:

圖7 通道注意模塊Fig. 7 Squeeze-and-Excitation block
其中,zc表示與第c個(gè)通道相關(guān)聯(lián)的輸出,H、W分別表示特征圖的高度和寬度。 該操作可以使網(wǎng)絡(luò)能夠收集全局信息。 以下操作可以表示為:
其中,“ ?”表示信道乘法;σ為Sigmoid函數(shù);U表示最終輸出結(jié)果;g∈RC×1×1為轉(zhuǎn)換操作生成的最終注意向量結(jié)果,可用下式進(jìn)行計(jì)算:
這里,T1和T2是2 個(gè)不同的1*1 卷積層,可以捕獲通道之間的相關(guān)性。 通過(guò)第一次卷積,可以得到一個(gè)中間注意張量g1∈RC/r×1×1。r是控制塊大小的減小比,r對(duì)模型的性能有重要影響。 這里,把r設(shè)置為8,并討論不同的降低比對(duì)性能的影響。 接下來(lái),通過(guò)第二次卷積,可以得到最終的注意張量g。 通道注意力機(jī)制可以聚合全局信息來(lái)捕獲更重要的信息。
圖8 是ALRNet 網(wǎng)絡(luò)模型架構(gòu),模型結(jié)構(gòu)見(jiàn)表1。 使用了非對(duì)稱的編碼器-解碼器的結(jié)構(gòu)。 其中,編碼部分使用卷積運(yùn)算和多重ALR 模塊以進(jìn)行特征提取;解碼部分使用ARPN 模塊進(jìn)行上采樣。 編碼部分先是進(jìn)行了下采樣,可以去除冗余信息,使特征圖的信息更加緊湊。 在ALR 模塊之后,執(zhí)行特征提取。 受DeepLab 模型的啟發(fā),在編碼部分增加了空洞卷積以增加網(wǎng)絡(luò)的感受野,可以提高網(wǎng)絡(luò)的準(zhǔn)確率,同時(shí)避免使用大卷積帶來(lái)的計(jì)算量增加的問(wèn)題。 在解碼器中,把特征圖輸入進(jìn)去,以此進(jìn)行不同尺寸的卷積核的下采樣的操作。

表1 ALRNet 網(wǎng)絡(luò)模型結(jié)構(gòu)表Tab. 1 ALRNet network model structure table

圖8 ALRNet 網(wǎng)絡(luò)模型Fig. 8 ALRNet network model
解碼部分對(duì)輸入的特征圖進(jìn)行了全局平均池化,3*3、5*5、7*7 和步長(zhǎng)為2 的卷積操作,得到不同尺度的特征圖進(jìn)行上采樣。 使用7*7 卷積核、步長(zhǎng)為2 的卷積得到的特征圖使用顯示通道內(nèi)嵌空間信息的方法進(jìn)行上采樣,N表示卷積Concat 操作后的結(jié)果。 由于參數(shù)的考慮,ECRE 只執(zhí)行上采樣。 通過(guò)矩陣點(diǎn)加法合并特征圖,再通過(guò)雙線性插值恢復(fù)特征圖,實(shí)現(xiàn)端到端訓(xùn)練。 本文設(shè)計(jì)的網(wǎng)絡(luò)模型沒(méi)有后處理操作,也沒(méi)有特征圖級(jí)聯(lián)方法增加計(jì)算壓力,所以也可以有效地進(jìn)行城市道路場(chǎng)景分割。
對(duì)于圖像分割中的語(yǔ)義分割,針對(duì)算法網(wǎng)絡(luò)性能的評(píng)價(jià)指標(biāo)有3 個(gè),詳述為:設(shè)共有n個(gè)類別的物體和1 個(gè)背景類,Pii是第i類被正確分為i類的像素?cái)?shù)量,Pij表示屬于i類但是被分為j類的像素?cái)?shù)量,Pji表示屬于j類但是被錯(cuò)分為i類的像素?cái)?shù)量。
(1)像素精度(Pixel Accuracy,PA): 分類正確的像素?cái)?shù)量與所有像素的比值,公式為:
(2) 平 均 像 素 精 度(Mean Pixel Accuracy,MPA):所有類別的像素精度平均值,公式為:
(3)交并比(Intersection over Union,IoU):模型檢測(cè)出的目標(biāo)區(qū)域與目標(biāo)實(shí)際區(qū)域的重合部分占兩者共同組成區(qū)域的比值,公式為:
(4)平均交并比(Mean Intersection over Union,MIoU):所有類別的真實(shí)標(biāo)簽與預(yù)測(cè)結(jié)果的交集和并集的比值,公式為:
(5)每秒傳輸幀數(shù)(Frames per Second,fps):在實(shí)時(shí)語(yǔ)義分割場(chǎng)景中往往需要速度和時(shí)間等衡量指標(biāo)。fps是衡量速度的指標(biāo),即圖像的刷新頻率。 目標(biāo)網(wǎng)絡(luò)每秒可以處理或檢測(cè)多少幀,為時(shí)間的倒數(shù)。這里假設(shè)目標(biāo)檢測(cè)網(wǎng)絡(luò)處理1 幀要0.02 s,此時(shí)fps為1/0.02 =50。 公式為:
為了驗(yàn)證提出的模型有效性,本文實(shí)驗(yàn)中硬件、軟件系統(tǒng)配置環(huán)境見(jiàn)表2。

表2 實(shí)驗(yàn)配置環(huán)境表Tab. 2 Experimental configuration environment table
Cityscapes 數(shù)據(jù)集是一個(gè)從50 座不同城市的街景中收集到的大型像素級(jí)注釋數(shù)據(jù)集。 該數(shù)據(jù)集中的訓(xùn)練集、驗(yàn)證集和測(cè)試集的數(shù)量分別為2 975 張、500 張和1 525 張。 此外,為了評(píng)估基于弱監(jiān)督學(xué)習(xí)的分類網(wǎng)絡(luò)的性能,還提供了20 000 張粗分割的圖像。
Camvid 數(shù)據(jù)集包含5 個(gè)不同的視頻序列,由標(biāo)注軟件手動(dòng)標(biāo)注700 幀,每幅圖像的分辨率大小為960*720。 Camvid 共包括有32 個(gè)語(yǔ)義類別710 張圖片。 大部分視頻都是用固定位置的相機(jī)拍攝的,一定程度上解決了對(duì)實(shí)驗(yàn)數(shù)據(jù)的需求。 32 類建筑,如建筑物、墻壁、樹(shù)木、人行道和交通燈等。
2.3.1 不同方案下的性能對(duì)比
為了驗(yàn)證在本文所提出的模型注意力機(jī)制有效性,在Cityscapes 數(shù)據(jù)集上做了測(cè)試。 注意力模塊能保留空間細(xì)節(jié)的信息,對(duì)語(yǔ)義邊界的信息有著較好的識(shí)別分割效果。 例如圖9 中的4 個(gè)例子,分別為原圖、沒(méi)有引入通道注意模塊的方案、引入通道注意模塊的方案。 由圖9 可以看出,沒(méi)有引入通道注意模塊的方案沒(méi)能完整地分割出道路,以及后排車輛的輪胎邊緣分割也不夠完整。 而使用了通道注意模塊的方案很好地解決了這問(wèn)題。

圖9 對(duì)比分割效果Fig. 9 The effect comparison of different modules
2.3.2 Camvid 數(shù)據(jù)集下實(shí)驗(yàn)結(jié)果分析
由于輕量化網(wǎng)絡(luò)模型對(duì)實(shí)際應(yīng)用中硬件移動(dòng)端的存儲(chǔ)量有局限性,把Camvid 數(shù)據(jù)集中輸入圖片的分辨率從960*720 變化至360*480,初始學(xué)習(xí)率設(shè)置為1e-4。 為了進(jìn)一步驗(yàn)證本文ALRNet 網(wǎng)絡(luò)模型的有效性,以經(jīng)典網(wǎng)絡(luò)模型SegNet 和ENet 在Camvid 數(shù)據(jù)集上的測(cè)試結(jié)果作為評(píng)判基準(zhǔn),表3 即為各個(gè)模型在Camvid 數(shù)據(jù)集上各個(gè)樣本類別的分割像素精度結(jié)果對(duì)比。 這里,以%為單位,且結(jié)果范圍在±0.05變化范圍之間。

表3 各模型在Camvid 數(shù)據(jù)集上像素精度對(duì)比Tab. 3 Comparison of pixel accuracy of each model on the Camvid dataset
從表3 中可以看出,ALRNet 在Camvid 上有8個(gè) 類 別(Building、 Pedestrian、 Sky、 Fence、 Road、Bicyclist、Tree、SignSymbol)的分割像素精度優(yōu)于SegNet 和ENet,且平均像素精度也大于2 個(gè)基準(zhǔn)模型精度。 表4 為各個(gè)模型的分割準(zhǔn)確度和處理一幅預(yù)測(cè)圖像時(shí)間的對(duì)比結(jié)果。

表4 ALRNet 模型與其他模型在Camvid 上對(duì)比Tab. 4 Comparison of ALRNet with other methods on Camvid
通過(guò)對(duì)比實(shí)驗(yàn)結(jié)果可以看到,ALRNet 在分割精度上均優(yōu)于SegNet 和ENet,在不失準(zhǔn)確度情況下,本文提出的基于輕量注意力機(jī)制的語(yǔ)義分割網(wǎng)絡(luò)有著較高的運(yùn)算速度。 因此,ALRNet 能夠平衡速度和精度。 能夠滿足自動(dòng)駕駛、無(wú)人機(jī)飛行、智能機(jī)器人等實(shí)時(shí)應(yīng)用需求。
由表4 可以看出,相比于SegNet 和ENet,ALRNet 的MIoU值分別比SegNet 高出了1.29%、4.19%。在fps上比SegNet 高出了18.0,比ENet 低了22.1。 圖10 則為ALRNet 網(wǎng)絡(luò)模型在Camvid 數(shù)據(jù)集上的可視化結(jié)果。 圖10(a)~圖10(c)中,從左到右依次為測(cè)試圖1~測(cè)試圖5。

圖10 ALRNet 網(wǎng)絡(luò)模型在Camvid 數(shù)據(jù)集上的可視化結(jié)果Fig. 10 Visualization results of ALRNet network model on Camvid dataset
2.3.3 Cityscapes 數(shù)據(jù)集下實(shí)驗(yàn)結(jié)果分析
為了充分驗(yàn)證ALRNet 的有效性,將模型在Cityscapes 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。 當(dāng)硬件處理高分辨率的圖片時(shí),往往需要高配置的硬件,且訓(xùn)練時(shí)間較長(zhǎng)。 因此將Cityscapes 數(shù)據(jù)集輸入圖像分辨率從1024*2048 調(diào)整為1024* 512(分辨率降為一半),初始學(xué)習(xí)率設(shè)置為1e-4。 表5 為ALRNet 網(wǎng)絡(luò)模型和SegNet、ENet 模型在Cityscapes 數(shù)據(jù)集上各個(gè)類別的像素精度為指標(biāo)的測(cè)試結(jié)果。 以%為單位,且結(jié)果范圍在±0.05 變化范圍之間。
從表5 中可以看出,ALRNet 在Cityscapes 內(nèi)含的9 個(gè)類別(Wall、Fence、Pole、Traffic light、Traffic sign、Rider、Truck、Train、Motercycle)的分割像素精度均優(yōu)于SegNet 和ENet,且ALRNet 網(wǎng)絡(luò)模型的平均像素精度上也超過(guò)其他2 個(gè)模型。 以此判斷本文提出的ALRNet 的網(wǎng)絡(luò)模型,可以在速度上和精度上做到了較好的平衡。

表5 各模型在Cityscapes 數(shù)據(jù)集上像素精度對(duì)比Tab. 5 Comparison of pixel accuracy of each model on the Cityscapes dataset
為了增加實(shí)驗(yàn)的可靠性,在表6 實(shí)驗(yàn)數(shù)據(jù)中,增加了ICNet 以及Deeplabv3+作為對(duì)照(其中硬件以及實(shí)驗(yàn)配置環(huán)境都相同)來(lái)進(jìn)行實(shí)驗(yàn)。 從結(jié)果上看,Deeplabv3+的MIoU最高,但是其模型較大,因此實(shí)時(shí)性運(yùn)算速度較差。 相較于SegNet、ENet 和ICNet,ALRNet 的MIoU值分別高出了1.17%、4.09%、1.50%。 在fps上比SegNet 高出了26.2,比ENet 低了11.7,比ICNet 低了10.4。

表6 ALRNet 與其他模型在Cityscapes 上對(duì)比Tab. 6 Comparison of ALRNet with other models on Cityscapes
在參數(shù)方面,Deeplabv3+的參數(shù)量最大,其次分別是SegNet、ICNet、ALRNet、ENet。 ENet 的參數(shù)量最小,因此分割效果較差,但是分割速度最高。ALRNet 的參數(shù)量與ENet 相比多了2 倍,但是平均交并比以及平均分割精度卻有著較大提升。
由表4~表6 證明,本文所設(shè)計(jì)的ALRNet 模型可以實(shí)現(xiàn)分割的速度以及準(zhǔn)確度上的平衡,因?yàn)榭s短了處理時(shí)間,以此能夠?yàn)樽詣?dòng)駕駛、無(wú)人機(jī)飛行等方面的使用提供了可能。 同時(shí)也滿足了網(wǎng)絡(luò)模型對(duì)城市道路場(chǎng)景在分割精度上的要求。 圖11 是SegNet 與ALRNet 模型的對(duì)比分割效果可視化結(jié)果。 圖11(a)~圖11(c)中,從左至右依次為測(cè)試圖1~測(cè)試圖5。

圖11 ALRNet 和SegNet 網(wǎng)絡(luò)模型在Cityscapes 數(shù)據(jù)集上的可視化結(jié)果Fig. 11 Visualization results of ALRNet and SegNet network model on Cityscapes dataset
本文基于通道注意力機(jī)制提出了用于實(shí)時(shí)道路場(chǎng)景分割的模型。 該模型以端到端的方式進(jìn)行訓(xùn)練。 在編碼器部分,采用非對(duì)稱卷積、群卷積和擴(kuò)展卷積的組合進(jìn)行特征提取;解碼器部分采用顯示通道內(nèi)嵌空間信息方法、并利用了通道注意機(jī)制的思想進(jìn)行上采樣。 對(duì)城市場(chǎng)景數(shù)據(jù)集Cityscapes 和Camvid 進(jìn)行實(shí)驗(yàn),在權(quán)衡速度和分割精度兩個(gè)方面,本文顯示了較好的結(jié)果。 體現(xiàn)在以下2 個(gè)方面:
(1)速度和精度:由于ALR 模塊和ARPN 模塊的設(shè)計(jì),網(wǎng)絡(luò)參數(shù)大大降低。 做到了網(wǎng)絡(luò)模型的運(yùn)算速度和分割精度的平衡,并且具有很好的可視化分割效果。
(2)簡(jiǎn)潔性:ALRNet 網(wǎng)絡(luò)由編碼器和解碼器組成,其中ALR 模塊和ARPN 模塊可以很容易地移植到其他網(wǎng)絡(luò)中,以此方便后續(xù)的研究。