基于域適應(yīng)的煤礦環(huán)境監(jiān)控圖像語義分割

2021-11-10 03:25:40楊文嘉畢方明

煤炭學(xué)報 2021年10期

楊瀟，陳偉,3，任鵬，楊文嘉，畢方明

(1.中國礦業(yè)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院，江蘇徐州 221116；2.中國礦業(yè)大學(xué) 礦山數(shù)字化教育部工程研究中心，江蘇徐州 221116；3.中國科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所無線傳感網(wǎng)與通信重點實驗室，上海 200050)

煤炭是我國的重要資源，保障國民經(jīng)濟穩(wěn)步發(fā)展[1-2]。隨著智能化技術(shù)的發(fā)展，由人力資源主導(dǎo)的傳統(tǒng)煤礦行業(yè)存在安全水平低、開采效能低等問題，感知型、智能型、智慧型礦山成為煤礦行業(yè)發(fā)展的必然趨勢[3]。近年來，深度學(xué)習(xí)算法逐漸在煤礦特殊環(huán)境中得到應(yīng)用。曹玉超等[4]訓(xùn)練殘差網(wǎng)絡(luò)檢測礦井水位標尺刻度。馬宏偉等[5]提出基于深度視覺的導(dǎo)航方法，解決煤礦移動機器人的自主導(dǎo)航問題。司壘等[6]改進U-net網(wǎng)絡(luò)模型，較好地提高綜采工作面煤層的識別精度。李曉宇等[7]提出基于超像素?；巴|(zhì)圖像粒聚類的方法，對煤礦人員進行分割。然而，煤礦環(huán)境中存在光線昏暗，對比度低等問題[8]，導(dǎo)致監(jiān)控圖像質(zhì)量差，深度學(xué)習(xí)模型應(yīng)用于煤礦特殊環(huán)境中存在一定的困難。語義分割技術(shù)是深度學(xué)習(xí)方法應(yīng)用于煤礦智能監(jiān)控系統(tǒng)的一項關(guān)鍵技術(shù)，對煤礦復(fù)雜場景解析具有重要意義。

隨著深度學(xué)習(xí)的發(fā)展，尤其是全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks，F(xiàn)CN)[9]的提出，語義分割獲得巨大的發(fā)展。DeepLab v1[10]將深度卷積神經(jīng)網(wǎng)絡(luò)與概率圖模型相結(jié)合，使用空洞卷積解決卷積網(wǎng)絡(luò)中下采樣導(dǎo)致的細節(jié)丟失問題。DeepLab v2[11]提出空洞空間金字塔池化(Atrous Spatial Pyramid Pooling，ASPP)模型，用來融合不同語義級別的信息。DeepLab v3[12]進一步改進空洞卷積，提出串行和并行的空洞卷積模塊捕獲多尺度信息。與大多數(shù)圖像語義分割模型不同，YU等[13]認為語義分割不是標記每個像素而是標記一個整體，提出平滑網(wǎng)絡(luò)模型和邊界網(wǎng)絡(luò)模型來解決類內(nèi)不一致和語義邊界問題。DenseASPP模型[14]采用密集的方式將空洞卷積連接起來，達到密集采樣的同時獲得更大的感受野。上述圖像語義分割模型需要大量的像素級標簽進行訓(xùn)練，不適用于對缺少標注信息的煤礦環(huán)境監(jiān)控圖像進行語義分割。

近年來，域適應(yīng)方法逐漸成為深度學(xué)習(xí)的熱點研究內(nèi)容，將從源域中學(xué)習(xí)知識應(yīng)用到目標域[15]，用來解決源域和目標域之間的域偏移問題。域適應(yīng)方法主要是通過對齊源域和目標域之間的特征分布或使用對抗網(wǎng)絡(luò)學(xué)習(xí)域不變特征來減小不同數(shù)據(jù)域的分布差異。文獻[16-17]采用多核的最大均值差異(Multiple Kernel Variant of MMD，MK-MMD)和二階統(tǒng)計量最小化源域和目標域的分布差異。文獻[18]提出對比域差異(Contrastive Domain Discrepancy)方法，對類內(nèi)域和類間域的差異進行建模。隨著域適應(yīng)方法的發(fā)展，基于域適應(yīng)的語義分割在計算機視覺領(lǐng)域中顯現(xiàn)出顯著優(yōu)勢。文獻[19]將域適應(yīng)方法與語義分割結(jié)合起來，提出基于全卷積網(wǎng)絡(luò)的無監(jiān)督域適應(yīng)語義分割模型，從全局對齊和具體類別對齊兩方面減小域偏移。文獻[20]提出端到端的對抗性領(lǐng)域自適應(yīng)網(wǎng)絡(luò)模型。基于文獻[20]，VU等[21]提出深度感知自適應(yīng)語義分割模型，利用圖像深度信息訓(xùn)練無監(jiān)督域適應(yīng)模型。文獻[22]在對抗學(xué)習(xí)框架中添加聯(lián)合訓(xùn)練的思想，解決傳統(tǒng)域適應(yīng)方法的語義不一致性、負遷移等關(guān)鍵問題。文獻[23]通過對抗損失間接減小熵值減少域偏移。文獻[24]使用風(fēng)格遷移方法合成具有目標域風(fēng)格的圖像，提出可以適應(yīng)不同環(huán)境的語義分割模型。文獻[25]提出將圖像分解為域不變結(jié)構(gòu)和域特定紋理表示的域不變結(jié)構(gòu)提取框架，實現(xiàn)跨域圖像轉(zhuǎn)換，提高圖像語義分割性能。文獻[26]將對抗網(wǎng)絡(luò)與自訓(xùn)練結(jié)合起來，提出基于迭代自訓(xùn)練的新型無監(jiān)督域適應(yīng)模型，根據(jù)目標域具有高置信度的預(yù)測交替生成偽標簽，并使用這些偽標簽重新訓(xùn)練模型。基于域適應(yīng)方法的圖像語義分割模型，對于缺少標注信息的圖像中具有較好的語義分割性能，但在煤礦復(fù)雜環(huán)境中的應(yīng)用近乎空白。

本文研究基于域適應(yīng)的煤礦環(huán)境監(jiān)控圖像語義分割方法。煤礦環(huán)境中存在光線不足、對比度低等問題，容易混淆外觀相似的不同語義類別的目標，導(dǎo)致語義分割性能降低。針對煤礦監(jiān)控圖像缺少標注信息和容易混淆外觀相似的不同語義類別目標的問題，筆者提出雙對齊網(wǎng)絡(luò)模型。該模型將在合成圖像上訓(xùn)練的模型遷移到煤礦監(jiān)控圖像上，實現(xiàn)煤礦環(huán)境監(jiān)控圖像語義分割。在特征空間中，使用特征級域適應(yīng)網(wǎng)絡(luò)學(xué)習(xí)域不變特征，減少合成圖像與煤礦監(jiān)控圖像的特征分布差異。在像素空間中，使用像素級域適應(yīng)網(wǎng)絡(luò)將源域圖像風(fēng)格轉(zhuǎn)換為目標域圖像的風(fēng)格，減少因紋理、光照等因素造成的域偏移。由于源域圖像和目標域圖像并不總是空間對齊的，像素級域適應(yīng)網(wǎng)絡(luò)采用基于語義和上下文的Contextual Loss[27]進行網(wǎng)絡(luò)優(yōu)化。為解決煤礦監(jiān)控圖像中不同語義類別目標易混淆的問題，使用具有煤礦環(huán)境風(fēng)格的源域圖像訓(xùn)練分割網(wǎng)絡(luò)，提高煤礦監(jiān)控圖像語義類別辨識度。判別器中添加空間注意力模塊和通道注意力模塊，用來增強判別能力?？臻g注意力模塊計算任意2個位置之間的聯(lián)系以捕獲更多的信息，通道注意力模塊為不同通道的特征映射分配不同的權(quán)重。將本文方法與AdaptSegNet，DCAN，CLAN等算法進行對比，并從平均交并比指標上進行分析，驗證本文提出的雙對齊網(wǎng)絡(luò)模型的有效性。

1 雙對齊網(wǎng)絡(luò)模型

1.1 問題描述

主要研究煤礦復(fù)雜環(huán)境監(jiān)控圖像的語義分割問題，目標是提高煤礦智能監(jiān)控系統(tǒng)的場景理解能力。傳統(tǒng)的對抗性域適應(yīng)語義分割模型將合成圖像作為源域圖像，真實圖像作為目標域圖像，從2方面進行訓(xùn)練：① 訓(xùn)練分割網(wǎng)絡(luò)模型G，通過最小化分割損失從源域圖像中提取知識；② 判別器D接收分割網(wǎng)絡(luò)G的輸出I并判斷I是來自于源域還是目標域。通過分割網(wǎng)絡(luò)G和判別器D的對抗訓(xùn)練，分割網(wǎng)絡(luò)G學(xué)習(xí)域不變特征。傳統(tǒng)的對抗性域適應(yīng)模型使用對抗訓(xùn)練的方式減少源域和目標域之間的特征分布差異，實現(xiàn)特征級域適應(yīng)。然而，特征級域適應(yīng)方法為學(xué)習(xí)到域不變特征，通常會忽略一些域差異較大的樣本，具有一定的局限性。

針對傳統(tǒng)的域適應(yīng)方法具有一定的局限性以及合成數(shù)據(jù)集與煤礦監(jiān)控圖像域間差異較大的問題，筆者從特征級域適應(yīng)和像素級域適應(yīng)2個角度出發(fā)，提出雙對齊網(wǎng)絡(luò)模型。

1.2 雙對齊網(wǎng)絡(luò)結(jié)構(gòu)

研究目標是將在源域圖像上學(xué)習(xí)的模型遷移到目標域圖像上，使其可以準確地預(yù)測目標域圖像的像素級標簽。方法主要包含特征級域適應(yīng)網(wǎng)絡(luò)和像素級域適應(yīng)網(wǎng)絡(luò)。給定源域數(shù)據(jù)集和目標域數(shù)據(jù)集，像素級域適應(yīng)網(wǎng)絡(luò)在源域圖像和目標域圖像之間進行風(fēng)格遷移，得到具有目標域風(fēng)格的源域圖像。特征級域適應(yīng)網(wǎng)絡(luò)包含分割網(wǎng)絡(luò)和判別器，2者通過對抗訓(xùn)練學(xué)習(xí)域不變特征。為提高判別器的判別能力，將注意力機制應(yīng)用到判別器中，網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。源域圖像為xs∈XS，源域圖像的像素級標簽為ys∈YS，

圖1 雙對齊網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Architecture of Dual Alignment Networks

目標域圖像為xt∈XT，其中，XS為源域圖像；xs為源域中的具體圖像；YS為源域標簽數(shù)據(jù)；ys為具體的源域標簽數(shù)據(jù)；XT為目標域圖像；xt為目標域中的具體圖像。

基于ResNet-101網(wǎng)絡(luò)的DeepLab-v2[11]作為分割網(wǎng)絡(luò)G。DeepLab-v2是全卷積神經(jīng)網(wǎng)絡(luò)之后被廣泛應(yīng)用的語義分割模型。分割網(wǎng)絡(luò)G包含編碼器和分類器，判別器D中包含5個卷積核尺寸為4×4的卷積層和注意力模塊。源域圖像和目標域圖像作為分割網(wǎng)絡(luò)G的輸入，得到源域圖像和目標域圖像的分割結(jié)果。對于源域圖像的預(yù)測分割結(jié)果，根據(jù)像素級標簽計算交叉熵損失優(yōu)化網(wǎng)絡(luò)G。源域圖像與目標域圖像的分割結(jié)果輸入到判別器D中，判別器D需區(qū)分輸入來自于哪個域。通過分割網(wǎng)絡(luò)G和判別器D的聯(lián)合訓(xùn)練，進行特征級對齊。源域圖像和目標域圖像作為像素級域適應(yīng)網(wǎng)絡(luò)的輸入，獲得具有目標域風(fēng)格的源域圖像。將具有目標域風(fēng)格的源域圖作為分割網(wǎng)絡(luò)G的輸入，獲得預(yù)測的分割結(jié)果，根據(jù)源域圖像的像素級標簽計算交叉熵損失并將其反向傳播到分割網(wǎng)絡(luò)G。

1.3 特征級域適應(yīng)

源域圖像和目標域圖像在視覺級別上差異較大，但在語義類別方面信息是相同的，語義信息通常是域不變的[28]。通過學(xué)習(xí)域不變特征提取源域圖像和目標域圖像的語義信息，實現(xiàn)跨域語義分割。使用特征級域適應(yīng)網(wǎng)絡(luò)學(xué)習(xí)域不變特征，進行特征級對齊。特征級域適應(yīng)網(wǎng)絡(luò)主要包含分割網(wǎng)絡(luò)G和判別器D，目標是減少2個領(lǐng)域之間特征表示的分布差異，其流程分為2步：

(1)使用源域圖像進行監(jiān)督訓(xùn)練。源域圖像作為分割網(wǎng)絡(luò)G的輸入，編碼器進行特征提取，分類器對編碼器產(chǎn)生的特征進行分類。多分類交叉熵損失作為分割損失函數(shù)。優(yōu)化多分類交叉熵損失，使編碼器提取的特征保留源域圖像的語義信息且分類器可以進行準確分類。該步的分割損失函數(shù)Lseg為

(1)

(2)對抗域適應(yīng)。源域圖像和目標域圖像輸入分割網(wǎng)絡(luò)G，經(jīng)過編碼器和分類器，得到源域圖像分割結(jié)果和目標域圖像分割結(jié)果。判別器接收源域和目標域的分割結(jié)果并進行區(qū)分。優(yōu)化判別器的交叉熵損失函數(shù)，提高判別器的區(qū)分能力。交叉熵損失函數(shù)Ld為

(2)

式中，h，w分別為分割結(jié)果的高度和寬度；P為語義分割結(jié)果。

z=0表示樣本來自目標域，z=1表示樣本來自于源域。

目標域圖像輸入分割網(wǎng)絡(luò)G，經(jīng)過編碼器和分類器，得到目標域分割結(jié)果PT=G(XT)。為使源域圖像分割結(jié)果的分布與目標域圖像分割結(jié)果接近，采用如式(3)所示的損失函數(shù)Ladv：

(3)

在訓(xùn)練過程中，判別器D希望盡可能區(qū)分不同域的分割結(jié)果，分割網(wǎng)絡(luò)G希望目標域圖像的分割結(jié)果可以欺騙過判別器D。通過不斷的對抗訓(xùn)練，分割網(wǎng)絡(luò)G學(xué)習(xí)到源域圖像和目標域圖像的域不變特征，在特征空間中對齊源域和目標域的分布，使得源域圖像訓(xùn)練的分割網(wǎng)絡(luò)G可以遷移到目標域圖像。

如圖1所示，交替訓(xùn)練分割網(wǎng)絡(luò)G和判別器D，在特征空間上調(diào)整源域和目標域的特征分布，提高分割網(wǎng)絡(luò)G對目標域圖像的泛化能力。由于合成圖像與煤礦圖像領(lǐng)域差異較大，使用特征級域適應(yīng)網(wǎng)絡(luò)學(xué)習(xí)域不變特征，其特征域不變性有所降低。為減少合成圖像與煤礦真實圖像的領(lǐng)域差異，在特征級域適應(yīng)網(wǎng)絡(luò)的基礎(chǔ)上引入像素級域適應(yīng)網(wǎng)絡(luò)。

1.4 像素級域適應(yīng)

圖像的紋理、光照等特征是造成域間差異的重要原因，減少域間差異，目標域圖像的分割性能也會隨之提升。提出像素級域適應(yīng)網(wǎng)絡(luò)，在保留其原始圖像內(nèi)容前提下，對源域圖像進行風(fēng)格遷移，使其在背景、紋理、光照等方面與煤礦環(huán)境監(jiān)控圖像更接近。風(fēng)格化后源域圖像與目標域圖像在視覺外觀上看起來像是來自同一個域，在輸入層面解決域偏移問題。

煤礦復(fù)雜環(huán)境監(jiān)控圖像存在外觀相似的不同語義類別目標易混淆的問題，導(dǎo)致域適應(yīng)語義分割有一定困難。在像素級域適應(yīng)網(wǎng)絡(luò)中，使用具有煤礦場景風(fēng)格的源域圖像訓(xùn)練分割網(wǎng)絡(luò)G。分割網(wǎng)絡(luò)G學(xué)習(xí)到煤礦環(huán)境監(jiān)控圖像的光照、紋理等特征，增強對不同類別目標的區(qū)分度。像素級域適應(yīng)網(wǎng)絡(luò)如圖2所示。

圖2 像素級域適應(yīng)網(wǎng)絡(luò)Fig.2 Pixel-level domain adaptation Network

內(nèi)容損失函數(shù)用來衡量源域圖像和風(fēng)格化后圖像內(nèi)容上的誤差，內(nèi)容損失越小，表示圖像內(nèi)容的相似度越高。為構(gòu)建內(nèi)容損失函數(shù)，筆者采用預(yù)訓(xùn)練的VGG19神經(jīng)網(wǎng)絡(luò)分別在源域圖像和風(fēng)格化后圖像上獲取特征映射，計算在特定卷積層上的特征相似度。如果特征相似度越高，則表明圖像之間的內(nèi)容相似度越高。選取源域圖像和風(fēng)格化后的圖像在第l層提取的特征的L2 loss作為內(nèi)容損失函數(shù)Lcontent_loss，即

(4)

針對圖像風(fēng)格遷移問題，不僅需要內(nèi)容損失函數(shù)能夠衡量圖像內(nèi)容上的差異，同時需要風(fēng)格損失函數(shù)來衡量圖像間風(fēng)格的差異。圖像間風(fēng)格差異程度越小，則表示圖像風(fēng)格相似度越高。為構(gòu)建風(fēng)格損失函數(shù)，通過預(yù)訓(xùn)練的VGG19神經(jīng)網(wǎng)絡(luò)分別在源域圖像和風(fēng)格化后圖像上獲取特征映射，使用Contextual Loss[27]計算圖像間的相似程度。

源域圖像和目標域圖像并不總是空間對齊的，采用Contextual Loss作為風(fēng)格損失函數(shù)。Contextual Loss認為2張圖像同一區(qū)域的特征塊中大部分是相似的，則可認為2張圖像是相似的。為計算圖像間的相似度，需要找到每個特征Yi最相似的特征Xi，然后求和相應(yīng)的特征相似度：

(5)

式中，CX為采用Contextual Loss損失函數(shù)；CXij為特征相似性。

風(fēng)格損失函數(shù)如式(6)所示，計算風(fēng)格化后圖像與目標域圖像之間的差異并通過反向傳播的方式更新圖像轉(zhuǎn)換網(wǎng)絡(luò)T的參數(shù)。

(6)

(7)

1.5 注意力模塊

分割網(wǎng)絡(luò)G和判別器D進行對抗訓(xùn)練，判別器D希望盡可能地區(qū)分接收的信息來自哪個域，分割網(wǎng)絡(luò)G希望分割結(jié)果可以混淆判別器。筆者在將注意力機制應(yīng)用到判別器D，提高判別器的判別能力。通過G和D的不斷進行對抗訓(xùn)練，提高分割網(wǎng)絡(luò)G的泛化能力。

注意力機制通過關(guān)注重要特征并抑制不必要的特征來增加特征表征力[29]。筆者設(shè)計基于注意力機制的判別器，在判別器D中添加通道注意力模塊和空間注意力模塊，如圖3所示。

圖3 注意力模塊AMFig.3 Attenion Module AM

CNN卷積層包含豐富的信息，同等的對待不同通道的特征映射會導(dǎo)致信息冗余。使用通道注意力模塊，為不同通道的特征映射分配不同的權(quán)重，如圖4所示，其中，S為sigmoid激活函數(shù)；X為元素級相乘。

圖4 通道注意力模塊Fig.4 Channel Attenion Module

(8)

式中，W0和W1為多層感知機的權(quán)重；σ為sigmoid函數(shù)；?為元素級相乘。

通道注意力模塊基于CBAM[30]方法，采用全局平均池化實現(xiàn)聚合運算。全局平均池化得到的特征信息對特征圖中的每個特征都有反饋。多層感知機用來提取通道間的關(guān)系，學(xué)習(xí)每個通道的權(quán)重以獲取通道域的注意力。

卷積是對局部區(qū)域進行操作，很難捕獲到大范圍或全局不同位置的關(guān)系。非局部操作[31]基于非局部均值濾波的思想，捕獲不同位置間的關(guān)系?？臻g注意力模塊使用非局部操作提升判別器的全局感知信息能力，如圖5所示。

圖5 空間注意力模塊Fig.5 Spatial Attenion Module

特征映射x∈RC×WH經(jīng)過3個1×1卷積操作得到3個特征空間，分別是f(x)=w1x，g(x)=w2x，h(x)=w3x，w1,w2,w3分別為1×1的卷積。將g(x)=w2x轉(zhuǎn)置后與f(x)=w1x相乘，計算相似度，之后經(jīng)過softmax歸一化，其計算公式為

(9)

其中，Sq,p為位置p和q之間的相關(guān)程度，空間注意力映射S∈RWH×HW，是由Sq,p組成的矩陣；f(xp)為特征映射x經(jīng)過1×1卷積后得到的特征映射在位置p的信息；g(xq)為特征映射x經(jīng)過1×1卷積后得到的特征映射在位置q的信息；f(xK)為特征映射x經(jīng)過1×1卷積后得到的特征映射在位置K的信息，其中K列出了所有可能的位置。S與h(x)=w3x進行矩陣相乘，將其獲取的結(jié)果與特征x相加就得到具有空間注意力的特征。使用空間注意力模塊，對特征圖中不同位置信息建立依賴聯(lián)系，從而獲取到全局特征信息。

2 實驗結(jié)果及分析

2.1 實驗數(shù)據(jù)集

為評估算法的有效性，在SYNTHIA-to-Cityscapes，GTA5-to-Cityscapes以及SYNTHIA到煤礦監(jiān)控圖像3個域適應(yīng)任務(wù)上進行對比實驗。Cityscapes數(shù)據(jù)集由5 000張真實城市環(huán)境中的駕駛場景圖像組成。GTA5數(shù)據(jù)集由基于城市洛杉磯視頻游戲的24 966張圖像組成，其分辨率大小為1 914×1 052。SYNTHIA數(shù)據(jù)集是一個大型的虛擬城市真實感效果圖集合。煤礦監(jiān)控圖像來自山西某煤礦，總計1 500張圖像，圖片尺寸為1 000×1 500。

2.2 實驗環(huán)境

2.3 結(jié)果分析

選用平均交并比(MIoU)衡量語義分割的分割精度，交并比(IOU)是預(yù)測語義分割結(jié)果與真實語義分割結(jié)果的交集除以它們的并集，平均交并比為所有語義類別的交并比的平均值。

首先選取GTA5-to-Cityscapes,SYNTHIA-to-Cityscape兩個典型的域適應(yīng)任務(wù)進行算法性能驗證，將雙對齊網(wǎng)絡(luò)模型與AdaptSegNet[20],DCAN[32],CLAN[22]等算法進行對比。AdaptSegNet與CLAN是典型的基于生成對抗網(wǎng)絡(luò)的域適應(yīng)語義分割算法，采用對抗訓(xùn)練的方式學(xué)習(xí)域不變特征，實現(xiàn)特征級域適應(yīng)。DCAN算法是基于風(fēng)格遷移[33]的域適應(yīng)語義分割算法，在圖像生成器和分割網(wǎng)絡(luò)中進行通道級的特征對齊。表1給出在GTA5-to-Cityscapes域適應(yīng)任務(wù)上不同算法的域適應(yīng)語義分割結(jié)果。表2給出在SYNTHIA-to-Cityscapes域適應(yīng)任務(wù)上不同算法的域適應(yīng)語義分割結(jié)果。

表1 GTA5到Cityscapes域適應(yīng)語義分割結(jié)果

表2 SYNTHIA到Cityscapes域適應(yīng)語義分割結(jié)果

根據(jù)表1和2，對于GTA5-to-Cityscapes域適應(yīng)任務(wù)，本文方法的平均交并比達到43.7%，與DCAN，AdaptSegnet，CLAN等方法相比，分別提高5.20%，1.30%，0.73%。本文算法在SYNTHIA-to-Cityscape的域適應(yīng)任務(wù)上相比DCAN，AdaptSegNet，CLAN等方法，平均交并比分別提高3.10%，1.95%，0.98%。在典型的域適應(yīng)任務(wù)上，本文模型的分割性能明顯提升。雙對齊網(wǎng)絡(luò)模型將特征級域適應(yīng)與像素級域適應(yīng)相結(jié)合，不僅通過學(xué)習(xí)域不變特征提取源域和目標域的語義信息，同時減少源域圖像與目標域圖像之間紋理、光照等差異。注意力模塊的引入可提高判別器的判別能力，通過分割網(wǎng)絡(luò)和判別器的對抗訓(xùn)練增強分割網(wǎng)絡(luò)的泛化能力。

圖6為CLAN算法與雙對齊網(wǎng)絡(luò)模型在GTA5到Cityscapes域適應(yīng)任務(wù)上的語義分割結(jié)果對比。CLAN算法是目前比較先進的域適應(yīng)語義分割算法。觀察圖6，本文算法在能較好地分割出不同的語義類別目標，在道路、人行道等類別上優(yōu)于CLAN算法。

圖6 GTA5到Cityscapes域適應(yīng)語義分割結(jié)果Fig.6 Exameple results of adapted segmentation for GTA5-to-Cityscapes

根據(jù)表1和表2，Cityscapes作為目標域數(shù)據(jù)集時，在GTA5數(shù)據(jù)集上訓(xùn)練的模型比在SYNTHIA數(shù)據(jù)集上訓(xùn)練的模型獲得更好的分割性能。對數(shù)據(jù)集進行比較，有2個方面的原因：① GTA5中有更多的訓(xùn)練樣本；② Cityscapes數(shù)據(jù)集的圖像多是在白天采集的，而SYNTHIA的圖像大多是黑夜中的場景。

煤礦環(huán)境中光線昏暗，對比度低。與GTA5數(shù)據(jù)集相比，SYNTHIA數(shù)據(jù)集中大多數(shù)為黑夜中的場景。從圖像光照、背景等因素考慮，煤礦監(jiān)控圖像與SYNTHIA的域間差異更小，跨域語義分割的性能也會較好。當(dāng)煤礦監(jiān)控圖像作為目標域數(shù)據(jù)時，筆者選擇SYNTHIA數(shù)據(jù)集作為源域數(shù)據(jù)。表3 為SYNTHIA到煤礦環(huán)境監(jiān)控圖像的域適應(yīng)語義分割結(jié)果。

表3 SYNTHIA到煤礦環(huán)境監(jiān)控圖像的域適應(yīng)語義分割結(jié)果

對于SYNTHIA到煤礦環(huán)境監(jiān)控圖像的域適應(yīng)任務(wù)，雙對齊網(wǎng)絡(luò)模型的平均交并比為38.26%，與AdaptSegNet[20],DCAN[32],CLAN[22]方法相比，分別提高7.19%，8.34%,5.56%。本文方法在特征級域適應(yīng)網(wǎng)絡(luò)的基礎(chǔ)上引入像素級域適應(yīng)網(wǎng)絡(luò)，擴大應(yīng)用場景。AdaptSegNet[20]與CLAN[22]方法使用對抗網(wǎng)絡(luò)進行特征級域適應(yīng)，通常會去除一些域差異較大的樣本，不適用于域間差異較大的煤礦環(huán)境監(jiān)控圖像域適應(yīng)語義分割問題。DCAN方法使用通道級的特征對齊方法進行像素級域適應(yīng)語義分割，分割性能偏低。本文方法從特征級對齊和像素級對齊2個角度出發(fā)，擴大應(yīng)用場景的同時提升分割性能。煤礦環(huán)境監(jiān)控圖像存在外觀相似的不同語義類別目標易混淆的問題，導(dǎo)致域適應(yīng)語義分割有一定困難。在像素級域適應(yīng)網(wǎng)絡(luò)中，使用具有煤礦環(huán)境監(jiān)控圖像風(fēng)格的源域圖像訓(xùn)練分割網(wǎng)絡(luò)G，提高語義類別辨識。

圖7為DCAN，AdaptSegNet，CLAN與雙對齊網(wǎng)絡(luò)模型的煤礦監(jiān)控圖像語義分割結(jié)果對比。DCAN，AdaptSegNet，CLAN等算法分割結(jié)果比較粗糙，容易將不同的語義類別混淆，產(chǎn)生錯誤的語義分割結(jié)果。本文模型的分割結(jié)果比較清晰，對不同語義目標的輪廓預(yù)測比較準確。

圖7 SYNTHIA到煤礦環(huán)境監(jiān)控圖像的域適應(yīng)語義分割效果Fig.7 Exameple results of adapted segmentation for SYNTHIA-to-Coal Mine

參數(shù)量表示模型參數(shù)的數(shù)量，通常用來衡量模型大小。為驗證本文方法在模型尺寸與語義分割性能之間可以達到平衡，在SYNTHIA-to-Coal Mine域適應(yīng)任務(wù)上進行實驗，4種方法的參數(shù)量及語義分割性能結(jié)果對比見表4。DCAN，AdaptSegNet，CLAN以及雙對齊網(wǎng)絡(luò)等方法以DeepLab-v2為主干網(wǎng)絡(luò)，源域圖像的尺寸大小為1 024×608，目標域圖像的尺寸大小為800×1 000。

表4 4種方法的參數(shù)量

根據(jù)表4，從參數(shù)量指標分析，4種方法的參數(shù)量由高到低依次為DCAN、本文方法、CLAN、 AdaptSegNet，其中AdaptSegNet與DCAN方法的語義分割精度較低。與CLAN方法相比，本文方法的參數(shù)量與其相差較少，語義分割性能明顯提高。從參數(shù)量與平均交并比兩方面因素綜合來看，與DCAN，CLAN，AdaptSegNet相比，本文方法的綜合性能較好。本文方法在不增加計算負擔(dān)的前提下，跨域語義分割性能得到明顯提升。

2.4 消融實驗

為驗證雙對齊網(wǎng)絡(luò)中像素級域適應(yīng)網(wǎng)絡(luò)與注意力模塊的有效性，在GTA5-to-Cityscapes域適應(yīng)任務(wù)上進行消融實驗。表5顯示不同設(shè)置下的實驗結(jié)果，基準網(wǎng)絡(luò)為單層的AdaptSegNet[20]網(wǎng)絡(luò)。AdaptSegNet模型采用對抗訓(xùn)練的方式進行特征級域適應(yīng)。

表5 在GTA5-to-Cityscapes域適應(yīng)任務(wù)上雙對齊網(wǎng)絡(luò)的消融實驗結(jié)果

根據(jù)表5，使用基準網(wǎng)絡(luò)進行域適應(yīng)語義分割，其平均交并比為41.2%。引入像素級域適應(yīng)網(wǎng)絡(luò)，平均交并比為43.2%，與基準網(wǎng)絡(luò)相比，語義分割性能提高2%。分割性能提升的主要原因是像素級域適應(yīng)網(wǎng)絡(luò)對源域圖像進行風(fēng)格遷移，使其在紋理、背景、光照等方面與目標域圖像接近，從輸入層面上減少域偏移。在判別器D中添加注意力模塊，平均交并比提高1.7%，由此驗證將注意力機制應(yīng)用到判別器中，不僅提高判別器的判別力，同時增強了分割網(wǎng)絡(luò)的泛化能力?；鶞示W(wǎng)絡(luò)同時引入像素級域適應(yīng)網(wǎng)絡(luò)和注意力模塊，平均交并比為43.7%，語義分割性能提高2.5%，表明本文算法在域適應(yīng)語義分割任務(wù)上的有效性。

為討論像素級域適應(yīng)網(wǎng)絡(luò)、注意力模塊對減少煤礦監(jiān)控圖像與合成圖像的域間差異的作用，本文在SYNTHIA-to-Coal Mine域適應(yīng)任務(wù)上進行消融實驗。表6顯示不同設(shè)置下的實驗結(jié)果，以單層的AdaptSegNet[20]網(wǎng)絡(luò)為基準網(wǎng)絡(luò)。

表6 在SYNTHIA到煤礦監(jiān)控圖像域適應(yīng)任務(wù)上雙對齊網(wǎng)絡(luò)的消融實驗結(jié)果

根據(jù)表6，使用基準網(wǎng)絡(luò)對煤礦監(jiān)控圖像進行語義分割，其平均交并比為29.92%?；鶞示W(wǎng)絡(luò)引入像素級域適應(yīng)網(wǎng)絡(luò)，平均交并比為36.4%。語義分割性能提高6.48%，主要是因為像素級域適應(yīng)網(wǎng)絡(luò)將源域圖像風(fēng)格轉(zhuǎn)換為煤礦監(jiān)控圖像風(fēng)格。使用具有煤礦環(huán)境風(fēng)格的源域圖像進行訓(xùn)練時，分割網(wǎng)絡(luò)學(xué)習(xí)到煤礦環(huán)境監(jiān)控圖像光照、紋理等特征。在判別器D中添加注意力模塊，平均交并比提高5.98%。注意力模塊通過關(guān)注重要特征并抑制無關(guān)特征來增強特征的表征能力，進一步提高判別器的判別能力。隨著分割網(wǎng)絡(luò)與判別器的不斷對抗訓(xùn)練，分割網(wǎng)絡(luò)的泛化能力也得以提高。基準網(wǎng)絡(luò)同時引入像素級域適應(yīng)網(wǎng)絡(luò)和注意力模塊，平均交并比為38.26%，語義分割性能提高8.34%，表明本文算法在煤礦監(jiān)控圖像語義分割任務(wù)上的有效性。

為討論注意力模塊中通道注意力模塊和空間注意力模塊的作用，筆者在GTA5-to-Cityscapes域適應(yīng)任務(wù)上進行消融實驗。表7顯示不同設(shè)置下的實驗結(jié)果，基準網(wǎng)絡(luò)采用單層的AdaptSegNet[20]網(wǎng)絡(luò)。

表7 注意力模塊的消融實驗結(jié)果

根據(jù)表7，使用基準網(wǎng)絡(luò)進行域適應(yīng)語義分割，平均交并比為41.2%。判別器中添加通道注意力模塊，平均交并比為42.0%。與基準網(wǎng)絡(luò)相比，語義分割性能提高0.8%。語義分割性能提升的主要原因是通道注意力模塊為不同通道的特征分配不同的權(quán)重，減少無關(guān)特征對判別器的影響。判別器中添加空間注意力模塊后，平均交并比為42.1%。與基準網(wǎng)絡(luò)相比，語義分割性能提高0.9%?？臻g注意力模塊采用非局部操作增強判別器的全局感知信息能力，提高判別器的判別能力?；鶞示W(wǎng)絡(luò)同時引入通道注意力模塊和空間注意力模塊，平均交并比為42.9%。與基準網(wǎng)絡(luò)相比，語義分割性能提高1.7%，由此驗證通道注意力模塊與空間注意力模塊相結(jié)合可以提高分割網(wǎng)絡(luò)的泛化能力。

3 結(jié) 論

(1)所提的像素級域適應(yīng)網(wǎng)絡(luò)能較好地解決合成圖像與煤礦監(jiān)控圖像域間差異問題，從輸入層面上減少域間差異。

(2)采用具有煤礦監(jiān)控圖像風(fēng)格的源域圖像訓(xùn)練分割網(wǎng)絡(luò)，使其學(xué)習(xí)到煤礦監(jiān)控圖像紋理、光照等特征，提高煤礦場景監(jiān)控圖像語義類別辨識度，較好地解決不同語義類別目標易混淆問題。

(3)注意力機制應(yīng)用到判別器中，可提高判別器的判別能力，進而增強分割網(wǎng)絡(luò)的泛化能力。

(4)雙對齊網(wǎng)絡(luò)模型在SYNTHIA到煤礦場景域適應(yīng)任務(wù)的平均交并比達到38.26%，優(yōu)于DCAN，AdaptSegNet，CLAN等算法，語義分割性能明顯提升，較好地分割出煤礦監(jiān)控圖像中不同尺度的人員、巷道、電燈等類別。