999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

交互補(bǔ)充與驗(yàn)證的語義分割*

2023-08-17 12:38:12成京海
通信技術(shù) 2023年5期
關(guān)鍵詞:語義特征信息

成京海

(昆明理工大學(xué),云南 昆明 650031)

0 引言

語義分割旨在為每個(gè)像素分配語義類別,是計(jì)算機(jī)視覺領(lǐng)域最基本但最具挑戰(zhàn)性的任務(wù)之一。它在許多最近的工作中得到了廣泛和積極的研究,對(duì)于各種實(shí)際應(yīng)用領(lǐng)域也至關(guān)重要,如自動(dòng)駕駛[1]、遙感圖像[2]、醫(yī)學(xué)圖像分析[3]等;同時(shí)也可作為其他計(jì)算機(jī)視覺方向的輔助手段,如圖像融合[4]、行人重識(shí)別[5]等。自全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)[6]提出以來的很長(zhǎng)時(shí)間,主流語義分割框架均是在此基礎(chǔ)上進(jìn)行改動(dòng)的。由于具有固定的卷積核結(jié)構(gòu),F(xiàn)CN 局限于僅提供像素鄰域信息的局部感受野。可是對(duì)于語義分割、目標(biāo)檢測(cè)等視覺理解任務(wù)而言,上下文信息至關(guān)重要。

許多工作被引入以解決FCN 的上述問題。例如Chen 等人[7]提出的基于多尺度擴(kuò)張卷積的Atrous 空間金字塔池化模塊(Atrous Spatial Pyramid Pooling,ASPP)。然而基于擴(kuò)張卷積的方法[7-8]依然局限于收集像素周圍的信息,且由于固定的擴(kuò)張卷積率,模型無法自適應(yīng)地捕獲各像素所需的上下文信息。為此,一些將感受野擴(kuò)展至整個(gè)圖像的方法被提出。PSANet[9]由網(wǎng)絡(luò)自身預(yù)測(cè)出的權(quán)重圖來為特征圖的每個(gè)位置聚集上下文信息。Non-Local 網(wǎng)絡(luò)[10]則使用自注意力機(jī)制,在特征圖上的所有像素間建立聯(lián)系。當(dāng)然,這種全連接的注意力機(jī)制無疑是很耗費(fèi)計(jì)算量的,其復(fù)雜度高達(dá)O(n2),因此許多機(jī)制被提出以彌補(bǔ)Non-Local 網(wǎng)絡(luò)的不足,如CCNet[11]、Axial-Deeplab[12]和Efficient 注意力[13]等。此外,Transformer 機(jī)制也借助這股注意力的熱潮被引進(jìn)了計(jì)算機(jī)視覺領(lǐng)域,如SETR[14]和Swin-Transformer[15]。

可以發(fā)現(xiàn),上述方法均傾向于通過損失促使網(wǎng)絡(luò)自發(fā)地捕獲實(shí)現(xiàn)語義分割所需的辨別性特征,如圖1(a)所示。當(dāng)評(píng)價(jià)一個(gè)人時(shí),其自身特質(zhì)與對(duì)他人的影響是兩個(gè)重要因素,這種情況可以類比到對(duì)每個(gè)像素進(jìn)行分類的語義分割。基于該想法,本文提出交互補(bǔ)充與驗(yàn)證的語義分割。如圖1(b)所示,與前文所述方法不同,辨別性特征被分為像素自身信息和像素間關(guān)聯(lián)信息,并使用兩個(gè)支路網(wǎng)絡(luò)——信息支路和關(guān)系支路,分別專注于兩種信息的提取。為了使信息支路更關(guān)注于像素自身信息,使用全連接層作為分割頭,使得模型在為各像素分類時(shí),不受其他像素信息的干擾;為了更好地捕獲像素間的關(guān)聯(lián)信息,注意力機(jī)制被引入以便為關(guān)系支路提供全局感受野,且使用基于多尺度擴(kuò)張卷積的卷積分割頭,使得像素在進(jìn)行分類時(shí)能綜合考慮其與其他像素的關(guān)聯(lián)。

圖1 語義分割的不同框架

圖2 網(wǎng)絡(luò)整體架構(gòu)

為了促進(jìn)像素自身信息與像素間關(guān)聯(lián)信息的融合,本文提出了交互補(bǔ)充模塊與交互驗(yàn)證模塊。交互補(bǔ)充模塊分為前特征更新、解碼器和后特征更新三個(gè)部分。前特征更新指特征輸入解碼器前的更新,在這個(gè)階段特征圖尺寸較小,包含更多的語義級(jí)特征。因此,該階段會(huì)更傾向于對(duì)像素關(guān)聯(lián)信息的處理;對(duì)應(yīng)地,后特征更新則是特征經(jīng)過解碼后的更新。由于恢復(fù)到了原圖大小,特征更多體現(xiàn)了圖像級(jí)的屬性。借此可以對(duì)像素自身信息進(jìn)行充分的改進(jìn)。

為了實(shí)現(xiàn)雙支路結(jié)果驗(yàn)證,需要在兩支路間找到可以相互借鑒的信息作為橋梁。參考小樣本語義分割方法,通過使用類似掩模平均池化的方法對(duì)數(shù)據(jù)集中的每個(gè)類提取類向量。用類向量作為中間手段,使得兩個(gè)支路不僅能依靠自身特征進(jìn)行語義分割,更可借用對(duì)方的信息來驗(yàn)證自身的預(yù)測(cè)結(jié)果。

為了使每個(gè)類的特征更為集中,在傳統(tǒng)交叉熵的基礎(chǔ)上,本文提出了對(duì)比交叉熵。具體的細(xì)節(jié)將在2.5節(jié)展示。

綜上,本文貢獻(xiàn)包括3 點(diǎn):

(1)本文明確地將辨別性特征分為像素自身信息和像素間關(guān)聯(lián)信息,且對(duì)應(yīng)使用全連接分割頭和卷積分割頭,給模型提供更明確的特征提取方向。

(2)本文使用類向量作為兩個(gè)支路連接的橋梁,不僅促進(jìn)了特征的更新,也為彼此的分類結(jié)果提供了額外的驗(yàn)證手段。

(3)本文方法與許多其他的方法是正交的。在保留原方法特性的基礎(chǔ)上,添加本文模塊,使網(wǎng)絡(luò)性能獲得提升。

1 相關(guān)工作

1.1 語義分割

得益于深度神經(jīng)網(wǎng)絡(luò)的進(jìn)步,語義分割在近幾年獲得了長(zhǎng)足的發(fā)展。FCN[6]是基于深度學(xué)習(xí)的語義分割網(wǎng)絡(luò)的先驅(qū),雖然其預(yù)測(cè)略顯粗糙,但幾種基于條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF)和馬爾可夫隨機(jī)場(chǎng)(Markov Random Fields,MRF)[7,16]的方法被引入來幫助優(yōu)化預(yù)測(cè)過程。跳躍連接[17]等方法的引入緩解了編碼-解碼結(jié)構(gòu)[18]中瓶頸特征分辨率過低的問題,為特征盡可能保留了淺層的空間、細(xì)節(jié)等信息。擴(kuò)張卷積、金字塔池化[19-20]等模塊又為網(wǎng)絡(luò)提供了更大的感受野,并由此引入了各種基于注意力的方法。

除對(duì)網(wǎng)絡(luò)細(xì)節(jié)架構(gòu)的討論外,基于神經(jīng)架構(gòu)搜索的方法[21-22]討論了網(wǎng)絡(luò)整體架構(gòu)的合理優(yōu)化。在此基礎(chǔ)上,Li 等人[23]提出了動(dòng)態(tài)路由的語義分割,使得網(wǎng)絡(luò)可以根據(jù)輸入數(shù)據(jù)的不同而自適應(yīng)選擇想要的網(wǎng)絡(luò)架構(gòu)。此外,各種基于持續(xù)學(xué)習(xí)[24]、小樣本學(xué)習(xí)[25]和主動(dòng)學(xué)習(xí)[26]的方法也大幅豐富了語義分割網(wǎng)絡(luò)的多樣性。

1.2 注意力

由于卷積操作的局部限制性,提高感受野成為提升深度網(wǎng)絡(luò)性能的一大手段。最初的探索體現(xiàn)在基于擴(kuò)張卷積的各種方法上,通過固定的多尺度卷積核設(shè)置獲得更大范圍的感受野。隨后,由特征自身預(yù)測(cè)全局權(quán)重的PSANet[9]、SENet[27]等方法被提出。結(jié)合二者的方法,DANet[28]在空間和通道兩種角度預(yù)測(cè)權(quán)重。進(jìn)一步地,自注意力機(jī)制[29]被引入計(jì)算機(jī)視覺領(lǐng)域。為了降低自注意力模塊的運(yùn)算消耗,研究者們用各種方法竭力壓縮運(yùn)算下限。比較常見的手法是拆分運(yùn)算過程,通過二次乃至多次的注意力用更小的代價(jià)嘗試達(dá)到同樣的效果。例如,均將注意力分為橫向與縱向的Axial-Deeplab[12]和CCNet[11]。Huang 等人[30]通過特征的重排列,使得兩次累加的局部注意力便達(dá)到了全局注意力的性能。此外,Shen 等人[13]通過交換矩陣的相乘順序,Li 等人[31]通過Softmax 操作與泰勒展開公式的共通點(diǎn),甚至將自注意力機(jī)制的運(yùn)算復(fù)雜度降到了線性階O(n)。本文根據(jù)不同階段的特點(diǎn)與需求,選擇了不同的注意力方式來幫助特征的自我增強(qiáng)以及雙支路的特征交互。

1.3 特征融合

由于不同任務(wù)的不同要求,特征融合具有許多不同的方式。為了使深層特征能夠保留圖像的淺層屬性,跳躍連接[17]被引入以將淺層特征與深層特征相融合;為了使網(wǎng)絡(luò)能綜合考慮多個(gè)尺度的特征,金字塔池化等模塊[19-20]被引入以融合來自多個(gè)感受野的特征;在多源任務(wù)乃至域泛化任務(wù)里[32-33],網(wǎng)絡(luò)需要融合多個(gè)模型的預(yù)測(cè);在多模態(tài)任務(wù)[34]中,不同模態(tài)的信息需要相互補(bǔ)充;在多曝光圖像融合任務(wù)[35]中,需要融合來源于多個(gè)曝光度的圖像信息以重建出最好的圖像。

除不同的需求外,特征融合也有著不同的形式。最簡(jiǎn)單的特征融合形式是拼接和相加。逐漸地,人們發(fā)現(xiàn)這些簡(jiǎn)單的操作不再能滿足模型的需求,因此基于注意力的融合方法便被提出[36-37]。由于注意力模塊的多樣性,注意力融合的方法也多種多樣。為了促進(jìn)兩個(gè)支路的交互,融合的思想體現(xiàn)在了本文的方方面面。

2 方 法

在本節(jié)中,將詳細(xì)介紹用于語義分割的交互補(bǔ)充與驗(yàn)證網(wǎng)絡(luò)。

2.1 網(wǎng)絡(luò)結(jié)構(gòu)

兩支路特征將與平均類向量矩陣Vave(以下簡(jiǎn)稱平均類向量)共同輸入交互補(bǔ)充模塊,促進(jìn)彼此的自更新與融合,以獲得包含更準(zhǔn)確信息的雙支路特征與(Hout×Wout×Cout)。類向量會(huì)隨著訓(xùn)練的深入而迭代更新。

在每一輪訓(xùn)練之后,類向量需要被更新。將訓(xùn)練圖像輸入信息網(wǎng)絡(luò)后,保留最終特征和對(duì)應(yīng)的信息支路預(yù)測(cè)PF。將標(biāo)簽圖像進(jìn)行One-Hot 編碼,得到Nclasses個(gè)對(duì)應(yīng)于各類的掩模Mk(k∈[0,Nclasses)),Nclasses指數(shù)據(jù)集中預(yù)定義的類數(shù)。在PF上,選取最終預(yù)測(cè)值大于閾值t的點(diǎn)形成掩模,與每個(gè)類的掩模Mk相乘,得到優(yōu)化后的各類掩模。其中,閾值t的初始值為0.6,每輪訓(xùn)練增長(zhǎng)0.1,直到最大值0.9。使用該掩模在特征上選取各類對(duì)應(yīng)的特征點(diǎn),經(jīng)過求平均或求中值操作便得到了最終的類向量。本階段生成的類向量將用于下一階段的訓(xùn)練。在網(wǎng)絡(luò)訓(xùn)練開始,沒有可用的類向量時(shí),網(wǎng)絡(luò)中涉及類向量的部分會(huì)被跳過。第k類類向量的獲取公式如下:

式中:AVE(·)為取張量中非零向量的均值函數(shù);MID(·)為取張量中非零向量的中值函數(shù),其中用以衡量大小的是向量的L1 范數(shù);°代表張量對(duì)應(yīng)位置相乘。將各類的類向量拼接起來,就能獲得形式為Nclasses×Cout的類向量矩陣Vave和Vmid。

2.2 交互補(bǔ)充模塊

在前更新模塊中,由于關(guān)系支路更加強(qiáng)調(diào)像素間的相互關(guān)系,因此使用自注意力模塊為XR賦予全局的感受野。為了利用XI的像素自身信息為XR進(jìn)行補(bǔ)充,使用卷積層為XI的每個(gè)位置預(yù)測(cè)權(quán)重,將權(quán)重作用于XI后添加到XR。使得XR能基于更精準(zhǔn)的各像素信息,獲得更全面的像素間關(guān)聯(lián)信息。前更新模塊過程如下所示:

式中:SelfAtt(·) 為使用的注意力模塊,在這里指Non-local 模塊;Conv(·)為卷積層,具體設(shè)置如圖3所示。

圖3 交互補(bǔ)充模塊

為了將圖像、特征和標(biāo)簽一一對(duì)應(yīng),特征應(yīng)被解碼為原圖大小。常用的解碼器是類似于U-Net 中由網(wǎng)絡(luò)淺層富含細(xì)節(jié)信息的特征引導(dǎo)的逐級(jí)反卷積解碼器。考慮到基于全連接分割頭的信息支路自身已包含豐富的像素細(xì)節(jié)信息,同時(shí)也為了促進(jìn)兩個(gè)支路的交互融合,本文使用兩個(gè)支路的特征為彼此做引導(dǎo)。解碼器結(jié)構(gòu)如圖4 所示。將XI和輸入對(duì)應(yīng)的解碼器,獲得標(biāo)簽圖像大小的特征圖XDI和XDR。擴(kuò)大后的特征圖將包含與輸入圖像類似的空間關(guān)系,且像素點(diǎn)、特征點(diǎn)和預(yù)測(cè)值能形成更好的對(duì)應(yīng)關(guān)系,不僅便于類向量的提取,也有利于特征的更新及融合。

圖4 雙支路相互引導(dǎo)的解碼器

在有明確的標(biāo)簽引導(dǎo)以及深度網(wǎng)絡(luò)眾多卷積層的轉(zhuǎn)換之后,模型性能依然受到限制。其中可能的一個(gè)原因是網(wǎng)絡(luò)依然無法滿足特征變換的要求。為此,本文為特征提供一條轉(zhuǎn)換的捷徑。將前文提取的類向量以自適應(yīng)的權(quán)重加到原特征,使得特征有額外的方法能將其自身轉(zhuǎn)變?yōu)椤罢_答案”。這可以看作特征層面上跨訓(xùn)練階段的殘差連接。由于關(guān)系支路更注重像素間的聯(lián)系,并不適用于這種捷徑,因此該方法僅被應(yīng)用于信息支路。將信息支路特征經(jīng)過卷積層與Tanh層后,以該權(quán)重聚集平均類向量的信息,得到信息支路特征相較于“正確答案”所缺失的部分。將這些待更新的信息添加到原特征,可以使得信息支路的信息更加完整。之所以選用平均類向量,是因?yàn)橄噍^于中位類向量而言,它更能體現(xiàn)一個(gè)類普遍的屬性,也更有利于信息特征對(duì)自身的補(bǔ)充。

在交互補(bǔ)充模塊的最后,經(jīng)過自更新后的信息支路特征會(huì)再一次對(duì)關(guān)系支路進(jìn)行補(bǔ)充。擴(kuò)大的分辨率會(huì)導(dǎo)致更大的計(jì)算消耗,所幸由于特征圖與原圖的一一對(duì)應(yīng)關(guān)系,模型在融合過程中可以以每個(gè)特征點(diǎn)為基本單元,這導(dǎo)致了其相對(duì)較小的計(jì)算量。關(guān)系支路特征與信息支路類向量的共鳴度越高,則能越大限度地接收信息支路的特征。因此,通過卷積將關(guān)系支路特征映射到類向量空間后,用該特征與每個(gè)類的類向量做余弦相似度度量,得到Hout×Wout×Nclasses的權(quán)重矩陣。在Nclasses維度取最大值,最終可以得到Hout×Wout的權(quán)重圖。用該權(quán)重圖篩選信息支路特征后,與關(guān)系支路特征拼接,經(jīng)過1×1 的卷積降維可以得到關(guān)系支路最終的特征。兩個(gè)支路的特征也以類向量為基準(zhǔn),完成了最后的特征融合。出于與上文同樣的考慮,這里依舊選擇使用平均類向量。

2.3 交互驗(yàn)證模塊

交互驗(yàn)證模塊構(gòu)造上較為簡(jiǎn)單,僅由卷積分割頭與全連接分割頭構(gòu)成。圖5 展示了交互驗(yàn)證模塊的結(jié)構(gòu)。交互驗(yàn)證模塊的核心是類向量可以作為“正確答案”被兩支路借鑒。在交互補(bǔ)充模塊中,類向量被以自適應(yīng)的權(quán)重聚集后加到信息特征,從而為其提供特征轉(zhuǎn)換的捷徑。語義分割的預(yù)測(cè)也是一種權(quán)重,在形式上二者均是Hout×Wout×Nclasses的張量。基于此想法,本文提出了交互驗(yàn)證模塊。以PF為例,將其作為權(quán)重聚集類向量,可以得到新的特征。將該重組特征輸入到對(duì)應(yīng)的分割頭則能得到新的預(yù)測(cè)。這樣,PF不僅能通過自身的交叉熵?fù)p失進(jìn)行更新,還能通過重組特征的新交叉熵?fù)p失進(jìn)行優(yōu)化,起到“驗(yàn)證答案”的效果。

圖5 交互驗(yàn)證模塊

由于共有兩個(gè)支路的預(yù)測(cè),與類向量組合后,可以獲得兩個(gè)新的特征與預(yù)測(cè)。本文使用中位類向量作為驗(yàn)證依據(jù),具體的驗(yàn)證過程如下:

式中:ΦC和ΦF分別為卷積分割頭和全連接分割頭;ΦCF和ΦFF則為重組特征的全連接分割頭和ΦF共享權(quán)重。在所有預(yù)測(cè)中,以PC為主。此外,在網(wǎng)絡(luò)訓(xùn)練初期,沒有對(duì)應(yīng)的類向量時(shí),交互驗(yàn)證模塊僅保留對(duì)雙支路自身的交叉熵?fù)p失,而不考慮重組特征帶來的影響。

2.4 訓(xùn)練過程

本文將訓(xùn)練過程分為5 個(gè)階段。在具體的訓(xùn)練過程中,為了確保類向量的有效性,模型需要固定交互驗(yàn)證模塊中的全連接分割頭。而為了能迭代地更新類向量,又需要在適當(dāng)?shù)臅r(shí)候?qū)⒃撊B接分割頭也進(jìn)行優(yōu)化。因此,每階段的訓(xùn)練被分為兩部分。在第一部分中,找回交互驗(yàn)證模塊中全連接分割頭的梯度,訓(xùn)練整個(gè)模型,并用現(xiàn)有模型來計(jì)算信息支路的平均類向量與中位類向量。然后在第二部分中,固定全連接分割頭參數(shù),并以新的類向量來訓(xùn)練模型。

在第一階段時(shí),由于沒有可用的類向量,無法進(jìn)行預(yù)測(cè)的驗(yàn)證,因此第一階段損失為:

式中:Lc_pre和Lf_pre分別為兩個(gè)前預(yù)測(cè)的損失;Lc和Lf為兩個(gè)主預(yù)測(cè)的損失;α為衡量卷積預(yù)測(cè)與全連接預(yù)測(cè)間的權(quán)重超參數(shù),在實(shí)驗(yàn)中設(shè)置為0.7。經(jīng)過第一階段的訓(xùn)練并獲得可用的類向量后,網(wǎng)絡(luò)的損失變?yōu)椋?/p>

式中:Lcf和Lff為兩個(gè)重組預(yù)測(cè)的損失;β為衡量自身損失與驗(yàn)證損失間的權(quán)重超參數(shù),實(shí)驗(yàn)中將其設(shè)置為0.3。

2.5 對(duì)比交叉熵?fù)p失

在傳統(tǒng)的交叉熵?fù)p失中,由于標(biāo)簽是one-hot 形式的,經(jīng)過計(jì)算后損失僅剩余1 個(gè)標(biāo)簽非零項(xiàng)。從實(shí)際意義上分析,其起到的作用是使得特征輸入分割頭后,標(biāo)簽值對(duì)應(yīng)類的預(yù)測(cè)值更向1靠攏。在對(duì)比損失中,遠(yuǎn)離錯(cuò)誤類與接近正確類同樣重要。為此,除讓預(yù)測(cè)值在標(biāo)簽類上向1 靠攏外,令其在非標(biāo)簽類上向0 優(yōu)化亦能起到引導(dǎo)作用。除可見優(yōu)點(diǎn)外,由于交互驗(yàn)證模塊的存在以及信息支路關(guān)注自身信息的需求,這種新的功能對(duì)于本文網(wǎng)絡(luò)會(huì)顯得更為有效。為此,本文提出了對(duì)比交叉熵(Contrasted Cross-Entropy,CCE)損失:

式中:y為標(biāo)簽值;p為預(yù)測(cè)值。當(dāng)某點(diǎn)標(biāo)簽值為1 時(shí),它與傳統(tǒng)交叉熵并無區(qū)別。而當(dāng)標(biāo)簽值為0 時(shí),有:

可以發(fā)現(xiàn),該損失會(huì)將預(yù)測(cè)值p向0 拉近,從而使得該特征點(diǎn)向真實(shí)類靠近且遠(yuǎn)離錯(cuò)誤類。式(10)和式(11)中,a是衡量?jī)烧唛g權(quán)重的超參數(shù)。隨著a值的增大,網(wǎng)絡(luò)會(huì)更向傳統(tǒng)交叉熵靠攏。對(duì)比交叉熵?fù)p失能促使網(wǎng)絡(luò)更快地優(yōu)化,且在部分任務(wù)中會(huì)產(chǎn)生更好的性能。

3 實(shí) 驗(yàn)

本文在Cityscapes 數(shù)據(jù)集[38]和Dark-Zurich 數(shù)據(jù)集[39]上做了大量實(shí)驗(yàn),證明了本文提出的各模塊及方法的有效性。在后續(xù)章節(jié)中,3.1 節(jié)介紹了使用的數(shù)據(jù)集以及實(shí)驗(yàn)的實(shí)現(xiàn)細(xì)節(jié);3.2 節(jié)使用消融實(shí)驗(yàn)驗(yàn)證了各模塊的作用;3.3 節(jié)將對(duì)比交叉熵?fù)p失與傳統(tǒng)交叉熵?fù)p失做了對(duì)比;3.4 節(jié)以具體實(shí)驗(yàn)結(jié)果為例,分析網(wǎng)絡(luò)中各分割頭及各預(yù)測(cè)的合理性和有效性;3.5節(jié)展示了本文方法與不同網(wǎng)絡(luò)相結(jié)合獲得的各類實(shí)驗(yàn)結(jié)果。

3.1 數(shù)據(jù)集與實(shí)現(xiàn)細(xì)節(jié)

3.1.1 數(shù)據(jù)集

Cityscapes 是為場(chǎng)景解析而構(gòu)建的數(shù)據(jù)集,包含5 000 張精細(xì)標(biāo)注的圖像以及20 000 張粗略標(biāo)注的圖像。所有圖像均是2 048×1 024 的街道場(chǎng)景圖像。本文方法僅使用精細(xì)標(biāo)注的5 000 張圖像,共包含19 個(gè)類,且訓(xùn)練、驗(yàn)證和測(cè)試數(shù)據(jù)集分別包含2 975 張、500 張和1 525 張圖像。

Dark-Zurich 數(shù)據(jù)集包含在蘇黎世拍攝的12 170張白天圖像以及8 682 張夜晚圖像,其中白天圖像有對(duì)應(yīng)的標(biāo)簽,所有圖像均有對(duì)應(yīng)的紅外熱圖像。此外,還包括測(cè)試數(shù)據(jù)集的白天與夜晚各32 張圖像。實(shí)驗(yàn)中僅用到白天圖像及標(biāo)簽,數(shù)據(jù)集共包含13 個(gè)類。

3.1.2 實(shí)現(xiàn)細(xì)節(jié)

本文方法均使用Pytorch 實(shí)現(xiàn)。依據(jù)前人的工作[40-41],訓(xùn)練中使用poly 策略調(diào)整學(xué)習(xí)率,其中power 被設(shè)置為0.9。初始學(xué)習(xí)率設(shè)置為0.01,動(dòng)量及權(quán)重衰減系數(shù)分別設(shè)置為0.9 與0.000 1。由于內(nèi)存限制,各實(shí)驗(yàn)中將批大小設(shè)置為1,對(duì)應(yīng)地將批歸一化層轉(zhuǎn)換為組歸一化層及實(shí)例歸一化層。由于需要將圖像點(diǎn)、特征點(diǎn)和標(biāo)簽點(diǎn)完全對(duì)應(yīng),測(cè)試圖像的大小被調(diào)整到與訓(xùn)練圖像相同。除特殊說明外,信息支路編碼器均使用Deeplabv3 網(wǎng)絡(luò)。

表1 顯示了在Cityscapes 數(shù)據(jù)集上各批大小值及各測(cè)試圖像輸入大小時(shí)Deeplabv3 網(wǎng)絡(luò)的性能變化。輸出步幅設(shè)置為16,總訓(xùn)練輪數(shù)為25 萬輪。對(duì)于Cityscapes 數(shù)據(jù)集,在訓(xùn)練圖像上隨機(jī)裁減512×1 024的圖像作為網(wǎng)絡(luò)輸入,對(duì)于Dark-Zurich 數(shù)據(jù)集,該大小被設(shè)置為640×960。實(shí)驗(yàn)中對(duì)比交叉熵?fù)p失超參數(shù)a被設(shè)置為1。

表1 各實(shí)驗(yàn)條件下Deeplabv3 網(wǎng)絡(luò)的性能

3.2 消融實(shí)驗(yàn)

在Dark-Zurich 數(shù)據(jù)集上以VGG 網(wǎng)絡(luò)為兩支路主干對(duì)本文方法各模塊做了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2 所示。在表2 中,Mut_Comp 為交互補(bǔ)充模塊,Mut_Val 為交互驗(yàn)證模塊,數(shù)據(jù)單位為%。以MIoU為例,樸素的VGG 網(wǎng)絡(luò)性能為56.87%,而將其中的交叉熵?fù)p失換為本文提出的對(duì)比交叉熵后,性能提升了0.98%。在VGG 的基礎(chǔ)上,使用Mut_Comp 對(duì)特征進(jìn)行融合及更新后,性能提升到了59.44%。而引入Mut_Val 對(duì)結(jié)果的額外驗(yàn)證手段后,又將性能提升至61.43%。最后,加入對(duì)比交叉熵?fù)p失使得最終性能達(dá)到了62.18%,相較于樸素的VGG 網(wǎng)絡(luò)而言性能提升了5.31%,足以證明本文方法各模塊的有效性。

表2 本文方法中不同模塊對(duì)性能的影響/%

3.3 損失對(duì)比

本節(jié)將對(duì)比交叉熵?fù)p失和傳統(tǒng)交叉熵?fù)p失進(jìn)行對(duì)比。基于VGG 網(wǎng)絡(luò)在Dark-Zurich 上的實(shí)驗(yàn)結(jié)果,來察看兩個(gè)損失的區(qū)別,各階段實(shí)驗(yàn)性能如圖6(a)所示。相對(duì)于傳統(tǒng)交叉熵而言,對(duì)比交叉熵在各階段均獲得了更高的性能,而在最后也使性能獲得了接近1%的提升。在Cityscapes 數(shù)據(jù)集與Deeplabv3 網(wǎng)絡(luò)上,本文也做了同樣的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖6(b)所示。雖然在訓(xùn)練后性能提升的效果不明顯,但在訓(xùn)練各階段對(duì)比交叉熵仍能比傳統(tǒng)交叉熵更快地收斂。

圖6 CCE 損失與CE 損失性能的對(duì)比

3.4 預(yù)測(cè)對(duì)比

本文以Cityscapes 數(shù)據(jù)集和Deeplabv3 網(wǎng)絡(luò)為例,展示了網(wǎng)絡(luò)中各預(yù)測(cè)的性能對(duì)比。具體結(jié)果如表3 所示。觀察數(shù)據(jù)可以發(fā)現(xiàn),由于Lc_pre與Lf_pre,使得前分割頭能夠更早地優(yōu)化。而訓(xùn)練后期,由于本文模塊的促進(jìn),使得在Deeplabv3 的基礎(chǔ)上有了一定的提升。至于后面的分割頭,由于有著更好的特征提取、交互、融合方法,以及額外的驗(yàn)證手段,使得性能有明顯的改進(jìn)。其中PF更是大幅超越,性能與PC無太大區(qū)別。至于重組后的特征得到的預(yù)測(cè)PCF和PFF,基本上與PC和PF一致,這也證明了以網(wǎng)絡(luò)預(yù)測(cè)為權(quán)重聚集類向量繼而重組特征的合理性和有效性。

表3 網(wǎng)絡(luò)中各預(yù)測(cè)的性能對(duì)比

3.5 實(shí)驗(yàn)結(jié)果

3.5.1 Cityscapes 實(shí)驗(yàn)結(jié)果

在Cityscapes 數(shù)據(jù)集上,將本文方法與不同的先前工作結(jié)合,通過實(shí)驗(yàn)證明了本文方法的有效性。其中,若前作網(wǎng)絡(luò)包含全局注意力模塊,則去除本文網(wǎng)絡(luò)中的自注意力模塊。表4 展示了具體的實(shí)驗(yàn)結(jié)果。由表中可以發(fā)現(xiàn),本文方法結(jié)合不同網(wǎng)絡(luò)后均能在原網(wǎng)絡(luò)的基礎(chǔ)上有一定的性能提升。其中在DANet 和CCNet 的實(shí)驗(yàn)中,雖然去除了網(wǎng)絡(luò)中的自注意力模塊,但性能依然分別提高了1.14%和1.33%。

表4 Cityscapes 數(shù)據(jù)集上的性能對(duì)比

3.5.2 Dark-Zurich 實(shí)驗(yàn)結(jié)果

在Dark-Zurich 數(shù)據(jù)集上,將本文方法與之前的網(wǎng)絡(luò)結(jié)合,進(jìn)行實(shí)驗(yàn)以驗(yàn)證本文方法的有效性。相關(guān)設(shè)置同3.5.1 節(jié),具體的實(shí)驗(yàn)結(jié)果如表5 所示。觀察結(jié)果發(fā)現(xiàn),在Dark-Zurich 數(shù)據(jù)集上,將本文方法添加到各網(wǎng)絡(luò)上,依然能提升網(wǎng)絡(luò)預(yù)測(cè)的各項(xiàng)性能。

表5 在Dark-Zurich 數(shù)據(jù)集上的性能對(duì)比/%

4 結(jié)語

在本文中,結(jié)合全連接分割頭與卷積分割頭,從像素自身信息與像素間信息兩個(gè)角度分析了語義分割過程,并使用類向量為橋梁,促進(jìn)了兩支路特征的更新和交互。此外,還在此基礎(chǔ)上創(chuàng)新性地提出了交互驗(yàn)證模塊,為網(wǎng)絡(luò)的預(yù)測(cè)提供了新的有效約束。通過各類實(shí)驗(yàn)驗(yàn)證了方法的有效性。

盡管如此,方法的缺點(diǎn)也是不可忽視的。其一,由于需要將圖像、特征和標(biāo)簽一一對(duì)應(yīng),不得不在恢復(fù)成原圖大小后的特征上進(jìn)行操作,這導(dǎo)致了大量的內(nèi)存消耗。其二,由于類向量的存在,導(dǎo)致使用的數(shù)據(jù)集中預(yù)定義的類數(shù)不能太多,否則不僅導(dǎo)致計(jì)算量的增加,更可能因?yàn)槿〔坏接行У念愊蛄慷\(yùn)行出錯(cuò)。在未來的工作中,會(huì)著力解決上述問題。

猜你喜歡
語義特征信息
語言與語義
如何表達(dá)“特征”
不忠誠的四個(gè)特征
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
展會(huì)信息
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
語義分析與漢俄副名組合
主站蜘蛛池模板: h视频在线观看网站| 成人字幕网视频在线观看| 国产丝袜丝视频在线观看| 欧美中出一区二区| 农村乱人伦一区二区| 无码一区二区三区视频在线播放| 18禁黄无遮挡网站| 欧美狠狠干| 国产视频欧美| 在线免费无码视频| 午夜国产理论| 国产精品久久精品| 毛片基地美国正在播放亚洲| 114级毛片免费观看| 在线a视频免费观看| 蝴蝶伊人久久中文娱乐网| 久久美女精品| 欧美视频免费一区二区三区| 亚洲欧州色色免费AV| 欧美成人a∨视频免费观看| 无码aaa视频| 激情综合激情| 综合天天色| 亚洲国产亚洲综合在线尤物| 2020国产免费久久精品99| 日韩高清成人| 午夜欧美理论2019理论| 永久毛片在线播| 色悠久久久久久久综合网伊人| 欧美精品导航| 国产精品吹潮在线观看中文| 伊人狠狠丁香婷婷综合色| 蜜桃视频一区二区| 久久中文无码精品| 久久国产黑丝袜视频| 99精品影院| 国产呦精品一区二区三区网站| 婷婷色狠狠干| 午夜天堂视频| 免费xxxxx在线观看网站| 伊人AV天堂| 亚洲AV无码久久天堂| 久久成人免费| 99精品久久精品| 国产一区二区三区精品欧美日韩| 在线播放真实国产乱子伦| 青青国产在线| 日韩亚洲综合在线| 99久久国产综合精品女同| 婷婷五月在线| 98超碰在线观看| 精品一区二区三区四区五区| 亚洲系列无码专区偷窥无码| 精品第一国产综合精品Aⅴ| 亚洲精品色AV无码看| 国产一区二区三区免费观看| 国内精自视频品线一二区| 亚洲成人黄色在线| 99手机在线视频| av在线手机播放| 欧美日韩另类国产| 国产一区二区三区在线精品专区| 日韩精品亚洲精品第一页| 人妻一区二区三区无码精品一区| 国产屁屁影院| 精品91自产拍在线| 片在线无码观看| 青青草原国产精品啪啪视频| 国产高清不卡视频| 四虎综合网| 亚洲中文无码av永久伊人| 91美女视频在线观看| 激情综合五月网| 欧美97色| 国产欧美日韩在线一区| 欧美劲爆第一页| 在线观看精品自拍视频| 97综合久久| 日韩欧美国产区| 日韩精品亚洲一区中文字幕| 无码福利视频| 亚洲欧洲美色一区二区三区|