999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于沙漏結(jié)構(gòu)的實(shí)時(shí)語(yǔ)義分割算法

2022-07-25 09:42:16禹素萍許武軍
現(xiàn)代計(jì)算機(jī) 2022年9期
關(guān)鍵詞:語(yǔ)義特征融合

張 政,禹素萍,許武軍,范 紅

(東華大學(xué)信息科學(xué)與技術(shù)學(xué)院,上海 201600)

0 引言

近年來(lái),隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展和GPU 計(jì)算能力的不斷提高,深度學(xué)習(xí)相關(guān)的技術(shù)已經(jīng)應(yīng)用到了很多領(lǐng)域,如圖像分類(lèi)、目標(biāo)檢測(cè)和跟蹤、語(yǔ)義分割等。如今,圖像的語(yǔ)義分割已是計(jì)算機(jī)視覺(jué)領(lǐng)域不可或缺的一部分,并且已經(jīng)在諸多方面體現(xiàn)出其應(yīng)用價(jià)值,如自動(dòng)駕駛、醫(yī)療診斷、娛樂(lè)應(yīng)用等。

圖像的語(yǔ)義分割被定義為對(duì)圖像進(jìn)行逐像素的分類(lèi),具有圖形分類(lèi)和目標(biāo)檢測(cè)兩者的特性。隨著將深度學(xué)習(xí)在圖像語(yǔ)義分割領(lǐng)域的應(yīng)用,越來(lái)越多的算法在近幾年不斷涌現(xiàn),不斷刷新這個(gè)領(lǐng)域的最高精度。這一切的起點(diǎn)便是2015 年Long 等發(fā)布的全卷積神經(jīng)網(wǎng)絡(luò)(FCN),將最后的全連接層替換成卷積層,并且在編碼器和解碼器結(jié)構(gòu)中引入了跳躍連接,為此后的研究標(biāo)定了新的起點(diǎn)。

在語(yǔ)義分割的領(lǐng)域需要考慮兩個(gè)問(wèn)題:分割精度和分割時(shí)間。因此劃分出了兩種不同風(fēng)格的語(yǔ)義分割網(wǎng)絡(luò),第一種是以分割精度為目標(biāo)的Deeplab 系列語(yǔ)義分割網(wǎng)絡(luò),其中最新的Deeplab v3+網(wǎng)絡(luò)在沿用了之前版本中的空洞空間金字塔池化(atrous spatial pyramid pooling,ASPP)結(jié)構(gòu)的基礎(chǔ)上進(jìn)行改進(jìn),添加了解碼器模塊,并且改進(jìn)了Xception 模型,使Deeplab v3+ 在cityscapes 數(shù)據(jù)集上的平均交并比(MIoU)達(dá)到了82.1%。但是算法模型大,推理時(shí)間長(zhǎng)的缺點(diǎn)讓Deeplab v3+在考慮實(shí)時(shí)性的領(lǐng)域難以應(yīng)用。第二種是以犧牲部分精度換取分割時(shí)間的,以提高分割實(shí)時(shí)性的網(wǎng)絡(luò),如ENet,ERFNet,ESPNet等。大多數(shù)實(shí)時(shí)語(yǔ)義分割網(wǎng)絡(luò)使用了Resnet,Mobilenet v2等輕量級(jí)的骨干網(wǎng)絡(luò),采用高效的特征融合方式,做到了語(yǔ)義分割領(lǐng)域中分割實(shí)時(shí)性的突破。

為了解決上述分割精度和分割實(shí)時(shí)性不可兼得的問(wèn)題,本文構(gòu)建了基于沙漏結(jié)構(gòu)的實(shí)時(shí)語(yǔ)義分割網(wǎng)絡(luò),使用沙漏結(jié)構(gòu)搭建骨干網(wǎng)絡(luò),相比倒置殘差結(jié)構(gòu),在僅僅增加少量計(jì)算量的情況下,達(dá)到更高的精度。借鑒了Deeplab v3+中空洞空間金字塔池化模塊并加以改進(jìn),使用深度可分離卷積替換原有的普通卷積,在降低計(jì)算量的同時(shí)保證語(yǔ)義特征的提取,加快推理時(shí)間,提高實(shí)時(shí)性。并且將經(jīng)過(guò)不同空洞卷積所得到的特征圖進(jìn)行逐層特征疊加,進(jìn)一步抑制空洞卷積產(chǎn)生的網(wǎng)格現(xiàn)象,針對(duì)不同維度的特征,使用注意力機(jī)制進(jìn)行引導(dǎo),設(shè)計(jì)了特征融合模塊,提高語(yǔ)義分割的精準(zhǔn)度。

1 模型設(shè)計(jì)

1.1 融合空洞卷積的沙漏模塊

近年來(lái),為了構(gòu)建輕量的骨干網(wǎng)絡(luò),出現(xiàn)了瓶頸結(jié)構(gòu)、倒置殘差結(jié)構(gòu)和本文中的沙漏結(jié)構(gòu)。如圖1(a)所示,瓶頸結(jié)構(gòu)先使用1 × 1 的卷積降維,以減小通道數(shù),再使用普通卷積進(jìn)行特征提取,最后使用1 × 1 的卷積升維。瓶頸結(jié)構(gòu)不僅降低了計(jì)算量,而且加深了網(wǎng)絡(luò)層數(shù),便于訓(xùn)練。如圖1(b)所示,倒置殘差結(jié)構(gòu)是MoblieNet V2提出的,它提高了移動(dòng)網(wǎng)絡(luò)在多類(lèi)型任務(wù)分類(lèi)中的性能。倒置殘差結(jié)構(gòu)中首先使用1 × 1 的卷積進(jìn)行通道數(shù)的上升,用來(lái)獲得更多的圖像特征,之后使用大小為3 × 3 的卷積核提取特征,最后再使用1 × 1 的卷積核進(jìn)行降維處理。由于特征維數(shù)的縮小,容易導(dǎo)致傳播中的梯度混淆,從而削減梯度跨層傳播的能力,進(jìn)而影響訓(xùn)練過(guò)程中的收斂和模型的性能。因此,沙漏結(jié)構(gòu)應(yīng)運(yùn)而生。如圖1(c)所示,與倒置殘差結(jié)構(gòu)相比,沙漏結(jié)構(gòu)在線(xiàn)性高維之間創(chuàng)建跳躍連接,能夠傳輸網(wǎng)絡(luò)結(jié)構(gòu)中的更多信息,并且將深度卷積應(yīng)用在高維空間中,以學(xué)習(xí)更具表現(xiàn)力的特征。

基于對(duì)上述模塊的研究,本文構(gòu)建了融合空洞卷積的沙漏模塊,作為骨干網(wǎng)絡(luò)提取特征。如圖1(d)所示,將原始沙漏結(jié)構(gòu)中的深度卷積,修改為空洞深度卷積(DDwise)用來(lái)拓展感受野,進(jìn)而獲取更多的上下文信息。

圖1 輕量級(jí)網(wǎng)絡(luò)結(jié)構(gòu)

1.2 改進(jìn)的空洞空間金字塔池化模塊

空洞空間金字塔池化模塊利用不同空洞率的空洞卷積對(duì)骨干網(wǎng)絡(luò)輸出的特征圖進(jìn)行并行的多尺度特征提取,并將提取出的特征圖使用堆疊的方式進(jìn)行融合。

為了減少算法網(wǎng)絡(luò)的參數(shù),提高網(wǎng)絡(luò)的實(shí)時(shí)性,并且保證模型精度。本文在ASPP 模塊中引入了深度可分離卷積,用來(lái)替換原有的普通卷積。如圖2所示,深度可分離卷積可以分為兩部分:逐通道卷積、逐點(diǎn)卷積。如圖2(a)所示,首先逐通道卷積在二維平面上進(jìn)行,卷積核的數(shù)量為輸入的特征的通道數(shù)。如圖2(b)所示,逐點(diǎn)卷積核的大小是1 × 1 ×,表示輸入的通道數(shù),逐點(diǎn)卷積通過(guò)將輸入的特征圖在通道方向上進(jìn)行加權(quán)組合,得到輸出的特征圖。

圖2 深度可分離卷積

雖然ASPP 模塊為特征提取網(wǎng)絡(luò)提供了較大的感受野,但同時(shí)疊加了由不同空洞率而得到的特征圖,導(dǎo)致出現(xiàn)網(wǎng)格現(xiàn)象。為解決這一問(wèn)題,本文借鑒了ESPNet 中分層特征融合的思想,在所有特征圖進(jìn)行融合之前,將使用不同空洞率所得到的特征圖進(jìn)行逐元素相加。這個(gè)方法不僅簡(jiǎn)單有效,而且不會(huì)增加模型的復(fù)雜度。

改進(jìn)后的ASPP 模塊如圖3 所示,將ASPP模塊中卷積后的特征圖相加有利于在同一維度下增加其中的信息量,提高最終的分割精度。

圖3 改進(jìn)的ASPP模塊

1.3 特征融合模塊

在實(shí)時(shí)語(yǔ)義分割算法中,通常使用以下方法來(lái)提高模型的前向傳播速度:①通過(guò)裁剪輸入圖像的尺寸,降低計(jì)算量;②縮短網(wǎng)絡(luò)的通道數(shù)來(lái)縮短前向推理時(shí)間,同時(shí)也會(huì)丟失部分特征信息。這些方法有效,可以顯著提升網(wǎng)絡(luò)模型的實(shí)時(shí)性,但同時(shí)也會(huì)丟失部分空間細(xì)節(jié),物體邊界分割不連貫,甚至產(chǎn)生誤分割現(xiàn)象。

為了解決上述問(wèn)題,研究人員通常使用跳躍連接,融合骨干網(wǎng)絡(luò)中不同層次的特征圖,來(lái)補(bǔ)充下采樣過(guò)程中空間細(xì)節(jié)的損失。但是這種方法也存在一定的缺陷,通過(guò)骨干網(wǎng)絡(luò)提取出來(lái)的高維度特征圖丟失的空間細(xì)節(jié)信息,并不能夠直接通過(guò)融合低維度特征的方式直接恢復(fù)。因此本文使用了特征融合模塊對(duì)低維度層特征和高維度特征進(jìn)行融合,進(jìn)一步補(bǔ)充因?yàn)槎啻蜗虏蓸訉?dǎo)致的空間信息損失。本文中特征融合模塊的設(shè)計(jì)借鑒了CBAM注意力模型中的通道注意力機(jī)制,如圖4所示。

圖4 通道注意力模塊

首先對(duì)輸入的特征F(××)進(jìn)行全局最大池化和全局平均池化,得到兩個(gè)1 × 1 ×的特征圖。接著對(duì)得到的兩個(gè)特征圖分別使用兩個(gè)卷積層提取特征和一層激活函數(shù),第一層使用1 × 1 的卷積特征提取,同時(shí)進(jìn)行降維,緊接著的激活函數(shù)是Relu,第二個(gè)卷積層使用1 ×1的卷積進(jìn)行升維。最后將輸出的兩個(gè)特征圖進(jìn)行相加,經(jīng)過(guò)Sigmoid 激活函數(shù)后,生成最終的通道注意力特征,即每個(gè)通道對(duì)應(yīng)特征值的權(quán)重。

特征融合模塊如圖5 所示,其中Attention module 為上一節(jié)中的通道注意力模塊。首先將低維度特征圖和高維度特征圖進(jìn)行疊加,再使1 × 1 的卷積進(jìn)行降維,接著將輸出的特征圖傳入通道注意力機(jī)制模塊,將得到的通道權(quán)重和第一步得到的特征圖進(jìn)行相乘,最后將相乘后的特征圖和降維后的特征圖相加,至此特征融合結(jié)束。

圖5 特征融合模塊

1.4 網(wǎng)絡(luò)結(jié)構(gòu)

本文的網(wǎng)絡(luò)結(jié)構(gòu)是非對(duì)稱(chēng)的編解碼器結(jié)構(gòu),即編碼器模型遠(yuǎn)大于解碼器模型。編碼器由下采樣模塊、普通沙漏模塊、空洞沙漏模塊、改進(jìn)的ASPP 模塊組成,解碼器由上采樣模塊和普通的沙漏模塊組成。在分割任務(wù)中,輸入的圖像一般比較大,其中包含了豐富的信息。此時(shí)優(yōu)先使用下采樣模塊可以有效縮小圖片的尺寸,縮短后續(xù)的處理時(shí)間。之后使用沙漏模塊提取語(yǔ)義特征,并在更深的維度使用空洞沙漏模塊,增大感受野,獲取更多的上下文信息。由于在下采樣過(guò)程中特征圖變小,我們需要圖像恢復(fù)到輸入圖像的尺寸用來(lái)計(jì)算最終的精確度,進(jìn)而引入了上采樣模塊。通常的上采樣方式有以下幾種:雙線(xiàn)性插值,反卷積,反池化,本文采用反卷積構(gòu)建上采樣模塊進(jìn)行上采樣。

本文的網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示,其中downsampler 表示的下采樣模塊,借鑒的是ENet 中的下采樣模塊,采用雙路分支,主分支使用卷積提取特征,拓展分支使用最大池化提取特征,最后在拼接后使用批歸一化和Relu 激活函數(shù),輸出的特征圖是輸入原圖尺寸的1/2。sgblock 即上文所述的沙漏模塊,dsgblock 即融合了空洞卷積的沙漏模塊,ASPP 模塊采用的是改進(jìn)后的ASPP 模塊,上采樣模塊使用的是反卷積,批歸一化和Relu 激活函數(shù)的組合,upsampler1 采用了四倍上采樣后使用沙漏模塊細(xì)化特征,再和低維度的特征圖進(jìn)行特征融合,F(xiàn)FM 模塊即上文所述的特征融合模塊,upsampler2使用的是雙倍上采樣,恢復(fù)到輸入原圖的大小。

圖6 整體網(wǎng)絡(luò)結(jié)構(gòu)

2 實(shí)驗(yàn)及分析

2.1 語(yǔ)義分割數(shù)據(jù)集介紹

本文使用的是CamVid(cambridge-driving labeled video database)數(shù)據(jù)集,是由劍橋大學(xué)發(fā)布的像素級(jí)別標(biāo)注的公開(kāi)數(shù)據(jù)集,總共有11 個(gè)語(yǔ)義類(lèi)別,主要應(yīng)用于語(yǔ)義分割領(lǐng)域,尤其是道路交通的分割。在CamVid 中總共有701 張城市的街景圖像,訓(xùn)練集中的圖片有367張,驗(yàn)證集中的圖片有101 張,剩下的233 張圖片作為測(cè)試集使用,部分標(biāo)注圖片如圖7所示。

圖7 CamVid數(shù)據(jù)集

2.2 評(píng)價(jià)標(biāo)準(zhǔn)

本文使用的準(zhǔn)確度評(píng)估指標(biāo)是語(yǔ)義分割中的平均交并比(mean Intersection over Union,MIoU),推理速度評(píng)估指標(biāo)是幀速率(frames per second,F(xiàn)PS)。

平均交并比():計(jì)算的是真實(shí)值和預(yù)測(cè)值兩個(gè)集合之間交集和并集的比值,是圖像語(yǔ)義分割中評(píng)價(jià)準(zhǔn)確度的常用指標(biāo)。計(jì)算公式表示為:

其中+1表示的是類(lèi)別的總數(shù),p表示的是實(shí)際類(lèi)別是,并且正確預(yù)測(cè)是類(lèi)別的像素的數(shù)目,p表示的是實(shí)際類(lèi)別是,被判斷為類(lèi)別的像素?cái)?shù)目。

幀速率():是指每秒鐘刷新圖片的次數(shù)。計(jì)算公式表示為:

指標(biāo)越高,則表示算法的實(shí)時(shí)性越好,主觀感受越流暢。

2.3 實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置

本文的模型使用的硬件平臺(tái)是Intel i7-11700,內(nèi)存為64 G,使用的顯卡為RTX 2080Ti,軟件環(huán)境是Ubuntu 18.04 操作系統(tǒng),使用的深度學(xué)習(xí)框架是Pytorch。

訓(xùn)練時(shí)使用的批量大小為10,使用Adam優(yōu)化方法,初始的學(xué)習(xí)率是0.0005,L2 正則化系數(shù)是0.0002,學(xué)習(xí)率衰減策略為固定步長(zhǎng)衰減,步長(zhǎng)為90,衰減率為0.1。

2.4 實(shí)驗(yàn)結(jié)果與分析

本文對(duì)改進(jìn)的ASPP模塊和FFM 模塊進(jìn)行了消融實(shí)驗(yàn),來(lái)驗(yàn)證兩個(gè)模塊對(duì)最終結(jié)果的影響,在CamVid數(shù)據(jù)集上的結(jié)果如表1所示。

表1 消融實(shí)驗(yàn)結(jié)果

分割結(jié)果如圖8所示,與其他語(yǔ)義分割算法對(duì)比見(jiàn)表2。

表2 本文算法與其他語(yǔ)義分割算法在CamVid數(shù)據(jù)集的對(duì)比結(jié)果

將本文中使用dsgblock構(gòu)建的骨干網(wǎng)絡(luò)定義為baseline,將添加改進(jìn)ASPP 模塊和特征融合模塊后的網(wǎng)絡(luò)定義為DSGNet。由表1 所知,本文基于沙漏結(jié)構(gòu)創(chuàng)建的語(yǔ)義分割網(wǎng)絡(luò)在CamVid數(shù)據(jù)集上以159.7FPS 的速度達(dá)到了54.58%MIoU的精確度。在只加入改進(jìn)的ASPP 模塊后平均交并比提升了2.33 個(gè)百分點(diǎn),同時(shí)FPS 下降到153.1。在只使用特征融合模塊FFM 的情況下,比原始網(wǎng)絡(luò)的MioU 提升了0.73 個(gè)百分點(diǎn),同時(shí)FPS下降了3.9。最終,將改進(jìn)的ASPP模塊和特征融合模塊都加入原始網(wǎng)絡(luò)后,MIoU 有顯著提升,達(dá)到了57.33%,同時(shí)FPS也達(dá)到了147.3。

圖8 展示了CamVid 數(shù)據(jù)集中原始的輸入圖像和標(biāo)簽圖,baseline 對(duì)于原圖的分割存在以下幾個(gè)問(wèn)題:①對(duì)于建筑物和樹(shù)相連的部分存在誤分割現(xiàn)象;②對(duì)于小物體的分割效果不夠理想;③對(duì)于物體的邊緣分割效果不夠精細(xì)。在加入改進(jìn)的ASPP 模塊后,提升了模型整體的感受野,能夠更多地獲取上下文信息,特征融合模塊也可以更好地將高低維度的特征信息進(jìn)行融合。因此DSGNet 相對(duì)于baseline,建筑物和樹(shù)木之間的誤分割現(xiàn)象明顯減少,路面和建筑物的邊緣能夠較好地還原,細(xì)小物體的分割效果明顯增強(qiáng),如廣告牌,電線(xiàn)桿等。

圖8 分割效果可視化對(duì)比

由表2可知,本文提出的基于沙漏結(jié)構(gòu)的語(yǔ)義分割網(wǎng)絡(luò)與其他語(yǔ)義分割網(wǎng)絡(luò)相比各有優(yōu)劣。與表中實(shí)時(shí)性較高的ENet 相比,本文網(wǎng)絡(luò)的FPS 指標(biāo)略低,但是平均交并比顯著高于ENet。和SQ 相比,在平均交并比相似的情況下,實(shí)時(shí)性顯著高于SQ。本文網(wǎng)絡(luò)在CamVid數(shù)據(jù)集上的表現(xiàn),均略高于ESPNet。

3 結(jié)語(yǔ)

為解決語(yǔ)義分割中實(shí)時(shí)性和精確度不能兼顧的問(wèn)題,本文提出了基于沙漏結(jié)構(gòu)的實(shí)時(shí)語(yǔ)義分割網(wǎng)絡(luò)。將深度可分離卷積和ASPP 模塊結(jié)合可降低參數(shù)量,同時(shí)提高了推理速度。針對(duì)ASPP 模塊中空洞卷積產(chǎn)生網(wǎng)格現(xiàn)象的問(wèn)題,將不同空洞率提取出的特征圖進(jìn)行有效堆疊,從而抑制網(wǎng)格現(xiàn)象。為了將不同維度的特征圖進(jìn)行有效的融合,基于注意力機(jī)制提出特征融合模塊。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的ASPP 模塊和特征融合模塊在基于沙漏結(jié)構(gòu)的語(yǔ)義分割網(wǎng)絡(luò)中有效地減少了誤分割的現(xiàn)象。

由最終分割結(jié)果可知,本文提出的算法仍然存在部分場(chǎng)景中邊緣分割不夠精細(xì)的問(wèn)題。針對(duì)上述問(wèn)題,如何設(shè)計(jì)更加高效的骨干網(wǎng)絡(luò),如何精確提取邊緣語(yǔ)義信息將是今后研究的重點(diǎn)。

猜你喜歡
語(yǔ)義特征融合
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
語(yǔ)言與語(yǔ)義
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
“上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語(yǔ)義模糊
主站蜘蛛池模板: 人妖无码第一页| 91美女视频在线| 一区二区三区成人| 亚洲性网站| 五月婷婷伊人网| 成人国产三级在线播放| 国产波多野结衣中文在线播放| 97综合久久| 亚洲人成在线免费观看| 国产成熟女人性满足视频| 青青青国产视频手机| 中文字幕有乳无码| 精品人妻AV区| 国产成人艳妇AA视频在线| 波多野结衣无码中文字幕在线观看一区二区| 免费精品一区二区h| 国产日本欧美在线观看| 嫩草在线视频| 欧美成人日韩| a亚洲天堂| 国产精品冒白浆免费视频| 色偷偷一区| 中文字幕在线播放不卡| 国产凹凸一区在线观看视频| 欧美亚洲另类在线观看| 伊人激情综合网| 尤物午夜福利视频| 无码专区国产精品第一页| 成年人福利视频| 亚洲中文字幕97久久精品少妇| 国产精品专区第一页在线观看| 久久精品人人做人人爽电影蜜月| 国产精品妖精视频| 国内精品视频| 国产精品嫩草影院视频| 日韩人妻无码制服丝袜视频| 91精品情国产情侣高潮对白蜜| 国产成人1024精品| 日韩精品专区免费无码aⅴ | 久久国产乱子伦视频无卡顿| 欧美高清国产| 免费黄色国产视频| 91在线精品麻豆欧美在线| 有专无码视频| 青青草原国产精品啪啪视频| 亚洲欧美日本国产专区一区| 四虎永久在线精品国产免费| 色噜噜中文网| 亚洲天堂2014| 全免费a级毛片免费看不卡| 在线观看国产小视频| 中文成人在线视频| 成人免费一区二区三区| 91无码网站| 先锋资源久久| 欧美日韩高清| 熟妇无码人妻| 中文国产成人久久精品小说| 免费一级毛片在线播放傲雪网| 97人妻精品专区久久久久| lhav亚洲精品| 无码国产偷倩在线播放老年人| 天堂成人在线视频| 亚洲欧美不卡中文字幕| 中国精品自拍| 97免费在线观看视频| 在线a视频免费观看| 日韩AV无码免费一二三区| 国产人成午夜免费看| 日韩精品一区二区三区中文无码| 97视频精品全国在线观看| 好紧太爽了视频免费无码| 国产精品男人的天堂| 精品久久久久成人码免费动漫| 亚洲一区二区三区香蕉| 91成人免费观看在线观看| 亚洲福利视频一区二区| 欧美成人免费一区在线播放| 91欧洲国产日韩在线人成| 在线观看亚洲精品福利片| 国产丝袜精品| 国产白浆视频|