999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度融合網絡在街道場景中的應用

2023-12-01 03:44:34許鴻奎郭文濤李振業郭旭斌趙京政
軟件導刊 2023年11期
關鍵詞:語義深度特征

許鴻奎,郭文濤,李振業,郭旭斌,趙京政

(1.山東建筑大學 信息與電氣工程學院;2.山東省智能建筑技術重點實驗室,山東 濟南 250101)

0 引言

圖像語義分割是計算機視覺領域的重要研究方向之一,作為像素級別的分類任務,將圖像中每個像素分配類別標簽。在傳統的語義分割任務中,通過運用數字圖像處理和數學等領域的知識,對輸入的圖像進行特征提取,這些特征包括低層次的屬性,如顏色、紋理和輪廓。在提取過程中,常采用的方法為閾值方法[1]、聚類方法[2]、圖劃分[3]等。但是傳統算法只能提取大量的低級特征,并且分割后準確率低。隨著深度學習技術的興起,卷積神經網絡被應用于圖像分割,其性能大大優于傳統的基于手工特征的圖像分割方法。

近年來,大量的網絡模型結構被提出,如AlexNet[4]、GoogLeNet[5]、ResNet[6]、VGG[7]等,使得語義分割領域飛速發展。2015 年,Long 等[8]提出全卷積神經網絡(Fully Convolutional Networks,FCN),基于VGG 分類網絡,人們通過將全連接層替換為卷積層,開創了全卷積神經網絡在端到端圖像語義分割中的應用。然而,僅依賴深層次網絡特征往往導致邊界粗糙和語義分割不準確等問題。為解決這一問題,人們開始融合不同層次的信息,采用自上而下的方式精細化特征,將淺層細節信息與深層語義信息相結合,以提高分割結果的準確性。

1 相關工作

在語義分割中,空間細節信息和深層語義信息是相互矛盾的。淺層特征提供了豐富的細節信息,但語義信息相對較少;而深層網絡特征包含豐富的語義信息,但缺乏足夠的空間細節信息。因此,如何平衡這兩種信息成為語義分割研究的核心任務,旨在獲取更準確且細致的分割結果。

1.1 編碼器—解碼器結構

一般而言,編碼器通常是一個重復空間約簡的深度網絡,為提取上下文信息,解碼器通過插值或轉置卷積恢復分辨率。如2017 年,Badrinarayanan 等[9]提出的SegNet 網絡就是一個標準的編碼器解碼器結構。同年提出的Deep-Lab[10]網絡消除了ResNet 中的一些下采樣操作,以保持高分辨率,并利用具有大膨脹的卷積以擴大感受野。從那時起,一系列如DeepLabV2[11]、DeepLabV3[12]、PSPNet[13]和DenseASPP 等[14]網絡結構被提出。

另一方面,編碼器結構可以是在ImageNet 上預先訓練的輕量級骨干,也可以是從頭訓練的高效變體,如ERFNet[15]和ESPNet[16]。FANet[17]通過快速注意模塊和整個網絡的額外下采樣實現了速度和準確性之間的良好折衷。SFNet[18]提供了一個流對齊模塊以對齊相鄰層的特征映射,以便更好地融合。

1.2 雙分支結構

編碼器—解碼器架構減少了計算量,但由于在重復下采樣過程中會丟失一些信息,無法準確地通過反采樣恢復,從而影響了語義分割的準確性。為了緩解這一問題,曠視科技團隊提出了一種雙路徑結構。網絡結構為BiseNet[19],一條路徑用來提取空間特征信息,另一條路徑用來提取豐富的語義信息。因為兩者的特征維度不同,為了空間信息和語義信息更好地融合,提出了特征融合模塊FFM 和注意力優化模塊ARM。2019 年,Li 等[20]提出一種通過子網和子級聯的方式聚合判別性特征網絡結構DFANet,采用深度多尺度特征聚合和輕量級深度可分離卷積。2021 年,Hong 等[21]提出DDRNet 網絡結構,一種雙分支深度融合的網絡結構用來實現語義分割。

1.3 上下文信息

語義分割的另一個關鍵是如何捕捉更豐富的上下文信息。分層空間金字塔池(ASPP)由不同速率的分層卷積層組成,可處理多尺度的上下文信息。PSPNet[13]中的金字塔池化模塊采用4 個不同大小的全局池化層以聚合多尺度特征。DANet[22]同時利用了位置注意和通道注意,進一步改進了特征表示。OCNet[23]利用自注意力機制探索對象上下文,對象上下文被定義為屬于同一對象類別的一組像素。以上工作都在探索如何獲得更加豐富的上下文信息和空間信息與上下文信息之間的有效融合。

本文主要貢獻包括兩個部分:①提出了一種深度融合空洞金子塔(Deep Fusion Atrous Spatial Pyramid Pooling,DFASPP),通過此模塊捕獲豐富的上下文信息;②為了高效地整合淺層空間細節信息和深層語義信息,提出了一個“語義融合模塊”(Semantic Fusion Module,SFM)。通過構建不同層次特征像素之間的位置對應關系,這個模塊能夠自底向上地逐級融合深淺層次特征,從而實現更全面的信息利用。

2 本文方法

如圖1 所示,本文方法整體網絡結構為雙分支。主干網絡為DDRNet-23slim,詳細信息如表1所示。其中,“RB”表示順序剩余基本塊;“RBB”表示單個剩余瓶頸塊;“Seg.Head”表示分割頭;“DASPP”表示深度融合空洞金字塔;“SFM”表示語義融合模塊;黑色實線表示有數據處理的信息路徑(包括上采樣和下采樣),黑色虛線表示沒有數據處理的信息路徑。

Table 1 Structure of DDRNet-23slim表1 DDRNet-23slim結構

Fig.1 Network structure圖1 網絡結構

在網絡結構中,先通過兩個順序剩余基本塊將圖片提取到原圖片的1/4、1/8,然后產生平行分支。在主干網絡結構中繼續通過順序剩余基本塊提取圖片到1/16、1/32,再通過一個剩余瓶頸塊將圖片壓縮到原圖像的1/64。通過設計一個深度融合空洞金字塔提取多尺度的上下文信息。本文所設計的深度融合空洞金字塔中擴張率分別采用1、5、7。在另一分支結構中不再改變圖片的分辨率,一直保持原圖片大小的1/8,讓圖像保留豐富的空間信息。在空間信息與語義信息融合階段,采用了一個語義融合模塊指導融合,以確保融合的有效性。將融合后的特征圖采用雙線性插值方法上采樣到原始圖片大小,再通過Softmax 分類器將其分類,得到最終分割結果,完成語義分割任務。

2.1 深度融合空洞金字塔

空洞卷積在語義分割網絡結構中有著廣泛應用,它能夠在擴大感受野的同時降低其計算量。在語義分割檢測任務中,一方面感受野大了可以檢測分割大目標,另一方面分辨率高了可以精確定位目標,還能捕獲多尺度上下文信息,設置不同的膨脹率時其感受野不同,能夠獲得多尺度信息。

空洞卷積又名擴張卷積,向卷積層引入了一個稱為“擴張率(Dilation Rate)”的新參數,該參數定義了卷積核參數之間的間距。換句話說,相比原來的標準卷積,擴張卷積多了一個超參數稱之為擴張率,指卷積核各點之間的間隔數量。正常卷積的擴張率為1,膨脹卷積的感受野計算公式如下:

其中,Fi代表膨脹卷積的感受野大小,i表示膨脹因子大小。

圖2(a)展示了一個標準的3×3 卷積模型,其擴張率為1,感受野大小為3×3。圖2(b)描繪了擴張率為2 的3×3 卷積模型,其感受野擴展為7×7。而圖2(c)呈現了一個擴張率為3的3×3卷積模型,其感受野進一步增大為15×15。這些模型通過調整擴張率來改變感受野大小,從而影響了卷積操作的局部感知范圍。

Fig.2 Schematic diagram of cavity convolution圖2 空洞卷積示意圖

在Chen 等[12]的語義分割模型DeepLabv2 中,提出了一種空洞金字塔結構,通過不同的膨脹率同時對輸入圖片進行上下文信息提取,然后將其拼接融合。傳統的空洞金字塔結構內部之間的關聯性小,于是本文提出一種深度融合空洞金字塔(見圖3),所設計的深度融合空洞金字塔,通過不同膨脹率的空洞卷積對圖像進行多尺度的信息提取,同時輸入特征圖和全局平均池化生成的語義信息也被加以利用。在多尺度信息融合過程中,采用多個3×3 的卷積以層次殘差的方式將不同尺度的上下文信息進行融合。以原圖像的1/64 分辨率作為輸入,通過3 個膨脹率分別為1、5、7 的空洞卷積,然后采用層次殘差的方式將輸入特征圖、池化圖和空洞卷積圖融合,將不同尺度的上下文信息更加緊密地融合,其輸入寫為x,輸出為y:

Fig.3 Pyramid structure of deep fusion cavity圖3 深度融合空洞金字塔結構

其中,C1×1為1×1 卷積,C3×3為3×3 卷積,U 為上采樣操作,DC 為空洞卷積,rate 為膨脹率,Pglobɑl為全局平均池。最后,使用1×1 卷積將所有特征映射連接和壓縮。此外,還添加了1×1投影快捷方式,便于優化。

2.2 語義融合模塊

在語義分割網絡中,深層特征雖然富含語義信息,但圖像分辨率較低;相反,淺層特征包含豐富的空間細節信息,卻缺乏足夠的語義信息。這兩種信息對分割任務而言至關重要,因此如何有效利用這兩種信息成為語義分割研究的關鍵所在。

在融合不同分辨率的特征時,通常需要對低分辨率特征進行上采樣。然而,簡單的雙線性插值上采樣操作往往導致不同分辨率特征之間的像素無法有效“對齊”,從而使得深層次的高語義特征在向淺層次的高分辨率特征傳遞時產生無效語義信息,融合效果不盡人意。為了解決這一問題,Li 等[18]提出了一種名為SFNet 的特征融合網絡。該網絡通過自主學習預測不同分辨率特征之間的“語義流”信息,能夠將粗略的特征矯正為具有更高分辨率的精細特征,從而實現不同分辨率特征之間的像素“對齊”。通過這種方式,SFNet 能夠有效地將語義信息從深層傳輸到淺層,實現不同分辨率特征之間的有效融合,進而提升語義分割性能。

基于以上工作,本文設計了一個語義融合模塊將深層次的語義信息與淺層次的空間特征進行多層次、深層次的融合。如圖4 所示,語義融合模塊中以原圖像的1/64 作為深層輸入,記為Fd;以原圖像的1/8作為淺層輸入,記為Fh。首先,將深層次特征Fd進行一個1×1 的卷積進行通道降維,然后通過上采樣恢復到Fh尺寸大小。而Fh是通過一個3×3 的卷積后與Fd進行拼接融合,經過3×3 的卷積預測,獲得二維偏移量Ff,其尺寸是原圖像的1/8。在Ff 中,每個像素位置都包含水平和豎直方向的偏移信息,通過這些二維偏移量,可以確定不同分辨率特征間像素的相對位置關系。接下來,利用二維偏移量Ff 對深層次特征進行Warp 操作,得到新的特征Fw,然后將Fw 與Fh 進行拼接融合。這種融合方式有效地整合了不同分辨率的特征,進一步提升了模型性能。最后,將拼接后的特征利用1×1 的卷積融合以完成最后的輸出。其操作可表示如下:

Fig.4 Structure of semantic fusion module圖4 語義融合模塊結構

其中,Upsample 表示以雙線性插值的方式進行上采樣;f3×3、f1×1表示3×3和1x×1的卷積操作;Concat是指對兩個特征進行通道上的拼接操作,將它們的通道維度合并在一起。Warp 是一種空間變換操作,它根據偏移量生成空間網格,并利用這個網格對圖像進行重新采樣,從而實現圖像的空間變換。這種Warp 操作可以有效地對圖像進行對齊和校準,從而提升特征融合效果。

將深層特征Fd通過1×1 卷積和雙線性插值上采樣后與3×3 卷積的淺層特征Fh進行拼接融合,再經過3×3 的卷積得到二維偏移量Ff。

將得到的二維偏移量Ff對深層次的特征進行空間變換上采樣得到特征Fw。

將原始的淺層特征Fh與變換后的Fw進行拼接融合,然后通過一個1×1 卷積進行輸出。通過這樣的操作使得淺層次的空間信息與深層次的語義信息融合得更加充分,加強了特征通道的信息表達。

3 實驗與結果分析

3.1 實驗環境

實驗環境選擇CPU 為Intel 處理器,內存為16GB,GPU 為RTX3060,深度學習框架為Pytorch。具體實驗配置如表2所示。

Table 2 Software and hardware experiment configuration environment表2 軟硬件實驗配置環境

3.2 實驗數據集

本文采用大規模城市街道場景語義分割數據集Cityscapes[24]作為實驗數據。Cityscapes 數據集主要針對自動駕駛領域,包含了50 個不同城市街道場景的圖像,其中5 000 幅圖像具有精確標注,20 000 幅圖像具有粗略標注。該數據集涵蓋了34 個不同的街景類別,本實驗中只專注于19 個類別的檢測和評估。對于實驗評估,僅使用精確標注的5 000 幅圖像,并將其劃分為3 個部分:2 975 幅用于訓練,500 幅用于驗證,以及1 525 幅用于測試。所有圖像的分辨率均為1 024×2 048。

3.3 評估指標

在本次實驗評估中,采用了平均交并比(Mean Intersection over Union,mIoU)作為評估算法性能的主要指標,mIoU 是圖像語義分割任務中的標準度量方法。對于單個類別,交并比(Intersection over Union,IoU)計算的是真實標簽與預測值之間的交集和并集之比。而mIoU 則是所有類別IoU 的平均值,用于全面評估算法在所有類別上的性能。采用mIoU 作為評估指標,可以更準確地衡量算法在語義分割任務中的效果。具體計算公式如下:

3.4 網絡參數設置

本次實驗的網絡結構為雙分支,其提取特征信息的主干網絡結構為DDRNet-23slim,圖像預處理將圖片大小都調整為1 024×1 024 作為網絡輸入。采用隨機梯度下降法(Stochastic Gradient Descent,SGD),學習率初始值設為0.01,動量為0.9,權重衰減為0.000 5,batchsize 設置大小為32,進行500 個epoch 進行訓練。測試采用的輸入圖片尺寸為2 048×1 024。

3.5 對比試驗

在Citycapes 數據集上將本文方法同ICNet、BiSeNet、SFNet、MFSNet 等一系列先進的網絡結構進行對比。為保證實驗公平性,采用相同的實驗設備和實驗環境。輸入圖片的尺寸均為2 048×1 024。性能比對采用平均交并比加以衡量。

通過表3 可以看出,所設計的深度融合網絡結構相較于SeNet、ICNet、BiSeNet、SFNet、MFSNet 等輕量級網絡結構有著較大提升,在Citycapes 數據集上得了77.6%的平均交并比。

Table 3 Performance comparison of each method表3 各方法性能比較

Table 4 Comparison of ablation experiments表4 消融實驗比較

3.6 消融實驗

為了檢驗各模塊對分割精度的影響,本文基于相同的實驗環境和實驗參數,在Citycapes 數據集上做了消融實驗。通過對比發現,在不加任何模塊時,其產生的平均交并比為66.7%,而加上設計的深度融合空洞金字塔模塊進行進一步的語義信息提取后平均交并比達76.3%,再加上一個語義融合模塊進行指導空間信息與語義信息的有效融合,其平均交并比達77.6%。

3.7 分割結果可視化

為了更加直觀地展示本文方法所帶來精度上的提升,在Citycapeas 數據集上進行分割可視化。圖5 中,(a)為原圖,(b)為標簽,(c)為不加任何模塊,(d)為加上深度融合空洞金字塔,(e)為加上深度融合空洞金字塔和語義融合模塊。可以看出,在不添加模塊時,其分割的物體邊緣信息不明顯,物體之間容易混合;加上本文所設計的模塊后,其分割精度有明顯提升。

Fig.5 Visualization on Citycapeas dataset圖5 Citycapeas數據集上可視化

4 結語

本文設計了一個深度融合的空洞金字塔模塊和一個語義融合模塊應用于語義分割任務。利用深度融合空洞金字塔捕獲不同尺度目標上下文信息,通過層次殘差的方式進行深度融合,在保持圖像分辨率不變的前提下,降低網絡參數數量并增強圖像的全局語義信息表達能力。使用語義融合模塊將淺層空間信息與深層次語義信息進行有效融合,通過實現深層語義信息與淺層細節信息的互補,在Cityscapes 數據集上獲得了優異的分割精度,并通過可視化方式展示了本文方法的分割效果。未來,將繼續致力于提升模型對不同物體的分割精度,并進一步簡化模型,以增強其在實際應用中的可行性,同時提高應用效率,加快模型訓練進度。

猜你喜歡
語義深度特征
深度理解一元一次方程
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 91香蕉视频下载网站| 国产一级毛片网站| 亚洲第一黄色网址| 国产视频只有无码精品| 免费中文字幕在在线不卡| 国产精品视频第一专区| 国产欧美日本在线观看| 日本午夜网站| 99久久这里只精品麻豆| 综合色88| 四虎成人在线视频| 91小视频版在线观看www| 免费无码一区二区| 99一级毛片| 啊嗯不日本网站| 欧美亚洲国产日韩电影在线| 婷婷午夜影院| 欧美性色综合网| 久久久精品无码一区二区三区| 国产亚洲精品97在线观看| 欧美19综合中文字幕| 综合社区亚洲熟妇p| 亚洲无码四虎黄色网站| 国产va在线| 美女无遮挡免费视频网站| 人妻中文字幕无码久久一区| 婷婷亚洲最大| 精品第一国产综合精品Aⅴ| 国产肉感大码AV无码| 好紧太爽了视频免费无码| 91探花国产综合在线精品| 91精品情国产情侣高潮对白蜜| 五月天福利视频 | 伊人天堂网| 国产精品一区二区久久精品无码| 欧美日韩成人| 精品无码一区二区三区电影| 国产精品亚洲专区一区| 欧美成人手机在线观看网址| 无码中文字幕乱码免费2| 国产资源站| 欧美午夜视频| 国产丰满大乳无码免费播放| www.国产福利| 成人免费午夜视频| 青青青草国产| 国产又大又粗又猛又爽的视频| 婷婷亚洲视频| 综合久久久久久久综合网| 免费无码AV片在线观看中文| 特级精品毛片免费观看| 成年网址网站在线观看| 丰满人妻中出白浆| 色综合中文| 亚洲一区二区三区香蕉| 久久久久久久久久国产精品| 日韩精品亚洲精品第一页| 夜夜高潮夜夜爽国产伦精品| 欧美综合一区二区三区| 国产一二视频| 毛片最新网址| 国产欧美日韩综合在线第一| 亚洲三级色| 亚洲欧美日本国产综合在线 | 亚洲第一色网站| 国产一级片网址| 日a本亚洲中文在线观看| 一本大道无码日韩精品影视| 国产喷水视频| 香蕉久人久人青草青草| 国产一区二区三区精品欧美日韩| 久热中文字幕在线| 久爱午夜精品免费视频| 国产精品久久久久久久久| 日韩欧美在线观看| 91精品啪在线观看国产91| 波多野结衣一二三| 91免费观看视频| 国产精品久久久久久久久久久久| 欧美另类一区| 久热re国产手机在线观看| 国产成人高清精品免费软件 |