999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于空洞空間池化金字塔的自動駕駛圖像語義分割方法*

2022-12-27 08:25:10王大方趙文碩
汽車工程 2022年12期
關鍵詞:語義特征結構

王大方,劉 磊,曹 江,趙 剛,趙文碩,唐 偉

(1.哈爾濱工業大學(威海)汽車工程學院,威海 264200;2.陸軍裝甲兵學院兵器與控制系,北京 100072)

前言

自動駕駛能夠有效降低出行成本,提升車輛利用率。同時可以有效減少交通擁堵,進而提升通行效率。

隨著深度學習技術的發展,基于深度學習尤其是基于卷積神經網絡的圖像語義分割得到了飛速的發展,在很大程度上提高了圖像語義分割的精度,與傳統的分割算法相比,基于深度學習的語義分割可以自動地學習圖像的特征,大大提升了圖像分割的精確度,降低了自動駕駛使用語義分割技術的門檻。

自動駕駛車輛必須了解其周圍環境,即道路上的各種車輛、行人、車道、交通標志或交通燈等。基于深度學習的語義分割方法是實現這一目標的關鍵,因為深度神經網絡在檢測和多類識別任務中具有驚人的準確性。車輛在道路上如果能對攝像頭采集的圖片或視頻進行精確且快速的語義理解,就能在很大程度上對障礙躲避、路徑規劃等做出指導,這為自動駕駛提供了成本相對較低、部署較簡易的信息補充。所以,穩定精確的語義分割結果為自動駕駛提供了豐富可靠的數據支持。綜上所述,圖像語義分割在自動駕駛領域有著非常重要的應用潛力。

在自動駕駛一些需要低延遲操作的應用中,語義分割方法的計算成本仍然非常有限。因為需要在精確的時間間隔內做出決定。所以,有必要改進分割網路的模型,讓其能夠以適當的精度實時執行高效的分割任務。本文中從精度和速度性能方面去考慮改進語義分割網絡的結構,并通過實驗驗證算法在自動駕駛技術上應用的可行性。

1 相關研究

圖像分割一直以來都是圖像研究中的一個重點和難點,之前的圖像分割方法多數是利用數學、拓撲學或數字圖像處理等方法,深度學習方法對圖像分割方法產生了巨大的影響。自動駕駛車輛必須了解其周圍環境,現階段的基于深度學習的圖像語義分割結構主要有編碼器-解碼器結構、多分支結構等,利用金字塔結構提取深層語義信息,能夠解決深層語義信息利用率較低的問題,從而對圖像進行更加精確有效的分割。

1.1 傳統分割方法

傳統的圖像分割方法主要有基于閾值的分割方法、基于邊緣檢測的圖像分割方法、基于區域的圖像分割方法等。基于閾值的分割方法是最為基礎的圖像分割方法,這類方法最重要的就是怎么去選取合適的閾值,它具有計算效率高、計算速度快和計算簡單等優點,但是,也存在分割精度差、出錯率高等缺點。比較著名的基于閾值的分割方法有大律法,又稱最大類間方差法(OTSU)[1],它是1979年由日本學者大津所提出來的,是一種自適應的閾值確定方法。根據圖像的灰度特性將圖像目標和背景分為兩個部分,目標和背景的類間方差和構成圖像的兩部分的差別成正比。由于圖像的目標和背景在邊界處的灰度值變換通常非常劇烈,通過利用圖像目標和背景的邊緣灰度不連續的這一屬性,檢測各個目標區域的分界線,就能夠將圖像的目標區域分割提取出來。基于邊緣檢測的分割方法通過求解相鄰圖像像素的1階導數的極值點或是2階導數的零點來作為檢測目標的邊界點。常見的通過求1階導數的極值點來提取邊緣點的方法有Roberts算子、Prewitt算子、梯度算子和Sobel算子法等[2]。基于區域的圖像分割方法更加關注目標區域的內部特征相似性,通過利用目標區域和背景區域之間的屬性差來對圖像進行分割。利用相同目標與背景之間的內部特征具有相似性和不同的目標與背景之間的特征具有不連續性的特點來實現。該方法成功解決了圖像在分割過程中不連續的缺點,但同時也存在圖像在分割過程中出現過度分割的缺點。常見的基于區域的圖像分割方法有區域生長算法、區域分裂合并法和分水嶺分割算法等[3]。

1.2 基于深度學習的分割方法

常見的基于深度學習的圖像語義分割方法有3種結構,包括基于編碼器-解碼器結構的語義分割方法、基于多分支結構分語義分割方法和基于金字塔結構的語義分割方法[4]。

第一種語義分割網絡基于編碼器-解碼器體結構的網絡,代表性的例子是ENet[5]。其中編碼器模塊使用卷積層和池化層來執行特征提取,解碼器模塊從子分辨率特征中恢復空間細節,同時預測對象標簽(即語義分割)。編碼器模塊的標準選擇是一個CNN主 干網絡,如VGG16[6]、ResNet[7]、GoogleNet[8]等。解碼器模塊的設計通常包括基于雙極插值或轉置卷積的上采樣層。

為了設計高效且同時精確的模型,人們提出了雙分支和多分支網絡。與單分支編碼器不同,雙分支網絡使用深分支編碼高級語義上下文信息,使用淺分支編碼更高分辨率的豐富空間細節。在同一概念下,多分支體系結構集成了處理輸入圖像不同分辨率(高、低和中)的分支。但是,從不同分支提取的特征必須合并才能進入分割圖。為此,兩個分支網絡引入了一個融合模塊來組合編碼分支的輸出。融合模塊可以是通過串聯或加法連接輸出特征的特征融合模塊、聚合層(BiSeNet V2)[9]、雙邊融合模塊(DDRNet)[10]或級聯特征融合單元(ICNet)[11]。

為了提高深層語義信息的利用率,獲取多尺度的語義信息,又有學者提出了金字塔模塊,常見的有兩種類型,在PSPNet[12]和PANet[13]中,作者使用不同尺寸和不同步長的卷積核來獲取不同分辨率的特征圖,在DeepLab[14]系列中,作者通過在各個分支使用不同的卷積來處理特征圖從而獲得不同分辨率的語義信息,使用不同膨脹率的膨脹卷積來完成相關的操作。DenseASPP[15]使用了更加密集的膨脹率的膨脹卷積來進行操作。這些方法在通過獲取圖像的多尺度語義信息,一定程度上提高圖像語義分割的精度。

2 網絡的設計

2.1 整體網絡設計

本文中提出了一種多分支的語義分割網絡模型,具體網絡結果如圖1所示,首先利用RseNet18作為網絡的特征提取基準網絡模塊。ResNet18是由1個7×7的卷積層加上8個殘差模塊堆疊起的模塊。隨著網絡的加深,殘差模塊能夠有效解決深層網絡的退化問題。相比于VGG16在性能上能夠有較大的提升。

圖1 整體網絡結構

在ResNet18網絡的輸出端利用空洞空間池化金字塔改進網絡的下采樣結構,獲取圖像多尺度語義信息。網絡的其中一個分支是由3個卷積、BN和ReLu層構成,圖片經過該模塊之后其尺寸縮小為原來的1/8,得到的特征圖含有非常豐富的圖像空間信息,能夠盡可能地保留圖片的細節信息。網絡的另外一個分支是由改進后的ResNet18和空洞空間池化金字塔模塊組成,主要用于圖像深層語義信息的提取,空洞空間池化金字塔結構用于獲得深層特征的多尺度的圖像語義信息。ARM模塊的主要作用是用來優化每一個階段的圖像特征,同時他的計算成本也比較小。ARM中使用的全局平均池化能夠很好地整合全局空間信息,提高網絡的魯棒性,同時全局池化沒有參數,可以降低網絡參數,防止網絡的過擬合。FFM模塊是為了將淺層語義信息和深層語義信息進行融合,能夠起到特征選擇和特征融合的作用。

2.2 網絡模塊優化

本文在ASPP和ARM結構的基礎上提出了一種新的特征提取結構,該結構有兩種類型,本文取名為A_ASPP_1和A_ASPP_2,結構示意圖如圖2和圖3所示。在A_ASPP_1模塊中,輸入圖片通過一個常規的下采樣特征提取網絡,如ResNet、VGG16等,然后將輸出的特征圖通過空洞空間池化金字塔ASPP模塊獲取圖像的多尺度語義信息。將下采樣的子模塊輸出后通過注意力細化模塊ARM進行優化,再與ASPP的輸出特征通過注意力細化模塊ARM后的均值進行疊加。ARM模塊能夠優化每一個階段的特征,其使用了全局平均池化來獲取每一個階段的全局平均信息并指導特征學習[16]。在16倍下采樣階段的特征圖通過ARM得到優化后的特征圖后,將優化后的ASPP特征圖與優化的16倍下采樣特征圖進行融合后加和輸出。該結構主要對16倍下采樣和ASPP的輸出特征圖的輸出結構進行優化。A_ASPP_2的不同點在于將32倍下采樣的特征圖通過ARM模塊優化后與空洞空間池化金字塔模塊輸出的均值進行加和后,再與優化后的16倍下采樣特征進行疊加輸出。該結構只對16倍和32倍下采樣的輸出特征圖進行了優化。

圖2 A_ASPP_1結構

圖3 A_ASPP_2結構

圖中,4×down、8×down、16×down、32×down分別表示特征提取模塊對輸入圖片的4、8、16、32倍下采樣,ASPP表示空洞空間池化金字塔模塊,ARM表示特征優化模塊。

2.3 空洞空間池化金字塔模塊

空洞空間池化金字塔模塊示意圖如圖4所示,該模塊是由一個1×1的卷積層、3個膨脹卷積層和一個池化層所組成。因為不同的膨脹率能夠獲得不用尺度的感受野,所以該結構主要通過使用不同膨脹率的膨脹卷積來提取圖像的多尺度語義信息,而最后一個池化層是為了獲取圖像的全局特征。將獲取到的各種特征圖在深度方向進行堆疊再進行1×1卷積獲取圖像的多尺度語義信息。該模塊能夠有效提升深層語義信息的利用率,獲取圖像的多尺度語義信息,從而提升語義分割的精度[12]。

圖4 空洞空間池化金字塔模塊示意圖

2.4 網絡結構參數

本文使用ResNet18作為網絡的特征提取網絡,網絡編碼器和解碼器的具體結構和參數如表1和表2所示。其中conv表示卷積操作,n×down表示n倍下采樣操作,其由殘差模塊堆疊而成實現,上采樣的實現為雙線性插值算法,ASPP為空洞空間池化金字塔結構,conv_bn_relu分別表示卷積層、批量標準化和池化層,ARM表示注意力優化模塊,FFM表示特征融合模塊。A_ASPP_1的結構相比A_ASPP_2結構在注意力優化模塊ARM的使用處有所不一樣,優化的子模塊不同,其余都相同。

表1 編碼器網絡結構

表2 解碼器網絡結構

3 實驗驗證與結果分析

3.1 數據集簡介

本實驗所使用的數據集是VOC2012數據集,該數據集共有20個類別,包含行人、動物、自行車、火車、飛機、摩托車、自行車等常見的自動駕駛場景的類別圖像。數據集共有17 125張圖片,在圖像分割任務中,共有訓練集約10 582張,同時包含圖片的語義標注,驗證集1 449張,實驗過程中對數據集進行了隨機旋轉和裁剪增強處理。圖片的類別與標簽如圖5所示。

圖5 VOC數據集圖像示例(從上到下:原圖;標簽)

3.2 實驗平臺與超參數設置

使用該算法網絡需要完成對圖片的語義分割,其過程需要進行大量的矩陣計算,所以對設備具有較高的要求。本實驗在Ubuntu16.04的操作系統下使用當前主流的深度學習框架Pytorch,利用python語言構建網絡框架模型。CPU選用的型號為AMD Ryzen9 5950,硬件配置的GPU顯卡版本為Nvidia GTX 3090,使用的實驗平臺的內存為芝奇DDR4 3 200 MHz 64 GB,同時使用了計算構架CUDA11.1和GPU加速庫CUDNN進行高性能的并行計算。

在網絡訓練的過程中,學習率是最重要的超參數之一,網絡訓練過程中的初始化學習率設置為0.000 1。同時采用Warm Up的訓練思想,在模型預訓練階段,先使用較小的學習率訓練一些Epochs,再修改為預先設置的學習率進行訓練。這樣能夠使模型的收斂速度更快,提高模型的收斂效果。訓練過程中對輸入圖片先進行預處理,對圖片進行隨機縮放再進行隨機翻轉和裁剪,最后進行填充到指定尺寸,同時進行平滑處理。這樣處理的作用是能夠增強模型的泛化能力,實驗最后選定尺寸為448×448。

另外,網絡使用當前主流的優化方法SGD優化器對網絡的梯度進行更新,采用的損失函數為交叉熵損失。由于隨機梯度下降是連續的,且使用小批量,因此不容易并行化。使用更大的批量大小可以在更大程度上并行計算,因為可以在不同的工作節點之間拆分訓練示例。這反過來可以顯著加快模型訓練。然而,較大的Batch Size雖然能夠達到與較小的Batch Size相似的訓練誤差,但往往對測試數據的泛化效果更差,綜合考慮本文選用的Batch Size為16。詳細的訓練超參數如表3所示。

表3 實驗參數

3.3 實驗結果分析

本文采用的分割評價指標是平均像素精度(mPA)和平均交并比(mIoU)。平均像素精度表示圖片中每個類中正確分類像素數的比例,然后再對其求平均,其定義見式(1)。平均交并比是圖像分割過程中真實值集合和預測值集合的交集和并集之比。IoU和mIoU的定義如式(2)和式(3)所示。

式中:k+1表示包括背景在內的語義類別綜述;i表示真實值;j表示預測值;Pij表示將類別i預測為類別j的像素數量。

對于網絡速度的評價,本文采用每秒傳輸幀數(frames per second)作為評價指標用于衡量模型的實時性能,表示網絡每秒分割圖像的數量。

為了驗證本文網絡的有效性,設置了模塊間的對比實驗,實驗的參數和環境設置都相同,實驗利用VOC2012數據集進行訓練。訓練集中常見的交通場景圖片實驗結果如表4所示。

表4 部分交通類別分割結果

從表中可以看出,本文提出的語義分割網絡能夠對自動駕駛場景中各種位置的行人和常見的自行車、公交車、小汽車、摩托車等進行有效的分割。可以看出行人和車輛的分割結構都能夠達到比較好的分割精度。實驗中部分人、自行車、公交、小轎車和摩托車等語義場景分割效果如圖6所示。

圖6 分割結果(從左到右:原圖;A_ASPP_1結果;A_ASPP_1結果;標簽)

為了進一步說明本文設計的網絡有效性,本文在相同的超參數和訓練環境下,使用VOC2012數據集訓練相同的Epochs,對BiSeNet[16]網絡進行了復現處理,對復現結果與本文結果進行了對比實驗,實驗結果如表5所示。

表5 VOC2012數據集訓練結果

從表中結果可以看出,本文設計的兩個模塊A_ASPP_1和A_ASPP_2都能有效提升圖像分割的精度,在VOC2012數據集上得到的71.8%和70.9%的平均交并比的訓練結果,相對于現有圖像語義分割網絡BiSeNet,其在平均交并比上分別提升了2.1和1.2個百分點。同時在圖像的平均像素精度上也能夠達到91.9%和91.7%的結果,相比于現有語義分割網絡BiSeNet提升了0.8和0.6個百分點。相比于其他的語義分割算法,也能夠有效提升圖像的分割精度,實驗效果如圖7所示。在分割速度方面,A_ASPP_1和A_ASPP_2每秒分別能夠識別80和79張圖片,相比于BiSeNet有少量減少,分割速度有部分降低。綜上所述,改進的算法能夠在小范圍損失分割速度的基礎上,有效提升網絡的分割效果,實現語義分割在分割速度和分割精度上的平衡。

圖7 分割結果對比(從上到下:原圖;標簽;BiseNet;A_ASPP_1;A_ASPP_2)

從圖中可以看出,本文所提出的算法對于各種交通場景中的行人和各種車輛能夠進行有效的分割,同時在相同的Backbone條件下,本文所提出的網絡能夠獲得更好的分割效果,對自動駕駛場景中的車輛和行人場景有著更加精確的分割效果,分割結果更加貼近標簽值。

4 結論

本文在現有語義分割網絡的基礎上,利用空洞空間池化金字塔模塊進一步提取圖像的多尺度語義信息,然后利用注意力優化模塊和特征融合模塊對圖像的深層語義信息和淺層語義信息進行融合,再進行上采樣輸出。相比于現有BiSeNet網絡而言,本文設計網絡能夠在損失少量分割速度的基礎上,使得圖像分割的平均交并比得到有效提升,分別提升了2.1和1.2個百分點,同時網絡有著更好的分割效果。

實驗結果表明,本文提出的兩種語義分割網絡模塊能夠有效地對自動駕駛場景類別的行人、自行車、公交、摩托車、汽車等圖像進行有效的分割。如何以更快的分割速度來實現更高的語義分割精度并應用于實時語義分割領域,也是未來的重點研究方向之一。

猜你喜歡
語義特征結構
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
語言與語義
如何表達“特征”
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
論《日出》的結構
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
創新治理結構促進中小企業持續成長
現代企業(2015年9期)2015-02-28 18:56:50
認知范疇模糊與語義模糊
主站蜘蛛池模板: 亚洲国产精品一区二区第一页免 | 久热精品免费| 日韩亚洲综合在线| 香蕉视频在线精品| 久久精品视频亚洲| 欧美在线国产| 伊人婷婷色香五月综合缴缴情| 欧美成人午夜在线全部免费| 亚洲狠狠婷婷综合久久久久| 亚洲欧美在线看片AI| 日韩av高清无码一区二区三区| 欧美激情视频一区| 国产精品亚洲综合久久小说| 理论片一区| 尤物国产在线| 88av在线| 精品精品国产高清A毛片| 午夜国产精品视频| 亚洲一区二区成人| 国产97色在线| 国产91丝袜| 福利视频一区| 午夜精品一区二区蜜桃| 亚洲床戏一区| 欧美亚洲综合免费精品高清在线观看| 园内精品自拍视频在线播放| 国产精品视频公开费视频| 中国国产A一级毛片| 国产高清无码第一十页在线观看| 国产精品亚欧美一区二区三区| 国产美女精品一区二区| 色噜噜久久| 亚洲无码视频图片| 久久亚洲精少妇毛片午夜无码| 日韩专区欧美| 免费毛片全部不收费的| 高清不卡一区二区三区香蕉| 亚洲精品国产综合99久久夜夜嗨| 亚洲欧美日韩高清综合678| 久久婷婷五月综合色一区二区| 噜噜噜久久| 四虎永久在线视频| 精品视频一区在线观看| www.99在线观看| 成人午夜天| 这里只有精品在线播放| 亚洲欧美成人在线视频| 精品免费在线视频| 免费Aⅴ片在线观看蜜芽Tⅴ| 永久免费av网站可以直接看的| 婷婷色一区二区三区| 国产欧美视频在线观看| 尤物亚洲最大AV无码网站| 国产成在线观看免费视频| 91免费观看视频| 亚洲精品爱草草视频在线| 极品性荡少妇一区二区色欲 | 中字无码av在线电影| 午夜毛片福利| 成年看免费观看视频拍拍| 国产真实二区一区在线亚洲| 日韩精品亚洲精品第一页| 亚洲国产av无码综合原创国产| 久久久久国产精品免费免费不卡| 奇米影视狠狠精品7777| 亚洲精品大秀视频| 伊人无码视屏| 久久免费视频6| 毛片在线区| 国产成人精品亚洲77美色| 亚洲中久无码永久在线观看软件| 国产人免费人成免费视频| 女高中生自慰污污网站| 亚洲精品午夜天堂网页| 成人综合网址| 国产精品三级av及在线观看| 国产毛片网站| 色综合久久无码网| www.91中文字幕| 97在线免费| 亚洲欧美综合在线观看| 欧美日韩亚洲综合在线观看|