文 凱,楊一鵬,熊俊臣,韋勝男
1.重慶郵電大學 通信與信息工程學院,重慶400065
2.重慶郵電大學 通信新技術應用研究中心,重慶400065
現有語義分割方法通過有效的模型設計,在推理速度和精度上取得了一定成功。精度提升主要體現在道路、建筑物等大目標上,而在交通燈等小目標物體上的分割卻不理想。盡管一些方法利用橫向鏈接[1]及條件隨機場[2]改善了物體的分割邊界,但僅是提高了邊界信息的恢復能力,已經損失的細節信息則無法恢復,以致分割邊界較為離散,易出現斷續的情況。造成這種現象的原因有:(1)將級別程度不同的顏色、形狀及紋理信息放在同一網絡中處理,導致處理精度相對不高。(2)小目標在訓練過程中對整體損失貢獻較小,故在訓練過程中易被忽略。
近來,一些研究采用語義流及邊緣流協同處理的方式,獲得了不錯的精度提升。文獻[3]通過像素向對象內彎曲獲得相應的主體特征,再采用差值得到邊緣特征,隨后對它們分別監督并進行融合。Takikawa 等人[4]提出了一種用于語義分割的門控形狀卷積設計網絡(gated shape convolutional neural network,GSCNN),通過門控卷積層及激活函數抑制了與邊界無關的信息,從而使形狀流分支只關注與邊界相關的信息,有效地改善了邊界清晰度及小目標分割精度。
非對稱卷積已用于許多有效模型,非對稱卷積將標準n×n卷積更改為n×1 卷積和1×n卷積,文獻[5-6]利用非對稱卷積,通過分解標準卷積減少模型參數,在不損失有效信息的前提下,加快訓練速度。文獻[7]利用短期密集拼接(short-term dense concatenate,STDC)設計了語義分支,并通過提取的邊界信息恢復了下采樣損失的細節信息,在驗證集上獲得了較好的性能表現。本文將非對稱卷積與短期密集拼接模塊相結合,減少了原有STDC模塊的參數。
使用注意力機制可顯著提升模型的精度。文獻[8]提出了一種用于場景分割的雙重注意網絡,可以基于自注意機制捕獲豐富的上下文依賴關系。MSCFNe(tmultiscale context fusion network)[9]根據網絡在不同階段的不同情況引入空間注意力和通道注意力,自適應地提高提取特征的表征能力,極大地促進局部和上下文信息的交互。本文將空間注意力與通道注意力以并聯方式融合,捕捉全局上下文信息和細節信息,提升精度。
在語義分割算法領域中,訓練模型的精度與損失函數息息相關,現有的實時語義分割模型使用的損失函數有交叉熵損失函數、加權交叉熵損失函數、Focal Loss函數等,已有的損失函數不能很好地解決類不平衡方面的問題。因此最近文獻[10]提出陌生人焦點學習(focal learning on strangers,FLS)的思想來關注小特征幅度值的樣本,可以顯著提高圖像分割的分割精度。文獻[11]提出動態平衡類損失(dynamically balance class losses,DBCL)的思想,并應用于三種先進的成本敏感型損失函數,提高了模型的分類能力。本文采用聯合損失函數,對語義分支和邊緣分支采用不同的損失函數指導模型訓練。
通過上述分析,發現仍有以下幾點不足:(1)在測試集上處理時由于缺乏標簽,無法再采用邊緣分支指導網絡分割,對于實時的自動駕駛場景,缺乏邊緣信息仍會導致物體在邊界處的分割效果不佳,無法很好地應用于現實場景;(2)由于該網絡在深層輸出的通道數多,包含大量有用及無用特征,在解碼時再采用類似通道注意的特征優化模塊(attention refinement module,ARM)來篩選深層語義特征對精度的提升作用不大;(3)BiSeNet V3[7]采用拉普拉斯算子在突出邊界信息的同時也增強了噪聲,此外,提取的邊緣信息單一,未利用語義分支特征,導致精度提升受限;(4)小目標分辨率低,使得可視化信息過少,以及小目標的邊界信息容易受周圍像素影響,導致分割精度誤差大。
針對上述不足,本文的主要工作內容及貢獻如下:
(1)邊緣分支設計了邊緣特征融合模塊,可利用上一層邊緣特征濾除語義特征中與邊界無關的信息,并以通道拼接的方式獲取更充足的邊界細節信息。它促進了語義分支及邊緣分支的信息交流,提高了小目標對象的邊界分割精度,并使網絡在真實場景下仍能利用邊緣信息分割。
(2)受NLNet[12]空間注意力機制及SENet[13]通道注意力的啟發,在語義分支中設計了能同時對通道域及空間域建模的輕量全局注意力模塊,使網絡能夠篩選出更符合分割任務的有效特征。
(3)為使網絡在訓練時側重于向著利于提高小目標分割精度的方向更新參數,采用改進的加權交叉熵損失函數,進一步改善了小目標的分割質量。
本文結合注意力及邊緣分支設計了能同時提高小目標分割精度及邊界清晰度的雙流分割網絡(two stream segmentation network based on attention mechanism and edge detection,AMEDNet),它是通過邊緣分支及語義分支以并聯的方式交織而成,如圖1 所示。該網絡主要由獲取邊緣信息的邊緣分支——邊緣特征融合模塊(edge feature fuse module,EFFM)、短期密集拼接(STDC)模塊設計的語義分支、全局注意力模塊(global attention module,GAM)及階段融合模塊(stages fuse module,SFM)構成。圖1中,Lseg及Ledge分別為分割任務及邊緣信息提取任務的損失函數;stage1、stage2每個階段為兩個3×3 卷積,stage3、stage4、stage5 每個階段為一個STDC-AC2模塊和兩個STDC-AC1模塊。

圖1 AMEDNet結構示意圖Fig.1 Schematic diagram of AMEDNet structure
邊緣分支設計的目的是在解碼過程中,將低級的邊緣信息同高級的語義融合,彌補損失的邊界細節信息。該分支的核心是邊緣特征融合模塊(EFFM),如圖2 所示。它能幫助語義特征濾除與邊界無關的信息,從而得到低級的粗粒度語義邊界。

圖2 EFFM結構示意圖Fig.2 Schematic diagram of EFFM structure
在圖2 中,EFFM 首先將本階段及其相鄰兩階段輸出的語義特征作為輸入,并將這些特征在通道域上進行拼接,這里Fi是語義分支第i階段的輸出特征經上采樣操作所得。拼接后的特征采用1×1 的卷積操作對通道維度進行壓縮,然后經過Sigmoid激活函數,將其輸出同上一層邊緣特征E在空間維度上點乘,得到相應的語義邊界。最后,將此邊界信息同E以通道拼接的方式得到下一層邊緣。該模塊利用邊緣特征抑制了語義特征中與邊緣無關的信息,并進一步豐富了邊緣信息。EFFM可被表示為:
式中,||為通道拼接操作,F為相關階段特征經上采樣及拼接操作后的輸出。值得注意的是,邊緣分支中第一個EFFM的語義特征只包含F1及F2,且其輸入梯度圖由輸入圖像經Canny檢測后所得,最后一個EFFM 的輸入語義特征為F4及F5。
在語義分割任務中,感受野過小會導致特征局部感知,感受野過大又會出現一些無用的信息,它們都會對網絡的分割性能造成不利影響。比較常用的方法是利用多尺度來克服上述缺陷,一些研究[14]也表明多尺度信息可有效地改善網絡性能。由于BiSeNet V3[7]中采用的短期密集拼接(STDC)模塊聚合了多個卷積操作的輸出特征,其輸出含有豐富的多尺度信息,因此AMEDNet的語義分支設計引入了該模塊。由于邊緣分支、全局注意力模塊及階段融合模塊的引入會額外增加浮點計算量而延緩網絡的推理速度,本節結合非對稱卷積對STDC模塊做了輕量化處理,將其稱為結合非對稱卷積的短期密集拼接(short-term dense concatenate module combined with asymmetric convolution,STDC-AC),具體情況見圖3。其中ConV表示卷積操作;M為輸入通道的維數;N為輸出通道的維數;AVGPool為平均池化。

圖3 STDC-AC結構示意圖Fig.3 Schematic diagram of STDC-AC structure
在圖3中,圖(a)可用于多尺度提取的特征映射,圖(b)可用于語義分支的下采樣過程。在對STDC進行輕量化處理后,模塊涉及的參數量為:
其中,M及N分別表示為模塊的輸入、輸出通道數,n為該模塊中隱藏層的數量。相較于STDC模塊,STDC-AC涉及的參數量更少。本節利用STDC-AC 模塊,重新設計了語義分支,詳細的設計細節如表1所示。

表1 語義分支各階段設計Table 1 Design of semantic branch at each stage
語義分支共包含五個特征提取階段,前兩個階段均采用步長為2的3×3卷積縮減特征尺寸,隨后利用步長為1的3×3卷積核完成特征映射。這兩個階段主要被用于提取淺層的低級信息。后三個階段為解碼過程的重要部分,它們均采用STDC-AC1 及STDC-AC2 進行設計:首先采用STDC-AC2 對輸入特征進行下采樣,然后采用兩個STDC-AC1來處理下采樣后的輸出。通常,深層應更多關注感受野及多尺度信息,而淺層需要足夠的通道來編碼細粒度信息,將深層的通道數目設置過大會導致信息冗余且不利于網絡的實時性。因此,本文在語義分支的前兩個階段設置的輸出通道數分別為32、64,與BiSeNet V3 網絡保持一致,后三個階段設置的通道數分別為128、256、256,而BiSeNet V3網絡中后三個階段的通道數分別為256、512、1 024,相比之下,本文在語義分支的深層提取的通道數要遠遠小于BiSeNet V3網絡。為了補充由于通道數減少而缺失的信息,本文設計了全局注意力模塊。
AMEDNet 在語義分支設置的輸出通道數不及BiSeNet V3 多,因此如何篩選出有用的特征來滿足分割質量是十分重要的。此外,語義分支在第四及第五階段損失了較多空間細節信息,為避免分割質量下降,一些網絡會采用跳躍連接[1]來彌補損失的細節信息,但這種方式無法對像素間的關系及通道間的重要程度建模。因此,AMEDNet 結合NLNet 空間注意力及SENet通道注意力設計了全局注意力模塊(GAM),其結構如圖4所示。

圖4 全局注意力模塊Fig.4 Global attention module
全局注意力模塊由通道注意力分支及空間注意力分支以并聯的方式融合而成,采用這種方式可以加快訓練時的收斂速度并避免過擬合現象。此外,它可在空間域及通道上重新衡量深層語義特征與目標任務的相關程度,從而使粗糙的特征圖能更好地符合分割任務,并實現分割效果的優化。
在AMEDNet 的解碼部分,采用了階段融合模塊(SFM)來聚合語義分支的相關特征,見圖5。首先SFM對經GAM處理的第五階段特征進行上采樣及3×3卷積操作,得到尺寸大小1/16的特征,隨后與經GAM處理的第四階段特征逐像素相加,最后再以同樣的方式同第三階段特征進行像素級相加。SFM 模塊經過以上操作后可用下面的公式來表示其輸出:

圖5 階段融合模塊Fig.5 Stages fuse module
式中,⊕表示像素級相加操作,xstage5-GAM為經上采樣操作的輸出,conv3×3及onv3×3(·)分別表示3×3 卷積及對·進行上采樣后再進行3×3卷積操作。
AMEDNet 設計的方法包括語義分支及邊緣分支,邊緣分支提取的邊界信息為低級信息,而語義分支的輸出特征為高級語義信息,若采用單一的交叉熵損失函數來指導網絡學習是不合理的,故在網絡訓練時,采用了聯合損失函數。其中對于語義分割任務,在加權交叉熵基礎上進一步改進,對于邊緣提取任務,則采用二進制交叉熵(binary cross-entropy,BCE)損失函數來指導該分支[15]。
采用交叉熵損失函數會導致網絡向著易分樣本方向學習,以致網絡對小目標的處理效果不佳。盡管加權交叉熵解決了數據集中各類別像素占比不平衡問題,但是從本質上來說,隨著訓練程度的加深,網絡的參數仍然會側重于向著易分樣本更新。這是因為當Softmax輸出概率值較大時,該像素被判別為數據集中易分樣本的可能性更高;反之,當輸出的概率值較小時,最后的預測輸出可能會將它忽略,但它可能對應的正是難分樣本,難分樣本在圖片中所占像素少,比例小,因此稱為小目標類別。Focal Loss[16]是一種處理樣本分類不均衡的損失函數,常用于解決二分類問題,它給易區分的樣本添加較小的權重,給難區分的樣本添加較大的權重,也就是增加小目標對象的類別權重,使得訓練時模型更多關注小目標對象。本節將Focal Loss 與加權交叉熵損失函數相融合,應用于多分類的語義分割任務中,改進的損失函數為:
式中,C為預測的通道數,X是各通道對應的像素空間,n是輸出的C個通道對應的所有像素數目總和,γ為聚焦參數,被用于聚焦難分樣本。ygt及yp分別表示數據集的真實標注及網絡的預測輸出。wi為各類別權重系數,用于改善類別不平衡問題,其定義為:
式中,c是一個額外的超參數,設置為1.12,pi表示每個類別的概率。通過上式,將易分樣本,例如道路、建筑、汽車等類別所占權重降低,將難分樣本,例如交通燈、行人、自行車等類別所占權重增加,以此來改善類別不平衡問題。
式(4)是對加權交叉熵損失函數的一種改進,對于易分樣本來說,yp(i)對應的值較大,引入該式會使它在總損失中的占比被削弱;反之,難分樣本產生的損失在總損失中的比值會有所提升,使得整個網絡更有利于小目標的訓練識別。對于邊緣提取任務,AMEDNet 采用了式(5)的二進制交叉熵損失函數來指導邊緣分支并更新相關參數。
式中,及分別表示為由真實標注生成的邊緣標注及邊緣分支對應的預測。由于數據集中的訓練集未提供邊緣標簽,故AMEDNet采用式(6)來獲取相應的二值化標簽,表示為:
式中,MaxPooling 為最大池化,θ為卷積核大小,它可控制邊界像素寬度,onehot 可將數據集中的語義標簽按0與1編碼。因此,最后聯合損失函數可被表示為:
式中,Lseg及Ledge分別為分割任務及邊緣信息提取任務的損失值。
AMEDNet設計的目的在于實現推理速度及分割精度平衡的前提下,提高數據集中小目標的分割精度及邊界清晰度,故在實驗中使用了網絡參數量、推理速度、平均交并比及各類別的交并比來進行評價。
本文設計的網絡是從自動駕駛場景的落地應用方面考慮的,因此實驗是在Cityscapes及CamVid兩個道路場景數據集上完成的。Cityscapes數據集被廣泛使用在圖像語義分割領域,該數據集包含2 975 個訓練圖像、500 個驗證圖像和1 525 個具有精確像素級注釋的測試圖像。注釋包括30個類,其中19個用于語義分割任務,圖像為1 024×2 048 的高分辨率,實驗中使用分辨率為512×1 024 的測試集圖像進行評估。CamVid 數據集為道路街景數據集,該數據集包含701 張注釋圖片,其中367 張訓練圖像、101 張驗證圖像和233 張測試圖像,并且有11 個類別用于語義分割任務,圖片的分辨率為720×960,實驗中使用分辨率為720×960 的測試圖像進行評估。
本文的實驗都是在1080Ti GPU 上執行的,Pytorch的配置環境是CUDA 9.0,cuDNN V7。為了充分利用GPU顯存,在訓練模型時,批處理大小被設置為8,動量為0.9,采用權重衰減為0.000 1 的優化器對模型進行優化。本文采用“poly”學習率策略,初始學習率設置為0.045,動量為0.9。由于本研究沒有采取任何的預訓練機制,訓練時epoch被設置為1 000。
另外,為更好地擬合網絡,提升模型的泛化能力,本研究采用了數據增強策略。隨機水平翻轉、隨機放縮等常用的數據增強策略被用于訓練過程,且隨機縮放因子為{0.75,1.00,1.25,1.75,2.00}。最后將圖片隨機裁剪成固定大小用以訓練。
本節首先在Cityscapes數據集上驗證了邊緣分支及GAM 對網絡性能的影響,然后在AMEDNet 及BiSeNet V3 上設置了一系列對比實驗來驗證網絡設計的有效性。下面對具體的實驗細節進行詳細的闡述及分析。
(1)邊緣分支驗證。為使物體的分割邊界更加清晰并改善小目標的分割精度,AMEDNet在解碼時,將邊緣分支提取到的邊界細節信息同階段融合模塊的輸出特征進行了逐像素相加操作,以彌補特征圖中與邊界及角落相關的信息。故本節通過實驗驗證了邊緣分支對網絡的性能影響,結果如表2所示。

表2 邊緣分支有效性驗證Table 2 Edge branch validity verification
從表2可知,含有邊緣分支的網絡在精度上提高了2.4 個百分點,驗證了邊緣特征融合模塊可以幫助語義特征濾除與邊界無關的信息,得到低級的粗粒度的語義邊界。此外,邊緣分支對網絡的前向推理速度不會產生太大影響,速度達到了118.6 FPS,這與現有的實時分割網絡的推理速度相比,依舊可觀。這是因為邊緣特征融合模塊在對語義分支特征進行通道拼接操作后,采用的1×1 卷積層直接將輸出通道設置為1,這種設計所包含的參數量及浮點運算量不會大量增加。因此,邊緣分支以較小的計算代價幫助解碼階段特征恢復了重要的邊界細節信息,有效地改善了分割效果。
(2)全局注意力模塊驗證。所提網絡的深層語義特征數量不及BiSeNet V3[7]且在解碼過程未利用淺層語義特征,為避免對分割精度產生影響,所提網絡采用了GAM來優化語義分支第五階段及第四階段的輸出。為驗證其影響,本節對是否添加GAM 及GAM 的添加位置做了相關實驗,結果如表3 所示。由表3 結果可知,Baseline 的平均交并比為72.9%,而在語義分支第四階段及第五階段單獨增加全局注意力模塊所產生的平均交并比分別提高了1.6 個百分點及0.8 個百分點,說明GAM有效地幫助語義分支特征實現了像素間的關系建模及通道域上的關注,改善了網絡的分割效果。由于第五階段損失的空間細節信息更多,GAM 的優化作用相對較弱,這也造成了Biseline+GAMstage4產生的分割精度高于Biseline+GAMstage5。盡管它們的參數量一致,但Biseline+GAMstage5對應的推理速度更快,其原因在于語義分支第五階段特征尺寸更小,相應的浮點計算更低所致。同時對語義分支第四階段及第五階段采用GAM處理的網絡Biseline+GAMstage4+GAMstage5獲得了74.9%的平均交并比及118.6 FPS的推理速度。相比之下,Biseline+GAMstage4+GAMstage5在推理速度及分割精度的平衡上更具優勢,故成為了AMEDNet設計采用的方案。

表3 全局注意力模塊有效性驗證Table 3 Validation of global attention module
(3)同BiSeNet V3 的對比驗證。為進一步探究網絡設計的合理性,本節將BiSeNet V3 解碼階段的特征優化模塊(ARM)替換為全局注意力模塊(GAM),并將其輸出結合階段特征融合模塊(SFM)設置了消融對比實驗,結果如表4及圖6所示。

圖6 同BiSeNet V3的消融可視化對比Fig.6 Ablation visualization comparison with BiSeNet V3
由表4可知,AMEDNet以1.78×106的參數量獲得了74.9%的平均交并比。這是因為采用拉普拉斯算子會導致梯度圖產生與邊界無關的噪聲,且邊緣信息直接被融合進語義分支,導致兩分支之間缺乏信息交互,從而限制了分割精度。在STDC2 的基礎上,增加GAM、SFM能夠對深層語義特征在空間域及通道域上進一步優化,故其精度提高了0.4 個百分點。但在上采樣過程中,GAM、SFM 處理的通道數為1 024 及512,而ARM 則是先采用3×3的卷積將通道數降維到128后再進行通道域關注。相比之下,STDC2+GAM+SFM 的運算量會顯著增加,故其推理速度受到了顯著影響。為避免GAM、SFM 影響網絡的實時推理,AMEDNet 縮減了深層語義特征數目,但其分割精度仍然高于STDC2+GAM+SFM,表明融合語義分支特征的邊緣分支獲得了更為充分的邊緣細節信息,且該分支的設計比BiSeNet V3 更為有效。圖7 進一步給出了AMEDNet 邊緣分支的輸出特征,由可視化結果可知,在語義特征及梯度圖的共同作用下,邊緣分支獲得了很好的邊緣掩碼,解碼階段依靠該信息可有效地恢復出與細節相關的信息,從而提高網絡最終的分割精度。

圖7 邊緣分支預測可視化效果Fig.7 Visualization of edge branch prediction
前兩組實驗驗證了邊緣分支及GAM 模塊的有效性,第三組消融對比實驗進一步表明GAM 對精度的提升作用大于ARM,且AMEDNet采用邊緣分支獲得的邊緣細節信息對網絡的精度提升優于BiSeNet V3[7]。此外,當面臨真實交通環境時,AMEDNet仍可采用邊緣信息指導網絡預測,相較于BiSeNet V3,本文所提方法具備更高魯棒性。
為驗證所提網絡AMEDNet 的高效性,本節在相同實驗條件下,選取了現階段幾種優秀的算法模型進行對比分析,這些網絡分別為ENet[17]、ERFNet[18]、ESPNet[19]、ESNet[20]、DABNet[21]、LEDNet[22]、LADNet[5]、DSNet[23]、STDC2(BiSeNet V3[7]中提出的網絡)。實驗結果如表5 及圖8所示,從精度上看,AMEDNet獲得了74.9%的平均交并比,高于所有的對比模型,LADNet[5]和DSNet[23]分別低于AMEDNet 3.8個百分點和5.6個百分點。本文模型獲得優異精度的原因有三點:首先,邊緣分支有效地彌補了邊緣細節信息,使得分割邊界更加清晰;其次,STDC模塊聚合了多尺度信息,且GAM 對深層特征做了進一步優化;最后,本文改進的損失函數會使網絡參數向著利于難分樣本的方向訓練,提高了小目標的精度。圖8的可視化效果也對其進行了很好的驗證。在推理速度方面,AMEDNet也表現出巨大優勢,取得了118.6 FPS,僅低于STDC2,因為GAM、SFM 對深層特征(通道數多)處理時涉及大量運算量,顯著影響了網絡推理速度,但速度仍然高于其他對比模型。從參數量來看,所提模型擁有1.78×106的參數,是LADNet[5]和DSNet[23]的接近兩倍,但其他指標明顯低于所提模型。綜上所述,AMEDNet更能較好地兼顧精度和推理速度。

表5 Cityscapes數據集上的性能對比Table 5 Performance comparison on Cityscapes dataset

圖8 Cityscapes數據集上的可視化效果Fig.8 Visualization on Cityscapes dataset
表6 進一步給出AMEDNet 在Cityscapes 測試集上的各類別交并比。由表中數據可知,所提網絡在Sidewalk、Pole和Traffic Light等難以分割的小類別上獲得明顯的精度提升。可見提出的模型在提升小目標的分割精度上做出了貢獻,在簡單場景上性能表現也較為優越。
為驗證所提網絡的泛化能力,在另一個常用的數據集CamVid 上進行了相關評估實驗。實驗結果如表7和圖9 所示,精度上,AMEDNet 優于其他對比模型,與LADNet[5]相比,精度提高4.3 個百分點;推理速度上,所提模型有著105.9 FPS的高處理速率,雖然略低于STDC2,但AMEDNet 仍以較高的推理速度獲得了0.2 個百分點的精度提升,并且參數量遠小于它;在參數量上,雖然AMEDNet 的參數量是最小參數量的5 倍,但所提模型的其余指標更優。綜上所述,AMEDNet的平衡性更好,在資源受限的硬件設備上,所提網絡更有優勢。圖9的可視化對比也表明,AMEDNet在例如柱子(圖中黃色虛線框區域)等類別上的分割效果更好,且邊界相對更為流暢。

表7 CamVid數據集上的性能對比Table 7 Performance comparison on CamVid dataset

圖9 CamVid數據集上的可視化效果Fig.9 Visualization on CamVid dataset
由于AMEDNet 面向的是智能駕駛場景,它在真實環境下對圖像的處理效果是值得關注的重點。因此,本節利用學校附近拍攝的幾張道路場景圖片做了進一步對比,其分割效果如圖10。
在第一行對比圖中,黃色虛線框對應的遠方區域被進一步放大。從結果來看,STDC2 對遠方柱子的分割出現了斷續,而AMEDNet 卻能夠完整地分割出來。此外,由其他幾組對比圖可知,本文所提方法在物體的分割邊界上,明顯優于其他網絡。由此證明,AMEDNet在真實環境中,依靠邊緣信息指導所產生的分割效果更好。
本文提出了一種基于注意力及邊緣檢測的雙流語義分割網絡AMEDNet,它是對BiSeNet V3 的一種改進。首先,邊緣特征融合模塊結合多個階段的語義特征,豐富了邊緣信息,并在解碼時幫助特征有效地恢復了邊界細節。其次,全局注意力模塊在通道及空間維度上對特征重要程度及像素間關系進行建模,增強了特征信息間的全局相關性,并使用階段融合模塊來聚合經GAM 處理的優化特征。最后,為改善小目標的分割精度,在加權交叉熵基礎上,將Focal Loss 應用到多分類的語義分割任務中,使網絡能夠向著利于小目標分割的方向更新參數。實驗表明,AMEDNet 在保證推理速度及分割精度平衡的前提下,改善了邊界清晰度及小目標分割精度,并在真實的道路場景下仍具有很高的魯棒性。盡管本文方法在小目標的分割精度上取得了一定進步,但是其分割精度仍然較低。有些小目標對應的類別在自動駕駛場景中十分重要,因此如何利用有效的方法進一步提高精度仍然具有十分重要的研究意義。此外,運用于自動駕駛的網絡模型往往在一些資源受限的設備上,因此設計的網絡應該考慮在嵌入式平臺上評估性能。