范康,鐘銘恩,譚佳威,詹澤輝,馮妍
(1.廈門理工學院 福建省客車先進設計與制造重點實驗室,福建 廈門 361024;2.廈門大學 航空航天學院,福建 廈門 361102)
語義分割和深度估計是交通場景感知極為重要的2 個視覺任務.前者對圖像進行像素級語義分類,精確定位道路、障礙物和行人等關鍵區域,實現場景語義解析;后者推理圖像中每個像素相對于拍攝源的距離,描述場景中物體的空間幾何位置關系.兩者分別從2 個不同的層次對交通場景進行理解,2 種任務感知信息的結合可以為車輛自動駕駛的路徑規劃和行車安全性提供豐富可靠的數據支撐.因此,研究高效、精確的交通場景語義分割和深度估計算法有著重要的現實意義和應用價值.
隨著深度學習技術的不斷發展,學者針對交通場景語義分割[1-3]和單目深度估計[4-6]開展的研究取得了一定成果.傳統上,研究人員側重于先提升單任務算法的性能,再進行任務級聯感知.這不但容易出現龐大的內存占用和推理延遲,而且忽視了場景語義信息和幾何位置信息的相關性[7],導致算法性能受限.多任務學習[8-9]因此成為更具吸引力的解決方案,它具有更高效的內存優勢和計算結構,還可以利用任務間的顯式或隱式相關性來提高模型性能[10].
現有多任務網絡模型主要采用編碼器-解碼器架構,任務解碼器共享編碼器,并在解碼過程中設計特定模塊學習特定任務特征和引導跨任務特征交互.例如:PAD-Net[11]引入多任務信息蒸餾模塊來從各任務中提取多模態信息,再將提取的信息作為殘差添加到任務解碼分支中,實現跨任務信息融合;MTI-Net[12]采用多尺度多模態蒸餾策略擴展PAD-Net,通過明確建模每個單獨尺度上獨特的任務信息交互,提升了語義分割和深度估計的性能;Zhou 等[13]提出以親和力模式為指導的多任務交互學習網絡,利用全局空間注意力來增強各分支任務的特定表示,并基于注意力權重構建任務間的親和力模式矩陣,引導跨任務交互信息提取和融合.這些模型在網絡搭建過程中大量采用卷積運算,受到卷積局部感受野的限制,基于卷積神經網絡(convolutional neural network,CNN)的方法對全局信息建模能力不足,跨任務信息交互能力存在局限性,因此模型性能難以進一步提升.受益于Transformer[14]特有的全局和動態建模能力,越來越多的研究人員將Transformer結構引入多任務網絡,彌補了CNN 方法在長程依賴關系和跨任務相關性建模方面的不足.例如:VPT[15]采用基于自注意力機制的跨任務特征交互模塊,實現了更深層次的跨任務信息傳播,有效增強了網絡的特征抽取能力.Ye 等[10]將Transformer作為主干結構引入多任務密集預測網絡,實現同時建模空間和跨任務全局上下文關系,大幅提高了多任務密集預測網絡的整體性能.這些方法都在不同程度上實現了全局模式下的跨任務信息交互,但任務間的相關性建模仍不夠明確.這可能會導致任務間傳遞的語義信息無法達到期望,嚴重時甚至給任務表示本身帶來不必要的噪聲.
針對上述問題,本研究提出新的多任務環境感知算法SDFormer,用于實現交通環境語義分割和深度估計的聯合感知.主要工作包括:1)利用Transformer 編碼器提取輸入圖像的通用多尺度特征.2)基于交叉注意力機制提出雙向跨任務注意力模塊,用來明確建模特定任務表示之間的全局相關性,引導任務間互補模式信息自適應提取和傳輸,達到充分利用語義信息和深度信息的模式相關性來提高網絡整體性能的目的.3)結合重采樣操作構建多任務Transformer,以較低的計算成本增強網絡對各任務全局語義信息的關注;隱式建模跨任務全局相關性,進一步促進任務間互補信息的交互融合.4)設計編-解碼融合上采樣模塊,逐步生成精細的高分辨率特定任務特征用于最終預測;在公開數據集Cityscapes 上開展所提算法的性能驗證實驗.
如圖1 所示為SDFormer 的總體框架,該網絡由任務特征編碼網絡和2 個特定的任務解碼器組成,特征的傳播和推理通過逐層解碼以及跨任務交互式學習的方式實現.任務特征編碼網絡用于提取語義分割和深度估計分支的特定任務特征,并將提取的特定任務特征傳遞給對應的任務分支解碼器.2 個特定任務解碼器結構相似,都由雙向跨任務注意力模塊(bidirectional cross-task attention,BCTA)、多任務Transformer 模塊(multi-task Transformer,MT-T) 和編-解碼融合上采樣模塊(encoder-decoder fusion upsampling,EDFU)組成.該解碼器的工作原理:1)通過BCTA 挖掘特定任務特征的互補模式信息,優化特征本身的信息層次結構;2)利用MT-T 增強各特定任務特征的全局上下文信息,并進行特征之間的隱式交互;3)利用EDFU 對解碼過程中傳遞的特定任務特征進行上采樣,并通過跳躍連接融合編碼階段的空間細節信息,生成高分辨率的細粒度特定任務特征;4)將這些高分辨率特征傳入各任務分支的解碼頭,進行深度估計和語義分割的任務推理.

圖1 SDFormer 的整體結構Fig.1 Overall structure of SDFormer
通過自注意力機制Transformer 可以有效建模圖像像素之間的長距離依賴關系,捕獲輸入圖像的全局上下文信息,減少細節特征的丟失.Liu等[16]提出具有層級結構的通用視覺骨干Swin-Transformer,將自注意力計算限制在不重疊的局部窗口中,并進行跨窗口連接,使算法復雜度僅與圖像大小線性相關并具備全局感受野.本研究將Swin-Transformer 作為編碼器來提取輸入圖像的通用多尺度特征,以保留輸入場景的粗略和精細細節.各任務分支的卷積塊由3×3 卷積、批歸一化層(BN)和ReLU 層組成,作用是進一步解析編碼器的輸出特征來生成特定任務特征.單一尺度的編碼器輸出特征包含的信息結構缺乏多樣性,如果直接輸入各任務分支卷積層將難以產生具有任務感知的特定任務特征.為此,采用多尺度特征聚合生成信息結構豐富的融合特征,以增強特定任務特征信息豐富度,提高后續任務特征交互過程中信息傳導質量.為了盡可能承載不同尺度特征細節信息,并避免高分辨率的特征在網絡解碼過程中直接傳遞而增加網絡計算復雜度,以輸入圖像分辨率的1/16 作為多尺度特征聚合的輸出分辨率.通過特征聚合網絡(path aggregation networks,PAN)結構將1/4 和1/8 尺度的淺層特征空間細節信息匯聚到1/16 尺度特征.與此同時,將包含高級語義信息的1/32 尺度的最小分辨率特征通過雙線性插值進行2 倍上采樣,然后與信息匯聚后的1/16 尺度特征沿通道維度進行拼接,再經過卷積層生成融合空間細節信息和語義信息的特征F.將F傳入各任務分支卷積塊,生成信息結構豐富的初始特定任務特征{Fs,Fd}∈RH×W×C,其中H、W分別為1/16 尺度特征圖的高度和寬度,C為特征的通道數.
深度估計和語義分割都屬于逐像素密集預測任務,在幾何和語義上具有強相關性[7].在語義分割任務中,引入深度信息可以幫助區分紋理相似但位于不同深度的區域,減少錯誤分類.同理,在深度估計任務中,語義類別信息可以改善相似深度但屬于不同物體處的邊界模糊情況.這2 個類別任務聯合訓練可以相互提供指導信息和互補信息[17].本研究提出的BCTA 能夠有效地甄別任務間的有利信息來進行指導和優化,通過明確地建模語義分割和深度估計任務間的全局相關性,引導任務間互補模式信息的自適應提取和融合.BCTA 的內部結構如圖2 所示.

圖2 雙向跨任務注意力模塊的結構圖Fig.2 Overall structure of bidirectional cross-task attention module
以語義分割分支為例,進行BCTA 的工作原理闡述.語義分割分支的目標是在分割特征空間下,利用深度估計和語義分割任務之間的相關性矩陣,從分割特征中挖掘有利于深度估計任務的模態信息.采用多頭交叉注意力機制搭建任務間信息傳播的橋梁,以建模跨任務全局相關性.具體而言,對于語義分割和深度估計分支的輸入特征Fs、Fd,分別沿空間維度進行展平變形為RN×C,其中N=H×W;經過LayerNorm 層(LN)和線性投影層處理后,生成各任務分支交叉注意力操作所需的矩陣[Qs,Ks,Vs]和[Qd,Kd,Vd],并據此計算空間全局相關性權重矩陣Ws→d∈RN×N,表達式為
深度估計分支以對稱和雙向的方式實施跨任務互補特征提取步驟,同樣能夠從深度特征中捕獲向語義分割分支傳遞的有利信息特征Xd→s∈RN×C,將任務之間傳遞的有利信息特征作為殘差與原始特定任務特征進行疊加融合,并通過多層感知機進行信息整合,得到各任務分支交互融合后的輸出特征,表達式分別為
式中:MLP()為多層感知機.BCTA 通過交叉注意力機制表征特定任務表示之間的關聯屬性,使得網絡在特征交互過程中能夠高效合理地提取任務之間互補模式信息,減少噪聲和冗余信息的干擾,緩解任務優化目標沖突引起的性能下降情況.
如圖3 所示,MT-T 利用自注意力機制增強各特定任務特征的空間全局上下文表征能力,并隱式建模跨任務全局相關性,以促進網絡學習任務之間互補模式信息.圖中,Porj 為線性投影.MT-T的輸入為經過模型總體框架中第1 個EDFU 上采樣后的高分辨特定任務特征{Fs1,Fd1}∈R2H×2W×C.將Fs1、Fd1從空間維度上展平并拼接形成多任務特征序列Fc∈R8N×C;再利用LN 對Fc進行歸一化,作為后續自注意力機制計算的輸入.

圖3 多任務Transformer 模塊的結構圖Fig.3 Overall structure of multi-task Transformer module
在標準多頭自注意力機制(multi-head selfattention,MHSA)中,計算復雜度與輸入特征序列長度成平方倍關系.利用高分辨率多任務特征序列計算全局自注意力,內存占用和計算開銷非常大.為此,借鑒InvPT[10]中MHSA 的計算方法,MT-T 通過降低查詢矩陣Q、鍵矩陣K和值矩陣V的特定維度來減少MHSA 的計算復雜度.具體來說:將Fc拆分并重構成對應任務的空間特征圖R2H×2W×C;利用卷積對每個任務特征圖的Q進行降維,利用均值池化降低K、V的維度.以Wq、Wk、Wv表示圖3 中3 個線性投影層的參數矩陣,則
式中:Conv()為核大小為3、步距為2 的下采樣卷積;Pool() 為核大小為4 的下采樣均值池化;Flat()為將下采樣后的任務特征圖在空間維度上展平并拼接,以重新形成多任務特征序列.據此,可以得到注意力特征Am∈R(8N/4)×C,表達式為
Am不僅能夠捕獲各特定任務特征本身的全局上下文信息,還融合了特征間隱式交互所產生的互補模式信息.為了與Fc執行殘差連接,須恢復Am空間尺度與Fc對齊.將Am拆分并重塑為對應任務空間特征圖RH×W×C;再執行雙線性插值,將分辨率擴大2 倍;最后將對應任務空間特征圖展平并連接,形成尺度恢復后的注意力特征Am′∈R8N×C.將Am′和Fc進行逐元素相加,再通過LN 和MLP 層進一步處理,得到細化后的多任務特征Fc′∈R8N×C.將Fc′拆分并重塑為對應任務空間特征圖R2H×2W×C,得到MT-T 各任務分支輸出特征.
為了產生精細的高分辨率特定任務特征,增強不同任務對于物體邊界和小物體的信息處理能力,結合編碼部分的淺層細節特征構建EDFU,其具體結構如圖4 所示.

圖4 編-解碼融合上采樣模塊的結構圖Fig.4 Overall structure of encoder-decoder fusion upsampling module
EDFU 的輸入由2 個部分組成:1)網絡模型編碼器中對應尺度的空間細節特征Fe,2)待上采樣的特定任務特征Ft.將Fe經過3×3 卷積和BN 處理,得到空間細節信息被強化的特征對Ft利用雙線性插值方法進行2 倍上采樣,再分為2 個分支進行處理:1)通過1×1 卷積、BN 和激活函數Sigmoid 產生任務感知語義權重Iatt,2)通過1×1卷積、BN 生成信息重構后的特定任務特征以上3 個分支的輸出具有相同的特征維度大小,通道數被調整為輸入特定任務特征Ft的一半.最終,通過Fe′和Iatt逐像素相乘使得編碼器空間細節信息注入特定任務特征當中,將乘積與Ft′進行逐像素相加,得到包含空間細節信息的特定任務特征Z,表達式為
EDFU 在對特定任務特征進行上采樣的同時,能夠有效地融合編碼部分空間細節信息,增強特定任務特征精細程度,提高網絡模型語義分割和深度估計精確度.
針對語義分割任務,采用交叉熵作為網絡訓練損失函數.針對深度估計任務,采用berHu[18]作為網絡訓練損失函數,計算式為
式中:di為像素i處的預測深度和真實深度的差值,δ=0.2max(|di|).將網絡模型的總損失定義為深度估計損失Ls和語義分割損失Ld的加權和,計算式為
式中:α 為平衡2 種任務損失對網絡影響的權重參數.在實驗中,當 α=50 時,能夠最大程度地平衡任務損失量級,使網絡取得較好的整體性能.
實驗采用廣泛使用于交通場景理解的大規模數據集Cityscapes[19].該數據集收集自50 多個不同城市的街道場景,分別有2 975、500 和1 525 張精細標注的圖像用于訓練、驗證和測試.Cityscapes共標注19 個語義類別用于語義分割任務,提供與RGB 圖像相對應的視差值標簽用于深度估計任務.由于Cityscapes 并未公開測試集部分的真實標簽,不利于不同算法之間的性能對比,本研究涉及的消融和對比實驗都在Cityscapes 的驗證集上完成.
實驗主機的操作系統為64 位 Windows10,硬件采用Intel(R) Core(TM) i7-10700K CPU 和NVIDIA GeForce RTX 3090 顯卡.算法開發環境采用Python 3.7 和 PyTorch 深度學習框架.模型訓練,使用在ImageNet-22 上預訓練的Swin-Transformer權重對模型編碼器進行參數初始化,特定任務特征通道數初值設置為512.采用Adam 優化器,初始學習率設置為4.0×10-5,權重衰減率設置為1.0×10-6,學習率衰減策略選擇指數衰減.不同對比模型都在數據集上進行45 000 次迭代訓練,批處理大小設置為4.數據加載和預處理時,將圖像的像素大小從2 048×1 024 調整為1 024×512,并通過隨機縮放、翻轉、扭曲等操作對數據集進行幾何增強,以及隨機調整圖片的飽和度、亮度進行光照增強.
選擇平均交并比MIoU 作為分割性能的評價指標,計算式為
式中:n為類別總數,tij為將第i類真實類別預測為第j類的像素數量.選擇平均平方根誤差RMSE和絕對相對誤差ARE 作為深度估計性能的評價指標,計算式分別為
式中:N為圖像像素總數,yi、分別為在像素i處的真實深度值和預測深度值.選取參數量Np和每秒浮點運算數GFLOPs 衡量模型的內存占用程度和計算復雜度,采用每秒傳輸幀數f衡量模型的推理速度.
為了分析所提模塊對SDFormer 的性能影響,進行消融實驗,實驗模型編碼器均使用Swin-S,結果如表1 所示.表中,STL-Seg 和STL-Depth 分別表示關于2 個任務的單任務基線模型,由編碼器和多尺度特征聚合解碼器[20]組成;MTL 表示任務特征編碼網絡和2 個任務特定解碼頭組成的多任務基線模型;其余實驗模型均表示在MTL 上逐步添加對應模塊.可以看出:1)相較于基線模型MTL,添加BCTA 后,語義分割的MIoU 明顯提升,且深度估計的RMSE 和ARE 均大幅下降.這表明BCTA 能夠充分建模任務相關性來挖掘和利用任務間的互補模式信息,增強網絡對任務特定信息的感知能力.2)在BCTA 基礎上添加MT-T 后,MIoU 增加1.2 個百分點,RMSE 和ARE 分別降低0.134 和0.025.這表明MT-T 能夠促進網絡學習任務間的互補模式信息,強化各特定任務特征的全局語義信息表征能力.3)進一步添加EDFU 后,模型各任務性能指標都達到最優值.這表明EDFU可以有效地融合空間細節信息和任務語義上下文信息,提高不同任務中對物體細節的表達能力.綜上可知,相較于基線模型MTL,SDFormer 的語義分割MIoU 從73.2% 提升到77.6%,深度估計RMSE 和ARE 分別從5.355 和0.227 下降到4.781 和0.156.這證明所提算法可以充分挖掘和利用任務之間相關信息,達到任務之間相互補充和相互約束的目的,顯著提高各任務性能.相比單任務基線模型STL-Seg 和STL-Depth,SDFormer 表現出明顯的性能優勢,參數量和計算量分別增加48%和21%.符合多任務模型在降低內存占用和不顯著增加計算復雜度的情況下,依然保持較優的整體性能的預期目標.

表1 SDFormer 消融實驗結果Tab.1 Results of SDFormer ablation experiments
如圖5 所示為MTL 和SDFormer 關于語義分割任務的推理結果對比.可以看出,與MTL 相比,SDFormer 的分割結果更平滑,對小尺度物體的分割精度更高,物體細節信息的展現能力更強.以第3 行場景中虛線框標注為例,MTL 對細長類路牌桿的分割有明顯缺損,而SDFormer 的分割結果更精確.如圖6 所示為MTL 和SDFormer 關于深度估計任務的推理結果對比.與MTL 相比,SDFormer預測的深度圖細節更清晰,可以更好地恢復物體的輪廓邊界.以第3 行場景中虛線框標注為例,MTL 能夠大致地估計出該區域內的深度邊界,但較為模糊;SDFormer 的視覺效果更好,能夠較為清晰地恢復自行車的輪廓細節.綜合分析可知,通過利用任務之間的潛在關系,可以使網絡模型各任務分支提取到更具判別性的特征,獲得更精細的分割結果和深度估計結果.

圖5 MTL 與SDFormer 的語義分割效果對比Fig.5 Comparison of semantic segmentation effects between MTL and SDFormer

圖6 MTL 與SDFormer 的深度估計效果對比Fig.6 Comparison of depth estimation effects between MTL and SDFormer
為了進一步驗證BCTA 的有效性,將BCTA從SDFormer 中移除,替換為Zhang 等[15]提出的特征轉換模塊(feature pattern transformation,FPT)和結構轉換模塊(structure pattern transformation,SPT)作為對照組進行模塊性能對比.這2 種特征交互模塊在引導跨任務信息交互的相關性建模上與BCTA 存在較大的差異,其中FPT 利用自注意力機制挖掘任務內重要模式信息進行跨任務傳播,SPT 利用表征任務內重要模式信息的自注意力權重構建任務間親和力模式矩陣,引導跨任務信息交互.實驗結果如表2 所示.可以看出,相比FPT 和SPT,使用BCTA 的SDFormer 在2 個任務上都取得了更好的性能,原因是BCTA 在不同任務特征模式下都可以更明確地建模任務間的全局相關性,使得在跨任務特征交互過程中,任務之間能夠傳播更豐富、更有意義的信息流,減少噪聲和冗余信息帶來的干擾,實現更高的預測置信度.

表2 不同雙向跨任務特征交互模塊的性能對比Tab.2 Performance comparison of different bidirectional cross-task feature interaction modules
為了驗證MT-T 的合理性和有效性,進行模塊拆解和實驗對比.SDFormer-noT 為從SDFormer中去除MT-T 的模型;SDFormer-s 為采用普通Transformer 替換MT-T 的模型,為了盡可能與SDFormer 進行公平比較,替換的Transformer 層參照PVT[21]的下采樣倍率設置,并利用池化層對鍵、值矩陣進行降維處理以減少自注意力計算復雜度;SDFormer-noD 為取消了MT-T 內部重采樣降維處理操作的SDFormer,對比實驗結果如表3 所示.由表可知:1)在各任務分支中添加Transformer 層后,模型各任務性能均獲得提升.這表明Transformer層可以有效捕獲全局語義信息,增強網絡特定任務特征的信息表達能力.2)使用MT-T 的SDFormer能夠取得更加優異的整體性能.原因是該模塊可以同時建模全局空間依賴性和跨任務相關性,在捕捉全局語義信息的同時,還能實現跨任務特征交互,融合任務之間互補模式信息,實現更好的性能提升效果.3)當MT-T 不含重采樣降維處理時,對模型整體性能提升效果不明顯,卻大幅提高了計算復雜度,使模型推理速度變慢;相比之下,采用重采樣降維處理的MT-T 不僅能夠有效地提升模型的推理速度,還能維持模型中各任務預測精度.

表3 多任務Transformer 模塊消融實驗結果Tab.3 Results of multi-task Transformer module ablation experiments
為了探究不同類型編碼器對模型性能的影響,分別將含有不同參數量的ResNet[22]和Swin-Transformer 作為本研究算法的編碼器,進行編碼器的性能對比實驗,結果如表4 所示.結果表明:使用Swin-S 和使用ResNet101 的模型參數量相差不大,使用Swin-S 的模型在2 個任務上的預測性能均優于使用ReNet-101.主要原因是Transformer 結構擁有全局感受野,使得模型擁有更充分的全局上下文信息和更充沛的空間信息,在任務之間交互促進過程中,可以結合全局語義信息傳播更有意義的信息流.此外,同系列中參數量越大的編碼器特征提取能力越強,獲得的性能提升效果越明顯.

表4 不同編碼器的性能對比實驗結果Tab.4 Experimental results of performance comparison for different encoders
通常情況下,相比使用多個單一任務網絡級聯工作,使用多任務網絡能夠大幅降低參數規模和計算量,但多數情況下后者在各個任務上取得的性能指標不如前者.為了探明SDFormer 與現有主流單任務模型的性能差異,分別在各個任務上開展對比實驗.在語義分割任務中,主要對比對象為PSPNet[23]、SETR[24]、SegFormer[20]和Mask2Former[25],結果如表5 所示.在單目深度估計任務中,選擇Lap-Depth[5]、DepthFormer[6]和pixelFormer[26]作為對比,結果如表6 所示.可以看出:1)相比于更具針對性的單任務網絡模型,SDFormer 同時推理語義分割和深度估計2 個任務,導致任務間存在資源競爭,因此在語義分割任務和深度估計任務各性能指標上僅處于中等水平,不具備明顯優勢.不過,得益于不同任務間互補模式信息的交互融合,任務之間可以進行相互指導和優化,因此綜合性能仍具有較好的競爭力,尤其是在深度估計任務上的RMSE 指標與當前性能最優的pixelFormer 相比僅高出0.227.2)SDFormer 僅進行一次推理即可實現2 個單任務網絡協同工作才能完成的感知目標,耗用的總計算資源大幅減小.

表5 SDFormer 與單任務算法的語義分割性能對比Tab.5 Comparison of semantic segmentation performance between SDFormer and single-task algorithms

表6 SDFormer 與單任務算法的深度估計性能對比Tab.6 Comparison of depth estimation performance between SDFormer and single-task algorithms
為了進一步驗證SDFormer 的綜合性能,進行多任務網絡性能實驗對比.對比的經典多任務網絡包括采用CNN 架構的MTAN[27]、PAD-Net[11]、PSD-Net[13]、MTI-Net[12]和采用Transformer 架構的當前性能較優的InvPT,結果如表7 所示.可以看出:SDFormer 在語義分割和深度估計任務的性能指標上均優于基于CNN 架構網絡模型,特別是對于深度估計任務,性能獲得大幅提升,與CNN 架構體系中較優的MTI-Net 相比RMSE 和ARE 分別降低12.6%和32.0%.與將Transformer 架構引入多任務密集預測領域的InvPT 相比,SDFormer 的語義分割MIoU 提高了1.4 個百分點,深度估計RMSE 和ARE 分別降低3.7%和14.2%,且在使用相同編碼器的情況下參數量和計算量分別減少了14.7%和42.7%.結果表明,SDFormer 在聯合學習語義分割和深度估計2 個任務上相比現有算法有更為先進的整體性能.

表7 不同多任務算法的性能對比結果Tab.7 Performance comparison results of different multi-task algorithms
如圖7 所示為SDFormer 與次優算法InvPT 在語義分割任務上的推理結果差異.在虛線框指示的易混淆類別區域中,InvPT 將地形類別大面積地錯判為植被類別,將自行車類別錯判為摩托車類別,將人行道類別錯判為植被類別.相比而言,SDFormer 關于地形類別的錯判面積大幅減小,且對于自行車類別和人行道類別不存在錯判.如圖8所示為SDFormer 與InvPT 在深度估計任務上的推理結果差異.可以看出,SDFormer 能夠保留更多的細節信息,使得場景中較遠處物體的輪廓更加清晰和完整.以圖中第1 行虛線框指示區域內的電線桿為例,InvPT 推理出的深度信息出現明顯的缺損,SDFormer 推理出的深度信息則更加完整和連續.

圖7 SDFormer 與InvPT 的語義分割效果對比Fig.7 Comparison of semantic segmentation effects between SDFormer and InvPT

圖8 SDFormer 與InvPT 的深度估計效果對比Fig.8 Comparison of depth estimation effects between SDFormer and InvPT
為了更加直觀地驗證所提算法對交通場景深度估計的有效性和適應能力,從驗證集中隨機抽樣100 張圖像,針對圖像中5 類主要的交通參與者,分別計算各類別目標真實距離與預測距離之間的平均相對誤差.考慮到同一目標物體的各部分到車輛的真實距離一般存在差異,出于碰撞安全考慮,僅針對該目標物體中距離攝像機較近的20%部分的像素進行統計分析,取平均值作為該目標與攝像機的距離.根據雙目成像原理,像素所表示的距離計算式為
式中:b為雙目相機的瞳距,f為相機焦距,d為視差值.由式(14)可分別計算出第i個目標與攝像頭的真實距離Di(c) 和模型預測距離(c),其中c為目標的類別,各類別目標距離估計平均相對誤差計算式為
式中:Nc為第c類目標的樣本總數.如表8 所示為各對比模型對5 種主要類別的MRE,其中mMRE 為各類別MRE 總和的平均值.可以看出,SDFormer 針對5 個典型類別的交通參與者的綜合距離估計取得了最小相對誤差,為6.1%,優于現有主流多任務算法.除car 類別的MRE 指標取得次小值外,其余類別均取得最小值,表明所提算法對交通場景中典型交通參與者的深度估計具備優越性和有效性.

表8 不同多任務算法的距離估計誤差對比結果Tab.8 Comparison of distance estimation errors of different multi-task algorithms
如表9 所示為SDFormer 針對這5 類典型交通參與者處在不同距離范圍時的距離估計誤差.結果顯示,當目標距離不同時,算法針對5 類典型交通參與者距離估計誤差有所不同.當目標處于小于20 m 的近距離時,mMRE 取得最小值,為4.1%;當目標處于20~50 m 的中距離時,mMRE=5.3%;當目標處于大于50 m 的遠距離時,mMRE 取得最大值,為10.8%.這說明,目標距離攝像頭越近,算法的距離估計誤差越小.

表9 SDFormer 在不同距離范圍的距離估計誤差Tab.9 Distance estimation errors of SDFormer in different distance ranges
可視化列舉展示SDFormer 針對不同距離范圍的5 類典型交通參與者的距離預測效果如圖9所示,其中上、下數據標簽分別表示真實距離值和預測距離值.由圖中數據可以看出,所提算法對處在不同距離范圍內的目標都具有良好的距離預測能力.

圖9 SDFormer 在不同距離范圍的距離預測效果展示Fig.9 Display of distance prediction effects of SDFormer in different distance ranges
本研究提出基于Transformer 的多任務環境感知算法SDFormer,用于聯合執行交通場景語義分割和深度估計,旨在充分利用任務之間的相關性來提高多任務模型整體性能.SDFormer 利用Swin-Transformer 編碼器提取輸入圖像的多尺度特征,采用多尺度特征聚合策略增強深層特征表示,促進了初始特定任務特征的有效提取.在任務解碼過程中,提出雙向跨任務注意力機制BCTA 來顯示建模任務間的全局相關性,引導任務之間有效地挖掘并利用互補模式信息,達到相互指導和優化的目的;構建多任務Transformer 模塊MT-T 來增強特定任務特征的空間全局表示,隱式建模跨任務全局上下文關系,進一步促進了任務之間交互信息融合;設計編-解碼融合上采樣模塊EDFU來實現對特定任務特征進行上采樣的同時有效融合空間細節信息,獲得了更精細的輪廓分割結果和深度估計結果.在Cityscapes 數據集上開展的大量實驗表明:與現有多任務算法相比,所提算法在2 個視覺任務:交通場景語義分割和深度估計上都取得了更先進的性能.未來的研究內容考慮將目標檢測任務融入多任務模型中,實現對交通場景更加全面的信息感知.