

















摘" 要: 針對目前智能農機在鄉村復雜環境下行駛時對周圍特征識別精度不足的問題,以鄉村道路場景為研究對象,提出一種改進PP?LiteSeg模型。首先使用STDC對圖像特征進行提取,在保證輕量化的同時確保特征信息完整;然后將條形池化引入簡單金字塔模塊,加強特征的提取能力,并將坐標注意力加入統一注意力融合模塊,進一步加強多尺度特征的融合,捕獲更為豐富的信息,從而提高模型對鄉村復雜場景識別的準確率。實驗結果表明,在不同場景下,所提模型可以達到較好的分割效果,建筑物、柏油路、障礙等單個類別的準確率均達到80%以上,能夠有效地分割鄉村道路場景。改進模型可為智能農機在鄉村道路場景下的安全行駛提供技術參考。
關鍵詞: 語義分割; 鄉村道路; 特征識別; 條形池化; 坐標注意力; 場景分類; 圖像處理
中圖分類號: TN911.73?34; TP391.41" " " " " " " "文獻標識碼: A" " " " " " " " " "文章編號: 1004?373X(2025)02?0179?08
Rural road recognition based on semantic segmentation
CAO Xinyu1, ZHANG Taihong1, 2, 3, ZHAO Yunjie1, 2, 3, YAO Zhixin1, 2, 3
(1. College of Computer and Information Engineering, Xinjiang Agricultural University, Urumqi 830052, China;
2. Engineering Research Center of Intelligent Agriculture Ministry of Education, Urumqi 830052, China;
3. Xinjiang Agricultural Informatization Engineering Technology Research Center, Urumqi 830052, China)
Abstract: In allusion to the problem of insufficient recognition accuracy of surrounding features when intelligent agricultural machinery drives in complex rural environments, an improved PP?LiteSeg model is proposed based on rural road scenes as the research object. The STDC is used to extract features from the image, which can ensure the completeness of the feature information while ensuring the lightweight. The strip pooling is introduced into a simple pyramid module to enhance feature extraction capabilities. The coordinate attention is integrated into the unified attention fusion module to further enhance the fusion of multi?scale features and capture richer information, thereby improving the accuracy of the model in recognizing complex rural scenes. The experiments show that the model can realize better segmentation results in different scenes, and the accuracy rate of individual categories such as buildings, asphalt roads, and obstacles can reach more than 80%, which has can effectively segment the rural road scene. The improved model can provide technical references for the intelligent agricultural machine to drive safely in the rural road scene.
Keywords: semantic segmentation; rural road; feature recognition; strip pooling; coordinate attention; scene classification; image process
0" 引" 言
農村地區的交通基礎設施是實現城鄉一體化、促進農業發展和改善農民生活的重要組成部分。其中,鄉村道路作為聯系農村社區與城市的紐帶,承載著農產品運輸、農民出行等關鍵功能。提高農業生產過程的機械化、自動化、智能化水平,降低農業生產對農業勞動力的強依賴性,對于促進農業現代化建設、加速農業生產方式供給側結構改革具有重要作用[1]。智能農機的特點是安全和自主,農業作業可以自主完成,精度較高,同時效率也非常高。該智能農機系統已在播種、施肥、除草、收獲等領域廣泛應用[2?5]。
道路的語義分割技術[6?7]是現實農機自動駕駛的關鍵。其中一個重要部分就是計算機視覺,其特點是檢測范圍廣、特征獲取豐富,是智能農機獲取鄉村道路信息的重要方式之一。目前,自動駕駛行駛的道路場景可分為兩大類別:一類是城市主干道、高速公路等邊界清晰、形狀規則的結構化道路,對于這類道路,相關的分割技術已經相對成熟[8?9];另一類就是鄉村道路、城市非主干道等,這些道路的邊界模糊、形狀不規則,甚至存在部分損壞,屬于非結構化道路。這類非結構化道路場景的分割難度較大,其他問題也較多。因此,對鄉村道路的有效分割意義重大。
在當前道路場景識別解析的研究中,文獻[10]提出了一種基于顏色特征的機場道路語義分割方法,該方法采用超像素塊對圖像進行分割,并利用訓練好的基于顏色的貝葉斯分類器對每個分割聚類進行語義類別標注,從而實現對飛機跑道上引導線的識別。另外,文獻[11]通過組合顏色、紋理、深度等低層級特征,利用隨機決策森林法實現了街區場景的像素級語義分割。文獻[12]采用了將道路影像轉換到HIS顏色空間的方法分割出道路灰度一致性區域,并結合空間梯度信息對分割結果進行細化。盡管這些方法在處理結構化道路場景時表現出色,但它們還存在一些局限性。具體而言,上述方法主要依賴于人工設計的表層特征,如顏色、紋理和形狀等,缺乏對圖像深層特征和高級語義信息的充分利用,導致在復雜鄉村道路場景的識別中面臨一系列挑戰,包括道路的狀態、路面上物體的干擾,所以這類方法對于復雜的鄉村道路場景很難直接應用。
近年來,深度卷積神經網絡在計算機視覺領域取得了顯著的進展,尤其在圖像分類、目標檢測和語義分割等任務上展現出卓越性能[13?14]。深度學習的引入為解決復雜圖像場景識別和解析問題提供了有效的手段[15]。文獻[16]設計了輕量化非結構化道路語義分割神經網絡,取得了較好的分割結果;不過其使用了分組卷積進行替換,數據信息只在組內,通道之間沒有信息交互,導致分割不夠精細。文獻[17]設計了一種融合注意力機制與輕量化的非結構化道路識別方法,將骨干網絡的特征送入并行的空洞卷積模塊,再將特征輸入至注意力結構,在一定程度上提高了對非結構化道路預測的準確性,但并行的空洞卷積模塊會提高計算量,而且空洞卷積會產生間隙,使得部分特征信息丟失。文獻[18]基于DABnet提出的融合多尺度信息的道路場景實時語義分割網絡,實現了較高的分割精度。以上這些研究都是采用卷積神經網絡對圖像進行語義分割,然而還是存在一些不足,如參數多、計算負載大以及推理速度不理想等。與此同時,在處理圖像時對于上下文信息的利用也并不充分,對于全局信息的利用也不夠全面,從而影響對復雜場景的分割精度。
本文以鄉村道路作為研究對象,提出一種改進PP?LiteSeg語義分割模型,采用STDC提取圖像特征,將條形池化(Strip Pooling, SP)加入簡單金字塔來加強特征的提取能力,并且將坐標注意力(Coordinate Attention, CA)加入統一注意力融合模塊,進一步加強多尺度特征的融合,獲得較為完整準確的特征,從而能夠完成對鄉村道路這類復雜場景的精細分割。
1" 網絡結構
1.1" 改進鄉村道路場景語義分割模型
目前,很多模型都采用編碼器和解碼器的結構。編碼器一般包括卷積、池化和激活函數等一系列操作,能夠提取特征;解碼器使用上采樣或反卷積操作將編碼器的低分辨率特征恢復到高分辨,輸出最后的預測結果。原始的PP?LiteSeg模型是一個典型的編碼器?解碼器結構。編碼階段使用STDC對特征進行提取,然后將特征輸入至一個簡單金字塔池化模塊進行特征細化;解碼階段使用統一注意力融合模塊將深層特征和編碼階段特征進行融合,最后通過上采樣得到預測圖像。本文改進模型在編碼階段將提取特征輸入至一個條形池化簡單金字塔模塊,以獲取更為有效的全局上下文信息,增強模型的性能;解碼階段將條形池化金字塔模塊輸出的特征,與通過帶有坐標注意力的統一注意力融合模塊和編碼階段的中間特征進行融合,獲取更為豐富的特征,最后通過上采樣得到預測結果。圖1為改進PP?LiteSeg模型結構示意圖。
1.2" 條形池化簡單金字塔模塊
標準的池化操作在處理不規則形狀的物體時,很多相關區域都會出現合并的現象。為了能夠解決這個問題,引入條形池化這個概念,條形池化操作是針對輸入的二維張量執行的一種池化操作,它可以沿水平或豎直方向移動,如圖2所示。輸入的二維張量為[x∈RH×W],則在進行條形池化操作時,池化窗口的大小為[H,1]或[1,W]。與二維平均池化不同的是,條形池化是對每一行或每一列中的所有特征進行平均。因此,經過條形池化后的輸出張量[yh∈RH],其表達式為:
[yhi=1W0≤jlt;Wxi,jywj=1H0≤ilt;Hxi,j]" " " " " " " (1)
該條形池化模塊使用水平和豎直的條形池化操作,捕獲來自不同空間維度的上下文信息,從而能夠很好地進行信息交互。假設輸入張量為[x∈RC×H×W],其中[C]表示通道數量。首先,[x]同時輸入至2條平行路徑,每個路徑包含一個豎直或水平的條形池化操作,然后跟隨一個內核大小為3的一維卷積操作,其目的是調整當前位置及相鄰位置的特征。給定[yh∈RC×H]和[yw∈RC×W],為了獲得更為有效的全局特征,先將[yh]和[yw]進行組合,得到[y∈RC×H×W],其表達式為:
[yc,i,j=yhc,i+ywc,j]" " " " " " " " (2)
最后輸出[z]表達式為:
[z=Scale(x,σ(f(y)))] (3)
式中:[Scale(?,?)]表示逐元素相乘;[σ]表示Sigmoid函數;[f]表示[1×1]卷積。
本文所提出的條形池化簡單金字塔模塊如圖3所示。首先對主干網絡輸出的特征進行3個全局平均池化操作和1個單獨條形池化操作,3個全局平均池化窗口分別為[1×1]、[2×2]和[4×4];然后將特征進行卷積,并進行條形池化操作和上采樣,將得到的3個特征進行相加和[3×3]卷積操作;最后輸出特征。
1.3" 帶有坐標注意力的統一注意力融合模塊
坐標注意力通過坐標信息嵌入和坐標注意力生成兩個步驟對通道關系和遠程依賴進行精確的位置信息編碼。坐標注意力模塊如圖4所示。
1) 坐標信息嵌入。全局池化的作用是對全局空間信息進行編碼,由于它是將全局空間信息壓縮到通道的維度,所以對于位置信息的保留較為困難,但是對于視覺任務中空間結構的捕獲而言,保留位置信息至關重要。為了確保注意力模塊在空間上用精確的位置信息捕獲遠程交互的信息,本文使用式(4)對全局池化進行分解,將一維特征轉換成編碼操作。
[zc=1H·Wi=1Hj=1Wxc(i,j)] (4)
具體來說,給定輸入[x],使用窗口為[(H,1)]或[(1,W)]的池化分別沿著橫坐標和豎坐標對每個通道進行編碼,其輸出可表示為:
[zhc(h)=1W0≤ilt;Wxc(h,i)zwc(w)=1H0≤jlt;Hxc(j,w)] (5)
2) 坐標注意力生成。通過上述變換能夠獲得較好的全局感受野,并且能夠編碼準確的位置信息。具體而言,首先使用卷積操作對編碼后的特征圖降維,減少計算成本;再通過一個卷積操作降維后得到一個特征圖的注意力圖。這個過程實際上就是對特征圖的每個位置進行處理,其中的權重就是根據位置坐標進行計算得來的。其最后的輸出可表示為:
[yc(i,j)=xc(i,j)·ghc(i)·gwc(j)]" " (6)
本文所提出的帶有坐標注意力的統一注意力融合模塊如圖5所示,圖中輸入特征為[Fhigh]和[Flow],[Fhigh]是深層模塊的特征,[Flow]是編碼器輸出的特征。首先利用雙線性插值操作將[Fhigh]上采樣到同樣大小,記為[Fup];然后,將[Fup]和[Flow]輸入至注意力模塊,產生權重[α];再將[Fup]和[Flow]分別輸入至坐標注意力機制模塊,隨后將二者的輸出進行逐元素相乘;最后,對兩個特征進行逐元素相加,并輸出融合后的特征。[Fup]、[α]、[Fout]具體的表達式如下:
[Fup=Upsample(Fhigh)α=Attention(Fup,Flow)Fout=CA(Fup)?α+CA(Flow)?(1-α)] (7)
2" 實驗數據集
2.1" 鄉村道路場景特點與對象分類
鄉村道路的語義分割是對鄉村道路圖像中的對象分類出對應的標簽,然后給出信息,進而實現場景理解。目前在自動駕駛中,一般可以分為兩類道路:結構化道路和非結構化道路。結構化道路路面標記清晰,道路的邊界也更為清晰,一般包括城市道路和高速公路。非結構化道路具有道路標志線模糊或者沒有、邊界很難界定、背景較為復雜等特點,一般是指非主干道和鄉村道路。鄉村道路呈現出以下非結構化特點:
1) 道路邊界界定困難、路面環境變化大、道路形狀多變;
2) 路面不夠平整,會有遮擋物以及很多障礙物;
3) 當環境發生變化時,圖像中的道路可能會出現不同的特征。
這些不確定的條件給鄉村道路場景下的語義分割帶來很多挑戰,如模型需要有一定的泛化能力,也要更加魯棒。
本文數據集根據具體的鄉村道路環境進行劃分,如建筑物、柏油路、非硬化路、天空、障礙、汽車、塔、電線桿、植物(樹木、雜草、作物)、柵欄、水泥路、摩托車、農機、廣告牌、人、卡車、交通標識。除了上述這些類別之外,還設置了背景類別。因此,鄉村道路圖像中的類別共有19類。
2.2" 圖像采集與處理
圖像采集于新疆沙灣、阜康、南山、烏魯木齊縣地區,選用設備為單目運動視頻相機(GoPro HERO9),其像素為3 840×2 160,幀速為30 f/s。該相機具有支持4K視頻和2 000萬像素照片、超強防抖3.0視頻穩定功能和攝像機內置地平線修正功能及超長續航時間等優點,保證可采集到連續清晰的圖像。輔助采集設備為具有4K和30 f/s高清攝像頭的智能手機。采集大量不同天氣及道路環境下的鄉村道路圖像,保證個體種類具有多樣性,以確保能更好地反映鄉村道路場景的特點。為取得更寬的道路景象,本研究將圖像采集設備固定到汽車車內后視鏡上,以30 km/h速度勻速駕駛,共采集90 min時長視頻,使用抽幀技術選取圖像,共計1 490張。將原始圖像尺寸縮放為1 280×720,以確保網絡的訓練和減小特征提取時對硬件的壓力。圖6為獲取的鄉村道路圖像示例。
由于圖像的獲取場景有限,并且圖像數據種類也存在不平衡的現象,因此在后續的訓練過程中使用隨機縮放、隨機裁剪、隨機水平翻轉以及顏色變換等數據增強方法,對圖像數據按照8∶1∶1比例進行劃分。表1為各類別數量。
本文的鄉村道路場景語義分割模型屬于全監督學習,對圖像需要進行大量人工標注,標注完成后獲取訓練所要的圖像數據。由于采集完成后的圖像是沒有任何標簽的,所以通過搭建CVAT平臺對采集后的圖像進行標注,標注完成后導出為.json格式的文件。最后使用程序將這些文件進行批量轉換,輸出.png格式的標簽圖像。
3" 實驗結果與分析
3.1" 環境配置
本文所用實驗設備:計算機CPU為Intel Core i7?10870H,16 GB顯存,1 TB固態硬盤,NVIDA RTX3070Laptop顯卡,8 GB顯存;基于Windows 11操作系統,采用Python語言在Paddle深度學習框架下進行編程;統一計算設備架構選擇CUDA11.6,深度神經網絡加速庫版本為CUDNNv8.4。
3.2" 模型訓練及參數設置
本文模型訓練采用ImageNet的預訓練權重,ImageNet數據集是一個包含135萬張圖像、1 000個類別的圖像分類數據集。在對模型進行訓練時,初始學習率為0.000 5,BatchSize設置為4,最大迭代次數為40 000,優化器為隨機梯度下降(SGD),動量(Momentum)為0.9,權重衰減(Weight Decay)為0.000 05,學習率衰減策略為多項式衰減(Polynomial Decay)。損失函數采用OhemCrossEntropyLoss,其表達式如下:
[Loss=-1Ni=1Nlog pi," " " " " " " yi=1log(1-pi)," "yi=00," " " " " " " " " " "其他] (8)
3.3" 客觀評價指標
為了準確地評價模型對于鄉村道路的分割效果,采用準確率和參數數量進行性能評價。準確率是模型的預測圖像與標注圖像之間的誤差,假設類別總數為a,[bii]表示屬于第[i]類并且預測也為第[i]類,[bij]表示屬于第[i]類但是被預測為第[j]類。相關衡量標準定義如下。
1) 單類別像素準確率[Pi]是第[i]類且被預測為第[i]類的像素數與第[i]類的像素總數之間的比值。
[Pi=biij=0abij×100%] " " (9)
2) 平均交并比(MIoU)是指每個類別的預測結果與真實標簽類別之間的交集與并集的比值,然后將所有類別的比值求和,并取平均值。
[MIoU=1a+1i=0abiij=0abij+j=0abij-bii] (10)
3) Dice系數表示預測區域與真實標簽區域的重疊程度。
[Dice=2?X?YX+Y]" " " " " (11)
式中:[X]和[Y]分別代表預測區域和真實標簽區域。
4) Kappa系數表示模型預測的結果與實際標簽值是否一致。
[Kappa=po-pe1-pe] (12)
式中:[po]表示每一類正確分類的樣本數量的和除以樣本總數,就是總體分類精度;[pe]表示預測值與實際值的乘積再除以總體樣本的平方。
3.4" 實驗結果分析
選擇Unet、Enet、BiSeNet等模型與本文模型進行對比,通過MIoU、Kappa、Dice、參數量這些指標對模型性能做出評價。上述模型均采用鄉村道路數據集進行訓練,在測試集上計算相關指標。表2是不同網絡模型分割性能參數比較。
由表2可以看出,在模型的準確率方面,本文模型的MIoU和Dice分別為54.23%和67.56%,比Unet分別高14.91%和5.25%,比Enet分別高20.41%和19.7%,比BiSeNetv1分別高3.72%和1.87%,比BiSeNetv2分別高13.55%和16.31%,比原始模型分別高2.85%和3.01%。主要原因是本文模型分別引入了條形池化簡單金字塔模塊和帶有坐標注意力的統一注意力融合模塊,能夠加強模型對各階段特征的提取,聚合不同尺度的池化特征;同時加強條形區域特征的提取以及上下文信息之間的交互,提高了模型的分割精度。在參數量方面,本文模型的參數量是8.30×106,相較于原始模型有3.1%的增加。通過對各個模型性能指標的分析可以得出,本文模型在分割任務中表現出較高的精度,并具備良好的分割性能。圖7是不同網絡模型語義分割結果對比。從圖7可觀察到,本文提出的模型能夠有效地對鄉村道路場景中的語義分割目標進行準確分割。相比之下,由于Unet模型多次下采樣導致許多細節信息丟失,因此其在小物體分割方面表現不佳,也出現了誤分割的現象,如圖7第1行的非硬化路面就出現了錯誤分割和第4行的人沒有被分割識別;此外,第2行圖像中的廣告牌也出現了分割混亂的現象。
Enet模型存在分割結果模糊、邊界連續性差和錯誤分割的問題,如圖7第3行圖像中柏油路和非硬化路面的交界處不僅不連續而且分割模糊,并且廣告牌區域也識別錯誤。出現上述情況的原因是Enet模型并未考慮到圖像的整體信息,對圖像信息的捕獲能力較差。BiSeNetv1、BiSeNetv2模型由于感受野受限,對于圖像的上下文信息考慮不夠充分,導致對于小物體分割較為困難并且整體的分割效果也較為粗糙,如圖7的第2行遠處的卡車被錯誤分割為背景。
原始模型同樣存在對小物體和邊界的細節分割困難的問題,如圖7第3行圖像中的廣告牌分割有明顯錯誤,并且電線桿也不是連續的;第4行圖像中的摩托車分割混亂;第5行圖像中的電線桿、交通標志和騎摩托車的人分割都很困難。
3.5" 消融實驗
為了評估本文提出的語義分割模型的有效性,進行了消融實驗以分析各個模塊對模型性能的影響。在原始模型的基礎上,逐步引入了帶有坐標注意力的統一注意力融合模塊和條形池化簡單金字塔模塊。通過評估單類別像素準確率、MIoU、Kappa、Dice等指標,并考慮模型的參數量,對模型進行性能分析。表3和表4是模型在測試集上的運行結果。
由表3可知:建筑物、柏油路、塔、植物、農機等對象具有較為清晰的形狀、顏色、輪廓特征,識別的準確率較高;車輛、柵欄、水泥路等,這類物體都會受到距離的遠近、分布情況的影響,因此相比于前幾類準確率偏低;由于摩托車和電線桿在圖像中的覆蓋面積較小,加上圖像分辨率較低,且在進行多次下采樣操作后,特征圖的分辨率進一步降低,從而導致許多細節信息丟失。再者,上采樣恢復過程相對困難,因此在分割時可能出現不完整或誤分割的情況,特別是對于這些類別,其準確率往往較低。由表4可知,在只添加CA注意力模塊后,能使模型的MIoU、Kappa、Dice提升到51.84%、88.39%、64.59%,表明CA注意力模塊能夠在一定程度上捕獲更多的空間位置信息,并提高模型的預測性能;在簡單金字塔池化模塊加入SP模塊后,模型的MIoU、Kappa、Dice提升到53.10%、88.60%、66.39%,表明當不同區域的信息集合在一起,再進行條形區域特征的提取是有效的,對于模型效果的提升是顯著的;當兩個模塊同時加入模型中時,模型的MIoU、Kappa、Dice提升到54.23%、88.89%、67.56%,表明這兩個模塊能夠使模型獲取到更為豐富的特征,對最后的預測也能更加的精細。隨著各個功能模塊的加入,模型的參數量也在逐漸提高。其中,基礎模型的參數量最低,而最終加入兩種模塊的參數量僅增加了3.1%。不同功能單元語義分割對比圖如圖8所示。從圖8可以看出本文改進模型有更好的分割效果。其中:基礎模型在小物體分割上效果并不好,如圖8第2行中的交通標志和第4行遠處的人都沒有被分割出來,通過添加SP模塊,這類情況能得到一定程度的緩解;此外,圖8第1行中的卡車和第4行中柏油路都存在錯誤分割的情況,通過添加CA模塊能正確分割圖中的場景;通過添加兩種不同的模塊,圖8第3行中的建筑物和第4行中的行人都得到了正確的分割,整體的邊界也更加連續,充分考慮到了圖像的整體信息。
4" 結" 論
1) 本文改進PP?LiteSeg語義分割模型,其由條形池化簡單金字塔模塊和帶有坐標注意力的統一注意力融合模塊構成,加強了對圖像特征的提取,能夠實現較好的分割結果。
2) 構建了一個鄉村道路數據集,根據環境中的對象將其劃分為19種類別。通過構建鄉村道路數據集并對不同環境下的圖像進行測試,實驗結果顯示,模型的MIoU達到了54.23%,Kappa達到了88.89%,Dice達到了67.56%。此外,在建筑物、柏油路、障礙、植物等類別中,單類別準確率均達到了80%以上,表現出較高的準確性和良好的泛化能力。
3) 采用MIoU、Kappa、Dice和參數量作為性能指標,選擇Unet、Enet、BiSeNetv1、BiSeNetv2和原始模型與本文模型進行對比測試。結果表明,本文模型的MIoU為54.23%,分別比Unet、Enet、BiSeNetv1、BiSeNetv2和原始模型高出14.91%、20.41%、3.72%、13.55%、2.85%;本文模型參數量為8.30×106,相較于原始模型僅增加了3.1%。
實驗結果證明,本文模型有較好的分割性能,可以實現較好的分割效果。
注:本文通訊作者為張太紅。
參考文獻
[1] 劉成良,林洪振,李彥明,等.農業裝備智能控制技術研究現狀與發展趨勢分析[J].農業機械學報,2020,51(1):1?18.
[2] CHATTHA H S, ZAMAN Q U, CHANG Y K, et al. Variable rate spreader for real?time spot?application of granular fertilizer in wild blueberry [J]. Computers and electronics in agriculture, 2014, 100: 70?78.
[3] 楊武,胡敏,常鑫,等.改進的DeepLabV3+指針式儀表圖像分割算法[J].國外電子測量技術,2024,43(1):10?19.
[4] 徐曉龍,俞曉春,何曉佳,等.基于改進U?Net的街景圖像語義分割方法[J].電子測量技術,2023,46(9):117?123.
[5] 孟慶寬,張漫,楊曉霞,等.基于輕量卷積結合特征信息融合的玉米幼苗與雜草識別[J].農業機械學報,2020,51(12):238?245.
[6] 徐國晟,張偉偉,吳訓成,等.基于卷積神經網絡的車道線語義分割算法[J].電子測量與儀器學報,2018,32(7):89?94.
[7] 曹文卓,王太固,徐兵,等.基于語義分割的船閘水位檢測方法研究[J].儀器儀表學報,2023,44(2):238?247.
[8] DONG G, YAN Y, SHEN C, et al. Real?time high?performance semantic image segmentation of urban street scenes [J]. IEEE transactions on intelligent transportation systems, 2024(99): 1?17.
[9] PAZ D, ZHANG H, LI Q, et al. Probabilistic semantic mapping for urban autonomous driving applications [C]// 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Las Vegas, NV, USA: IEEE, 2020: 2059?2064.
[10] COOMBES M, EATON W, CHEN W H. Colour based semantic image segmentation and classification for unmanned ground operations [C]// International Conference on Unmanned Aircraft Systems (ICUAS). Arlington, VA USA: IEEE, 2016: 858?867.
[11] SCHARWACHTER T, FRANKE U. Low?level fusion of color, texture and depth for robust road scene understanding [C]// 2015 IEEE Intelligent Vehicles Symposium (IV). Seoul, South Korea: IEEE, 2015: 599?604.
[12] DUONG L T, NGUYEN P T, SIPIO C D, et al. Automated fruit recognition using EfficientNet and MixNet [J].Computers and electronics in agriculture, 2020, 171: 105326.
[13] CONNOR J T, MARTIN R D, ATLAS L E. Recurrent neural networks and robust time series prediction [J]. Neural networks, 1994, 5(2): 240?254.
[14] JIANG H, ZHANG C, QIAO Y, et al. CNN feature based graph convolutional network for weed and crop recognition in smart farming [J]. Computers and electronics in agriculture, 2020, 174: 105450.
[15] ADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: a deep convolutional encoder?decoder architecture for image segmentation [J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(12): 2481?2495.
[16] 金汝寧,趙波,李洪平.一種輕量化非結構化道路語義分割神經網絡[J].四川大學學報(自然科學版),2023,60(1):66?73.
[17] 龔志力,谷玉海,朱騰騰,等.融合注意力機制與輕量化DeepLabv3+的非結構化道路識別[J].微電子學與計算機,2022,39(2):26?33.
[18] 王俊,蔣自強,別雄波.融合多尺度信息的道路場景實時語義分割[J].激光雜志,2023,44(6):137?142.