999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向自動駕駛的多模態信息融合動態目標識別

2024-05-20 22:17:21張明容喻皓呂輝姜立標李利平盧磊
重慶大學學報 2024年4期

張明容 喻皓 呂輝 姜立標 李利平 盧磊

doi:10.11835/j.issn.1000.582X.2024.04.012

收稿日期:2023-05-12

基金項目:國家自然科學基金資助項目(51975217)。

Foundation:Supported by National Natural Science Foundation of China(51975217).

作者簡介:張明容(1983—),女,博士,副教授,主要從事智能網聯汽車方向研究,(E-mail)153155269@qq.com。

通信作者:喻皓,男,高級工程師,(E-mail)yuhao@gacne.com.cn。

摘要:研究提出一種面向自動駕駛的多模態信息融合的目標識別方法,旨在解決自動駕駛環境下車輛和行人檢測問題。該方法首先對ResNet50網絡進行改進,引入基于空間注意力機制和混合空洞卷積,通過選擇核卷積替換部分卷積層,使網絡能夠根據特征尺寸動態調整感受野的大小;然后,卷積層中使用鋸齒狀混合空洞卷積,捕獲多尺度上下文信息,提高網絡特征提取能力。改用GIoU損失函數替代YOLOv3中的定位損失函數,GIoU損失函數在實際應用中具有較好操作性;最后,提出了基于數據融合的人車目標分類識別算法,有效提高目標檢測的準確率。實驗結果表明,該方法與OFTNet 、VoxelNet 和FasterRCNN網絡相比,在mAP指標白天提升幅度最高可達0.05,晚上可達0.09,收斂效果好。

關鍵詞:自動駕駛;ResNet50;YOLOv3;數據融合;注意力機制;損失函數

中圖分類號:T391????????? 文獻標志碼:A????? ???? 文章編號:1000-582X(2024)04-139-18

Multimodal information fusion dynamic target recognition for autonomous driving

ZHANG Mingrong1, YU Hao2, LYU Hui3, JIANG Libiao3, LI Liping3, LU Lei4

(1. School of Automotive Technology, Guangdong Industry Polytechnic, Guangzhou 510000,

P. R. China; 2. GAC AION New Energy Automobile Co., Ltd., Guangzhou 511400, P. R. China;

3. School of Mechanical & Automotive Engineering, South China University of Technology,

Guangzhou 510641, P. R. China; 4. Engineering Research Institute, Guangzhou City

University of Technology, Guangzhou 510800, P. R. China)

Abstract: A multi-modal information fusion based object recognition method for autonomous driving is proposed to address the vehicle and pedestrian detection challenge in autonomous driving environments. The method first improves ResNet50 network based on spatial attention mechanism and hybrid null convolution. The standard convolution is replaced by selective kernel convolution, which allows the network to dynamically adjust the size of the perceptual field according to the feature size. Then, the sawtooth hybrid null convolution? is used? to enable the network to capture multi-scale contextual information and improve the network feature extraction capability. The localization loss function in YOLOv3 is replaced with the GIoU loss function, which has better operability in practical applications. Finally, human-vehicle target classification and recognition algorithm based on two kinds of data fusion is proposed, which can improve the accuracy of the target detection. Experimental results show that compared with OFTNet, VoxelNet and FASTERRCNN, the mAP index can be improved by 0.05 during daytime and 0.09 in the evening, and the convergence effect is good.

Keywords: autonomous driving; ResNet50; YOLOv3; data fusion; attention mechanism; loss function

隨著互聯網企業、造車新勢力以及傳統車企紛紛投入自動駕駛市場,自動駕駛領域呈現火熱勢態。自動駕駛汽車,又稱無人駕駛汽車、電腦駕駛汽車或輪式移動機器人,其系統主要由感知、決策、控制3部分組成[1]。

自動駕駛中用于環境感知的數據主要來源于圖像傳感器和激光雷達,圖像傳感器作為一種被動式傳感器,成像質量受外界光照影響較大,無法在過曝、黑夜以及惡劣天氣如霧霾、暴雪等極端光照條件下完成感知任務[2]。激光雷達(light detection and ranging,LiDAR)作為一種主動式光學傳感器,對光照具有較好魯棒性,具有精度高、范圍大、抗有源干擾能力強的特性。但受限于技術條件,激光雷達獲取的數據存在稀疏無序、難以直接利用的特點,且缺乏顏色和紋理信息,單靠激光雷達數據很難完成如車輛識別、行人檢測等高級感知任務。由于駕駛環境復雜多變,單一傳感器存在自身缺陷,只依賴于LiDAR或圖像傳感器難以保證檢測的穩定性和可靠性,因此,筆者提出基于多模態信息融合的交通態勢感知平臺主要包含以下模塊,如圖1所示。

結合激光雷達點云數據對環境的精準定位和RGB圖像豐富的語義信息,可將這類方法分為早融合(Early Fusion)、深度融合(Deep Fusion)、晚融合(Late Fusion)三類[3]。

Early Fusion以Point Painting為代表,這是一種由Vora等人[4]提出用圖像語義分割的結果來給點云“著色”的方法。在Late Fusion中,多種模態一般都分別擁有各自骨干網進行特征提取,隨后利用共享候選框進行感興趣區域池化(ROI pooling)[5]。Chen等人提出的MV3D[3]則是這類方法的典型。MV3D是一種多視角的3D目標檢測網絡,該方法使用BEV點云、FV點云以及FV圖像作為輸入。由于BEV圖中遮擋情況最少,所以在BEV中進行特征提取并送入RPN網絡,將ROI向另外兩圖進行映射,得到3組ROI使用Deep Fusion的方式進行特征融合。Ku,Mozifian等人[6]則在MV3D基礎上進一步提出了AVOD。區別于MV3D使用ROI pooling來處理多種視角特征圖尺寸的一致性問題,AVOD則直接使用裁剪與尺寸調整的方式。

1 相關內容

近年來,國外激光雷達與視覺的目標檢測研究取得了顯著進展。Botha等人[7](2017年)提出一種先進的數據融合方法,通過整合雷達和立體視覺數據,成功實現對運動目標的高效檢測和跟蹤。這項研究充分利用雷達和視覺傳感器的互補性,有效提高目標檢測的準確性和魯棒性。Li等人[8](2020年)的研究集中于激光雷達點云在自動駕駛中的應用。通過深度學習技術,研究人員能更精準分析和理解激光雷達點云數據,為自動駕駛系統提供更可靠的感知能力。2017年研究者們基于2D激光掃描儀和機器視覺的信息融合,致力于葡萄藤sucker的識別與定位,為農業領域的實際問題提供了解決方案[9]。Barrientos等人[10](2013年)提出一種移動機器人上的人體檢測方法,通過激光和視覺信息融合,實現對人體的有效探測。這種技術在機器人應用中具有廣泛潛在用途,特別是在導航和安全領域。也有學者使用了3D和2D視覺信息融合的方案,實現準確定位和跟蹤[11],這一創新性方法為高精度計算機視覺應用提供了可靠技術支持。

近幾年,基于深度卷積神經網絡的目標識別技術得到飛速發展,檢測性能也得到極大提高。Guda等人[12]提出了一階段目標檢測算法的開篇之作YOLOv1,YOLO系列的目標檢測算法受到高度關注,后出現了YOLOv2、YOLOv3的目標檢測算法,通過在原始網絡的基礎上不斷找到創新技術并解決上一個版本遺留下來的問題,YOLO系列的目標檢測算法不只是在理論研究上火熱,更被應用到無數工業檢測任務中,取得令人滿意效果。

2 實驗模型

2.1 基于注意力機制改進的ResNet50道路目標特征提取

網絡的性能受網絡深度、寬度和卷積核尺寸等因素的影響,擴展網絡寬度和卷積核尺寸對硬件設備要求高,而通過堆疊卷積層來增加網絡深度,訓練時會產生梯度消失現象,導致網絡難以訓練,性能出現退化。在極端情況下,增加的網絡層即使學習不到有用信息,也可以將淺層網絡學習的特征傳遞給全連接層,保證訓練時網絡性能不退化,這樣的新層具有恒等映射(Identitymapping)功能。何凱明等[13]根據此思想提出了基于殘差模塊的ResNet網絡。ResNet網絡在實驗室中可訓練的深度已超過1 000層,但常用深度共有18/34/50/101/152五種。何凱明等人在實現ResNet網絡時,考慮到計算成本,設計了block和bottleneck兩種殘差模塊,分別對應ResNet18/34和ResNet50/101/152。ResNet50對應bottleneck殘差模塊,bottleneck使用1×1+3×3+1×1卷積結構。先利用第一個尺寸為1×1的卷積進行降維,然后在第二個尺寸為1×1的卷積中還原維度,達到計算精度不變,且能夠降低計算量的目的。bottleneck殘差模塊的參數量是block殘差模塊的1?16.94。

研究使用ResNet50進行街道場景特征提取,對ResNet50網絡進行改進設計,改進部分集中在網絡的特征提取部分。ResNet50網絡由conv1、conv2_x、conv3_x、conv4_x、conv5_x和一個全連接層組成,下圖展示了ResNet50的網絡結構,其中conv1是卷積核大小為7×7的標準卷積,conv2_x、conv3_x、conv4_x和conv5_x部分由殘差模塊堆疊而成,數量分別為3、4、6、3,每一部分的殘差模塊都可以根據需要更改參數,模型的模塊化性能優越。

ResNet50是通過增加深度來提高模型的特征提取能力,它由bottleneck殘差模塊堆疊而成。bottleneck殘差模塊是通過三層標準卷積來實現對輸入數據的特征提取,其第一層與第三層卷積,卷積核大小均為1×1,在特征提取過程中起輔助作用。第一層1×1卷積對輸入數據進行降維處理,第二層1×1卷積還原數據維度,使得bottleneck殘差模塊與block殘差模塊相比,運算過程中既保證了計算精度,也降低了參數量。ResNet50網絡通過不同的步長設計,隨著網絡深度增加,卷積的感受野越來越大,提取的特征越來越具有全局性,在這個過程中,使用標準卷積的殘差模塊對圖片中每一部分關注度相同,固定的感受野大小只能學習到相應尺寸的圖片特征。

2.1.1 注意力機制

注意力機制基本思想是關注重點信息、抑制無用信息,增強網絡提取特征的效率和準確度。注意力機制根據作用域不同,可分為通道注意力機制、空間注意力機制和混合域注意力機制。選擇核卷積由分裂、融合、選擇3步組成。

1)分裂操作如圖4所示,對于給定的輸入特征映射,通過卷積核大小為3×3,擴張率分別為1、2和3的3個分組卷積轉換,得到3個感受野大小不同的特征圖:,和。3條支流均由分組卷積、批量歸一化和ReLU激活函數共同組成。

2)融合操作如圖5所示,首先將3個特征圖相加

。??? (1)

然后使用全局平均池化層嵌入全局信息,得到通道尺度上具有全局信息的向量。

。??? (2)

最后再經過一層全連接層,生成緊湊特征。

,??? (3)

其中:表示激活函數,表示批量歸一化、。下式中和用來控制輸出向量的維度,一般情況下,。

。??? (4)

3)選擇操作如圖6所示,基于softmax方法,利用緊湊特征指導注意力機制動態選擇不同感受野大小的信息。每條支流的權重向量計算方法如下

(5)

其中:、和分別表示特征圖、和的軟注意力機制向量。而表示的第個序列值,表示的第個序列值,表示的第個序列值,,表示的第行,表示的第行,表示的第行。通過將權重向量、和分別和特征圖、和進行加權求和,獲得輸出向量,。

。??? (6)

在ResNet50網絡中引入空間注意力機制,即將選擇核卷積替換bottleneck殘差模塊中的標準卷積,圖7展示了使用選擇核卷積的bottleneck殘差模塊。在ResNet50網絡中使用選擇核卷積,可篩選特征信息,提高數據利用效率,且在選擇核卷積的融合操作部分,卷積核尺寸不同的3組分組卷積既可使網絡提取的特征更多樣,增加ResNet50網絡的寬度。選擇核卷積只對于卷積核>1的標準卷積改造有效,選擇使用選擇核卷積替換bottleneck殘差模塊中的第二層卷積,其卷積核大小為3×3。

在ResNet50網絡的conv2_x、conv3_x部分,使用選擇核卷積替換bottleneck殘差模塊中的3×3標準卷積。

2.1.2 空洞卷積

基于圖像特點,網絡需要有感受野較小的卷積核來提取小尺寸特征,還有感受野較大的卷積核,來提取低像素特征。空洞卷積的感受野可調,能在不增加參數量的同時,保留網絡圖像的細節信息,有利于提取特征圖中不同尺寸特征。解決等倍擴張率序列的空洞卷積采樣時丟失大量局部信息問題,使用空洞卷積時,采用混合空洞卷積[14](hybrid dilated convolution),它是根據擴張率計算公式設計的空洞卷積序列,實現感受野內信息全覆蓋,擴張率小的空洞卷積提取基礎信息,擴張率大的空洞卷積提取長距離信息,獲取更大感受野范圍,又能保持運算量大小不變。公式中是第層的膨脹率,是第層最大膨脹率

。??? (7)

利用上式計算,混合空洞卷積為連續3層卷積核大小均為3×3,擴張率分別為1、2、3。ResNet50網絡的conv4_x部分由6個殘差模塊堆疊而成,第一個殘差模塊的輸入特征圖尺寸為28×28,其余5個殘差模塊的輸入特征圖為14×14。conv5_x部分由3個殘差模塊堆疊而成,第一個殘差模塊的輸入特征圖尺寸為14×14,其余2個殘差模塊的輸入特征圖為7×7,conv5_x部分的特征圖尺寸太小。因此在conv4_x部分引入混合空洞卷積,使用混合空洞卷積序列[1,2],conv4_x部分3×3標準卷積的擴張率序列為[1,2,1,2,1,2]。

基于ResNet50進行改進,一方面在conv2_x和conv3_x部分引入空間注意力機制,使用選擇核卷積替換bottleneck殘差模塊中3×3標準卷積;另一方面在conv4_x部分應用鋸齒狀混合空洞卷積[1,2,1,2,1,2],即使用卷積核尺寸為3×3、擴張率為2的空洞卷積替換conv4_x部分的第二、第四和第六個bottleneck殘差模塊的3×3標準卷積,圖8展示了改進的ResNet50網絡結構。

2.2 基于IoU優化的YOLOv3的道路目標邊框識別

YOLOv3是由Joseph Redmon 和 Ali Farhadi提出的,網絡的主體框架為Darknet-53結構,共有53個卷積層,代替了YOLOv2中的Darknet-19,與其相比,Darknet-53屬于全卷積網絡,因為沒有最大池化層,下采樣操作也是卷積層實現,與其并肩的網絡ResNet相比,Darknet-53的卷積核個數、運算量、速度都更強。卷積層、批量歸一化層以及LeakyReLU激活函數共同組成Darknet-53中的基本卷積單元DBL[15]。Darknet-53結構圖及DBL如圖9?10所示(以輸入圖像尺寸為416×416為例)。Darknet-53 的特征提取部分借助了殘差網絡思想,殘差結構如圖11所示。YOLOv3網絡共使用了5個殘差塊,對其中的第3、4、5個殘差塊所提取出的8倍、16倍和32倍下采樣特征圖進行目標識別。YOLOv3的結構如圖12所示(以輸入圖像尺寸為41。YOLOv3中的定位損失使用差值平方的計算方法,也就是L2損失。但在實際情況中,即使2個目標邊界框的重合程度不同,求得的L2損失可能相同,只有2個目標邊界框重合程度越高,損失越小,L2損失的弊端因此顯現。IoU被廣泛使用是因為相比于L2損失,IoU損失能更好反映預測邊界框與真實邊界框的重合程度,且具有尺度不變性[16-17],即在整個空間中,2個目標邊界框在不同尺度大小下可以保持不變,后來也被用到YOLOv3的目標檢測方法中,但其也有一些缺點。

1)IoU對于預測邊界框和真實框的位置要求較高,只有當2個框有交集時,其計算公式才奏效,對于完全沒有相交的2個框來說,IoU損失計算為0,無法將損失反饋到神經網絡中,沒有梯度回傳,就無法進行學習訓練,影響更新網絡權重,使網絡一直處在局部最優值附近,始終無法收斂到全局最優。

2)在IoU損失計算過程中,無法判定預測邊界框和真實邊界框的關系,如方向關系,即當目標物和檢測框呈現不同水平方向,夾角無法進行檢測。

針對IoU出現的問題,文中引入GIoU損失函數,假定針對2個矩形A和B,能夠找到2個矩形的最小外接矩形C。GIoU計算方法如下式

,??? (8)

式中:IoU為預測邊界框和真實邊界框的交并比,Ac為2框的最小外接矩形C的面積,U為2框并集的面積,模型為ARIY3(Attention-ResNet50-IoU- YOLOv3)。

2.3 點云數據與RGB數據信息融合模型

由于16線激光雷達點云數目特別稀少,導致反射率不太穩定,因對點云數目過少、或未識別出的模糊數據,在攝像頭的像素點與激光雷達的點云標定之后,與16線激光雷達和相機傳輸回來的信息相互融合,獲取目標物體的信息,實現目標跟蹤。

為了將ResNet50輸出的特征融合到原有點云特征提高點云稀疏目標的檢測精度,分別使用2個卷積核大小為1×1的卷積層,將圖像特征分別壓縮到1×1×p和1×1×q尺寸。YOLOv3與激光雷達網絡與3D邊界框估計網絡組成一個整體,進行端到端訓練,為后二者的任務篩選出最具價值信息,本文模型如圖13所示。

3 實? 驗

3.1 實驗設置

文中使用的訓練和測試數據基于KITTI[17]目標檢測數據集中的激光點云和左彩色相機數據,其中激光點云處理后全部進行圖像化編碼,構建為圖像化點云數據集。筆者將該數據集的7 481張訓練圖像作為實驗數據,并根據需求預處理數據集原有的標簽信息,處理后的整個數據集按照訓練集:驗證集:測試集=8:1:1的比例進行隨機劃分,劃分后的訓練、驗證和測試數據集大小分別為5 984、748和749,數據集樣本如圖14所示。

實驗使用的操作系統為Ubuntu16.04,GPU為NvidiaRTX2080Ti,顯存為11G。實驗采用Pytorch1 5.0框架對模型進行搭建、訓練和測試,Python版本為3.7,CUDA版本為10.1。在訓練階段,根據顯存大小將batchsize設置為8,每個批次中的輸入圖像尺寸都被固定至512×512大小。動量配置為0.937,權重衰減配置為0.000 5,初始學習率為。實驗發現,當程序運行到60 000代之后,損失值出現震蕩不再下降,因此在第60 000代將學習率設置為原來的0.1實現損失值繼續小范圍下降,達到更好擬合效果。下圖為訓練過程中的損失函數收斂曲線,從圖15中看出,訓練次數達到100 000次時損失函數收斂曲線趨于平緩。

研究使用目標檢測任務中常用的指標P-R曲線和mAP(mean average precision)平均精度2項指標對所提出的模型進行評價。在繪制PR曲線時,首先通過真正例(true positive,TP),真反例(true negative,TN),假正例(false positive,FP),假反例(false negative,FN)計算準確率Precision和召回率Recall,公式如下

。??? (9)

針對某一類別,以召回率為橫軸,以準確率為縱軸可以繪制P-R曲線,曲線所包含的面積即為該類別的AP。mAP則是對這多種類別的AP值求平均所得。AP值代表模型對某一類目標的檢測效果,mAP則代表了對所有類別的檢測效果,值越大,檢測效果越好。實驗設置初始IoU閾值為0.5,使用GIoU檢測預測框與真實框的交并比劃分樣本。

3.2 實驗分析

3.2.1 消融實驗

為了驗證利用LiDAR-RGB-ARIY3進行特征級融合的效果,研究采用圖像化點云數據和RGB圖像數據,在ARIY3架構下分別訓練了3種模型,即ARIY3(RGB)、ARIY3(LiDAR)和LiDAR-RGB-ARIY3。通過對比單數據模型、融合數據模型以及不同融合方式,評估各模型性能。其中,ARIY3(RGB、LiDAR)是通過特征級融合訓練得到的模型,它將2種數據直接進行通道級聯,將聯合的特征輸入到ARIY3進行訓練。這一方法旨在充分發揮LiDAR和RGB數據在特征級上的互補性,提高模型的性能和泛化能力。通過這一對比實驗,可以深入了解不同數據和融合方式對最終模型性能的影響,為LiDAR與RGB數據融合的有效性提供實證支持。

網絡設定推理的目標得分閾值為0.24,NMS閾值為0.5,計算AP和mAP時的IOU設定為50%,對訓練好的模型在測試集上進行對比實驗,結果如表1所示。

對比LiDAR-RGB-ARIY3、ResNet-YOLOv3(RGB、LiDAR)、ARIY3(RGB)和ARIY3(LiDAR)可以看出,相對于單數據模型,基于激光點云和RGB圖像的融合模型具有更好檢測效果。在白天視線較好條件下,ResNet-YOLOv3(RGB、LiDAR)比ARIY3(RGB)和ARIY3(LiDAR)分別提升0.04和0.06。在黑夜視線較差條件下,ResNet-YOLOv3(RGB、LiDAR)比ARIY3(RGB)和ARIY3(LiDAR)分別提升0.28和0.08。而在白天視線較好條件下,ARIY3(RGB、LiDAR)比ResNet-YOLOv3(RGB、LiDAR)的mAP提升0.11,在黑夜視線較差條件下,ARIY3(RGB、LiDAR)比ResNet-YOLOv3(RGB、LiDAR)的mAP提升0.12。實驗結果表明,融合特征對目標具有更強表征性,多模態融合無論白天還是夜晚,均有利于提高檢測網絡性能。其中多模態特征融合對于網絡提升效果較為明顯,特別是在低照度場景下。同時,ARIY3(RGB、LiDAR)比ResNet-YOLOv3(RGB、LiDAR)的mAP有所提升,實驗結果表明所提出的目標識別方法在光照變化的場景依然表現出較好魯棒性。

在當前的配置環境下,完成整個KITTI訓練集上雙模態深度學習網絡的100 000次迭代大約需要15 h。損失函數(loss)在網絡模型訓練過程中的演變如圖16所示。圖中綠色和紅色虛線分別代表訓練單模態的雷達激光圖像目標識別網絡和可見光圖像目標識別網絡的損失,藍色實線表示雙模態目標識別網絡在原ResNet-YOLOv3后進行融合的模型訓練損失,而黑色實線則表示雙模態目標識別網絡在LiDAR-RGB-ARIY3進行融合的模型訓練損失。通過觀察圖16,可以得知在經過100 000次迭代后,所有模型表現出良好的收斂效果。

通過局部放大圖中的細節,相較于單模態網絡訓練,多模態目標識別網絡訓練損失變化更加平緩,模型更快收斂。在給定的訓練迭代次數內,多模態網絡在學習目標識別任務上表現出更高的效率和穩定性。這些結果進一步驗證了雙模態深度學習網絡在LiDAR和RGB數據融合方面的優越性。

圖17所示是LiDAR-RGB-ARIY3在驗證集數據上的檢測可視化結果,圖中紅色框為真值框,藍色框為網絡的預測輸出,框中線條代表檢測框中心延伸出的方向向量。從圖中標記的目標看出:雖然目標在圖像視角中像素面積小,以至于真值都未對其進行標注,但網絡通過融合點云和圖像特征將其檢測出來,表明使用多模態傳感器融合對遮擋、距離較遠目標識別具有一定優勢。

KITTI的數據集根據目標的檢測框大小、受遮擋情況和在視野中被截斷面積,對目標識別的難易程度進行劃分,劃分為簡單(Easy)、適中(Moderate)和困難(Hard)。實驗按照目標識別的難易程度,對檢測性能進一步評估。

將LiDAR-RGB-ARIY3以及提出的LiDAR-RGB-A-ResNet50(與LiDAR-RGB-ARIY3相比,僅優化ResNet,不優化YOLOv3的多模態信息融合模型)與LiDAR-RGB-IoU-YOLOv3(與LiDAR-RGB-ARIY3相比,僅優化YOLOv3,不優化ResNet的多模態信息融合模型)在KITTI數據集上分別進行3種目標類別的2種挑戰后,實驗結果如圖18所示的P-R曲線圖。

從圖中可以看到,LiDAR-RGB-ARIY3在Car類別與Pedestrian類別都獲得了顯著提升,同時Cyclist類別總體來說相差細微。從圖(c)和(d)來看,LiDAR-RGB-ARIY3在Pedestrian類別的目標識別上遠超過LiDAR-RGB-A-ResNet50以及LiDAR-RGB-IoU-YOLOv3,僅在召回率較低時保持與原始方法的較大優勢不同,LiDAR-RGB-ARIY3在所有召回率位置上取得顯著優勢。對于Pedestrian類別的目標定位,研究提出的2種方法對LiDAR-RGB-A-ResNet50及LiDAR-RGB-IoU-YOLOv3都取得了顯著優勢,其中引入通道注意力機制使LiDAR-RGB-A-ResNet50在前一章方法的效果上繼續擴大優勢。從圖18(a)和(b)來看,

LiDAR-RGB-ARIY3相對LiDAR-RGB-A-ResNet50以及LiDAR-RGB-IoU-YOLOv3方法同樣獲得提升。除了在簡單難度以外,LiDAR-RGB-ARIY3在所有其它項中均取得領先。對于通道注意力的引入對于尺寸較小以及存在遮擋的目標檢測具有明顯提升效果。

從圖(e)和(f)來看,LiDAR-RGB-A-ResNet50以及LiDAR-RGB-IoU-YOLOv3在Cyclist類別的檢測與定位方面差距細微。同時,發現原始方法的優勢出現在召回率較高時,在召回率較低時,LiDAR-RGB-ARIY3則有明顯優勢,這意味著LiDAR-RGB-ARIY3對于其檢測的高置信度目標有更高的準確率。

3.2.2 對比實驗

車輛的點云與圖像區域如圖19所示。

為了評估所提出的多模態特征融合目標識別網絡性能,筆者設計對比實驗。實驗中將該方法與FasterRCNN、OFTNet和VoxelNet在2種光照環境下的性能展開對比。表2展現不同方法在KITTI數據集上目標識別的對比結果。

從白天對比實驗結果看出,相較與OFTNet 、VoxelNet 和FasterRCNN網絡,提出的多模態特征融合檢測方法在AP指標上均有提升,尤其是在Faster RCNN 模式上,mAP指標提升0.04,較為明顯。該對比實驗證明方法在光照良好場景具有較好的檢測性能。從夜間對比實驗結果可以看出,相較與OFTNet 、VoxelNet 和FasterRCNN網絡,提出的多模態特征融合檢測方法在AP指標上均有提升,提升幅度最大可達到0.09,較為明顯。該對比實驗證明了該方法在低照度場景具有較好的檢測性能。

各模型訓練和驗證過程中的損失函數變化曲線如圖20所示,每個Epoch進行。由圖可知,提出的LiDAR-RGB-ARIY3模型訓練集損失函數和驗證集損失函數耗能最低,表明模型中每個樣本預測值和真實值的差最小,所建立的模型提供的結果最好[20]。

綜上所述,筆者提出的自適應融合網絡LiDAR-RGB-ARIY3與常見的基于點云、基于多模態融合的網絡相比,檢測精度與速度有一定優勢,實現精度與速度的平衡,圖21為可視化結果。

4 結? 論

研究提出一種基于激光雷達和視覺傳感器信息融合的無人駕駛中目標識別算法。該算法主要包括以下幾個改進方面:

1)利用攝像頭的視覺方案識別目標物體圖片,圖片經過預處理,傳入卷積神經網絡ResNet50進行特征提取,使用yolov3改進算法得到物體的類別與物體框位置信息。

2)使用注意力機制對ResNet50進行改進,集中在網絡的特征提取部分。使用優化的IoU對YOLOv3模型的目標邊框提取進行完善。

3)利用激光雷達進行地面點距離標定,將像素點與激光雷達的標定點進行對應,對點云數據和圖像數據進行時間、空間同步,得到激光雷達和相機數據之間的轉換關系,找到同一時刻激光點云數據和圖像中對應的像素點,確保激光雷達識別出的物體與相機識別的物體是同一時刻同一物體。

該算法目的是解決無人駕駛環境下運動目標檢測問題,通過多源數據融合的方式提高目標檢測的準確率。該算法在進行數據融合時,沒有進行時間、空間同步,這個過程可能環境因素會影響數據的準確性,如天氣、光照等。未來考慮加入時間、空間同步方法,以提高數據融合的準確性。

參考文獻

[1]? 熊璐,吳建峰,邢星宇,等.自動駕駛汽車行駛風險評估方法綜述[J/OL].汽車工程學報:1-15 [2023-04-28]. 網址:http://kns.cnki.net/kcms/detail/50.1206.U.20230425.0916.002.html

Xiong L, Wu J F, Xing X Y, et al. Review of automatic driving vehicle driving risk assessment methods[J/OL]. Automotive Engineering Journal: 1-15[2023-04-28].http://kns.cnki.net/kcms/detail/50.1206.U.20230425.0916.002. html(in Chinese)

[2]? Nan Y L,Zhang H C, Zeng Y. Intelligent detection of Multi-Class pitaya fruits in target picking row based on WGB-YOLO network[J]. Computers and Electronics in Agriculture,2023,208: 107780.

[3]? Li J R, Cai R Y, Tan Y, et al. Automatic detection of actual water depth of urban floods from social media images[J]. Measurement,2023,216: 1-19.

[4]? Vora S, Lang A H, Helou B, et al. Pointpainting: sequential fusion for 3d object detection[C]//Proc of Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 4604-4612.

[5]? Ren S, He K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 39(6):1137-1149.

[6]? Ku J, Mozifian M, Lee J, et al. Joint 3d proposal generation and object detection from view aggregation【C]//Proc of 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Madrid: IEEE,? 2018, 1-8.

[7]? Botha F. Data fusion of radar and stereo vision for detection and tracking of moving objects[C]//Pattern Recognition Association of South Africa & Robotics & Mechatronics International Conference. Bloemfontein: IEEE, 2017.

[8]? Li Y, Ma L, Zhong Z, et al. Deep learning for lidar point clouds in autonomous driving: a review [J]. IEEE Transactions on Neural Networks and Learning Systems, 2020(99):1-21.

[9]? Wang Y X,Xu S S,Li W B, et al. Identification and location of grapevine sucker based on information fusion of 2D laser scanner and machine vision)[J]. International Journal of Agricultural and Biological Engineering, 2017,10(2), 84-93.

[10]? Barrientos A, Garzón M, Fotiadis P E .Human detection from a mobile robot using fusion of laser and vision information[J].Sensors,2013,13(9):11603-11635.

[11]? Huang Y, Xiao Y, Wang P,? et al.A seam-tracking laser welding platform with 3D and 2D visual information fusion vision sensor system[J].The International Journal of Advanced Manufacturing Technology,2013,67(1-4):415-426.

[12]? Ajayi O G, Ashi J, Guda B. Performance evaluation of YOLO v5 model for automatic crop and weed classification on UAV images[J]. Smart Agricultural Technology,2023,5: 1-10.

[13]? He K M,? Zhang X,? Ren S,? et al. Deep Residual Learning for Image Recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.

[14]? Li Z,Xu B L,Wu D, et al. A YOLO-GGCNN based grasping framework for mobile robots in unknown environments[J]. Expert Systems With Applications,2023, 225: 1-14.

[15]? Zhao C,? Shu X, Yan X, et al. RDD-YOLO: a modified YOLO for detection of steel surface defects[J]. Measurement,2023,214:1-12

[16]? 鄒承明,薛榕剛.GIoU和Focal loss融合的YOLOv3目標檢測算法[J].計算機工程與應用,2020,56(24):214-222.

Zou C M, Xue R G. Improved YOLOv3 object detection algorithm:combining GIoU and Focal loss[J]. Computer Engineering and Applications, 2020, 56(24):214-222.(in Chinese) .

[17]? Geiger A, Lenz P, Urtasun R. Are we ready for autonomous driving? the kitti vision benchmark suite[C]//2012 IEEE conference on computer vision and pattern recognition. IEEE, 2012: 3354-3361.

[18]? Roddick T, Kendall A, Cipolla R. Orthographic feature transform for monocular 3d object detection[J]. arXiv preprint arXiv:1811.08188, 2018.

[19]? Zhou Y, Tuzel O. Voxelnet: end-to-end learning for point cloud based 3d object detection[C]//Proc of Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018, 4490-4499.

[20]? 吳喆.基于深度學習的動態背景下船舶檢測和跟蹤的研究[D].宜昌: 中國三峽大學,2019.

Wu Z. Research on ship detection and tracking in dynamic background based on deep learning[D]. Yichang: China Three Gorges University, 2019.(in Chinese)

(編輯? 侯湘)

主站蜘蛛池模板: 2022国产无码在线| 一级毛片基地| www.亚洲色图.com| 欧美午夜视频在线| 99r在线精品视频在线播放| 久久精品女人天堂aaa| 亚洲视频a| 中文字幕亚洲第一| 经典三级久久| 成人年鲁鲁在线观看视频| 国产在线欧美| 国产丝袜无码精品| 国产精品久久自在自线观看| 国产在线98福利播放视频免费| 一本一道波多野结衣一区二区 | 人妻精品全国免费视频| 亚洲天堂日韩在线| 亚洲福利视频一区二区| 99热这里只有免费国产精品| 国产精品第页| 中日无码在线观看| 尤物成AV人片在线观看| 国产国产人成免费视频77777| vvvv98国产成人综合青青| 久久semm亚洲国产| 欧美亚洲第一页| 国产成人精品18| 国产剧情一区二区| 人妻21p大胆| 亚洲中文无码av永久伊人| 久久青草精品一区二区三区| 免费xxxxx在线观看网站| 国产对白刺激真实精品91| 亚洲无线观看| 高清国产在线| 欧美色99| 中文字幕人成乱码熟女免费 | 中国国产一级毛片| 亚洲精品在线影院| 欧美全免费aaaaaa特黄在线| 午夜精品区| 亚洲国产一区在线观看| 国产成人91精品| 啪啪永久免费av| 精品国产自在现线看久久| 国产噜噜噜视频在线观看 | 欧美视频在线第一页| 国内精品一区二区在线观看| 精品五夜婷香蕉国产线看观看| 国产精品所毛片视频| 国产成人资源| 自拍欧美亚洲| 国产精品思思热在线| 老司机aⅴ在线精品导航| 国产精品露脸视频| 国产精品第一区| 国产精品美女在线| 免费在线成人网| 国产精品真实对白精彩久久 | 中国一级特黄视频| 欧美人与动牲交a欧美精品| 午夜啪啪福利| 精品福利一区二区免费视频| 四虎永久免费网站| 国产亚洲视频免费播放| 国产成人永久免费视频| 欧美区一区二区三| 亚洲午夜国产精品无卡| 97人妻精品专区久久久久| 国产精品自在线拍国产电影 | 日韩中文字幕免费在线观看 | 亚洲欧美不卡中文字幕| 亚洲av日韩av制服丝袜| 伊人激情综合网| 国产成人一区二区| 国产美女丝袜高潮| 欧美成人a∨视频免费观看| 国产在线观看第二页| 久久综合色播五月男人的天堂| 97se亚洲综合在线天天| 中文字幕一区二区人妻电影| 亚洲第一中文字幕|