

[摘 要]隨著世界工業化的發展,自卸卡車可極大地降低人力成本,加快工作效率,在露天礦區得到了廣泛應用。然而,卡車電動輪的主機架在使用約2萬~4萬 h 后易出現開裂現象,需要進行維修。目前的裂紋檢測主要通過人工目測和物理方法進行。然而,這些方法在日常維護時難以實現,無法滿足快速、實時檢測的要求。針對現有算法的問題,開發了基于改進YOLOv9 的自卸卡車電動輪主機架裂紋檢測算法。對收集到的圖像進行了人工標注,并制作成數據集。模型使用YOLOv9 網絡并將骨干網絡中Conv 替換為Ghost Module,減少模型參數與冗余計算。實驗結果表明,該模型識別準確度為93%,在保證實時性的基礎上,具備較高的準確度。
[關鍵詞]改進YOLOv9 ;電動輪主機架;開裂檢測
[中圖分類號]TP391.41 [文獻標志碼]A [文章編號]2095–6487(2024)09–0153–03
近年來,在露天礦區使用的220 t 級自卸卡車電動輪大修時發現部分卡車電動輪主機架存在開裂現象,且開裂數量較多。該故障已經成為影響 220 t 卡車安全運行的一個主要因素。電動輪主機架開裂現象在日常檢修時難以察覺,只有在電動輪整機拆解時才能進行檢測,電動輪運行期間存在較大隱患,所以如何實時檢測電動輪主機架是否開裂成為了一個亟待解決的問題。
計算機視覺與深度學習的融合與發展,使得卷積神經網絡(CNN)在目標檢測、圖像分類等領域得到了廣泛應用。YOLO 系列的算法在道路裂縫檢測方面具有廣泛的應用,而電動輪的主機架裂縫與道路裂縫相似,所以提出了基于改進YOLOv9的電動輪主機架開裂檢測算法。YOLOv9 解決了數據通過深度網絡傳輸時信息丟失的問題,是現階段最高效的目標檢測算法之一。但是在資源有限的設備上運行時,YOLOv9的實時性難以保證,因此提出使用Ghost Module 替換YOLOv9 中的Conv 層,用于減少模型參數量與冗余計算,加快模型的推理時間。稱其為YOLOv9-GM。
1 YOLOv9原理介紹
深度神經網絡中普遍存在信息瓶頸問題,即數據X 在進行變換時可能會導致信息丟失,隨著深度神經網絡的層數越多,原始信息的丟失越嚴重。這將導致梯度不可靠與網絡收斂性差。解決信息瓶頸問題的方法之一是使用可逆函數??赡婧瘮翟趯祿 進行變換時,原始數據不會丟失。PreAct-ResNet 中原始數據X 以完整的形式在網絡中傳遞,即使在網絡層數在1 000 層以上也可以很快收斂。但是這種方法當層數較少時,難以找到簡單的映射函數來將數據映射到目標。PGI(可編程梯度信息)可為目標任務提供完整的輸入信息來計算目標函數,從而獲得可靠的梯度信息來更新網絡權重。GELAN(高效層聚合網絡)僅使用傳統的卷積算子實現了比基于最先進技術的深度卷積設計更高的參數利用率,同時顯示出輕量、快速和準確的巨大優勢?;诂F階段硬件對于傳統卷積算子的優化,YOLOv9 具有更快的運行速度。
1.1 PGI
PGI 由主分支、輔助可逆分支和多級輔助信息3個部分組成。輔助可逆分支生成可靠的梯度來更新網絡參數,確保損失函數根據完整的信息計算出可靠的損失。多級輔助信息處理深度監管導致的誤差累積問題。
1.1.1 AuxiliaryReversible Branch——輔助可逆分支
輔助可逆分支是深度監管分支的拓展,主分支能夠從輔助可逆分支中接收可靠的梯度信息。這些梯度信息將驅動參數學習,來幫助主分支提取由于信息瓶頸而丟失的重要信息。但是,輔助可逆分支也是費時的,其推理時間最大將增加20%。所以,在YOLOv9 中,輔助可逆分支將在推理截斷去除,保留了原始網絡的推理能力。針對可逆網絡在較淺的網絡表現不佳問題,PGI 中不強迫主分支保留完整信息,而是通過輔助監督機制生成可靠的梯度來更新主分支中的參數,其可以應用于較淺的網絡。
1.1.2 Multi-level Auxiliary Information——多級輔助信息
多級輔助信息是針對多個預測分支的深度監督架構中特征金字塔會丟失預測目標對象所需的大量信息而設計的。多級輔助信息的概念是在輔助監督的特征金字塔層次層和主分支之間插入一個集成網絡,對來自不同預測頭的梯度信息進行組合,并且傳遞到主分支,驅動主分支的參數更新。
1.2 Generalized ELAN——廣義GELAN
廣義GELAN 是結合兩種神經網絡架構設計,帶有梯度路徑規劃的 CSPNet 和 ELAN。其目的是實現輕量化、推理速度和準確性。
卷積層的輸出特征具有一定的冗余,即特征圖在不同通道之間具有高度的相似性。
Ghost Module 將相似的特征由內在特征變換生成。這種變換相較于卷積層,計算量大幅減少。內在特征由傳統卷積生成,通常較少。這將減少大量的參數量與FLOPs。
2 試驗與分析
2.1 數據集制作
由于卷積神經網絡的目標檢測方法需要大量的樣本驅動網絡的參數學習,如果樣本的數量不足,模型將難以將所有的神經元充分訓練,甚至產生過擬合使得模型在訓練集上表現遠優于在測試集上的表現。模型的泛化能力差。數據集的制作使用現場拍攝的大量電動輪主機架裂痕的圖片文件與視頻文件,將視頻文件轉換化為圖片文件時,每秒抽取一張圖片,避免大量圖片的同質化,影響模型訓練??偣采?00 張帶有裂縫的圖片,將產生的圖片使用Labelimg 工具對圖片中的裂痕處進行標注,標注的label 文件使用txt文件格式存儲。文件包含所有的數據按照4 ∶ 1 分為訓練集和測試集。試驗環境使用的批量大小為16。使用Adam 優化器。epoch 為100,檢測時輸入圖片均為640×640 像素。GPU 為RTX 3090,Cuda11.2。
2.2 試驗結果與分析
為了將模型與基線模型進行比較,使用準確率,召回率,mAP_0.5,mAP_0.5 :0.95 為主要的評估指標。其中mAP_0.5 為IoU 設為0.5 時,計算每一類的平均準確度,然后所有類別求平均,即mean AveragePrecision(mAP)。mAP_0.5 :0.95 即為在不同IoU 閾值(從0.5 到0.95,步長0.05)上的平均mAP。
Precision,即分類正確的正樣本個數占分類器分成的所有正樣本個數的比例,計算如下:
P=TP/TP+FP(1)
Recall,即分類正確的正樣本個數占正樣本個數的比例,計算如下:
R=TP/TP+FN(2)
式(1)和式(2)中,TP:真正,被模型分類正確的正樣本;FN:假負,被模型分類錯誤的正樣本;FP:假正,被模型分類錯誤的負樣本;TN:真負,被模型分類正確的負樣本。
本試驗主要用于電動輪主機架開裂目標檢測,輸出中只有兩種情況,即有開裂現象或者無開裂現象。
YOLOv9-GM 與YOLOv9 試驗結果對比見表1。
由試驗結果可以得出,YOLOv9 mAP_0.5 達到了99%, 但在參數量方面YOLOv9-GM 具有明顯優勢。YOLOv9-GM 在保持高準確度的基礎上,將Yolov9 的模型參數量縮減了7%,Ghost Module 減少了大量的參數量與FLOPs。識別到開裂現象的準確度達到99.5%,召回率也達到了99.8%,這代表著數據集中開裂的類別得到了全面的檢測。在IoU 的閾值大于0.5 時,平均識別準確度在99%,模型可準確的識別到電動輪主機架開裂的位置。在檢測結果中,YOLOv9-GM 目標檢測算法在電動輪主機架開裂檢測方面取得了良好的檢測效果。
為了驗證算法在YOLO 系列中的檢測性能,將YOLOv9-GM 與YOLOv5s、YOLOv7 的YOLO 系列模型進行比較。這3 種算法對裂縫檢測的結果見表2。
從表2 中可以看出,YOLOv9-GM 與YOLOv5s、YOLOv7 相比, 在準確度方面分別提高了2.1% 與4.2%, 并且分別提高了3.3%、1.1% 的mAP_0.5。YOLOv7 采用了swish 激活函數,相較于YOLOv5s使用的ReLU 激活函數,swish 激活函數具有更好的非線性表達能力,所以相較于YOLOv5s,YOLOv7在mAP_0.5 上提高了2.2%,在mAP_0.5 :0.95 上提高了3.3%。
3 結束語
對YOLOv9 進行輕量化的改進,為自卸卡車電動輪主機架開裂檢測提供了高性能,低時延的方法。該方法不需要設計專家特征或者對圖像預處理,可實時性的對主機架的開裂情況做出處理。通過多組試驗對改進的YOLOv9 模型進行評估。試驗結果表明,該模型有較強的識別性能,且模型復雜度較低。
然而,自卸卡車的工作環境惡劣,這對系統穩定性提出了更高的要求。因此在惡劣環境下增強系統的穩定性成為未來研究工作的重點。
參考文獻
[1] 陳嘉銳,崔得龍,邱澤環,等. 基于YOLOv5s 模型的新型道路裂縫檢測系統[J]. 現代電子技術,2023,46(13):62-66.
[2] 陳剛. 面向大規模圖像檢索的深度哈希方法研究[D]. 北京:北京郵電大學,2020.
[3] 王偉光. 基于相變材料的太赫茲可編程超表面設計與應用研究[D]. 北京:北京郵電大學,2023.