











摘要 針對橋梁裂縫識別效率低、實時性差等問題,本文提出一種基于改進YOLOv8模型的橋梁裂縫無人機圖像檢測方法.首先,將動態蛇形卷積核融入YOLOv8骨干部分中的C2f模塊,以增強裂縫特征提取能力;然后,引入CAM模塊,提升小目標檢測能力;最后,通過優化預測框損失函數,減少了低質量數據集對檢測結果的影響.實驗結果表明,改進后模型的GFLOPs達到14.4,mAP@50達到94%,較基礎模型實現了較大的精度提升,檢測速度達到147幀/s,能夠滿足無人機實時裂縫檢測需求.
關鍵詞 無人機圖像;橋梁裂縫檢測;YOLOv8;動態蛇形卷積;深度學習
中圖分類號TP391.41;U446 文獻標志碼A
0 引言
在混凝土橋梁中,裂縫病害是一種最為常見的混凝土橋梁結構性表觀損傷,其發生的位置和表觀形態都不固定.裂縫的出現不利于混凝土對內部鋼筋的保護,導致鋼筋的有效使用周期縮短,增加了使用危險性.由于橋梁自身結構復雜、裂縫形態各異以及圖像背景干擾等因素影響,人工檢測和傳統數字圖像處理檢測的方法難以滿足實際工程所需 [1],急需一種更高效、準確的橋梁裂縫檢測方法.
針對橋梁特性,一些學者設計了專用檢測設備,如基于車輛的圖像采集系統、環形攀爬機器人和水下機器人等 [2-5],但上述專用檢測設備在橋梁結構限制下均存在局限性.而采用無人機檢測則無需直接接觸橋梁結構,可以有效降低作業人員的安全風險.例如:鐘新谷等 [6]使用旋翼無人機搭載相機獲取橋梁表面裂縫圖像;Sanchez-Cuevas等 [7]為無人機添加了保護裝置,采用貼近攝影測量方式獲取橋梁裂縫圖像.為了進一步提升橋梁檢測的精度和效率,融合深度學習技術進行橋梁裂縫檢測已成為一個新的研究熱點.
深度學習方法在魯棒性和普適性方面均優于傳統的人工檢測和數字圖像處理方法,可以用于處理形態各異以及復雜背景的裂縫圖像 [8].目前,基于深度學習的方法大致可以分為基于候選區的兩階段目標檢測算法和基于回歸的單階段目標檢測算法兩類.基于候選區的兩階段目標檢測算法,其代表算法有R-CNN [9]、Fast R-CNN [10]、Mask R-CNN [11]等,這類目標檢測算法主要是通過生成候選區,再對其進行分類和邊界框回歸,從而完成裂縫識別與檢測.例如:余加勇等 [12]基于Mask R-CNN方法,采用矩形滑動窗口的方式對圖像進行掃描,實現對裂縫的自動檢測;Nayyeri等 [13]基于ResNet提出MR-CrackNet,實現了較高精度的裂縫檢測;譚國金等 [14]在DeepLabv3+模型中加入YOLOF和ResNet模塊進行改進,增強了檢測精度.基于回歸的單階段目標檢測算法,其代表算法有OverFeat [15]、YOLO系列 [16]等,這類目標檢測算法不需要生成興趣區域,直接在網絡中同時預測類別和邊界框的位置,實現裂縫識別與檢測.例如:蔡逢煌等 [17]利用YOLOv3結合深度可分離卷積和注意力機制,提出一種輕量級檢測網絡;Xiang等 [18]基于YOLOv5s提出一種輕量級的無人機道路裂縫檢測模型.相較于兩階段目標檢測算法,單階段目標檢測算法速度更快,實時性更強,更適用于實時檢測任務.盡管上述方法在一定程度上提升了裂縫檢測的精度,但是仍存在一些共性問題,如文獻[12-14]采用的兩階段目標檢測算法檢測速度相對緩慢,難以適應對實時性要求較高的場景,文獻[17]所提出算法主要針對特征明顯且背景簡單的裂縫,而文獻[18]所提出的算法雖然保證了模型的輕量化,提升了檢測速度,但裂縫檢測精度仍有待提高.
針對裂縫特征提取效果不佳、背景干擾以及檢測精度與速度之間的不平衡問題,本文提出基于YOLOv8n-seg改進的YOLOv8-crack模型,具體如下:
1)針對裂縫細長且不規則的特性,引入動態蛇形卷積核,通過卷積核的自由選擇以及連續性約束加強模型對裂縫特征的提取能力;
2)在無人機視角下,除裂縫主體外還存在大量干擾背景,為此,引入上下文增強模塊(Context Augmentation Module,CAM),擴大模型的感受野,增強模型對裂縫的理解能力;
3)針對裂縫數據集存在一定的低質量標注問題,引入Focal-GIoU損失函數優化裂縫數據集訓練效果.
1 YOLOv8-crack模型
YOLOv8是Ultralytics公司YOLO系列的最新版本,由骨干網絡(Backbone)、頸部網絡(Neck)和檢測頭(Head)2部分組成,它們的作用依次為特征提取、特征融合和預測.
本文采用動態蛇形卷積(Dynamic Snake Convolution) [19]對骨干網絡部分的C2f模塊進行改進.同時,在模型中引入上下文信息增強模塊CAM.最后,采用Focal-GIoU損失函數對預測框損失函數進行改進.將改進后YOLOv8-seg模型命名為YOLOv8-crack,其結構如圖1所示.圖1中,骨干網絡部分(Backbone)是模型的特征提取部分,采用Darknet-53框架,本文將基礎模型所串行的4個C2f模塊的首尾替換為DS_C2f模塊,并將Backbone末尾的SPPF模塊替換為CAM模塊.頸部網絡(Neck)是模型的特征融合部分,采用PAN-FPN(Path Aggregation Network-Feature Pyramid Network)的思想.檢測頭(Head)是模型的預測部分,包含3個擁有不同尺寸的檢測頭來對不同大小的目標物體進行檢測輸出,本文將基礎模型所采用的CIoU損失函數替換為Focal-GIoU損失函數.
1.1 C2f模塊改進
動態蛇形卷積核借鑒形變卷積核的思想,在方形卷積核中引入偏置量.在此基礎上,將方形卷積核在x軸和y軸方向拉直,進一步貼近細長條狀物結構.同時,為保證卷積核在自由選擇時感受的連續性,將連續性約束加入卷積核的設計中,通過前一步位置對后一步位置的約束,使得卷積核在保證自由性的前提下保持連續性.卷積核在x軸和y軸上的擺動位置以及方向如式(1)、(2)所示.以卷積核在x軸上的擺動為例,通過定量c控制卷積核沿x軸方向運動,再通過偏置距離∑Δy控制卷積核在y軸方向偏置,從而完成卷積核的變形,如圖2所示.
式中:c={0,1,2,3,4};Kn±c,Km±c表示特征提取的位置;xn±c和xm±c表示在x軸上的前進距離;ym±c和yn±c表示在y軸上的前進距離;∑Δx和∑Δy分別表示卷積核在x軸和y軸上的偏置距離.
因為方形卷積核對于裂縫類細長不規則條狀物特征提取效果不佳,所以利用動態蛇形卷積核對作用為特征提取的骨干網絡部分進行修改,將動態蛇形卷積加入C2f模塊的Bottleneck中.動態蛇形卷積核能更好地獲取細小結構特征,有效提高細長狀結構物的檢測精度.
C2f模塊是一個重要的特征融合模塊,當特征圖輸入后,先經過一次卷積將通道數調整為輸入通道數的2倍,然后通過Spilt模塊將特征圖分為兩部分,一部分通過多個Bottleneck逐步提取特征后,再與另一部分進行拼接,最后通過一個卷積將拼接后的特征圖調整到所需的輸出通道數.
Bottleneck是C2f模塊的重要組成部分,由2個3×3的方形卷積核構成,其作用在于提高特征提取的能力.將這2個方形卷積核替換為動態蛇形卷積核形成一個新的模塊,命名為DS_Bottleneck,并對C2f模塊中的Bottleneck進行替換形成一個新的模塊,命名為DS_C2f,如圖3所示.
1.2 上下文信息增強模塊CAM
CAM的設計思路來源于人類識別物體的模式,如識別一只天空中的飛鳥時,若不結合上下文信息“天空背景”,則很難辨別,當加上“天空背景”時,就比較容易將其辨別為飛鳥.在橋梁裂縫檢測中同樣存在大量背景干擾,當加入CAM后,模型能得到上下文信息,即裂縫不是獨立存在,而是位于橋梁之上,這種思想的加入可以有效地降低背景干擾,進一步提高裂縫檢測精度.
本文將CAM模塊引入模型,使其能夠以不同卷積速率的空洞卷積獲得不同感受野的上下文信息,從而使得裂縫特征與其周圍的特征信息相結合,變相增強裂縫的特征信息,最終增強模型對裂縫的理解能力,提升模型在復雜背景下的抗干擾能力.
CAM模塊結構如圖4所示.將Backbone部分輸出的圖像經過空洞卷積,再將處理后的3個特征圖經Concat函數拼接后輸入網絡結構的下一層進行處理.
1.3 預測框損失函數優化
在損失函數計算方面,基線模型采用Task Aligned Assigner正樣本分配策略,由分類損失(BCE)和回歸損失(CIoU+DFL)2個部分的3個損失函數加權組合而成.針對基線模型CIoU損失函數在訓練時損失曲線振蕩以及正負樣本失衡問題,引入Focal-GIoU損失函數.Focal-GIoU損失函數由Focal損失函數和GIoU函數耦合而成.Focal損失函數定義如下:
式中:pt為模型對當前樣本的預測概率;αt為平衡因子,用來調整正負樣本的損失權重;γ是一個控制曲線弧度的超參.
Focal損失函數主要是為了解決單階段目標檢測中正負樣本數量極不平衡問題.在裂縫檢測模型訓練中,數據集中所呈現的正常區域遠大于裂縫區域.通過引入Focal損失函數,可以使模型聚焦裂縫區域,減少對非裂縫區域的過擬合,從而提高模型的裂縫檢測性能.
IoU是目標檢測中常用的評價指標,用于反映預測的效果,定義如下:
式中:A為預測檢測框;B為真實框.IoU的優點在于其具有尺度不變性以及滿足非負性和對稱性,但當兩個框之間沒有交集時,IoU值恒為0,損失值恒為1,此時,預測框和真實框之間的距離無法被衡量.而GIoU則引入最小包閉框概念,即能將預測框和真實框同時包裹的最小矩形框,定義如下:
式中:C為最小包閉框;A為預測檢測框;B為真實框;\表示相減.最小包閉框的引入解決了在IoU中兩個框之間沒有交集時出現的問題,GIoU能夠反映出兩框之間的重疊方式.因此,GIoU損失函數的使用可以更好地適應目標的形狀變化和尺度變化,提高裂縫檢測的精度.
結合式(3)—(6)可得Focal-GIoU損失函數的表達式如下:
2 實驗與分析
2.1 數據集與環境配置
本文采用的數據集為SDNET(Structural Defects Network)2018 [21]和Crack-seg(https://universe.roboflow.com/university-bswxt/crack-bphdr?).SDNET 2018包含大小為256×256(像素)可用混凝土裂縫圖像620張,通過翻轉、旋轉將數據集擴充到1 069張,并以4∶1的比例將數據集劃分為訓練集和驗證集;Crack-seg包含846張可用墻面裂縫圖像,通過翻轉、旋轉將數據集擴充到1 484張,并以4∶1的比例將數據集劃分為訓練集和驗證集.考慮到數據集樣本較少,在訓練過程中啟用mosaic數據增強方法,該方法隨機選擇數據集中4張圖片,隨機縮放后再隨機進行拼接,在有效擴充訓練數據集的同時增強模型的魯棒性.裂縫檢測模型訓練環境如表1所示.
訓練時,采用隨機權重進行訓練,批量大小設置為16,最大訓練周期輪數為500,為防止訓練輪數過多出現過擬合情況,將耐心值(patience)設置為50,采用最佳訓練權重構建裂縫檢測模型.
2.2 評價指標
為對裂縫檢測模型性能進行量化分析,采用不同的指標對模型進行綜合分析,具體如下:
式中:TP (真正例)表示模型在含有裂縫的圖像中正確檢測出裂縫;FN (假反例)表示模型在含有裂縫的圖像中沒有檢測出裂縫;TN (真反例)表示模型在不含裂縫的圖像中未將其他目標錯誤檢測為裂縫;FP (假正例)表示模型在不含裂縫的圖像中將其他目標錯誤檢測為裂縫;P表示模型準確率,即模型所預測裂縫中有多少比例為裂縫;R表示模型召回率,即在包含有裂縫的圖像中,模型所預測出含有裂縫圖像的比例;F1是P和R的調和平均數,兼顧了準確率和召回率;AP表示一類樣本平均準確率;mAP表示所有樣本平均準確率.mAP@50表示IoU閾值為0.5;mAP@50~95表示IoU閾值在0.5到0.95之間、間隔0.05所取得10個mAP值的平均值;FPS表示模型每秒處理的圖像幀數;GFLOPs,即每秒10億次的浮點運算數.
2.3 消融實驗
2.3.1 DS_C2f消融實驗
為驗證基于動態蛇形卷積核改進的DS_C2f在Backbone中的效果,在加入CAM模塊和Focal-GIoU損失函數的基礎上,設計11組消融實驗,選用不同組合對Backbone中連續的4個C2f進行部分替換和全部替換,消融實驗結果如表2所示.表中,方法列的x-y表示將x位置和y位置的C2f替換為DS_C2f,如1-2表示將位置1和位置2的C2f替換為DS_C2f,1-2-3表示將位置1和位置2以及位置3的C2f替換為DS_C2f.其中,1-4組合在檢測任務中展現了良好的性能優勢,尤其在精確度、召回率和mAP指標上表現突出,盡管其計算復雜度略高,但并未顯著影響其在檢測性能上的表現.
2.3.2 模塊消融實驗
以YOLOv8n-seg模型為基礎模型進行消融實驗,結果如表3所示.A、B、C模型是在基礎模型上分別加入DS_C2f、Focal-GIoU、CAM模塊后所得.由表3可知,Focal-GIoU和CAM的加入使得模型各項性能得到一定提升,但DS_C2f對模型產生了一定的負優化.其中,加入Focal-GIoU損失函數得到的B模型優化效果最佳.B模型的精度與基礎模型持平,R、mAP@50、mAP@50~95分別提升4.2%、2.1%和1.8%,FPS提升5幀/s.如圖5所示,將Focal-CIoU和Focal-GIoU損失函數分別加入基礎模型并與基礎模型的CIoU損失函數進行對比實驗,在耐心值設定為50輪的情況下,Focal-GIoU、CIoU在282輪收斂,Focal-CIoU在296輪收斂,Focal-GIoU、Focal-CIoU、CIoU的mAP@50分別為0.912、0.900、0.893.通過Focal和CIoU的耦合,證明了Focal的耦合能夠有效提升模型檢測精度.同時,Focal-GIoU在收斂輪數相同的情況下,收斂精度高于CIoU,也證明了Focal-GIoU對于基礎模型改進的有效性.
從模塊兩兩組合效果來看,DS_C2f在加入Focal-GIoU損失函數后(D模型),P、R、mAP@50分別提升2.4%、6.0%和1.9%;同樣,E、F模型中,各項指標均有所提升.最后,將所有改進加入基線模型得到G模型,G模型的P、R、mAP@50、mAP@50~95分別為0.899、0.886、0.940、0.794,相較于基線模型分別提升2.86%、4.48%、5.26%、3.93%,體現了本文改進的有效性和互補性.G模型的GFLOPs為14.4,FPS較基線模型有所下降,但仍可以達到147幀/s,能夠滿足實時檢測的要求.
2.4 對比試驗
2.4.1 模型對比實驗
為體現本文所提出改進在檢測精度和速度上的優越性和平衡性,將本文算法在相同硬件和數據集下與YOLO系列算法進行對比,包括YOLOv5n-seg、YOLOv9-c-dseg [22]和最新的YOLOv11n-seg,表4給出了不同算法的評價結果.
由表4可知,本文算法的各項評價指標與YOLOv9-c-dseg相當,但是YOLOv9-c-dseg的算法復雜度達368.6,遠高于本文算法,這也造成YOLOv9-c-dseg的檢測速度只有65幀/s,較本文算法降低82幀/s.YOLOv5n-seg、YOLOv8n-seg和YOLOv11n-seg的檢測速度高于本文算法,但是其他指標均低于本文算法.本文算法各項指標良好,檢測速度為147幀/s,能夠滿足實時檢測的需求.
2.4.2 數據集對比實驗
為證明改進模型的普適性,本文采用Crack-seg數據集對YOLOv8n-seg和本文算法在相同硬件和參數下進行訓練,訓練結果如表5所示.由表5可知,本文算法的P、R、mAP@50和mAP@50~95指標均優于YOLOv8n-seg,體現了本文改進算法的普適性.
2.5 可視化分析
在未參加訓練的SDNET 2018數據集中任意挑選30張裂縫圖像,使用表3中各模型進行檢測,裂縫檢測效果可視化對比如圖6所示.圖6中,黃色框表示誤識別,藍色框表示漏識別.在基礎模型的檢測結果(圖6a)中可以看到,基礎模型錯誤地將陰影區域識別為裂縫,且對于一些特征較弱的裂縫,基礎模型出現漏識別的情況.隨著多種改進的加入,模型的誤識別和漏識別概率逐漸下降,最終的G模型(圖6h)未出現誤識別情況,但對于一些特征弱的裂縫仍不可避免地出現漏識別情況.
3 結束語
本文提出一種改進YOLOv8n-seg的裂縫檢測算法,旨在提升橋梁裂縫檢測的準確性和效率.考慮到現有算法中裂縫識別的難點問題和無人機計算負擔,采用YOLOv8-seg參數量最小的n模型作為基線模型,主要從特征提取和損失函數方向對模型進行優化,通過加入動態蛇形卷積核改善模型對裂縫類不規則條狀物特征信息提取能力,加入上下文信息增強模塊CAM,擴大感受野,減少多余背景對裂縫檢測的干擾,從而提升模型裂縫檢測精度.此外,將損失函數替換為Focal-GIoU使得模型能夠更加關注裂縫區域,減少對非裂縫區域的過擬合.從消融實驗結果可以看出,本文所提出改進模型的mAP@50達到94%,實現了較大的精度提升,檢測速度達到147幀/s,能夠滿足無人機實時裂縫檢測需求.
為了進一步提高無人機裂縫檢測模型在復雜環境下的檢測精度,今后研究中將進一步收集不同環境、不同材質條件下的裂縫圖像以提高模型的泛化能力,使模型能夠更好地適應各種復雜的現實場景.同時,為增加檢測模型的應用范圍,將增加樣本類型如坑槽、腐蝕和修補等.此外,還將對算法進一步改進,提取裂縫檢測結果與設施之間的相對定位信息,使模型能夠更快速、準確地定位裂縫位置.
參考文獻
References
[1] 楊國俊,齊亞輝,石秀名.基于數字圖像技術的橋梁裂縫檢測綜述[J].吉林大學學報(工學版),2024,54(2):313-332
YANG Guojun,QI Yahui,SHI Xiuming.Review of bridge crack detection based on digital image technology[J].Journal of Jilin University (Engineering and Technology Edition),2024,54(2):313-332
[2] 秦海偉.基于圖像處理的橋梁裂縫識別及測量[D].上海:上海交通大學,2021
QIN Haiwei.Bridge crack recognition and measurement based on image processing [D].Shanghai:Shanghai Jiao Tong University,2021
[3] Xie R P,Yao J,Liu K,et al.Automatic multi-image stitching for concrete bridge inspection by combining point and line features[J].Automation in Construction,2018,90:265-280
[4] Jang K,An Y K,Kim B,et al.Automated crack evaluation of a high-rise bridge pier using a ring-type climbing robot[J].Computer-Aided Civil and Infrastructure Engineering,2021,36(1):14-29
[5] 謝文高,張怡孝,劉愛榮,等.基于水下機器人與數字圖像技術的混凝土結構表面裂縫檢測方法[J].工程力學,2022,39(增刊1):64-70
XIE Wengao,ZHANG Yixiao,LIU Airong,et al.Method for concrete surface cracking detection based on ROV and digital image technology[J].Engineering Mechanics,2022,39(sup1):64-70
[6] 鐘新谷,彭雄,沈明燕.基于無人飛機成像的橋梁裂縫寬度識別可行性研究[J].土木工程學報,2019,52(4):52-61
ZHONG Xingu,PENG Xiong,SHEN Mingyan.Study on the feasibility of identifying concrete crack width with images acquired by unmanned aerial vehicles[J].China Civil Engineering Journal,2019,52(4):52-61
[7] Sanchez-Cuevas P J,Ramon-Soria P,Arrue B,et al.Robotic system for inspection by contact of bridge beams using UAVs[J].Sensors (Basel,Switzerland),2019,19(2):E305
[8] 郭慶梅,劉寧波,王中訓,等.基于深度學習的目標檢測算法綜述[J].探測與控制學報,2023,45(6):10-20,26GUO Qingmei,LIU Ningbo,WANG Zhongxun,et al.Review of deep learning based object detection algorithms[J].Journal of Detection amp; Control,2023,45(6):10-20,26
[9] Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.June 23-28,2014,Columbus,OH,USA.IEEE,2014:580-587
[10] Girshick R.Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision (ICCV).December 7-13,2015,Santiago,Chile.IEEE,2015:1440-1448
[11] He K M,Gkioxari G,Dollár P,et al.Mask R-CNN[C]//2017 IEEE International Conference on Computer Vision (ICCV).October 22-29,2017,Venice,Italy.IEEE,2017:2980-2988
[12] 余加勇,李鋒,薛現凱,等.基于無人機及Mask R-CNN的橋梁結構裂縫智能識別[J].中國公路學報,2021,34(12):80-90
YU Jiayong,LI Feng,XUE Xiankai,et al.Intelligent identification of bridge structural cracks based on unmanned aerial vehicle and mask R-CNN[J].China Journal of Highway and Transport,2021,34(12):80-90
[13] Nayyeri F,Zhou J.Multi-resolution ResNet for road and bridge crack detection[C]//2021 Digital Image Computing:Techniques and Applications (DICTA).November 29-December 1,2021,Gold Coast,Australia.IEEE,2021:1-8
[14] 譚國金,歐吉,艾永明,等.基于改進DeepLabv3+模型的橋梁裂縫圖像分割方法[J].吉林大學學報(工學版),2024,54(1):173-179
TAN Guojin,OU Ji,AI Yongming,et al.Bridge crack image segmentation method based on improved DeepLabv3+ model [J].Journal of Jilin University (Engineering and Technology Edition),2024,54(1):173-179
[15] Sermanet P,Eigen D,Zhang X,et al.OverFeat:integrated recognition,localization and detection using convolutional networks[J].arXiv e-Print,2013,arXiv:1312.6229
[16] Redmon J,Divvala S,Girshick R,et al.You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:779-788
[17] 蔡逢煌,張岳鑫,黃捷.基于YOLOv3與注意力機制的橋梁表面裂痕檢測算法[J].模式識別與人工智能,2020,33(10):926-933
CAI Fenghuang,ZHANG Yuexin,HUANG Jie.Bridge surface crack detection algorithm based on YOLOv3 and attention mechanism[J].Pattern Recognition and Artificial Intelligence,2020,33(10):926-933
[18] Xiang X J,Hu H B,Ding Y,et al.GC-YOLOv5s:a lightweight detector for UAV road crack detection[J].Applied Sciences,2023,13(19):11030
[19] Qi Y L,He Y T,Qi X M,et al.Dynamic snake convolution based on topological geometric constraints for tubular structure segmentation[C]//2023 IEEE/CVF International Conference on Computer Vision (ICCV).October 1-6,2023,Paris,France.IEEE,2023:6047-6056
[20] Zhang Y F,Ren W Q,Zhang Z,et al.Focal and efficient IOU loss for accurate bounding boxregression[J].Neurocomputing,2022,506:146-157
[21] Dorafshan S,Thomas R J,Maguire M.SDNET2018:an annotated image dataset for non-contact concrete crack detection using deep convolutional neural networks[J].Data in Brief,2018,21:1664-1668
[22] Wang C Y,Yeh I H,Liao H Y M.YOLOv9:learning what you want to learn using programmable gradient information[J].arXiv e-Print,2024,arXiv:2402.13616
Drone-based bridge crack detection based on improved YOLOv8
TANG Feifei YANG Hao 1,2 LIU Na JIANG Min PANG Rong 1,3 ZHANG Peng 3 ZHOU Zelin 4
1School of Smart City,Chongqing Jiaotong University,Chongqing 400074,China
2Chongqing Geological and Mineral Surveying and Mapping Institute Co.,Ltd.,Chongqing 401121,China
3China Merchants Chongqing Highway Engineering Testing Center Co.,Ltd.,Chongqing 400072,China
4China 19th Metallurgical Group Corporation Limited,Chengdu 610031,China
Abstract To tackle the current challenges of low efficiency,poor performance,and inadequate real-time capabilities in bridge crack detection,this paper introduces a drone-based image detection method for bridge cracks using an improved YOLOv8 model.Firstly,the dynamic snake convolution kernel is integrated into the C2f module in the backbone of YOLOv8 to enhance the crack feature extraction.Then,the Context Augmentation Module (CAM) is introduced to improve the detection capability for small targets.Finally,the influence of low-quality datasets on detection results is reduced via optimizing the prediction box loss function.Experimental results show that the improved model achieves a GFLOPs of 14.4 and a mean Average Precision (mAP@50) of 94%,exhibiting a significant accuracy improvement compared to the baseline models.The detection speed reaches 147 frames per second,satisfying the requirements for real-time crack detection by UAVs.
Key words drone image;bridge crack detection;YOLOv8;dynamic snake convolution;deep learning
收稿日期2024-09-27
資助項目重慶市技術創新與應用發展專項重點項目(CSTB2022TIAD-KPX0098)
作者簡介 唐菲菲,女,博士,教授,研究方向為無人機、三維激光掃描和深度學習.tangfeifei@cqjtu.edu.cn
楊浩(通信作者),男,碩士生,研究方向為無人機目標檢測.622220100002@mails.cqjtu.edu.cn