一、前言
隨著無人機(jī)在工業(yè)、農(nóng)業(yè)、物流和安保等領(lǐng)域的廣泛應(yīng)用,其帶來的技術(shù)革新日益顯著。然而,一些不法分子也利用無人機(jī)體積小、機(jī)動(dòng)性強(qiáng)、易于藏匿等特性[2,在高安全區(qū)域(如監(jiān)獄)實(shí)施非法監(jiān)控、投送違禁品甚至滲透破壞,嚴(yán)重威脅監(jiān)獄安防。尤其是低空小目標(biāo)無人機(jī),因其飛行速度快、反射面積小,常規(guī)單一識別手段難以及時(shí)、準(zhǔn)確預(yù)警與攔截,造成較大安全隱患[3]。多模融合識別技術(shù)所依賴的核心在于對不同波段、不同成像機(jī)制和不同數(shù)據(jù)處理模式的兼容與充分挖掘,既能夠各自發(fā)揮分辨率高、全天時(shí)與全天候觀測、遠(yuǎn)距離監(jiān)測等不同優(yōu)勢,又能夠通過多源信息的互補(bǔ)性降低單一傳感器誤檢與漏檢的風(fēng)險(xiǎn),從而顯著提升對低空飛行小目標(biāo)的識別效率與準(zhǔn)確率[4。監(jiān)獄環(huán)境復(fù)雜,受地形封閉、建筑密集、雜波干擾等因素影響,若單純依賴單一模式下的圖像或信號特征,極易出現(xiàn)目標(biāo)失鎖或錯(cuò)誤識別。而多模融合可通過多源感知數(shù)據(jù)的一次測量處理、二次特征提取和三次融合決策,大大提高對小目標(biāo)無人機(jī)的準(zhǔn)確判定能力,并有效降低環(huán)境噪聲和復(fù)雜背景的影響[5-。在多模融合識別技術(shù)中,關(guān)鍵挑戰(zhàn)主要體現(xiàn)在三個(gè)方面:一是融合識別機(jī)制的設(shè)計(jì),即如何建立可適應(yīng)光學(xué)、紅外和雷達(dá)不同頻段特性的統(tǒng)一特征表示和判別模型,兼顧各自的數(shù)據(jù)結(jié)構(gòu)差異并挖掘深層次關(guān)聯(lián)信息[。二是自適應(yīng)推理方法的構(gòu)建,需要針對監(jiān)獄環(huán)境中變化多端的背景干擾以及無人機(jī)行為模式,設(shè)計(jì)具備泛化能力的推理策略,實(shí)現(xiàn)對多源觀測信息的彈性容錯(cuò)和動(dòng)態(tài)加權(quán)。三是驗(yàn)證模型的構(gòu)建與評估,在實(shí)際應(yīng)用中必須通過足夠豐富的實(shí)測及模擬場景對所提出的多模融合算法進(jìn)行檢驗(yàn),對識別準(zhǔn)確率、實(shí)時(shí)性以及對抗干擾能力進(jìn)行系統(tǒng)性評價(jià),從而確保模型具有工程可行性和穩(wěn)定性[8-9]。針對監(jiān)獄場景中低空小目標(biāo)無人機(jī)潛在威脅,本文提出融合光學(xué)、紅外及雷達(dá)數(shù)據(jù)的多模識別框架,系統(tǒng)構(gòu)建跨模態(tài)特征表達(dá)與自適應(yīng)推理機(jī)制,并通過實(shí)測數(shù)據(jù)對識別模型進(jìn)行系統(tǒng)驗(yàn)證。研究顯著提升小目標(biāo)探測的精度與穩(wěn)定性,為低空空域安防體系提供了理論依據(jù)與可行的技術(shù)路徑,總體技術(shù)路線圖如圖1所示。
二、數(shù)據(jù)來源及預(yù)處理
本文選用Anti-UAV-RGBT數(shù)據(jù)集作為基線數(shù)據(jù)。該數(shù)據(jù)集由中國科學(xué)院大學(xué)視覺實(shí)驗(yàn)室于2021年發(fā)布,是當(dāng)前無人機(jī)目標(biāo)檢測與跟蹤領(lǐng)域最具代表性的多模態(tài)基準(zhǔn)之一,專為復(fù)雜環(huán)境下的微小自標(biāo)識別設(shè)計(jì)。數(shù)據(jù)集中包含318對全高清RGB與熱紅外視頻序列,涵蓋多種無人機(jī)模型在不同背景與光照條件下的飛行場景,具備高精度與高可靠性。Anti-UAV-RGBT未對多模態(tài)數(shù)據(jù)進(jìn)行配準(zhǔn)處理,保留了模態(tài)間的自然差異,從而提升了算法在真實(shí)應(yīng)用中的泛化能力,契合本文對跨模態(tài)視覺感知的研究需求。本文對原始視頻數(shù)據(jù)進(jìn)行了幀抽取與格式組織。為避免數(shù)據(jù)冗余和降低計(jì)算負(fù)載,采用定時(shí)抽幀策略以壓縮數(shù)據(jù)體量,并保留目標(biāo)運(yùn)動(dòng)的關(guān)鍵動(dòng)態(tài)特征。每對RGB與IR視頻在處理時(shí)保持同步,抽幀后的圖像保存為JPEG,并依據(jù)原始路徑結(jié)構(gòu)組織,確保數(shù)據(jù)讀取與標(biāo)簽匹配的一致性。
圖1總體技術(shù)路線圖

圖2多模融合技術(shù)路線圖

為進(jìn)一步支持后續(xù)的跨模態(tài)實(shí)驗(yàn),利用對齊的RGB-IR幀對作為先驗(yàn)條件,結(jié)合電磁散射模型,可在一致的物理參數(shù)設(shè)定下生成對應(yīng)的合成孔徑雷達(dá)(SAR)圖像,實(shí)現(xiàn)高一致性三模態(tài)數(shù)據(jù)構(gòu)建。此方法不僅彌補(bǔ)了真實(shí)SAR數(shù)據(jù)稀缺的問題,還可靈活設(shè)定入射角、極化方式等參數(shù),適用于多種場景與氣象條件。
三、關(guān)鍵技術(shù)及解決途徑
(一)無人機(jī)信息多模融合問題及解決
在多模態(tài)無人機(jī)遙感圖像的配準(zhǔn)任務(wù)中,受限于成像高度差異、傳感器異構(gòu)性以及復(fù)雜地形環(huán)境的干擾,常常面臨圖像尺度不一致、模態(tài)語義差異顯著以及高分辨率計(jì)算開銷巨大的三重挑戰(zhàn),嚴(yán)重制約了現(xiàn)有配準(zhǔn)方法在實(shí)際場景中的適用性與穩(wěn)定性。首先,尺度變換與幾何失配使得傳統(tǒng)單尺度對齊方法難以應(yīng)對大范圍錯(cuò)位與非剛性形變,導(dǎo)致配準(zhǔn)精度下降。針對該問題,引入多尺度特征提取機(jī)制,基于特征金字塔網(wǎng)絡(luò)構(gòu)建自粗至細(xì)的分層特征表達(dá)結(jié)構(gòu),不僅增強(qiáng)了圖像對齊對尺度變化的魯棒性,同時(shí)實(shí)現(xiàn)了全局語義與局部細(xì)節(jié)的協(xié)同建模。其次,傳統(tǒng)基于SIFT或ORB等局部描述的匹配方法在面對紅外與可見光等模態(tài)差異顯著的圖像時(shí),易受光照變化與遮擋干擾,難以提取穩(wěn)定的語義一致特征。為此,本文構(gòu)建基于Transformer的對齊網(wǎng)絡(luò),利用自注意力機(jī)制建模長距離依賴關(guān)系,顯著提升跨模態(tài)之間的語義聯(lián)通性與特征融合能力,突破了異源圖像之間語義對齊的瓶頸。最后,考慮到標(biāo)準(zhǔn)Transformer在高分辨率圖像處理中的計(jì)算復(fù)雜度為O(N2),顯存需求呈指數(shù)級增長,本文進(jìn)一步引入可變形注意力機(jī)制,僅關(guān)注關(guān)鍵區(qū)域特征點(diǎn),在保證配準(zhǔn)性能的同時(shí),有效緩解了內(nèi)存資源壓力,顯著提升了模型在邊緣設(shè)備上的部署效率。本文提出了一種融合多尺度特征表達(dá)、Transformer語義建模與可變形注意力優(yōu)化的高效配準(zhǔn)框架,如圖2所示。
(二)Yolo11自適應(yīng)推理方法構(gòu)建
Yolo11網(wǎng)絡(luò)主要分為下面三個(gè)部分。
1.主干特征提取網(wǎng)絡(luò)
YOLO11的骨干網(wǎng)絡(luò)負(fù)責(zé)從輸入圖像中提取多尺度特征。這一過程包括一系列卷積層和定制模塊,用于生成不同分辨率下的特征圖。YOL011引入了C3k2模塊,保留了前代中的快速空間金字塔池化模塊(SPPF),并新增了C2PSA模塊以增強(qiáng)性能。
卷積層:YOLO11首先通過一系列卷積層對輸入圖
表1可見光識別結(jié)果圖及模型對比

表2紅外識別結(jié)果及模型對比

表3SAR識別結(jié)果及模型對比

像進(jìn)行下采樣:
Conv1=Conv(I, 64, 3, 2)
Conv2=Conv(Conv1,128,3,2)
這些卷積層在逐步降低空間分辨率的同時(shí)增加特征圖的通道深度。
C3k2模塊:YOLO11用更高效的C3k2模塊取代了YOLOv8中使用的C2f模塊。C3k2基于CSP網(wǎng)絡(luò)結(jié)構(gòu),包含兩個(gè)較小的卷積操作(卷積核大小為2),以降低計(jì)算成本同時(shí)保持性能。該模塊的數(shù)學(xué)表達(dá)見式(1):
C3k2(X)=Conv(Split(X))+Conv(Merge(Split(X)))(1)
Split(X)將特征圖劃分為兩部分,其中一部分通過瓶頸結(jié)構(gòu)處理,Merge\"則將輸出重新融合。
SPPF與C2PSA模塊:
SPPF模塊在YOLO11中被保留,用于執(zhí)行多尺度的空間池化操作,其公式見式(2):

YOLO11引入了C2PSA模塊,用于增強(qiáng)特征圖的空間注意力機(jī)制,有助于模型聚焦圖像中最相關(guān)的區(qū)域,
從而提升在小目標(biāo)和被遮擋目標(biāo)上的檢測性能,表示見式(3):
C2PSA( X)
Attention( Concat( Xpath1 , Xpath2 )) (3)
2.Neck 層
YOLO11的Neck被設(shè)計(jì)用于聚合來自不同分辨率的特征圖,并將其傳遞給檢頭。YOLO11在Neck中集成了C3k2模塊,以提升特征聚合的速度與性能。
特征聚合:Neck使用上采樣和拼接層,將來自不同尺度的特征圖進(jìn)行融合,見式(5)、式(6):
Featureupsample=Upsample(Featureprevious)

在拼接后使用C3k2模塊,確保特征聚合的高效性:
C3k2neck=Convsmall(Concat(Featureconcat))
3.檢測頭部
檢測層(DetectionLayers):YOLO11在三個(gè)尺度上設(shè)置了檢測層—小尺度(P3)、中尺度(P4)和大尺度(P5),以實(shí)現(xiàn)對不同大小目標(biāo)的檢測。每個(gè)尺度處理不同層次的特征圖,確保模型在檢測大型與小型無人機(jī)時(shí)都具備良好性能。
其整體檢測輸出形式見式(7):
Detect ( P3 , P4 , P5 )
BoundingBoxes+ClassLabels (7)
四、結(jié)果與性能評估
為了評估經(jīng)過多模態(tài)融合的YOLO11在無人機(jī)檢測數(shù)據(jù)集上的性能,使用了多種標(biāo)準(zhǔn)的對象檢測指標(biāo)。這些指標(biāo)有助于全面評估模型的準(zhǔn)確性、魯棒性和效率,并能夠與其他模型結(jié)果進(jìn)行直接比較。
精度評價(jià)指標(biāo)見表1、2、3。
根據(jù)實(shí)驗(yàn)數(shù)據(jù),多模態(tài)融合算法Improve-YOLOv11在可見光(VIS)、紅外(IR)及合成孔徑雷達(dá)(SAR)三種模態(tài)下的目標(biāo)檢測任務(wù)中均表現(xiàn)出顯著優(yōu)勢。與現(xiàn)有主流算法相比,其在各項(xiàng)關(guān)鍵性能指標(biāo)上均實(shí)現(xiàn)了全面提升,充分驗(yàn)證了多模態(tài)融合機(jī)制在復(fù)雜環(huán)境下的有效性與必要性。
在可見光模態(tài)中,Improve-YOLOv11實(shí)現(xiàn)Precision為0.983、Recall為0.978、F1-score達(dá)到0.980,mAP@0.5 高達(dá)0.991, mAP@0.5:0.95 達(dá)到0.812,顯著優(yōu)于其他對比模型。其中,Original-YOLOvl1雖具備一定競爭力,但在更具挑戰(zhàn)性的 mAP@0.5:0.95 指標(biāo)上表現(xiàn)明顯不足,僅為0.783。YOLOv10與YOLOv8的性能進(jìn)一步下降,特別是在 mAP@0.5:0.95 指標(biāo)上分別為0.754和0.721,說明在高精度定位任務(wù)中,傳統(tǒng)模型在細(xì)粒度特征建模方面存在明顯不足。
紅外模態(tài)因成像過程中易受到熱噪聲、低對比度和分辨率限制的影響,對檢測算法的魯棒性要求更高。即便如此,Improve-YOLOvl1在該模態(tài)下仍展現(xiàn)出優(yōu)越性能,Precision和Recall分別為0.956和0.953,F(xiàn)1-score達(dá)到0.954, mAP@0.5 為0.962, mAP@0.5:0.95 達(dá)到0.726,顯著優(yōu)于Original-YOLOv11以及YOLOv10和YOLOv8。這一結(jié)果表明,多模態(tài)融合能夠有效緩解紅外模態(tài)中信息缺失帶來的性能瓶頸,提升在弱光或復(fù)雜背景下的識別穩(wěn)定性。
在SAR模態(tài)中,Improve-YOLOv11同樣展現(xiàn)出強(qiáng)大的跨模態(tài)遷移能力,其性能指標(biāo)幾乎與VIS模態(tài)持平。相比之下,Original-YOLOvl1在SAR場景中的mAP@0.5:0.95 僅為0.650,而YOLOv10與YOLOv8更低,分別為0.600和 0.550 考慮到SAR成像特性中普遍存在的speckle噪聲、低對比度以及幾何畸變問題,傳統(tǒng)檢測器難以準(zhǔn)確取邊緣與結(jié)構(gòu)信息,而多模態(tài)方法通過引入額外模態(tài)的語義與紋理支持,顯著提升了其在此類高挑戰(zhàn)場景下的表現(xiàn)。
五、結(jié)語
本文圍繞小目標(biāo)識別中的多模態(tài)信息融合技術(shù)展開研究與設(shè)計(jì),實(shí)現(xiàn)了融合可見光、紅外、雷達(dá)等多源數(shù)據(jù)的識別系統(tǒng)。通過引入多模協(xié)同機(jī)制與特征對齊方法,有效解決了傳統(tǒng)單一模態(tài)在小目標(biāo)尺度、遮擋、弱特征情況下的識別精度不足問題。實(shí)驗(yàn)結(jié)果表明,所提出的方法在多個(gè)公開數(shù)據(jù)集上相較于單模輸入的識別精度有顯著提升,尤其在低信噪比或復(fù)雜背景下表現(xiàn)更為魯棒。系統(tǒng)實(shí)現(xiàn)方面,采用深度神經(jīng)網(wǎng)絡(luò)構(gòu)建多分支特征提取結(jié)構(gòu),并通過注意力機(jī)制、自適應(yīng)融合模塊優(yōu)化特征表達(dá)能力,提升了檢測模型對小目標(biāo)的感知能力。最終系統(tǒng)具備良好的工程部署能力,可適用于邊緣設(shè)備上的輕量化應(yīng)用。
參考文獻(xiàn)
[1]郭潤澤,孫備,孫曉永.無人機(jī)弱光條件下多模態(tài)融合目標(biāo)檢測方法[J].儀器儀表學(xué)報(bào),2025,46(01):338-350.
[2]那振宇,程留洋,孫鴻晨,等.基于深度學(xué)習(xí)的無人機(jī)檢測和識別研究綜述[J].信號處理,2024,40(04):609-624.
[3]鐘帥,王麗萍.無人機(jī)航拍圖像目標(biāo)檢測技術(shù)研究綜述[J].激光與光電子學(xué)進(jìn)展,2025.62(10):71-89.
[4]景建強(qiáng).無人機(jī)紅外遠(yuǎn)景目標(biāo)檢測及跟蹤算法研究[D].呼和浩特:內(nèi)蒙古大學(xué),2024.
[5]張佩賢.無人機(jī)監(jiān)測雷達(dá)信號處理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].西安:西安電子科技大學(xué),2022.
[6]任宇,趙輝.基于雙模態(tài)圖像融合的無人機(jī)行人目標(biāo)檢測 [J/ OL].計(jì)算機(jī)技術(shù)與發(fā)展,1-8[2025-07-03].
[7]張慶全,張培旭,李琦,等.無人機(jī)機(jī)場智能感知監(jiān)測應(yīng)用體系建設(shè)研究[J].測繪與空間地理信息,2025,48(S1):26-28.
[8]張琴,郭為安.深度學(xué)習(xí)小目標(biāo)檢測算法綜述[J/OL].計(jì)算機(jī)應(yīng)用研究,1-14[2025-07-03].
[9]郭正玉,劉浩宇,蘇雨.空戰(zhàn)目標(biāo)軌跡預(yù)測技術(shù)研究綜述[J].航空兵器,2024,31(02):32-43.
基金項(xiàng)目:2025年度河南省高等學(xué)校重點(diǎn)科研項(xiàng)目計(jì)劃“無人機(jī)偵測與反制策略在智慧監(jiān)獄安全防御體系中的構(gòu)建與優(yōu)化研究”(項(xiàng)目編號:25B520071)
作者單位:河南司法警官職業(yè)學(xué)院
責(zé)任編輯:王穎振鄭凱津