張雯瑋,傅啟凡,王營冠,傅衡成,魏 智,丁華澤
1.中國科學院上海微系統(tǒng)與信息技術(shù)研究所 中國科學院無線傳感網(wǎng)與通信重點實驗室,上海 201800
2.中國科學院大學,北京 100864
炮彈射擊與空中投彈等訓練效果評估是現(xiàn)代軍事訓練中的重要內(nèi)容,目前仍以人工報靶方式為主,即需要相關(guān)人員進入靶場測量彈著點與靶標之間的偏移量實現(xiàn)訓練效果評價,存在實時性差、效率低、危險系數(shù)高等問題。因此,在靶場環(huán)境下實現(xiàn)快速自動報靶,對于相關(guān)部隊日常訓練意義重大。
由于炮彈爆炸時會產(chǎn)生聲音、震動、火焰等特征信號,通過分析該類信號確定炮彈落點位置成為目前自動報靶系統(tǒng)的主流手段。利用聲音、震動信號[1]識別炮彈火焰的計算復(fù)雜度低,但是由于聲音、震動信號易受噪聲干擾和環(huán)境影響,導致定位結(jié)果偏差較大;同時聲音、震動傳感器部署受陣列孔徑、陣型限制,部署難度大。而圖像識別技術(shù)的硬件部署要求低,定位準確度高,且不受風力、風向、溫度、地質(zhì)條件等影響。因此利用圖像識別技術(shù)準確捕捉爆炸產(chǎn)生的火焰,從而準確定位炮彈落點的方法成為目前的研究熱點。由于圖像識別技術(shù)針對炮彈火焰的定位主要依賴于所檢測到的炮彈火焰輪廓的精確度,所以需要對爆炸火焰的外部輪廓進行高精度分割。因此,如何準確分割炮彈火焰,就成為自動報靶系統(tǒng)的核心關(guān)鍵技術(shù)問題。
基于圖像方法的傳統(tǒng)火焰分割技術(shù)大多使用多級模式識別,主要環(huán)節(jié)包括特征的檢測、識別、分類等,火焰特征提取是算法流程的基礎(chǔ)。其特征主要分為靜態(tài)特征與動態(tài)特征,靜態(tài)特征主要包括:火焰顏色[2-3]、紋理[4]、形狀[5]等。火焰的動態(tài)特征主要體現(xiàn)為時域上的獨特性質(zhì),比如火焰在燃燒時不斷閃爍跳動并伴有形狀的變化。前期研究中,通過幀間差分法[6]、小波變換[7]、傅里葉變換[8]等方法對火焰的動態(tài)特征進行提取。基于圖像的傳統(tǒng)火焰分割技術(shù)存在缺陷,需要研究者根據(jù)已有的信息手工進行特征的設(shè)計和調(diào)整,導致特征的抽取不夠充分,造成了分割結(jié)果精度不高、場景適應(yīng)性差等問題。
近年來,隨著計算機視覺快速發(fā)展,基于深度學習的語義分割算法被廣泛應(yīng)用。該類算法主要采用深度神經(jīng)網(wǎng)絡(luò)對圖像進行細粒度特征提取,對圖像中每個像素點進行類別標記,分割出目標區(qū)域,與傳統(tǒng)的基于特征的人工提取方法相比,該方法具有較強的魯棒性。Zhao 等人[9]提出了金字塔場景解析網(wǎng)絡(luò)(pyramid scene parsing network,PSPNet),利用層次全局先驗結(jié)構(gòu)減少不同子區(qū)域之間相關(guān)信息的損失。Chen 等人[10-13]提出Deeplab系列算法,通過空洞卷積層保留池化層的位置信息,同時引入空間金字塔池化模塊,并利用編碼器-解碼器結(jié)構(gòu)恢復(fù)空間信息獲取目標邊界。Yuan等 人[14]提 出OCRNet(object-contextual representations for semantic segmentation)算法,通過計算每個像素與各個目標區(qū)域之間的相關(guān)性,將像素分類問題轉(zhuǎn)化為物體區(qū)域分類問題,顯式地增強了同類別物體像素的貢獻。Zheng 等人[15]提出SETR(segmentation Transformer)算法,設(shè)計了漸進式上采樣以及多層次特征加總的編碼器結(jié)構(gòu),提高像素恢復(fù)的能力。Xie 等人[16]提出了SegFormer(simple and efficient design for semantic segmentation with Transformers)算法,利用分層結(jié)構(gòu)的Transformer編碼器以及結(jié)合局部與全局注意力的MLP解碼器,構(gòu)成一種簡單且性能強大的語義分割算法。Kirillov 等人[17]提出Pointrend 算法,針對邊界中分類模糊的點進行迭代訓練,達到高質(zhì)量高像素的要求。YU等人[18]提出Bisenet v2 算法,利用語義分支與細節(jié)分支分別獲取特征上下文信息以及局部細節(jié),并通過聚合模塊進行特征互補,保證一定精度的前提下,實現(xiàn)輕量級語義分割算法。隨著基于深度學習的語義分割算法持續(xù)創(chuàng)新,火焰特征提取由最初的淺層特征演化到深層特征[19-20]。朱紅等人[21]提出針對火焰圖像,采用深度學習Unet+ResNet的方法得到最佳分割效果。谷世舉等人[22]采用基于Unet[23]的語義分割模型對炮口火焰進行分割,該算法引入深度可分離卷積與殘差結(jié)構(gòu),提升炮口火焰的分割效果。寧陽等人[24]提出的改進DeeplabV3+的火焰分割與火情分析方法,添加低層特征,使之與高層特征相結(jié)合以捕捉更多的細節(jié)信息。路茗等人[25]提出基于顯著性目標檢測的改進火焰檢測算法,采用并列交叉的雙分支ResNet 和注意力機制網(wǎng)絡(luò),使網(wǎng)絡(luò)學習聚焦有用通道和空間位置的能力。
上述基于深度學習的語義分割算法中Unet、PSPNet、Deeplabv3、OCRNet等,均在整個圖像上分割火焰,分割結(jié)果易受黑煙、揚塵等背景雜質(zhì)的影響,因此無法滿足準確分割炮彈爆炸場景中火焰的要求。而SETR 以及SegFormer 算法在網(wǎng)絡(luò)中加入了注意力機制,能夠解決背景雜質(zhì)的影響,但是輸入序列較長導致參數(shù)量過大,對硬件要求高,部署難度大。除此之外,由于火焰的動態(tài)特性,在同一區(qū)域采集到的是不同狀態(tài)火焰的時間序列圖像,導致火焰樣本標記和結(jié)果驗證較為困難;并且在大多數(shù)情況下,火焰在圖像上所占的像素數(shù)量明顯少于背景像素數(shù)量,需要處理樣本不平衡問題。
針對上述問題,本文基于PSPNet算法提出PSP_FPT算法,用于挖掘圖像中的深層語義信息,使不同感受野的語義特征得到充分融合,以提升炮彈火焰分割任務(wù)的魯棒性、精確性以及場景實用性。本文的主要創(chuàng)新點:
(1)本文設(shè)計了雙向特征融合模塊(bidirectional feature pyramid network,Bi-FPN)促使全局池化模塊輸出的炮彈火焰圖像各子區(qū)域特征,在空間和語義上得到充分融合,以增強各子區(qū)域目標空間結(jié)構(gòu)之間的關(guān)聯(lián)性,提高算法的準確率。
(2)本文設(shè)計并提出了基于全注意力機制網(wǎng)絡(luò)的特征金字塔轉(zhuǎn)換(feature pyramid with transformer,F(xiàn)PT)模塊,利用全注意力機制網(wǎng)絡(luò),根據(jù)重要性對各個通道和空間特征進行自適應(yīng)調(diào)節(jié),聚焦有用信息,解決了火焰樣本數(shù)據(jù)不平衡的問題;同時,由于全注意力機制網(wǎng)絡(luò)中的不同多頭注意力機制能夠分別聚焦前、后景特征,因此可以提高炮彈火焰前景與黑煙、揚塵等背景雜質(zhì)之間的判別力,即可以在預(yù)測過程中更有效地排除黑煙等背景干擾,提高炮彈火焰目標的分割能力。
(3)本文針對算法復(fù)雜度問題,設(shè)計將金字塔池化模塊處理后的特征圖傳入全注意力機制網(wǎng)絡(luò)中,縮短輸入序列的長度,減少算法的參數(shù)量,提高算法的場景實用性。
本文提出的PSP_FPT算法結(jié)構(gòu)在PSPNet算法整體結(jié)構(gòu)的基礎(chǔ)上,設(shè)計了雙向特征融合模塊及基于全注意力機制網(wǎng)絡(luò)的特征金字塔轉(zhuǎn)換模塊,對金字塔池化模塊輸出的特征進行優(yōu)化處理,實現(xiàn)炮彈火焰的精準分割。
PSP_FPT 算法分為五個部分,分別為主干網(wǎng)絡(luò)、金字塔池化模塊、雙向特征融合模塊、基于全注意力機制網(wǎng)絡(luò)的特征金字塔轉(zhuǎn)換模塊以及全卷積分類網(wǎng)絡(luò)組成,算法框架結(jié)構(gòu)圖如圖1所示,PSP_FPT算法由主干網(wǎng)絡(luò)ResNet-34、金字塔池化模塊、雙向特征融合模塊、基于全注意力機制網(wǎng)絡(luò)的特征金字塔轉(zhuǎn)換模塊、全卷積分類網(wǎng)絡(luò)組成,核心模塊由雙向特征融合模塊以及基于全注意力機制網(wǎng)絡(luò)的特征金字塔轉(zhuǎn)換模塊組成,其中雙向特征融合模塊對各池化特征進行上、下采樣與特征融合的操作組成。

圖1 PSP_FPT算法結(jié)構(gòu)Fig.1 Pipeline of PSP_FPT algorithm
第一部分為主干網(wǎng)絡(luò),將原始圖像剪裁為512×512的大小后,送入ResNet-34網(wǎng)絡(luò),提取Conv2_x、Conv3_x、Conv4_x、Conv5_x層,將后三層上采樣至Conv2_x相同尺寸,連接4層特征圖用于后續(xù)特征信息處理。
第二部分是金字塔池化模塊,將主干網(wǎng)絡(luò)輸出的特征圖傳入金字塔池化模塊。針對主干網(wǎng)絡(luò)輸出特征圖的全局以及1/4、1/9、1/36子區(qū)域分別進行全局平均池化操作。為了更好地獲得炮彈火焰的輪廓細節(jié),本文增加了12×12的池化層,即進一步獲得1/144子區(qū)域的目標特征。
第三部分是雙向特征融合模塊,將金字塔池化后的特征圖傳入雙向特征融合模塊,完成各池化特征圖的上、下采樣操作并與相應(yīng)的原池化特征圖連接。
第四部分是基于全注意力機制網(wǎng)絡(luò)的特征金字塔轉(zhuǎn)換模塊,將雙向特征融合模塊的輸出結(jié)果傳入全注意力機制網(wǎng)絡(luò)。網(wǎng)絡(luò)輸出帶有多頭注意力權(quán)重的特征圖,將其通過1×1 Conv 進行融合,對融合特征按尺寸進行排序,并連接相同空間維度的特征,通過卷積操作使該特征與金字塔池化模塊原始輸出特征維度相同,最終得到新的特征金字塔。將該特征金字塔各層進行上采樣,使它們與主干網(wǎng)絡(luò)輸出的原特征圖尺寸相同,將各層特征連接后輸出。輸出特征為全局交互的結(jié)果,從而達到圖像中各子區(qū)域目標的空間結(jié)構(gòu)以及語義信息得到充分理解的目的。
第五部分為全卷積分類網(wǎng)絡(luò),將融合后的特征圖經(jīng)過全卷積分類網(wǎng)絡(luò)輸出最終分割結(jié)果。
PSPNet[9]算法通過提出金字塔場景分析網(wǎng)絡(luò),對不同區(qū)域的語境進行聚合,使算法擁有理解全局語境信息的能力。該算法使用擴展后的全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN)進行像素級類別預(yù)測,同時擴展到全局金字塔池化模塊(pyramid pooling module,PPM),模塊結(jié)構(gòu)如圖2所示。

圖2 Pyramid Pooling Module模塊結(jié)構(gòu)Fig.2 Pipeline of Pyramid Pooling Module
該模塊針對主干網(wǎng)絡(luò)輸出的特征信息,基于不同尺度子區(qū)域進行全局平均池化操作,得到相應(yīng)池化特征圖,即1×1、2×2、3×3、6×6的特征圖。各池化特征圖經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)改變通道數(shù),輸出結(jié)果上采樣至主干網(wǎng)絡(luò)輸出的原特征圖尺寸并進行融合,以獲取圖像不同區(qū)域的特征信息,最后將融合結(jié)果通過卷積神經(jīng)網(wǎng)絡(luò)得到最終輸出結(jié)果。
為了將金字塔池化模塊中各子區(qū)域與全局目標特征進行相互關(guān)聯(lián),本文設(shè)計雙向特征融合模塊。該模塊由上、下采樣兩部分組成。
上采樣部分由自底向上特征融合(bottom-up feature fusion module,bottom-up FFM)模塊進行實現(xiàn),模塊結(jié)構(gòu)如圖3所示。

圖3 自底向上特征融合模塊Fig.3 Bottom-up feature fusion module
其中,為了將低層特征圖的像素屬性植入高層特征圖,該模塊首先針對低層特征圖進行雙線性插值,即通過已知像素點填充未知像素點,將低層特征圖放大至與對應(yīng)高層特征圖相同空間維度大小。由于低層池化特征圖的像素點較少,僅利用雙線性插值將空間維度為1×1、2×2 等低層池化特征圖進行對應(yīng)空間維度的像素恢復(fù)時,因低層池化特征圖的像素點較少,已知的鄰近像素點會出現(xiàn)嚴重缺失。這將導致圖像鄰域插值計算誤差性較大,恢復(fù)效果模糊的問題。因此本文在上采樣模塊中添加一層卷積神經(jīng)網(wǎng)絡(luò),新增一部分可學習參數(shù),用于預(yù)測對應(yīng)高層特征圖,使算法能夠通過參數(shù)學習,自適應(yīng)學習上采樣過程,盡可能還原特征圖信息。假設(shè)輸入特征數(shù)據(jù)為xi∈Rp×p×c(i=1,2,3,4,5),其中p×p為池化特征圖的空間維度大小;c為特征通道數(shù)。針對第j層池化特征圖xj(j=2,3,4,5),將第i層池化特征圖xi(i <j)通過雙線性插值上采樣至與xj相同空間維度,采樣結(jié)果與1×1×c的卷積核進行卷積,得到輸出結(jié)果yi。
下采樣部分由自頂向下特征融合模塊(top-down feature fusion module,Top-down FFM)實現(xiàn)。其中,為了將高層特征圖的概念屬性融入低層特征圖,該模塊針對高層特征圖采用卷積神經(jīng)網(wǎng)絡(luò)完成下采樣操作,模塊結(jié)構(gòu)如圖4所示。

圖4 自頂向下特征融合模塊Fig.4 Top-down feature fusion module
針對第j層池化特征圖xj(j=1,2,3,4),將第i層池化特征圖xi(i >j)輸入卷積神經(jīng)網(wǎng)絡(luò),得到輸出結(jié)果yi。綜上,雙向特征融合模塊,每個部分的輸出為:
其中,?(·)表示雙線性插值函數(shù),N(·)表示卷積操作。將雙向特征融合模塊輸出結(jié)果yi分別與各自對應(yīng)的池化特征圖xj進行融合,得到輸出結(jié)果:
其中,oi,j表示第i層池化特征圖xi采樣至與第j層池化特征圖xj相同空間維度得到輸出結(jié)果yi,將xj與yi融合得到輸出結(jié)果oi,j,在各層池化特征圖中實現(xiàn)目標各子區(qū)域特征的空間維度非局部性交互。
本文設(shè)計的雙向特征融合模塊用于解決因上下文信息交互不足導致的分割精度下降的問題。由于金字塔池化模塊輸出的各層特征圖包含分割目標在不同子區(qū)域的空間特征以及語義特征,通過將本層池化特征圖與其余各層池化特征圖對應(yīng)連接,使分割目標在不同子區(qū)域的空間特征得到相互印證,從而提高算法對語義特征的理解能力。此外,本文設(shè)計的雙向特征融合模塊能保留池化特征圖原有信息,更有利于提升各層上下文信息的交互能力。
炮彈火焰分割任務(wù)涉及針對不同尺寸大小目標的預(yù)測與分割,為了提高各子區(qū)域目標空間和語義信息融合的程度,加深對圖像深層語義信息的理解,提高像素級別的預(yù)測能力。本文設(shè)計了如圖5 所示FPT 模塊。該模塊主要利用全注意力機制網(wǎng)絡(luò)擴大感受野,加深整體網(wǎng)絡(luò)對圖像信息的理解[26]。

圖5 基于全注意力機制網(wǎng)絡(luò)的特征融合模塊結(jié)構(gòu)Fig.5 Feature fusion module structure based on full attention mechanism network
如圖5模塊結(jié)構(gòu)所示,首先利用全注意力機制網(wǎng)絡(luò)輸出帶有多頭注意力權(quán)重的特征圖,將其通過卷積神經(jīng)網(wǎng)絡(luò)進行融合;其次,對融合特征按尺寸進行重排,并使用殘差模塊,將其與各自原始相同空間維度的特征進行殘差連接;最后,通過卷積操作使該特征的維度與金字塔池化模塊原始輸出特征維度相同,得到新的特征金字塔。
其中,全注意力機制網(wǎng)絡(luò)相比于卷積神經(jīng)網(wǎng)絡(luò),更加關(guān)注全局信息,能夠為輸入特征建立與其距離更長的全局特征的依賴關(guān)系,對全局信息的捕捉能力強,因此可以提高算法非局部交互的能力。同時,利用網(wǎng)絡(luò)中的多頭注意力機制模塊,能夠使算法有選擇地聚焦于輸入的某些部分,使得推理更加高效。全注意力機制網(wǎng)絡(luò)的結(jié)構(gòu)與大多數(shù)端到端模型一致,由編碼器與解碼器組成,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。

圖6 全注意力機制網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Full attention mechanism network structure
編碼器部分含有兩個相同的模組,各模組內(nèi)部單元包括多頭注意力機制(multi-head attention,MHA)以及前饋神經(jīng)網(wǎng)絡(luò)(feed forward network,F(xiàn)FN),同時為每個單元添加殘差模塊(residual module)和層歸一化(layer normalization,LN)模塊。其中,多頭注意力機制是由多個注意力層拼接合成,即對同一特征圖進行多次映射,使算法學習聚焦同一特征圖,針對不同目標的感興趣區(qū)域,提高算法對目標與背景的辨別力;同時,由于多頭注意力機制利用各自獨立隨機初始化的權(quán)重矩陣學習對應(yīng)的查詢矩陣、鍵矩陣及實值矩陣,使特征圖映射到不同子空間中,進一步豐富了信息的表達,進而使特征圖的語義信息更加充分。公式如下所示:
其中,Q表示注意力層的查詢矩陣,K表示注意力層的鍵矩陣,V表示注意力層的實值矩陣,它們分別由輸入向量通過全連接層輸出得到。dk表示輸入向量的通道維度,用以防止向量分布不均勻,Attn(n=1,2,…,n)表示注意力權(quán)重,Matt表示將多頭注意力權(quán)重進行連接后的結(jié)果。解碼器和編碼器的結(jié)構(gòu)類似,區(qū)別在于其多一個多頭注意力機制模塊。
在基于全注意力機制網(wǎng)絡(luò)的特征金字塔轉(zhuǎn)換模塊中,首先將雙向特征融合模塊的輸出oi,j∈Rp×p×2c(i,j=1,2,3,4,5) 通過卷積神經(jīng)網(wǎng)絡(luò)壓縮成(i,j=1,2,3,4,5),然后利用全注意力機制網(wǎng)絡(luò)得到各池化特征圖全局交互后的增強特征:
其 中,pi,j∈Rp×p×c(i,j=1,2,3,4,5) 表示增強特征,A(·)表示全注意力機制網(wǎng)絡(luò)。
之后,對增強特征pi,j按尺寸進行排序,將維度大小相同的特征疊加,并與輸入的池化特征xj進行殘差連接:
全注意力機制網(wǎng)絡(luò)中的部分編碼器、解碼器以及頭部的空間注意力特征圖如圖7所示。

圖7 全注意力機制網(wǎng)絡(luò)內(nèi)部部分注意力權(quán)重Fig.7 Parts of spatial attention maps in full attention mechanism network
圖中concat_featuresi-j表示第i層池化特征圖經(jīng)采樣后與第j層池化特征圖融合后的結(jié)果,attn_every_headsi-j、enc_attn_weightsi-j、dec_attn_weightsi-j分別表示融合結(jié)果經(jīng)過全注意力機制網(wǎng)絡(luò)輸出的總體注意力權(quán)重圖以及對應(yīng)的編、解碼器內(nèi)部的注意力權(quán)重圖,圖中淺色部分表示相對重要的區(qū)域,其中attn_every_headsi-j與增強特征pi,j表示相同含義。由圖7可見,各全注意力機制網(wǎng)絡(luò)對不同融合特征圖所聚焦的空間位置信息不同。因此,利用全注意力機制網(wǎng)絡(luò)能夠聚合不同融合特征圖的語義與空間信息,提高算法的非局部性交互;同時,效仿空間和通道維度中的語義關(guān)聯(lián)性,找出對最終分類決策起到重要影響的像素區(qū)域,確保目標分割的準確性。
FPT 模塊結(jié)合Bi-FPN 模塊,將子區(qū)域特征圖中的概念屬性植入全局特征圖的像素屬性;同時,用全局特征圖中的像素屬性渲染子區(qū)域特征圖中的概念屬性;同層中使用相同尺度內(nèi)不同空間之間的非局部交互,使得輸出的特征圖為全局交互的結(jié)果。最終,實現(xiàn)不同空間以及不同維度的非局部性交互,既能得到更大感受野,又可以捕捉到更為細節(jié)的特征信息,解決原本金字塔池化模塊丟失目標輪廓細節(jié)信息的問題。
目前,由于很少有公開基于靶場的炮彈火焰數(shù)據(jù)集,本文訓練圖像數(shù)據(jù)集主要來源于真實靶場射擊訓練過程中的炮彈火焰照片。在某靶場射擊區(qū)域四周各角點處安裝4 臺高速攝像機,每臺攝像機幀率為20 幀/s,圖像分辨率為4 096×2 180。在靶區(qū)內(nèi)進行日常射擊訓練時,4臺高速攝像機會實時拍攝靶區(qū)內(nèi)炮彈落地爆炸后的火焰圖像。在數(shù)據(jù)集中炮彈火焰所占的像素數(shù)量明顯少于背景像素數(shù)量,為減少存儲容量,優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)的訓練,本文將原始數(shù)據(jù)集以火焰區(qū)域為中心裁剪為608×608大小的圖片。本文的炮彈火焰數(shù)據(jù)集,包含1 459張炮彈火焰圖像,數(shù)據(jù)集效果圖如圖8所示,其中左邊為原圖,右邊為語義分割標記結(jié)果。

圖8 炮彈火焰數(shù)據(jù)集示例Fig.8 Artillery flame dataset example
本文算法在訓練過程中采用隨機梯度下降優(yōu)化器,數(shù)據(jù)批次大小為4,學習率設(shè)置為1E-4,動量為0.9,權(quán)重衰減為1E-5。本文評價模型選取平均交并比mIOU(mean intersection over union)以及平均準確度mAcc(mean accuracy)作為像素級語義分割的評價指標,采用混淆矩陣的方法,公式如下所示:
其中,pii(i=j)表示原本為第i類,同時預(yù)測為第i類,即真陽性和真陰性;pij(i≠j)表示原本為第i類被預(yù)測為第j類,即假陽性和假陰性。平均交并比是算法在所有測試集上每類真實標簽和預(yù)測值的交和并的比值的平均值,用于衡量預(yù)測結(jié)果與真實值之間的重疊度;平均準確率是算法在所有測試集上每類預(yù)測正確的數(shù)量與每類總體數(shù)量的比值的平均值,用于衡量預(yù)測結(jié)果的精確度。
本文實驗使用Python3.7,Pytorch 框架,在顯存為11 GB的TiTan V GPU上運行。
本文為了驗證Bi-FPN 模塊與FPT 模塊的有效性,進行了消融實驗。消融實驗結(jié)果如表1所示。

表1 消融實驗實驗結(jié)果Table 1 Ablation experimental results
從實驗結(jié)果中可以看出PSP_FPT算法的有效性,具體分析如下:
(1)針對Bi-FPN 模塊進行消融實驗。其中,去除Bi-FPN 模塊后,mIOU 下降3.94 個百分點,mAcc 下降1.25 個百分點。主要原因在于:去除Bi-FPN 模塊后的算法,將空間維度為1×1、2×2等的池化特征圖直接通過全注意力機制網(wǎng)絡(luò)輸出,其輸出的注意力權(quán)重信息有限,且各子區(qū)域的深層語義信息與淺層空間信息無法進行交互,導致預(yù)測效果欠佳。本文提出的雙向特征融合模塊能夠有效地將不同層信息進行融合,使得像素級的分類準確率大幅提升。
(2)針對FPT 模塊的消融實驗,本文引入了基于卷積神經(jīng)網(wǎng)絡(luò)的金字塔轉(zhuǎn)換模塊(feature pyramid with CNN,F(xiàn)PC),兩者區(qū)別在于對Bi-FPN 模塊輸出后的特征處理:FPC 模塊采用卷積神經(jīng)網(wǎng)絡(luò),而FPT 模塊則使用全注意力機制網(wǎng)絡(luò)。從實驗結(jié)果可知,F(xiàn)PT模塊性能更佳,其mIOU優(yōu)于FPC模塊4.03個百分點,mAcc優(yōu)于FPC 模塊1.35 個百分點。主要原因在于全注意力機制網(wǎng)絡(luò)能夠分析空間信息的重要程度,并對特征進行重新映射,將圖像中不同區(qū)域進行分別處理。進一步分析,全注意力機制網(wǎng)絡(luò)中的一部分注意力模塊將炮彈火焰區(qū)域作為感興趣區(qū)域,能夠較好地辨別前景分割目標特征,并完成高精度分割的任務(wù);而將背景作為感興趣區(qū)域,能夠較好地辨別濃煙、揚塵等背景干擾,將其與前景炮彈火焰特征加以區(qū)分;最后將多個全注意力機制網(wǎng)絡(luò)結(jié)果進行綜合分析,能夠確保目標分割的準確性。
此外,本文針對Bi-FPN 模塊以及FPT 模塊的算法復(fù)雜度進行計算,如表1 所示,實驗結(jié)果表明PSP_FPT算法通過犧牲1.448 GFLOPs 的算法復(fù)雜度,提升了3.94 個百分點的mIOU 指標以及1.26 個百分點的mAcc指標;同時,F(xiàn)PT模塊犧牲0.696 GFLOPs的算法復(fù)雜度,提升了0.41 個百分點的mIOU 指標以及1.83 個百分點的mAcc指標。實驗結(jié)果表明,Bi-FPN模塊以及FPT模塊通過消耗較小的算法復(fù)雜度換取較大的性能提升。
綜上所述,消融實驗結(jié)果表明使用PSP_FPT算法能夠更好地將特征圖的上下文空間、語義信息進行融合,對圖片達到深度理解的目的,提升語義分割算法的準確性和魯棒性。
為了更好地驗證PSP_FPT算法效果,本文的消融實驗增加了目前特征融合算法中性能最佳的特征金字塔網(wǎng)絡(luò)[27](feature pyramid network,F(xiàn)PN)與之做對比,如表2所示。

表2 對比特征融合模塊的消融實驗結(jié)果Table 2 Ablation experimental results for contrasting feature fusion module 單位:%
實驗結(jié)果表明本文的算法效果更佳,mIOU優(yōu)于FPN算法4.81個百分點,mAcc優(yōu)于FPN算法1.61個百分點。
綜合本次消融實驗的結(jié)果,PSP_FPT算法應(yīng)用于炮彈火焰數(shù)據(jù)集的語義分割效果最佳。
為了驗證PSP_FPT 算法對炮彈火焰目標分割的性能,本文對比基于深度學習的語義分割算法Deeplabv3[12]、Deeplabv3+[13]、OCRNet[14]等,實驗結(jié)果如表3所示。

表3 不同深度學習的語義分割算法對比實驗結(jié)果Table 3 Experimental results of different semantic segmentation algorithms with depth learning 單位:%
該實驗結(jié)果表明,PSP_FPT 算法的mIOU 以及mAcc 指標最優(yōu),證明PSP_FPT 算法對于炮彈火焰分割能力強,細節(jié)輪廓的處理表現(xiàn)最佳。
為了驗證PSP_FPT算法針對火焰目標的有效性,本文還加入了基于深度學習的火焰分割算法,改進的Unet[22]、改進的Deeplabv3+[24]、Bi-SegNet[25]等進行對比,實驗結(jié)果如表4所示。

表4 火焰分割算法對比實驗結(jié)果Table 4 Experimental results of different flame segmentation algorithms 單位:%
該實驗結(jié)果表明,PSP_FPT 算法的mIOU 以及mAcc 在基于深度學習的火焰分割算法中表現(xiàn)最優(yōu),證明PSP_FPT 算法在針對炮彈火焰特定目標的像素級分類能力最強,細節(jié)輪廓的處理表現(xiàn)最佳。
為了體現(xiàn)本文算法在工程部署上的優(yōu)勢,本文還引入了浮點運算數(shù)(Giga floating point operations,GFLOPs)指標,用來衡量算法復(fù)雜度。但是,由于炮彈火焰定位需要準確的分割結(jié)果用于滿足后續(xù)定位的工程需求,所以本文僅針對平均交并比高于95%的算法完成計算復(fù)雜度的對比實驗,實驗結(jié)果如表5所示。

表5 算法復(fù)雜度大小對比Table 5 FLOPs of different algorithms
從表5 結(jié)果可以看出,PSP_FPT 算法的算法復(fù)雜度最低,說明本文算法在保證炮彈火焰精準分割的前提下,仍能保持較低的計算復(fù)雜度,具有較好的場景實用性。
為了驗證PSP_FPT算法的有效性,本文還加入了目前主流的基于全注意力機制網(wǎng)絡(luò)的語義分割算法進行對比,實驗結(jié)果如表6所示。

表6 基于注意力機制的語義分割算法對比實驗結(jié)果Table 6 Experimental results of semantic segmentation algorithms based on attention mechanism 單位:%
從表6 中可以看出PSP_FPT 算法相較于使用Vit(vision Transformer)作為主干網(wǎng)絡(luò)的SETR算法和Seg-Former算法,mIOU分別提升了3.64個百分點和4.01個百分點,mAcc 分別提升了1.12 個百分點和1.37 個百分點,因此,PSP_FPT 算法在同類基于全注意力機制網(wǎng)絡(luò)的算法中,預(yù)測能力更強。以上三種語義分割算法模型大小結(jié)果如表7所示。
根據(jù)表7 結(jié)果可以看出,SETR 算法的參數(shù)量為本文算法的5.084倍,SegFormer算法較本文算法的參數(shù)量多23.86 MB,因此,本文使用全局池化過后的特征作為全注意力機制網(wǎng)絡(luò)的輸入可有效減小算法參數(shù)量。因此,本文算法在使用Transformer 的系列算法中參數(shù)量最小,場景實用性較強。
將本文算法與基礎(chǔ)算法PSPNet算法進行多項指標對比,如表8所示,F(xiàn)P(false positive)用于驗證算法對圖像中炮彈火焰目標的誤檢率,TP(true positive)為火焰分割的準確率,F(xiàn)N(false negative)用于驗證算法對于炮彈火焰目標的漏檢率,TN(true negative)為背景分割的準確度。

表8 本文算法與PSPNet算法對比結(jié)果Table 8 Comparison results between PSP_FPT and PSPNet單位:%
如表8 所示,PSP_FPT 算法相較于PSPNet 算法,其誤檢率僅為1.91%,漏檢率僅為0.14%,證明該算法有較強的抗干擾能力和魯棒性。同時,相較于PSPNet算法,火焰的誤檢率降低了4.19個百分點,背景分割的準確度提高了0.38個百分點,證明本文算法能夠更精細地分割目標輪廓,有效解決了PSPNet 算法對目標細節(jié)輪廓分割效果欠佳的問題。
本次實驗結(jié)果如圖9所示,從圖(a)可以看出,本文算法在對小目標分割時,仍然保持較高的分割能力,解決了樣本不平衡的分類問題;從圖(b)和圖(d)的標注框中可以看出,PSP_FPT算法對于目標輪廓的細節(jié)處理更強,能夠?qū)⑴趶椈鹧孢吘壍奈⑿∽兓M行精準預(yù)測;從圖(c)的標注框中可以明顯看出,PSPNet算法將炮彈火焰的煙霧誤認為是火焰本體,相反PSP_FPT算法能夠排除炮彈爆炸產(chǎn)生的煙霧、揚塵干擾,魯棒性強,能夠更準確地識別出炮彈火焰的輪廓,說明算法對于炮彈火焰特征的學習與篩選準確,確保后續(xù)針對火焰定位的精準性。

圖9 基于PSP_FPT網(wǎng)絡(luò)的炮彈火焰圖片語義分割結(jié)果Fig.9 Semantic segmentation results of artillery flame image based on PSP_FPT
總體對比實驗結(jié)果如圖10所示。

圖10 對比實驗結(jié)果Fig.10 Comparative experimental results
根據(jù)實驗結(jié)果分析,PSP_FPT 算法誤檢率低,對于炮彈火焰輪廓的細節(jié)處理準確,環(huán)境適應(yīng)性強、魯棒性高,能夠為后續(xù)炮彈目標定位提供有效的條件基礎(chǔ)。
針對火焰的動態(tài)屬性進行測試,該實驗選取某臺高速攝像機的連續(xù)幀圖像對炮彈火焰進行預(yù)測。實驗結(jié)果如圖11 所示,其中測試結(jié)果包含某高速攝像機連續(xù)幀的分割結(jié)果。

圖11 連續(xù)幀炮彈火焰分割效果Fig.11 Segmentation effect of fire artillery in continuous frames
從圖中可以看出,PSP_FPT算法能夠連續(xù)捕捉炮彈火焰的動態(tài)變化,保證每一幀分割的準確性,面向高速相機對靶場炮彈目標捕捉的任務(wù),該算法可提供火焰目標的精準動態(tài)分割,為后續(xù)炮彈目標的定位提供有力保障,將進一步提升靶場對彈著點自動報靶的測量精度。
本文提出基于改進PSPNet 的炮彈火焰分割算法PSP_FPT 算法,該算法利用Bi-FPN 模塊提升池化特征圖中各子區(qū)域目標空間結(jié)構(gòu)的關(guān)聯(lián)性,同時結(jié)合全注意力機制網(wǎng)絡(luò),優(yōu)化目標特征的映射關(guān)系,實現(xiàn)了聚焦炮彈火焰目標特征的作用。其中設(shè)計將金字塔池化模塊輸出的特征圖,作為全注意力機制網(wǎng)絡(luò)的輸入,有效減少訓練參數(shù)。此外,該算法并不改變特征金字塔的尺寸,方便應(yīng)用于多種基于深度學習的網(wǎng)絡(luò)框架中。實驗表明,本文算法在基于炮彈火焰數(shù)據(jù)集的語義分割效果好,平均交并比達98.01%,能夠?qū)ε趶椈鹧婺繕诉M行精準分割;對連續(xù)幀炮彈火焰的分割效果穩(wěn)定,因此算法能夠為靶場環(huán)境下炮彈火焰分割任務(wù)提供穩(wěn)健的技術(shù)支持,具有較高的場景適應(yīng)性和部署便捷的工程應(yīng)用優(yōu)勢。未來將針對本文算法采用更先進的框架,并利用不同的注意力機制網(wǎng)絡(luò),探究其對炮彈火焰分割算法的影響。同時,嘗試優(yōu)化算法,對其進行剪枝操作,減小算法復(fù)雜度,進一步提高算法的場景實用性。