柳華林,張 毅,王海鵬,張立民,李雪騰
(1.海軍航空大學,山東 煙臺 264001; 2.海軍駐南京地區第四軍事代表室,南京 210000)
隨著視頻圖像處理技術的快速發展,基于計算機視覺的自動報靶系統因快速、精確、安全、低成本等優點被廣泛應用研究[1]。胸環靶圖分割作為自動報靶系統的重要基礎和技術難點,實現復雜靶場環境下靶圖的精準分割工作。現有的自動報靶系統研究成果基本建立在無復雜靶場背景干擾的前提下進行后續報靶工作的研究[2-4],嚴重制約了基于計算機視覺的自動報靶系統由理論研究向實際應用的轉化進程。因此,對于復雜靶場環境下的胸環靶圖分割方法進行研究具有重要意義和實際應用價值。
現有的胸環靶圖分割算法主要基于圖像的三大底層特征,即顏色、紋理、形狀,展開研究,利用胸環靶區別于靶場背景的色彩屬性、紋理信息、輪廓形狀等信息,采用閾值分割、邊緣檢測、幾何法等傳統圖像處理方式或采用模式識別的方式進行胸環靶的檢測、分割。裴偉晨[5]在胸環靶位置相對固定的前提下,通過手動選取有效區域坐標點,提取靶面有效區域。該類方法雖分割精確但需要人工參與,無法實現智能報靶。羅杰[6]提出基于顏色特征的胸環靶圖分割算法,以綠色恒量特征為基礎,通過色調和飽和度分量做進一步提取,以投影變換確定胸環靶位置。該方法忽略了實際靶場環境的復雜性,僅適用于靶場無綠色干擾物的情況,具有很強的局限性。尹乾[7]提出基于胸環靶圖像灰度特點的有效靶面提取算法,該方法聯合圖像邊緣和閾值分割結果,通過最大連通區域的提取獲得有效靶面區域,該方法對靶場環境有著嚴格的約束,在霧天、光照變化明顯等情況下,采集設備獲取的靶場圖像中極易存在和胸環靶灰度特點相同的干擾,且實際靶場環境下無法保證提取的最大連通區域即為有效靶面區域。胡樂[8]選取描述圖像局部紋理特征的LBP算子進行分類器的訓練,該算子的灰度不變性能夠確保在不同光線條件下圖像檢測的一致性,通過離線訓練好的分類器進行胸環靶的檢測分割。該類方法只能獲得胸環靶大致的位置,精確度低且在復雜的靶場背景環境下無法滿足彈孔檢測識別的需要,沒有從根本改進系統對環境的適應性。
在特定的靶場環境下,傳統圖像處理方式能夠實現胸環靶圖的分割。由于靶場環境的復雜性,胸環靶的底層特征獨立性低,無法支撐算法在各類環境條件下對靶圖進行準確分割,普適性很低且基本局限于靶圖有效區域的分割提取,一是在室外靶場環境下,靶圖有效區域的特征極易與背景環境相似,二是在無法確保分割精度的前提下,極易引起系統的判靶誤差。因此,本文從自動報靶系統的環境適應性、智能化和胸環靶圖分割完整性的角度出發,結合前沿的視頻圖像處理技術,采用深度學習的方法對復雜環境下的靶場視頻圖像進行胸環靶圖的分割研究,提出一種基于金字塔場景解析網絡(PSPNet)的胸環靶圖分割方法。實驗證明,本文方法可從各種復雜靶場環境下將靶場視頻圖像中的胸環靶圖進行像素級精確分割,有效解決自動報靶系統應用環境的局限性。
靶場可分為室內靶場、室外靶場和半封閉靶場且一般設置在人口相對少的郊區。室內靶場的環境,因靶場設計風格而呈現多樣性。室外和半封閉靶場通常設置在有山體掩擋的自然環境區域并視情況設置靶擋等安全措施,其環境特點相對復雜,同時受靶場建設特點和自然環境的雙重影響。因此,通過攝像機等硬件設備采集的不同靶場或同一靶場不同時刻、不同環境下的靶場視頻圖像,其背景呈現明顯的差異性。由圖1所示的靶場圖像可以清晰的看出,不同的靶場建設特點存在差異性,不同環境條件下采集的視頻圖像也呈現截然不同的視覺效果。

圖1 室內外靶場
深度學習作為機器學習的分支,近年來得到了迅速的發展。基于深度卷積神經網絡的圖像語義分割方法主要利用神經網絡完成對圖像的像素級分類,從而獲得圖像場景的基本語義信息并完成目標的識別和分割任務。PSPNet[9]是一種基于像素級預測框架的fully convolutional network (FCN)[10]的場景解析網絡,利用金字塔池化模塊獲取全局上下文像素級特征先驗,通過局部和全局信息的結合在場景解析任務中生成高質量的結果,同時采用一種深度監督損失的優化策略,是像素級預測領域的優秀的框架。
金字塔池化模塊是為了進一步減少不同子區域之間的上下文信息丟失而提出的包含不同尺度、不同子區域之間變化信息的分層的全局先驗。金字塔池化模塊融合了多種不同金字塔尺度下的特征,不同金字塔尺度下將生成不同子區域的特征圖池化結果代表,同時增加降維操作以保持全局特征的權重。最后通過雙線性插值將池化結果擴大至原始特征圖相同的大小,并和原始特征圖進行連接作為最終的金字塔池化全局特性。
深度監督損失的優化策略則是添加額外損失函數,通過輔助損失的監督產生初始結果,然后用最終損失來學習殘差。這兩個損耗函數通過前面所有層。輔助損失在不影響主要損失優化方向的前提下,有助于優化學習過程,通過增加權重對其進行平衡。
給定一張圖片,首先通過convolutional neural network (CNN),采用具有擴張網絡策略[11-12]的預訓練ResNet[13]模型得到最后一個卷積層的特征圖;然后通過金字塔池化模塊獲取不同子區域的特征表示并上采樣至特征圖像素尺寸之后和原始特征圖連接形成具有局部和全局上下文信息的最終特征圖;最后,將其輸入卷積層即可獲得最終的像素級分割結果。
數據集是深度神經網絡訓練的基礎和前提,一定程度上決定了模型訓練的成敗。我國對槍械使用有著嚴格的審查和管理,普通民眾極少進行打靶活動,且出于保密性要求,部隊靶場的視頻圖像資源極少外傳。因此,有關實際靶場的視頻圖像資源稀缺。本研究在真實靶場圖像搜集、篩選的基礎上,通過人工標注的手段對靶場視頻圖像進行像素級標注,構建胸環靶數據集。
本文的靶場視頻圖像主要有4處來源:① 實際靶場錄制的打靶視頻圖像;② 網絡中篩選的室內外靶場圖像;③ 通過PS圖像處理軟件進行真實靶圖、背景互換之后的靶場圖像;④ 添加霧化、飛絮效果的靶場圖像。創建胸環靶數據集共含圖片285張,部分如圖2所示。

圖2 胸環靶圖片
本研究主要解決復雜靶場環境下胸環靶的靶圖分割,可視為二元分割問題,因此對靶場視頻圖像的靶圖類目標進行標記。本文使用圖像標注軟件labelme進行靶圖的標記,同時生成標記圖和可視化圖像。本文胸環靶數據集的實際標記圖和可視化圖像部分如圖3所示。
在圖像分割任務中,算法精度的衡量標準很多,本文采用均像素精度和均交并比兩種常用的逐像素標記的精度標準。設數據集中共標注由k+1個類(包含背景),pij表示屬于類i的像素被預測為類j的像素數量。
均像素精度(Mean Pixel Accuracy):計算每個類別中的像素被正確分類的比例,然后求取所有類別比值的平均值。
(1)
均交并比(Mean Intersection over Union)是圖像語義分割任務中常用的度量標準,分別在每個類別中計算目標分割位置和實際位置交集與其并集的比值,然后取平均,其公式如下:
(2)
為避免數據樣本過少導致網絡模型的泛化能力不足,陷入過擬合等問題,本文采用目標平移、旋轉兩種幾何變換的預處理方式[14]對胸環靶數據集進行數據增強。網絡模型采用圖像增強操作處理后的胸環靶數據集進行訓練,網絡模型訓練的過程實質是網絡權重通過反向傳播算法不斷調整,使輸出結果不斷逼近真實值的過程。為進一步防止網絡模型過擬合,本文采用隨機的方式,按照4∶1的比例劃分訓練集和測試集,其中訓練集的圖像數量為188,測試集為47。
網絡模型訓練過程中的具體參數設置如表1所示。

表1 模型訓練主要參數
考慮到胸環靶數據集中的靶場圖像來源復雜且不同設備采集的視頻圖像存在尺寸差異,本文在網絡訓練部分設置圖像尺寸調整模塊,將輸入圖像的像素尺寸調整為512× 512(像素)。本文旨在通過訓練好的網絡模型實現靶場圖像中胸環靶圖的像素級分割,因此本文的目標為胸環靶圖,類別數為2,分別是靶圖和靶場背景。1個epoch表示使用訓練集中的全部樣本完成一次訓練,該參數值影響模型訓練的時間,具體數值需要根據多次實驗和經驗來設置,以確保訓練集的準確率和損失值達到收斂,本文的epoch值設為50,即訓練集數據迭代50個世代。Batch size表示一次參數更新運算所需的樣本數量,該值決定了每次輸入圖像的數量,數值大小受到網絡結構和硬件GPU顯存容量影響,本文的batch size值設為4。學習率在網絡模型訓練的過程中決定權值的更新幅度,其值過大則可能越過最優值,在誤差最小值附近震蕩,過小則權值訓練時間長,無法快速收斂。本文采用的初始學習率為0.003,并使用PyTorch學習率調整策略中的有序調整策略,在迭代次數上升過程中設定指定的間隔,分別在第8輪、第31輪、第46輪進行學習率的衰減,新的學習率是上一次學習率的1/5。代價函數又稱損失函數,本文采用交叉熵函數,其式如下:
loss(x,class)=weight[class](-x[class]+
log(∑jexp(x[j])))
(3)
其中,本文對每個類的loss進行人工權重重標,靶圖和背景的權重比為1∶5。
優化方法采用對超參數選取相當魯棒的Adam[15]優化算法,通過計算梯度的一階矩估計和二階矩估計為不同的參數設計獨立的自適應性學習率。在 Adam 算法中,動量直接并入了梯度一階矩(指數加權)的估計。其次,Adam 包括偏置修正,修正從原點初始化的一階矩(動量項)和(非中心的)二階矩的估計。
本文按照上述參數設置進行PSPNet網絡參數的學習,所有實驗基于深度學習框架PyTorch。每一輪訓練后計算訓練集和驗證集的損失值并使用驗證集對模型的性能進行測試并記錄。網絡模型在訓練過程中的損失和正確率變化趨勢曲線如圖4、圖5所示,詳細記錄了模型在訓練過程中每輪在訓練集和驗證集上的損失值以及模型在驗證集上分割的正確率,可以清晰的看出,隨著迭代次數的不斷遞增,該網絡模型在訓練集和驗證集上的損失不斷減小,在驗證集上的正確率不斷增加,變化的趨勢由快到慢。最后,將訓練好的胸環靶圖分割模型保存到本地。

圖4 損失曲線

圖5 分割精度曲線
圖6所示分別為不同靶場背景環境下的胸環靶圖,其中第二張圖像為第一張圖像的霧化結果,分別將胸環靶圖標記為靶像1、靶像2、靶像3。本文在此基礎上展開傳統分割方法和基于深度學習分割方法的實驗驗證與分析,且實驗結果與圖6一一對應。

圖6 胸環靶圖
傳統圖像分割方式多通過單色圖像的轉換,并依賴于圖像亮度值的兩個基本特性(不連續性和相似性)對目標圖像進行感興趣區域的有效分割。本文從邊緣檢測和像素灰度值的相似性兩個方面對胸環靶圖進行分割實驗。
1) 基于邊緣的胸環靶圖分割
利用胸環靶區域白色靶面部分在靶場視頻圖像中引起的灰度值不連續的特征通過查找胸環靶的邊界進行靶圖的分割,本文利用sobel邊緣提取算法對圖6所示的靶場圖像進行基于邊緣的胸環靶圖分割,邊緣檢測效果如圖7所示。

圖7 邊緣檢測結果
由靶像1和靶像2的檢測結果可知邊緣特征的魯棒性較好,分割效果可以不受霧天等穩態不良天氣的影響,相較于靶像3完整分割出胸環靶的效果,由于靶像1、靶像2的靶場背景沒有虛化的成像特點,胸環靶的邊緣特征沒有明顯區別于背景物體的邊緣干擾,無法實現胸環靶的準確分割。因此可以得出,在成像設備采集的靶場視頻圖像中,僅當靶場背景邊緣特征微弱的情況下,基于邊緣特性可以很好的進行胸環靶圖的分割。
2) 基于閾值的胸環靶圖分割
胸環靶存在明顯灰度值明顯高于靶場背景的白色靶面,本文基于像素屬性的分布,采用全局閾值分割的方式,通過Otsu方法[16]確定分割閾值,進行胸環靶圖的分割,其結果如圖8所示。

圖8 閾值分割結果
由于陽光在背景物體的反射,導致靶場圖像背景中存在高灰度值區域,由靶像1的閾值分割結果可知,胸環靶被識別出來的同時大量的背景區域也被同時分割出來,且無法將兩者進行有效的分割。霧化處理的圖像在一定程度上增加了靶場圖像背景的灰度值,增加了胸環靶和背景的分割難度,閾值分割效果如圖8所示。由靶像3的分割結果可知,當靶場背景環境中沒有高亮度物體時,閾值分割法可以快速有效的進行胸環靶的檢測分割。
3) 基于區域的胸環靶圖分割
靶場圖像中,各個目標內部之間必然存在一定的相似性,本文采用灰度值的相似性,通過直接尋找區域的方式即區域生長算法對靶場圖像中的胸環靶圖進行分割。選取白色靶面上的像素點為生長種子點,以鄰域像素點灰度值和種子點灰度值的距離差值為區域生長的判別條件,其中,在區域生長過程中不斷更新差值最小的像素點為種子點并將已分割區域的灰度均值作為種子點的灰度值。
由圖9中靶像1和 靶像3的區域生長結果可知,區域生長算法在無不良天氣干擾的情況下,取得了較好的分割效果。在霧天環境下,靶場圖像部分背景區域的灰度值增高,導致胸環靶白色靶面區域區別于靶場背景的灰度值特性減弱,區域生長的相似性準則部分失效,無法實現胸環靶的準確分割,如圖9中靶像2結果所示。

圖9 區域生長結果
4) 基于胸環靶圖像灰度特點的有效靶面提取算法
基于胸環靶圖像灰度特點的有效靶面提取算法由尹乾[7]提出,該算法結合圖像邊緣提取、閾值分割、連通區域獲取和形態學處理四種圖像處理手法,并最終通過靶面區域映射獲得有效靶面。以圖6中的胸環靶圖為例,通過該算法獲得的實驗結果如圖10所示。

圖10 有效靶面實驗結果
由圖10的實驗結果可以看出,該算法經過參數調整之后基本可以實現大部分靶面有效區域的提取,但同時具有嚴重的缺陷。一是該算法旨在實現靶面有效區域的提取而不是胸環靶圖的提取,環線去除等運用形態學處理手法的部分不可避免使靶面有效區域的輪廓或面積產生變化,造成誤差,同時為保證環線去除的同時不破壞靶面有效區域整體連通的完整性,使得參數的設置苛刻,需要根據實際情況及環境特點進行人工調整,如圖11所示,實際胸環靶圖上端的白色靶紙區域很窄,受室外環境如霧等干擾因素的影響,該白色靶紙區域將會變得更窄,此時如保持參數不變將會導致靶面有效區域和背景區域相連通,無法準確提取靶面的有效區域;二是,該算法要求靶面有效區域和背景區域有明顯的大小差異,以通過連通區域的大小關系,實現眾多連通區域中,靶面有效區域的準確提取,不同靶場環境下,無法保證靶面有效區域和背景連通區域大小關系的一致性,例如,本實驗中靶像1、靶像2選取最大連通區域為靶面有效區域,靶像3則選取第二大連通區域為靶面有效區域。綜上,該算法不具有普適性,更無法實現復雜環境下胸環靶圖的有效分割。

圖11 結果對比
該部分實驗基于本文提出的基于深度學習的胸環靶圖分割方法,將靶場視頻圖像輸入到訓練好的基于PSPNet的胸環靶圖分割模型進行靶圖的分割,生成像素級分類標簽圖并據此生成分割圖像,如圖12所示,3種情況下的胸環靶圖全部被有效的識別分割出來。均像素精度和均交并比如表2所示。經本文50張驗證集,本文訓練的胸環靶圖分割模型在胸環靶分割任務中平均像素精度可以達到98.76%,平均交并比可以達到97.84%,實現了非常好的分割效果。

圖12 深度學習分割結果

表2 胸環靶分割精度衡量
本文利用近年來快速發展的深度學習的方法,提出基于PSPNet的胸環靶圖分割方法,通過創建胸環靶圖數據集、網絡參數修改調試完成胸環靶圖分割模型的訓練,并基于該模型實現對靶場視頻圖像的像素級精確分割,在本文測試集中,平均像素精度達到98.76%,平均交并比達到97.84%,較傳統圖像分割方法提高了分割精度,并提高了自動報靶系統的環境適應性。