劉 峰,居 昊,干宗良
(1.江蘇省圖像處理與圖像通信重點實驗室,南京 210003;2.南京郵電大學通信與信息工程學院,南京 210003;3.南京郵電大學教育科學與技術學院,南京 210003)
將由靜態(tài)或動態(tài)相機所捕捉到的圖像或視頻進行前背景分割是智能交通與視頻監(jiān)控領域一項重要的研究內容。前背景分割算法也常常作為預處理步驟在自動駕駛、機器人自主定位與導航、異常檢測和識別中得到應用。解決這一計算機視覺任務的基本算法為背景減法,即將圖像或視頻序列中的當前幀與一個不斷進行更新的背景模型相減,從而將運動對象與相對靜止的背景場景進行分離。由于監(jiān)控攝像頭分布廣泛,前背景分割需要對各種環(huán)境因素都具有良好的魯棒性。傳統(tǒng)的背景減法僅在特定類型的簡單場景中表現(xiàn)良好,而對于場景照明變化、動態(tài)背景和相機運動等情況,傳統(tǒng)的背景減法并不能得到準確的前背景分離效果。
過去幾年中已有多種算法對該問題進行了廣泛的研究,算法大約可以分為如下幾類:(1)基于統(tǒng)計學的方法;(2)基于特征提取的方法;(3)基于神經網絡的方法。基于統(tǒng)計學的方法以高斯混合模型(Gaussian mixed model,GMM)[1]為代表。該方法假設像素值在時間維度上服從混合高斯分布,以此為依據(jù)建立與更新背景模型,可以解決部分動態(tài)背景問題(如樹葉與水面的晃動)。另外,基于統(tǒng)計學的非參數(shù)模型,如ViBe 算法[2]與PBAS 算法[3]處理了前背景相似與照明變化的問題。基于特征提取的方法利用變換域中所提取到的特征進行背景建模,通過背景模型提取運動前景。更進一步地,LBSP 算法[4]、GOCM 算法[5]等利用紋理特征以應對照明變化的情況。基于神經網絡的方法利用神經網絡將輸入像素分類為背景或前景。Babaee等[6]采用固定的背景模型,利用卷積神經網絡對圖像像素進行前背景分類。而后神經網絡方法多基于視頻序列,將多幀圖像輸入神經網絡直接生成前景掩模圖。由于密集掩碼預測任務所需的精確性,近年來幾乎所有前背景分割算法都基于神經網絡,尤其是全卷積神經網絡。但該類算法依然存在一些問題:(1)對于人類而言,僅需2 幀圖像即可確定前景與背景。而現(xiàn)有算法多利用長短期記憶網絡(Long short?term memory,LSTM)進行時序特征融合[7],即網絡輸入端需要多幀圖像,易出現(xiàn)信息的冗余。(2)部分基于單幀圖像的方法[8]直接利用神經網絡學習當前幀而得到決策邊界,這種方法既不直觀又極度依賴訓練集,模型遷移能力差。
本文提出算法利用兩幀圖像進行端到端地前背景分割。算法分為兩步驟,將輸入的2 幀圖像分為背景圖像與待提取圖像。第1 步利用全卷積孿生神經網絡生成2 幀圖像的相似性度量圖。該部分工作基于文獻[9?10]所提出的思想,與之不同的是,算法對2 幀圖像中前景重疊的情況進行進一步處理,該相似性度量圖為后續(xù)網絡輸出提供基礎,有助于后續(xù)網絡更加關注輸入圖像對中發(fā)生變化的部分。以文獻[10]為代表的算法需已知一張背景圖像,這在實際情況中往往是不現(xiàn)實的。當輸入的2 幀圖像的前景位置出現(xiàn)重疊時,該類型算法并不能得到準確的前背景分割結果。第2 步將第1步所得到的相似性度量圖與待提取圖像進行融合,將融合結果輸入前景提取網絡。前景提取網絡為包含編碼器與解碼器的全卷積神經網絡,解碼器部分采用轉置卷積使網絡輸出與輸入尺寸相匹配。前景提取網絡整體采用U?net 型結構[11]以提高網絡性能。
本文具體算法如圖1 所示。采用全卷積孿生神經網絡對背景圖像與待提取圖像(image1,image2)∈RC×H×W進行特征提取,得到特征圖(feature1,feature2)∈Rc×h×w。每個特征圖包含h×w對特征向量(f1,f2)∈Rc×1,計算每對特征向量之間的歐幾里得距離,得到二者之間的相似性度量圖。本文在CDnet2014 數(shù)據(jù)集中隨機選取背景圖像與待提取圖像[12],并將二者所對應的ground truth 進行疊加,合成新的ground truth,并將像素類型由前景,背景兩類重新分為發(fā)生變化,未發(fā)生變化與前景重疊3 類,豐富相似性度量圖的語義特征,具體細節(jié)將在后續(xù)章節(jié)中討論。該相似性度量圖map ∈R1×h×w中包含了圖像對中發(fā)生變化像素的位置信息與邊緣信息,可使后續(xù)前景提取網絡更加關注發(fā)生變化的部分。因此將map進行上采樣并與image2進行融合,得到網絡后續(xù)的輸入圖像塊image∈RC×H×W。對于融合后的圖像image,利用編解碼網絡進行前景提取。解碼器采用轉置卷積進行特征圖尺寸擴張。為了提高前景提取準確度,在每一次轉置卷積之后,將解碼器中的淺層特征圖與編碼器中相對應的深層特征圖在維度上拼接。

圖1 本文算法框架流程圖Fig.1 Framework of the algorithm


圖2 空間金字塔池化結構圖Fig.2 ASPP framework
與文獻[14]中的SPP 方法不同,在得到頂層特征之后,將特征圖進行填充以保證池化后特征圖大小不變。為了應對輸入圖像對尺寸不一致的問題以及獲得多尺度信息,采用3×3 和5×5 的不同池化尺寸,通過控制步長產生固定大小的輸出特征圖,再將特征圖進行拼接后采用1×1 的卷積核固定輸出特征維度。由于池化與1×1 的卷積所需要的總參數(shù)量僅為頂層特征圖的維度c=512,因此所提出的結構相較于ASPP 參數(shù)量有著明顯的減少。算法將輸入像素對分為發(fā)生變化,未發(fā)生變化和前景重疊3 種類型。通過該方式可以使網絡輸出的相似性度量圖中包含更多前景重疊部分的邊緣信息與正確的前景位置信息,更易于后續(xù)網絡進行前景提取。
全卷積孿生神經網絡通常采用對比損失以使同類樣本之間距離縮小,不用樣本之間距離增大。對比損失公式為

式中:DW(X1,X2)代表兩個樣本特征X1和X2的距離;Y代表樣本標簽;Y=0 表示像素點為前景點,Y=1 表示像素點為背景點;m為設定閾值;N為樣本個數(shù)。當像素點為前景點時,損失函數(shù)Lf=max(m-DW,0)2。在訓練迭代過程中,輸入圖像對中代表前景點像素對之間的距離會趨于m。反之,當像素點為背景點時,損失函數(shù)Lb=DW2。即輸入圖像對中代表背景點像素對之間的距離會趨于0。從文獻[12]中的工作得知,使用歐幾里得距離相較于余弦相似度可以顯著提升網絡性能,所以令DW(X1,X2)=||X1,X2||2。
僅采用正負樣本對時并不能處理前景重合時的情況,如圖3 所示。圖3(a)中輸入圖像對中包含一幅背景圖,經全卷積孿生神經網絡后能夠輸出較準確的前景圖。圖3(b)中輸入圖像對均包含前景物體,兩者并不重疊,經全卷積孿生神經網絡后所輸出的前景掩模中包含了前后兩幅圖中的前景物體,這顯然是錯誤的。而在圖3(c)中輸入圖像對中的前景物體產生重疊,輸出的前景掩模圖為輸入圖像對中前景像素點的并集,顯然也并不能輸出正確的前景提取結果。采用正負樣本對無法表示兩幅圖像中像素的全部關系。針對于此,將樣本像素類型分為3 類。Y=0 表示前景;Y=1 表示前景重疊;Y=2 表示背景,對式(1)進行微調為

圖3 不同輸入圖像對下相似性度量圖Fig.3 Metric results of different image pairs

顯然,在訓練迭代的過程中會使前景重疊像素對之間的距離與前背景進行區(qū)分。該相似性度量圖效果類似注意力圖,通過每個像素點的不同像素值幫助后續(xù)網絡訓練。C(Y)為以像素類型Y為自變量的正則函數(shù),其功能為:在CDnet2014 中,存在相機視角旋轉的場景。在該場景下,輸入圖像對中同一像素位置所對應的真實場景位置并不相同,并不能將該類像素對的特征距離設置為0。本文參考文獻[15]中的思想,在原對比損失函數(shù)后添加較小的正則項C(Y),該正則項可以加快收斂速度并使網絡表現(xiàn)出更好的性能。
對得到的相似性度量圖map ∈R1×h×w中每個相似性值取整并對map 進行上采樣得到與原圖像對同樣尺寸的相似性度量圖map'∈R1×H×W。將map'進行偽彩色處理進行可視化如圖4 所示。顯然,能夠從該相似性度量圖中得到前景像素的位置與前景重疊像素的位置。此外,還可以清晰地得出其區(qū)分處的邊緣信息。

圖4 前景重疊時的相似性度量圖Fig.4 Metric results with foreground overlaps
該相似性度量圖map'與待提取圖像image2即可為前景提取提供充足的先驗信息,與常見的RGB?D 圖像語義分割中對D通道的處理方法不同,由于map'本身的語義信息與待提取圖像較為相似,因此圖像融合前無需利用神經網絡對相似性度量圖進行二次特征提取。基于此想法,將map'與image2進行簡單的相加并進行歸一化,得到編解碼網絡的輸入image ∈R3×H×W。
對image ∈R3×H×W采用編解碼網絡結構進行端到端地前景提取,網絡具體結構如圖5 所示。每層中包含參數(shù)(k,s)[b,H,W,D]分別表示卷積核大小、卷積步長、輸入圖像高度和寬度及輸出特征圖維度。

圖5 編解碼網絡結構圖Fig.5 Encoder-decoder network
解碼器對編碼器所提取的特征圖進行上采樣以與原始輸入圖像尺寸相匹配。與文獻[16]中采用的空洞卷積和文獻[17]中采用的反池化不同,采用轉置卷積使特征圖大小加倍。訓練時采用如式(4)所示的二進制交叉熵損失函數(shù),即有

本文算法將全卷積孿生神經網絡與編解碼網絡分開訓練,即先得到準確的相似性度量圖之后再進行前景提取。對于全卷積孿生神經網絡,采用預訓練的Deeplabv2 模型對網絡的前10 個卷積層進行權重初始化。選擇隨機梯度下降(Stochastic gradient descent,SGD)算法,設置weight decay=5×10-4,learning rate=1×10-5,batch size=4。訓練時選取視頻中30% 的圖像幀作為訓練集,10%作為驗證集。測試時,從視頻中剩余的60%圖像幀中選取1 張包含較多前景像素的圖像作為背景圖像,其余圖像作為待提取圖像進行測試。
本文采用RE,F(xiàn)PR,F(xiàn)NR,PWC,F(xiàn)measure和Pre?cision 作為客觀評價指標,定義如下


式中:TP 表示預測結果為正確分類的前景像素個數(shù);FP 表示錯誤分類的前景像素個數(shù);TN 表示正確分類的背景像素個數(shù);TP 表示錯誤分類的背景像素個數(shù)。
2.3.1 客觀指標分析
本文使用了CDnet2014 數(shù)據(jù)集所提供的評價工具對所提出算法進行評估。表1 給出了本文算法在9 個不同場景下的6 項評價指標。一般而言,前景提取算法需要在取得較高召回率的同時盡可能不損失算法精度,所以Fmeasure可以準確評判算法優(yōu)劣程度。可以看出,本文算法在所有場景中都取得了較高的Fmeasure值,尤其在全方位相機(Pan/Tilt/Zoom,PTZ)的場景下,由于對比損失函數(shù)中引入的較小正則項C(Y),相機焦距變換僅對前景提取準確度有著微小的影響。但由于相機視角變換導致相似性度量圖產生偏差,所以該情況下性能指標相對較低。

表1 不同場景下本文算法評價指標Table 1 Performance evaluation in different scenes
本文將實驗結果與其他7 種方法進行了比較,分別為 Cascade CNN[18]、DeepBs[6]、FgSeg?Net_S[8]、FgSegNet[8]、IUTIS?5[19]、BSUV?Net[20]和SuBSENSE[21]。其中前3 種方法利用了基于監(jiān)督學習的神經網絡模型,后2 種方法采用了傳統(tǒng)方法。
表2 給出了每個模型在9 個不同場景中各性能指標的平均值。表中紅色表示評價指標排名第一,藍色表示排名第二。可以看出所提出算法在各指標中都有明顯的提高。為了直觀比較這些算法,本文選取了Baseline、Dynamic background、Bad weather、PTZ 和Intermittent motion 中的典型場景測試算法性能。分割結果如圖6 所示,第1 行為CD2014 中部分場景圖,第2 行為Groundtruth,第3行為本文算法所得結果,后續(xù)依次為FgSegNet、Cascade?CNN、DeepBS、IUTIS?3 和SuBSENSE 所得結果。可以看出,本文算法所產生的分割結果更加接近Groundtruth。例如在第4 列的PTZ 場景中,人形掩模具有更豐富的細節(jié),這主要得益于全卷積孿生神經網絡對于變化像素的粗定位與后續(xù)編解碼網絡細化分割。

圖6 不同復雜場景下算法前景提取結果Fig.6 Foreground subtraction results of different methods

表2 不同算法評價指標對比Table 2 Performance evaluation of different methods
2.3.2 遷移能力分析
在考慮算法輸出結果準確性的同時本文兼顧了模型的遷移能力。將本文算法與FgSegNet、BSUV?Net 算法在CDNet2014 數(shù)據(jù)集中Baseline場景下的訓練結果應用于SBI2015[22]數(shù)據(jù)集中的Highway 場景,所得結果的評價指標如表3 所示。一些典型分割結果如圖7 所示。可以看出,在僅利用CDNet2014 數(shù)據(jù)集上的訓練模型時,其余兩種算法所檢測出的前景像素點較多,所以在RE 與FNR 兩項指標上較好,但在檢測出的前景點中多數(shù)為誤檢。相比較而言,本文算法雖然RE 與FNR較低,但檢測較為準確,作為模型優(yōu)劣評估標準的Fmeasure值最高,由此可見本文算法有良好的遷移能力。

圖7 SBI2015 數(shù)據(jù)集中不同算法分割結果Fig.7 Segmentation results of different methods in SBI2015

表3 SBI2015 數(shù)據(jù)集中不同算法指標比較Table 3 Performance evaluation of different methods in SBI2015
本文將全卷積孿生神經網絡與編解碼網絡相結合進行端到端的前景提取,采用全卷積孿生神經網絡產生圖像對之間的相似性度量圖使前景提取網絡更加關注前景像素,以獲得更加準確的前景提取結果。實驗證明,本文算法在保證前景提取結果準確性的同時兼顧了遷移能力,利用數(shù)據(jù)集上的訓練模型即可較為準確地對其余數(shù)據(jù)集中的相似場景進行前景提取。由前文可知,相似性度量圖本身已包含前景的位置與邊緣信息,理論上僅需將其與待提取圖像結合,通過簡單的圖像處理方法即可獲得前景提取結果。但本文算法中數(shù)據(jù)集的評價指標采用較為復雜的編解碼網絡進行前景提取,并且訓練時所需訓練集的占比較大,難以進行實際應用,這也是未來算法的改進方向。