申小虎,安居白
(1. 大連海事大學信息科學與技術學院,遼寧 大連116026;2. 江蘇警官學院刑事科學技術系,江蘇 南京210031)
從視頻中判斷場景所處環境屬于圖像理解任務,在機器人視覺領域被廣泛應用[1]。在公安視聽技術領域,通過對治安監控探頭、行車記錄儀、執法記錄儀中所攝制的音視頻文件進行場景識別分類,可對海量非結構化的音視頻信息進行結構化分析、加注結構化標簽,并可與其它關鍵信息進行數據碰撞后達成快速破案的目的。
特征數據與分類模型是場景識別系統(Scene Recognition System, SRS)的基礎,視聽特征的準確抽取與良好的分類模型是提升系統分類精度與魯棒性的關鍵[2]。在音頻特征信息抽取上,由于受特定的聲音事件如人類說話聲、汽車引擎轟鳴聲等的影響,目前需要主要解決的問題是復雜的背景噪音以及弱化房間混響效果[3]。為解決此類問題,Vincent等人則提出深層去噪自編碼器[4],該方法的核心思想是通過訓練一個棧式自編碼器用于修復受噪聲干擾的輸入信息,并重構出純凈的音頻信息,使訓練后的音頻特征具備魯棒性,但該方法只能抽取低維度特征。Sainath等人利用受限玻爾茲曼機(RBM)與深度信念網絡(DBN)對輸入的原始特征進行維度壓縮,并作為GMM-HMM系統的輸入[5]。利用視頻幀進行場景識別的研究主要集中在利用卷積神經網絡(CNN)尋找更完善的時空域特征描述符、嵌入全局信息以找到給定圖像的最合適表示。Ji S等人提出時空域卷積神經網絡對視頻行為上的運動信息建模[6]。Simonyan等人則利用雙流卷積網絡分別將視頻幀和對應的光流圖作為網絡輸入提取視頻的空域特征和時域特征[7]。Aalok Gangopadhya等人則通過對關鍵幀特征進行聚合的方法得到強魯棒性特征,并取得良好的場景識別效果[8]。但在實際應用中,由于場景特征信息內容豐富,且混雜著大量的無關、隨機的噪聲信息,使之存在多樣性、不確定性和模糊性,造成了環境聲與視頻視頻幀特征變化范圍較大,僅利用音頻或視頻幀特征很難進行精確匹配,難以達到較好的分類精度。為此,相關學者嘗試將音頻特征與視頻特征進行特征融合或模型融合獲得場景分類的描述符[9],但由于缺少帶場景標簽視頻的大型數據集,分類效果沒有達到期待效果。
針對上述問題,本文構建了一種基于深度學習框架的半監督特征融合CNN-DBN場景識別模型。該模型首先對視頻進行解碼生成視頻幀與音頻,分別進行預處理后輸入CNN抽取能夠良好表征視頻幀與音頻場景的高維度特征。然后利用視頻和音頻信息的同步性,將視頻幀特征與音頻特征進行有效融合后輸入DBN網絡進行無監督訓練,學習視聽特征間的依賴關系。最后通過加入相對熵正則化項的代價函數進行反向微調并收斂。本文使用TensorFlow進行了仿真實現,并在相同模型結構下,與單模態特征的場景識別性能進行了實驗比較。實驗結果表明,雙通道結構的CNN-DBN模型能夠在在缺乏場景分類標簽的視頻數據集條件下,通過較少帶標簽監控視頻集完成訓練,并提升了場景識別的泛化能力與分類精度。
目前,卷積神經網絡CNN以其良好的特征表述性與解決復雜問題的準確性,被廣泛應用于語音與圖像領域,顯著改善了無監督特征下學習性能。CNN通過稀疏交互、參數共享等變表示的思想構建深度學習網絡模型,可處理可變維度的輸入。CNN核心思想為權值共享與池化,例如經典的VGG(Visual Geometry Group)卷積神經模型使用了3×3的卷積核大小和2×2最大池化,其結構圖如圖1所示。權值共享使CNN模型中的多個函數使用相同的參數,減少了訓練參數并提升了學習效率,同時由于權值共享的特殊形式使CNN具有平移等變的性質,因此在處理圖像方面具有優勢,其卷積公式如下

(1)
其中,Zl和Zl+1分別表示第l+1層的輸入特征圖和輸出特征圖,Z(i,j)表示特征圖像素,K為特征圖的通道數,f為卷積核的大小,w為權值,s為步長,b為偏置。
假定卷積層輸入特征圖的大小為Ll,經過卷積得到的輸出大小為Ll+1為

(2)
其中,p為填充層數。

圖1 VGGNet卷積神經網絡結構圖
如圖1所示,圖像特征經過卷積操作后,會進一步利用池化進行特征降維和信息過濾。池化可對特征數量與參數個數進行壓縮,在保持特征不變條件下達到特征降維與避免過擬合的目的。常用的池化函數如下

(3)
其中,A(i,j)表示池化層輸出的像素,f為卷積核的大小,s為步長。p為池化函數的預設參數,當p=1時稱為均值池化,表示在池化區域內取均值;當p→∞時稱為最大池化,表示在池化區域內取最大值。由于VGGNet在視覺分類任務中表現突出,被廣泛應用于基于視頻幀圖像與環境聲的場景識別與目標分類中[10-11]。
RBM受限玻爾茲曼機以及堆疊生成的DBN深度信念網絡的概率性無監督模型被廣泛應用于高維度特征條件下的分類任務[12],RBM與DBN網絡結構如圖2所示。

圖2 DBN深度信念網絡結構圖
其中無向概率圖模型RBM常被用于描述隨機變量與觀測數據之間的依賴關系,通過無監督訓練學習數據特征的內在聯系,并以概率的形式輸出。RBM模型結構由隨機可見單元v與隨機隱藏單元h相連接,可見單元v的概率密度p(v)、可見單元和隱藏單元的聯合分布概率p(v,h)均由能量函數E(v,h)得到

(4)

(5)
其中Z稱為歸一化因子,由退火重要性采樣(AIS)計算得到其近似值。歸一化因子Z與能量函數E(v,h)定義如下

(6)

(7)
其中v=[v1,v2,…,vi],vi∈[0,1];h=[h1,h2,…,hj],hj∈[0,1],vi,hj分別為可見單元與隱藏單元的狀態值,bi,cj分別為可見單元與隱藏單元的偏置,Wij為連接權重。由于RBM不存在層內連接,可見單元與隱藏單元擁有獨立的激活條件,因此每個單元的激活條件概率p(vi|h)與p(hi|v)可用下面的公式簡化表示

(8)

(9)
sigmod(x)=1/(1+e-x)
(10)
如圖2所示,由多個限制玻爾茲曼機(RBM)層堆疊組成深度DBN信念網絡采用對比散度CD算法降低重構誤差[13]。通過訓練隱層單元去獲得在可視層中高階特征的相關性。同時作為一個概率生成模型,DBN與傳統判別模型神經網絡相比,其生成模型是建立一個觀察數據和標簽之間的聯合分布,如式(11)所示
p(v,h1,h2,…,hl)=
p(v|h1)p(h1|h2)…p(hl-2|hl-1)p(hl-1,hl)
(11)
本文設計使用的半監督視聽特征融合方法,主要分為視聽特征提取、特征融合與半監督訓練分類三個階段,如圖3所示。基于特征融合的半監督場景識別模型,利用了視頻和音頻信息的同步性,可學習挖掘視頻幀特征與音頻特征之間的依賴結構關系。

圖3 面向多模態特征輸入的半監督CNN-DBN場景識別模型
由于視頻單幀圖像中攜帶著充分的場景信息和目標信息,因此場景分類中較少考慮視頻連續幀間的運動信息,且對各視頻幀的時序線性特征依賴性不強。為提升融合模型的訓練與識別效率,有效的從監控視頻中捕捉視覺特征信息,本文設計通過計算空間特征描述符并使用聚合策略的方法,針對原始視頻片段獲得其場景信息的聚合視頻幀特征描述符。
Places作為面向400多個不同類型場景、包含1000萬張圖片場景的大型圖像數據集,可用于以場景和環境為應用內容的視覺認知任務。本文采用在Places數據集上完成預訓練的VGG16-places365模型,并提取這些幀的CNN激活特征。由于大多數監控視頻只存在一個鏡頭,因此可將原始視頻按照指定時長切割成k個片段,每個片段包含m個圖像幀,其視頻幀特征提取過程如下:
1)對m個圖像幀進行時間維度的下采樣,得到具有相同時間間隔的n(n 2)對各幀后進行空間維度的下采樣,得到224×224的圖像幀作為CNN網絡的輸入; 3)對于作為輸入的每一個幀,取VGG16-places365模型的第6層(Fc6)完全連接層的輸出進行后路轉換,可得到一個4096維視頻幀特征描述矩陣F,如式(12)所示 (12) 其中i∈{1,2,…,n},j∈{1,2…,4096},Xi,j表示第i個圖像幀的第j維度的特征描述符。 4)由于場景分類中較少依賴空間特征的時間統計信息,因此對該特征矩陣使用靜態統計度量方法進行圖像幀聚合,來計算獲得最終的特征描述符。如式(13)所示,利用上述特征矩陣計算求均值方法并進行聚類。 (13) 5)將得到的每個視頻特征幀δi進行PCA降維,每個原始視頻片段對應1個聚類特征。最終得到k個1024維的視頻幀級特征描述符向量。 本文使用VGGish作為音頻場景信息的特征提取模型。VGGish采用VGG11模型結構,使用AudioSet語音數據集進行訓練。其中AudioSet語音庫是由200萬段10秒的語音片段組成,共包含600個音頻場景類標簽。圖像場景信息與音頻場景信息大都是由事件驅動的,因此上述k個聚類都可獨立對應一個場景音頻片段。對解碼得到的音頻進行16kHz的重采樣,并通過快速傅里葉變換,經過分幀、加窗計算每幀的對數Mel特征,并進行組幀作為VGGish網絡模型的輸入。其中設置幀長為25ms,幀移為10ms,加窗類型為漢寧窗。每個視頻聚類所對應的音頻片段均可得到一個128維的音頻特征分布式表述。 與行為分類[14]、事件檢測[15]、目標分類[16]等不同,側重于視頻場景分類任務的視頻級特征不需要結合使用幀間時序信息,因此為提升融合運算效率,本文采用簡單的幀級特征拼接的方法,將128維音頻特征表示與1024維視頻幀特征描述符進行融合串聯輸出1152維的場景特征描述符向量。 由于場景特征描述符僅僅是視聽特征進行了最簡單的拼接,為進一步對上述融合特征進行降維并學習融合特征中的視頻幀特征與音頻特征間的非線性結構關系,本文設計使用深度信念網絡模型構建深度網絡模型。其中通過無標簽視頻的場景融合描述特征對各RBM進行無監督訓練,得到一個接近全局最優的網絡初始權值,再利用帶標簽視頻進行有監督學習,使用誤差反向傳遞算法進行網絡權值修正調優,并最終與一個Softmax回歸分類器進行級聯完成對視頻場景的分類,如圖2所示。 深度信念網絡的這種結構對高維視頻場景特征向量進行了有效的非線性降維,得到一個富含場景結構信息的低維表示,其中在與softmax級聯后的有監督反向調優階段,相似場景的結構特征可導致隱層節點激活概率偏高,本文設計通過向代價函數中加入相對熵正則化項的方式,達到對隱層節點進行稀疏約束的目的。根據式(4)-(7),得到的最終對數似然代價函數為 (14) 其中,J(w,b)為傳統DBN采用的代價函數,β為控制正則項的權重。相對熵正則項中的K為隱含層結點個數,M為訓練樣本總數。ρ被稱為為稀疏系數,用來控制隱含層的稀疏度,這里取ρ為0.2。該DBN模型通過梯度下降的方法不斷迭代降低,達到最終收斂,輸出視頻場景分類目標數目相對應的結果。 由于VGGish與VGG16-places365模型所抽取的場景分類特征與YouTube-8M是兼容的,因此這里直接YouTube-8M視頻數據集提供的feature_extractor得到幀級數據集進行DBN的無監督訓練。為進一步對深度置信網絡開展有監督訓練,通過公安視頻偵查技術平臺構建了帶標簽的視頻監控場景數據庫,共3901個視頻,8類。根據公安實戰業務應用,提取的監控視頻主要分布于街道、商店、公園、公共交通工具、隧道、超市、小區、室內、商場共8類場景環境下,得到如圖4所示視頻集。 圖4 視頻監控場景數據庫 本文將監控場景數據庫中的2341份視頻作為訓練集,750份作為驗證集,810份作為測試集(每類場景各10份視頻)。由于公安實戰業務中獲取的案件視頻,存在大量由于雨雪天氣造成的不清晰視頻,因此這里將測試視頻進行分幀后,分別利用OpenCV與cooledit向視頻每幀圖像中加入椒鹽噪點和粉紅噪聲,獲得810份含噪視頻測試集。其中預處理階段,視頻片段時長設定為300秒,實驗環境中訓練用GPU為英偉達RTX 20180 8G顯卡。 在DBN網絡結構設計上,本文嘗試多種超參的組合后,選擇3層隱含層經過堆疊的成深度信念網絡結構,通過反復調試后確定DBN的隱層網絡結構為1024-512-512-128-8。同時設定模型的mini-batch=30,學習率為0.03,迭代次數epoch=150。 為研究場景融合特征的自組織形式,利用完成預訓練后的CNN-DBN模型,生成測試視頻集的后驗概率集合。本文利用主成分分析(PCA)對DBN網絡輸出的128維特征進行處理,提取前三個主成分(貢獻率36.9%)并對獲得的特征空間進行可視化處理。 圖5顯示了8類場景所分別對應的可視化特征空間,可以看出,CNN-DBN網絡模型進行無監督預訓練后得到的場景后驗概率可被用于多場景識別任務。為進一步驗證融合特征在場景分類性能上改善效果,實驗針對8類常用監控視頻場景,分別對810份純凈視頻測試集與810份含噪視頻測試集的場景分類結果進行了統計分析。其中在純凈測試樣本條件下,融合特征的場景分類正確識別率達到了84.69%。同時為比較融合特征在性能提升上的效果,分別將CNN網絡輸出的1024維視頻幀特征與128幀音頻特征做掩碼處理,獨立測試音頻(VGGish)特征與視頻幀(VGG16-places365)單模態特征條件下的分類效果,正確識別率總結如表1所示。從測試結果中可以看出,在純凈測試集下視頻幀特征在融合音頻特征后分類效果改善不明顯,正確識別率提升了2.35%。而針對含噪視頻測試集,由于圖像噪聲與雜音干擾的加入,視頻幀特征與音頻特征下的正確識別率均出現了不同程度的下降,其中視頻幀特征受影響程度較大。在融合特征輸入條件下,場景分類的正確識別率增加了12.09%,取得較好的提升效果。 圖5 監控視頻典型場景下的融合特征空間可視分布 表1 不同特征條件下場景分類正識率對比(%) 圖6、圖7分別顯示了純凈視頻測試集與810份含噪視頻測試集下融合特征分類測試結果的混淆矩陣。從圖5中的分類混淆矩陣可以看到,街道、公共交通、隧道、室內場景分類效果較好,這是由于上述場景下的視覺與聽覺特征均具有較強的特定性,概率特征空間中不易與其它場景區域產生重疊。而超市與商場、小區與公園在視頻幀(視覺)特征或音頻(聽覺)特征上均存在較高的相似度,因此場景識別測試在兩種視頻集樣本條件下分類效果不佳。從圖6中的分類混淆矩陣可以看到,由于街道、公共交通和室內場景下聽覺特征具有較強的特定性, CNN-DBN模型在訓練時對音頻特征的置信度給予了更多的反饋。因此含噪測試條件下,上述場景的分類結果也能夠保持較好的正確識別率。 圖6 純凈視頻集融合特征識別性能(混淆矩陣) 圖7 含噪視頻集融合特征識別性能(混淆矩陣) 本文針對傳統監控視頻場景分類中,獨立依賴視頻幀特征或音頻特征進行場景分類,導致在不特定外界因素條件下場景分類性能不穩定的問題,結合卷積神經網絡與深度信念網絡的結構優勢,設計了一種端對端的雙通道特征融合模型CNN-DBN,并將該模型應用于監控視頻的場景分析中。通過構建的公安監控視頻數據集測試后發現,該半監督特征融合模型能夠在缺乏大規模帶標簽視頻數據集的限制條件下完成訓練學習,很好的利用了信息互補,較好提升了含噪測試樣本的場景識別效果。實驗結果表明,本文方法針對外界環境復雜多變的監控視頻下的場景分類,具有較高的魯棒性,面向公安實戰領域推廣與應用價值較高。

3.2 音頻特征的抽取
3.3 幀級特征融合
3.4 基于雙通道特征融合的DBN模型


4 對比實驗
4.1 實驗數據集構建

4.2 超參數設置
4.3 識別性能評價




5 結論