周 航 詹永照 毛啟容
(江蘇大學計算機科學與通信工程學院 江蘇鎮江 212013)(henrryzh@qq.com)
隨著大數據時代的發展,各類視頻數據呈井噴之勢,抖音之類的短視頻和設備監控類的長視頻成為大眾了解社會的快捷通道,因此對視頻數據的分析成為熱點研究問題.其中視頻異常事件分析成為維護社會治安與人民安全的安防領域的迫切需求.目前長視頻中異常事件發現與定位技術還不成熟,大多還采用人工判別,無法應對當今數據量暴增的趨勢.因此研究利用弱監督或者無監督信息,快速有效發現視頻中異常事件發生的時間,成為了目前視頻異常事件分析需要解決的關鍵問題.
由于正常模式的視頻易于收集,視頻異常事件檢測[1]最普遍的方法為單分類法,在正常數據集下進行訓練[2],使模型能夠較好地擬合正常模式,在異常發生時會有較強的響應.但是此類方法局限特定場景,應對外界干擾能力差,易產生誤報與漏報.以正常與異常聯合參與訓練能夠給予模型一定的異常判別能力,但是異常視頻在人工收集與標記時耗費時力且存在一定的主觀性,因此收集的視頻數據只含有視頻標簽,無異常發生的詳細時間段標記,利用此類數據實現有效的視頻異常事件模型建立和異常事件的發現與定位,成為了目前視頻異常事件分析研究的關注點.
基于弱監督學習的異常事件檢測與定位方法是一種有效解決上述問題的方法.很多人將弱監督的視頻異常事件檢測問題視為多示例學習[3]問題,但只考慮了視頻特征片段自身的特點,沒有將其與其他視頻特征片段進行聯系,一般能夠檢測顯著性異常(如爆炸等),對于偷竊等聯系性較強的事件則檢測失效,對于有遮擋的異常事件也會發生漏報.Zhou等人[4]提出多示例學習中各個示例并不是獨立同分布的,他們之間存在一定的聯系.學習并利用這種聯系將更好地表達視頻的動態性特征,更適合于多樣性視頻的異常事件檢測,但如何更合理考慮視頻片段的時空關聯關系并進行更有效融合,進而實現快速有效的視頻異常事件檢測與定位,還需深入研究.
為了應對以上挑戰,本文結合視頻特征具有的時間連續特性以及空間上的相似性,提出基于時空融合圖網絡學習的視頻異常事件檢測方法.該方法引入多示例的圖結構去構建視頻中各個片段之間的聯系,對時間角度和空間角度的構圖方式進行自適應融合得到時空融合圖,采用時空融合圖卷積網絡學習視頻特征,引入多示例注意力網絡對各個片段進行注意力的分配,并實現整個視頻的異常檢測,以期獲取更好的多樣性視頻中異常事件檢測與定位性能.本文的主要貢獻有3個方面:
1) 考慮視頻段之間的時空關聯關系,提出時空融合圖模型,動態構建節點近鄰的空間相似和時間連續圖,利用注意力引導的權重矩陣加權2種圖,進行自適應學習融合,實現了視頻段時空特征內在關系的更有效學習表達;
2) 提出了時空融合圖卷積網絡學習視頻段時空特征并進行分類預測,在排序損失中加入圖的稀疏項約束,更有效地提高視頻異常事件檢測性能;
3) 引入多示例注意力機制學習各個片段對整個視頻的貢獻度,實現對視頻的異常判斷并建立視頻級異常分類損失進一步提升檢測性能.
視頻異常事件檢測是一個具有挑戰的研究問題,經過多年的探索與研究,取得了大量成果.傳統方法主要以手工特征為訓練樣本,采用概率密度估計的統計學方法[5],判斷事件服從正常或者異常的分布,或者利用高斯混合模型與馬爾可夫模型[6]對異常特征進行推斷,效果更好的有采用稀疏學習[7]對正常模式進行字典學習.這些方法都存在著依賴特征的選擇,只適用于特定場景和檢測準確率及定位精準度不足等問題.
深度學習方法實現視頻特征的自動學習與提取,可根據環境自動獲取視頻特征,有效實現視頻語義概念的檢測分析.基于深度學習的視頻異常事件檢測已成為研究熱點.在生成模型迅速發展的趨勢下,大多數異常檢測以自動編碼器[8-10]為主體方法,對正常視頻[11-14]進行無監督學習,通過生成模型對視頻進行重構,在測試時模型對于異常幀會有一個較強的響應,但是此類模型局限于異常模式較少且時序短的視頻,對于固定類型視頻任務的檢測有較強的泛化能力;相對較長的視頻以時空模型為基本方法,對視頻進行時間和空間上的分析,如Zhao等人[15]利用3D卷積自動編碼器方法對視頻進行重構,考慮了視頻的時空上的信息,但是只是利用局部信息且生成模型對于異常事件多樣性泛化能力較弱.
應對于異常視頻數據的場景復雜化,采用弱監督的方法更能滿足對異常檢測的需求.Sultani等人[16]為弱監督的視頻異常事件檢測帶來新的解決方案與挑戰,他們提供了新的數據集UCF-Crime,通過采用正常與異常數據進行訓練更好地發現異常,結合多示例學習的方法,為該數據集提供了一種有效的基準方法;Zhu等人[17]考慮到運動信息對異常的影響,采用光流金字塔模型做特征提取,引入注意力機制對異常視特征段作顯著性突出,整體上仍然將示例之間看作是獨立同分布的,沒有利用示例之間的潛在關聯關系;Zhang等人[18]利用多示例學習中正負包內的各個示例的差異,提出包內損失,并利用時序卷積神經網絡(temporal convolutional network, TCN)進行時序上的關聯,該方法只是促進了正常與異常的差異分化,對于內部其他趨向于中性的視頻段沒有顯著的分化;Zhong等人[19]將弱監督數據采用全監督的方法去處理,所采取的策略是利用圖卷積的傳遞信息的能力對異常視頻中的正常片段進行去噪,將得到偽標簽訓練3D卷積神經網絡(3D convolutional network, C3D)[20]進行有效的異常識別,在進行正常視頻段去噪的過程中,訓練過程較為復雜,去噪過程可能將異常清理,造成信息丟失,可能引起異常事件識別與定位不夠準確.
圖神經網絡[21-26]正處于發展階段,并廣泛應用于社交關系網絡、生物分子結構以及視覺等方向.Wang等人[27]利用圖卷積網絡對視頻進行分析時,考慮目標之間的時間以及空間的聯系[28],大幅提高了復雜環境下的視頻動作識別的性能.Feng等人[28]將時空圖應用到視頻追蹤中,也獲得了優異的結果.因此建立完備的關系拓撲結構,可以有效地提高視頻分析能力.我們結合異常視頻內在時空聯系去動態構建關系結構圖,為了表達視頻內在聯系,我們提出了時空融合圖卷積網絡,更好地實現對視頻異常事件的分析.
問題描述:本文將弱監督的視頻異常事件檢測視為多示例學習問題.對于一個視頻V={c1,c2,…,cN}以及視頻標簽y∈{0,1},其中ci為切分的視頻片段,我們需要判斷出是每段ci是否為異常段即異常概率P(ci)=1,并將其分配到每一幀上實現對幀的判斷,同時也需要預測整個視頻是否為異常視頻.
針對視頻中各個片段之間存在時空上的聯系,提出對于視頻異常事件檢測的時空融合圖網絡學習方法.圖1為整體網絡結構,主要分為3個部分:1)成對輸入正常與異常視頻并分段,以預訓練的膨脹3D卷積神經網絡(inflated 3D convolutional network, I3D)[30]為骨架,提取視頻段的特征,利用多示例學習機制對提取的視頻特征段進行正負包和示例的劃分,考慮到視頻具有時間連續特性以及視頻片段的1維空間特性,利用時間連續關系與空間相似性構建2種角度的多示例圖結構;2)對2種圖做自適應融合得到具有2種圖優勢的融合圖,采用圖神經網絡,對異常視頻特征段進行分類預測;3)利用各個片段的注意力關系加權得到視頻異常預測.

Fig. 1 Framework of spatio-temporal fusion graph network learning
考慮到視頻段之間隱含著時間連續關系以及空間相似關系,同時圖結構具有優異的拓撲推斷能力,因此將每個視頻段視為圖中的一個節點,利用I3D作為特征提取器,提取每個視頻段的特征作為節點的嵌入向量,考慮視頻段之間的聯系,從而構造2種屬性的多示例圖.
2.1.1 空間相似圖構造
視頻段之間存在空間上的相似性聯系,將這種聯系用圖結構表示可以很好地推斷相似視頻段.由于采用I3D提取的特征粒度較大,若直接用特征的歐氏距離度量視頻段相似度,且相近片段相似度均較大,難以突出其差異性.同時異常段在視頻中的出現顯現出稀疏性,為了防止圖卷積網絡在訓練時發生過擬合,因此采用k近鄰思想用來度量各節點的相似度作為構圖方法.B={s1,s2,…,sN}為整個視頻經過特征提取后的特征表示,其中si∈RF為第i段視頻的特征表示,將其設置為相應節點集合V={vi|vi=si,si∈B}.以歐氏距離為判斷準則,計算節點vi與其他各節點的相似度:

(1)
對節點vi與其他節點的相似度進行升序排序:sort({disti,j|i,j∈{1,2,…,N}}),形成節點vi的前k個最相似的節點集合:
simi={vm|m=rankl(sort({disti,j|i,j∈{1,2,…,N}}))},
(2)
其中rankl為返回第l∈[1,k]個最相似的節點號.對各個節點之間賦予邊上的權重,權重計算公式為

(3)

2.1.2 時間連續圖構造
視頻中一個事件的發生除了有視頻片段空間特征上的相似性外,主要是還有相鄰片段時間連續特征上的聯系.對于大部分異常視頻數據而言,并不是所有異常段類似于爆炸事件產生得那么劇烈,大部分需要一個起伏波動的過程,因此對于一個視頻片段與其他片段的時間連續相似度,采用類似事件發展的k連續性度量,以時間連續相似度進行時間連續圖節點的連接.對于任意節點vi與vj,以節點序號距離作為其是否連接的判斷準則.對于節點vi,其相近時間連續節點集合為timei={vj||j-i|≤k},連接節點vi與集合timei中的節點,2節點間的邊權重定義為

(4)
即與第i個片段越近的片段所分配的權重越大,能更好地反映它對第i個片段的影響因素,由此構成k近鄰圖GT=(V,ET),V為與GS相同的節點集合,ET為時間連續圖的邊集合,對應鄰接矩陣為AT.
視頻片段的異常事件檢測不僅要檢測出明顯的事件片段,還要能更精確地定位出事件的起止片段,時間連續相似圖GT=(V,ET)能刻畫一個事件發生的平滑起伏區間的特征內在關聯關系,而空間相似圖GS=(V,ES)能更好地表達出有明確異常事件視頻片段特征的內在關聯關系,因而單一的時間連續相似圖卷積網絡不利于片段異常事件準確檢測,單一空間相似圖卷積網絡又不利于更準確的異常事件邊界的檢測定位.
為了更好地利用時間連續圖與空間相似圖所刻畫的內在關聯關系,本文將時間連續圖與空間相似圖進行融合,構建一個自適應的時空融合圖網絡進行異常事件的時空特征學習.首先對2種圖進行非線性融合,通過訓練學習得到一個最契合兩者的權重參數.具體融合方法為:給定鄰接矩陣AS,AT∈RN×N,分別為GS與GT的鄰接矩陣,對于各個鄰接矩陣給予一個待學習的權重WS∈RN×N與WT∈RN×N,利用注意力引導2個鄰接矩陣加權.學習形成融合鄰接矩陣,其形式化表達為

(5)
其中,bS∈RN×N,bT∈RN×N為偏置參數,*為哈達瑪積,gS∈RN×N,gT∈RN×N分別為得到2個鄰接矩陣的概率矩陣,σ為sigmoid激活函數,得到一個[0,1]之間的選中概率值,最后的融合圖成為無向圖.通過學習得到各自選中邊的概率矩陣,2個概率矩陣與鄰接矩陣作點積并相加,得到融合圖即GF=(V,EF),V為與GS和GT相同的節點集合,邊集合以鄰接矩陣AF∈RN×N表示,對AF進行歸一化,得到矩陣:

(6)


(7)
其中,Z為當前層的節點特征表示,W為待學習的權重參數,φ為relu激活函數.最后分類層采用sigmoid函數P=σ(Z(3))=(P1,P2,…,PN),Pi∈[0,1],i∈{1,2,…,N},P即為所有片段的得分值.
由于正常異常區域未知,利用注意力突出異常區域,同時也能通過加權操作得到視頻級的得分,降低時空融合圖網絡層帶來的過平滑影響.整個注意力模塊通過2層全連接層以及softmax函數對各個片段實現權重分配,并對圖網絡層的片段得分加權獲得整段視頻的異常得分.
(8)
其中,vid∈[0,1]為加權后的整個視頻異常得分,atti∈[0,1]為各片段的注意力權值,Pi為各片段得分值,Z∈RN×F為初始的提取好的視頻特征,W,b為注意力網絡層待學習的參數.
網絡最后輸出為視頻片段異常預測和視頻異常預測,利用排序損失與圖稀疏約束優化網絡對于視頻片段的學習,采用交叉熵損失優化網絡對視頻以及視頻段的異常預測.
1) 排序損失(ranking loss).由于沒有細粒度的幀級別監督信息優化模型,采用粗粒度的視頻級標簽作為監督信息.在進行訓練時將正常異常視頻成對一起送入網絡訓練,要促使異常事件檢測更加準確,應使得異常段的得分值遠大于正常段,而具體異常段與正常段未知,因此利用異常視頻段中最高得分與正常視頻段中最高得分去增大兩者間距,利用排序損失實現約束:

(9)
其中,Pa;i表示一個異常視頻Ba中第i個異常視頻段的異常概率值,Pn;i表示一個正常視頻Bn中第i個視頻段的異常值概率.
2) 圖稀疏約束(L1 graph loss).考慮到異常事件的稀疏性,在時空融合圖網絡層得到的所有片段的得分值應具有稀疏特性,同時對于時空融合圖中的邊在構圖時也應滿足其稀疏性,用L1損失來構造圖稀疏約束:
(10)
其中,AF=(AFij)N×N為時空融合圖的鄰接矩陣,Pi為各個片段最后得分值.
因此對于視頻片段損失函數為
Lsegment=l(Ba,Bn)+λ1lsparse,
(11)
其中λ1為超參數.
3) 視頻異常分類損失.弱監督的視頻異常事件檢測是一個多示例問題,最后實現對于視頻級標簽的類別判斷也是必要的,先前研究沒有完全使用視頻監督信息,我們利用注意力模塊得到的視頻級真實標簽對網絡進行優化.采用2分類交叉熵損失:

(12)
其中,λ2為超參數,M為訓練輸入視頻的批量數,yi∈{0,1}為第i個視頻的標簽,vidi為第i個視頻的預測值,W為模型參數即網絡參數懲罰項.
實驗數據集采用中佛羅里達大學犯罪數據集UCF-Crime與上??萍即髮W發布的ShanghaiTech Campus數據集.UCF-Crime數據集由正常與13類異常(虐待、追捕、縱火、襲擊、盜竊、爆炸、打架、道路交通事故、搶劫、射擊、商店偷竊、偷盜、破壞公物)共1 900個視頻構成,其中異常視頻中只包含少數異常片段,我們需要分辨出哪些片段發生異常哪些片段是正常,訓練集包含810個異常與800個正常視頻,測試集包括正常視頻150個與異常視頻140個;ShanghaiTech包含13種場景類型的視頻,具有不同的光照與拍攝角度,其中異常視頻130個,其異常主要表現在人行道的機動車闖入、道路上的打鬧以及行人的突然加速等.圖2為數據集的部分關鍵幀.

Fig. 2 Part of keyframes from two datasets
3.2.1 實驗設置
實驗環境:實驗服務器配置為Intel CoreTMi9-9720K CPU@2.90 GHz,GPU采用GeForce RTX208 0Ti顯存12 GB,內存64 GB.服務器采用Ubuntu18.04系統,編程環境為python3.6,CUDA9.0,Pytorch1.0.0.
參數設置:對視頻進行重新調整,每幀大小為224×224.由于不同視頻時間尺度差異性較大,對視頻進行分段處理,對整個視頻劃分成無重復區域的32段.利用在ImageNet數據集預訓練好的I3D網絡模型,對每段視頻進行連續16幀RGB圖像的特征提取,得到多個1 024維特征塊,對片段內得到的所有特征塊進行平均處理,即每個視頻可以由X∈R32×1 024的特征矩陣表示.將視頻特征矩陣送入時空融合圖卷積網絡,其中設置空間相似圖中kS=3,時間連續圖kT=2;采用3層圖卷積網絡,每層維度分別為512,128,1,注意力模塊中2層全連接層維度分別為512和1,dropout設置為0.6;采用adagrad優化算法,學習率設置為0.001,學習率衰減為0.000 1,λ1=0.000 08,λ2=0.001.在輸入訓練樣本時每次迭代的批量數為60,其中正包即異常視頻為30個,負包即正常視頻為30個,共500個epoch.上述實驗參數設置與文獻[16]保持一致,保證了實驗的公平性.
3.2.2 實驗結果與分析
評價指標:參照先前研究方案[7-8,16-19],采用幀級標簽作為評價標準,得到誤報率與召回率度繪制接收者操作曲線(receiver operating characteristic curve, ROC),計算曲線下面積(area under curve, AUC)值,以AUC值和ROC曲線作為最終實驗結果的對比參照,AUC值越高模型的判別效果越好.為了判斷檢測效果,以視頻級別標簽的誤報率以及準確率來檢驗視頻異常檢測的性能.
1)k取值分析
為了實現對k取值的選擇,按照表1對不同k值進行了選取實驗,其中kS為空間相似k值,kT為時間連續性k值.同時考慮到利用高斯核與本文所用方法計算權重是否存在較大差異,作相關實驗對比.實驗結果在圖3中展示,其中折線圖展示了本文所用方法在不同情況下的實驗結果,在合適的k值上有很大的提升,在kS=3,kT=2時,AUC值最高,但隨著k值增加,性能降低.柱狀圖為采用高斯核的實驗結果,高斯核穩定性較強,不隨著k值改變發生較大變化.產生此類情況的原因:在利用本文方法構造時,通過固定縮放各個片段之間的聯系,增強了相鄰的聯系,同時也會增強噪聲(正常片段)對異常片段的影響,在尋找到合適的k值時這些影響會降到最低,得到的效果最優.使用高斯核時,各個片段之間的聯系相對較弱,且高斯核對于k值改變有一定的平滑性,所以改變k值對其影響較小.

Table 1 Different Values of k in 5 cases

Fig. 3 Result in 5 cases
2) 方法的縱向分析
為了進一步證明采用融合策略的效果以及添加注意力模塊得到的視頻級異常分類損失(video classification loss, VCL)是否具有提升,進行相關對比實驗.表2中詳細列舉了7種方法的結果.表2中空間相似圖只考慮了視頻中各個片段的相似性關系,時間連續圖為只考慮到時間上的連續關系,平均融合為文獻[19]的融合方式,時空融合圖為我們的融合方法,實驗結果表明單一考慮視頻段的聯系并不能完整地表達出異常,對兩者進行結果的平均在檢測魯棒性上也低于本文采取自適應融合的方法,由此可以證明我們方法的優勢.
表2也展示了視頻級異常分類損失帶來的性能提升.添加該損失后,自適應融合方法提升1.44%;為了進一步證明其有效性,利用提取的I3D特征對基準方法[16]進行了驗證,該損失也可以在基準方法上提升2.31%.
同時進一步進行了視頻處理速度的實驗測試,我們的模型從加載視頻數據到獲得異常檢測結果的處理速率達到68.87 fps,可實現實時異常事件檢測.但視頻的處理效率依據環境不同會有不同.

Table 2 Fusion Model Verification on UCF-Crime
3) 與相關方法對比分析
① ROC與AUC值對比.實驗與目前針對于UCF-Crime數據集的主流研究方法作對比.圖4給出了能夠獲取到的數據實驗結果的ROC曲線,可以看出時空融合圖方法(星狀形曲線)在幀級的誤報率與召回率綜合上表現更優.

Fig. 4 ROC comparison on UCF-Crime
表3中給出了對比方法的AUC結果.可以看出,文獻[7-8]這2種基于無監督的方法在進行異常檢測時AUC較低;文獻[16]中利用部分異常信息可以達到75.41%的AUC值,基于時空融合圖模型可以取得高于基準方法[16]5.35%的結果,也優于目前遵循基準模型的網絡架構的其他方法[14-15];雖然相比于目前最好的算法[19]差1.36%,但我們的方法在特征提取以及訓練階段共用時為30.23 h,文獻[19]需要交叉清理訓練,進行一次交叉清理訓練(包括特征提取與訓練階段)用時為34.56 h.其原因是我們的方法在參數量上更少約為1.1 M,較文獻[19]少約1 M的參數個數,同時無須交叉清理訓練,故我們的方法訓練更簡便、快速.

Table 3 Result Comparison on UCF-Crime

Fig. 5 Results of a few test videos on UCF-Crime
② 誤報率與準確率對比.在視頻異常檢測中,視頻級別的異常事件誤報率以及準確率性能指標也尤為重要,我們對誤報率以及準確率采用視頻級別的標簽進行評估,取閾值為0.5時得出其混淆矩陣.與所能獲取實驗結果的方法進行對比,如表4所示,在150個正常測試視頻中基準方法誤報率為12%,我們方法誤報率為8.67%,可以看出所提方法在誤報率及準確率方面更優.

Table 4 Comparation of Accuracy and False Alarm
4) 異常事件檢測可視化對比分析
為了更清晰地展現所提出的方法在視頻異常事件檢測上的效果,利用測試視頻作可視化對比分析,均采用每幀異常得分超過0.5作為異常標注.圖5展現了采用數據集中槍擊案例與縱火案例視頻相關方法檢測結果的可視化.圖5(a)以及圖5(b)中真實區域為測試視頻中標注的異常幀信息,深色區域為標記的真實異常區域,其下4個深色區域為4種方法檢測出的異常區間.時空融合圖為本文提出的方法,時間連續圖與空間相似圖為只考慮單一情況的方法,基準方法為文獻[16]所提出的方法.
從圖5(a)的槍擊案例中可以看出,我們的方法在對異常事件檢測時,所檢測出的區域能夠比較好地覆蓋異常區域,而基準方法覆蓋度較小且會出現異常事件檢測區域的碎片化.從圖5(b)的縱火案例中可以看出,在空間相似圖和基準方法上,倒汽油與點火之間有部分漏報,而考慮時間連續上的關聯則檢測得比較全面.較以上方法,我們的方法同樣能夠比較好地覆蓋異常區域,并且體現了能夠結合時間連續圖與空間相似圖的優勢,在視頻最后階段由于出現火災場景而數據集中并沒有對其進行異常標記,但是我們的方法給出了預警.由此可看出,由于我們的方法考慮到了片段之間的時空內在關聯關系,檢測出的區域能更好地覆蓋異常事件區域,不會出現異常事件檢測區域的碎片化,更符合視頻異常事件的檢測需求.
該數據集一般用作無監督學習,為了實現弱監督的視頻異常事件檢測,對數據集重新進行了劃分.采用與文獻[19]相同的劃分方式,從整個數據集采樣238個視頻作為訓練集,其中正常視頻175個、異常視頻63個;測試集包括199個視頻,正常視頻155個、異常視頻44個,訓練集與測試集無重復視頻.
3.3.1 實驗設置
與UCF-Crime數據集的處理方式相同,將視頻上每一幀的大小調整為224×224并對視頻做分段處理.利用ImageNet上預訓練好的3D卷積神經網絡(I3D)提取連續16幀的信息,對一個視頻的所有片段作分段并取平均值的處理.將視頻特征送入時空融合圖網絡模型進行訓練,在構建圖網絡時,空間相似圖kS=10,時間連續圖kT=7,每次迭代的批量數設置為20,其他參數設置與在UCF-Crime上實驗保持一致.
3.3.2 實驗結果與分析
本節分別與相關方法[12-14,16,19]進行了檢測實驗的AUC、誤報率與準確率的統計以及ROC曲線繪制.
1) ROC與AUC值對比.圖6給出了所能獲取實驗結果的方法的ROC對比圖,在ROC指標上我們方法(星狀形曲線)具有最優的效果.表5給出了在該數據集上典型的無監督和弱監督的對比方法實驗的AUC值,文獻[12-14]采用無監督的方式,此類方法由于缺少異常信息的輔助其AUC值最高僅73.20%,檢測性能有待提高.文獻[16]中方法常作為弱監督方式的基準方法,只對單個片段進行識別導致識別效果不高;文獻[19]對異常視頻中的正常片段進行了清理,使弱監督演變為全監督的方式,實現了較好的檢測效果,但ShanghaiTech數據集異常模式沒有UCF-Crime顯著,在噪聲清理時可能會將異常片段進行清理;在通過控制各個片段之間關聯度的條件下,使用時空融合圖卷積網絡比只考慮單一聯系的魯棒性更強,較基準方法高9.30%,比目前最優方法[19]高5.44%,實現了在此數據集下的最好的檢測效果.

Fig. 6 ROC comparison on ShanghaiTech

Table 5 AUC Score Comparison on ShanghaiTech
2) 誤報率與準確率對比.表6給出了根據視頻級的預測值統計的準確率與誤報率,在所能獲取實驗結果的方法對比中可以看出:在基礎方法之上,只考慮單一構圖增強事件之間的聯系情況,模型檢測性能有所提升,但相差不大;以本文方法進行時空融合圖操作后,在準確率與誤報率上均能獲得較大提升,也是此數據集下最好的結果.

Table 6 Comparation of Accuracy and False Alarm on ShanghaiTech
為了考察模型在真實環境下異常模式多樣化的泛化能力,對在一個數據集上訓練好的模型進行未知數據集下的測試.我們引入新的暴力檢測數據集RWF2000[31]作為未知的數據集,該數據集為暴力斗毆數據集,由2 000個視頻構成,組成打架視頻與正常視頻,每個視頻時長均為5 s,幀率為30 fps.取其中400個視頻作為測試集(200個打架視頻與200個正常視頻).表7展示了3個數據集的不同劃分方式.UCF-Crime,ShanghaiTech,RWF2000均保持原數據集劃分.Mixed-Set為UCF-Crime與ShanghaiTech按照表中數據分布混合構成的數據集,訓練集為兩者訓練集的混合,測試集保持兩者的原始劃分.
訓練策略分為獨立訓練和混合訓練,測試時在3個測試集上分別測試,實驗方案如表8所示.ModelU為在UCF-Crime上訓練的模型,ModelSH為在ShanghaiTech上訓練的模型,ModelM為混合數據集Mixed-Set上訓練的模型.

Table 7 Dataset Partition

Table 8 The AUC Score and Accuracy of Different Test Sets
1) 獨立訓練.如表8中,在ModelU→UCF-Crime (UCF-Crime上訓練,UCF-Crime上測試),模型對于同類異常的判別能力具有優勢,AUC與準確率相對較高,達到80.76%與83.44%.在未知數據集上測試,ModelU→ShanghaiTech時,AUC值與準確率分別為43.01%與73.37%,在ModelU→RWF2000下測試時準確率為76.19%(此數據集沒有幀級標注只取準確率).可以看出:以訓練好的ModelU和ModelSH分別在UCF-Crime和ShanghaiTech數據集測試的泛化能力不顯著,在RWF2000數據集上有一定的泛化能力.因此對未知數據集進行測試時,模型的泛化能力還有待于提高,其主要原因是不同數據集中異常模式差異較大,UCF-Crime更偏向于宏觀的異常;而ShanghaiTech數據集則局限于人的行為上異常,更符合一種微觀的異常;RWF2000數據集中的打架斗毆類型和UCF-Crime數據集有相似之處,故ModelU→RWF2000有更好的泛化能力.
2) 混合訓練.為了考察數據集混合訓練能否達到較理想的測試性能,表8中以ModelM進行了實驗測試.在原數據集UCF-Crime與ShanghaiTech上均有較好的泛化能力,在RWF2000上達到71.05%的檢測準確率,也具有一定的泛化能力.
針對視頻中事件發生的時間特征和空間特征的內在關聯性問題,本文將視頻片段的特征對應為圖中的節點,根據其特征的相似程度和時間差異性分別構建了空間相似性圖和時間連續性圖.將空間相似性圖和時間連續性圖進行自適應加權融合,形成時空融合圖卷積網絡學習生成視頻特征,提出了基于時空融合圖網絡學習的視頻異常事件檢測方法.在UCF-Crime和ShanghaiTech這2個典型的數據集上進行了充分的實驗,實驗結果表明:所提出的方法在視頻異常事件檢測幀級的AUC,ROC和視頻級別的準確率、誤報率等性能指標方面均達到較高水平.所提出的方法可方便、有效地應用于視頻異常事件的檢測.由于本文采用預訓練的3D卷積神經網絡進行特征提取,提取的信息粒度較大,同時在對有鏡頭切換和運動對象遮擋的問題未深入考慮.下一步將對特征提取網絡以及容忍遮擋的關聯性度量進行研究,以進一步提升定位精度和檢測準確率.此外,對未知數據集的異常事件檢測的泛化性能提升還有待于進一步研究.