徐闖 徐祥振


關鍵詞: 視頻異常行為檢測;弱監督學習;多示例學習;視頻特征;全連接網絡
0 引言
視頻異常行為檢測是利用正常和異常行為特征表示之間的差異來檢測異常,在安保上具有重要意義。最初的視頻異常行為檢測方法是設計一種通用的模型,然后用不同場景下的異常視頻去訓練這個模型,但異常行為的認定與監控場景緊密關聯,單一模型缺少相關場景信息。近年來,深度學習在各鄰域表現出色,研究人員利用深度學習方法來提取視頻特征,再用提取的視頻特征去訓練模型。
基于深度學習的視頻異常行為檢測根據訓練數據標簽的不同,可分為基于有監督學習的異常檢測,基于無監督學習的異常檢測和基于弱監督的異常檢測。目前監督學習技術已經取得了很大的成功,隨著視頻數據的不斷增多,數據標注的成本變得過高,對視頻的標注工作變得越來越困難,許多任務因此不能獲取全部的真實標簽信息,給后續視頻行為檢測造成了更大的挑戰。無監督的訓練太過復雜和困難,且準確率偏低,因此無監督方法發展緩慢。相較而言弱監督更適合視頻檢測領域。弱監督學習不需要標注所有訓練數據,只有部分帶有標簽,這樣不僅能夠節省人力成本,還能有效地利用數據,提升模型的性能。近年來,弱監督的方法在計算機視覺領域逐漸受到重視,出現了一些基于弱監督學習的圖像視頻分析方法,這為弱監督方法在視頻行為檢測領域的實現提供了更多可能[1]。
本文基于Sultani等人[2]提出的多示例學習算法進行改進,在原有良好性能的基礎上提出了一種改進多示例學習(Modified Multiple Instance Learning,MMIL) 算法,實驗表明MMIL相較于原來的MIL算法有更高的準確率和更低的誤報率。
1 相關工作
弱監督學習主要分為三種類型,分別為不完全監督、不確切監督和不精確監督。本文使用的是不確切監督,即訓練的數據只帶有粗粒度標簽,把輸入數據比作一個包,每個包里面包含很多個示例,包的標簽是可知的,但每個示例的標簽未知。
多示例學習(Multiple Instance Learning,MIL) 是在弱監督領域常用的一種方法。該方法把多個數據合在一起叫作一個包,每個包都有一個標記。當一個包的標記為負時,這個包里面所有樣本的標記都是負的。當一個包的標記為正時,這個包里面至少有一個樣本的標記為正,包的標簽并不能代表里面的樣本屬于這個類。Zhou[3]整理了機器學習中常用的一些多示例學習算法。Carbonneau等人[4]對多示例學習的一些問題和應用進行了調查。Sultani等人[2]提出了一種利用弱標記的訓練視頻進行異常檢測的多示例學習算法。該算法利用一種對深度學習網絡具有稀疏性和平滑性約束的MIL排序損失來學習視頻片段的異常分數,最后學習得到一個分類器,使得對新輸入的樣本,可以給出它的正負標記。
2 MMIL 算法
MMIL把16個連續幀作為一個視頻剪輯片段,對整個視頻的視頻剪輯片段提取特征后進行重復隨機采樣,最后每個視頻都含有N 個包,每個包含有M 個視頻剪輯片段的特征,這樣就對不同長度的視頻進行了歸一化。將提取的特征作為全連接層的輸入,最后得到對應的異常得分為S,結構如圖1所示。Vn和Va分別表示包含異常和不含異常的視頻。Bn和Ba為Vn和Va視頻片段組成的包。Sn和Sa則是Bn和Ba中視頻片段的異常得分,范圍為0~1。
因為缺少每個視頻片段的標簽,無法使用Sai> Sni來判斷異常,因此采用多示例排序損失的方法,只對正包和負包中異常得分最高的示例進行排名,正包中最高得分的視頻剪輯片段是有可能含有異常片段的,包中最高得分的片段則是正常的,當正負示例的異常得分相差比較大時效果最好。
3 實驗
3.1 ShanghaiTech 數據集
ShanghaiTech數據集包括13 個不同的異常場景,在不同的照明條件下,由多個不同視角的相機拍攝437 個視頻片段,都是可疑的活動,例如在人行道上打鬧、追逐、溜冰、騎單車和推手推車等。ShanghaiTech 數據集是為無監督學習而提出的,為了適應弱監督學習,Zhong 等人[5]將視頻重新分為238 個訓練視頻和199個測試視頻。
本文計算幀級受試者工作特征曲線(Receiver Op?erating Characteristic Curve,ROC) 的曲線下面積(AreaUnder Curve,AUC) 作為主要評估指標,其中AUC越大意味著識別能力越高。并且還通過異常視頻的誤報率(False Alarm Rate,FAR) 來評估魯棒性。
3.2 相關實驗配置
本文使用I3D[6]作為特征提取網絡,提取視頻流中的外觀RGB特征,并將其作為模型的輸入,對MMIL 模型進行訓練,本文把16個連續幀作為一個視頻剪輯片段,然后通過I3D網絡提取視頻剪輯片段的特征,最后取視頻剪輯片段特征的平均值,把這些特征值作為全連接神經網絡的輸入。全連接層的單元數分別是512、32和1。MMIL模型在全連接層引入了隨機失活(Dropout) 來防止過擬合,Dropout 丟失率設置為0.6。使用ReLU激活函數分別對第一個和第二個全連接層進行激活,選擇了Adagrad優化器,并引入了L2范數正則化,權重衰減設置1e-3,以獲得最佳性能,訓練1000個epochs。
3.3 結果分析
本文在ShanghaiTech數據集上對提出的MMIL算法進行了驗證,并與目前現有的基于多示例的弱監督視頻異常行為檢測算法進行了對比。如表1所示,實驗結果表明,MMIL算法具有更高的準確率和更低的誤報率。
4 結論
本文提出了一種基于多示例學習的MMIL算法。改進的算法對損失函數進行了優化,并對全連接層進行了調整,引入了Dropout,能夠更好地防止過擬合。本文在數據集shanghaiTech上對改進后的模型進行了驗證,通過實驗發現,本文提出的MMIL模型與現有的弱監督學習方法相比,能夠獲得更好的效果。