999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進SSD的人群異常行為檢測算法研究

2022-12-24 07:11:40潔,田野,楊
紅外技術 2022年12期
關鍵詞:特征提取特征檢測

亢 潔,田 野,楊 剛

基于改進SSD的人群異常行為檢測算法研究

亢 潔1,田 野1,楊 剛2

(1. 陜西科技大學 電氣與控制工程學院,陜西 西安 710021;2. 西安郵電大學 通信與信息工程學院,陜西 西安 710121)

針對人群異常行為檢測任務中存在的算法復雜度較高,重疊遮擋等帶來的檢測精度低等問題,本文提出一種基于改進SSD(Single Shot Multi-box Detector)的人群異常行為檢測算法。首先采用輕量級網絡MobileNet v2代替原始特征提取網絡VGG-16,并通過可變形卷積模塊構建卷積層來增強感受野,然后通過將位置信息整合到通道注意力中來進行特征增強,能夠捕獲空間位置之間的遠程依賴關系,從而可以較好處理重疊遮擋問題。實驗結果表明,本文提出的算法對人群異常行為具有較好的檢測效果。

深度學習;異常行為檢測;SSD網絡;可變形卷積;注意力機制

0 引言

現如今,異常行為檢測作為機器視覺領域和圖像處理中的熱門研究方向,在公共場所的安全防范方面有著重要意義[1],備受研究人員關注。公共安全事件的頻發對百姓的人身安全造成了嚴重威脅,如果使用智能監控系統實時監控異常情況,并對異常情況進行報警,這樣一來可以減輕公共安全事件對社會帶來的危害。由此可見,對人群中異常行為的檢測具有至關重要的意義。

傳統方法一般先從視頻序列中分割出待測目標,然后特征提取并比對提取到的人群行為特征和標準庫中異常行為樣本,最后交給分類器判斷異常行為是否存在。但是如果數據量較大,傳統的方法則顯示出計算能力不足,深層次特征無法表達的問題。

相比傳統方法,深度學習的方法更能高效地解決問題。在某些場景下,監控畫面中所包含的人群異常行為特征通常受到背景環境復雜、擁擠、遮擋等影響[2],這些因素都會導致人群異常行為檢測算法的準確性和檢測速度大大降低。胡等人[3]提出一種基于深度時空卷積神經網絡的群體異常事件檢測算法,其利用每幀視頻的空間特征與前后幀的時間特征,將二維卷積運算擴展到了三維空間,并將視頻區域劃分為若干子區域獲取其空間特征,最后將空間特征輸入到深度時空卷積網絡進行訓練和分類。Almazroey等人[4]提出一種基于深度學習的算法來檢測監控視頻中人群的異常行為,該算法利用視頻中提取到的關鍵幀光流的大小、方向、速度特征生成多個2D模型特征,最后將2D模型特征輸入預訓練的AlexNet模型中進行判斷。穆等人[5]基于生成對抗網絡(generative adversarial networks,GANs)提出了一個人群異常事件檢測的算法,該算法使用正常事件樣本訓練出一對生成對抗網絡,將其中一個生成對抗網絡作為輸入并生成對應的光流特征,再將光流特征輸入另一個生成對抗網絡并產生對應的幀,最后分析生成的幀圖像和真實幀之間的差異來檢測和定位異常事件。

1 人群異常行為檢測模型

1.1 改進SSD模型架構

Wei Liu[6]提出的SSD網絡是主要的目標檢測算法之一。SSD網絡由兩部分構成,第一部分中VGG-16網絡對圖像進行特征提取,在SSD網絡中刪除其全連接層;第二部分是對目標分類檢測,用2個常規卷積層代替VGG-16中的2個全連接層,并且增加了4個卷積層,還加入了特征金字塔網絡(feature pyramid network,FPN)的檢測方式,從而實現多尺度目標檢測。

SSD網絡的優點是提取6個尺度不同的特征圖對目標進行檢測,深層特征圖檢測和淺層特征圖被分別用來檢測大目標和小目標,因此SSD網絡具有更好的檢測尺度。但由于SSD網絡不同層的特征圖之間是相互獨立的,并且SSD的特征提取網絡采用VGG-16網絡,這樣導致模型參數較大,收斂速度較慢。

針對SSD網絡存在的問題,本文提出一種基于改進SSD的人群異常行為檢測模型,如圖1所示,該模型將原始主干特征提取網絡VGG-16更換為輕量網絡MobileNet v2,然后使用可變形卷積模塊提升感受野,最后通過坐標注意力機制(coordinate attention,CA)[7]使用精確的位置信息對通道關系和長期依賴性進行編碼,根據未遮擋部分得到上下文關系來預測遮擋部分,對重要圖像特征進行特征增強,以此來提高人群異常行為檢測算法的檢測效果。

圖1 基于改進SSD的人群異常行為檢測模型

1.2 人群異常行為定義

在不同場景中,異常行為的定義各不相同。由于人群異常行為種類繁多,不能用統一的標準去衡量,所以對異常行為的定義需要考慮周圍環境。一般來說,研究人員把不尋常的、和現有模式不同的、不可預測的行為定義為異常行為[8]。

本文應用背景面向校園中的監控視頻畫面,將異常行為分為兩類情況:人行道上非行人通過和異常的行人運動模式。人群異常行為大致包括:騎自行車的人,滑滑板的人,小型機動車,輪椅以及行人踏入草坪等異常種類,所有異常均是自然發生的。

1.3 人群異常行為檢測模型建立

1.3.1 MobileNet v2網絡

為了提高特征提取的效率,模型的前置基礎網絡采用了輕量網絡MobileNet v2[9],該網絡共有17個Bottleneck層(其中每個Bottleneck包含兩個逐點卷積層和一個深度卷積層(depthwise convolution),一個標準卷積層和兩個逐點卷積層(pointwise convolution),整個網絡總計有可訓練參數層54層。MobileNet v2網絡中采用線性瓶頸(linear bottleneck)和倒殘差(inverted residuals)結構對網絡優化,雖然加深了網絡層,但是模型體積變小了,速度加快了。

圖2為MobileNet v2網絡模塊,該模塊先通過擴展層來擴展維度,接著采用深度可分離卷積來提取特征,再使用映射層來壓縮數據,讓網絡體量變小。由于擴展層和映射層存在可學習的參數,故整個網絡可以學習如何更好地擴展數據和重新壓縮數據。

圖2 MobileNet v2網絡模塊

在輸入圖片尺寸相同的前提下,使用VGG-16的參數量約為13.835×107,而使用MobileNet v2參數量約為0.347×107。因此使用該網絡可減少網絡參數,進而達到減少計算量的目的。

1.3.2 可變形卷積模塊

如果某一幀中出現了異常行為,我們需要對其特征進行提取并學習,傳統的卷積核通常是尺寸固定、大小固定的,提取到的特征可能包含背景,或者提取的特征未能全部覆蓋異常行為的目標主體,使網絡學習不夠精確,進而影響到目標檢測的準確性。如圖3所示,在傳統卷積的基礎上,可變形卷積[10]增加了方向向量來調整卷積核,使其可以根據實際情況調整自身的形狀,使其形態更貼近特征物,從而更好地提取輸入的特征。

眾所周知,每一卷積層是在銜接的前一卷積層的基礎上提取更加抽象的特征,考慮到如果將該模塊放置位置過于靠前,則提取的信息較為冗余,若放置位置靠后,則信息丟失過多。通過實驗可知,將其嵌入到MobileNet v2的第五層卷積層時,提高了算法對幾何形變的建模能力,特征提取可以取得最佳的效果。

卷積核的定義:

={(-1,-1), (-1, 0), …,(0,1), (1,1)} (1)

式中:定義了感受野的大小和擴張。

傳統的卷積輸出是:

式中:為輸入;為輸出;為權重矩陣;0為特征圖上的每個點;P是網格中的個點。

可變形卷積的輸出是:

式中:DP為坐標偏移量。

對于輸入的一張特征圖,假設原來的卷積操作是3×3的,為了學習偏移量,定義了另外一個3×3的卷積層,輸出的維度和原特征圖相同,通道數等于2。圖3下半部分的可變形卷積可認為是在上半部分生成的偏移量基礎上進行一個插值操作,然后再做普通的卷積。

圖3 可變形卷積模塊

可變形卷積通過改變特征提取方式,使網絡學習更為充分,并為解決遮擋問題起到輔助作用。雖然增加了少量的計算量,但可以使網絡性能得到很好的提升。

1.3.3 注意力機制模塊

一張特征圖中包含了特征通道和位置等信息,圖中有些內容是我們比較關注的,而有些內容對目標檢測任務的結果貢獻不大。如圖4所示,可將CA模塊看為一個計算單元,通過學習的方式,抑制不顯著的特征,增強網絡中特征的表達能力,進而提升目標檢測效果。

本文使用的注意力將通道注意力分解為兩個并行的一維特征編碼過程,把空間坐標信息有效整合到生成的注意圖中。具體操作就是對和(即水平與垂直方向)執行平均池化得到兩個一維向量,接下來在空間維度上拼接和1×1卷積來壓縮通道,然后通過BN層和ReLU來編碼兩個方向的空間信息并切分,接著各自通過1×1卷積得到和輸入特征圖相同的通道數,然后歸一化加權。最后與原特征圖相乘,以此來對特征進行自適應調整。

將注意力機制模塊置于卷積層之后、批量歸一化層(batch normalization,BN)之前,通過將位置信息整合到通道注意力中進行特征增強。圖5為特征增強結構圖,分別用CA模塊增強6個經MobileNet v2提取的輸出特征圖。

注意力機制的加入,可以進行多尺度信息的融合,還可以根據未遮擋部分得到上下文關系,以此來預測遮擋部分,可以有效改善遮擋問題。這對異常行為檢測任務非常重要。

2 實驗相關工作

2.1 實驗環境搭建

本文實驗操作系統為Windows10,使用Pytorch深度學習框架,實驗顯卡型號為NVIDIA GeForce RTX 2080 Ti,使用數量為1,顯卡內存為11GB,CPU型號為Intel(R) Xeon(R)E5-2678 v3@2.50GHz,CPU數量為6,使用PyCharm的編譯環境。設置實驗初始學習率為0.01,采用隨機梯度下降法(Stochastic Gradient Descent,SGD)更新網絡參數,學習動量為0.9,伽馬系數0.1,權重衰減率為0.0005。

圖4 坐標注意力模塊

圖5 特征增強結構

2.2 數據集預處理

本文選取UCSD(University of California, San Diego)異常檢測數據集[11]完成實驗任務,該數據集由安裝在高處的攝像頭拍攝獲得,可俯視人行道。人行道上的人群密度從稀疏到擁擠。樣本數據由98個視頻片段組成,分為Ped1和Ped2兩個不同的場景,Ped1場景拍攝的是人群沿垂直方向運動,Ped2場景中為人群沿水平方向運動,每個場景拍到的視頻片段被分成約200幀的不同片段。

首先對數據集進行視頻幀截取操作,選取最有代表性的視頻幀作為數據樣本,然后使用LabelImg軟件對得到的數據樣本進行標注,LabelImg是一個可視化的圖像標注軟件,工作界面如圖6所示。通過標注生成相應的xml文件,最終獲得4010張標注后的數據集。將訓練集與測試集按比例分為8:2,并將輸入圖片縮放調整為300×300像素的圖像,作為訓練模型的原始輸入,然后訓練網絡模型,使其能夠判斷輸入的圖像或視頻數據中是否存在異常行為。

圖6 LabelImg工作界面

2.3 實驗設計與模型訓練

將訓練樣本送入改進后的SSD模型中訓練,將batch_size設置為32,max_iter設置為10000。對Ped1和Ped2依次進行消融實驗,并多次調參及模型優化訓練,然后進行對比實驗。

3 結果與分析

3.1 評價標準

通常在人群異常行為檢測任務中,使用的評估指標為AUC(area under curve)。AUC為受試者工作特征(receiver operating characteristic,ROC)曲線下方區域所圍面積,在0~1之間取值,其表示的意義是正例排在負例前面的概率。如果某一檢測算法的AUC數值較高,則可認為該算法具有良好的性能。

ROC曲線的橫、縱坐標分別表示假正例率(false positive rate,FPR)、真正例率(true positive rate,TPR)。其中:TPR表示在所有真正例的樣本中,被正確地判斷為正例的比率。FPR表示在所有真反例的樣本中,被錯誤地判斷為正例的比率。

計算公式如下:

式中:TP表示判斷為正例,實際為正例;FP表示判斷為正例,實際為反例;TN表示判斷為反例,實際為反例;FN表示判斷為反例,實際為正例。

3.2 模型檢測結果與分析

3.2.1 消融實驗

為驗證本文方法的有效性,將本文提出的模型(MobileNet v2+Deformable Conv+CA)與標準SSD模型(VGG-16)、更換特征提取網絡后的SSD模型(MobileNet v2)以及更換特征提取網絡并嵌入可變形卷積模塊的SSD模型(MobileNet v2+Deformable Conv)進行了消融實驗,表1為測試集在不同模型下的參數對比結果。

從表1可以看出,在測試集Ped1和Ped2上,使用VGG-16的模型檢測速度分別為21.96fps和20.36fps,使用MobileNet v2后,較使用VGG-16的模型檢測速度漲幅明顯,而使用MobileNet v2+Deformable Conv的模型檢測速度雖然較使用MobileNet v2稍有下降(這是因為可變形卷積模塊的加入增加了少量的計算量),但檢測速度較使用VGG-16仍有較大提升。使用MobileNet v2+Deformable Conv+CA的模型檢測速度分別為26.59 fps和25.41 fps,對比VGG-16,由于模型的特征提取網絡替換為輕量網絡MobileNet v2,所以模型檢測速度分別提升了21.08%和24.80%。

表1 基于改進SSD的消融實驗

AUC結果在使用VGG-16的模型上為61.98%和63.81%,使用MobileNet v2的模型,AUC值稍微上升,而使用MobileNet v2+Deformable Conv的模型,AUC結果較使用VGG-16提升了12.63%和22.20%,表明改變特征提取方式的方法對模型檢測精度有明顯效果。再加入注意力機制后,使用MobileNet v2+Deformable Conv+CA的模型的AUC結果繼續提升,分別為74.50%和88.93%,較使用VGG-16的模型提升了20.20%和39.36%。AUC結果表明,注意力機制的加入,可以有效改善對存在遮擋的異常行為的檢測,這對檢測精度的提升有很大的幫助。綜上可知,本文所提模型(改進后的SSD網絡)在檢測速度和精度方面優于標準SSD網絡,實驗驗證了該方法的有效性。

3.2.2 模型損失曲線

圖7和圖8分別為本文提出的模型在數據集ped1和ped2上的訓練損失曲線,包括模型的分類損失、回歸損失和總體損失。由圖可知,在數據集訓練過程中,模型的損失值隨著迭代次數的增加逐漸趨于收斂。

3.2.3 對比分析實驗

表2為本文方法與其他3種檢測算法的性能對比分析。為評估本文方法對人群異常行為檢測的有效性,使用檢測速度和AUC兩個指標來進行判定。

由表2可知,文獻[12]使用Social Force模型檢測和定位人群視頻中異常行為,使用詞袋方法將幀分類為正常和異常,在測試集上的檢測速度分別為23.36fps和23.18 fps,AUC結果為67.5%和70.00%。文獻[13]使用不同的主干特征提取網絡,在測試集上的檢測速度分別為25.21fps和24.85fps,AUC結果分別為71.7%和83.2%。本文方法的檢測速度為26.59fps和25.41fps,AUC結果為74.50%和88.93%。對比不同檢測模型,本文方法在模型檢測速度提升的同時,AUC結果也有不同幅度的提升,說明本文提出的模型具有檢測速度快、準確度高的特點,從而驗證本文方法的有效性。

圖7 本文模型在Ped1上的訓練損失曲線

圖8 本文模型在Ped2上的訓練損失曲線

3.2.4 可視化結果

為了直觀地展現本文方法的有效性,將本文方法的檢測結果與其他算法的檢測結果進行了可視化,如圖9所示。

由圖9可以看出,在檢測畫面1中,4種方法均可完整檢測出一處異常。在檢測畫面2中,存在3處異常,標準SSD算法可以檢測出其中兩處異常,由于存在遮擋,第三處異常(圖中藍色虛線框)并未檢測出來;Social Force算法檢測出一處異常(圖中紫色實線框),由于數據集分辨率較低的原因,第二處異常(圖中黃色虛線框)存在漏檢,第三處存在遮擋的異常(圖中藍色虛線框)仍未檢測出來;由于畫面存在遮擋,并未學習到足夠的特征信息,Pang等人的算法[13]也有一處異常(圖中藍色虛線框)未檢測出來;相比以上3種算法,本文方法可以完整檢測出檢測畫面2中的3處異常,包含其中存在遮擋的一處異常,不存在漏檢問題。

表2 不同檢測模型性能對比分析

圖9 可視化結果

實驗結果表明,加入可變形卷積模塊和注意力模塊后,特征提取更加準確,網絡有效地學習到了圖像中重要的特征信息,并根據上下文關系來預測遮擋部分,可以有效解決遮擋問題。綜上,檢測結果說明了本文方法的可行性。

4 結語

本文主要面對人群異常行為檢測算法面臨的問題開展工作,針對現有模型算法復雜度高的問題,將特征提取網絡替換為輕量網絡MobileNet v2,從而減少模型參數,提高模型運行速度;針對在復雜場景如重疊遮擋下檢測準確性低的問題,采用可變形卷積來改變特征提取方法,并加入注意力機制進行特征增強,通過學習上下文關系來預測遮擋部分,進而有效解決遮擋問題。從UCSD數據集上的實驗結果可以看出,本文提出算法的檢測速度為26.59fps和25.41fps,AUC結果為74.50%和88.93%,較其他方法在檢測速度和精度上均有不同程度的提升,表明本文的模型可實現對人群異常行為的快速準確檢測。

[1] HU Y. Design and implementation of abnormal behavior detection based on deep intelligent analysis algorithms in massive video surveillance[J]., 2020, 18(2): 227-237.

[2] 張欣, 齊華. 基于YOLOv4的人體異常行為檢測算法研究[J]. 計算機與數字工程, 2021, 49(4): 791-796.

ZHANG X, QI H. Research on human abnormal behavior detection algorithm based on YOLOv4[J]., 2021, 49(4): 791-796.

[3] 胡學敏, 陳欽, 楊麗. 基于深度時空卷積神經網絡的人群異常行為檢測和定位[J]. 計算機應用研究, 2020, 37(3): 891-895.

HU X M, CHEN Q, YANG L. Detection and localization of abnormal crowd behavior based on deep spatiotemporal convolutional neural network[J]., 2020, 37(3): 891-895.

[4] Almazroey A A, Jarraya S K. Abnormal events and behavior detection in crowd scenes based on deep learning and neighborhood component analysis feature selection[C]//(AICV2020), 2020: 258-267.

[5] MU Y L, ZHANG B. Abnormal event detection and localization in visual surveillance[C] //, 2020: 1217-1225.

[6] LIU W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector[C]//, 2016: 21-37.

[7] HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[C] //2021(CVPR) 2021: 13708-13717.

[8] Ali K, MOHAMMAD S M. Improved anomaly detection in surveillance videos based on a deep learning method[C]// 8th10, 2018: 73-81.

[9] Sandler M, Howard A, Zhu M, et al. MobileNetV2: Inverted Residuals and Linear Bottlenecks[C]//2018, 2018: 4510-4520.

[10] DAI J F, QI H Z, XIONG Y W, et al. Deformable Convolutional Networks[C]//2017(ICCV), 2017: 764-773.

[11] Mahadevan V, LI W, Bhalodia V, et al. Anomaly detection in crowded scenes[C]//(CVPR) 2010: 1975-1981.

[12] WU W H, CHEN M Y, LI J H, et al. Visual information based social force model for crowd evacuation[J]., 2022, 27(3): 619-629.

[13] PANG G S, YAN C, SHEN C H, et al. Self-trained deep ordinal regression for end-to-end video anomaly detection[C]//2020(CVPR), 2020: 12170-12179.

Research on Crowd Abnormal Behavior Detection Based on Improved SSD

KANG Jie1,TIAN Ye1,YANG Gang2

(1. School of Electrical and Control Engineering, Shaanxi University of Science and Technology, Xi'an 710021, China;2. School of Communication and Information Engineering, Xi'an University of Posts and Telecommunications, Xi'an 710121, China)

Aiming at the problems of high algorithmic complexity and low detection accuracy caused by overlapping occlusions in abnormal crowd behavior detection, this paper proposes an algorithm for crowd abnormal behavior detection based on an improved single-shot multi-box detector(SSD). First, the lightweight network MobileNet v2 was used to replace the original feature extraction network VGG-16, and a convolutional layer was constructed by a deformable convolution module to enhance the receptive field. Feature enhancement was performed by integrating the position information into the channel attention, which can capture long-range dependencies between spatial locations, allowing for better handling of overlapping occlusions. The experimental results show that the proposed algorithm has a good detection effect on abnormal crowd behavior.

deep learning, abnormal behavior detection, SSD network, deformable convolution, attention mechanism

TP391

A

1001-8891(2022)12-1316-08

2022-04-03;

2022-07-12.

亢潔(1973-),女,博士,副教授,主要研究方向:模式識別、機器視覺、智能控制。E-mail: kangjie@sust.edu.cn。

陜西省重點研發計劃項目(2021GY-022)。

猜你喜歡
特征提取特征檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
小波變換在PCB缺陷檢測中的應用
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 99精品视频在线观看免费播放| 无码在线激情片| 亚洲精品国产精品乱码不卞| 国产精品制服| 国产精品无码在线看| 婷婷丁香色| 国产乱码精品一区二区三区中文 | 色首页AV在线| 热re99久久精品国99热| 日韩无码一二三区| 色丁丁毛片在线观看| 97se亚洲综合| 久久久久久久久18禁秘| 中文无码影院| 在线不卡免费视频| 久久先锋资源| 中文国产成人精品久久一| 国内嫩模私拍精品视频| 无码AV动漫| 99re经典视频在线| 91亚洲精品国产自在现线| 国产香蕉一区二区在线网站| 国产精品美女在线| а∨天堂一区中文字幕| 亚洲一区二区无码视频| 成人午夜网址| 无码精油按摩潮喷在线播放| 麻豆AV网站免费进入| 国产啪在线91| 一级不卡毛片| 香蕉99国内自产自拍视频| 性做久久久久久久免费看| 成人看片欧美一区二区| 99精品在线看| 国产午夜福利在线小视频| 国产欧美视频综合二区| 亚洲中文字幕手机在线第一页| 日韩在线永久免费播放| 国产一区二区在线视频观看| 国产麻豆91网在线看| 97国产精品视频人人做人人爱| 亚洲区欧美区| 无码电影在线观看| 97超碰精品成人国产| 亚洲精品色AV无码看| 国产高颜值露脸在线观看| 黄网站欧美内射| аⅴ资源中文在线天堂| 国产香蕉97碰碰视频VA碰碰看| 亚洲91在线精品| 日韩av无码DVD| 亚洲毛片网站| 久久久精品国产SM调教网站| 最新日本中文字幕| 欧美国产日韩在线播放| 露脸一二三区国语对白| 亚洲香蕉伊综合在人在线| 无码高清专区| 色综合激情网| 欧美国产在线精品17p| 免费人成在线观看成人片 | 国产色爱av资源综合区| 欧美一级色视频| 狠狠躁天天躁夜夜躁婷婷| yjizz视频最新网站在线| 欧美精品啪啪| 欧美特黄一免在线观看| 四虎国产精品永久一区| 久久情精品国产品免费| 天天综合网在线| 爱爱影院18禁免费| 亚洲综合在线最大成人| 日本在线免费网站| 国产内射在线观看| 国产女人18毛片水真多1| 五月婷婷综合在线视频| 欧美一级大片在线观看| 国产丝袜无码精品| 狠狠做深爱婷婷综合一区| 国产在线视频自拍| 久久美女精品| 成人国产精品网站在线看|