中圖分類號(hào):TP391.4 文獻(xiàn)標(biāo)志碼:A DOI:10.13705/j. issn.1671-6841.2024029
文章編號(hào):1671-6841(2025)05-0039-07
Abstract:Abnormal behavior detection in video had significant application value in the field of surveillance and security. To address the issue of abnormal information generalization caused by skip connections between the encoder and decoder in autoencoder models in generating video frames,an algorithm for video abnormal behavior detection based on multi-scale quantized features was proposed. Firstly,the encoder was trained to learn normal frames and performed vector quantization in a hierarchical manner, while the decoder generated video frames based on the quantized features,avoiding direct information transmission between the encoder and decoder,to significantly reduce the impact of generalization,and to improve the quality of frame generation. Secondly,a pyramid deformation module was utilized to measure the diversity of the generated frames,to calculate the deformation between the generated frames and the original frames to measure the severity of the abnormality. Finally,the anomaly score was obtained by fusing the reconstruction error of the generated frames. The abnormal detection performance of the algorithm was tested on public datasets,and the experimental results showed that the AUC value of the proposed algorithm was higher than that of similar algorithms.
Key words: video anomaly detection; multi-scale;vector quantization; variational autoencoder
0 引言
隨著城市化進(jìn)程的加速和人口密度的增加,公共安全問題日益受到關(guān)注。行人異常行為檢測作為視頻監(jiān)控領(lǐng)域的重要研究方向之一,具有廣泛的應(yīng)用前景。通過利用監(jiān)控?cái)z像頭獲取的視頻數(shù)據(jù),可以對(duì)行人的行為進(jìn)行實(shí)時(shí)監(jiān)測和分析,從而及時(shí)發(fā)現(xiàn)并預(yù)防潛在的危險(xiǎn)事件。
然而,由于各種異常情況具有不可預(yù)知性,難以通過一種模型進(jìn)行全部檢測,并且發(fā)生異常的概率在一般情況下占比較小,模型只能通過學(xué)習(xí)正常情況下的數(shù)據(jù)來檢測可能發(fā)生的各種異常情況。目前,基于深度學(xué)習(xí)的視頻異常行為檢測方法主要分為重構(gòu)判別和未來幀預(yù)測兩類。
基于重構(gòu)判別的方法通過學(xué)習(xí)正常樣本的空間分布進(jìn)行建模,對(duì)于輸入數(shù)據(jù),構(gòu)建出其在正常空間分布的樣本,從而對(duì)重構(gòu)誤差較大的樣本分配較高的異常分?jǐn)?shù),因?yàn)閮H使用正常數(shù)據(jù)訓(xùn)練的模型無法重構(gòu)異常。Hasan等首次使用卷積自編碼器(Conv2D)對(duì)視頻幀進(jìn)行誤差重構(gòu)來檢測視頻中的異常行為,但是自編碼器強(qiáng)大的泛化能力會(huì)導(dǎo)致異常幀無法被重建為正常模式。Gong等2提出了記憶自編碼器結(jié)構(gòu)(MemAE),在自編碼器基礎(chǔ)上,利用外部記憶庫記憶訓(xùn)練數(shù)據(jù)集中出現(xiàn)的正常模式,通過記憶模塊匹配的信息重構(gòu)圖像,雖然在一定程度上降低了泛化的影響,但是這種方法高度依賴內(nèi)存的大小,小型內(nèi)存會(huì)限制其正常的幀重建能力。Park等[3]提出基于記憶引導(dǎo)的異常檢測算法(MNAD),設(shè)計(jì)了一個(gè)可以更新的內(nèi)存模塊,并引入特征緊湊性損失和分離性損失,保證記憶項(xiàng)的多樣性和辨別能力,但是仍存在內(nèi)存限制問題。Lv等[4]提出使用動(dòng)態(tài)原型網(wǎng)絡(luò)(MPN)進(jìn)行視頻異常檢測,通過引入一個(gè)原型學(xué)習(xí)模塊來顯式地建模視頻序列中的正常動(dòng)態(tài),實(shí)時(shí)地將正常行為編碼為原型,不需要額外的內(nèi)存開銷。
基于未來幀預(yù)測的方法認(rèn)為正常行為具有規(guī)律性,模型對(duì)于正常樣本數(shù)據(jù)可以很好地預(yù)測。而實(shí)際上,異常情況往往具有不確定性,難以預(yù)測,即正常情況下預(yù)測幀和實(shí)際幀之間的差異比異常情況下更接近。預(yù)測模型的任務(wù)是通過過去的多幀圖像來預(yù)測下一幀圖像,再與真實(shí)幀進(jìn)行對(duì)比,判斷是否異常。Liu等[5]首次提出基于未來幀預(yù)測的算法FramePred,利用生成對(duì)抗網(wǎng)絡(luò)對(duì)未來幀進(jìn)行預(yù)測,并引入了光流網(wǎng)絡(luò)對(duì)運(yùn)動(dòng)特征進(jìn)行約束。Kwon等[提出利用統(tǒng)一的生成對(duì)抗網(wǎng)絡(luò)來預(yù)測視頻的過去幀與未來幀,通過循環(huán)回顧性的限制來保持預(yù)測的過去幀和未來幀與視頻序列的一致性,減少預(yù)測幀的模糊情況。Le等提出基于殘差注意力的自動(dòng)編碼器,以統(tǒng)一的方式編碼空間和時(shí)間信息,并引入通道注意力來提取解碼特征,從而能更有效地預(yù)測未來幀。此外,Liu等[8]提出 HF2VAD 算法,將光流重構(gòu)任務(wù)和幀預(yù)測任務(wù)結(jié)合起來對(duì)視頻異常進(jìn)行檢測,該方法優(yōu)于單獨(dú)使用重構(gòu)或預(yù)測任務(wù)的方法。
上述基于自編碼器的方法中,為了生成清晰的圖像,在編碼器和解碼器之間添加了跳躍連接來傳遞細(xì)節(jié)信息,但是跳躍連接會(huì)把原圖像的異常信息直接傳遞給解碼器,導(dǎo)致解碼后的圖像仍然保留異常信息,特別是低像素級(jí)別的異常,得到的重構(gòu)誤差較小,使得算法無法檢測到該類異常。為了解決跳躍連接導(dǎo)致異常信息泛化的問題,本文提出一種基于多尺度量化特征的視頻異常行為檢測算法,在編碼器中進(jìn)行多層次的矢量量化編碼圖像特征,并傳遞給編碼器進(jìn)行圖像生成,在保證圖像被清晰生成的基礎(chǔ)上,能有效避免編碼器和解碼器間異常信息的直接傳遞,提高算法對(duì)異常樣本的重構(gòu)能力。此外還結(jié)合了金字塔變形模塊[\"0]對(duì)各種異常行為進(jìn)行建模,進(jìn)一步提高檢測性能。
本文的貢獻(xiàn)主要有三個(gè)方面:1)使用多尺度矢量量化方法傳遞編碼信息,防止異常信息泛化;2)結(jié)合金字塔變形模塊實(shí)現(xiàn)多樣性測量,把變形信息從緊湊類原型中分離出來以區(qū)分異常;3)使用重建誤差和變形誤差的加權(quán)和作為異常評(píng)判標(biāo)準(zhǔn),并基于局部最大值計(jì)算圖像級(jí)異常評(píng)分,提高檢測結(jié)果的可靠性。
1算法描述
基于多尺度量化特征的視頻異常行為檢測模型包括自編碼器模塊和金字塔變形模塊兩個(gè)部分,如圖1所示,其中自編碼器模塊利用矢量量化變分自編碼器生成視頻中每一幀對(duì)應(yīng)的預(yù)測幀,生成的圖像通過金字塔變形模塊得到各種異常的變形估計(jì),最后融合計(jì)算異常得分進(jìn)行異常評(píng)估。
1. 1 多尺度量化變分自編碼器
本文通過使用矢量量化變分自編碼器[](vari-ational quantized variational autoencoder,VQ-VAE)生成圖像,經(jīng)過多層次的矢量量化編碼,不依賴跳躍連接就可以生成正常模式的清晰圖像。
在VQ-VAE中,編碼器將輸入數(shù)據(jù)映射到潛在空間,并使用最近鄰插值方法將潛在空間中的數(shù)據(jù)解碼為原始數(shù)據(jù)。VQ-VAE包括一個(gè)將觀測映射到離散潛在變量序列上的編碼器,以及一個(gè)從這些離散變量重建觀測的解碼器。如圖1所示,編碼器輸出特征 Ze(x) 和解碼器輸入特征 Zq(x) 使用共享碼本(即圖中的EmbeddingSpace)。換句話說,編碼器是從輸入空間 x 到向量 Ze(x) 的非線性映射,然后基于 Ze(x) 中每個(gè)向量 Zi 到碼本中的原型向量ei 的距離對(duì)該向量進(jìn)行量化,得到 Ze(x) 與碼本中最接近的原型向量的索引 k ,并把 Ze(x) 中每個(gè)向量與碼本中最接近的原型向量 ek 進(jìn)行替換,得到Zq(x),最后傳遞到解碼器[1]
圖1矢量量化過程
Figure1 Vector quantization process

解碼器將接收到的索引映射回它們?cè)诖a本中的對(duì)應(yīng)向量,從中通過另一個(gè)非線性函數(shù)重構(gòu)數(shù)據(jù)。為了學(xué)習(xí)這些映射,重建誤差的梯度通過解碼器并使用直通梯度估計(jì)器反向傳播到編碼器。
VQ-VAE模型的目標(biāo)函數(shù)包含三項(xiàng)損失用于訓(xùn)練VQ-VAE的不同部分,第一項(xiàng)是圖像重建損失,后兩項(xiàng)是VQ的目標(biāo)損失。使用L2最小化損失, β 作為損失權(quán)重,則

其中: E(x) 和 D(e) 分別表示編碼器和解碼器的輸出; sG[?] 表示停止梯度算子。本文中,令
在本文算法中,使用矢量量化的層次結(jié)構(gòu)來對(duì)每幀圖像進(jìn)行建模[12]。將局部信息(如背景細(xì)節(jié))與全局信息(如行人行為)分開建模,通過兩個(gè)層次的建模可以避免用跳躍連接來傳遞細(xì)節(jié)信息導(dǎo)致的異常泛化問題,同時(shí)也能幫助編碼器把圖像更清晰地構(gòu)建為正常模式。對(duì)于像素大小為 256×256 的圖像使用兩級(jí)量化結(jié)構(gòu)。編碼器首先將圖像進(jìn)行特征提取并向下采樣四倍,以獲得像素大小為 64×64 的特征,該特征被量化為底層潛在映射。然后編碼器繼續(xù)進(jìn)行特征提取,將表示進(jìn)一步縮小,在量化后產(chǎn)生像素大小為 32×32 的頂層潛在映射。解碼器將量化后潛在層次的所有級(jí)別作為輸入,生成正常模式的圖像。
1.2金字塔變形模塊
本文算法引入了金字塔變形模塊(pyramidde-formationmodule,PDM),并進(jìn)行了改進(jìn)。該模塊學(xué)習(xí)分層尺度的變形,對(duì)各種異常類型的運(yùn)動(dòng)、行為進(jìn)行建模,在原始PDM的基礎(chǔ)上,在訓(xùn)練 ψ(?) 時(shí),融入自編碼器學(xué)習(xí)到的高層全局信息,可以有效提高對(duì)行人行為的建模能力。具體來說,在特征提取之后, ψ(?) 使用 K 個(gè)頭來計(jì)算偏移量 0,0={O1,… o?k} ,對(duì)應(yīng) K 個(gè)粗粒度到細(xì)粒度的變形,即
ψ(x,t)=UP(h(PE(x,t)))=O,
其中:
為輸入圖像; Δt 為對(duì)輸入圖像量化后的頂層潛在表示; PE(?) 為位置嵌人算子[13]; h 為生成偏移向量的變形估計(jì)量; UP(?) 為將 K 個(gè)頭的輸出調(diào)整為與原始圖像相同大小的上采樣函數(shù)。本文算法中,設(shè)置 K 為2,
用于估計(jì)粗變形(例如行人的位置)和用于估計(jì)精細(xì)變形的 O2 (例如行人的行為)[10]
考慮到?jīng)]有位置信息的量化嵌入可能會(huì)導(dǎo)致重構(gòu)不準(zhǔn)確,模塊還引入了解碼器 D(?) 的位置嵌入算子。將 ξo 聚合到重構(gòu)的參考 D(PE(t)) 上,得到
,

其中:。為相對(duì)于參考坐標(biāo)的網(wǎng)格采樣函數(shù)。為了解決最小化 ψ(x) 的無約束重構(gòu)損失可能導(dǎo)致編碼器f(?) 的退化解,該模塊通過梯度操作和強(qiáng)度損失添加了平滑損失約束[10]

將背景信息存儲(chǔ)在內(nèi)存中會(huì)破壞嵌入的緊湊性,并且需要大量的參數(shù)進(jìn)行學(xué)習(xí)和存儲(chǔ)。考慮到變形估計(jì)不應(yīng)應(yīng)用于背景,利用固定視點(diǎn)視頻的強(qiáng)先驗(yàn)性,使用可學(xué)習(xí)模板 xbg 對(duì)背景進(jìn)行建模,并使用 fm(?) 生成二進(jìn)制掩碼來指示像素是屬于前景還是背景[10],最終重構(gòu)的
為

1.3 訓(xùn)練和推理
1.3.1 訓(xùn)練階段 使用生成的圖像
和原始圖像
x 計(jì)算得到重建誤差損失Lrec,

其中: Dis(?) 為圖像樣本空間的距離函數(shù),這里包括樣本空間中原始圖像和生成圖像的MSE損失、Grad梯度損失,以及深度特征的COS損失的組合。
模型最終的目標(biāo)函數(shù)可以表示為圖像重建誤差損失、矢量量化損失以及金字塔變形模塊損失三項(xiàng)的加權(quán)和,即
Lall=Lrec+γ1Lvq+γ2Ldf°
1.3.2推理階段使用變形估計(jì)后的結(jié)果和重建損失來計(jì)算輸人樣本的異常映射,


基于局部最大值計(jì)算圖像級(jí)異常評(píng)分,即
ScoreI=max(Arec?k*)+αmax(Adf?k*),
其中: ⑧ 是卷積操作; k* 是異常映射的卷積核。使用 α 作為加權(quán)調(diào)和參數(shù),即把重建損失和變形的加權(quán)和作為圖像的異常評(píng)分,并創(chuàng)建滑動(dòng)窗口,通過局部最大值的方式分配異常評(píng)分權(quán)重,相較于利用峰值信噪比(peak signal to noise ratio,PSNR)評(píng)估圖像質(zhì)量計(jì)算異常得分要更加有效。
2 實(shí)驗(yàn)與結(jié)果分析
2. 1 數(shù)據(jù)集
在 UCSD Ped2[14]、CUHK Avenue[15]、ShanghaiT-ech[16] 三個(gè)公共數(shù)據(jù)集上評(píng)估了本文視頻異常檢測算法的性能,三個(gè)數(shù)據(jù)集都為公共場所下的固定監(jiān)控視頻,記錄了一般情況下行人的正常行為,同時(shí)還包括了人進(jìn)行開車、騎車、奔跑、扔?xùn)|西、滑滑板等多種異常行為的情況,圖2分別為三個(gè)數(shù)據(jù)集中行人多種正常和異常行為的示例,圖中框內(nèi)標(biāo)注的人發(fā)生了異常行為。
圖2數(shù)據(jù)集部分行為示例
Figure 2Data set examples of some behaviors

2.2 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)使用的GPU是顯存為24GB的GTX1024,實(shí)驗(yàn)在Debian11系統(tǒng)上使用PyTorch1.11.0框架實(shí)現(xiàn)本文異常檢測算法模型
對(duì)異常檢測視頻數(shù)據(jù)集進(jìn)行預(yù)處理,將輸人圖像像素大小調(diào)整到 256×256 ,并歸一化到[-1,1]的區(qū)間。根據(jù)幀處理方法[5],把歷史幀長度設(shè)置為4,即使用連續(xù)4幀圖像作為模型輸入,生成下一幀預(yù)測,并與真實(shí)幀進(jìn)行異常判別。設(shè)置損失權(quán)重
分別為1和0.25,在三個(gè)數(shù)據(jù)集上均設(shè)置變形估計(jì)權(quán)重α 為0.20,實(shí)驗(yàn)使用AdamW對(duì)模型參數(shù)進(jìn)行優(yōu)化,學(xué)習(xí)率為2e-4,對(duì) Ped2、Avenue、ShanghaiTech 數(shù)據(jù)集分別訓(xùn)練60、60和10輪,批量大小為16。
2.3 實(shí)驗(yàn)結(jié)果與分析
為驗(yàn)證本文算法的檢測性能,通過ROC曲線下面積(area underthecurve,AUC)的測量來評(píng)估算法,其中ROC曲線通過改變異常分?jǐn)?shù)的閾值獲得。為了確保不同算法之間的可比性,分別與表1中所列算法對(duì)比幀級(jí)的AUC指標(biāo),如果在當(dāng)前視頻幀中發(fā)現(xiàn)異常行為,則該幀即為異常幀,否則為正常幀,AUC得分越高,表明此模型的檢測性能越佳。結(jié)果如表1所示,其中基于重構(gòu)判別的算法包括ConvL-STM[17] 和MemAE等,基于未來幀預(yù)測的算法包括FramePred等。實(shí)驗(yàn)結(jié)果顯示,本文算法在三個(gè)數(shù)據(jù)集上的AUC均優(yōu)于其他算法。
本文算法中自編碼器的矢量量化過程與Me-mAE和MNAD中的記憶模塊作用類似,都是通過把訓(xùn)練集中正常模式的圖像特征進(jìn)行提取壓縮存儲(chǔ),然后利用這些潛在特征重新構(gòu)建正常模式的圖像。但是本文中通過對(duì)輸入圖像進(jìn)行多個(gè)層次的提取和量化,避免了編碼器與解碼器進(jìn)行直接的信息傳遞,有效緩解了異常泛化,并保證了圖像的生成質(zhì)量。
表1中大部分算法通過重建誤差進(jìn)行異常檢測,例如MNAD和MPN等算法,在較小的重建誤差下難以準(zhǔn)確區(qū)分正常與異常行為。而本文算法通過金字塔變形模塊可以對(duì)各種異常行為進(jìn)行建模,并計(jì)算得到異常行為的變形估計(jì),提高正常與異常行為的區(qū)分度,進(jìn)而提高檢測性能。實(shí)驗(yàn)結(jié)果也證明了本文模型在視頻異常檢測任務(wù)中的有效性。
表1異常檢測結(jié)果對(duì)比表
Table 1 Comparison table of abnormal detection results

2.4 消融實(shí)驗(yàn)
2.4.1不同自編碼器結(jié)構(gòu)對(duì)比為了驗(yàn)證自編碼器在不同尺度下進(jìn)行矢量量化對(duì)異常檢測效果的影響,分別使用不同結(jié)構(gòu)的自編碼器生成圖像,如圖3所示,skip結(jié)構(gòu)使用僅添加跳躍連接的自編碼器生成圖像, hΠtop ,skip結(jié)構(gòu)使用矢量量化編碼后的高層信息,并結(jié)合跳躍連接傳遞低層信息生成圖像。對(duì)于上述三種結(jié)構(gòu)分別在Pred2和Avenue數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并對(duì)比幀級(jí)AUC指標(biāo),結(jié)果如表2所示,僅使用跳躍連接生成圖像的AUC最低,而對(duì)高層和低層信息進(jìn)行矢量量化的AUC最高,實(shí)驗(yàn)結(jié)果表明,使用多層次的矢量量化可以更好地避免異常信息的傳遞,從而提高檢測性能。
圖3三種不同自編碼器結(jié)構(gòu)
Figure 3Three different autoencoder structures

表2不同自編碼器結(jié)構(gòu)異常檢測結(jié)果對(duì)比表
Table 2 Comparisontableofabnormaldetectionresults fordifferent autoencoder structures

2.4.2不同損失函數(shù)權(quán)重對(duì)比為了驗(yàn)證矢量量化損失和金字塔變形模塊損失的權(quán)重配比對(duì)檢測結(jié)果產(chǎn)生的影響,對(duì)式(8)設(shè)置不同的損失權(quán)重參數(shù)γ1,γ2 ,并在Avenue數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),對(duì)比不同損失權(quán)重下的幀級(jí) AUC 指標(biāo)。根據(jù)表2的實(shí)驗(yàn)結(jié)果,可以看出矢量量化損失相較于金字塔變形模塊損失占比更大時(shí),AUC更高,異常檢測效果更好。且當(dāng)矢量量化損失和金字塔變形模塊損失的損失權(quán)重 γ1,γ2 分別設(shè)置為1和0.25時(shí)的幀級(jí)AUC達(dá)到最高,檢測效果最好。
表3不同損失權(quán)重下的異常檢測結(jié)果對(duì)比表
Table3 Comparison table of abnormal detection resultswith different lossweights

2.5異常評(píng)分結(jié)果分析
在Avenue和ShanghaiTech數(shù)據(jù)集上進(jìn)行測試,圖4對(duì)Avenue數(shù)據(jù)集的第七個(gè)視頻片段的異常評(píng)分實(shí)現(xiàn)可視化,該片段在第420幀到495幀和第560幀到604幀兩個(gè)區(qū)間中,發(fā)生了小孩兒奔跑的異常,圖中在這兩個(gè)區(qū)間內(nèi)異常評(píng)分升高,表示模型檢測到異常情況發(fā)生。圖5對(duì)ShanghaiTech數(shù)據(jù)集的01_0016片段實(shí)現(xiàn)異常評(píng)分進(jìn)行可視化,該視頻片段的第180幀到290幀區(qū)間中,發(fā)生了人駕駛摩托車行駛的異常情況,圖中顯示此區(qū)間內(nèi)異常評(píng)分明顯升高,表示模型檢測到該異常情況。利用本文的矢量量化變分自編碼器生成圖像時(shí),因?yàn)榻獯a器使用了編碼后的潛在信息進(jìn)行圖像重構(gòu),對(duì)原圖的異常行為產(chǎn)生了較高的重建誤差,最終計(jì)算得到的異常得分更高,使模型檢測到該異常行為的發(fā)生。
由于本文算法使用了滑動(dòng)窗口局部最大值計(jì)算異常評(píng)分,使得異常評(píng)分曲線可以平緩過渡,更符合現(xiàn)實(shí)中行人發(fā)生異常行為時(shí)的情況。
圖4Avenue數(shù)據(jù)集異常評(píng)分可視化示例
Figure 4Visualization example ofanomalyscore in Avenuedataset

圖5ShanghaiTech數(shù)據(jù)集異常評(píng)分可視化示例
Figure 5Visualization example of anomaly score in ShanghaiTech dataset

3結(jié)語
本文提出了一種基于多尺度矢量量化特征的視頻異常行為檢測算法,改善了圖像生成過程中由于跳躍連接造成異常過度泛化的問題,提高了對(duì)低像素異常的識(shí)別能力。該算法結(jié)合金字塔變形模塊實(shí)現(xiàn)多樣性測量,根據(jù)重建誤差和變形估計(jì)共同決定異常得分,提高異常檢測性能。實(shí)驗(yàn)結(jié)果表明,本文提出的異常檢測算法可以有效提升對(duì)視頻異常行為的檢測性能,且在UCSDPed2和CUHKAvenue數(shù)據(jù)集上的AUC分別達(dá)到了 99.4% 和 91.5% 。但是該算法仍然存在難以檢測其他種類異常的問題,如顏色變化、行為姿態(tài)[19]等。后續(xù)的研究會(huì)考慮對(duì)行人行為姿態(tài)等細(xì)節(jié)[20進(jìn)行建模,結(jié)合顏色變化,進(jìn)一步提高模型對(duì)異常行為的檢測能力,并將本文所提出的算法應(yīng)用到公共場所安全監(jiān)控的場景中。
參考文獻(xiàn):
[1] HASAN M,CHOIJ,NEUMANNJ,et al.Learning temporalregularityinvideo sequences[C]//2O16IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press,2016:733-742.
[2] GONG D,LIU LQ,LE V,et al. Memorizing normality to detect anomaly:memory-augmented deep autoencoder for unsupervised anomaly detection[C]//2019 IEEE/CVF International Conference on Computer Vision. Piscataway:IEEEPress,2019:1705-1714.
[3] PARK H,NOH J,HAM B. Learning memory-guided normality for anomaly detection[C]//202O IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press,2016:14360-14369.
[4] LV H,CHEN C,CUI Z,et al. Learning normal dynamics in videos with meta prototype network[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press,2021:15420- 15429.
[5] LIU W,LUO W X,LIAN D Z,et al. Future frame prediction for anomaly detection-a new baseline [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press,2018:6536- 6545.
[6] KWON Y H,PARK M G. Predicting future frames using retrospective cycle GAN[C]//2019 IEEE/CVF Conferenceon ComputerVision and Pattern Recognition.Piscataway:IEEE Press,2019:1811-1820.
[7] LEVT,KIM YG.Attention-based residual autoencoder for video anomaly detection[J].Applied intelligence, 2023,53(3):3240-3254.
[8] LIUZA,NIEYW,LONGCJ,et al.Ahybrid video anomaly detection framework via memory-augmented flow reconstruction and flow-guided frame prediction[C]// 2021IEEE/CVF International Conference on Computer Vision.Piscataway:IEEE Press,2021:13568-13577.
[9] RENJ,XIAF,LIUYM,etal.Deep video anomalydetection:opportunities and challenges[C]//2021 International Conference on Data Mining Workshops,Piscataway:IEEE Press,2021:959-966.
[10]LIU WR,CHANGH,MABP,etal.Diversity-measurable anomaly detection[C]//2023 IEEE/CVF International Conference on Computer Vision. Piscataway:IEEE Press,2023:12147-12156.
[11]OORD A,VINYALS O,KAVUKCUOGLU K. Neural discrete representation learning[EB/OL].(2017-11-02) [2024-01-20]. https://arxiv.org/pdf/1711.00937.
[12]RAZAVI A,OORD A,ORIOL VINYALS O.Generating diverse high-fidelity images with VQ-VAE-2[EB/OL]. (2019-07-02)[2024-01-20]. https://arxiv.org/pdf/ 1906. 00446.
[13]LIUP,LEHMAN J,MOLINO P,et al.An intriguing failing of convolutional neural networks and the coordconv solution[EB/0L].(2016-07-09)[2024-01-20]. https: //arxiv.org/pdf/1807.03247.
[14] MAHADEVAN V,LI W X,BHALODIA V,et al. Anomaly detection in crowded scenes[C]//2010 IEEE Computer Society Conference on Computer Visionand Pattern Recognition. Piscataway: IEEE Press,2010: 1975-1981.
[15]LUC W,SHIJP,JIAJY.Abnormal event detection at 150 FPSin MATLAB[C]//2013 IEEEInternational Conference on Computer Vision. Piscataway:IEEE Press, 2013:2720-2727.
[16]LUO W X,LIU W,GAO S H. A revisit of sparse coding based anomaly detection in stacked RNN framework[C]// 2017 IEEE International Conference on Computer Vision. Piscataway:IEEE Press,2017:341-349.
[17]LUO W X,LIU W,GAO S H. Remembering history with convolutional LSTM for anomaly detection[C]//2017 IEEE International Conference on Multimedia and Expo. Piscataway:IEEE Press,2017:439-444.
[18]ZHAO Y R,DENG B,SHEN C,et al. Spatio-temporal AutoEncoder for video anomaly detection[C]//Proceedings of the 25th ACM international conference on Multimedia.NewYork:ACMPress,2017:1933-1941.
[19]付榮華,劉成明,劉合星,等.骨架引導(dǎo)的多模態(tài)視 頻異常行為檢測方法[J].學(xué)報(bào)(理學(xué)版), 2024,56(1) :16-24. FURH,LIUCM,LIUHX,et al.Skeleton-guided multimodal video abnomaly behavior detection[J].Journal of Zhengzhou university (natural science edition), 2024,56(1):16-24.
[20]MA JH,ZHANG T,YANG C,et al. Review of wafer surface defect detection methods[J].Electronics,2023, 12(8) : 1787.