陳西江,梁全恩,韓賢權(quán),安 慶
(1. 武漢理工大學(xué) 安全科學(xué)與應(yīng)急管理學(xué)院, 湖北 武漢 430070; 2. 長江科學(xué)院, 湖北 武漢 430010; 3. 武昌理工學(xué)院 人工智能學(xué)院, 湖北 武漢 430223)
得益于計算機設(shè)備的進步與算力的提升,深度學(xué)習(xí)技術(shù)得到了快速發(fā)展。許多學(xué)者提出了基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識別算法,如:AlexNet[1]、VGG[2]、ResNet[3]等。由于神經(jīng)網(wǎng)絡(luò)在圖像識別領(lǐng)域的優(yōu)勢,許多學(xué)者嘗試運用卷積神經(jīng)網(wǎng)絡(luò)進行行為的識別與分類。基于不同的骨架網(wǎng)絡(luò),行為識別網(wǎng)絡(luò)一般分為2D行為識別網(wǎng)絡(luò)與3D行為識別網(wǎng)絡(luò)。
2D的行為識別網(wǎng)絡(luò)使用2D卷積神經(jīng)網(wǎng)絡(luò)作為骨架網(wǎng)絡(luò)進行行為識別。Simonyan等[4]設(shè)計了包含兩個獨立卷積神經(jīng)網(wǎng)絡(luò)的雙流網(wǎng)絡(luò),其以密集的連續(xù)幀作為網(wǎng)絡(luò)輸入提取時序信息。但是密集的連續(xù)幀無法對動作進行大時間尺度的建模。為改進這一缺點,Wang等設(shè)計了時間分割網(wǎng)絡(luò)(temporal segment network,TSN)[5]。TSN將視頻分段,將每段視頻輸入到雙流網(wǎng)絡(luò)中再對每段的結(jié)果進行融合從而使網(wǎng)絡(luò)具有長時時空建模的能力。Zhou等提出時間關(guān)系網(wǎng)絡(luò)(temporal relation network,TRN)[6]。TRN主要關(guān)注不同時間尺度上的不同幀的相關(guān)性,其將圖像特征依照不同的時間尺度進行時間關(guān)系推理得到不同時間尺度下的行為分類結(jié)果,最后融合多尺度的分類結(jié)果得到最終的分類結(jié)果。Zolfaghari等提出了一種高效的行為識別網(wǎng)絡(luò)[7],其創(chuàng)新在于在網(wǎng)絡(luò)底部使用3D卷積神經(jīng)網(wǎng)絡(luò)來獲得最后的分類結(jié)果。基于動作主體語義變化相較于動作變化本身更慢,Feichtenhofer等設(shè)計了SlowFast網(wǎng)絡(luò)[8],SlowFast網(wǎng)絡(luò)包含了兩個不同設(shè)計的卷積神經(jīng)網(wǎng)絡(luò),分別側(cè)重于提取不同變化速率的特征。……