文/齊妍薇
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的分支,是一種試圖使用包含復(fù)雜結(jié)構(gòu)或由多重非線(xiàn)性變換構(gòu)成的多個(gè)處理層對(duì)數(shù)據(jù)進(jìn)行高層抽象的算法。深度學(xué)習(xí)是神經(jīng)網(wǎng)絡(luò),人工智能,圖形建模,優(yōu)化,模式識(shí)別和信號(hào)處理等研究領(lǐng)域的交集。深度神經(jīng)網(wǎng)絡(luò)的參數(shù)很多,有很強(qiáng)大的表征能力。可以用于圖像,語(yǔ)音,文本等抽象特征的提取,而且提取出來(lái)的特征要比人為設(shè)定的具有更強(qiáng)的泛化性能。現(xiàn)如今比較流行的深度神經(jīng)網(wǎng)絡(luò)分為應(yīng)對(duì)具有空間性分布數(shù)據(jù)的CNN(卷積神經(jīng)網(wǎng)絡(luò))和應(yīng)對(duì)具有時(shí)間性分布數(shù)據(jù)的RNN(遞歸神經(jīng)網(wǎng)絡(luò))。遞歸神經(jīng)網(wǎng)絡(luò)包括結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)和時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)。比較常用的是時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò)),它比較利于處理和預(yù)測(cè)時(shí)間序列中有一段時(shí)間間隔或者延遲的事件。深度學(xué)習(xí)在識(shí)別視頻動(dòng)作的時(shí)候主要進(jìn)行視頻結(jié)構(gòu)化分析、目標(biāo)檢測(cè)和跟蹤、人物識(shí)別、動(dòng)作識(shí)別以及情感語(yǔ)義分析等操作。下面主要介紹卷積神經(jīng)網(wǎng)絡(luò)和時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)在視頻動(dòng)作識(shí)別方面的應(yīng)用。

圖1
這是一種比較簡(jiǎn)單的方法,即先通過(guò)對(duì)視頻進(jìn)行截頻,然后對(duì)單個(gè)的幀分別利用CNN進(jìn)行識(shí)別。因?yàn)橐曨l是個(gè)動(dòng)態(tài)的過(guò)程,每一幀都有一個(gè)圖片的呈現(xiàn),當(dāng)一個(gè)幀的圖沒(méi)有那么明顯的區(qū)分度或者說(shuō)當(dāng)視頻中有一些與所要分類(lèi)的主題無(wú)關(guān)的畫(huà)面時(shí),都會(huì)給分類(lèi)器帶來(lái)很大的影響,從而導(dǎo)致分類(lèi)結(jié)果正確率不是很高。所以該方法主要應(yīng)用于對(duì)畫(huà)面變化不明顯的視頻的動(dòng)作識(shí)別。

圖2
相對(duì)于單幀的識(shí)別方法,該方法的一大改進(jìn)在于通過(guò)在CNN框架中尋找時(shí)間域上的某個(gè)模式來(lái)表達(dá)局部運(yùn)動(dòng)信息。從而大大提高了識(shí)別的準(zhǔn)確率。
它利用兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò),上面一個(gè)是普通的單幀的CNN,下面的一個(gè)CNN網(wǎng)絡(luò),就是把連續(xù)幾幀的光流疊起來(lái)作為CNN的輸入。最后再把兩個(gè)模型的結(jié)果平均一下,準(zhǔn)確率也得到了一定的提高。LSTM的視頻動(dòng)作的基本思想是用LSTM對(duì)幀的CNN最后一層的激活在時(shí)間軸上進(jìn)行整合。相對(duì)于基于CNN擴(kuò)展網(wǎng)絡(luò)的識(shí)別方法,一方面,它可以對(duì)CNN特征進(jìn)行更長(zhǎng)時(shí)間的融合,不對(duì)處理的幀數(shù)加以上限,從而能對(duì)更長(zhǎng)時(shí)長(zhǎng)的視頻進(jìn)行表達(dá);另一方面,基于CNN擴(kuò)展網(wǎng)絡(luò)的識(shí)別方法沒(méi)有考慮同一次進(jìn)網(wǎng)絡(luò)的幀的前后順序,而本網(wǎng)絡(luò)通過(guò)LSTM引入的記憶單元,可以有效地表達(dá)幀的先后順序。這是LSTM進(jìn)行有時(shí)間序列的輸入樣本的識(shí)別的準(zhǔn)確率較高的原因。
將RNN展開(kāi)后如圖1所示,那么一個(gè)RNN可以看作是同一個(gè)網(wǎng)絡(luò)的多份副本,每一份都將信息傳遞到下一個(gè)副本,其中xt是輸入,ht是輸出,A是神經(jīng)網(wǎng)絡(luò)。
LSTM是一種特殊的RNN,能夠?qū)W習(xí)到長(zhǎng)期依賴(lài)關(guān)系。LSTM的關(guān)鍵是元胞狀態(tài),一個(gè)LSTM有3個(gè)這種門(mén)來(lái)保護(hù)和控制元胞狀態(tài),這三個(gè)門(mén)分別為“遺忘門(mén)”,“輸入門(mén)”和“輸出門(mén)”。門(mén)的結(jié)構(gòu)如圖2所示,每個(gè)門(mén)都由一個(gè)Sigmoid神經(jīng)網(wǎng)絡(luò)層和一個(gè)元素級(jí)相乘操作組成。
LSTM的元細(xì)胞會(huì)選擇記憶或者忘記所累積的信息來(lái)預(yù)測(cè)某個(gè)時(shí)刻的輸出。那么基于
參考文獻(xiàn)
[1]Deng,L.;Yu,D.Deep Learning:Methods and Applications.Foundations and Trends in Signal Processing,2014(07):3-4.
[2]Convolutional Neural Networks (LeNet)-DeepLearning 0.1 documentation.DeepLearning 0.1.LISA Lab.1 August,2013.
[3]S.Hochreiter;J.Schmidhuber.Long short-term memory.Neural Computati on,1997,9(08):1735–1780.