李倩倩 王衛(wèi)星 楊 勤 陳治灸 秦 晴
(貴州大學(xué)機(jī)械工程學(xué)院 貴陽 550025)
隨著移動(dòng)設(shè)備的發(fā)展,圖像和視頻數(shù)據(jù)近年來呈爆炸式增長(zhǎng),這種現(xiàn)象使視覺媒體內(nèi)容的計(jì)算理解成為一個(gè)熱門話題。在傳統(tǒng)的研究中,研究者往往側(cè)重于對(duì)象檢測(cè)和場(chǎng)景識(shí)別等方向的研究。近年來,越來越多的研究者開始關(guān)注視頻中情感的識(shí)別,這是因?yàn)榍楦心軌蛞鹩^眾強(qiáng)烈的共鳴,在觀看過程中起著至關(guān)重要的作用[1]。雖然近幾年視頻的情感識(shí)別研究取得了一些成果,但由于情感的復(fù)雜性和多樣性,以及視頻數(shù)據(jù)的異構(gòu)性,國(guó)內(nèi)外在視頻情感識(shí)別方面的研究成果還是相對(duì)較少且識(shí)別率不高。傳統(tǒng)的情緒識(shí)別方法是基于某一時(shí)刻的靜態(tài)圖像手工設(shè)計(jì)的特征進(jìn)行識(shí)別[2~4],缺點(diǎn)較為明顯,僅使用某一時(shí)刻的靜態(tài)圖像進(jìn)行情感識(shí)別缺乏動(dòng)態(tài)時(shí)域信息且準(zhǔn)確率低。隨著大數(shù)據(jù)集的可用性,深度學(xué)習(xí)已經(jīng)成為機(jī)器學(xué)習(xí)的一種通用方法,在許多計(jì)算機(jī)視覺和自然語言處理任務(wù)中產(chǎn)生了最先進(jìn)的結(jié)果[5]。早期深度學(xué)習(xí)技術(shù)在情感識(shí)別領(lǐng)域的研究主要集中在人臉表情識(shí)別方向[6~10]。近年來,一些研究開始將深度學(xué)習(xí)應(yīng)用于視聽情感識(shí)別。Zhang S 等[11]提出了基于多模態(tài)深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)方法,在深度模型中融合語音和人臉數(shù)據(jù)進(jìn)行視聽情感識(shí)別。D.S.Ortega 等[12]提出了一種基于遷移學(xué)習(xí)和多模態(tài)融合的視頻情感識(shí)別方法。通過預(yù)訓(xùn)練的CNN 從視頻幀中提取面部特征,并將這些特征與從受試者的聲音中提取的特征相融合識(shí)別視頻情感。……