奠雨潔 金 琴
(中國人民大學(xué)信息學(xué)院 北京 100872)
近年來,計算機和移動網(wǎng)絡(luò)技術(shù)逐漸成熟,互聯(lián)網(wǎng)上出現(xiàn)了很多視頻分享應(yīng)用.視頻應(yīng)用的流行,使互聯(lián)網(wǎng)上的視頻數(shù)量快速增長.面對互聯(lián)網(wǎng)上海量的視頻,如何對視頻進行分類、索引,從而幫助用戶更高效、更準(zhǔn)確地獲取所需視頻,成為亟待解決的問題.視頻語義概念檢測就是利用計算機自動地檢測視頻中包含的語義概念,如場景、事件、動作、事物等.將視頻按照語義概念進行組織和管理,有助于構(gòu)建結(jié)構(gòu)化的視頻檢索數(shù)據(jù)庫,能夠更方便地為用戶提供基于關(guān)鍵字的檢索方式,從而更有效地為用戶提供視頻檢索服務(wù).
隨著網(wǎng)絡(luò)視頻數(shù)量的快速增長,人們對視頻檢索的要求也越來越精細化.例如在動物養(yǎng)殖領(lǐng)域,人們可能需要通過視頻了解動物在不同叫聲狀態(tài)下的表現(xiàn),因此,人們可能會檢索“dog woof”(狗歡快地叫)、“dog howl”(狗嚎叫)或“dog bark”(狗汪汪叫),而目前大量的視頻層次化管理中并沒有提供這樣精細化的組織結(jié)構(gòu),因此用戶只能得到有狗這一視覺形象或者包含任何狗叫聲的視頻,而無法區(qū)分更細粒度的滿足要求的視頻.在大量的應(yīng)用場景下,需要聲音和視覺形象同時出現(xiàn),才能確定某個視頻事件.目前大量的視頻層次化管理中都傾向于將視頻按照視覺信息所表達的概念進行組織,這樣的組織方式忽略了視頻具有多模態(tài)的特性.因此,本文考慮是否可以將視頻語義概念組織成具有視聽信息的多模態(tài)概念.這類多模態(tài)概念通過語義相關(guān)的視聽信息共同來描述視頻主要內(nèi)容,將會更有助于滿足用戶的精細化檢索需求.通過以這類語義概念為目標(biāo)進行概念檢測,應(yīng)該可以學(xué)習(xí)到視頻底層特征與高層語義之間更精細化的特征表示.
視頻是多模態(tài)的信息源,不同模態(tài)的信息通過不同的方式表達和某個語義概念相關(guān)的的信息.因此,對于具有視聽信息的多模態(tài)語義概念,自然可以使用視頻中內(nèi)在的視聽信息來進行語義概念的檢測.視頻中的視聽信息具有天然的相關(guān)性,與多模態(tài)概念本身的視聽相關(guān)性是一致的,因此,本文使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN),利用視聽相關(guān)性為監(jiān)督信息進行多模態(tài)概念檢測的研究.
本文的主要貢獻在于:首先,本文提出了具有視聽信息的多模態(tài)語義概念檢測任務(wù).多模態(tài)概念中視聽信息具有相關(guān)性,更能滿足用戶的精細化檢索需求,也更能準(zhǔn)確描述視頻中的語義信息.其次,以多模態(tài)概念為檢測目標(biāo),本文使用CNN對視頻進行端到端的概念檢測.除了單模態(tài)的概念檢測系統(tǒng),本文利用視頻的視聽相關(guān)性為目標(biāo)訓(xùn)練了多模態(tài)聯(lián)合網(wǎng)絡(luò),該網(wǎng)絡(luò)包含了3個子網(wǎng):視覺子網(wǎng)、聽覺子網(wǎng)、多模態(tài)聯(lián)合學(xué)習(xí)子網(wǎng).通過視聽相關(guān)的多模態(tài)聯(lián)合網(wǎng)絡(luò)能夠?qū)W習(xí)到精細化的特征表示.利用該網(wǎng)絡(luò)還能夠提取聽覺和視覺特征,進而有效用于其他多媒體分析中.
目前研究領(lǐng)域常見的語義概念通常包括場景、物體、事件、動作、情感等概念.有多種方式構(gòu)建不同需求的語義概念.在文獻[1]中,作者通過形容詞-名詞的形式構(gòu)建了3 000多個具有情感信息的視覺概念集(visual sentiment ontology, VSO);在文獻[2]中,作者通過WikiHow(在線問答網(wǎng)站)中定義的事件標(biāo)簽以及相關(guān)文本,提取了4 490個事件概念形成EventNet,涵蓋日常生活中的運動、家務(wù)等事件;在文獻[3]中,作者通過美國時間使用調(diào)查報告(American time use survey, ATUS)中對人類活動的分類,定義了203個人類活動的概念并組織成層次化的結(jié)構(gòu)形式形成ActivityNet,這些概念包含了工作、吃喝、家務(wù)等不同的日常活動;文獻[4]中,作者在網(wǎng)絡(luò)文本中尋找有聲音屬性的詞,然后在Freebase等知識庫中對原始種子聲音詞進行匹配和篩選,得到一個層次化的聲音事件概念集AudioSet.
在這些概念集上進行的語義檢測方法大致分為2類:基于模塊化流程的語義概念檢測和基于神經(jīng)網(wǎng)絡(luò)的端到端的語義概念檢測.模塊化流程的檢測方法包括:視頻預(yù)處理、特征提取、分類器訓(xùn)練和預(yù)測.例如,對于VSO的概念檢測,作者使用相關(guān)圖片的低層視覺特征(顏色直方圖、局部二值特征等),并使用支持向量機(support vector machine, SVM)訓(xùn)練了對應(yīng)的情感概念檢測模型[1].對于EventNet的檢測,作者使用在視頻上預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)提取中間層特征,基于該特征使用SVM訓(xùn)練了事件概念檢測器[2].文獻[5]中分別提取了視頻中圖像的顏色和紋理特征,短時音頻幀特征和轉(zhuǎn)錄的文本特征,利用視頻的多模態(tài)特性和相似度融合的方法,利用SVM進行常見概念的檢測.基于神經(jīng)網(wǎng)絡(luò)的端到端的檢測方法直接使用視頻的幀或音頻信息作為輸入,通過網(wǎng)絡(luò)學(xué)習(xí)視頻與概念之間的相關(guān)性.例如文獻[6]中作者使用CNN輸入圖像,進行視覺情感概念的檢測.文獻[7]中,作者探究了不同的CNN結(jié)構(gòu),對一個大規(guī)模視頻數(shù)據(jù)集進行分類研究,其中CNN的輸入直接使用視頻中音頻流的頻譜圖.文獻[8]中利用視頻的幀圖像、光流幀、音頻流的聲學(xué)特征作為CNN的輸入,進行人類動作的識別.
利用端到端的方式學(xué)習(xí)視頻概念的好處在于,它保留了視頻的原始信息,減少了特征提取環(huán)節(jié)可能造成的信息缺失.而且使用CNN通過分層的形式,可以學(xué)習(xí)到底層到高層之間的不同層次的特征,因此網(wǎng)絡(luò)模型可以當(dāng)做一個特征提取器,從中提取特征并有效用于其他任務(wù)中.例如文獻[9]中作者使用了一個學(xué)生-老師的CNN結(jié)構(gòu),老師網(wǎng)絡(luò)利用視覺先驗知識作為監(jiān)督,學(xué)生網(wǎng)絡(luò)輸入原始的音頻流,網(wǎng)絡(luò)能夠?qū)W習(xí)到有效的音頻特征表示.通過該網(wǎng)絡(luò)可以從不同卷積層提取特征,在音頻分類等任務(wù)上都表現(xiàn)出優(yōu)異的性能.因此,本文將使用CNN探究端到端的概念檢測方法,對視聽相關(guān)的多模態(tài)概念進行概念檢測研究.
通過預(yù)先定義好的語義概念集為檢測目標(biāo)對視頻進行分析,學(xué)習(xí)到的視頻特征表示更具有語義信息,可以適當(dāng)彌補語義鴻溝[10].本文提出具有視聽信息的多模態(tài)概念.一個多模態(tài)概念必須同時具有聽覺和視覺信息.因此,本文提出以名詞-動詞二元組的形式表示一個語義概念,從概念的名詞中可以感受到視覺信息;從概念的動詞中可以感受到聽覺信息,且視聽信息是相關(guān)的.多模態(tài)概念的定義和收集過程如圖1所示:

Fig. 1 The collecting procedure of multimodal concepts圖1 多模態(tài)概念的定義和收集
本文多模態(tài)概念,從聲音出發(fā),其收集過程主要分為2種形式:1)基于象聲詞的多模態(tài)概念.從英文象聲詞在WordNet[11]中的定義尋找通過“Sound by(of)”連接的名詞,該名詞表示象聲詞對應(yīng)的發(fā)聲物,將發(fā)聲物和象聲詞組合形成多模態(tài)概念;除此之外,還爬取象聲詞在字典[注]https://en.oxforddictionaries.com中對應(yīng)的例句,將例句中抽取的短語關(guān)系為“nsubj(名詞主語)”的名詞-動詞二元組作為多模態(tài)概念.2)從在線音頻網(wǎng)站[注]www.freesoundeffects.com中對應(yīng)音頻的標(biāo)題描述中抽取短語關(guān)系為“nsubj”的名詞-動詞二元組,形成多模態(tài)概念.最后,對收集的名詞-動詞二元組進行短語清洗和過濾,刪除一些拼寫錯誤或沒有意義的詞(如人名、地名、顏色詞等),形成具有視聽信息的多模態(tài)概念集,共包含2 098個概念.
多模態(tài)概念集是從聲音出發(fā)構(gòu)建的,因此自然具有聽覺特性.本文將多模態(tài)概念的名詞輸入到ImageNet[12]中查找是否存在相應(yīng)圖片,分析發(fā)現(xiàn),78%的多模態(tài)概念的名詞能夠在ImageNet中找到圖片,這說明提出的多模態(tài)概念具有視覺信息.概念收集過程中,通過約束象聲詞及其發(fā)聲物和抽取具有語法關(guān)系的短語,也保證了名詞和動詞之間是具有相關(guān)關(guān)系的.因此,最終的多模態(tài)概念是視聽相關(guān)的語義概念.
具有視聽信息的多模態(tài)概念,目前沒有專門的數(shù)據(jù)集,本文嘗試直接使用2.1節(jié)定義的多模態(tài)概念到視頻網(wǎng)站爬取了一部分視頻,但視頻時間長、噪聲大、標(biāo)注過程耗時耗力.由于本文的多模態(tài)概念是從聲音出發(fā)定義的,AudioSet[4]中也包含了對音頻事件的標(biāo)注,而且提供了對應(yīng)的視頻數(shù)據(jù),因此本文使用AudioSet作為多模態(tài)概念的數(shù)據(jù)來源.將多模態(tài)概念與AudioSet中的標(biāo)簽進行比對,如果概念的名詞和動詞都在某一個視頻的標(biāo)簽里,則將這個視頻作為多模態(tài)概念的樣例視頻.通過這種方式,共收集了93個概念對應(yīng)的視頻,作為多模態(tài)視頻概念檢測的數(shù)據(jù).視頻總數(shù)量為88 957,每個視頻為10 s,總時長約為247 h.93個多模態(tài)概念及對應(yīng)的視頻數(shù)量分布見附錄A.
針對2.2節(jié)中93個多模態(tài)概念,本文使用CNN進行端到端的語義概念檢測.在語義概念集給定的情況下,視頻概念檢測轉(zhuǎn)化為視頻的分類問題.因此,本文的概念檢測系統(tǒng)輸入是一個視頻和預(yù)定義的語義概念集,輸出是與這個視頻相關(guān)的多模態(tài)概念.本文將分別探索單模態(tài)的概念檢測框架和多模態(tài)聯(lián)合學(xué)習(xí)的概念檢測框架.
本文基于視覺信息的概念檢測系統(tǒng),網(wǎng)絡(luò)的輸入是224×224的彩色圖像.使用VGG16[13]作為基本網(wǎng)絡(luò)結(jié)構(gòu),修改最后一個預(yù)測層神經(jīng)元個數(shù)為93,并使用softmax輸出預(yù)測概率.
基于聽覺信息的概念檢測系統(tǒng)同樣使用VGG16作為基本結(jié)構(gòu),聽覺網(wǎng)絡(luò)的輸入是大小為96×64的音頻頻譜圖.修改全連接層神經(jīng)元個數(shù)為1 024,最后一個預(yù)測層使用softmax輸出93個多模態(tài)概念的預(yù)測概率.
本文的視頻概念檢測的目標(biāo)是多模態(tài)概念.多模態(tài)概念中體現(xiàn)了具有相關(guān)關(guān)系的視聽信息.針對這類概念的檢測,本文認(rèn)為可以利用視頻中視聽信息的相關(guān)性.在大多數(shù)情況下,視頻中的視覺信息和聲音信息是同時出現(xiàn)的.因此,本文提出利用視頻的視聽相關(guān)性作為監(jiān)督信息,同時使用視頻的視覺信息和聽覺信息進行端到端的視頻概念檢測.
3.2.1 聯(lián)合學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)
本文借鑒L3-net的網(wǎng)絡(luò)結(jié)構(gòu)[14],具體來說,網(wǎng)絡(luò)的輸入是語義相關(guān)的1幀圖像和1個音頻片段.語義相關(guān)指的是,圖像中反映的語義概念與音頻片段中的語義內(nèi)容是有關(guān)聯(lián)的.網(wǎng)絡(luò)共包括3個子網(wǎng)結(jié)構(gòu):視覺子網(wǎng)、聲音子網(wǎng)和聯(lián)合學(xué)習(xí)子網(wǎng).其中視覺子網(wǎng)使用VGG16的前5個塊(block).聽覺子網(wǎng)結(jié)構(gòu)與視覺子網(wǎng)結(jié)構(gòu)類似,使用VGG16的前5個塊.聯(lián)合學(xué)習(xí)子網(wǎng)由2個全連接層組成,它的輸入是視覺子網(wǎng)和聽覺子網(wǎng)各自最后1個池化層的輸出進行全局最大下采樣后,再拼接得到的1024維的向量.在融合網(wǎng)絡(luò)中訓(xùn)練輸出視頻相關(guān)概念的預(yù)測概率.詳細的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.本文提出的基于視聽相關(guān)性的聯(lián)合學(xué)習(xí)框架用于多模態(tài)概念檢測,其中視覺信息和聽覺信息在本文中使用了VGG16作為網(wǎng)絡(luò)學(xué)習(xí)的主要結(jié)構(gòu),但其他典型的視覺、聽覺網(wǎng)絡(luò)結(jié)構(gòu)也可以應(yīng)用于該框架.
3.2.2 視聽相關(guān)采樣
聯(lián)合學(xué)習(xí)的網(wǎng)絡(luò),同時接收語義相關(guān)的1幀圖像和1個音頻片段為輸入,以視聽信息的相關(guān)性為監(jiān)督信息來學(xué)習(xí)視頻.在數(shù)據(jù)預(yù)處理階段,需要采樣語義相關(guān)的幀和音頻片段.本文假定某一個概念的樣例視頻中截取的幀和音頻片段和這個概念是相關(guān)的,且來自一個視頻的幀和對應(yīng)的音頻也是相關(guān)的.因此,從每個語義概念對應(yīng)的視頻中隨機選擇1個視頻幀,選擇這一幀所在的視頻片段所對應(yīng)的音頻,由此組成的(幀-音頻片段)二元組作為與這個語義概念相關(guān)的視聽信息正例.

Fig. 2 The proposed multimodal joint network architecture based on audio-visual correlation圖2 基于視聽相關(guān)性的聯(lián)合網(wǎng)絡(luò)結(jié)構(gòu)圖
本文實驗數(shù)據(jù)使用2.2節(jié)中得到的93個多模態(tài)概念及對應(yīng)的視頻.實驗數(shù)據(jù)分布如表1所示.
本文中網(wǎng)絡(luò)結(jié)構(gòu)的實現(xiàn)使用keras框架[注]https://github.comfcholletkeras,后端使用Tensorflow[15].所有網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練,使用Adam優(yōu)化器[16],學(xué)習(xí)率為10-4,權(quán)值衰減為10-5.
對于概念檢測的性能評估,本文使用mAP(mean average precision)和AUC(area under curve).這2個指標(biāo)mAP和AUC的計算見文獻[17].

Table 1 Data Distribution of Our Multimodal Concepts Dataset表1 多模態(tài)概念檢測實驗數(shù)據(jù)分布
4.3.1 實驗說明
視覺網(wǎng)絡(luò)實驗中,在預(yù)處理階段,每一個視頻抽取了10幀圖像,每幀圖像處理成224×224的固定大小.每幀圖像繼承其對應(yīng)視頻的標(biāo)簽,輸入到網(wǎng)絡(luò)中參與訓(xùn)練;測試階段,將視頻每一幀圖像的預(yù)測概率進行平均作為視頻的概念預(yù)測概率.
聽覺網(wǎng)絡(luò)實驗中,預(yù)處理階段提取視頻的音頻流,每個音頻流被切分成980 ms的音頻片段,每個音頻片段處理成頻譜圖的形式,大小為96×64(音頻的預(yù)處理同文獻[7]).訓(xùn)練階段,每個音頻片段繼承視頻的標(biāo)簽,輸入到網(wǎng)絡(luò)中進行訓(xùn)練.測試階段,每個音頻片段的概念預(yù)測概率進行平均作為整個視頻的預(yù)測概率.
實驗對比的基準(zhǔn)方法是基于模塊化流程的概念檢測方法.分別對視頻幀和音頻提取視覺和聽覺特征,使用SVM分類器進行視頻的概念檢測.
4.3.2 實驗結(jié)果分析
基于單模態(tài)神經(jīng)網(wǎng)絡(luò)的概念檢測實驗結(jié)果如表2所示.
由表2中可以看出:1)基于CNN進行端到端視頻概念檢測,其mAP值相較于使用特征加SVM分類器的流程式方法性能更優(yōu),在聽覺網(wǎng)絡(luò)上mAP提高了9%,在視覺網(wǎng)絡(luò)上,基于ImageNet預(yù)訓(xùn)練權(quán)重初始化的端到端網(wǎng)絡(luò)比流程式的方法提高了12.5%.流程式方法將特征表示和分類訓(xùn)練分離開,而CNN端到端網(wǎng)絡(luò)直接對池化層特征繼續(xù)做分類,較好地保持了原始信息,實驗結(jié)果驗證了CNN網(wǎng)絡(luò)結(jié)構(gòu)在學(xué)習(xí)特征上的有效性.2)視覺網(wǎng)絡(luò)中,使用ImageNet預(yù)訓(xùn)練權(quán)重效果更好(mAP比從零訓(xùn)練的視覺網(wǎng)絡(luò)高50%).這說明了預(yù)訓(xùn)練模型的先驗知識的重要性.而基于本實驗視頻幀的網(wǎng)絡(luò),因為實驗數(shù)據(jù)集和多模態(tài)概念是弱相關(guān),因此訓(xùn)練數(shù)據(jù)的幀圖像和最終檢測的概念可能存在并不相關(guān)的情況.例如多模態(tài)概念集中存在“thunder_growl”(電閃雷鳴)這類聽覺特征更明顯的概念,其視覺特征并不能較好地發(fā)揮作用.此外,訓(xùn)練數(shù)據(jù)較少也可能是潛在原因.3)聽覺網(wǎng)絡(luò)的檢測性能明顯優(yōu)于視覺網(wǎng)絡(luò)的檢測性能.這一方面是由于10 s的視頻中聽覺信息比視覺信息更豐富,因此,更能捕捉到有區(qū)分性的信息;另一方面,可能由于實驗數(shù)據(jù)集的來源本身是一個以聲音為標(biāo)注的數(shù)據(jù)集,因此,選擇的多模態(tài)概念本身聽覺信息比視覺信息更明顯,即聽覺信息在這類概念中發(fā)揮的作用更明顯.

Table 2 Concept Detection Results Based on Single-modal Network表2 基于單模態(tài)網(wǎng)絡(luò)的視頻概念檢測結(jié)果 %
vggish_fc_svm: SVM classifier with 128 dimensional features from the fully-connected layer of VGG trained on Youtube8M(audio only).
Audio-net_scratch: End-to-end concept detection network with our dataset (audio only) from scratch.
vggpool_svm: SVM classifier with 512 dimensional features from pool5 of VGG trained on ImageNet.
visual-net_finetune: Fine-tuning model on our dataset from an ImageNet pre-trained VGG model.
visual-net_scratch: End-to-end concept detection network with our dataset (visual frames only) from scratch.
將視覺網(wǎng)絡(luò)和聽覺網(wǎng)絡(luò)檢測出的概念按照AP(average precision)進行排序.表3展示了AP值最高的前5個概念.基于預(yù)訓(xùn)練權(quán)重的視覺模型,對“train_clatter”(火車行駛中)的檢測結(jié)果效果最好,達到85.73%.分析發(fā)現(xiàn),視覺網(wǎng)絡(luò)結(jié)果最好的這幾個概念,本身就具有更強的視覺信息.這5個概念都包含了具體的物體(train,computer,boats,blender,ball),而在視頻中也都有這些物體的具體存在.因此,基于在ImageNet訓(xùn)練得到的視覺網(wǎng)絡(luò)自然能夠捕捉到這些信息.而在本實驗數(shù)據(jù)集上訓(xùn)練的視覺網(wǎng)絡(luò)(視覺網(wǎng)絡(luò)_scratch)中,AP值最高的前5個概念,也有相同的發(fā)現(xiàn):概念本身包含的視覺信息更明顯.

Table 3 Top 5 Concepts with the Highest AP (Based on Visual Network)表3 AP最高的前5個概念(視覺網(wǎng)絡(luò)) %
而聽覺網(wǎng)絡(luò)AP值最高的前5個概念,如表4所示,和視覺網(wǎng)絡(luò)檢測出的概念都不相同,這說明了這些概念之間的聽覺區(qū)分信息更強一些.但是“crowd_cheer”(觀眾歡呼)在視覺和聽覺網(wǎng)絡(luò)上的AP值都很高.事實上,將聽覺網(wǎng)絡(luò)和視覺網(wǎng)絡(luò)檢測的概念A(yù)P值進行排序,前50個概念中有32個概念是重合的.這也說明了概念集本身具有了多模態(tài)的特性.

Table 4 Top 5 Concepts with the Highest AP (Based on Audio Network)表4 AP最高的前5個概念(聽覺網(wǎng)絡(luò)) %
4.4.1 實驗說明
視頻預(yù)處理時,每個視頻抽取10幀圖像.視聽相關(guān)性采樣中,隨機選擇4幀圖像,并選擇每一幀所在視頻片段的音頻提取頻譜圖,將每一個幀-頻譜圖二元組,繼承視頻標(biāo)簽,輸入網(wǎng)絡(luò)進行訓(xùn)練.實際訓(xùn)練中,本文采取2種方式更新整個網(wǎng)絡(luò)權(quán)重:是否使用預(yù)訓(xùn)練權(quán)重初始化視聽子網(wǎng);使用視聽相關(guān)性策略更新整個網(wǎng)絡(luò)的所有權(quán)重或只更新融合子網(wǎng)(即全連接層)權(quán)重.預(yù)測時,每個視頻的4個幀-頻譜圖二元組的平均概念預(yù)測概率作為這個視頻的預(yù)測概率.
與多模態(tài)實驗對比的基準(zhǔn)方法是基于前期融合的流程式概念檢測方法.前期融合選擇的視覺特征是vggpool,聽覺特征是vggish_fc,將特征進行拼接,輸入到SVM中進行概念檢測的判定.
4.4.2 實驗結(jié)果分析
基于視聽相關(guān)性學(xué)習(xí)的多模態(tài)聯(lián)合網(wǎng)絡(luò)的實驗結(jié)果如表5所示:
Table 5Concepts Detection Results Based on Audio -VisualCoorrelated Joint Network

表5 基于視聽相關(guān)的多模態(tài)網(wǎng)絡(luò)概念檢測結(jié)果%
Joint-net1-a-imagenet-all: Initializing the audio subset with audio-net_scratch in table2 and the vision subset with ImageNet pre-trained weights respectively, then the network learns and updates all weights.
Joint-net1-a-imagenet-fc: Initializing the audio subset with audio-net_scratch and the vision subset with ImageNet pre-trained weights respectively, then the network learns and updates weights of fully-connected layer.
Joint-net2-a-v-all:Initializing the audio subset with audio-net_scratch and the vision subset with visual-net_scratch respectively. then the network learns and updates all weights.
Joint-net2-a-v-fc: Initializing the audio subset with audio-net_scratch and the vision subset with visual-net_scratch respectively, then the network learns and updates weights of fully-connected layer.
Joint-net3-scratch: The network is trained using audio-visual correlation strategy from scratch with random initialization.
vggpool-vggish_fc_svm: SVM classifier with Early fusion withvggpoolandvggish_fcin table 2.
由表5可以看出:
1) 融合網(wǎng)絡(luò)1-a-imagenet-all使用預(yù)訓(xùn)練權(quán)重且基于視聽相關(guān)性更新融合網(wǎng)絡(luò)所有權(quán)重,其mAP值有42.44%,是本文實驗中的最高值.這一方面得益于ImageNet上的視覺先驗知識,以及聽覺網(wǎng)絡(luò)通過CNN學(xué)到了有效的特征表示,經(jīng)過結(jié)合能夠提供互補信息,達到增強系統(tǒng)性能的效果;另一方面也體現(xiàn)了視聽相關(guān)性學(xué)習(xí)的有效性.
2) 經(jīng)過視聽相關(guān)性更新所有權(quán)重的模型表現(xiàn)都比僅更新全連接層權(quán)重的表現(xiàn)好.在單獨的視覺網(wǎng)絡(luò)概念檢測的mAP只有18.42%,但使用視聽相關(guān)性訓(xùn)練的融合網(wǎng)絡(luò)2-a-v-all,提升了1倍多的mAP值(40.76%).由于檢測的是多模態(tài)概念,概念本身視聽信息是相關(guān)的,而視頻的視聽內(nèi)容也存在天然的相關(guān)性.因此,在基于視聽相關(guān)性更新所有權(quán)重的過程中,有效地將相關(guān)性信息傳遞到了網(wǎng)絡(luò)中,證明了視聽相關(guān)反饋視覺和聽覺子網(wǎng)的重要性.
3) 融合網(wǎng)絡(luò)3-scratch使用隨機權(quán)重從零訓(xùn)練的多模態(tài)網(wǎng)絡(luò),其mAP值是34.10%,比單獨的聽覺網(wǎng)絡(luò)低了約2個百分點,本文推斷和網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)有關(guān)系.視頻中出現(xiàn)的聲音不一定是連續(xù)的10 s,可能有其他聲音的干擾,而聽覺網(wǎng)絡(luò)使用每個視頻的所有音頻片段訓(xùn)練,適當(dāng)減少了這樣噪音的影響,而視聽融合網(wǎng)絡(luò)隨機選擇4個二元組(音頻數(shù)據(jù)的40%),這就造成了視聽信息可能并不相關(guān),增加了樣本的不準(zhǔn)確性.但是視聽融合網(wǎng)絡(luò)的AUC卻比聽覺網(wǎng)絡(luò)的AUC高了近2個百分點,也證明了視聽相關(guān)性在多模態(tài)概念檢測中的有效性.
同樣地,本文分析融合網(wǎng)絡(luò)模型對多模態(tài)語義概念的影響.由于本文更關(guān)注視聽相關(guān)性策略在多模態(tài)概念中的表現(xiàn),因此,本文主要分析融合網(wǎng)絡(luò)3-scratch對多模態(tài)語義概念檢測的影響.表6中呈現(xiàn)了融合網(wǎng)絡(luò)3-scratch所檢測到的AP值最高的前5個概念.“crowd_cheer”(觀眾歡呼)的AP值最高,說明這個概念的視聽信息相關(guān)度最高.這個概念在單模態(tài)網(wǎng)絡(luò)中檢測的AP值都居于前5,但基于視聽相關(guān)性的網(wǎng)絡(luò)仍然提高了其AP值.通過表6也發(fā)現(xiàn)了一些有趣的現(xiàn)象:如“rooster_crow”(公雞報曉)這個概念的AP值比單純基于前期融合或單模態(tài)網(wǎng)絡(luò)要高.這個概念是通過象聲詞及其發(fā)聲物匹配的方式收集的.象聲詞本身包含了發(fā)聲物的信息,因此通過這種方式收集的多模態(tài)概念的視聽信息是非常相關(guān)的.而這樣的強相關(guān)性也正是視聽融合網(wǎng)絡(luò)用來學(xué)習(xí)的目標(biāo),因此檢測結(jié)果較好.此外,在諸如“wind_blow”(刮大風(fēng))和“thunder_growl”(電閃雷鳴)這類語義概念中,視覺信息比較抽象,大量的視頻中充滿了人、雨傘,大多視頻場景是室外,通過視覺信息不能很好地區(qū)分,但是加入視聽信息相關(guān)性后就能夠有效地與聲音信息結(jié)合,從而增大其被檢測出來的可能性.
Table 6Top 5 Concepts with the HighestAP(Based on Joint net3-scratch)
表6AP最高的前5個概念(基于融合網(wǎng)絡(luò)3-scratch)%

在視聽融合網(wǎng)絡(luò)中還發(fā)現(xiàn)了網(wǎng)絡(luò)能夠?qū)W習(xí)到一些精細化的特征,能夠區(qū)分一些視覺聽覺上都很相似的語義概念.圖3中給出了測試集上對應(yīng)概念的預(yù)測率最高的5個視頻中所截取的幀圖像.從“dog_bark”(狗的“汪汪”叫)和“dog_howl”(狗嚎叫)圖3中可以清楚地看到,“dog_howl”這個概念對應(yīng)的視頻當(dāng)中的狗,都是頭部呈90度上揚,狗的嘴巴張開的幅度較小,動作狀態(tài)多為靜止;而“dog_bark”這個概念對應(yīng)的視頻,狗幾乎都是面向前方,嘴巴張開的幅度較大,動作狀態(tài)多為跑動.實際上,這就是狗在不同狀態(tài)下的表現(xiàn).這2類概念視覺信息都是狗,而聽覺信息都包含了狗叫的聲音,視聽信息都很相似的情況下,基于視聽相關(guān)性的網(wǎng)絡(luò)能夠很好地將他們區(qū)分開來.

Fig. 3 Examples of learned fine-grained features from joint network圖3 融合網(wǎng)絡(luò)學(xué)習(xí)到的精細化特征示例
此外,在聽覺信息上也體現(xiàn)了這樣的精細化差異.例如“sheep_bleat”和“goat_bleat”,聽覺上都反應(yīng)的是羊“咩咩”叫的聲音,但視覺上前者更多的是白色的綿羊,而后者更多的是黑色的山羊.值得一提的是,這些特征在基于單模態(tài)的網(wǎng)絡(luò)結(jié)構(gòu)或基于多模態(tài)特征融合的概念檢測方法中都沒能體現(xiàn)出來,這說明了視頻視聽信息相關(guān)性在視頻分析中的重要性,也從側(cè)面反映了基于視聽信息的多模態(tài)概念的必要性.只有通過精細化的語義概念,才能更精確地構(gòu)建起視頻底層特征與高層精細化語義之間的橋梁.
本文的目標(biāo)是通過構(gòu)建具有視聽信息的多模態(tài)概念,獲得視頻底層特征與高層語義之間更精細化的聯(lián)系,因此,為了驗證本文的多模態(tài)視聽網(wǎng)絡(luò)是否能夠有效表示視頻特征,本文將從文中基于視聽相關(guān)性的聯(lián)合網(wǎng)絡(luò)模型中提取視聽特征,在標(biāo)準(zhǔn)數(shù)據(jù)集上驗證特征的有效性.
4.6.1 基于聯(lián)合網(wǎng)絡(luò)視覺子網(wǎng)的特征
驗證視覺特征有效性的數(shù)據(jù)集是Huawei視頻概念檢測數(shù)據(jù)集[注]http://www.icme2014.orghuawei-accurate-and-fast-mobile-video-annotation-challenge.這個數(shù)據(jù)集包含了2 666個視頻和10個語義概念,每個視頻標(biāo)注了其中相關(guān)的概念和它出現(xiàn)的片段.10個語義概念分別是:“kids”,“flower”,“city_view”,“car”,“beach”,“party”,“Chinese_antique _building”,“dog”,“food”,“football_game”.本文首先將每個視頻按照標(biāo)注信息切割成視頻片段,每個片段有1個或多個概念標(biāo)簽,每個視頻片段作為1個樣本(每個視頻片段不超過2 min).預(yù)處理后,共有5 828個樣本,其中4 187個樣本作為訓(xùn)練集,609個樣本作為驗證集,1 153個樣本作為測試集.對每個樣本,提取關(guān)鍵幀,輸入到網(wǎng)絡(luò)結(jié)構(gòu)中得到圖像特征,將每個關(guān)鍵幀的圖像特征進行平均作為這個視頻整體的視覺特征,使用SVM進行監(jiān)督訓(xùn)練.評測指標(biāo)為mAP.

Table 7 Classification Results on the Huawei Dataset表7 Huawei視頻分類結(jié)果 %
vggpool:512 dimensional features from pool5 of VGG trained on ImageNet with global max pooling.
f_v_pool: 512 dimensional features from the output of pool5 of vision subset in joint-net1-a-imagenet-all in table 5 with global max pooling.
scr_v_pool: 512 dimensional features from the output of pool5 of vision subset in joint-net3-scratch in table 5 with global max pooling.
在本文多模態(tài)融合網(wǎng)絡(luò)的實驗中,融合網(wǎng)絡(luò)在學(xué)習(xí)過程中,視覺子網(wǎng)使用了ImageNet預(yù)訓(xùn)練權(quán)重,再利用視聽相關(guān)性更新網(wǎng)絡(luò)所有權(quán)重.因此實驗將對比基于視聽相關(guān)性更新網(wǎng)絡(luò)前后的特征.表7中給出了在整個測試集上的mAP和在特定概念上的AP值.
整體來說,在這個數(shù)據(jù)集上,vggpool的效果略優(yōu)于本文的視聽融合網(wǎng)絡(luò)的特征.因為Huawei數(shù)據(jù)集上某些概念在本文所使用的視頻集中沒有出現(xiàn),但是在ImageNet中出現(xiàn)過,比如 “flower”,“food”.在這些類別上由于vggpool的模型中包含了先驗知識,因此效果比較好.但是,對于在ImageNet預(yù)訓(xùn)練模型和本文融合網(wǎng)絡(luò)模型訓(xùn)練中都出現(xiàn)的相關(guān)概念,如“football_game”,“party”,“city_view”,本文融合網(wǎng)絡(luò)的視覺特征是優(yōu)于vggpool的.這是因為這3個概念本身就是具有視聽信息的,這些概念相關(guān)的視頻中通常都伴隨著人們歡呼、說話等聽覺信息,而本文的多模態(tài)概念中也包括了如“crowd_cheer”,“crowd_clap”這樣的概念,聯(lián)合網(wǎng)絡(luò)通過對這些概念和相關(guān)視頻的學(xué)習(xí),使得網(wǎng)絡(luò)具有了相應(yīng)的特征.scr_v_pool來自于文中的未使用任何先驗知識的融合網(wǎng)絡(luò)3-scratch,其性能也表現(xiàn)出非常有競爭力的優(yōu)勢.這也證明了本文基于視聽相關(guān)性的多模態(tài)網(wǎng)絡(luò)的有效性.
4.6.2 基于聯(lián)合網(wǎng)絡(luò)聽覺子網(wǎng)的特征
本文選擇在ESC50驗證聽覺特征的有效性.ESC50是一個包含了2 000個音頻的聲音分類的標(biāo)準(zhǔn)數(shù)據(jù)集[18].這個數(shù)據(jù)集中的每個音頻有5 s,被劃分到50個類別(大致包括動物聲音、自然聲音、人類聲音、室內(nèi)聲音和室外聲音).數(shù)據(jù)集被預(yù)先劃分成5個子集,每個子集的音頻片段來源相同.評測指標(biāo)是在5個子集上的平均準(zhǔn)確率.本文實驗中,先將5 s的每個音頻劃分成980 ms的音頻片段,每個音頻片段提取頻譜圖(預(yù)處理過程同4.3),將該頻譜圖輸入到本文的視聽融合網(wǎng)絡(luò)的聽覺子網(wǎng)中提取特征.所有音頻片段的特征進行平均作為整個音頻的特征,輸入到SVM進行分類驗證.
實驗結(jié)果如表8所示.基于視聽相關(guān)性的融合網(wǎng)絡(luò)所提取的特征(scr_a_pool),在ESC50音頻事件數(shù)據(jù)集的分類效果超過了vggish_fc約5.7%,而后者訓(xùn)練數(shù)據(jù)的數(shù)量遠遠大于本文實驗中所使用的數(shù)據(jù)量.這也再次證實了本文方法的有效性.

Table 8 Classification Results on the ESC50 Dataset表8 ESC50音頻分類結(jié)果 %
vggish_fc: The 128 dimensional features from the fully-connected layer of VGG trained on Youtube8M(audio only).
scr_a_pool: The 512 dimensional features from the output of pool5 of audio subset in joint-net3-scratch in table 5 with global max pooling.
本文探索了具有視聽信息的多模態(tài)語義概念檢測工作.多模態(tài)概念是指概念中包含了視聽信息的概念,其中視聽信息具有相關(guān)性,共同表達了語義概念所描述的事件.多模態(tài)概念的構(gòu)建更能滿足用戶的精細化檢索需求,也更能準(zhǔn)確確定視頻中的語義信息.本文以多模態(tài)概念為檢測目標(biāo),探索了基于CNN的端到端的概念檢測框架.除了使用CNN訓(xùn)練單模態(tài)的概念檢測系統(tǒng),本文利用多模態(tài)概念的視聽相關(guān)性為目標(biāo)訓(xùn)練了聯(lián)合學(xué)習(xí)網(wǎng)絡(luò).實驗表明:通過視聽相關(guān)性的聯(lián)合網(wǎng)絡(luò)相比目前研究領(lǐng)域通用的視聽覺特征,在多模態(tài)概念檢測任務(wù)上有更好的表現(xiàn).同時,聯(lián)合網(wǎng)絡(luò)能夠?qū)W習(xí)到精細化的特征表示,利用該網(wǎng)絡(luò)提取的視聽覺特征也能夠有效運用于其他多媒體分析任務(wù).本文的研究工作將有效構(gòu)建起視頻底層特征與高層精細化語義之間的橋梁.
在今后的工作中,本文將繼續(xù)探索更大規(guī)模的多模態(tài)概念的定義以及更準(zhǔn)確的相關(guān)視頻數(shù)據(jù).本文提出的基于視聽相關(guān)性的聯(lián)合學(xué)習(xí)框架用于多模態(tài)概念檢測,其中視覺信息和聽覺信息在本文工作中只是采用簡單的VGG模型作為網(wǎng)絡(luò)學(xué)習(xí)的主要結(jié)構(gòu),在今后的工作中也將探索利用其他更為復(fù)雜的視覺、聽覺網(wǎng)絡(luò)學(xué)習(xí)模型.此外,本文的多模態(tài)聯(lián)合學(xué)習(xí),僅僅利用了視頻的視聽相關(guān)性,并未完全研究視覺信息和聽覺信息之間究竟存在怎樣的關(guān)系以及如何利用這個關(guān)系,這也是今后工作中一個值得深入的研究方向.