周 萍
(南昌職業大學 信息技術學院,南昌 330500)
眾所皆知,音樂藝術家通常使用動態節奏、發音來傳達音樂中的情感。隨著互聯網和流視頻技術的發展,“音樂+視頻”逐漸成為流行的可視化表現形式。對于音樂視頻,用戶在關注其名稱、收錄專輯和藝術家的同時,還會關注諸如流派、情感和視頻質量等屬性。因此,結合視頻內容對音樂的情感等屬性進行分類是一個重要的研究課題,亦能切合線上音樂網站、音樂視頻網站和內容共享網絡等場景的應用需求。現有的研究主要集中于分別面向音頻和視頻單模態信息來進行分類等任務,但是針對音樂視頻進行情感分析仍然是一個亟待解決的熱點問題。情感可以通過情感詞匯以口頭方式表達,也可以通過非語言線索(如語調、面部表情和手勢)表達。音樂視頻中的情感不僅包括了視頻、文字、面部表情等情感屬性,還涵蓋了通過音樂旋律、器樂節奏和作曲家突出場景表達的附加情感。本文將采用深度學習算法對音樂視頻的情感進行分類,提出以音頻梅爾譜圖為輸入的音頻神經網絡以學習音頻特征,剖析了視頻神經網絡學習視頻數據的時空特征,用于捕獲整個視頻信息。本文使用多模態融合,將音頻特征和視頻特征結合進行情感分類。由于缺乏已標記音樂視頻數據集,本文構建了具有多樣性的音樂視頻數據集,并基于該數據集進行實驗評估,用來驗證提出的算法的有效性。
卷積神經網絡(Convolutional Neural Network,CNN)的有效性在于能夠從端到端管道中的原始數據中學習特征以應對特定任務。由于處理諸如音頻這一類信號需要二維CNN,因此本文設計了二維音頻網絡來提取音頻特征。許多現有的音頻網絡使用音樂的梅爾譜圖的幅度表示作為輸入,忽略了梅爾譜圖的相位信息。音頻網絡使用梅爾譜圖的原始波形作為輸入可以同時保留信號幅度和相位信息,因此本文提出的二維音頻網絡需要使用原始波形作為輸入進行音樂情感分析。本文提出的音頻網絡結構如圖1所示。由圖1中的二維音頻網絡可知,卷積層(32)是指在池化大小為2的通道上執行32個步長為2卷積操作,卷積核的大小為3×1,再采用最大池化操作來降低信號的維數,同時保留卷積信號中的必要統計信息。本文提出的二維音頻網絡使用指數線 性 單 元()作 為 激 活 函 數,使 用(01)緩 解 過 擬 合 的 副 作 用,其 中(01)是指概率為01的操作。本文提出的二維音頻網絡將來自4個卷積層和4個最大池化層的輸出拼接為一個328的二維輸出矩陣。

圖1 二維音頻網絡Fig.1 Two-dimension audio network
本文采用三維卷積網絡(3D Convolutional Networks,C3D)和 膨 脹 卷 積 網 絡(Inflated 3D ConvNet,I3D)對視頻特征進行提取。二維音頻網絡和C3D視頻網絡融合流程如圖2所示。由圖2

圖2 二維音頻網絡和C3D視頻網絡融合Fig.2 The fusion between two-dimension audio network and C3D video network
可見,在進行C3D預處理后,本文將原始C3D網絡的末端2個全連接層替換為維度分別為1 024和512的全連接層,以降低維度,并應用概率為0.2的層來緩解音樂視頻數據微調中的過度擬合問題。使用隨機梯度下降(SGD)作為優化器,學習率設置為0.000 01。此外,研究還給出了二維音頻網絡和I3D網絡視頻融合流程如圖3所示。圖3中,對于I3D網絡,對最后的inception塊的輸出進行三維全局平均池化,使用音樂視頻數據對整個網絡進行微調,并使用學習率為0.000 1的Adam優化器。

圖3 二維音頻網絡和I3D網絡視頻融合Fig.3 The fusion between two-dimension audio network and I3D video network
在使用多模態深度學習算法進行訓練前,需要對輸入的視頻數據進行預處理。圖2、圖3中的C3D預處理和I3D預處理過程即如圖4所示。使用C3D和I3D視頻網絡進行視覺情感分類之前,所有的視頻幀被調整到合適的大小、數量和通道。C3D和I3D網絡使用具有紅色、綠色和藍色通道的32幀視頻進行訓練。對于視頻幀,以統一的時間間隔進行提取以捕獲整個視頻信息內容。圖4中,卷積層1包含64個卷積操作,卷積層2包含256個卷積操作,卷積層3包含512個卷積操作,卷積層4包含一個大小為7×7×7、步長為2的卷積核,卷積層5包含一個大小為1×1×1的卷積核,卷積層6包含一個大小為3×3×3的卷積核。對于音頻數據,本文對音頻數據進行零填充得到全長音頻波形,隨后對30 s的音樂信號以16 kHz的頻率進行采樣。音頻輸入是CNN音樂網絡的480 000維輸入向量。經過預訓練的2D音樂CNN也需要使用零填充生成全長音頻,以生成固定大小的梅爾譜圖。梅爾譜圖是通過獲取短時傅里葉變換(short-time Fourier Transform,STFT)的絕對值發現的頻率內容隨時間的二維表示。

圖4 輸入預處理Fig.4 Input preprocessing
將音頻和視頻信息融合為多模態,分別將C3D和I3D視頻網絡的決策級特征與一維音樂CNN(OneDMCNN)和二維音樂CNN(TwoDMCNN)的決策級特征融合,產生了4種多模態架構,即C3D+OneDMCNN、I3D+OneDMCNN、C3D+TwoDMCNN和I3D+TwoDMCNN。音頻和視頻的每個單模態情感分類器首先分別使用數據集進行微調,去除每個單模態的分類器后,將輸出的結果用于多模態特征融合。
為了克服數據匱乏的問題,結合遷移學習來進行音樂視頻分類。首先加載預訓練的權重,并微調源神經網絡,使其適應音樂視頻數據集。然后,提取每個單模態情感分類的學習特征,用于多模態決策。使用sport-1 M數據集訓練C3D以及使用RGB ImageNet和kinetic數據集訓練I3D。采用歌曲數據集訓練的預訓練二維音樂CNN作為音樂情感分類器,并微調該音頻網絡,以對網絡分類音樂情感進行泛化。
多模態融合是一個整合來自多個來源信息的過程,目前有3種信息融合方法,包括早期融合、晚期融合和混合融合。應用了后期融合,將最高級別的預訓練特征組合起來,由層做出最終分類決策。將每個單模態網絡所學習的特征連接起來,用于單獨的音樂和視頻情感決策,也由層做出最終決策。
現有的情感分類算法應用機器學習技術來訓練分類器,將情感劃分為離散的類別。這些算法通過訓練預測輸入數據的情感類別,從而將輸入表示為情感空間中的一個點。
音樂視頻情感分析的主要挑戰在于情感邊界的模糊性和標記訓練數據的稀缺性。現有的音樂視頻數據集仍無法用于情感分類算法的有效訓練,而數據集的稀缺問題對研究人員來說是一個巨大的挑戰,算法需要足夠的數據樣本才能做出更準確的決策。對此,首先通過整合現有的數據集和其他從互聯網上收集的數據樣本,構建了一個用于音樂視頻情感分析的小型數據集。將多種人類情感劃分為6個類別作為基本情感類別,即興奮、恐懼、中性、放松、悲傷和緊張。上述屬于6個情感類別的樣本如圖5所示,每個音樂視頻樣本的長度約為30 s。

圖5 數據集情感實例Fig.5 Emotion examples of the dataset
在本音樂視頻數據集中,大多數音樂視頻是從互聯網上收集的,這使得數據集在區域、語言、文化和樂器方面存在巨大差異。每個數據樣本都有其不同的特征,包括頻率、音高、過零率、運動強度、節奏規律和分辨率等。本文所考慮的6種情感類別的邊界是模糊的,部分情感之間存在重疊。選擇了一致且易于確定情感的音樂視頻來構建數據集,并用對應于6種基本類別的情感對數據集進行標注。其中,興奮的情緒通常是指人們高興或受某種刺激而精神激奮,視覺內容一般包括舞蹈或派對等高強度肢體動作、群體活動和豐富多變的環境。這類音樂一般采用快節奏、大調、和聲、流暢或多變的節奏。恐懼情緒源于對危險或恐怖的感知,視覺信息包括一些不自然的事件或隨時間突然變化的人物,音樂創作時通常會用到快節奏、高響度和不規則的節奏。放松是一種低張力狀態或恢復平衡狀態。這一類的視覺信息一般包括自然場景和樂器,此類別的音樂通常具有緩慢的節奏與和聲。悲傷是人類心理的一種不愉快的感覺,悲傷的音樂通常具有緩慢的節奏和輕微的音調。緊張類別包括引發負面情緒的暴力場景,帶有緊張情緒的音樂一般包括高響度、快節奏和碰撞的和聲。
在實驗部分,分別使用音頻和視頻神經網絡來測試提出的音樂視頻數據集。使用遷移學習并對預訓練的CNN進行微調,以將其應用于提出的音樂視頻數據集。實驗中使用的性能評估指標主要有:準確率、分數和受試者操作特征曲線下的面積()。其中,準確率是指正確分類的數據樣本占總樣本的百分比,分數是精度和召回率之間的調和平均值。受試者操作特征曲線是顯示分類算法在所有分類閾值下的性能以及真假陽性率的圖表,而是曲線下方的整個二維區域,表示了對所有可能分類閾值的性能的聚合度量。針對不同的神經網絡,實驗選擇了2種優化器。優化器的作用是用于調整神經網絡的參數,使神經網絡更快、更好地收斂。表1展示了各種單模態分類網絡的評估結果以及優化器對各種學習因素的影響。由結果可知,一維音樂CNN和I3D使用Adam優化器時能獲得最好的性能,二維音樂CNN和C3D使用SGD優化器時能獲得最好的性能。學習率設置為0.001。

表1 不同優化器下單模態分類網絡的評估結果Tab.1 Evaluation results of single-modality classification networks under different optimizers
隨后將音頻和視頻的單模態結果融合為最終的多模態結構。C3D使用Adam和SGD優化器的性能較為接近,本文僅選擇SGD優化器進行多模態集成。二維音樂CNN在歌曲數據集上進行預訓練,因此其性能優于一維音樂CNN。雖然一維音樂CNN包含了音頻流的相位和幅度,但由于端到端訓練的數據樣本非常有限,一維音樂CNN的性能也無法超過二維音樂CNN。
將表現最好的單模態分類器中學習到的特征整合到各種優化器上,用于音樂視頻情感預測。音樂網絡在決策級別與視頻網絡集成,并使用分類器對級聯特征進行分類。分類是通過六重交叉驗證完成的。表2展示了各種多模態組合的結果。決策級特征融合的結果表明,當所有的音視頻特征都用決策算子結合時,能獲得最好的性能。為了更好地了解提出算法的性能,實驗統計了所有多模態分類器及集成多模態的。由表2結果可知,集成多模態在決策級別融合了多模態的所有學習特征,因此擁有最好的性能。集成多模態的混淆矩陣見表3。由表3結果可知,與其他情緒相比,放松和悲傷情緒更容易被混淆。與其他無聲情緒相比,興奮和緊張情緒之間能夠得到更好的區分。

表2 單模態組合和集成多模態的評估結果Tab.2 Evaluation results of single-modality combination and integrated multi-modality

表3 集成多模態的混淆矩陣Tab.3 Confusion matrix for integrated multi-modality
借助遷移學習和后期決策級融合,提出了基于多模態深度學習的音樂視頻情感分類算法。構建了一個小型音樂視頻數據集,將音樂和視頻部分分開,以便用于其他音頻和視頻CNN的預訓練。實驗評估的結果表明,多模態融合能有效提高分類性能。該結果表明,在已標記數據樣本不足的情況下,提出的算法可以學習到音樂視頻的多模態特征,實現準確、高效的情緒分類。