李金鳴 付小雁,2*
1(首都師范大學信息工程學院 北京 100048)2(電子系統可靠性技術北京市重點實驗室 北京 100048)
隨著現代生活的快速發展,心理健康問題得到社會各界越來越多的關注。抑郁癥(major depressive disorder,MDD)是心境障礙的主要類別,以顯著而持久的心境低落或喪失興趣與愉悅感為主要臨床特征[1]。輕度患者會伴有情緒低落、心情壓抑、焦慮、 興趣喪失、自我評價過低等癥狀;重度抑郁癥患者會悲觀厭世、絕望、幻覺妄想、身體功能減退,甚至產生自殺行為。雖然抑郁癥嚴重影響人們的生活與日常工作,但是抑郁癥患者可以通過藥物、心理和物理方式治愈或緩解病情。
貝克抑郁量表II(Beck Depression Inventory-II, BDI-II)是目前應用最為廣泛的抑郁癥狀自評量表[2]。BDI-II具有良好的信度與效度,可以作為自評工具用于評估患抑郁癥的程度。在BDI-II中有21個單項選擇題,受試者必須根據自己的真實情況在每個問題的4個選項中選擇最符合的一個,4個答案對應的評分分別是0、1、2、3,BDI-II最終分值范圍為0~63。不同的分數段代表不同的抑郁程度:0~13表示沒有抑郁癥;14~19表示患有輕度抑郁癥;20~28表示患有中度抑郁癥;29~63表示患有重度抑郁癥。BDI-II值越大,表示個體的抑郁程度越嚴重,對患者和他人的傷害也就越大。
目前,抑郁癥的診斷以問卷調查為主,以醫師判斷為輔。其準確度嚴重依賴于患者的配合程度以及醫師的專業水平和經驗,并且抑郁癥患者的早期診斷和再評估會受到很多限制。近年來,隨著抑郁癥患者數量的不斷增加,快速并準確地診斷抑郁癥是相關醫療人員面臨的重大問題。因此,通過計算機技術提供一種客觀的評估和快速識別抑郁程度的方法將有助于抑郁癥患者的早期診斷和治療。
隨著生物特征識別技術的發展,研究人員通過分析語音信號,可以得到講話人身份信息、年齡、性別、講話內容和情感等多種信息[3-6]。同時,國外的研究人員也發現并證實人的音頻特征與抑郁程度之間具有顯著的關聯性。文獻[7-8]表明,抑郁癥患者人群與正常人群在語音特征行為方面存在語速偏慢、語調單一且悲觀等明顯的差異。又由于語音具有容易采集,所受限制少和成本低的特點,基于音頻的抑郁癥識別已成為自動抑郁癥檢測的主要手段之一。自動語音抑郁檢測(Automatic Speech Depression Detection, ASDD)是利用計算機分析說話人的語音信號及其變化過程,發現說話人內心的情緒和心理活動。目前ASDD的方法可以分為兩類:傳統的機器學習方法和深度學習方法。
特征選擇是傳統ASDD機器學習方法的關鍵,特征的選擇直接關系到抑郁癥識別結果的準確性。目前,最常用的特征包括梅爾頻率倒譜系數(MFCCs)、能量、過零率、共振峰特征、光譜特征等。提取特征后再采用機器學習方法研究特征與抑郁程度的關系,這些機器學習方法包括高斯混合模型(GMM)[9]、偏最小二乘(PLS)[10]和支持向量回歸(SVR)[11]。這種方法的主要優點是可以在不需要大量數據的情況下對模型進行訓練。缺點是很難判斷特征的質量,可能會丟失一些關鍵特征,從而降低識別的準確性。
與傳統的機器學習方法相比,深度學習技術具有可以提取高層語義特征的優點,在最近幾年取得了突破性的進展[12-13]。目前,有研究者將深度學習方法應用于ASDD。Huang等[14]在2016年AVEC中介紹了一種基于音頻的抑郁癥分類的深度學習方法,提取音頻的MFCCs特征作為模型的輸入,其中設計了兩層卷積神經網絡(CNN)、一層長短時期記憶網絡(LSTM)和兩層全連接層(FC)用于預測音頻受試者是否抑郁。在文獻[15]中,作者基于局部二值模式(LBP)特征做了改進,設計了中值魯棒擴展的局部二值模式(MRELBP),然后運用深度卷積神經網絡(DCNN)進行預測抑郁分值。Chao等[16]提取了音頻和視頻的特征,并將其融合為異常行為的標志,然后利用長短時記憶遞歸神經網絡(LSTM-RNN)來描述動態時間信息。他們采用多任務學習來提高結果的準確性,并在AVEC2014數據集上評估了模型的預測能力。
雖然之前的研究取得了一定的成果,但是仍存在一些挑戰。研究表明,抑郁癥患者與正常人在情緒上存在顯著差異,比如抑郁癥患者常伴有抑郁、悲傷、焦慮、擔憂的情緒。為了解決訓練數據較少的問題和充分利用情感特征,本文設計了基于上下文情感信息的多尺度音頻差分歸一化(MADN)特征和新的網絡模型框架。在不減少樣本數量的情況下,增加樣本長度可以獲得更多的訓練數據。首先,將當前樣本的特征輸入模型對抑郁相關特征進行編碼。然后,將當前樣本的相鄰兩段的MADN特征再按次序分別輸入上面訓練好的模型進行微調和優化。通過與目前最優的方法對比表明,本文提出的音頻抑郁癥識別算法在抑郁癥的診斷中提高了預測精確度。
AVEC2014[17]抑郁癥數據庫是視聽抑郁語言語料庫(AVid-Corpus)的一個子集。音頻是在自然條件下通過麥克風采集的,被試者的年齡在18歲到63歲之間,平均年齡為31.5歲。每個受試者被記錄一次到四次不等,同一個受試者的每兩次采集時間間隔大約為兩周。AVEC2014數據庫中的每個音頻的時長在6秒到4分8秒之間。AVEC2014數據庫分為NORTHWIND和FREEFORM兩部分:
(1) NORTHWIND: 提供文章給每個錄制者朗讀,例如“Die Sonne und der Wind”,然后通過麥克風分別記錄他們朗讀的音頻信息。
(2) FREEFORM: 這一部分是被試者與工作人員通過耳機麥克風交流,由工作人員詢問一個或多個問題,然后被試者進行回答,例如“What is your favorite dish?”,“What was your best gift, and why?”,“Discuss a sad childhood memory”等,此時麥克風采集的只是被試者一端的音頻信息。
AVEC2014數據庫中的150對NORTHWIND和FREEFORM音頻分成了訓練集、驗證集和測試集,各包含50個音頻,并且根據錄制者的BDI-II值為每個音頻設置標簽。
為了獲得最優的特征,對音頻樣本進行預處理。由于被試者在聽問題時是沒有語音信息的,所以要把這一部分非語音段裁剪掉。首先,對于每一個音頻文件,去除長時間的靜音段(非語音),其余部分被拼接成一個新的音頻文件。然后,每個有效的音頻文件被分割成相同長度的且沒有重疊的音頻片段,每個音頻段由60幀組成,音頻分幀時選用漢明窗,每幀1 024個數據點,前一幀與后一幀的交疊部分是幀長的1/2。音頻采樣率為44 100 Hz,所以一個音頻片段覆蓋的時間為[(60+1)×1 024/2]/44 100=0.708 s。對于2014AVEC數據庫中的數據,經過預處理后一共得到7 548個音頻片段樣本,其中訓練集包含5 100段,測試集包含2 448段。
(1) 梅爾頻率倒譜系數(MFCCs)。MFCCs是語音信號處理中最常用的特征,它具有符合人類聽覺和低維度的優點[18]。Mel頻率倒譜系數將人耳的聽覺感知特性和語音信號產生機制有效結合。下式解釋了如何將音頻的普通頻域尺度轉換為Mel頻率刻度:
(1)
式中:fmel表示Mel頻率刻度,fHz代表普通頻率。通常,MFCCs的計算使用一組濾波器,這組濾波器的中心頻率是按照Mel頻率刻度均勻間隔排列的,每個濾波器的三角形的兩個底點的頻率分別等于相鄰的兩個濾波器的中心頻率。設濾波器的個數為M,濾波后得到的輸出為X(m),m=1,2,…,M;設l(m)、c(m)、h(m)分別為第m個三角形濾波器的下限頻率、中心頻率和上限頻率,則相鄰三角形濾波器的下限、中心和上限頻率有如下關系:
c(m)=h(m-1)=l(m+1)
(2)
將濾波器組d的輸出進行對數運算,然后再進行反離散余弦變換即得到MFCCs。
(3)
式中:L為MFCCs系數的個數,通常取值為12~16,濾波器的個數取值在20~40之間。本文取L=12、M=40。
(2) 共振峰、能量、過零率。短時能量是指一幀語音信號的平均能量,反映了語音信號的幅度變化。短時能量可以用來區分有聲與無聲,由于抑郁癥患者會有吐字不清和停頓變長的癥狀,而且隨著抑郁程度的增加這些癥狀會更明顯突出,所以短時能量特征用來進一步分析講話過程中的停頓信息。
短時過零率可以從背景聲中找出語音信號,也可以反映有話和無話的信息,因此采用短時能量和短時過零率相結合來提取講話的持續時間和停頓時間信息。
為了能更加準確地識別抑郁癥,我們以發聲器官為出發點尋找相關的研究來幫助選取合適的特征,進而提高算法的預測精度。文獻[19]表明,抑郁癥患者的聲道會比正常人的更緊張,聲帶動力也會隨著抑郁程度而變化,而且人的神經所處的緊張程度不同,導致聲道在發相同音的時候產生形變,從而出現差異。而共振峰是指在聲音的頻譜中能量相對集中的一些區域,反映了聲道(共振腔)的物理特征,并且,共振峰代表了發音信息的最直接的來源。因此選取共振峰特征來進一步的分析抑郁癥患者與正常人的音頻信息的不同。
眾所周知,臨床醫生得到的患者音頻信息越多,那么對于此患者的抑郁診斷結果就越準確。然而,抑郁癥數據庫的音頻數據有限,由于音頻段數與單個樣本的音頻時長是反比例關系,所以單個樣本時長增加會導致總樣本段數的減少,單個樣本的數據維度增加也會大大增加計算的復雜度,影響運算速度和識別的準確率。這也是當前研究基于音頻的抑郁癥識別急需解決的問題。
在現實生活中,不同的說話者有不同的音量和音色特點,有的人天生說話嗓門比較高,有的人天生聲音渾厚,說話者的這種個性化說話特點會導致抑郁癥識別的準確率下降。對每一幀音頻提取的MFCCs、短時能量、短時過零率和共振峰頻率特征除了包含大量與抑郁相關的特征外,還摻雜了說話者個性說話特點,這是由于其靜態特性導致的,而說話者的個性化說話特點會減弱抑郁癥識別模型的泛化能力。因此,我們提出了多尺度的音頻差分歸一化(Multiscale Audio Delta Normalization, MADN)的算法,用于獲取局部非個性化的抑郁特征。基于音頻差分的特征反映同一個說話者說話過程中的音頻變化信息,不易受到個性化說話特點的影響。由于不同特征的數據量級是不同的,因此采用不同的尺度對特征進行歸一化處理。為了獲得說話者音頻的局部變化信息,根據滑動窗口選取相應的語音幀進行歸一化,而不是通過與一整段的音頻進行比較。按照滑動窗口選取相應的語音幀可以增強局部音頻變化的動態性,更有效地體現了非個性化音頻特征。為便于理解,MADN算法流程如下:
1) 輸入原始音頻文件。
2) 讀取音頻文件并對所有的音頻文件進行預處理。
3) 提取MFCCs、短時能量、過零率和共振峰頻率特征且用V(n,f)表示,f是語音的幀數,每一幀包含n個元素。
4) 通過相鄰兩幀音頻特征V(n,f)進行差分計算得到D(n,f)。D(n,f)代表了音頻的時序變化,減弱了說話者的講話個性化信息,在同一抑郁程度下特征值的分布相對比較穩定。計算方法如下:
D(n,f)=V(N,f+1)-V(n,f)
(4)
f=1,2,…,F-1
5) 對不同特征進行不同尺度的歸一化:
(5)
n=1,2,…,N
式中:Fn與fn的取值代表不同的尺度和滑動窗口,其公式如下:
(6)
(7)
6) 輸出:F(n,f)即為不同尺度歸一化后的特征。
深度學習技術在近幾年得到快速發展,在語音信號處理領域取得了良好的成果,它可以學習生成高級語義信息,豐富手工設計特征。Huang等[14]在2016年AVEC競賽中設計了一個用于識別是否抑郁的二分類的網絡結構,主要由卷積神經網絡(CNN)和長短期記憶神經網絡(LSTM)組成,此模型的輸入是音頻信息,輸出是對應的個體是否抑郁音頻。本文基于這個網絡模型做了兩個方面的優化和改進:(1) 基于只用MFCCs特征作為網絡的輸入的缺點,提出了MFCCs、短時能量、短時過零率以及共振峰特征的互補結合作為模型的輸入;(2) 基于抑郁分類的模型改進為抑郁回歸預測的模型,由于不同程度的抑郁癥患者需要不同的治療,所以預測抑郁癥患者的BDI-II值是很有必要的。本文優化的深度模型,即音頻抑郁回歸預測網絡(Depression Regression AudioNet, DRAudioNet)的網絡結構如圖1所示。在傳統的深度卷積神經網絡(DCNN)模式識別中,輸入圖像和卷積核的形狀往往都是方形的,而語音信號的數據維數是一維的,不能直接使用圖像處理的方法進行處理。為了解決這個問題,在實驗中對音頻段中每一幀語音都提取了MFCCs、過零率、能量和共振峰頻率特征,然后,每個片段的60幀語音的特征組成一個二維的矩陣。

圖1 Depression AudioNet網絡結構圖
在語音特征的二維矩陣表示中,水平軸表示時間,垂直軸表示頻率信息。相同的頻譜模式在不同的頻率區間可以表示完全不同的音頻,而CNN用于圖像處理的方形的卷積核和池化操作會造成不同的音頻之間的混淆,削弱識別能力[20]。因此,實驗中嘗試在整個頻率軸上使用一維卷積代替方形濾波器來解決這個問題。卷積層可以有效地捕獲豐富的高階語義信息;池化層的目的是降低特征圖的維度,對于相對位置的小變化引入不變性,以此提高精度和減少運算復雜度。二維的輸入特征經過卷積和池化操作得到一維深層特征,然后,將這些特征導入LSTM層以提取長期依賴信息。最后,在網絡架構的末端是兩個全連接層,用于在時間軸上編碼音頻的長期變化并預測抑郁得分。
DR AudioNet網絡只運用了當前音頻片段的特征,為了能夠運用MADN算法提取當前段的前后相鄰兩段音頻的非個性化抑郁特征,本文研究了目前常用的網絡模型融合的方法和特點。傳統的神經網絡融合通常是將幾個網絡的預測值進行線性加權或者采用隨機梯度的方式進行加權融合,參與訓練的樣本數量并沒有增加,只是增加了特征的種類,是一種并行的融合方式。
根據MADN算法得到非個性化抑郁特征是在DR AudioNet網絡中輸入特征的前后相鄰兩段音頻上得到的,它們具有相同的尺寸和BDI-II值,以及時間上的關聯性。因此,本文提出一種新的網絡模型。整體架構圖如圖2所示。可以看到,后一個模型在前一個模型的基礎上訓練,也就是說,前面模型的參數共享給后面的模型。首先,使用DR AudioNet網絡對訓練數據集提取MFCCs、短時能量、短時過零率和共振峰頻率特征(統稱:特征V1)進行訓練。DR AudioNet網絡可以單獨預測抑郁分值,但是在說話者個性化信息上處理欠佳,因而在此模型的基礎上,運用當前音頻段的前一段的MADN特征(稱為特征V2)進行訓練模型二,學習到了與抑郁相關的特征又減弱了說話者個性化語音的干擾。最后在模型二的基礎上,提取當前音頻段的后一段的MADN特征(稱為特征V3)進行訓練模型三。通過結合兩種不同特征的優點,提取出更加準確的抑郁特征信息。

圖2 本文提出的網絡模型整體架構圖

(8)
RMSE表示所有預測值與真實值之間誤差的均方根,被用來衡量預測值與真實值之間的偏差,計算公式如下:
(9)
為了證明本文提出的提取特征算法以及深度模型在抑郁癥回歸預測的有效性,在2014AVEC數據集上分別進行了三個模型的實驗。
DR AudioNet網絡的輸入特征尺寸為17×60,設定batchsize為32,兩層卷積層都有64個卷積核,卷積核的大小都為3×1,LSTM層的cell個數設置為128個,第一層全連接層的節點數也是128,最后一層全連接層只有一個節點輸出預測分數。將2014AVEC中的驗證集歸并到訓練集,在測試集上評估DR AudioNet網絡模型的整體性能。結果如表1所示,可以看出,得到的RMSE和MAE分別為9.70和7.52。

表1 在2014AVEC測試集上三個模型識別抑郁癥的結果比較
為了驗證本文提出的特征V1和DR AudioNet網絡的有效性,我們與目前最優的基于音頻的抑郁癥識別的研究結果進行了對比,結果如表2所示。其中,文獻[21]分別提取了MFCCs特征和AVEC2014委員會提供的低水平描述子(low level descriptors,LLD),然后運用PLS、LR回歸方法進行抑郁癥的預測;文獻[15]設計了深度學習模型并運用MRELBP和LLD特征進行訓練。AVEC2014委員會提供的LLD特征包括MFCCs、短時能量和短時過零率在內的38種音頻描述子。分析文獻[21]的研究可以發現,運用MFCCs特征得到的效果比運用LLD的實驗結果要好,這也就是說明多種特征的結合反而會降低識別精度。而本文有效融合了與抑郁癥狀最為相關的MFCCs、共振峰、短時能量和短時過零率特征,比只運用MFCCs更有優勢。

表2 相關性實驗在2014AVEC測試集上的結果比較
文獻[15]中的深度卷積神經網絡(DCNN)模型由卷積層、池化層和全連接層組成。由于音頻是隨時間變化的語音信號,為了提取音頻之間的時序信息,本文設計的DR AudioNet模型由CNN、MP、LSTM和FC組成,其中CNN對音頻的短期深度特征進行編碼,LSTM提取音頻之間的長期依賴信息。通過結果對比發現,本文模型M1的實驗效果優于目前最新的文獻[21]和文獻[15]的方法效果。
在模型M2中,利用MADN算法對模型M1中當前音頻段的前一段音頻進行處理,得到特征V2,V2表達了前一段音頻的抑郁變化特征。模型M2運用特征V2對模型V1進行微調。從表1可以看出,模型M2得到的RMSE和MAE分別為9.46和7.30。通過MADN特征以及模型M2在模型M1的基礎上微調減少了個性化特征對抑郁識別的影響,同時能夠提取更加豐富的語義信息和更加準確的特征信息,使得模型M2的RMSE與MAE分別比模型M1降低了0.24和0.18,進一步證明了模型優化的有效性。
在模型M3中,選取特征V3對模型M2進行聯合優化。同樣,此時特征V3的樣本是模型M1中的特征V1樣本的后一段音頻。利用MADN算法對模型M1中當前音頻段的后一段音頻進行處理,得到特征V3。從表1可以看到,經過特征V3聯合優化之后模型的RMSE和MAE分別為9.15和7.17,相比于模型M2又進一步降低了誤差。圖3是三個模型的損失函數變化曲線,可以看到模型M3的損失函數收斂速度更快。這三個模型的實驗結果表明,本文提出的在DR AudioNet網絡的基礎上運用相鄰兩段音頻的MADN特征對網絡模型進行聯合優化進一步降低了音頻抑郁識別誤差,有效地融合了MADN特征對說話人非個性化的抑郁特征,更加有利于抑郁識別模型的回歸預測。圖4顯示了模型M3在2014AVEC測試集中的預測值與真值標簽(BDI-II)的比較。文獻[15]運用不同的特征分別訓練深度模型,然后設計了四個全連接層(FC)對前面提到的分支模型進行融合,最終進行抑郁分數的預測。本文提出的網絡聯合優化模型與文獻[15]提出的融合多個深度模型的實驗結果對比如表3所示,可以看出,本文提出的聯合優化模型框架有更好的性能。

圖3 三個模型訓練的損失函數變化曲線

圖4 真實標簽與預測值的比較圖

表3 聯合優化的相關性實驗在2014AVEC測試集上的結果比較
與包括2014AVEC提供的Baseline在內的其他僅僅使用音頻數據的最新技術的識別效果比較見表4。通過對比實驗可以得出結論,本文提出的運用特征V1與DR AudioNet網絡能有效地進行抑郁癥程度的回歸預測。在提取特征時運用不同的尺度對特征進行的歸一化,有效地融合了不同的特征并保留了更加重要的音頻抑郁特征。同時,運用V2和V3對DR AudioNet進行聯合優化,有效地融合了MADN特征對說話人非個性化的抑郁特征。相比于其他目前最優的只用音頻數據的算法有效地降低了抑郁識別誤差,在2014AVEC數據集上的RMSE和MAE分別降到了9.15和7.17,證明了本文提出的基于音頻的特征算法和網絡模型在識別效果上優于其他方法。

表4 在2014AVEC測試集上的只用音頻數據的相關實驗的結果比較
本文提出了獲取局部音頻的相鄰兩段的非個性化的抑郁特征(MADN),這種基于音頻時序變化的特征反映了講話者的音頻變化信息,并減少了講話人的講話個性化特點,顯示了與BDI-II值的較強的關聯性。本文設計了一種新的網絡模型,通過當前音頻段的前后相鄰兩段的MADN特征,對前一個模型進行優化,提高了模型和特征的表達能力,進一步提高了模型預測BDI-II值的準確度。在今后的工作中,我們將探索自然語言處理中的文本處理,分析個體回答問題的文本信息,然后運用語音特征和文本特征的多模態融合,以進一步提高識別抑郁癥的準確率。