李智倩,郭源蕊,賀子亮,鄧麗華,何 凌,李元媛
(1.四川大學 電氣工程學院,四川 成都 610065;2.四川大學 華西心理衛生中心,四川 成都 610041)
精神分裂癥是一種病因不明的慢性精神疾病,易致殘且容易復發[1],多發于18周歲-45周歲人群,青壯年是主要患病群體。此病病程多遷移,約占中國住院精神病患的50%左右,慢性精神住院患者的60%左右[2]。精神分裂癥的病癥表現可具體分為陽性癥狀和陰性癥狀。陰性癥狀主要包括言語和思維貧乏、情感淡漠、社交障礙、孤僻和逃避[3]。
國內外學者認為,陰性癥狀是影響社會功能、導致精神殘疾的主要原因[4]。在過去的研究中,出現多項以精神分裂癥陰性癥狀為主要轉歸的臨床研究。然而,很多研究并未恰當地評估原發及持續存在的陰性癥狀,且樣本量較小,所以對陰性癥狀進行更好的評估仍然是一個重要的挑戰。超過50%的精神分裂癥患者存在陰性癥狀,目前主要依靠訓練有素、經驗豐富的臨床醫師檢測陰性癥狀[5],面臨著臨床醫師短缺、診斷周期長、成本高、效率低等問題,缺乏準確可靠且及時的客觀生物學指標及有效檢查手段[6],因此臨床上迫切需要敏感性和特異性更好的檢測方法。
情感淡漠是精神分裂癥陰性癥狀的顯著特征之一[7]。臨床[8]研究結果表明,情感淡漠與聲音表達能力降低有關,此類陰性癥狀對患者的發聲能力產生巨大的影響。當精神分裂癥患者遭受情感扁平化時,可能無法通過言語正確表達其預期情緒狀態[9-12]。在時域信號分析中,精神分裂癥患者語音的強度和能量較普通人小[13-16]。Vlliam Rapca等[17]分析了39名精神分裂患者及18名對照組語音信號中的能量變化,結果表明精神分裂癥患者的語音信能量低于正常人。在頻域信號分析中,精神分裂癥患者語音的頻譜強度與正常人存在差異。研究[18]結果表明精神分裂癥患者的大腦結構改變可能與發音器官的功能改變有關,而發音器官的狀態與頻譜特征密切相關。潘忠德等[19]對26名精神分裂癥患者和26名健康人的語音樣本分析,結果發現患者組的美爾頻率倒譜系數(the Mel-frequency cepstral,MFCC)和線性預測系數(linear prediction coding,LPC)評分顯著低于對照組。
近年來,國內外學者致力于研究基于聲學參數分析的精神分裂癥自動識別算法。Shona等[20]通過分析語音能量的相對變化參數,對精神分裂癥的預測診斷率達63.3%。Stassen等[21]通過分析患者的說話行為和聲學特征來研究精神分裂癥患者的陰性癥狀,提取平均能量、能量變化等語音參數并結合多元判斷函數,對精神分裂癥的識別率為75.9%;Püschel等[22]對45例急性精神分裂癥患者說話行為和語音特征進行研究,探尋語音參數和精神癥狀間的潛在聯系,以找出預測精神分裂癥狀嚴重性的語音參數,結果發現急性期精神分裂癥患者幾乎所有的聲學變量均與對照組有顯著差異。且通過基頻曲線、平均能量語音參數信息,結合分類算法,可將精神分裂癥患者和對照組進行分類的正確率為85.6%。Chakraborty等[23]對精神分裂癥患者的語音信號進行研究,提取了基音頻率、能量、MFCC等聲學特征,結合SVM、隨機森林等多個分類器,實現精神分裂癥自動檢測,正確率達85%。總體而言,國內外通過語音參數對精神分裂癥進行自動識別的研究較少,且存在樣本量較小,分類準確率不高等問題,還需要不斷深入探討。
本文結合精神分裂癥患者語音信號在表達及強度上缺乏變化的特點,構建情感扁平化空間,并提出能夠區分精神分裂癥及正常人的多維度情感扁平化空間域特征(multi-dimensional spatial characteristics of flatten emotion,MDSF),然后利用分類器實現精神分裂癥及正常人的自動分裂檢測,為精神分裂癥的臨床診斷提供客觀的生物學指標。
精神分裂癥患者的情感扁平化癥狀,導致其在語音表達上缺乏變化,使其情緒表達范圍和強度均低于正常人。本文提出精神分裂癥患者情感扁平化空間構建算法,應用激發維向量、評價維向量和強度維向量構建多維度情感扁平化空間模型。該模型將語音時頻域特征參數映射至多維度情感扁平化空間,然后提取空間域特征,結合SVM分類器,實現精神分裂癥的自動識別。其算法總流程如圖1所示。

圖1 基于多維度情感扁平化空間域的精神分裂癥自動檢測算法流程
本文基于精神分裂癥情感扁平化的癥狀,提出多維度情感扁平化空間(multi-dimensional flatten emotion space,MFES)的構建方式以及其空間域特征的提取算法。MFES的構建過程以及空間域特征的提取算法如下。
1.1.1 本文提出的多維度情感扁平化空間
AVP三維情感空間模型是目前在情感信息領域最活躍的情感模型之一[24-27],它是由激發維(Arousal)、評價維(Valence)、強度維(Power)這3個維度組成。通常韻律特征反映激發維的信息,激發維表示情緒生理上的激勵水平以及對外界刺激的警覺程度。頻譜特征主要反映評價維的信息以及部分強度維的信息,評價維表示情感被感知的程度,情緒狀態的愉悅/不愉悅等程度;強度維表示對情感狀態的控制程度,例如,說話者的控制欲望及力量、對情緒的表達是主動控制還是被影響等。
本文將表征情感扁平化的時頻域特征映射到多維度情感空間,來構建MFES的3個維度,從而構建MFES,圖2所示為多維度情感扁平化空間。通常人類的情感是連續的、復雜多變的,不完全屬于某一特定的離散情感類別。MFES包含情緒表達的正負性、喚醒度、優勢度,內在的情緒成分的表達。從本文提出的MFES中提取語音特征,可提取情緒表達的極性和強度,使情感扁平化的信息得到充分提取,凸顯精神分裂癥與正常人的語言特性差異[27],有利于精神分裂癥的自動識別。

圖2 多維度情感扁平化空間及空間域特征
1.1.2 本文提出的多維度情感扁平化空間域特征參數(MDSF)

(1)
其中
P=(L1+L2+L3)/2
(2)
(3)
(4)
(5)
(1)MDSF特征的一維參數
當多維度情感扁平化空間中激發維、評價維、強度維有兩個維度的特征為零時,MDSF特征的一維參數則用非零的特征表示,可用式(6)求解
(6)

(2)MDSF特征的二維參數
當多維度情感扁平化空間中激發維、評價維、強度維有一個維度的特征為零時,將其余兩個維度的特征代入式(1)求解, MDSF特征的二維參數如式(7)所示
(7)

本文提出的多維度情感扁平化空間域特征是相關聲學特征的多成分、多維度、多水平的一種融合,將分布于不同維度的離散語音強度表達狀態結合起來,有機地結合了不同維度的聲學特征優勢,有助于識別精神分裂癥患者與正常人。
精神分裂癥患者情緒遲鈍、情感淡漠陰性癥狀突出,對聲音的表達能力造成巨大的影響,尤其容易在言語內容中限制情感表達。本文分別從情緒表達的正負特性、喚醒度、優勢度等3個維度提出相關特征算法來構建MFES中3個特征向量,從而將精神分裂癥情感扁平化癥狀導致的異常信息提取并融合。MFES中3個維度向量的構建算法如下。
1.2.1 本文提出的MFES中評價維向量的構建算法
MFES中評價維表示個體情緒的正負特性,對于外界激勵表現出愉悅/不愉悅的情緒狀態。情感淡漠癥狀致使精神分裂癥患者在閱讀誘發文本時,頻譜能量受到不同程度的抑制。精神分裂癥對比于正常人,當處于愉悅/不愉悅的情緒狀態時,語音的強度在頻譜上有不同程度的表征。
本文基于頻譜能量來構建評價維(Valence)向量。算法計算一段語音中說話人的全部頻率分量,以及各頻率分量下的強度分布譜[28](intensity distribution spectrum,IDS),它反映了每個子頻帶的能量集中度,能夠在一定程度上反應說話人頻域能量的差異,從而表示精神分裂癥患者的情緒狀態變化。該特征計算過程如下:
將經過預處理后的語音信號x(n) 進行FFT譜分析,N點FFT傅里葉變換對如下
(8)
式(8)中,第k根譜線為X(k)/N。
雙邊峰幅度譜定義為
(9)
單邊峰幅度譜定義為

(10)
對單邊峰幅度譜進行能量歸一化處理,設經過能量歸一化處理的單邊峰幅度譜為ASn(k), 則有
(11)
由于FFT分析存在點數的差異,還要進行頻率歸一化處理,即使FFT分析的點數內插或者舍棄為固定點數,本文將點數固定為550點。
然后將經過能量歸一化和頻率歸一化的數據進行平滑處理,設平滑后單邊峰幅度譜為ASs(k), 則有
(12)
求取單邊峰幅度譜譜線的能量均值,即將式(12)中的ASs(k) 譜線求平均能量,得到表示評價維向量的頻譜特征IDS(k)
(13)
式中:M為樣本的分幀幀數。
1.2.2 本文提出的MFES中強度維向量的構建算法
精神分裂癥患者的發音功能改變大腦結構改變與大腦結構改變有關,發音器的狀態與頻譜特征密切相關,控制著情緒表達的飽滿程度。MFS空間中強度維(Power)表示說話者的控制欲望及力量、對情緒表達的主動控制程度。本文提出了一種基于多頻帶分析的幅度特征(multiband scale amplitude characteristics,MSA)來構建強度維向量。MSA將語音信號分解成多個子帶信號,然后利用正弦模型對各子帶信號進行分析,提取精神分裂癥患者以及正常人在語音上的情緒表達飽滿程度的差異。其特征提取算法流程如下:
(1)小波分解:利用小波分解(discrete wavelet transform,DWT)將語音信號分解為高頻信號和低頻信號,將語音信號的語音幀分解為近似系數Ljo,k和細節系數Hj,k(j=1,2,…,joandjo=3)。 近似系數Ljo,k表征了小波分解重構的低頻部分信息,細節系數Hj,k表征了小波分解重構的高頻部分信息。設經過預處理后的語音信號為x(n), 對x(n) 進行多尺度一維離散小波變換得到第一層近似系數。然后進行三次小波分解分別得到第三層的近似系數L3,k以及細節系數H3,k、H2,k和H1,k;
(2)子帶信號重建:從近似系數Ljo,k和每個細節系數Hj,k分別用逆離散小波變換(inverse discrete wavelet transform,IDWT)構造子帶信號,利用單個子帶的系數構造信號時,要使其它子帶的系數為零。分別使用近似系數L3,k和細節系數H3,k、H2,k和H1,k來構建4個子帶信號。這4個子帶信號L3,k、H3,k、H2,k、H1,k分別對應于SL3、SH3、SH2、SH1;
(3)強度維向量特征提取:將重建后的4個子帶信號SL3、SH3、SH2、SH1經過離散傅里葉變換后分別得到4個子帶信號的尺度峰值AL3,AH3,AH2,AH1, 將4個子帶信號的所有正弦波峰串聯起來,得到最終的特征向量,計算過程如式(14)所示
[AL3,AH3,AH2,AH1]=abs(fft([SL3,SH3,SH2,SH1]))
(14)
1.2.3 本文提出的MFES中激發維向量的構建算法
MFES中激發維表示人情緒生理上的激勵水平以及對外界刺激的警覺程度,精神分裂癥患者與正常人在受到實驗閱讀文本的激勵時的情緒表達程度不同。精神分裂癥患者的語音表達強度受到抑制,導致精神分裂癥患者的語音強度變化小于正常人。語音能量通常能反映語音強度變化,本文基于改進的短時能量來構建激發維向量,構建過程如下[29]:
設語音波形時域信號為x(n)、 加窗函數ω(n) 分幀處理后得到的第i幀語音信號為yi(n), 則yi(n)滿足
yi(n)=ω(n)*x((i-1)+inc+n),1≤n≤L, 1≤i≤fn
(15)
式(15)中,ω(n) 為窗函數,本文選取漢明窗,n=1,2,…L,i=1,2,…fn,L為幀長;inc為幀移長度;fn為分幀后的總幀數。
則計算第i幀語音信號yi(n) 的短時能量公式為
(16)
為了避免由于采樣值大小對于取二次方造成的差異,求取語音信號的平均幅度來表示一幀語音信號的能量大小,設SEC(i) 表示平均幅度,求解如式(17)所示
(17)
SVM[30,31]分類器是一種典型的分類器,是由分類超平面定義的。它是針對線性可分情況分析的,對于線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對樣本的非線性特征進行線性分析成為可能。
本文進行精神分裂癥情感淡漠癥狀自動分類主要考慮的因素是分類方式,本實驗是將已作標簽的精神分裂癥語音以及正常人的語音區分并賦予新的標簽,是典型的二分類方式,本文選用SVM分類器進行精神分裂癥的自動識別。
本實驗采用的語音數據來自于四川大學華西心理衛生中心,四川大學華西醫院心理衛生中心是我國排名第二的精神衛生機構,每年精神分裂癥患者的就診量大,數據庫資源豐富。本文的實驗數據錄制文本是由四川大學華西心理衛生中心的專科精神病學專家根據DSM-5標準制定的,根據閱讀文本,采用專業的錄音設備進行語音的錄制,采樣頻率為44 100 hz。表1是專業醫師制定的閱讀文本中富含情感信息較多的語句。

表1 閱讀文本中富含情感信息較多的語句
實驗共使用了28名精神分裂癥病人及28名正常人的語音數據進行測試。
2.2.1 基于多維度情感扁平化空間域的精神分裂癥自動檢測
(1)MDSF特征在不同維度下自動識別效果的對比分析
本文基于多維度情感扁平化空間求解MDSF特征,為了分析MDSF特征在不同維度下的精神分裂癥識別性能, 分別將MDSF特征的一維、二維、三維特征集,輸入SVM分類器進行自動分類測試,測試結果見表2。其中AUC(area under curve)為ROC曲線(receiver operating cha-racteristic curve)下的面積,是衡量分類器優劣的一種評價指標;FPR(%)是假陽性(%),表示被算法檢測出來的假陽性樣本數除以所有真實陰性樣本數;TPR(%)是真陽性(%),表示被算法檢測出來的真陽性樣本數除以所有真實陽性樣本數。

表2 不同維度下MDSF特征的精神分裂癥分類正確率


(2)不同維度下MDSF直觀結果的對比分析
分類器得到MDSF特征不同維度參數的自動分類結果,現從特征的直觀結果來分析精神分裂癥和正常人的差異。
1)MDSF特征的一維參數直觀結果的分析
分別用于構建MFES中評價維、強度維、激發維的特征IDS、MSA、SEC從3個情緒控制維度提取了精神分裂癥患者與正常人的語音強度差異信息。圖3(a)表示正常人與精神分裂癥患者的IDS差異,情感的扁平化與頻域中頻譜幅度的波動有關。低頻帶中,精神分裂癥患者的頻譜幅度略低于正常人的頻譜幅度。由于正常人沒有言語障礙,發聲能力正常,能夠正確地表達出預期的情緒狀態,使得正常人的IDS的中高頻帶頻譜幅度高于精神分裂癥患者,精神分裂癥患者的情感淡漠癥狀較為明顯。圖3(b)表示精神分裂癥患者和正常人的MSA對比,正常人的情緒表達飽滿程度高于精神分裂癥患者。圖3(c)中,語音信號的SEC隨時間的變化而變化,情感的表征強弱與能量的大小有較強的聯系;正常人在閱讀指定的誘發情感的文本時,情感表達的強弱正常輸出,在語義能夠表現情感的語音數據上,正常人的語音會出現波動,能量有明顯的升高跡象;而精神分裂癥患者的情感淡漠,在語音的波動變化上體現較小,精神分裂癥患者的語音能量一直處于一種較為平緩的水平,情感無強烈的波動,情緒的表達相對于正常人語音的強度減弱。

圖3 3個維度特征在精神分裂癥患者與正常人中分布差異
2)MDSF特征的二維及三維參數的直觀結果的分析
本文提出的MDSF特征的二維、三維參數在精神分裂癥患者與正常人中的大小分布差異如圖4所示,其中圖4(a)~圖4(c)是精神分裂癥患者與正常人的3個二維MDSF特征的差異分布的箱線圖,其中,每一個箱線圖上方和下方的短線條“-”對應的縱坐標為上邊緣和下邊緣,箱線圖中間的線條對應的是中位數,“+”號表示異常值。圖4(d)是精神分裂癥患者與正常人的三維MDSF特征值的差異分布。對比于二維MDSF特征,三維MDSF特征提高了精神分裂癥患者與正常人的差距范圍,為SVM分類提供更高的分類準確率。

圖4 MDSF特征在精神分裂癥患者與正常人中分布差異
2.2.2 本文提出的MDSF與國內外現有技術的對比實驗
近年來國內外學者致力于研究精神分裂癥與正常人在語音信號表達上的差異,并探究了LPC[19]、基頻[23]、平均能量[23]、MFCC[23]等國內外現有技術對精神分裂癥陰性癥狀的識別效率。針對本實驗的數據,本文對基頻、平均能量、LPC、MFCC等語音特征進行了分類正確率測試,測試結果見表3。
從表3得出,國內外現有技術中正常人與精神分裂癥的自動分類正確率范圍為68.9%-81.5%,而本文提出的多維度情感扁平化空間域特征對精神分裂癥的正確率范圍為85.1%-89.1%,提高了國內外現有技術的精神分裂癥識別率,具有良好的精神分裂癥檢測效果。

表3 國內外語音特征與三維MDSF的分類正確率對比
本文利用改進的相關情感扁平化的時頻域語音特征映射到多維度空間,以此構建情感扁平化空間,并計算多維度情感扁平化空間域特征,突出了精神分裂癥患者情感淡漠導致語音變化少、韻律異常的特點。
實驗分別對28個精神分裂癥患者和28個正常對照組的語音樣本進行特征參數提取以及自動分類測試。分析了本文提出的不同維度MDSF特征對精神分裂癥與正常人的識別性能,以及對比分析了本文提出的MDSF特征與國內外現有技術的精神分裂癥識別正確率。經實驗驗證,本文提出的MDSF特征在三維情況下對正常人與精神分裂癥的自動分類正確率為89.1%,高于低維度MDSF特征及國內外現有技術的分類正確率,實現了精神分裂癥患者以及正常人的自動分類檢測。說明了本文提出的多維度情感扁平化空間域特征對精神分裂癥患者陰性癥狀的自動分類檢測具有作用。