基于語音音調域動態特征的精神分裂癥自動檢測算法

2022-09-06 13:17:10孟雨璇鄧麗華李元媛

計算機應用與軟件 2022年8期

孟雨璇袁尉李雯鄧麗華何凌李元媛

1(四川大學電氣工程學院四川成都 610065)2(四川大學華西心理衛生中心四川成都 610065)

0 引言

精神分裂癥是一種行為、思維、情感和認知等出現異常的腦部精神疾病[1]，至今其發病機制及病因還未有公認的解釋，且其發病率高、病程長、治愈率較低[2]，給患者家庭和社會造成嚴重影響。精神分裂癥陰性癥狀常出現于精神分裂癥前驅期[3]，由于癥狀本身常常表現輕微，較容易被忽略，因此陰性癥狀的評估是精神分裂癥診斷的重點[4]。

精神分裂癥陰性癥狀患者的腦結構異常，大腦功能失調[5]，且腦室結構非特異性變化[6]。同時，其精神功能的減退或缺失導致思維貧乏、意志活動減退、情感淡漠，進而使語言表達的范圍和變化程度受到抑制[7]。患者在說話時語音音調變化較小，語調表達受限。因此，語音信號的音調參數可作為精神分裂癥陰性癥狀診斷的客觀生物學指標[8]。

研究證實精神分裂癥陰性癥狀的患者存在獨特語音音調特征。Leitman等[9]的研究表明，精神分裂癥患者的情緒識別能力與低水平音調特征有很強的相關性。Stein[10]對比研究精神分裂癥、躁狂癥、短暫反應性精神病患者的語音特征，發現精神分裂癥患者存在音調范圍狹窄等方面的變化。Alpert等[7]的研究表明，情感扁平化的精神分裂癥患者在說話時音調變化較小。Francesco等[11]發現音調和共振峰的變化程度降低與陰性癥狀相關。

目前，基于語音信號聲學特征分析的精神分裂癥自動檢測算法仍處于起步階段。Püschel等[12]采集45例精神分裂癥患者及45例正常人的自由表達語音樣本，提取基音頻率、平均能量、表達時間長度等6個相關聲學參數來區分患者及正常人，正確率達到了85.6%。Chakraborty等[13]對52位患者及26位正常人的語音信號進行研究，提取了基音頻率、能量、MFCC等聲學特征，結合SVM、隨機森林等多個分類器，實現精神分裂癥自動檢測，正確率達85%。Rapcan等[14]對精神分裂癥患者的語音信號進行聲學分析，提取音調、能量、時長特征，結合LDA分類器實現精神分裂癥自動檢測，準確率達到79%。目前，國內外研究對語音聲學參數在精神分裂癥自動診斷的應用較少，且在精神分裂癥患者音調聲學參數的研究僅限于基音頻率F0及其簡單統計參數，還需要不斷地深入探討。

近年來，深度學習被大量應用于語音信號處理領域[15-16]，然而深度學習在病理語音檢測領域的應用難以得到迅速發展，這主要由于病理語音數據庫獲取難度大，使得病理語料庫的數據量存在局限[15]。目前部分研究學者將深度神經網絡(Deep Neural Networks,DNN)和卷積神經網絡(Convolutional Neural Networks,CNN)應用在病理語音自動檢測中。Chlasta等[17]從2 568段語音樣本(包括720段抑郁癥患者語音樣本及1 848段正常語音樣本)中提取語譜圖特征，輸入到CNN進行抑郁癥自動檢測，正確率達77%。López-De-Ipia等[18]采集20個阿爾茲海默病患者和50個正常人的訪談記錄(每人錄制8～12小時)，從采集到的語音數據中提取情感特征，結合DNN網絡進行阿爾茲海默病自動檢測，其分類正確率達97%。Warnita等[19]使用Pitt語料庫中的6 267段語音樣本(其中包括3 276段阿爾茲海默病患者語音和2 991段正常語音)，提取語音時間相關特征，使用CNN自動檢測阿爾茲海默病，其正確率達73.6%。Huang等[20]從CPSD數據庫的307段自閉癥患者語音和1 651段正常人語音中，提取基頻、能量等基本特征，結合DNN網絡實現自閉癥患者語音和正常語音的分類檢測，正確率達92.9%。Harar等[21]針對SVD數據庫的687位正常人與1 356位病理嗓音患者的語音數據，使用DNN和長短時記憶網絡(Long Short-term Memory Networks,LSTM)進行正常和病理嗓音信號分類，正確率為68.08%。深度學習模型需要大量的數據用于訓練[15]，目前阿爾茲海默病[22]、抑郁癥[23]及病理嗓音[24]等語料庫發展成熟，已較為完善，部分研究學者逐漸將深度學習的分類模型應用于該類病理語音的自動檢測[25]。而精神分裂癥臨床樣本獲取難度大，還未形成較為完善的語料庫，無法做到大樣本的訓練與學習。SVM(Support Vector Machine)是一種典型的適用于二分類問題的分類器[26]，它根據結構風險最小化原則，在保證分類間隔最大的條件下尋找最優分類面[27]。且SVM分類器在小樣本條件下具有高識別性能和強泛化能力[28]，目前SVM分類器仍被大量應用于病理語音二分類的識別中[29-31]。

本文基于精神分裂癥患者的語音音調特點，通過頻率覆蓋度量和子帶編碼模型的基頻提取算法，結合語音信號的音調波動曲線及其峰谷值輪廓曲線，提出FDS-set、EVR、PVPD、TFF音調域動態特征，結合SVM分類器，實現精神分裂癥患者語音和正常人語音的自動分類檢測。本文提出的基于語音音調域動態特征的精神分裂癥自動檢測算法，為臨床醫生提供客觀的輔助診斷方法，具有重要的醫學臨床意義。

1 算法簡介

目前已有臨床研究表明，精神分裂癥陰性癥狀患者腦結構異常，導致思維渙散、情感表達淡漠且扁平化[32]。患者交流時話語表達鈍化，語音音調受到局限，具有平緩的語音音調特征[33]，即音調單一、音域范圍狹窄且音調變化較小[34]。語音音調的聲學分析能夠為精神分裂癥數字化輔助診斷提供客觀依據[14]。漢語是一種有調語言，音調是其重要語音特征，研究[35]表明漢語普通話的音調主要體現在基音頻率曲線上。本實驗基于精神分裂癥患者的語音音調特征，提出音調域動態特征，實現基于語音信號分析的精神分裂癥自動檢測。

如圖1所示，本文提出的基于語音音調域動態特征的精神分裂癥自動檢測算法，由三個主要算法模塊組成。首先，基于頻率覆蓋度量和子帶編碼模型進行語音基音頻率提取，即對分幀后的語音信號進行子帶分解，再用子帶編碼模型對子帶信號進行處理，并根據其歸一化自相關函數計算基音頻率；其次，基于每個語音音調波動曲線的一階、二階差分序列，提出FDS-set、EVR、PVPD、TFF音調域聲學動態特征參數；最后，根據本實驗計算所得的音調域動態特征集，結合SVM分類器對精神分裂癥患者與正常對照組的語音進行自動分類識別。

圖1 基于語音音調域動態特征的精神分裂癥自動檢測算法流程

1.1 基于頻率覆蓋度量和子帶編碼模型的基頻提取算法

精神分裂癥陰性患者思維斷裂、話語可變性小、情感的表達受到削弱，導致其語音具有扁平的音調特點，即患者交流時缺乏音調多變性且音域狹窄[10]。基音頻率是人發濁音時聲帶振動的頻率[36]，是有調語音漢語的重要特征參數，基頻隨時間變化的曲線反映音調變化情況。

目前語音基頻提取的研究集中于時域及頻域方法。其中時域方法基于語音信號的時域波形，計算自相關函數、互相關函數或平均幅度差函數等，將其波形峰谷值對應的時延作為基音周期估計值[37-39]。而頻域方法基于語音頻譜的諧波結構，并且根據其對應的特征來提取基頻，比如諧波乘積頻譜[40]、次諧波求和[41]、基于小波的瞬時頻率[42]或次諧波與諧波比[43]等。然而，大多數現有方法可以在絕對安靜的環境中完成可靠的基頻提取，但一些噪聲擾動會破壞時域信號的周期模式或信號頻譜的諧波結構，從而顯著降低性能[44]。

本實驗使用文獻[45]中提出的基于頻率覆蓋度量和子帶編碼模型的基音頻率提取算法。該算法能夠數字化地劃分各子帶頻率及子帶數目，其中基于子帶編碼模型得到的自相關系數具有明顯的峰值，使得基音頻率提取的精度提高，該算法魯棒性好、抗噪性能強，有利于本實驗中語音數據的基頻提取，對精神分裂癥患者語音音調波動特征的進一步分析。該算法具體步驟是首先基于頻率覆蓋度量法則選擇濾波器參數，對每幀語音進行子帶分解，再對各子帶語音數據進行編碼，并計算編碼后子帶的歸一化自相關函數，最終由各子帶自相關函數波形得出基音頻率。

1.1.1基于頻率覆蓋度量的子帶分解算法

本實驗使用Gammatone聽覺濾波器組將語音數據分解為不同的子帶信號，其中濾波器數目以及子帶濾波器中心頻率的參數選擇決定語音信號分解產生的子帶數目及子帶波形，影響后續基音頻率的提取范圍[45]。目前基頻提取的研究中使用各種頻率尺度來分解語音信號，包括對數、Bark、ERB(Equivalent Rectangular Bandwidth)尺度，這些方法沒有明確數學公式的經驗性選擇。本實驗濾波器組參數的選取使用頻率覆蓋度量法則[45]，能夠數字化地計算任一采樣頻率下對應的濾波器數目及中心頻率。

(1)

(2)

式中：γ-1(·)為ERBS的逆變換函數；[fmin,fmax]表示基音頻率范圍。根據子帶濾波器中心頻率及帶寬提出頻率覆蓋度量的定義，其數學公式如下：

(3)

圖2 Gammatone濾波器響應曲線

子帶數量Nb可從式(1)-式(3)中推導如式(4)所示，可知頻率覆蓋度量為計算給定頻率范圍內的子帶數量提供了一種數字化方式。

(4)

1.1.2子帶編碼模型

(5)

(6)

該編碼模型基于聽覺感受器毛細胞突觸間隙的指數衰減的心理聲學研究提出[44,47]，同時模型的對稱性避免了后續步驟中自相關運算的偏差[48]。

1.1.3基頻提取

對編碼后的每幀子帶信號進行自相關處理，式(7)為第j幀的編碼子帶b信號的歸一化自相關系數(Normalized Auto-correlation Coefficients,NAC)。

(7)

dmin=fs/F0max

(8)

dmax=fs/F0min

(9)

(a) 子帶信號x(b)、半波整流后子帶信號及編碼后子帶信號xe (b) 對(a)中各信號計算歸一化自相關函數圖3 經過不同處理后的子帶信號及其歸一化自相關函數

1.2 音調域動態特征參數提取算法

精神分裂癥患者由于腦結構異常導致思維鈍化、渙散，情感較為平緩，語言表達受限，使得患者在講話時音調受到抑制，音調擾動的幅度和頻率小且變換緩慢[49]。本文基于精神分裂癥患者語音音調特點及音調波動曲線，提出音調域動態聲學特征參數提取算法，包括FDS-set、EVR、PVPD和TFF特征。音調域動態聲學特征參數能夠描述音調波動曲線的變化情況，反映受試者語音音域范圍及音調波動程度。

1.2.1基頻數字統計特征集FDS-set

精神分裂癥患者具有扁平音調的語音特點，本文根據基頻序列提取FDS-set，該特征集能夠反映基頻曲線的分布情況，提取音調波動曲線的變化情況及波動范圍。

(10)

式中：N表示基頻序列總個數。

(2) 基頻中位數F0median：該統計特征提取基頻數據的代表值，反映音調的中間水平，且該參數不受極端數值影響，其計算公式如下：

(11)

式中：F0′表示F0按大小排序后的序列。

(3) 基頻眾數F0mode：該統計特征為基頻序列中出現概率最大的數據，是音調數據統計分布上具有明顯集中趨勢點的數值，反映語音音調中最普遍出現的標志音調值。

(4) 基頻方差δ(F0)：該統計特征度量基頻與其數學期望之間的偏離程度，反映語音音調的離散程度及波動狀況，其計算公式如下：

(12)

(5) 基頻峰度G(F0)：該統計特征反映數據分布曲線的峰的尖度，度量數據分布的陡峭程度。G(F0)值越大說明數據越集中，尖頂峰度形態越明顯，反映音調分布更陡峭，其計算公式如下：

(13)

式中：μ4為四階中心距；σ為標準差。

(6) 基頻偏度γ(F0)：該統計特征度量基頻數據分布的偏斜程度和方向。|γ(F0)|越大表示數據分布的偏斜程度越大，反映被測者音調的偏斜及變化更大。其計算公式如下：

(14)

式中：μ3是三階中心距。

(15)

1.2.2EVR特征提取算法

精神分裂癥陰性癥狀患者溝通存在障礙，講話時消極的思維情感導致語音音調受到抑制，音域范圍狹窄，削弱了音調的表達[50]。語音音調范圍即音域[51]，反映了說話人在說話過程中的音調及情感的起伏程度。基于精神分裂癥患者的音域狹窄特征，本文提出EVR特征提取算法，其算法過程如下。

基于頻率覆蓋度量和子帶編碼模型對語音數據進行基頻提取，得到音調波動曲線F0如圖4所示。

圖4 基于頻率覆蓋度量和子帶編碼模型的音調波動曲線F0

將語音段基于頻率覆蓋度量和子帶編碼模型得到的F0曲線作升序變換，得到升序變換曲線F0sort，并對升序變換后的序列F0sort提取其上下十分位數。圖5為升序變換序列F0sort，其中虛線標記其上下十分位數。

圖5 音調波動曲線F0的升序變換序列F0sort

根據所求音調曲線的升序變換序列，以及其上下十分位數間的距離，提出EVR特征參數，其計算公式如下：

(16)

式中：fn為幀數；F0為一段語音數據的音調波動序列；sort{·}為升序變換函數。

EVR參數反映了音調波動曲線中80%的數據離散程度，表征受試者音域特征，其數值越小說明基頻越集中音域越狹窄，使精神分裂癥患者音域狹窄的特點在EVR參數的比較中得以凸顯。EVR參數與基頻極差(最大值與最小值之間的差)相比，排除了基頻數據上下10%的干擾突變點對計算音調分布區域的影響，能夠更穩健地反映語音段的音調分布范圍，表征音域特征。

1.2.3PVPD特征提取算法

研究發現具有情感扁平化的精神分裂癥患者在交流時多使用單一音調，且患者的情感鈍化使得其在交談時音調變化程度小，音調擾動被削弱[11]。基于以上特點，本文提出PVPD特征參數提取算法，其算法過程如下。

首先，根據頻率覆蓋度量和子帶編碼模型提取語音音調波動曲線F0，求出F0曲線上連續的零交叉點。并在零交叉點集合中提取音調局部峰值及音調局部谷值的延遲量kn、km，其計算公式如下：

(17)

(18)

式中：kn-、kn+表示F0(k)的連續零交叉點。

其次，根據音調局部峰谷值的延遲量kn、km，結合沖激函數與音調波動曲線F0，得出音調峰谷值輪廓F0up、F0down，其計算公式如下：

(19)

(20)

式中：K1{kn|n=0,1,…}，K2{km|m=0,1,…}；δ(·)表示沖激函數。圖6為音調波動曲線F0，其中點劃線及虛線分別表示音調峰值輪廓F0up、音調谷值輪廓F0down。

圖6 音調波動曲線F0及音調峰谷值輪廓F0up、F0down

最后根據音調波動的峰谷值輪廓曲線F0up、F0down，計算兩曲線與基頻均值F0mean的距離，如圖7中虛線所示。PVPD特征即為所求距離的均值，其計算公式如下：

(21)

圖7 音調峰谷值輪廓F0up、F0down及其與均值的間距

PVPD特征針對精神分裂癥陰性癥狀患者的音調特征，提取基頻波動的音調局部峰值曲線及音調局部谷值曲線，度量音調整體波動范圍與基頻標準值間距，定量化表征音調曲線變化的幅度及范圍，突出精神分裂癥患者的語音音調變化小的特征，使得自動分類時與正常人音調特征得以區分。

1.2.4TFF特征提取算法

精神分裂癥陰性癥狀患者情感淡漠思維不連貫、渙散，聲音的表達存在異常，即缺乏語調變化，音調的可變性較小[14]。基于精神分裂癥患者的語音存在音調波動小的特點，本文提出TFF特征參數提取算法，其算法過程如下。

首先，基于頻率覆蓋度量和子帶編碼模型提取一段語音數據的音調波動曲線F0，并對語音F0曲線提取音調局部峰值輪廓F0up。圖8實線表示語音音調波動曲線F0，虛線表示局部峰值輪廓曲線F0up。

圖8 音調波動曲線F0及音調峰值輪廓F0up

根據語音音調峰值輪廓曲線F0up的差分序列，計算F0up曲線的連續零交叉點，得到F0up局部峰值的延遲量，其數學公式如下：

(22)

式中：kl-、kl+是F0up(k)的連續零交叉點。圖9中加粗標記部分為音調峰值輪廓F0up(k)的上升部分，其中每條加粗線段末端即為所求變化點k1處。

圖9 音調峰值輪廓線F0up的上升及下降部分

最后計算音調峰值輪廓F0up(k)的變化點出現次數，再根據語音段樣點數得出單位時間內變化點出現的次數，即為TFF特征，其計算公式如下：

(23)

式中：kl為音調峰值輪廓峰值的延遲量。

TFF特征參數是單位時間內語音段音調波動的峰值輪廓曲線的變化次數，該特征基于精神分裂癥陰性癥狀患者語音音調變化少的特征，定量化地表征音調曲線的變化頻率，反映受試者交流過程中語音音調的波動程度。

1.3 SVM分類器

本文中的數據樣本有兩類：正常對照組語音和精神分裂癥患者組語音。SVM是一種適用于二分類問題且具有良好魯棒性的分類器，它通過在特征空間中尋找最優超平面，使得樣本分割在平面兩側且兩類樣本間隔最大化。SVM分類器在進行模型訓練時，會不斷根據輸入的特征參數進行超平面的調整，因此SVM分類器在二分類識別中對樣本具有很好的魯棒性，適用于本實驗中基于語音音調域動態聲學特征參數，對精神分裂癥患者與正常人的自動分類檢測。

2 實驗結果與分析

2.1 實驗數據

本文測試語音數據來自于四川大學華西心理衛生中心精神科，由28位精神分裂癥患者(18女10男)和28位正常人(18女10男)參與錄制，共448條語音數據。本文采集的語音樣本的采樣率為44 100 Hz，采樣精度為16 bit。語音信號在分幀處理時選取的幀長為25 ms，幀移為10 ms。

2.2 本文算法的實驗結果及分析

精神分裂癥患者思維渙散及情感扁平化，多表現為說話時音調表達受限，語音音調單一、音域狹窄、音調變化小且緩慢。本文提出的基于語音音調域動態特征的精神分裂癥自動檢測算法，對語音樣本提取了基音頻率序列F0，再根據F0及音調局部峰谷值曲線提取FDS-set、EVR、PVPD、TFF特征參數。最后，將音調域動態聲學特征參數集結合SVM分類器，對采集到的實驗語音數據集采用留一交叉驗證(leave-one-out cross-validation)，實現精神分裂癥患者語音與正常語音的自動分類檢測。

實驗使用識別正確率、MR(Miss Rate)、FAR(False Alarm Rate)、AUC(Area Under Curve)參數來評估精神分裂癥自動檢測系統性能。其中MR(%)為未命中率，表示被算法誤識別為正常語音的精神分裂語音占所有精神分裂語音的比例，FAR(%)為誤報率，表示被算法誤檢測為精神分裂語音的正常語音占所有正常語音樣本的比例，AUC為ROC曲線(receiver operating characteristic curve)下的面積，是衡量分類器優劣的一種評價指標。表1為本文提出的基于語音音調域動態特征的精神分裂癥自動檢測算法的檢測結果。

表1 基于語音音調域動態特征的精神分裂癥自動檢測算法實驗結果

可以看出，本文提出的音調域動態特征在精神分裂語音自動分類檢測的正確率較高。其中，EVR、PVPD、TFF特征在精神分裂癥患者語音分類識別的正確率比FDS-set的識別正確率高。本實驗將參數合并后的正確率比應用單個特征時的正確率稍有提高，這是由于每個參數都分別表示了語音音調的不同特征，合并參數后能夠更完整、顯著地體現精神分裂癥患者的語音音調特征。

(d) δ(F0)2 (e) G(F0) (f) γ(F0)圖10 正常語音與精神分裂語音的FDS-set各參數

圖11為正常語音與精神分裂癥患者語音的EVR參數值箱型圖。可以看出，患者語音EVR特征值整體上低于正常語音EVR特征值，表明相較于正常人語音音域，精神分裂癥患者的語音音域范圍小，反映了精神分裂癥患者語音音域狹窄且音調單一的特點。由于EVR參數穩健地反映受試者講話時音調的波動范圍，與語音音域概念相符，能夠表征精神分裂癥患者語音音域狹窄的特點，適用于精神分裂癥自動檢測。

圖11 正常語音與精神分裂語音的EVR值

圖12為正常人與精神分裂癥患者語音的PVPD參數值箱型圖。可以看出，相比于正常人的PVPD值，精神分裂癥患者PVPD值在整體上較小，分布范圍較窄，表明音調曲線的波動較小，曲線偏離均值的程度較小，反映了精神分裂癥陰性癥狀患者在說話時音調變化少且單一的特點。由于PVPD特征為音調峰谷值輪廓與基頻均值間的距離，反映音調曲線的波動程度，進一步表明精神分裂癥患者在說話時音調變化少的特點。

圖12 正常與精神分裂語音的PVPD值

圖13為正常語音與精神分裂患者語音的TFF值箱型圖，可以看出精神分裂癥患者語音的TFF特征值小于正常語音TFF特征值。TFF特征值越小表明一段語音內音調輪廓曲線變化頻率越低，反映出相較于正常人，精神分裂癥患者音調變化少。由于TFF特征是單位時間內語音音調曲線的變化次數，反映音調曲線的變化頻率，能顯著地體現精神分裂癥患者語音音調單一平淡、變化小的特點。

圖13 正常語音與精神分裂語音的TFF值

2. 3 本文使用的SVM分類器與多種深度學習分類算法的對比實驗結果及分析

近年來深度學習分類算法逐漸應用于病理語音自動檢測領域，由于病理語音數據庫樣本獲取難度的限制，其應用發展較緩[52]。本實驗將本文使用的SVM分類器與DNN、LSTM、CNN多種深度學習分類模型進行了對比實驗。其中，SVM、DNN、LSTM分類模型以本文提出的音調域動態聲學特征參數集作為輸入，CNN分類模型以原始語音數據的語譜圖作為輸入，實現精神分裂癥語音的自動檢測，其對比實驗的結果如表2所示。

表2 不同分類算法在精神分裂癥自動檢測的對比實驗結果

可以看出，使用SVM進行精神分裂癥患者語音與正常語音分類的正確率為88.39%，使用LSTM、DNN、CNN的分類正確率在81.82%～86.16%。由于精神分裂癥語音數據采集的難度限制，精神分裂癥患者語音的臨床樣本較少，尚未有成熟的精神分裂癥患者語料庫，無法做大樣本的訓練與學習，而深度學習在大樣本數據集上具有較高的識別精度[53]，在數據集有限的情況下容易過度擬合，影響檢測效果[54]。SVM分類器適用于二分類問題，在特征空間中尋找最優分類面，使兩類樣本的分類間隔最大。且SVM分類器計算簡單，在解決小樣本的實際問題中具有良好的魯棒性和強泛化能力[55]，SVM分類器更適用于小樣本問題，在本實驗中精神分裂癥自動檢測的正確率高于其余分類模型。

2.4 本文算法與國內外現有技術的對比實驗結果及分析

語音聲學分析在精神分裂癥自動檢測的應用仍處于起步階段。目前國內外研究采用基頻LLD(low-level descriptors)、短時能量、共振峰及MFCC特征應用于精神分裂癥的自動診斷。為了驗證算法的有效性，實驗將本文提出的音調域動態特征與國內外現有技術中提出的語音特征進行了對比實驗，其測試結果如表3所示。

表3 本文算法與國內外現有技術的對比實驗結果

可以看出，本文算法的檢測正確率為88.39%，國內外現有技術檢測正確率的范圍為64.29%～77.68%。基頻LLD為基頻及其差分的最大值、最小值、最大值及最小值的延遲量、均值、極差、標準差、峰度、偏度、四分位數的集合，而基頻的均值、最大最小值等參數與個體差異(年齡、性別等)有關，難以表征精神分裂癥患者的音調特點。共振峰參數能夠在識別漢語聲調時起到一定的作用，但單獨依靠共振峰識別漢語聲調的識別率較低[57]，所以共振峰參數并不能顯著地反映漢語精神分裂癥患者的語音音調特點。MFCC參數與語音情感相關，在一定程度上能夠反映說話人情感表達[58]，但由于MFCC難以全面描述精神分裂癥陰性癥狀患者的情感特點，所以識別率較低。短時能量能反映語音信號能量的變化和能量分布情況[59]，但是因為短時能量是一個存在個體差異的參數，與人的性別、年齡等因素有關，這些不可控因素會影響精神分裂癥語音的檢測結果。

本文基于精神分裂癥患者發音過程及聲學特性，提出基于語音音調域動態特征的精神分裂癥自動檢測算法。本文通過對每一段語音數據計算音調波動曲線，并對該曲線提取FDS-set、EVR、PVPD、TFF音調域動態聲學特征參數，突出體現語音信號的音調波動情況，反映精神分裂語音與正常語音在音調特征表達的區別。

3 結語

為了提供精神分裂癥陰性癥狀臨床診斷的客觀生物學指標，實現精神分裂癥自動分類檢測，本文通過計算語音信號的音調波動曲線，提取語音的FDS-set、EVR、PVPD、TFF音調域動態聲學特征參數，這些特征突出了精神分裂癥語音與正常語音在音調特征分布上的差異。實驗從精神分裂癥語音與正常語音在音調上的差異出發，提取音調域動態聲學特征參數，并結合SVM分類器，實現了精神分裂癥語音的自動檢測。實驗進一步討論了音調的FDS-set、EVR、PVPD、TFF特征參數分別對分類結果的影響，以及國內外現有技術提出的多種語音特征對精神分裂癥語音的自動分類檢測的效果。實驗結果表明，音調域動態聲學特征參數在精神分裂癥自動檢測的正確率為88.39%，對精神分裂癥的臨床輔助診斷具有一定的應用價值。