李國中,崔婭,俄木依欣,何凌,李元媛,熊熙
(1.四川大學電氣工程學院,成都 610065;2.四川大學華西醫(yī)院心理衛(wèi)生中心,成都 610065;3.成都信息工程大學網絡空間安全學院,成都 610225)
注意缺陷與多動障礙(Attention Deficit/Hyperactivity Disorder,ADHD)簡稱多動癥,是一種神經發(fā)育問題,在兒童和青少年時期最為常見。研究[1-2]表明,國際上的平均患病率估計為7.2%,我國兒童和青少年ADHD 總體患病率達到6.26%。在成長過程中,ADHD 患兒可能會有多種共患病問題,如人格障礙、孤獨癥譜系障礙、焦慮障礙、雙相情感障礙等[3],面臨各種人格發(fā)展不正常的風險[4],對自己和社會都有傷害[5-6]。
目前,ADHD 檢測主要依靠臨床醫(yī)生通過臨床訪談、行為及功能評估進行綜合診斷,該診斷方式需要依靠相應的評定量表。臨床上應用最多的評定量表有Conner 評定量表(父母癥狀問卷(Parent Symptom Questionnaire,PSQ)、教師評定量 表(Teacher Rating Scale,TRS))、Swanson,Nolan and Pelham Rating Scale(SNAP)評定量表(SNAP-Ⅲ-R、SNAP-Ⅳ)和精神障礙診斷與統(tǒng)計手冊(Diagnostic and Statistical Manual of Mental Disorders,DSM)評定量表(DSM-Ⅲ-R、DSM-Ⅳ)[7]等,國內ADHD 常用評定量表種類有限,經過心理測量學分析的量表少,評估共患疾病和功能損害的量表稀缺[8],且這種診斷方式幾乎全部依賴于醫(yī)生的評估,受主觀影響大,缺乏客觀的評判指標,而首次評估需0.5~2 h 不等,診斷的耗時長、效率低。全球均存在兒童精神專業(yè)醫(yī)生從業(yè)人數(shù)嚴重不足和分布集中在發(fā)達城市的狀況,需要智能的輔助診斷方法,提高醫(yī)生的工作效率。
目前有基于腦部信息、身體動作及眼球運動的ADHD 輔助診斷方法。
基于腦部信息的ADHD 輔助診斷 ADHD 患者大腦額葉區(qū)、基底節(jié)等部位結構異常,腦電圖顯示ADHD 患者θ 或σ慢波增強,慢波增強可能與神經代謝緩慢或大腦的延遲發(fā)育有關,Khaleghi 等[9]通過比較五種特征在ADHD 診斷中的功效,證實了腦電非線性分析是檢測ADHD 患者腦電活動異常的良好定量工具,Tang 等[10]使用大腦功能連接作為ADHD 特征分析的材料,基于能量的比較診斷ADHD 患者。
基于身體動作的ADHD 輔助診斷 ADHD 患者多動是其主要癥狀,Munoz-Organero 等[11]基于腕關節(jié)和踝關節(jié)加速度信號用遞歸神經網絡比較ADHD 患兒和正常兒童的運動模式,結果顯示ADHD 患兒與正常兒童的運動模式顯示出較大差異,Nakatani 等[12]使用視頻成像研究患有和不患有ADHD 的兒童睡眠期間的身體運動,發(fā)現(xiàn)兩者身體運動存在差異,研究表明可以使用視頻圖像處理診斷患有多動癥的兒童。
基于眼球運動的ADHD 輔助診斷 注意力不集中是ADHD 患者的主要臨床癥狀,眼球會隨注意力的改變而相應運動,Levantini 等[13]通過眼睛跟蹤方法證明ADHD 患者花更多的時間注視不相關的感興趣區(qū)域,眼動跟蹤為臨床醫(yī)生識別特定的生物標志提供了潛在的有效支持;Jayawardena等[14]利用實時高級眼動分析管道(Real-time Advanced Eye Movements Analysis Pipeline,RAEMAP)實時提供計算出的眼睛凝視度量、熱圖來診斷ADHD,證明了其有效性。
基于腦部信息差異、身體動作和眼睛動作的方法,能輔助醫(yī)生診斷ADHD 患者,但數(shù)據(jù)采集時需要專業(yè)人員使用專業(yè)設備,設備操作難度高且耗時多,相對而言語音數(shù)據(jù)采集時設備簡單易操作且所需時間少。
研究表明,精神類疾病的病理學指標與語音參數(shù)密切關聯(lián),語音參數(shù)可以作為客觀有效的臨床評估指標[15],語音作為有效的生物學指標,為抑郁癥、精神分裂癥、雙相情感障礙等精神類疾病的自動診斷提供了重要依據(jù)[16],ADHD 患者語言表達執(zhí)行功能存在缺陷[17],語音回路損傷,語音可作為ADHD 識別的有效生物學指標。ADHD 患兒在轉化任務中右側下額葉的功能顯著受損,以及左側基底節(jié)和扣帶回的特異性功能異常[18],任務轉換時有停滯現(xiàn)象,朗讀文章時字句轉換之間出現(xiàn)長時間的停頓;持久性任務中ADHD 患兒注意力缺乏持久性[19],容易受外界或自己干擾而分心,讀文章時因分心會打斷自己閱讀過程,出現(xiàn)異于正常兒童的停頓;語言內化過程中ADHD 患兒語言內化的執(zhí)行功能缺損[20],還會伴隨著發(fā)育性語言障礙,將腦中文字轉換成語音說出過程受到抑制,故說話時語音頻率變化與正常兒童存在差異。
本文基于ADHD 患兒語音停頓異常和頻率變化異常特點,提取語音停頓度表征語音停頓異常;提取倍頻率平坦度特表征語音頻率變化異常,結合支持向量機(Support Vector Machine,SVM)分類器實現(xiàn)ADHD 的自動檢測。本文提出的基于語音停頓度和音調平坦度的ADHD 自動檢測算法,為臨床醫(yī)生提供客觀的輔助診斷方法。
ADHD 的核心癥狀包括注意缺陷、活動過多,與行為沖動。ADHD 的3 個核心癥狀中活動過多和行沖動兩種癥狀會隨著患兒成長而減弱甚至消失,但約30%的ADHD 患兒到成年后注意缺陷癥狀也依然存在[21],注意缺陷癥狀的長期監(jiān)測與輔助監(jiān)測具有重要臨床意義。注意缺陷癥狀在臨床上的主要表現(xiàn)為注意力不集中和語言內化功能缺損:注意力不集中表現(xiàn)為難以集中精力在閱讀文本上,朗讀時出現(xiàn)停頓異常;語言內化功能缺損表現(xiàn)為腦中文字轉化語音過程受損,語音上表現(xiàn)出語音頻率異常。
本文基于ADHD 患兒語音停頓和音調異常的臨床特征表現(xiàn),提出語音停頓度和音調平坦度特征參數(shù),結合分類器,實現(xiàn)基于語音的ADHD 自動檢測,其算法流程如圖1 所示。該算法由三部分組成:首先,提出頻帶差能熵積(Frequency band Difference Energy Entropy Product,F(xiàn)DEEP)參數(shù),實現(xiàn)有話區(qū)間的自動定位,并提取停頓度聲學特征;然后,提出變換平均幅度平方差(Transform Average Amplitude Squared Difference,TAASD)參數(shù),計算語音信號倍頻率,并提取平坦度聲學特征;最后,將提取的停頓度特征與平坦度特征參數(shù)融合,結合SVM 分類器,實現(xiàn)基于語音的ADHD 自動檢測。

圖1 基于語音停頓度和倍頻率平坦度的注意缺陷與多動障礙自動識別算法流程Fig.1 Flowchart of automatic recognition algorithm for attention deficit/hyperactivity disorder based on speech pause and multi-frequency flatness
注意力不集中是ADHD 注意缺陷癥狀的主要臨床特征之一。ADHD 患兒不僅容易因為外界環(huán)境而分心,也會因為自己內心的想法而分心[22],語音上表現(xiàn)出停頓時間長和停頓次數(shù)多的特點。本文基于此臨床聲學特征,提出基于語音頻帶差能熵積FDEEP 參數(shù)的停頓度聲學特征提取,其算法流程如圖2 所示。

圖2 基于語音FDEEP參數(shù)的停頓度聲學特征提取算法流程Fig.2 Flowchart of acoustic pause feature extraction algorithm based on speech FDEEP parameter
1.1.1 基于頻帶差能熵積參數(shù)FDEEP 的有話區(qū)間自動定位算法
頻譜域中語音有話區(qū)間能量數(shù)值大,能量隨頻帶起伏變化大;無話區(qū)間能量數(shù)值小,能量在頻帶內均勻分布。最大離散熵定量表明,當熵函數(shù)等概分布時,熵達到極大值,無話區(qū)間歸一化譜概率密度函數(shù)分布均勻,故其譜熵值大;有話區(qū)間頻譜具有共振峰特性,歸一化普概率密度函數(shù)分布不均勻,其譜熵值小于無話區(qū)間。頻帶幅值標準差參數(shù)反映能量隨頻帶變化的起伏程度;子帶能熵比表示有話區(qū)間和無話區(qū)間能量和譜熵比值的差異,結合頻帶幅值標準差和子帶能熵比,本文提出頻帶差能熵積特征參數(shù),再結合雙門限閾值法,實現(xiàn)語音有話區(qū)間的自動定位。
1)頻帶幅值標準差參數(shù)提取。
設語音時域信號為x(n),加窗分幀處理后的第i幀語音信號為xi(n),離散傅里葉變換后得其頻譜為:

式中:0 ≤k≤N-1,N為分幀后幀長。
頻譜幅值的均值Ei為:

得到第i幀語音信號xi(n)頻帶幅值標準差σi為:

2)子帶能熵比參數(shù)提取。
頻譜域中第i幀語音信號為Xi(k),其能量為:

正頻率部分歸一化譜概率密度函數(shù)為:

式中:N為幀長,k=0,1,…,N/2。
每幀信號正頻率部分譜熵為:

子帶化思想是將一幀信號分成若干個子帶,這樣能消除每一條譜線幅值受噪聲的影響。設每幀信號分割成q個子帶,每個子帶有p條譜線,第i幀信號中第m個子帶的能量為:

子帶能量的歸一化譜概密度函數(shù)為:

式中:K取正實數(shù),引入K后語音信號和噪聲信號區(qū)分度能得以提高。
由子帶能量的概率密度計算得到子帶譜熵:

由式(7)和式(9)計算得到子帶能熵比:

3)FDEEP 參數(shù)提取。
頻帶幅值標準差表征有話區(qū)間和無話區(qū)間能量隨頻帶變化差異;子帶能熵比表征有話區(qū)間和無話區(qū)間能量與譜熵比值的差異。頻帶差能熵積參數(shù)是頻帶標準差與子帶能熵比的乘積,計算如式(11)所示:

頻帶能熵積參數(shù)結合頻帶幅值變化和能熵比在有話區(qū)間和無話區(qū)間的特征,進一步增加有話區(qū)間能量隨頻帶變化程度和擴大有話區(qū)間與無話區(qū)間能量與譜熵比值的差異性,準確定位語音有話區(qū)間。
4)基于FDEEP 參數(shù)與自適應雙門限閾值法的語音有話區(qū)間自動定位。
先計算濾波平滑處理后FDEEP 參數(shù)的均值Mse和前導無話幀均值Ase:

式中NIS為前導無話幀數(shù)。
再設置自適應動態(tài)閾值,其計算公式如下:

式中:α、β均為正實數(shù)且α>β。
自適應閾值T1和T2由每段語音的FDEEP 參數(shù)求出,具有自適應能力,能提高有話區(qū)間提取魯棒性。
最后使用雙門限法實現(xiàn)有話區(qū)間自動定位,當FDEEP參數(shù)值大于閾值T1為有話區(qū)間,在FDEEP 參數(shù)與閾值T1交點處向左、右尋找至FDEEP 參數(shù)與閾值T2交點處,確定有話區(qū)間起始位置,即可自動定位有話區(qū)間。
1.1.2 停頓度聲學特征提取算法
本文提取停頓度特征參數(shù)集表征ADHD 患兒注意力不集中的臨床癥狀。該特征參數(shù)集包括最大停頓時長、平均停頓時長和停頓時間占比。
1)最大停頓時長:ADHD 患兒在認知轉換任務中左側額下回、雙側前腦島、殼核和蒼白球的激活降低[23],ADHD 患兒往往會在一個任務上停留一段時間,無法轉移到下一個任務,出現(xiàn)較長時間的停頓,提取最大停頓時長表示該特點。
最大停頓時長是所有停頓時長的最大值,計算公式如下:

式中:Ts1,Ts2,…,Tsn是語音中n個檢停頓區(qū)間的時長。
2)平均停頓時長:ADHD 患兒注意缺乏持久性容易分心,出現(xiàn)多次停頓,提取平均停頓時長表示該特征。
平均停頓時長為總停頓時間Tstop與語音停頓區(qū)間個數(shù)n的比值,計算公式如下:

3)停頓時間占比:ADHD 患兒停頓時間長和停頓次數(shù)多,語音停頓時間與語音總時間的比值與正常兒童存在差異,提取停頓時間占比表示該差異性。
停頓時間占比為語音總停頓時間與語音總時長的比值,如式(19)所示:

式中Ttotal為語音時長。
4)停頓度聲學特征參數(shù)集:

語言內化功能缺損是ADHD 注意缺陷癥狀主要臨床特征之一,ADHD 患兒伴隨著發(fā)育性語言障礙[24],其語音頻率變化異常。本文基于此臨床特征,提出基于語音TAASD 參數(shù)的倍頻率平坦度聲學特征提取算法,其流程如圖3 所示。

圖3 基于語音TAASD參數(shù)的平坦度聲學特征提取算法流程Fig.3 Flowchart of acoustic flatness feature extraction algorithm based on speech TAASD parameters
1.2.1 語音信號倍頻率參數(shù)提取算法
ADHD 患兒語音加工技能受損[25],語音基音頻率變化速率弱于正常兒童,本文提出語音信號倍頻率參數(shù),表征ADHD 患兒此臨床特征。
時域語音信號x(n)加窗分幀處理后第i幀語音信號是xi(n),幀長為N,其平均幅度平方差函數(shù)計算公式為:

式中k=0,1,…,N-1。
對平均幅度平方差參數(shù)做線性變換得到變換平均幅度平方差參數(shù)TAASD,變換公式如下:

式中:AASDi,max和ni,max是平均幅度平方差參數(shù)的最大值和最大值所對應位置樣點值。
尋找濾波平滑處理后的TAASD 參數(shù)極大值點位置,即可確定語音信號倍頻率,如圖4 所示是某男性ADHD 患兒和某男性正常對照兒童的語音信號倍頻率示意圖。

圖4 ADHD患兒與正常對照組的語音信號倍頻率Fig.4 Speech signal multi-frequency of ADHD patient and normal control
時域語音信號波形在時間軸上下波動呈一定的周期變化,TAASD 參數(shù)取語音信號加延遲量平方與語音信號平方差計算語音信號倍頻率,信號平方后幅值均為正,信號波形在時間軸上方變化,故信號周期減小,頻率與周期成反比,則信號頻率增大,ADHD 患兒語音加工過程抑制,其頻率變化與正常兒童間存在差異,倍頻率參數(shù)可實現(xiàn)語音信號頻率變化檢測,可由圖4 可以看出,ADHD 患兒語音倍頻率變化波動弱于正常對照組兒童,故倍頻率參數(shù)可實現(xiàn)ADHD 患兒和正常對照組兒童區(qū)分。
1.2.2 提出的平坦度聲學特征提取算法
本文提取平坦度特征參數(shù)集表征ADHD 患兒語言內化功能缺損的臨床癥狀。ADHD 患兒語音信號倍頻率值的平均高度和峰值處平均變化率都低于正常兒童,平坦度參數(shù)反映語音信號倍頻率起伏變化,該特征參數(shù)集包括倍頻率標準差、倍頻率離散系數(shù)和倍頻率峰度。
1)語音倍頻率標準差。該特征表示語音信號倍頻率參數(shù)的起伏程度,計算公式為:

式中:n為語音總幀數(shù),F(xiàn)ˉ0為語音倍頻率參數(shù)均值。
2)語音倍頻率離散系數(shù)。該特征表示語音信號倍頻率參數(shù)的離散程度,其計算公式為:

3)語音倍頻率峰度。該特征反映語音信號倍頻率參數(shù)分布曲線的峰尖度,度量倍頻率參數(shù)分布的陡峭程度,其計算公式為:

4)平坦度聲學特征參數(shù)集:

基于音語音信號分析的ADHD 患兒和正常對照組檢測問題,是典型的二分類問題。支持向量機處理二分類問題時,在特征空間中不斷改變超平面的位置,直到某個超平面使兩個類別間有最大間隔,實現(xiàn)兩類樣本的分離,具有良好的魯棒性,故本文使用SVM 分類器來實現(xiàn)ADHD 患兒與正常對照組的識別。
本實驗病理語音數(shù)據(jù)來自四川大學華西心理衛(wèi)生中心,華西生理衛(wèi)生中心具有權威的ADHD 診斷治療專家,對ADHD 患者的治療在我國西南地區(qū)處于領先地位。本文共采集54 位兒童語音樣本,每人3 段不同的語音,采樣頻率為44 100 Hz。采集語音時受試者均在安靜無外部干擾的環(huán)境中,且所有采集語音數(shù)據(jù)的兒童年齡在6~10 歲,無任何軀體疾病,智力正常。
54 位兒童中有17 位正常兒童和37 位確診為ADHD 的患兒,37 位確診ADHD 患兒中包含21 位服用多動癥藥物進行治療和16 位未開始服用多動癥藥物的兒童。所有ADHD 患兒的診斷均是根據(jù)國際通用的DSM-V 精神疾病診斷標準,結合患者病史、軀體和神經檢查、精神檢查、輔助檢查給予診斷。
為探究本文提取語音停頓度和倍頻率平坦度特征在識別不同兒童中的作用,將收集的54 位兒童語音樣本分為4 個子數(shù)據(jù)集,每個子數(shù)據(jù)集具體數(shù)據(jù)如表1 所示,其中NM 為正常對照組、NADHD 為未接受藥物治療的ADHD 患兒、RADHD 為接受藥物治療的ADHD 患兒。

表1 ADHD患者與正常對照組的語音樣本子數(shù)據(jù)集Tab.1 Speech sample sub datasets of ADHD patients and normal controls
ADHD 患兒的核心癥狀之一是注意缺陷,執(zhí)行功能研究發(fā)現(xiàn)ADHD 患兒任務轉換能力、抑制功能等異常[26],其中任務轉換功能異常是ADHD 患兒在文字間轉換有卡頓情況,進而閱讀時語音出現(xiàn)異常的停頓,提取語音停頓度表征語音異常停頓;抑制功能異常指ADHD 患兒腦中文字表達過程受到抑制作用,故其說話時語音頻率變化異于正常兒童,提取倍頻率平坦度表征語音頻率變化異常。兩個特征結合表示ADHD 患兒的注意缺陷癥狀,實現(xiàn)ADHD 患兒與正常對照組兒童區(qū)分。
本文將提取的語音停頓度和倍頻率平坦度特征,融合輸入SVM 分類器,實現(xiàn)ADHD 的自動檢測。SVM 分類器基于結構風險最小化的原理,理論基礎完善,可以在較高維度的空間中構造最優(yōu)分割超平面,使兩類樣本的分類誤差最小,且小樣本下SVM 分類器具有泛化能力強和識別性能高的優(yōu)勢,被廣泛地應用于病理語音的二分類識別中[27-29]。本實驗樣本數(shù)量屬于小樣本的范疇,故本文使用SVM 分類器實現(xiàn)ADHD 的自動檢測。實驗中還采用交叉驗證法尋找高斯核函數(shù)的最佳參數(shù),保證分類模型的穩(wěn)定和實驗結果的準確。在4 個子數(shù)據(jù)集上實現(xiàn)不同類別兒童的自動識別,實驗檢測結果均是與臨床醫(yī)生診斷的金標準對比。基于語音信號處理技術檢測精神疾病時,檢測結果均是在臨床醫(yī)生診斷的金標準下驗證[30-38],在醫(yī)學與工程結合的領域中,常采用與醫(yī)生注釋結果對比對算法進行評價,因此本文與華西心理衛(wèi)生專業(yè)醫(yī)生的金標準進行對比,使用正確率、特異性和靈敏度參數(shù)評估自動檢測算法的性能,具體識別結果如表2 所示。

表2 本文算法的ADHD自動檢測結果 單位:%Tab.2 ADHD automatic detection results of the proposed algorithm unit:%
由表2 實驗結果可以看到,本文提出的自動檢測算法在子據(jù)集1 上正常兒童和未接受藥物治療的ADHD 患兒的識別正確率為91.38%,在子數(shù)據(jù)集2 上正常兒童和接受藥物治療的ADHD 患兒的識別正確率為74.70%,在子數(shù)據(jù)集3上未接受藥物治療的ADHD 患兒和接受藥物治療的ADHD患兒的識別正確率為90.90%,在子數(shù)據(jù)集4 上正常兒童和所有ADHD 患兒的識別正確率為80.41%。
臨床上確診多動癥的兒童在閱讀陌生的課外文本時,往往比正常兒童出現(xiàn)更多的語音異常,但是已經服藥的多動癥兒童閱讀水平好轉率可達70%,雖不能達到正常兒童的水平,但是明顯優(yōu)于自己未服藥的狀態(tài)。在數(shù)據(jù)集3 上,接受藥物治療的ADHD 患兒與未接受藥物的ADHD 患兒之間識別正確率高達90.90%,表明接受治療后ADHD 患兒語音停頓度特征和平坦度特征與未接受治療的ADHD 患兒間差異增大,兩類別間距增大,能構建出最優(yōu)超平面將兩者區(qū)分。
由表2 結果分析可知,本文提出的自動檢測算法對正常兒童與未接受藥物治療的ADHD 患兒識別正確率最高為91.38%,這表明本文的自動檢測算法提取的語音停頓度和平坦度特征能表征ADHD 患兒的臨床注意力分散和語音功能受到抑制的臨床癥狀;對正常兒童與接受藥物治療的患兒識別正確率最低為74.70%,這是因為ADHD 患兒接受治療后臨床癥狀得到改善,由臨床癥狀導致的語音異常現(xiàn)象就會得到緩解;語音異常停頓減少,停頓度特征空間中兩者間距變小,語音頻率變化差異減弱,平坦度特征空間間距也有所減小,故兩者區(qū)分效果變差。這與臨床上正常兒童與接受藥物治療的ADHD 患兒語音異常差異性大,而當ADHD 患兒接受治療后語音差異性就會減小相一致。
2.2.1 基于停頓度特征的ADHD自動識別算法結果與分析
ADHD 患兒注意集中任務執(zhí)行網絡中的多巴胺能神經元功能低下[39],不能集中注意力在閱讀的文本上,ADHD 患兒閱讀時語音出現(xiàn)異于正常兒童的停頓特征,本文提取停頓度表征ADHD 患兒語音的異常停頓。
停頓度特征包含最大停頓時長特征、平均停頓時長特征和停頓時間占比特征。圖5 是提出的停頓度聲學特征箱線圖,圖中NM、NADHD、RADHD 分別代表正常兒童、未接受藥物治療的ADHD 患兒和經接受藥物治療的ADHD 患兒。

圖5 語音停頓度特征箱線圖Fig.5 Box plots of speech pause features
ADHD 患兒在認知轉換任務中左側額下回、雙側前腦島、殼核和蒼白球的激活降低,ADHD 患兒往往會在一個任務上卡住,無法轉移到下一個任務,出現(xiàn)較長時間的停頓,如圖5(a)所示,未接受藥物治療的ADHD 患兒最大停頓時長特征的整體分布都高于正常兒童和已經接受藥物治療的ADHD 患兒;ADHD 患兒注意缺乏持久性容易分心,出現(xiàn)多次停頓,停頓次數(shù)增加平均停頓時長就越長,如圖5(b)所示,未接受藥物治療的ADHD 患兒的平均停頓時長特征均值大于正常兒童和已經接受藥物治療的ADHD 患兒;停頓時間占比與停頓次數(shù)和最大停頓時長呈正相關性,故停頓時間占比特征會隨著前兩個特征的增大而增加,如圖5(c)所示,未接受藥物治療的ADHD 患兒停頓時間占比特征的均值和整體分布都高于另外兩類兒童。
基于語音停頓度特征的ADHD 自動識別結果如表2 所示。從表2 可以看到,停頓度特征在數(shù)據(jù)集1 正常兒童與未接受藥物治療的ADHD 患兒間識別正確率高達92.76%,表明本文提取停頓特征可以表征ADHD 患兒在任務轉換過程中出現(xiàn)的停頓,實現(xiàn)ADHD 患兒臨床癥狀的檢測,進而將其與正常對照組兒童區(qū)分;在數(shù)據(jù)集2 正常兒童與接受藥物治療的ADHD 患兒間識別正確率僅為56.36%,這是因為藥物治療后ADHD 患兒閱讀注意力能夠集中在閱讀文本上,因注意力分散出現(xiàn)的停頓次數(shù)就會減少,平均停頓時長Vt和停頓時間占比Rt的值都會減小;閱讀時語句間的連接轉換速度加快,因轉換停滯出現(xiàn)的最大停頓時長Lt的值就會減小,ADHD 患者與正常對照組兒童間在停頓特征T空間中間距減小,難以實現(xiàn)有效分割,與臨床上接受藥物治療后ADHD患兒閱讀語音停頓異常減弱相一致。
2.2.2 基于平坦度特征的ADHD自動識別算法結果與分析
ADHD 患兒操作任務執(zhí)行網絡中大腦的前額葉皮質、前扣帶皮質、頂顳聯(lián)合區(qū)、海馬等神經纖維出現(xiàn)突變或損傷[40],語音執(zhí)行功能受到抑制,語音頻率變化異于正常兒童,本文提取倍頻率平坦度表征ADHD 患兒的頻率變化異常。
平坦度特征包含倍頻率標準差特征、倍頻率離散系數(shù)特征和倍頻率峰度特征,圖6 是提出的平坦度聲學特征箱線圖。
ADHD 患兒語音加工能力受損,其語音倍頻率均值小于正常對照組兒童,故其倍頻率標準差值和與標準差呈負相關性的倍頻率離散系數(shù)值則大于正常兒童和已經接受藥物治療的ADHD 患兒,如圖6(a)和6(b)中所示;ADHD 患兒伴隨有發(fā)育性語言障礙,倍頻率的峰值處平均變化率小于正常對照組兒童,故其倍頻率峰度值整體高度和均值都要低于正常兒童和已經接受藥物治療的ADHD 患兒,如圖6(c)中所示。

圖6 倍頻率平坦度特征箱線圖Fig.6 Box plots of multi-frequency flatness features
基于語音倍頻率平坦度特征的ADHD 自動識別結果如表2 所示。從表2 可以看出,平坦度特征在數(shù)據(jù)集1 正常兒童與未接受藥物治療的ADHD 患兒間識別正確率為90.69%,表明本文提取的倍頻率平坦度特征能表征ADHD患兒因語音加工能力受到抑制而出現(xiàn)的語音頻率變化異常的特點,實現(xiàn)ADHD 患兒語音回路異常的檢測,進而區(qū)分ADHD 患兒與正常對照組兒童;平坦度特征在數(shù)據(jù)集2 正常兒童與接受藥物治療的ADHD 患兒間識別正確率優(yōu)于停頓度特征在數(shù)據(jù)集2 上的識別效果,識別正確率達到81.82%,這是因為本實驗采集數(shù)據(jù)的ADHD 患兒接受藥物時間短,臨床上ADHD 患者接受治療后短時間內注意力不集中癥狀就能得到改善,注意力分散的停頓情況就會減少,停頓特征識別接受藥物治療后的兒童效果就差,而加工能力受損需要更長的時間才能改善,故ADHD 語音倍頻率的均值Fˉ0依然小于正常對照組兒童,語音倍頻率標準差μF和倍頻率離散系數(shù)CF與Fˉ0呈負相關性依舊大于正常兒童,倍頻率峰度kF與Fˉ0呈正相關性故弱于正常對照組兒童,在平坦度特征F空間中兩者間距有所減少,因接受治療時間段,語音加工抑制緩解程度小,平坦度特征F空間中間距減少的量就小,故表征頻率變化異常的平坦度特征仍然能識別ADHD 患兒,這與臨床上語音加工過程受到抑制需要長期治療相一致。
精神疾病是指在生物、心理和生活環(huán)境等因素作用下,患者的大腦功能出現(xiàn)失調,導致其認知、情感和行為等方面出現(xiàn)顯著且持久的精神異常,臨床表現(xiàn)特點是精神活動的完整性和統(tǒng)一性受到破壞。語音產生機理是說話者大腦形成、組織語言,然后發(fā)生指令到語音運動中樞,發(fā)音器官接收中樞指令通過一系列肌肉協(xié)調作用產生語音。語音產生包括大腦認知、注意、記憶、情感等精神認知活動,而精神疾病患者的精神活動受到破壞,故其語音模式和正常人之間有差異,研究表明聲語音可以作為精神疾病的輔助診斷指標[16]。
隨著語音信號處理技術的發(fā)展,語音信號處理技術越來越多地被應用于各類精神類疾病的檢測:1)基于語音信號處理技術的阿爾茲海默癥自動檢測。阿爾茲海默癥患者隨著癥狀加深會逐漸喪失語言能力,會出現(xiàn)語音遲緩和詞不達意的情況,近年來,許多研究人員使用語言信號處理技術提取患者的語音停頓特征[32-34]、頻譜特征[35-36]和語義特征[37],結合機器學習和神經網絡分類器[32-37],實現(xiàn)阿爾茲海默癥的自動檢測。2)基于語音信號處理技術的抑郁癥自動檢測。抑郁癥患者神經生理和神經認知發(fā)生改變,反映在日常交流中語音語速和包含情感與正常人不同,研究人員通過語音處理技術提取患者語音韻律特征[38-40]和語音情感特征[41-43],實現(xiàn)抑郁癥的自動檢測[37-43]和分析抑郁癥患者的嚴重程度[38-39]。3)基于語音信號處理技術的精神分裂癥自動檢測。語音異常是精神分裂癥譜系障礙的核心癥狀之一,語音信號處理技術能實現(xiàn)語音異常的檢測,故研究人員通過提取精神分裂癥患者的語音停頓特征[44-47]、能量特征[44-45]和基頻特征[47-49]等聲學特征來揭示精神分裂癥患者語音與正常人語音的異常之處,實現(xiàn)精神分裂癥的自動檢測。
語音信號處理技術發(fā)展越來越完善,該技術在檢測精神類疾病時有無痛、無創(chuàng)、無副作用和經濟便捷的巨大優(yōu)勢,很多研究人員將語音信號處理技術應用于各類精神類疾病的檢測中,為臨床醫(yī)生的診斷精神類疾病提供輔助依據(jù)。
ADHD 是青少年人群中常見的精神類疾病之一,臨床診斷標準多用DSM-V 國際通用精神疾病診斷標準。ADHD 患者有注意力不集中和執(zhí)行功能抑制等臨床癥狀,導致ADHD患者在說話期間語音不流暢,音調抑揚頓挫變化小。Breznitz[50]通過頻率檢查、語音單元持續(xù)時間以及語音單元中發(fā)聲和停頓之間相關性來檢測ADHD 患者語音模式,證明語音指標可以作為ADHD 診斷提供客觀輔助指標;Barona-Lleo 等[51]在語音實驗室記錄和分析ADHD 患兒和正常對照組口內壓力、經聲門氣流和電子聲門圖,分析表明ADHD 患兒聲門壓力較高、經聲門氣流低和聲帶行為功能亢進,ADHD 語音特征可以為醫(yī)生診斷提供客觀輔助依據(jù)。
為驗證本文提取的語音特征在正常兒童和ADHD 患兒間是否具有顯著性差異,利用t 檢驗方法,對正常對照組以及ADHD 的語音特征進行顯著性分析,分析結果如表3 所示。

表3 顯著性分析Tab.3 Significance analysis
由表3 結果知,各個語音特征的顯著性水平p 值均小于0.05,即本文提取的語音特征在正常兒童和ADHD 患兒間存在顯著性差異。
目前國內外精神疾病研究常用的語音聲學特征有短時能 量[44-45]、梅爾頻率 倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)[41-43]、共振峰[35-36]及基頻特征[47-49]等,為驗證本文提取的語音特征能表征ADHD 患兒的臨床語音特點,將本文提取的停頓度和平坦度聲學特征與現(xiàn)有的病理語音識別特征進行對比分析。對比實驗在數(shù)據(jù)集1 上進行,識別正常兒童與未接受藥物治療的ADHD 兒童,具體對比實驗識別結果如表4 所示。

表4 本文提取特征與傳統(tǒng)病理語音特征自動檢測ADHD的識別結果 單位:%Tab.4 Recognition results of ADHD automatic detection of features extracted in this paper and traditional pathological voice features unit:%
由表4 數(shù)據(jù)可知,現(xiàn)有病理語音檢測ADHD 的識別正確率為62.50%~82.76%。短時能量特征表征語音能量變化,對能量變化異常的病理語音信號檢測效果好,ADHD 患者語音加工抑制能量有所減少,但能量因人而異不是ADHD 顯著特征;MFCC 特征與語音情感變化相關,本實驗中患兒語音采集均值家長及專業(yè)醫(yī)生的陪同下,情感變化的差異性不大;共振峰特征可以表現(xiàn)語音聲調的變化,但是單獨的共振峰特征音調識別率低[40],不能表征ADHD 患者的音調變化;基頻特征識別正確率是現(xiàn)有病理語音特征中最高的,在一定程度上可以表征ADHD 患者語音音調變化。本文提出的停頓度和平坦度特征基于ADHD 患者的臨床癥狀,能表征ADHD 獨有的語音特點,更好地識別ADHD 患者。
ADHD 是兒童和青少年階段常見的精神類疾病,臨床診斷時依賴醫(yī)生與患者的交流過程中的主觀評估.本文提出基于語音停頓度和音調平坦度的ADHD 的自動識別算法,為醫(yī)生臨床診斷提供客觀的輔助依據(jù)。該算法基于ADHD 語音停頓特點,提出頻帶差能熵積參數(shù),提取語音停頓度特征;基于語音頻率變化,提出變換平均幅度平方差參數(shù),提取倍頻率平坦度特征,將融合后的特征輸入SVM 分類器實現(xiàn)ADHD 患兒的自動識別,得到91.38%的識別正確率。本文還進一步討論語音停頓度和倍頻率平坦度特征單獨識別ADHD 的作用,兩個特征在識別未接受藥物治療的ADHD 患兒與正常對照組識別正確率分別為92.76%和90.69%。
本文提出的頻帶差能熵積參數(shù)和倍頻率參數(shù),實現(xiàn)了ADHD 患兒語音停頓和音調變化特征的提取,有助于ADHD患兒的輔助診斷識別;但是ADHD 成因不明、臨床癥狀復雜且部分患兒成年后依舊存在一些癥狀,僅靠語音停頓和音調變化分析相對片面,不足以涵蓋AHDH 所有臨床癥狀。在以后的研究中,可找尋其余臨床特征和成人患者語音特征的表征參數(shù),更全面地分析ADHD 患者的語音特點,提取更多的語音特征,使語音在ADHD 患者中發(fā)揮更大的作用,為臨床醫(yī)生提供更多的客觀輔助依據(jù)。