











摘要: 發音障礙是帕金森病的早期癥狀之一。近年來,基于語音信號的帕金森病檢測的研究大多采用梅爾刻度下的相關語音特征與深度神經網絡模型相結合的方法。然而,現有的模型無法充分關注語音信號的全局時序信息,且梅爾刻度特征在準確表征帕金森病的病理信息方面效果有限。為此,提出了一種基于語音時頻特征融合的帕金森病檢測方法。首先,提取語音的梅爾頻率倒譜系數,并將其作為模型的輸入。接著,在已有的S-vectors模型中引入Conformer編碼器模塊,以提取語音的時域全局特征。最后,將與帕金森病語音檢測相關的頻域全局特征嵌入時域特征中進行時頻信息融合,以實現帕金森病語音檢測。在公開帕金森病語音數據集和自采語音數據集上驗證了方法的有效性。
關鍵詞: 帕金森病; 梅爾頻率倒譜系數; S-vectors; Conformer; 時頻特征融合
中圖分類號: TP391.4
文獻標志碼: A
文章編號: 1671-6841(2025)01-0053-08
DOI: 10.13705/j.issn.1671-6841.2023118
Parkinson′s Disease Detection Method Based on Time-frequency
Feature Fusion of Speech Signals
WANG Chenzhe1, JI Wei2, ZHENG Huifen3, LI Yun1
(1.School of Computer Science, Nanjing University of Posts and Telecommunications, Nanjing 210023, China;
2.School of Communications and Information Engineering, Nanjing University of Posts and Telecommunications,
Nanjing 210003, China; 3.Geriatric Hospital of Nanjing Medical University, Nanjing 210009, China)
Abstract: Dysphonia is one of the earliest symptoms of Parkinson′s disease (PD). In recent years, many studies on the detection of PD based on speech signals used deep neural network models combined with Mel Scale features. However, existing models could adequately focus on the global time-series information of speech signals. And Mel Scale features had limited effectiveness in accurately characterizing the pathological information of PD. To solve the above problems, a speech detection method for PD was proposed based on time-frequency feature fusion. Firstly, Mel frequency cepstrum coefficients (MFCC) were extracted from speech signals and used as the input data for subsequent models. Then, encoder module of Conformer was introduced into the S-vectors model to extract speech global features in time domain. Finally, global features in frequency domain, related to speech detection of PD, were embedded into the time-domain features to fuse the time-frequency information for PD detection ultimately. The effectiveness of the proposed model was verified respectively on a public PD dataset and a self-collected speech dataset.
Key words: Parkinson′s disease; Mel frequency cepstrum coefficient; S-vectors; Conformer; time-frequency feature fusion
0引言
帕金森病(Parkinson′s disease, PD)是僅次于阿爾茨海默病的第二大神經退行性疾病。已有研究表明,該病和發音障礙之間有一定的病理聯系。帕金森病患者臨床上大多存在一定程度的語音損傷癥狀,且語音損傷在發病早期就已經出現不同程度的癥狀,表現為講話緩慢、聲音嘶啞、音量低和發音震顫等[1]。這些語音損傷是帕金森病患者喉部發音以及呼吸肌肉的控制損失引起的。基于此,可考慮利用語音信號,結合機器學習技術進行帕金森病的檢測[2-3]。基于語音的帕金森病檢測方法具有非介入式、采集方便和成本較低等優點,可以有效緩解醫療資源緊張的問題,提高診療階段的效率[4]。然而,現有的帕金森病語音檢測方法難以很好地表征帕金森病語音中的病理信息,準確性也有待提高。因此,研究準確高效的帕金森病語音檢測方法,具有重要的社會意義和研究價值。
隨著深度學習在說話人識別、語音識別等語音信號處理領域的廣泛應用[5],越來越多的研究者開始利用深度學習技術開展基于語音的帕金森病檢測工作[6]。Vasquez-Correa等[7]考慮現實應用場景,使用智能手機采集語音數據,并利用梅爾聲譜圖結合ResNet18模型進行帕金森病檢測。Er等[8]依然以梅爾聲譜圖作為輸入特征,提出了預訓練卷積神經網絡(convolution neural network, CNN)模型并結合長短期記憶網絡的方法,得到了更好的帕金森病分類性能。Karaman等[9]利用DenseNet深度CNN模型,基于遷移學習方法從語音信號中自動檢測帕金森病。季薇等[10]利用掩蔽自監督模型來掩蔽部分梅爾聲譜圖特征并對其進行重構,從而學習帕金森病患者語音的更高級特征表示。上述方法存在的問題在于:1) 模型無法充分關注語音信號的全局時序信息;2) 作為語音識別領域的通用特征,梅爾刻度特征在準確表征帕金森病的病理信息方面有一定的局限性;3) 從數據集的使用方面看,在已有研究中研究者大多使用持續元音數據集,這是因為持續元音能夠反映基頻變化特征[11],且發音簡單、采集方便;然而,持續元音難以表征帕金森病患者語音中存在的清音平均時長較短、濁音起始時間較短、塞音呈現擦音化等時序特點[12]。與之對比,使用情景對話或文本朗讀等長句語料則可以更好地提取帕金森病語音中的時序病理信息。
研究表明,基于自注意力機制的Transformer技術可有效提高模型的時序特征提取能力,在語音信號處理領域已取得了很好的效果。Dong等[13]基于Transformer技術提出一種非遞歸的語音識別模型,得益于自注意力機制的融入,該模型在獲得性能提升的同時極大地減少了訓練成本。Gulati等[14]認為Transformer可以更好地對基于內容的全局相關性進行建模,而卷積擅長提取局部特征,因此將卷積應用于Transformer的編碼層,提出了應用于語音識別的Conformer架構,其編碼器模塊將Transformer和CNN結合起來,更好地對語音序列的全局特征和局部特征進行了統一建模。
值得注意的是,在時序信息的學習上,X-vectors模型也是一個很好的工具,并在說話人識別領域得到有效應用[15]。該模型中的語音幀級特征提取模塊可利用時延神經網絡(time delay neural network, TDNN)結構提取幀級特征學習語音信號的時序信息,話語級特征提取模塊則利用統計池化層將TDNN提取的幀級特征過渡到話語級的全局特征。Moro-Velazquez等[16]考慮帕金森病語音檢測與說話人識別的相似性,從文本語料語音數據中提取梅爾頻率倒譜系數(Mel frequency cepstrum coefficients, MFCC),利用X-vectors模型提取帕金森病語音的時序信息,實現了帕金森病的檢測。為更好地提取語音信號的全局特征,Mary等[17]將自注意力機制和位置編碼引入X-vectors模型,提出S-vectors網絡結構。該結構在語音幀級特征提取模塊采用Transformer的編碼器層,能夠學習更多的說話人信息,在說話人識別領域獲得了優于X-vectors的性能。然而,S-vectors結構只關注語音的全局特征,對細粒度的局部特征提取效果有限。
為充分關注帕金森病語音中的時序信息,提高語音特征對帕金森病病理信息的表征能力,本文針對帕金森病患者的長句語料,提出一種基于語音信號時頻特征融合的帕金森病語音檢測方法。首先,提取長句語音信號的MFCC特征,并將其作為后續模型的輸入數據。然后,在S-vectors模型的基礎上,將其原有的編碼層替換成Conformer架構中的編碼器模塊,并提取時域語音特征。最后,將與帕金森病語音檢測相關的頻域全局特征嵌入到時域特征中,利用多層全連接層融合時頻信息,最終實現帕金森病語音檢測。在MDVR-KCL公開帕金森病語音數據集和自采語音數據集上的實驗結果表明,本文所提方法的性能明顯優于基線模型。
本文主要貢獻在于:1) 對傳統的S-vectors模型進行了編碼層的替換,Conformer編碼器模塊的引入使得改進后的模型可以利用自注意力機制和卷積神經網絡更好地提取時域全局特征和細粒度局部特征;2) 頻域全局特征的嵌入,促進了時頻域信息的融合,有效彌補了單一的梅爾刻度特征在特征表征上的局限性,提高模型對帕金森病語音病理信息的學習能力,提升帕金森病語音檢測模型的性能。
1本文方法
為更好地提取帕金森病患者語音中的病理信息,提高語音檢測的效果,本文提出一種基于語音信號時頻特征融合的帕金森病檢測方法。如圖1所示,基于語音信號的時頻特征融合模型及其訓練流程包括源域預訓練和目標域微調兩個過程。
首先,在預訓練階段使用公開的Common Voice多語言語音數據集[18],數據集中的語料為多種語言的長句語料。對Common Voice數據集的語音數據提取MFCC特征后,輸入本文所提模型進行預訓練。然后,將預訓練模型參數遷移至目標域,并增加頻域全局特征嵌入模塊,利用帕金森病語音數據集重新微調模型以更新模型參數。最終得到適用于帕金森病語音信號的檢測模型。
1.1基于語音信號的時頻特征融合模型
本文所提的基于語音信號的時頻特征融合模型如圖2所示,同樣分為語音幀級特征提取模塊和話語級特征提取模塊。為充分關注全局時序信息,所提模型基于S-vectors網絡結構,將其原有的編碼層替換成Conformer架構中的編碼器模塊。Transformer和CNN相結合的時序特征編碼層的引入,可使本文所提模型具有同時捕捉語音的全局特征和局部特征的能力。時序特征編碼層中特有的多頭自注意力機制和相對位置編碼等,可使本文所提模型關注帕金森病患者語音存在的響度降低、語速較快、元音平均時長較短、濁音起始時間較短等時序特性,能夠提取更多的帕金森病語音特征。
由于提取的特征主要包含帕金森病語音的時域信息,而帕金森病語音信號也存在基頻變化較小,清、濁音能量存在差異性等頻域特性。為充分挖掘帕金森病患者語音中的各種時頻變化,在對預訓練模型進行微調時,本文將與帕金森病語音檢測相關的頻域全局特征嵌入生成的時域特征中,采用多層全連接層進行時頻域信息融合,以提高模型對帕金森病語音的檢測效果。
1.2時序特征編碼層
與傳統的S-vectors不同的是,本文所提模型中引入的時序特征編碼層采用Conformer的編碼器結構[14],該結構由多頭自注意力模塊和卷積神經網絡模塊以及兩層半步前饋神經網絡組成,如圖3所示。其中,兩層前饋神經網絡層采取夾層的方式,分別置于自注意力模塊前后。
該編碼層的輸入、輸出可以表示為
x~=x+12FFN(x),
x′=x~+MHSA(x~),
x″=x′+Conv(x′),
y=Laynorm(x″+12FFN(x″)),(1)
其中:FFN表示前饋神經網絡層;MHSA表示多頭自注意力模塊;Conv表示卷積神經網絡模塊;Laynorm表示層歸一化;x是時序特征編碼層的輸入;x~是FFN的輸出;x′是MHSA的輸出;x″是Conv的輸出;y是時序特征編碼層的輸出。
1.2.1多頭自注意力模塊
為更好地提取語音信號的全局特征,采用多頭自注意力模塊,同時引入相對位置編碼。其核心部分是多頭自注意力網絡,將輸入特征序列映射到多個特征子空間,提取時序相關的多種語音特征。多頭自注意力機制可以表示為
MultiHead(Q,K,V)=Concat(h,h,…,h)×WO,(2)
其中:Q、K、V表示自注意力機制中由語音特征學習的特征表示;投影矩陣WO是通過學習獲得的參數;n表示多頭自注意力的頭數;Concat(h,h,…,h)表示拼接所有自注意力機制的輸出h,i=1,2,…,n。h表示為
h=Attention(QWQ,KWK,VWV)=
softmax(QWQ(KWK)Td)VWV,(3)
其中:WQ、WK、WV是可學習的參數。得益于自注意力機制跨越語音上下文的特征提取能力,編碼層可以提取更多的語音特征。
Quan等[19]的研究表明,帕金森病患者和健康人的清濁音轉換次數和波形輪廓平穩性存在顯著差異。為了在模型中考慮語音信號的發音轉換特征信息,該編碼層使用相對位置編碼[20]。傳統的Transformer將絕對位置編碼嵌入特征向量中[21],如式(4)所示。該模塊將相對位置編碼引入自注意力模塊的注意力分數中,如式(5)所示,
Aabs=ETWTWE(a)+ETWTWU(b)+
UTWTWE(c)+UTWTWU(d),(4)
Arel=ETWTWE(a)+ETWTWR(b)+
uTWE(c)+vTWR(d),(5)
其中:Aabs表示引入絕對位置編碼的注意力分數;Arel表示引入相對位置編碼的注意力分數;E為語音序列的特征向量;U為語音序列中位置i的絕對位置編碼;R為位置i與j的正余弦相對位置編碼。
該模塊采用R替代絕對位置編碼U,并且對于語音特征向量和位置編碼分別使用不同的參數矩陣W和W表示基于內容和基于位置的線性變化。此外,用u∈Rd替代UTWT,用v∈Rd替代UTWT,這是因為鍵向量對于自身的位置編碼信息應保持一致。相對位置編碼可以提高模型對不同長度的語音序列的泛化性和魯棒性。
1.2.2卷積神經網絡模塊
卷積神經網絡模塊采用深度可分離卷積替代傳統卷積神經網絡,可以有效降低網絡的參數量,提高計算效率,如圖4所示。Conformer 的卷積神經網絡模塊考慮先采用門控機制對特征進行非線性變換,以有效過濾噪聲以及無關信息,提高模型對語音信號的特征提取能力[22]。然后采用深度可分離卷積(depthwise separable convolutions)替代傳統卷積神經網絡,能夠在有效降低網絡參數量的前提下獲得相近的卷積效果,提高模型的計算效率[24]。其中,逐深度卷積只關注每個通道內序列之間的依賴關系,不關注不同通道之間的依賴;而逐點卷積關注了不同通道之間的依賴關系,不關注通道內的依賴。通過兩種卷積的組合,可以在減少參數量的同時,實現傳統卷積的效果。
1.3頻域全局特征嵌入模塊
自注意力機制能夠在時域提取語音信號的相關性,關注語音的全局時序信息。考慮帕金森語音的頻域信息,采用語音信號處理算法提取相關特征也是帕金森語音診斷領域的重要方法[25]。基于此,本文利用時頻信息融合方法[26],結合時域和頻域兩個維度的特征,提高模型對帕金森語音的特征提取能力。
帕金森病患者在發音時,往往無法很好地控制清、濁音的轉換,且存在基頻變化較小的特點,本文利用DisVoice語音特征提取庫[27],引入多種相關特征,包括:基頻包絡、濁音段的基頻、基頻擾動Jitter、頻率微擾商(pitch perturbation quotient, PPQ)、清濁音段的對數能量等。對于上述特征,分別在一段語音中計算其均值、標準差、偏度和峰度四種統計度量,最終得到103維的頻域全局特征。將頻域特征進行歸一化處理,經過特征映射全連接層嵌入本文模型生成的256維時域特征表示中,得到長度為320維的時頻融合特征。采用多層全連接層對時頻域特征進行信息融合,提高模型對語音信號的特征提取能力,如圖5所示。
2實驗及結果分析
2.1數據集
本文使用了2個語音數據集,包括公開的MDVR-KCL帕金森病語音數據集[28]和本課題組自采的帕金森病中文語音數據集。
MDVR-KCL數據集是由倫敦國王學院(King′s College London, KCL)醫院在2017年使用智能手機與受試者進行語音通話采集的帕金森病語音數據集,并且保證所有通話均在安靜的室內環境中進行。受試者包括16名帕金森病患者(PD)和21名健康人(healthy controls, HC)。采集內容包括朗讀一段內容確定的文本,以及與研究人員進行自發的對話。本文采用文本數據集,包含16條帕金森病患者語音和21條健康人語音。
自采帕金森數據集是由本課題組與南京醫科大學附屬老年醫院的帕金森診療中心合作采集。受試者包含46位帕金森病患者(30位男性,16位女性)和18位健康人(8位男性,10位女性)。對未患有帕金森病的年齡匹配的受試者進行其他疾病的詢問評估,以避免聲帶病變對實驗結果造成影響。該數據集的統計信息如表1所示。數據采集均在安靜的室內環境進行,要求受試者以正常語速和說話響度朗讀一段固定內容的文本。最終得到46條帕金森病患者語音和18條健康人語音。
2.2實驗條件及過程
本實驗使用Python語言基于PyTorch深度學習框架實現所有算法。在本實驗中,對所有的帕金森病語音數據經剪輯后得到5s左右的語音片段,并提取30維的MFCC特征,采用幀長為25ms和幀移為10ms的滑動窗口對語音信號進行分幀,同時使用Librosa音頻處理庫去除語音首尾的靜音幀。此外,對所有語音樣本均進行下采樣到16 kHz。實驗采用五折交叉驗證方法,基于預訓練模型,微調模型5個epoch。取5次交叉驗證的結果求均值,作為最終的實驗結果。
為驗證算法的有效性,本文使用準確率(acc)、敏感度(sen)、特異度(spe)和AUC(area under ROC curve)作為實驗結果的評估準則,其中加粗數字表示在該度量指標上呈現最優的結果。
2.3實驗結果
為驗證本文方法的有效性,分別在MDVR-KCL數據集和自采帕金森數據集上進行對比實驗,并采用S-vectors模型、X-vectors模型以及ResNet18模型作為基線模型。其中ResNet18基線模型將語音信號的梅爾聲譜圖作為模型輸入[7],且ResNet18為公開預訓練的深度圖像處理模型。其余模型均將30維MFCC特征作為輸入,且先在Common Voice數據集上進行預訓練。實驗結果如表2和表3所示。其中本文-fc3表示將頻域特征嵌入到全連接層-3輸出的特征向量中,本文-fc4表示將頻域特征嵌入到全連接層-4輸出的特征向量中。
從表2和3中可以看出,本文方法在多數度量指標上明顯優于基線模型,并且在兩個不同的數據集上的結論具有一致性,由此可以驗證方法的有效性。實驗結果表明,相較于傳統的S-vectors和X-vectors模型,所提模型能夠利用自注意力機制和卷積神經網絡更好地提取語音的全局特征和細粒度局部特征,且時頻域信息融合能夠從兩個語音特征維度提高帕金森病語音檢測的效果。而S-vectors僅采用Transformer編碼器提取語音的全局特征,可能難以捕捉短時變化的細粒度信息。此外,可以看出,將頻域特征嵌入全連接層-3輸出的特征向量中,能夠更好地提高語音檢測的效果。這是因為雙層全連接層可以更好地擬合時頻域融合特征與標簽間可能存在的非線性關系。
表4對比了不同模型參數設置下在MDVR-KCL數據集上的對比結果。從表中可以看出,相較于三層編碼層,編碼層數設置為2時模型具有更好的性能。這是因為兩層以上的編碼層會導致模型參數規模過大,容易造成過擬合,最終影響語音檢測性能。此外,注意力頭數設置為4時能夠學習更多維度的特征信息。
為進一步驗證本文方法的有效性,在MDVR-KCL數據集上進行消融實驗,評估自注意力機制(Module1)、相對位置編碼(Module2)、卷積模塊(Module3)以及頻域全局特征嵌入模塊(Module4)對帕金森病語音檢測的效果。實驗結果如表5所示。
從表5中可以看出,在分別去除自注意力機制和相對位置編碼的情況下,模型的性能受到了較大的影響,此時模型僅依賴卷積模塊提取細粒度局部特征,難以學習濁音起始時間較短且清、濁音轉換次數變化等全局時序信息。此外,卷積模塊及頻域全局特征嵌入模塊的去除,均在一定程度上降低了帕金森病語音檢測的效果。
3結論
本文提出了一種基于語音信號時頻特征融合的帕金森病檢測方法,針對帕金森病患者的長句語料,將Conformer的編碼器模塊引入S-vectors模型提取時域特征。并且將與帕金森病語音檢測相關的頻域全局特征嵌入時域特征中,通過時頻信息融合提高了模型對語音信號的特征提取能力。最后在兩個數據集上驗證了方法的有效性。下一步的研究工作將關注利用時頻特征融合結合多任務學習進行帕金森病的病情嚴重程度的評估。
參考文獻:
[1]BENBA A, JILBAB A, SANDABAD S, et al. Voice signal processing for detecting possible early signs of Parkinson′s disease in patients with rapid eye movement sleep behavior disorder[J]. International journal of speech technology, 2019, 22(1): 121-129.
[2]NARENDRA N P, SCHULLER B, ALKU P. The detection of parkinson′s disease from speech using voice source information[J]. IEEE/ACM transactions on audio, speech, and language processing, 2021, 29: 1925-1936.
[3]張小恒, 張馨月, 李勇明, 等. 面向帕金森病語音診斷的非監督兩步式卷積稀疏遷移學習算法[J]. 電子學報, 2022, 50(1):177-184.
ZHANG X H, ZHANG X Y, LI Y M, et al. An unsupervised two-step convolution sparse transfer learning algorithm for parkinson′s disease speech diagnosis[J]. Acta electronica sinica, 2022, 50(1):177-184.
[4] TSANAS A. Accurate telemonitoring of parkinson′s disease symptom severity using nonlinear speech signal processing and statistical machine learning[D]. Oxford: Oxford University, 2012.
[5]彭濤, 鄭傳錕, 張自力, 等. 基于時空特征融合的語音情感識別[J]. 鄭州大學學報(理學版), 2022, 54(4):42-48.
PENG T, ZHENG C K, ZHANG Z L, et al. Speech emotion recognition based on spatio-temporal feature fusion[J]. Journal of Zhengzhou university (natural science edition), 2022, 54(4):42-48.
[6]SHABAN M. Deep learning for parkinson′s disease diagnosis: a short survey[J]. Computers, 2023, 12(3): 58.
[7]VASQUEZ-CORREA J C, ARIAS-VERGARA T, KLUMPP P, et al. End-2-end modeling of speech and gait from patients with parkinson′s disease: comparison between high quality vs. smartphone data[C]∥IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE Press, 2021: 7298-7302.
[8]ER M B, ISIK E, ISIK I. Parkinson′s detection based on combined CNN and LSTM using enhanced speech signals with Variational mode decomposition[J]. Biomedical signal processing and control, 2021, 70: 103006.
[9]KARAMAN O, AKN H, ALHUDHAIF A, et al. Robust automated Parkinson disease detection based on voice signals with transfer learning[J]. Expert systems with applications, 2021, 178: 115013.
[10]季薇, 楊茗淇, 李云, 等. 基于掩蔽自監督語音特征提取的帕金森病檢測方法[J]. 電子與信息學報, 2023, 45: 1-9.
JI W, YANG M Q, LI Y, et al. Parkinson′s Disease detection method based on masked self-supervised speech feature extraction[J]. Journal of electronics & information technology, 2023, 45: 1-9.
[11]SAKAR B E, ISENKUL M E, SAKAR C O, et al. Collection and analysis of a parkinson speech dataset with multiple types of sound recordings[J]. IEEE journal of biomedical and health informatics, 2013, 17(4): 828-834.
[12]范萍, 顧文濤, 劉衛國. 漢語帕金森癥患者的語音聲學特征分析[J]. 中國語音學報, 2018(1): 19-25.
FAN P, GU W T, LIU W G. Acoustic analysis of mandarin speech in patients with parkinson′s disease[J]. Chinese journal of phonetics, 2018(1): 19-25.
[12]范萍, 顧文濤, 劉衛國. 漢語帕金森癥患者的語音聲學特征分析[J]. 中國語音學報, 2018(1): 19-25.
FAN P, GU W T, LIU W G. Acoustic analysis of mandarin speech in patients with parkinson′s disease[J]. Chinese journal of phonetics, 2018(1): 19-25.
[13]DONG L H, XU S, XU B. Speech-transformer: a no-recurrence sequence-to-sequence model for speech recognition[C]∥IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE Press, 2018: 5884-5888.
[14]GULATI A, QIN J, CHIU C C, et al. Conformer: convolution-augmented transformer for speech recognition[EB/OL]. (2020-05-16)[2022-12-10].https:∥arxiv.org/abs/2005.08100.pdf.
[15]SNYDER D, GARCIA-ROMERO D, SELL G, et al. X-vectors: robust DNN embeddings for speaker recognition[C]∥IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE Press, 2018: 5329-5333.
[16]MORO-VELAZQUEZ L, VILLALBA J, DEHAK N. Using X-vectors to automatically detect parkinson′s disease from speech[C]∥IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE Press, 2020: 1155-1159.
[17]MARY N J M S, UMESH S, KATTA S V. S-vectors and TESA: speaker embeddings and a speaker authenticator based on transformer encoder[J]. IEEE/ACM transactions on audio, speech, and language processing, 2022, 30: 404-413.
[18]ARDILA R, BRANSON M, DAVIS K, et al. Common voice: a massively-multilingual speech corpus[EB/OL]. (2019-12-13)[2022-12-10]. https:∥arxiv.org/abs/1912.06670.pdf.
[19]QUAN C Q, REN K, LUO Z W. A deep learning based method for parkinson′s disease detection using dynamic features of speech[J]. IEEE access, 2021, 9: 10239-10252.
[20]DAI Z H, YANG Z L, YANG Y M, et al. Transformer-XL: attentive language models beyond a fixed-length context[EB/OL]. (2019-01-09)[2022-12-10]. https:∥arxiv.org/abs/1901.02860.pdf.
[21]VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]∥Proceedings of the 31st International Conference on Neural Information Processing Systems. New York: ACM Press, 2017: 6000-6010.
[22]WU Z H, LIU Z J, LIN J, et al. Lite transformer with long-short range attention[EB/OL]. (2020-04-24) [2022-12-10]. https:∥arxiv.org/abs/2004.11886.pdf.
[23]DAUPHIN Y N, FAN A, AULI M, et al. Language modeling with gated convolutional networks[C]∥Proceedings of the 34th International Conference on Machine Learning. New York: ACM Press, 2017: 933-941.
[24]CHOLLET F. Xception: deep learning with depthwise separable convolutions[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2017: 1800-1807.
[25]SAKAR B E, ISENKUL M E, SAKAR C O, et al. Collection and analysis of a parkinson speech dataset with multiple types of sound recordings[J]. IEEE journal of biomedical and health informatics, 2013, 17(4): 828-834.
[26]姜振宇, 黃雁勇, 李天瑞, 等. 基于時頻融合卷積神經網絡的股票指數預測[J]. 鄭州大學學報(理學版), 2022, 54(2):81-88.
JIANG Z Y, HUANG Y Y, LI T R, et al. Fusion of time-frequency-based convolutional neural network in financial time series forecasting[J]. Journal of Zhengzhou university (natural science edition), 2022, 54(2):81-88.
[27]OROZCO-ARROYAVE J R, VSQUEZ-CORREA J C, VARGAS-BONILLA J F, et al. NeuroSpeech: an open-source software for Parkinson′s speech analysis[J]. Digital signal processing, 2018, 77: 207-221.
[28]JAEGER H, TRIVEDI D, STADTSCHNITZER M. Mobile device voice recordings at King′s college london (MDVR-KCL) from both early and advanced Parkinson′s disease patients and healthy controls[EB/OL]. (2019-05-17)[2022-12-10].https://zenodo.org/records/zenodo.2867216.