張 瓊 丁衛平 景 煒 余利國
(南通大學計算機科學與技術學院 南通 226019)
據國家衛生局不完全統計,帕金森疾病已成為繼腫瘤、心腦血管疾病之后影響中老年人健康的第三大高危疾病,且患病人數比例正逐年增加。帕金森疾病[1]是由于中腦黑質多巴胺神經元的死亡,紋狀體DA含量顯著性減少以及黑質殘存神經元胞質內出現嗜酸性包涵體導致的一種神經性系統疾病。目前,根據中國帕金森疾病的診斷標準[2],這類疾病的診斷方法主要包括以下幾類:傳統方法是醫生直接通過判斷病人臨床表現出的靜止性震顫[3]、運動遲緩、肌強直[4]和姿勢步態障礙[5]等特征來得出診斷結果。但由于輕癥患者初期臨床表現不明顯,醫生僅通過行為特性不能夠作出準確的判斷,容易導致漏診、誤診的發生。為了提高診斷的精準度,現階段醫院采用影像技術[6]來作為醫生診斷的輔助手段。影像診斷技術主要通過腦血流、神經遞質、轉運體、黑質回聲改變的影像來辨別病人是否患病。雖然影像技術提高了帕金森疾病的診斷精準度,但是卻帶來了高昂的醫療成本。隨著機器學習[7]的發展,研究者們針對以上傳統診斷方法出現的問題,提出了一種將計算機技術與醫療數據相結合的分析方法,來提高帕金森疾病的診斷正確率以及降低醫療成本。如雷少正等[8]針對醫生診斷效率不高的問題,提出了基于主成分分析的帕金森量表優化算法來診斷帕金森病。該算法采用主成分分析方法減少大量交叉重復的量表,再通過支持向量機來進行分類,以此提高醫生的診斷效率。但是此方法只對醫生初次診斷帕金森病有幫助,如果想更詳細地確定癥狀的輕重,則需要采用傳統的量表方法。如李勇明等[9]提出了基于語音樣本重復剪輯和隨機森林的帕金森病診斷算法研究。該算法對剪輯優化后的樣本采用隨機森林算法對帕金森數據樣本進行分類診斷,達到了較好的分類準確度,但該方法語音特征較多,效率低下。如王金甲等[10]提出的一種基于深度卷積神經網絡的帕金森步態識別方法,通過捕捉行動人的步態信息,經過深度卷積神經網絡,來匹配帕金森患者信息,但由于人的形體姿勢多樣,存在較大的噪聲干擾。
針對上述問題,本文則提出一種基于改進的PSO-SVM算法,將該算法應用在帕金森疾病中,并與 GA-SVM[11]算法和 PSO-SVM[12]算法在帕金森數據上的結果進行對比,證明IMPSO-SVM算法能對帕金森疾病進行快速有效地判斷,提高了醫生對帕金森疾病的診斷準確性,降低誤判的發生。
粒子群優化的支持向量機算法是通過粒子群優化算法[13]對支持向量機[14]參數進行優化并尋得最優組合的過程。該算法描述如下:對于給定的N個種群,在M維度的探索空間里,其中第i(i∈N)i個種群中粒子的坐標為 Xi=(xi1,xi2,…,xim),移動的速度為 Vi=(vi1,vi2,…,vim),個體的極值為 Pi=(pi1,pi2,…,pim),全局的極值為 Pg=(pg1,pg2,…,pgm),則粒子的速度計算公式如下:

其中,w為慣性權重,在傳統的粒子群優化算法中是固定不變的,k為當前迭代次數,c1和c2是學習因子,pgm代表整個種群中全局最優位置,pim代表著當前粒子的最佳位置,在兩個不同的 pgm之間,局部粒子的最佳位置會隨著全局最優位置來進行改變。類似的,在當前不同的位置 pim之間,全局位置的粒子也隨著當前種群的最佳位置改變而改變。當前粒子的位置被調整通過下面的公式:

將優化后尋得的局部最優解和全局最優解作為支持向量機的核函數,懲罰系數,代入到支持向量機的目標函數中:

針對上述粒子群優化的支持向量機算法中式(1)的慣性權重w和學習因子c1和c2都是人憑借主觀經驗來設定的,而根據不同的數據集,數據之間的多樣性,不可能每次的參數都是最優的,并且不當的參數容易導致粒子群優化算法對支持向量機優化過程中粒子過早成熟陷入局部最優解的問題。因此本文提出的改進算法是通過改變粒子的慣性權重和學習因子來提高算法的性能。
本文的主要改進思想是對不同性能的粒子分配不同的慣性權重,對性能較好的粒子采用較大的慣性權值,讓其主要負責更優區域的探索,不斷更新 pg,來探索全局中最優的解;而對性能較差的粒子則采用較小的慣性權值,讓其迅速收斂致局部最優解附近。該改進算法的具體做法是:將粒子按其個體最優位置從最優到劣進行排序,其中排在第i位粒子的慣性權重及相應學習因子的表達式如下:

其中,wmax和wmin分別為預定義的最大與最小慣性權重,m為種群規模,學習因子c1i和c2i根據慣性權重wi動態的調整。該方法可以在每一步進化中都較好地平衡全局與局部探索能力。通過把優化后的局部最優位置和全局最優位置來作為最優的懲罰系數C和核函數γ,并通過適應度來評價粒子的性能,適應度越高代表粒子探索能力越強。適應度函數如下所示:

其中accurary是支持向量機的預測模型精度,是通過對訓練數據,訓練標簽進行建模,其中交互驗證模式的系數為3,懲罰系數為,核函數為。
因此改進后的粒子群速度計算公式如下所示:

其中 wi和 c1i,c2i分別如式(5)和式(6)表示。
隨機將帕金森數據的三分之二分為訓練數據集Train,三分之一的分為測試數據集Test。
輸出:預測的精確度,算法的執行時間。
Step1:根據min-max標準化對Train和Test數據進行歸一化處理,并標記為訓練集和測試集;
Step2:初始化粒子群算法的位置和速度;
Step3:根據式(7)計算粒子群算法的適應度函數值;
Step4:通過式(5)和式(6)來對每個帕金森粒子的慣性權重和學習因子進行改進;
Step5:當獲得滿足的優化條件或達到最大迭代次數時,終止該過程,得出懲罰系數C和核函數γ的最優解,執行Step7,否則執行Step6;
Step6:更新當前粒子的速度和位置,跳轉到Step3,重新計算適應度值;
Step8:將Step1中的訓練數據集D1和支持向量機最優參數組合,構建支持向量機模型;
Step9:通過支持向量機模型預測測試數據集D2的預測精度;
下面是該算法的詳細流程圖:

圖1 IMPSO-SVM算法流程圖
本文所使用的數據是由 Little[15~16]等提供的一組帕金森疾病語音數據集,是通過觀察帕金森患者的語音臨床表現特征提取而來。該數據獲取了31個人的195份語音樣本并從中提取23個語音特征,其中23人為帕金森患者,8人為健康患者。如表1詳細地描述了帕金森數據的數據屬性。
為了證明IMPSO-SVM算法能更好地識別帕金森病的效果,本文引入了兩種經典機器學習算法作為對照實驗:一種是采用原始的粒子群優化的支持向量機(PSO-SVM),另一種是采用遺傳算法優化的支持向量機(GA-SVM)。將這三種算法分別的運用在帕金森數據上,實驗結果如圖2所示。

表1 提取的主要語音特征及描述

圖2 三種算法對帕金森數據的平均適應度圖
適應度的大小決定了群體內基因型機體存活并將其基因傳遞至下一代的相對能力。適應度越大,存活和生殖機會也就越高,越不容易過早的成熟。由圖2可知,改進算法的平均適應度值整體優于另外兩種對比算法的平均適應度值,表明改進算法在帕金森數據中,粒子繁殖能力更強,越不容易成熟收斂。

圖3 三種算法對帕金森數據的最佳適應度圖
最佳適應度值表示在粒子群優化過程中,得出的最佳粒子的適應度值。最佳適應度值越高代表對支持向量機參數優化的效果越好,越有利于支持向量機對帕金森數據做出準確的預測。如圖3所示,IMPSO-SVM算法在一開始時就表現出很強的探索能力,經過數次進化后,明顯地高于另外兩組算法,表明該改進算法對帕金森數據的預測值更加準確。通過表2,可以看出三種算法在帕金森數據上的性能優劣。

表2 三種算法對帕金森數據集的實驗結果對比
通過不同的試驗方法在對帕金森數據的應用中可以看出,在預測精確度上,IMPSO-SVM相比PSO-SVM高出13.51%,比GA-SVM高出10.81%;在執行效率上,IMPSO-SVM相比PSO-SVM節省了1.67s,比GA-SVM節省了1.81s。出現這種實驗結果的原因是由于對性能較好的粒子分配較大的慣性權重,有利于探索出全局最優解,避免了過早成熟,提高了支持向量機的準確度;對性能較差的粒子分配較小的慣性權重,使其快速收斂到局部最優解,節省了優化時間,提高了算法的執行效率。
帕金森疾病在中老年人群中的比例正逐年增加,對患者及家庭造成了嚴重的影響。如何做到早發現早治療,對患者的康復起到關鍵性的的作用。而本文則針對目前醫生對帕金森疾病診斷出現的誤診、漏診等問題,提出了一種基于改進的PSO-SVM算法對帕金森疾病診斷,用以提高對帕金森疾病的準確識別精度。該算法對不同性能的粒子動態分配慣性權重和學習因子,來提高支持向量機模型的學習能力和泛化能力。并通過實驗表明,IMPSO-SVM算法在對帕金森疾病診斷方面,與另外兩組算法相比,無論在預測精度,還是在執行效率上都有了很大提高,證明IMPSO-SVM算法可作為輔助醫生診斷帕金森疾病的有效方法。由于帕金森臨床數據表現多樣,而本文只是針對帕金森語音臨床數據進行的分析,為進一步提高帕金森診斷精確,下一步將針對帕金森綜合臨床數據來進行診斷研究。