劉寶民,汪健冬,郭志佳,喬夢茹
(1.魯東大學(xué)物理學(xué)院,山東煙臺,264025;2.魯東大學(xué)數(shù)學(xué)與統(tǒng)計科學(xué)學(xué)院,山東煙臺,264025)
帕金森病(Parkinson’s disease, PD)是繼阿茨海默病之后的第二大類神經(jīng)系統(tǒng)變性疾病, 常發(fā)于中老年人群。目前全球PD患病率約405/10萬,預(yù)計至2030年我國患病人數(shù)將達到494萬人[1],因此準確診斷PD越具有重要意義。
國內(nèi)對于深度學(xué)習(xí)與帕金森疾病診斷的研究,根據(jù)研究的內(nèi)容,大致可分為兩個方面:深度學(xué)習(xí)在醫(yī)學(xué)影像上的應(yīng)用,如王洋等人[2],根據(jù)卷積神經(jīng)網(wǎng)絡(luò)對于MRI圖像進行研究、并進行反卷積處理,張巧麗等人[3]使用深度學(xué)習(xí)方法實現(xiàn)對帕金森疾病、多系統(tǒng)萎縮癥和健康人群的診斷;深度學(xué)習(xí)在患者行為表現(xiàn)方面的識別,如張穎等人[4]提取聲紋特征、DNN識別并分類的方法用于區(qū)分PD患者和健康人,焦嘉烽[5]提出深度學(xué)習(xí)與聲譜圖的帕金森癥檢測方法,王金甲等人[6]基于卷積神經(jīng)網(wǎng)絡(luò)進行特征學(xué)習(xí)并識別出步態(tài)凍結(jié),李彥琳等人[7]設(shè)計了一種基于DCNN的步態(tài)識別方法,用于PD患者的步態(tài)分類和嚴重程度等級評定。
盡管有了很多卓有成效的研究,但是結(jié)合深度學(xué)習(xí),在遺傳基因方面對于帕金森疾病的研究并不常見,缺乏遺傳學(xué)角度對帕金森疾病成因的分析。因此,本文在使用LSTM網(wǎng)絡(luò)提取SNP數(shù)據(jù)特征的基礎(chǔ)上,使用不同的分類器,對于提取后的特征進一步分類,實現(xiàn)對于基因數(shù)據(jù)在帕金森疾病診斷上的應(yīng)用。
首先對于SNP數(shù)據(jù)進行預(yù)處理:質(zhì)量控制、獨熱編碼、時間序列化處理。在對數(shù)據(jù)預(yù)處理之后,我們對于基因數(shù)據(jù)使用LSTM提取特征。對于LSTM提取出的特征分別使用LSTM(Linear Classifier)、XGBoost算法、LightGBM算法、SVM算法、隨機森林分類器對結(jié)果進行對比,如圖1所示。腳本使用Python編程語言開發(fā),仿真在Intel Core i5 2.3 GHz處理器、12Gb隨機存取存儲器(RAM)和2核的機器上執(zhí)行。

圖1 LSTM-SVM算法流程圖
長短時記憶網(wǎng)絡(luò)是改進后的循環(huán)神經(jīng)網(wǎng)絡(luò),它在原有RNN的基礎(chǔ)上,增加了三個門控單元,用于控制信息傳遞,有效解決了長序列在輸入RNN后的梯度消失或爆照缺陷[8]。由于遺傳基因具有一定的時序性,即前面的數(shù)據(jù)對后面的數(shù)據(jù)有影響,而LSTM利用專門進行記憶的存儲單元,保存記憶的同時避免了梯度消失與爆炸的現(xiàn)象,較為適合時間序列化的基因數(shù)據(jù)的特征提取。
根據(jù)輸入數(shù)據(jù),將數(shù)據(jù)所在的特征空間的超平面作為決策邊界,可以把學(xué)習(xí)目標分為兩類,同時使任意樣本點到超平面距離大于1[9]。通過求解最大邊距超平面,結(jié)合約束條件,將硬邊界SVM轉(zhuǎn)化為二次凸優(yōu)化問題求解。其中,LSTM提取出的特征,作為輸入數(shù)據(jù)X,進行訓(xùn)練。
本文中的SNP數(shù)據(jù)來自PPMI(Parkinson’s Progression Markers Initiative)數(shù)據(jù)庫(ida.loni.usc.edu),共選取了533個測試對象,包含167位正常人和366位患者。測試對象共有349位男性,184位女性,年齡分布為31歲至85歲,
基因數(shù)據(jù)預(yù)處理包括質(zhì)量控制、獨熱編碼與時間序列化處理。本文獲取的SNP數(shù)據(jù)記錄每個測試對象位于各條染色體上某一位點發(fā)生突變的情況。在對基因數(shù)據(jù)做相關(guān)分析時,需要對其進行質(zhì)量控制:首先,統(tǒng)計533個測試對象發(fā)生變異的位點,對其計數(shù)共6851個位點;其次,進行純雜合處理,對SNP數(shù)據(jù)重編碼,記隱形純合(即0/0)為1,雜合(即0/1)為 2,顯性純合(即 1/1)為 3,存在個別情況(即 1/2)記為4,染色體上出現(xiàn)位點信息缺失記為0;然后,對測試對象與SNP基因位點的檢測和篩選,如果出現(xiàn)5%測試對象中同時缺失某個SNP位點,那么就去掉該SNP位點,如果某個測試對象缺失5% SNP位點,那么就去掉該測試對象;最終,保留533個樣本對象,76個SNP位點。
由于后續(xù)處理使用LSTM網(wǎng)絡(luò)提取特征,需要對獨熱編碼后的基因數(shù)據(jù)進行時間序列化處理。對于j個特征的樣本,這里將每一個樣本的基因特征都轉(zhuǎn)化為長為m的序列,序列中每一元素的特征維度是n,滿足m*n=j。
由于預(yù)處理后的基因數(shù)據(jù)維度j=256,維度不大,設(shè)置hidden_size=256,num_layers=3。為了增強特征提取的可操作性,設(shè)置兩層全連接層,第一層用于特征提取,第二層用于LSTM模型準確率判斷。時間序列化的m切割份數(shù)與輸出特征維度作為超參數(shù)進行調(diào)節(jié)。在使用SVM對提取的特征進行分類時,同樣需要對超參數(shù)進行調(diào)節(jié)。這里使用網(wǎng)格搜索來確定最佳參數(shù),以準確率作為參數(shù)調(diào)節(jié)依據(jù)。
本文使用十折交叉驗證進行診斷任務(wù)的評估。其中,隨機抽取10%的受試者作為測試樣本,其余受試者作為訓(xùn)練樣本。以平均準確率作為最終模型的表現(xiàn)結(jié)果。
為了評估模型性能,引入了多個經(jīng)典分類器:XGBoost算法、LightGBM算法、隨機森林算法,作為對比,構(gòu)建LSTMXGBoost、LSTM-LightGBM、LSTM-RF三個模型。同時直接使用LSTM進行分類,作為對照組。我們還引入了PCA算法,作為特征處理的另一類方式,用于比較,對于該方法,我們對SNP基因數(shù)據(jù)進行質(zhì)量控制與獨熱編碼處理,跳過時間序列化處理,直接進行數(shù)據(jù)降維,與分類器結(jié)合,形成:PCA-XGBoost、PCA-LightGBM、PCA-SVM、PCA-RF四個模型。
根據(jù)圖2可知,本文使用的模型方法表現(xiàn)最優(yōu),準確率達到了0.73。對于同一特征提取方法而言,SVM分類效果最好,這可能與SVM能夠求解凸優(yōu)化問題的全局最小值、是一個小樣本學(xué)習(xí)方法有關(guān);根據(jù)圖2可知,對于同一方法而言,LSTM對基因數(shù)據(jù)特征提取比PCA特征降維的表現(xiàn)更好。

圖2 不同模型準確率間的比較
本文中我們設(shè)計了新的帕金森疾病診斷深度學(xué)習(xí)框架,該框架能夠?qū)W習(xí)基因數(shù)據(jù)的潛在特征;潛在特征的提取后,SVM進行分類。基于PPMI數(shù)據(jù)的實驗結(jié)果表明,LSTM-SVM算法診斷帕金森疾病的準確率高于使用PCA-SVM、LSTM-RF等方法。