周 瓊 陳 梅 李 暉 戴震宇
(1.貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 貴陽 550025)
(2.貴州大學(xué)貴州省先進(jìn)計(jì)算與醫(yī)療信息服務(wù)工程實(shí)驗(yàn)室 貴陽 550025)
阿爾茨海默癥(Alzheimer's Disease,AD)是一種慢性的神經(jīng)系統(tǒng)退行性疾?。?],是癡呆的一種形式,經(jīng)常在老年人口中發(fā)生。隨著大腦功能的逐漸衰退,AD 患者表現(xiàn)為記憶機(jī)能障礙,漸漸出現(xiàn)語言、情緒、認(rèn)知等方面的障礙,最終造成自主生活能力下降甚至無法自理生活,給患者家庭帶來極大的負(fù)擔(dān)。輕度認(rèn)知障礙(Mild Cognitive Impairment,MCI)是介于正常衰老和癡呆之間的一種認(rèn)知功能損害狀態(tài)[2],對(duì)日常生活的活動(dòng)沒有顯著影響[3]。但是有研究表明MCI 患者轉(zhuǎn)化為AD 的概率較高,每年的轉(zhuǎn)化率約為10%~15%[4],并且目前沒有完全治愈AD的有效方法。因此,對(duì)患者而言,早期的診斷和治療對(duì)延緩AD病的發(fā)展具有重要意義。在現(xiàn)有的阿爾茲海默癥的診斷方法中,不少研究者是采用神經(jīng)影像學(xué)技術(shù),如核磁共振成像MRI來診斷病情,并獲得了較好的效果。
在當(dāng)前對(duì)MRI的研究中,基于體素形態(tài)學(xué)測(cè)量方法(voxel-based morphometry,VBM)被廣泛的用來評(píng)估形態(tài)變化[5],它是一種基于體素水平對(duì)MRI醫(yī)學(xué)圖像進(jìn)行分析的技術(shù),能定量測(cè)出局部腦組織(如灰質(zhì)、白質(zhì))形態(tài)學(xué)的差異變化。而紋理分析定義了圖像中灰度圖案的量化,有助于識(shí)別圖像中呈現(xiàn)發(fā)生不同變化的視覺內(nèi)容。因此,在本文提出的VTSRM 方法設(shè)計(jì)中,我們提取了MRI 的多種類型特征,包括紋理特征和形態(tài)學(xué)特征,并引入了特征選擇技術(shù)消除冗余和不相關(guān)特征。在本文工作中,將SVM-RFE(支持向量機(jī)遞歸特征消除)和MRMR(最小冗余最大相關(guān)性)技術(shù)相結(jié)合,設(shè)計(jì)新的特征選擇方法,并對(duì)阿爾茨海默癥神經(jīng)影像學(xué)(ADNI)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分類預(yù)測(cè),取得到了較好的效果。
機(jī)器學(xué)習(xí)和模式識(shí)別分類方法已經(jīng)被廣泛用于開發(fā)神經(jīng)影像學(xué)的醫(yī)療輔助診斷系統(tǒng),如Beheshti[6]等提出了一個(gè)基于體素形態(tài)測(cè)量(VBM)的計(jì)算機(jī)輔助診斷系統(tǒng),用于分析阿爾茲海默癥的早期階段。Zhe[7]和李曉[8]提取了圖像的三維特征和二維特征,通過多特征融合的方式取得了較高的分類性能。在以上的研究中,基于體素形態(tài)測(cè)量的方法以及多特征融合方法均取得較好的效果。因此,本文同樣基于多特征融合來分析阿爾茲海默癥的MRI醫(yī)學(xué)圖像,提取了MRI圖像的形態(tài)學(xué)特征和紋理特征,將其線性組合形成特征信息數(shù)據(jù)。除了特征提取方法,特征選擇將是本文工作的另一個(gè)重點(diǎn)。
目前很多研究者已對(duì)特征選擇方法進(jìn)行了研究,常見的特征選擇方法可分為三類:過濾式(filter)方法、封裝式(wrapper)方法和嵌入式(embedding)方法。過濾式方法首先對(duì)樣本進(jìn)行特征選擇,然后再訓(xùn)練分類器。封裝式方法需要根據(jù)分類器的性能來指導(dǎo)特征選擇過程。嵌入式方法在分類器訓(xùn)練過程中就進(jìn)行特征選擇。本文的特征選擇方法結(jié)合了過濾式特征選擇方法和封裝式特征選擇方法,先對(duì)特征進(jìn)行排序,再利用分類算法根據(jù)分類性能選擇出最優(yōu)特征子集。在特征選擇過程中,使用了支持向量機(jī)遞歸特征消除(SVM-RFE)特征選擇算法和最小冗余最大相關(guān)性(MRMR)特征選擇算法。
支持向量機(jī)遞歸特征消除(SVM-RFE)由Guyon[9]等在對(duì)癌癥分類時(shí)提出,SVM-RFE 通過模型訓(xùn)練樣本,然后對(duì)每個(gè)特征的得分進(jìn)行排序,去掉最小得分的特征,再用剩余的特征再次訓(xùn)練模型,進(jìn)行下一次迭代,最后選出需要的特征數(shù)。最小冗余最大相關(guān)性(MRMR)是一種過濾式的特征選擇方法,由Peng[10]等提出,其目的是最大化特征與分類變量之間的相關(guān)性,而最小化特征與特征之間的相關(guān)性。
目前對(duì)SVM-RFE的改進(jìn)算法已有很多,例如,林俊[11]等提出了SVM-RFE-BPSO 的特征選擇算法,該算法用SVM-RFE來引導(dǎo)后續(xù)粒子群算法,張健[12]等在分類研究fMRI時(shí),利用SVM-RFE 特征選擇方法篩選出具有顯著性的腦區(qū),Lin[13]等提出了一種SVM-RFE-OA 特征選擇方法,該方法結(jié)合分類準(zhǔn)確率和樣本的平均重疊率來確定選擇的特征數(shù)。
最近的研究[14]表示,支持向量機(jī)遞歸特征消除(SVM-RFE)算法是一種有效的特征選擇方法,已被廣泛應(yīng)用,但當(dāng)數(shù)據(jù)集的特征存在相似作用或冗余時(shí),該方法分類性能較低,特別是冗余特征較多時(shí)。因此,為了解決特征之間的冗余性問題,本文融合了SVM-RFE 算法和MRMR 算法得到SRM 算法。
在本文的工作中,我們通過VBM 來分析AD 患者的大腦萎縮區(qū)域,將萎縮較明顯的區(qū)域作為感興趣區(qū)域ROI,計(jì)算ROI 的灰質(zhì)體積作為形態(tài)學(xué)特征。步驟如下:
1)空間標(biāo)準(zhǔn)化??臻g標(biāo)準(zhǔn)化目的是將圖像數(shù)據(jù)配準(zhǔn)到統(tǒng)一的模板圖像上的過程,在本文中,使用VBM-DARTEL[15]算法來進(jìn)行空間標(biāo)準(zhǔn)化,它不僅保留了原始體積信息還能保證空間標(biāo)準(zhǔn)化的精確性,還提高了分割精度。
2)腦組織分割。通過修正混合模型聚類分析技術(shù)對(duì)空間標(biāo)準(zhǔn)化后的圖像進(jìn)行分割,劃分出灰質(zhì)(Gray Matter,GM),白質(zhì)(White Matter,GM)和腦脊液(Cerebrospinal Fluid,CSF)。
3)空間平滑??臻g平滑是對(duì)分割得到的不同組織的圖像進(jìn)行濾波的過程。通常在標(biāo)準(zhǔn)空間上采取各同向性高斯核函數(shù)對(duì)圖像數(shù)據(jù)進(jìn)行卷積。
4)定義ROI。通過VBM 統(tǒng)計(jì)分析檢測(cè)出兩組灰質(zhì)圖像具有顯著性差異的區(qū)域。在檢驗(yàn)整個(gè)區(qū)域顯著性差異時(shí),采用具有較高靈敏度的FDR 作為本文的校正方法。經(jīng)過FDR 校正后得到灰質(zhì)圖像中密度差異顯著的區(qū)域信息,并利用該信息選取顯著性差異較為明顯的區(qū)域作為感興趣區(qū)域(ROI)。
5)灰質(zhì)體積計(jì)算。根據(jù)VBM 分析后,得到感興趣區(qū)域ROI,通過WFU_PickAtlas 工具制作ROI二值掩膜,并重采樣ROI 二值掩膜,使它和灰質(zhì)圖像的維度一樣。然后將重采樣后的ROI 二值掩膜和灰質(zhì)圖像進(jìn)行點(diǎn)乘計(jì)算,得到灰質(zhì)體積。
1)灰度共生矩陣。灰度共生矩陣是由Haralick[16]等提出來的,反映了圖像灰度關(guān)于方向,相鄰相隔,變化幅度的綜合信息。本文采用灰度共生矩陣提取特征矩陣(空間距離:[1,6],方向:[0°,45°,90°,135°],共24 個(gè)灰度共生矩陣),對(duì)每個(gè)矩陣計(jì)算12個(gè)二次統(tǒng)計(jì)量作為紋理特征值,包括角度二階矩、對(duì)比度、相關(guān)性、逆差矩、熵、方差、和均值、和方差、和熵、差均值、差方差、差熵。
2)灰度-梯度共生矩陣。灰度-梯度共生矩陣模型集中反映了圖像中像素點(diǎn)的灰度和梯度(或邊緣)的相互關(guān)系[17]。本文的灰度-梯度共生矩陣采用了15 個(gè)二次統(tǒng)計(jì)量,包括小梯度優(yōu)勢(shì),大梯度優(yōu)勢(shì),灰度分布不均勻性,梯度分布不均勻性,能量,灰度平均值,梯度平均值,灰度均方差,梯度均方差,相關(guān)性,灰度熵,梯度熵,混合熵,慣性,逆差矩。
本文在選出與分類變量相關(guān)性大的特征集合的同時(shí),注重消除強(qiáng)關(guān)聯(lián)特征之間的冗余性。具體的,我們結(jié)合SVM-RFE 和MRMR 的優(yōu)點(diǎn),融合形成SRM算法,用以完成特征選擇任務(wù)。
1)SVM-RFE算法
Guyon[9]等于2002 年在基因選擇中,提出了一種后向遞歸消除特征選擇算法SVM-RFE,它以各個(gè)特征對(duì)目標(biāo)函數(shù)所具有的判別信息量作為排序系數(shù),即以權(quán)向量w 對(duì)分類面的貢獻(xiàn)來構(gòu)造特征排序表,每次迭代移除一個(gè)權(quán)值最小的特征,再對(duì)分類器重新訓(xùn)練,直到完成所有特征的排序。其w 值計(jì)算如式(1)所示:式(1)中,y 表示的是類標(biāo)簽,x 表示樣本,a 是拉格朗日乘數(shù),r表示特征排序準(zhǔn)則。
2)最小冗余最大相關(guān)算法
MRMR 由Peng[10]于2005 年提出,屬于filter 方法,是一種基于空間搜索和互信息的特征選擇算法,其目的是選出與分類變量相關(guān)性大、與其他特征相關(guān)性小的特征,MRMR思想描述如下。
給定x 和y 兩個(gè)隨機(jī)變量,p(x)和p(y)分別表示它們的概率密度,聯(lián)合分布為p(x,y),則互信息的計(jì)算式子如式(3):

最小冗余和最大相關(guān)的定義如式(4)、(5)所示:式中,I(xi,c)表示特征i 和分類類別c 之間的互信息;I(xi,y)i表示特征i和j之間的互信息;S和|S|分別表示特征子集和特征數(shù)目;c為分類類別;D 表示特征集與相應(yīng)類別的相關(guān)性;R 表示特征之間的冗余性。最小冗余最大相關(guān)的準(zhǔn)則如式(6)所示:

3)SRM算法
SVM-RFE主要以特征對(duì)分類器作用的大小來進(jìn)行特征排序,它能針對(duì)分類器有效選擇出相關(guān)特征,但是未考慮特征之間的冗余性。而最小冗余最大相關(guān)MRMR 算法是獨(dú)立于分類器所執(zhí)行的,不參與特征的選擇,因此本文將SVM-RFE 和MRMR融合形成SRM 算法,加強(qiáng)了SVM-RFE 的相關(guān)性,也考慮到了特征之間的冗余性。實(shí)驗(yàn)證明,其能有效提高分類效果。
在本文中,通過實(shí)驗(yàn),使用F 統(tǒng)計(jì)量(F(xi,c)表示F 統(tǒng)計(jì)量)和相關(guān)系數(shù)(Coor(xi,xj)表示相關(guān)函數(shù))計(jì)算最大相關(guān)和最小冗余獲得的效果較好,因此本文的最小冗余和最大相關(guān)計(jì)算公式如式(7)、(8)所示:

通過改進(jìn)SVM-RFE 算法和MRMR 算法對(duì)特征進(jìn)行排序,特征排序準(zhǔn)則如式(9)所示:

式(9)中,參數(shù)β∈[0,1],用來權(quán)衡SVM-RFE和MRMR;n 表示每次遞歸消除后所剩下特征個(gè)數(shù)。
SRM 算法思想如算法1 所示,首先初始化特征排序集,包括原始特征集和新排序特征集;然后,使用SVM 算法訓(xùn)練特征集,計(jì)算每個(gè)特征的得分w,再對(duì)每一個(gè)特征計(jì)算F(xi,c)和Coor(xi,xi),根據(jù)式(9)計(jì)算r;最后以r作為每一個(gè)特征的排序得分,選擇得分最小的特征,將其加入排序特征集中,再從原始特征中去掉該特征。重復(fù)以上過程,直到特征集中只剩下一個(gè)特征,將這個(gè)特征添加到排序特征集中。當(dāng)所有特征被排序后,輸出特征排序集。
算法1:SRM算法描述
算法1:SRM
輸入:原始特征集S
輸出:排序特征集R
1 Begin:
2 Set β
3 初始化特征集S={}
4 特征排序集R={}
5 Repeat:
6 使用SVM訓(xùn)練特征數(shù)據(jù)S
7 得到特征權(quán)重wi
8 計(jì)算wi2
9 for each featurei∈Sdo
10 計(jì)算F(xi,c)和Coor(xi,xi)
11 計(jì)算ri
12 end for
13 用ri作為特征排序得分
14 找出得分最小的特征,i=arg min{ri}
15 更新特征集和特征排序集R=[i,R];S=S/i
16 Until 所有特征被排序
17 end:輸出R
綜上所述,本文設(shè)計(jì)的VTSRM 方法首先對(duì)MRI 醫(yī)學(xué)圖像進(jìn)行特征提取,獲得特征信息數(shù)據(jù)后,由于這些特征中存在冗余和不相關(guān)特征,因此,我們?cè)O(shè)計(jì)了SRM 特征選擇方法,該方法以式(9)作為特征排序準(zhǔn)則對(duì)特征進(jìn)行排序,得到特征排序集后,每次從已排序的特征集中選擇一個(gè)特征加入新的特征集,再利用SVM 分類算法去訓(xùn)練數(shù)據(jù),當(dāng)獲得最高分類準(zhǔn)確率時(shí),此時(shí)的特征集就是我們所選擇的最優(yōu)特征集。因此VSTRM 方法的特征選擇最后是以分類準(zhǔn)確率作為判定依據(jù)從已經(jīng)排序的特征集中選擇出最優(yōu)特征子集,而該最高分類準(zhǔn)確率就是本文最終的分類準(zhǔn)確率。
本文實(shí)驗(yàn)所用的數(shù)據(jù)來自美國大型ADNI公共數(shù)據(jù)庫,樣本信息統(tǒng)計(jì)情況如表1 所示,分別列舉了AD ,NC 和MCI 的數(shù)量,年齡,簡(jiǎn)易精神狀態(tài)表(MMSE)。

表1 樣本信息統(tǒng)
經(jīng)過圖像分割后,得到灰質(zhì),白質(zhì)和腦脊液,分別統(tǒng)計(jì)各自體積,其中全腦體積(Total Intracranial Volume,TIV)為灰質(zhì)、白質(zhì)、腦脊液的體積之和,即TIV=GM+WM+CSF,三組數(shù)據(jù)的體積比重如表2所示。

表2 樣本體積信息
由于不同的人的大腦體積不同,僅僅看GM 和TIV 的體積顯然不能反映其是否真的發(fā)生萎縮,但是各個(gè)腦組織體積所占比例是一定的。因此,可以通過GM 占比對(duì)三組數(shù)據(jù)進(jìn)行比較,從表格中,可明顯看出三組數(shù)據(jù)的GM所占比例從NC到MCI、再到AD 逐漸變小,由此表明,AD 組患者腦灰質(zhì)萎縮最為嚴(yán)重,MCI 組也比正常組略為萎縮。
使用雙樣本T 檢驗(yàn)分別對(duì)三組數(shù)據(jù)的灰質(zhì)密度進(jìn)行差異分析,設(shè)置顯著性值,未矯正的閾值pValue ≤0.001,經(jīng)過FDR校正,F(xiàn)DR ≤0.05,設(shè)定體素集合超過50 個(gè),獲取患者的病灶區(qū),使用xjView 顯示患者和對(duì)照組的差異腦區(qū),AD-NC 組數(shù)據(jù)發(fā)生差異變化區(qū)域如圖1 所示,圖中帶有彩色區(qū)域表明腦區(qū)的差異情況,其中顏色較深的區(qū)域主要集中在海馬體部分,表明了在對(duì)AD-NC 組數(shù)據(jù)進(jìn)行實(shí)驗(yàn)后,發(fā)現(xiàn)患者的海馬體部分的萎縮現(xiàn)象較明顯,其他腦區(qū)也相應(yīng)發(fā)生不同程度的萎縮。NC-MCI 組數(shù)據(jù)發(fā)生差異變化區(qū)域如圖2 所示,與上一組NC-AD組實(shí)驗(yàn)結(jié)果相比,NC-MCI組的萎縮情況相對(duì)較少,較為嚴(yán)重的區(qū)域同樣集中在海馬體部分。MCI-AD組數(shù)據(jù)發(fā)生差異變化區(qū)域如圖3所示。

圖1 AD-NC腦區(qū)差異

圖2 NC-MCI腦區(qū)差異圖

圖3 MCI-AD腦區(qū)差異圖
綜上所述,分別對(duì)三組數(shù)據(jù)實(shí)驗(yàn)后,將萎縮較明顯的區(qū)域作為ROI。 然后使用工具WFU_Pick-Atlas 分別對(duì)上述三組數(shù)據(jù)中的ROI 區(qū)域制作相應(yīng)的二進(jìn)制掩碼,對(duì)其進(jìn)行重采樣,再使用制作的ROI 二進(jìn)制掩碼與相應(yīng)組中的灰質(zhì)數(shù)據(jù)進(jìn)行點(diǎn)乘計(jì)算,得到灰質(zhì)體積,即為所求形態(tài)學(xué)特征。
經(jīng)過以上特征提取后,獲得三組圖像數(shù)據(jù)的特征數(shù)據(jù)。分別對(duì)三組特征數(shù)據(jù)使用SRM 進(jìn)行特征排序,歸一化數(shù)據(jù)到[0,1]之間,采用徑向核函數(shù)的SVM 算法對(duì)三組數(shù)據(jù)進(jìn)行分類預(yù)測(cè)。從排序后的特征中,依次選擇不同的特征數(shù)構(gòu)建分類模型。
由于本文的特征選擇算法是對(duì)特征集進(jìn)行排序,因此在最后進(jìn)行預(yù)測(cè)分類時(shí),選擇出的特征維數(shù)k 也應(yīng)該被關(guān)注,為了觀察分類器性能隨著選擇出的特征維數(shù)的不同會(huì)產(chǎn)生不同的變化趨勢(shì),我們將本文改進(jìn)的特征選擇算法分別應(yīng)用于NC-AD,NC-MCI 和MCI-AD 組數(shù)據(jù)后,再對(duì)不同特征維數(shù)的數(shù)據(jù)進(jìn)行分類得到的分類準(zhǔn)確率如圖4、圖5、圖6所示。

圖4 不同特征數(shù)下分類準(zhǔn)確率比較(NC-AD)

圖5 不同特征數(shù)下分類準(zhǔn)確率比較(NC-MCI)

圖6 不同特征數(shù)下分類準(zhǔn)確率比較(MCI-AD)
由圖4、圖5、圖6給中的數(shù)據(jù)可知,當(dāng)特征數(shù)減少時(shí),算法的性能反而提高了。具體來說,對(duì)于NC-AD 組數(shù)據(jù),特征數(shù)達(dá)到第6 個(gè)特征時(shí),得到最高分類準(zhǔn)確率為93.33%,這時(shí),可以確定經(jīng)過SRM特征選擇后的前6 個(gè)特征即為我們所求最優(yōu)的特征子集。對(duì)于NC-MCI 組數(shù)據(jù),其最優(yōu)特征子集數(shù)為4,此時(shí)的分類準(zhǔn)確率為89.8%。對(duì)于MCI-AD組數(shù)據(jù),當(dāng)特征數(shù)為7 時(shí),其分類準(zhǔn)確率為91.81%。因此,從實(shí)驗(yàn)的結(jié)果可知,并不是特征數(shù)越多,訓(xùn)練出來的模型就越好。相反,當(dāng)特征維數(shù)較多時(shí),反而影響了分類的性能,出現(xiàn)這種情況的原因是由于冗余和不相關(guān)的特征影響了分類性能,而本文的算法剛好能去掉那些冗余或不相關(guān)的特征。
為了驗(yàn)證本文方法的有效性,還做了其他三種對(duì)比實(shí)驗(yàn),即未做特征選擇、PCA 特征選擇、SVM-RFE 特征選擇,其分類算法都是在徑向核函數(shù)的SVM 算法下進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)所得分類準(zhǔn)確率,敏感性,特異性結(jié)果如圖7、圖8、圖9所示。

圖7 不同算法下的準(zhǔn)確率比較

圖8 不同算法下的靈敏性比較

圖9 不同算法下的特異性比較
從圖7 中可以看出,本文所改進(jìn)的特征選擇算法在三組數(shù)據(jù)上實(shí)驗(yàn)得到的分類準(zhǔn)確率均比PCA,SVM-RFE得到的結(jié)果要好,最高分類準(zhǔn)確率在NC-AD 組實(shí)驗(yàn)中得到,為93.33%,NC-MCI 組數(shù)據(jù)和MCI-AD 組數(shù)據(jù)的分類準(zhǔn)確率分別為89.8%,91.81%。圖8、圖9 分別展示了不同特征選擇算法下的靈敏度和特異性,它們分別代表發(fā)現(xiàn)病人和判斷正常人的能力,而本文所提出的SRM 算法的敏感性和特異性都表現(xiàn)出了較好的性能,這表明SRM算法在研究阿爾茲海默癥MRI 分析方面具有一定的研究?jī)r(jià)值。
本文中,我們使用NC,MCI,AD三組數(shù)據(jù)進(jìn)行實(shí)驗(yàn),對(duì)每?jī)山M數(shù)據(jù)進(jìn)行雙樣本T 檢驗(yàn),根據(jù)兩組數(shù)據(jù)的差異,確定各組圖像中的感興趣區(qū)域ROI,計(jì)算ROI的灰質(zhì)體積作為形態(tài)學(xué)特征,然后對(duì)MRI數(shù)據(jù)進(jìn)行紋理特征提取。將提取的特征線性組合形成特征信息數(shù)據(jù),使用了改進(jìn)的SRM 算法對(duì)特征進(jìn)行排序,再從排序的特征中選擇出最優(yōu)特征子集,并進(jìn)行分類預(yù)測(cè)。實(shí)驗(yàn)結(jié)果證實(shí)了本文方法能獲得較好的分類性能,對(duì)阿爾茲海默癥疾病的診斷能起到一定的輔助作用。