王之瓊, 蔣文靜, 劉秉佳, 陳思沖
(東北大學 醫學與生物信息工程學院,遼寧 沈陽 110169)
輕度認知障礙(mild cognitive impairment, MCI)為阿爾茨海默病(Alzheimer′s disease, AD)的前期階段。目前全球約有5000萬癡呆癥患者,其中2/3是阿爾茨海默病,據預測,到2050年,癡呆的人口可能會增加到1.52億[1]。阿爾茨海默病是一種致死性疾病,輕度認知障礙患者一旦轉化為阿爾茨海默病則不可逆轉。相比之下,輕度認知障礙患者由于大腦病變程度較低,通過治療可以延緩甚至阻止其向不可逆的阿爾茨海默病轉化。但是,輕度認知障礙臨床診斷困難重重,僅從結構上的影像檢查結果來看,患者的病變不明顯;病理檢測敏感度不高且實施難度大;而最常用的神經心理學測試也存在主觀性較強的問題。因此,研究如何對輕度認知障礙進行準確可靠的計算機輔助診斷可以使更多輕度認知障礙患者得到早診斷和早治療,從而降低阿爾茨海默病的發病率,在老齡人口急劇增長的今天尤為重要。
近年來,功能磁共振成像(functional magnetic resonance imaging, fMRI)技術的快速發展為大腦疾病的研究提供了思路。其中,靜息態功能磁共振成像(resting-state functional magnetic resonance imaging, rs-fMRI)是診斷輕度認知障礙等神經退行性疾病的一種重要手段,它可以有效、無創、安全地檢測大腦各腦區的激活狀態,有助于對因神經退行性疾病或其他原因難以執行復雜任務患者的大腦功能進行研究[2]。
極限學習機(extreme learning machine, ELM)是一種基于前饋神經網絡的學習算法,相較于傳統算法,具有學習速度快、泛化能力強、準確率高的特點。研究發現,使用極限學習機對于處理不平衡的數據能產生相較于支持向量機(support vector machine, SVM)算法更好的分類效果,且在參數選擇及學習速度上也有較為明顯的優勢,目前極限學習機逐漸被應用于多領域研究中[3-10]。
目前已有研究運用復雜網絡理論,基于功能磁共振圖像構建腦網絡,通過分析大腦各腦區間功能上的關聯,進行阿爾茨海默病或輕度認知障礙的輔助診斷。其中大部分研究[11-12]采用的都是支持向量機算法,但結果表明,支持向量機算法應用于復雜疾病的輔助診斷時準確率較低,且該算法由于需要設置參數等原因,耗時較長。Jongin Kim的團隊曾將極限學習機算法應用于阿爾茨海默病和輕度認知障礙的輔助診斷,準確率相比于支持向量機算法均有一定提升,但該團隊只分析了結構磁共振圖像,其輕度認知障礙分類準確率僅為78.28%[13]。
為解決目前輕度認知障礙疾病輔助診斷方法準確率低、耗時長的問題,本文綜合考慮腦網絡和輕度認知障礙疾病的各種特性,選擇大腦靜息態的功能磁共振圖像運用復雜網絡理論進行分析,提出一種基于極限學習機算法的輕度認知障礙輔助診斷方法。
首先對靜息態功能磁共振圖像進行預處理,提取時間序列并構建腦網絡,然后提取腦網絡特征并進行特征選擇,最后通過極限學習機算法訓練分類模型并測試分類結果。基于極限學習機的輕度認知障礙輔助診斷過程如圖1所示。

圖1 基于極限學習機的輕度認知障礙輔助診斷過程Fig.1 Processing of computer-aided diagnosis of MCI based on ELM
對靜息態功能磁共振圖像進行預處理,其過程主要有以下5步:時間層校正、頭動校正、噪聲去除、空間標準化和平滑。對于每份預處理后的靜息態功能磁共振圖像,使用腦模板與其進行匹配,將大腦分割為大腦區和小腦區,常用的腦模板包括AAL(automated anatomical labeling)模板和Craddock模板。
將每個大腦區作為腦網絡中的節點,求出所有節點的平均時間序列。把節點間的皮爾遜相關系數作為腦網絡的邊,從而得到相關矩陣,最后對相關矩陣進行閾值化得到腦網絡。第k個被試的腦網絡的節點i與節點j之間邊的計算公式可表示為:
(1)

本文采用的閾值化方法是稀疏度閾值法,以腦網絡的稀疏度作為閾值,通過閾值來控制矩陣中“0”與“1”的比例,得到不同閾值下的無權腦網絡。
本研究對構建好的腦網絡進行網絡分析,并提取出度中心性、介數中心性、聚類系數、效率、網頁排名中心性、以及匹配特性6種特征,記為:F0={f1,f2,f3,f4,f5,f6}。
f1:度中心性。
節點的度是該節點與其他節點連接的邊的個數,將度歸一化可得度中心性,節點i的度中心性的定義為:
(2)
式中:Di為節點i的度;N為網絡中節點總數。
f2:介數中心性。
節點i介數中心性表現了該節點信息流向其他節點的效率,介數中心性越大表示該節點對網絡中信息通信越重要。其定義為:
(3)

f3:聚類系數。
節點i的聚類系數刻畫了節點i與鄰居節點聚集在一起的緊密程度。定義式為:
(4)
式中:Ri為節點i及其周邊ki個臨節點組成的網絡的邊數和。
為了表示整個網絡節點的緊密程度,須將網絡中的所有節點的聚類系數平均化,得到平均聚類系數。
f4:效率。
網絡的效率衡量了網絡中信息交換的效率。而針對節點i而言,則量化為i被移除時其鄰居節點信息交流的效率,反映網絡的局部信息傳輸能力。節點i的局部效率定義為:
(5)
式中:Gi指節點i的鄰居所構成的子圖;NGi是子圖中節點的個數;djk是節點j和節點k之間的最短路徑長度。
f5:網頁排名中心性。
網頁排名中心性起初是用來根據網站的外部鏈接和內部鏈接的數量和質量來衡量網站的價值,該特征可以從概率的角度衡量一個節點在網絡中的重要性。簡而言之,某個節點的網頁排名中心性越大,網絡連接到該節點的可能性就越大,該節點在網絡中的重要程度就越大。
(6)

f6:匹配特性。
匹配特性是一個全局特征,計算了網絡中所有節點度的相關系數,正向的匹配系數說明節點傾向于連接到具有一定相似程度的其他節點。
為了消除不同大腦間的個體隨機差異,本方法計算匹配特性的標準分數:構造n個與樣本腦網絡節點數與邊數相同的隨機網絡,計算它們的匹配特性,以及這些匹配特性的平均值u與方差σ,匹配特性的標準分數計算公式:
(7)
其中A的計算式為:
(8)
式中:Di為節點i的度;Dj為節點j的度;N為網絡中節點總數。
需要注意的是,上述特征中,匹配特征f6是腦網絡的全局特征,即每個腦網絡只有一個取值,其余特征均是節點特征,即腦網絡中的每一個節點都有一個取值。
在不同的閾值下,腦網絡是不同的,從中提取出的特征值也不同。因此,為了綜合考慮各個閾值下腦網絡的特點,本文對于每個樣本,計算一定閾值范圍內所有腦網絡的對應特征值,作出ROC曲線,以ROC曲線下面積作為最終從樣本中提取出的特征集F′0。
計算出上述特征集F′0后,還需要進行特征選擇,得到具有高區分度的特征子集F。此步驟對構建分類器至關重要,有效的特征選擇能夠降低數據處理量,節省時間,避免數據冗余,減輕噪聲影響,有助于快速建立分類模型并提高分類效果。本文采用LASSO算子以實現特征選擇。
1.3.1 訓練
本文通過比較不同隱含層節點數和激活函數所得到的交叉驗證準確率,最終選擇準確率最高時的極限學習機參數作為訓練步驟中的訓練參數。
然后,將訓練集的特征矩陣輸入極限學習機中進行訓練,如算法1所示。
算法1:訓練極限學習機模型
//輸入F,T,N,L,g(x):訓練集特征矩陣、樣本標簽、樣本數、隱含層節點數以及激活函數
//輸出T:診斷結果
Fori=1 toLDo
隨機生成wi與b;
Fori=1 toNDo
x=F[i];
Fori=1 toLDo
Forj=1 toNDo
H(i,j)=g(wi·xj+b);
β=TH-1;
returnβ
對于每一個隱含層節點,極限學習機會隨機初始化權重wi和偏置項b,然后輸入訓練樣本得到輸出H,確定該隱含節點的輸出權重β。式中g(x)是激活函數是滿足極限學習機通用逼近能力定理得的非線性分段連續函數,常用的有sigmoid函數,tahn函數等。
與傳統算法不同的是,極限學習機算法不需要在每次迭代的過程中不斷地調整各項參數,而是在隨機確定了輸入權重wi和隱層的偏置b后,輸出矩陣H就是唯一的,故其網絡訓練過程能夠作為一個線性系統Hβ=T的求解,其最小二乘最優解即為輸出權重:β=H?T。其中,“?”是矩陣的偽逆。
1.3.2 輔助診斷
最后,上一步訓練中得到了極限學習機模型中的各項參數。將待測樣本的特征矩陣輸入模型即可得到模型的預測T。如算法2所示。
算法2:測試極限學習機模型
//輸入F,N,
//輸出T:診斷結果
Fori=1 toNDo
xj=F[i];
Fori=1 toLDo
Forj=1 toNDo
H(i,j)=g(wixj+b);
T=Hβ;
returnT
算法中的g(x)是激活函數,是一個滿足極限學習機通用逼近能力定理得的非線性分段連續函數,使得極限學習機擁有擬合非線性模型的能力,常用的有sigmoid函數,tanh函數等。
本文的數據皆來源于阿爾茨海默病神經影像學倡議(alzheimer′s disease neuroimaging initiative, ADNI, http://adni.loni.usc.edu/)數據庫,其中包括認知正常(cognitive normal, CN)組47例和輕度認知障礙(mild cognitive impairment, MCI)組53例,總共100例。所有數據都為Philips 3.0 T MR成像系統采集的rs-fMRI圖像,且每位被試都經過專業的醫師進行確診。被試數據的各項基本信息如表1所示。

表1 被試基本信息Table 1 The basic information of subjects
獲取數據以后,本文基于DPABI(data processing & analysis for brain imaging)工具[14]對每份磁共振圖像皆進行了預處理。對于每份預處理后的rs-fMRI圖像,使用AAL腦模板與其進行匹配,根據蒙特利爾神經研究所(montreal neurological institute,MNI)給出的腦區坐標,AAL標準腦模板將大腦分割為116個腦區,其中26個區域為小腦區,其余90個左右對稱的區域為大腦區,每個半球各45個。按照圖2方式構建腦網絡,對于輕度認知障礙疾病,只需對大腦區進行分析,故取腦網絡節點數N=90。由于在不同的閾值下會生成性質不同的腦網絡,使得分類結果具有差異性,故本文參考Khazae等[15]的研究進行閾值選擇,使得最終所得腦網絡的稀疏度范圍在thd∈[0.12,0.4],步長σ=0.02。然后對不同閾值下的腦網絡進行綜合分析。

圖2 腦網絡構建流程Fig.2 Procedure of brain network construction
對于每個樣本的腦網絡,按照本文1.2小節所述方法提取出特征集F′0。這樣對于每個樣本都可以提取出451個特征,包括5個節點特征:f1~f5與1個網絡特征:f6。特征選擇采用LASSO算子,選取正則化參數λ=0.02,最終計算出權重值非零的特征共有27個,作為用以分類的特征集F。
提取出每個腦網絡的特征矩陣后,本文按照7∶3的比例對100個實樣本隨機劃分出訓練集與測試集,并且確保每個數據集內認知正常與輕度認知障礙的比例相同。
在進行訓練之前,首先要對極限學習機的參數進行選擇,包括單隱層前饋網絡隱層節點數與合適的激活函數。合適的參數對訓練出高效準確的模型至關重要。本文除了不使用激活函數直接將線性疊加作為結果輸出外,一共選擇了3種非線性激活函數進行討論:
sigmoid函數:
(9)
tanh函數:
(10)
RBF函數:
g3(x)=e-γ‖x-x′‖
(11)
其中值得一提的是,RBF作為激活函數時,x代入的是樣本特征矩陣F。x′和γ是網絡參數,相當于之前的權重w和偏置項b。式中‖x-x′‖計算的是F與w的距離,本文分別計算了L1距離和L2距離。
本文在訓練集上使用留一法交叉驗證來尋找合適的參數。首先在隱層節點數L∈[20,200]的范圍內對極限學習機分類器進行驗證,然后比較得到最優準確率對應的激活函數。使用不同激活函數進行分類的準確率對比如圖3所示。

圖3 不同參數下的分類準確率比較Fig.3 Comparison of accuracies with different parameters
通過對比可以看出對于輕度認知障礙的分類問題,直接將線性結果輸出的效果最好,在70個樣本的訓練集中計算交叉驗證準確率可以達到95%以上,且結果較為穩定,隱層節點數達到28個以后準確率便不再有大幅度變化。而其它的激活函數分類準確率均未超過90%。
然后再對比線性的極限學習機的驗證結果,選擇隱層節點數為34時,交叉驗證準確率最高為96%,該驗證結果如圖4所示。

圖4 線性ELM在不同隱層節點數下的準確率Fig.4 The accuracy of linear ELM under different numbers of hidden layer nodes
按照算法1將訓練集輸入極限學習機進行訓練,并按照算法2將測試集輸入訓練好的極限學習機模型進行診斷。同時進行兩組對照實驗,分別是使用同樣的樣本對支持向量機和BP神經網絡進行訓練和測試。其中,BP神經網絡的學習率為0.2,迭代次數是10 000次。支持向量機的核函數為RBF函數。然后對比這3個模型的各項評價。
本文采用準確率(accuracy)、靈敏度(sensitivity)、特異度(specificity)、CN檢出率(NPV)、MCI檢出率(PPV),ROC曲線下面積(area under the curve,AUC)和訓練耗時(time consumption)7項指標對測試結果進行評價,其中準確率、靈敏度、特異度,認知正常檢出率和輕度認知障礙檢出率的定義式如表2所示。

表2 部分評價指標Table 2 A part of valuation indexes
為了進一步證實極限學習機算法在輕度認知障礙輔助診斷中的優勢,本文采用了和極限學習機輔助診斷實驗中相同的訓練集和測試集樣本,分別對支持向量機模型和BP神經網絡模型進行了訓練以及測試,并在同一評價體系中對其結果進行評價和比較。其中,測試皆由搭載Intel(R) Core(TM) i5-7200 CPU 64位處理器的同一臺MateBook D筆記本電腦完成,相關算法皆由Python實現。
本文的測試結果顯示,極限學習機的準確率最高,高達93.3%,支持向量機為80%,BP神經網絡為73.3%;敏感度最高的是BP神經網絡,高達 100%,極限學習機和支持向量機分別為94.4%和64.7%;支持向量機的特異度最高,為100%,極限學習機為92.3%,BP神經網絡為61.9%;認知正常檢出率最高的是BP神經網絡,支持向量機和BP神經網絡分別為68.4%和 52.9%。支持向量機的輕度認知障礙檢出率最高,極限學習機為94.4%,BP神經網絡為52.9%。總體來看,僅有極限學習機的各項指標均達到90%,測試結果如表3所示。

表3 測試結果Table 3 Test results %
極限學習機的ROC曲線下面積為0.981,支持向量機的曲線下面積為0.968,BP神經網絡的曲線下面積為0.951。結果表明,基于極限學習機算法與其他經典算法相比,其所構建的分類器取得了最佳表現。3種分類模型的ROC曲線見圖5。

圖5 分類模型的ROC曲線Fig.5 ROC of classification models
本文分別對3種算法測量了10組訓練數據取平均值作為最終結果,結果顯示,在樣本總數70個的訓練集上,極限學習機分類器的訓練時間最短,耗時0.011 s。支持向量機訓練速度次之,耗時0.028 s。BP神經網絡運算速度較慢,耗時2.359 s。3種算法的訓練時長見圖6。

圖6 訓練時長Fig.6 Time consumption of three algorithm
從表3的數據可以得出,3種方法中,僅有極限學習機應用于輕度認知障礙輔助診斷時,各項評價指標均高于92%,分類準確率更是達到3種算法的最高值93.3%,分別比支持向量機和BP神經網絡方法高出13.3%和20.0%。值得一提的是,作為醫學領域的重要指標,極限學習機的漏診率(1-Sensitivity=5.6%)和誤診率(1-Specificity=7.7%)也都在8%以下,可以推斷極限學習機對于推動輕度認知障礙輔助診斷的臨床應用具有重要意義。
而支持向量機和BP神經網絡雖然在個別指標上得分較高,卻在其他指標上有所欠缺。例如,支持向量機的特異度雖高達100%,而靈敏度卻只有64.7%,說明其更傾向于將被試診斷為正常人,這導致了支持向量機診斷具有較高的漏診率。同理,BP神經網絡則更傾向于將被試診斷為輕度認知障礙患者,擁有較高的誤診率。而極限學習機在各項評價指標上都在92%以上,漏診率和誤診率都在8%以下,能更為準確地對被試進行分類,同時使特異度和敏感度在較高水平保持平衡。
在訓練時間上(見圖5),極限學習機算法也是最快的,在訓練集的樣本數為70時,訓練時間僅為0.011 s,分別只有支持向量機(0.028 s)的39.3%和BP神經網絡(2.359 s)的0.5%。
綜合上述研究結果表明,基于極限學習機的輕度認知障礙診斷方法與基于支持向量機和BP神經網絡的診斷方法相比在多方面具有明顯優勢。
非線性的激活函數可以使極限學習機可以擬合出非線性的數據模型,從而解決更復雜的問題,但根據圖3,本實驗中不使用激活函數的線性模型分類效果是最好,可以推測利用腦網絡特征解決輕度認知障礙分類問題的數據模型更接近于線性。對于隱含層節點的設置,理論上來說數量越多越可以更好地擬合訓練數據,但由于數據的個體差異,過多的節點數會產生過擬合,降低模型的泛化能力,這就是圖1中部分曲線隨著節點數的增加反而下降的原因。對于小樣本的訓練數據更容易產生過擬合的現象,所以需要通過測試集反映訓練出的模型實際的分類狀況。
1)將極限學習機算法與復雜網絡理論的分析方法應用于輕度認知障礙的輔助診斷,較大程度提高了輔助診斷的準確率和速度。
2)對極限學習機分類器在不同的隱含層節點數和不同的激活函數時的分類準確率進行討論,進一步提升分類器性能 。
3)將極限學習機算法與支持向量機和BP神經網絡算法在輕度認知障礙輔助診斷中的性能差異進行分析,進一步證實基于極限學習機的輕度認知障礙輔助診斷方法的高效性。
然而,對于機器學習來說,訓練樣本量的大小對模型會產生一定影響。由于目前開源數據庫中符合要求的樣本有限,未來的研究將考慮與醫院合作,獲取更多的一手數據來驗證本文的結果。在獲得更優更多的數據進一步驗證后,本文所述方法的應用將有效幫助實現輕度認知障礙的早發現、早診斷、早治療,從而降低老年人罹患AD的風險。