張 冉,吳世洋,葛海濤,胡俊峰,鞏 萍*
(1.徐州醫科大學醫學影像學院,江蘇徐州 221004;2.徐州醫科大學醫學信息學院,江蘇徐州 221004)
帕金森病(Parkinson's disease,PD)是一種常見的神經系統變性疾病,多見于老年人,平均發病年齡約為60歲。靜止性震顫、肌強直及運動減少是該病的主要臨床特征[1]。PD在病理上最主要的改變是中腦黑質多巴胺能神經元的變性死亡,導致紋狀體多巴胺的含量明顯減少[2]。目前臨床上一般根據英國帕金森病協會腦庫標準對PD患者進行診斷。PD患者早期的癥狀難以察覺,易被忽略,被確診時病情大多已經是中晚期,這導致絕大多數PD患者錯失了早期治療的時機。因此,PD的早期智能診斷是目前急需解決的問題[3-5]。
擴散張量成像(diffusion tensor imaging,DTI)近幾年發展迅速,為PD的早期診斷研究提供了新方法[6]。DTI是在擴散加權成像(diffusion weighted imaging,DWI)的基礎上發展起來的,能直觀顯示白質纖維束的改變,是目前唯一可在活體內無創地研究腦白質纖維的方法[7]。目前,針對PD患者的研究多集中在腦微觀結構改變的層面上。如楊濤等[8]通過對比PD組與對照組雙側丘腦、尾狀核頭、黑質、殼核及蒼白球的各向異性分數(fractional anisotropy,FA)、表觀擴散系數(apparent diffusion coefficient,ADC),發現早期 PD組較對照組減低。Zhang等[9]通過研究腦白質感興趣區的FA值,認為腦白質的特定區域的FA值可以作為預測PD患者冷漠嚴重程度的一個標志。Gattellaro等[10]通過在實驗對象DTI腦圖像主要纖維束和黑質核團上繪制感興趣區,發現額葉和頂葉白質的廣泛的微結構損傷在PD早期已經發生。以上研究表明,PD患者早期已有腦白質的微觀結構改變。本文通過對正常對照組和PD組的DTI進行預處理,以PANDA軟件自帶的John-Hopkins(約翰霍普金斯)白質分區圖譜(即WMlabel圖譜)和纖維追蹤圖譜(即WMtract圖譜)為模板[11],分別提取各腦區的FA值并以此作為特征值進行特征提取與降維,然后利用支持向量機(support vector machine,SVM)分類器對數據進行模型訓練與測試,以實現PD的分類。
本文選取2014—2016年經徐州醫科大學附屬醫院神經科醫生診斷的36例PD患者為實驗組(PD組),其中男21例、女15例,年齡50~80歲,平均年齡(63.7±6.24)歲。所有入組患者符合英國帕金森病協會腦庫原發性帕金森病臨床診斷標準,左旋多巴制劑治療有效或曾經有效。同時納入同期采集的36例健康志愿者作為正常對照組(正常組),其中男18例、女 18 例,年齡 50~80 歲,平均年齡(63.3±6.36)歲。2組的年齡(P=0.78>0.05)和性別(P=0.38>0.05)均無組間差異。2組被試者在年齡、性別、學歷上相匹配,并且均為右利手,無MRI禁忌、無明顯頭部外傷、無腦實質病變、無藥物濫用、無酗酒等情況,其個人與家屬均已簽署知情同意書。本研究取得了醫院倫理委員會的批準。
利用美國GE公司產3.0TDiscoveryMR750w MRI掃描儀對受試者進行MRI掃描,采用單次激發平面回波成像(single-shot echo-planar-imaging,SS-EPI)序列,主要參數:擴散梯度因子b1 000 s/mm2,重復時間(repetition time,TR)5 900 ms,回波時間(echo time,TE)900ms,層厚2mm,層數72層,平面分辨力2 mm,加速因子為2。沿64個方向施加擴散梯度脈沖,掃描平面為橫斷面。
在MATLAB2016a平臺上,利用北京師范大學國家認知與心理研究所研制開發的PANDA軟件對采集的72個樣本進行圖像預處理。首先將DTI的DICOM數據轉換成NIFTI格式,為減少DTI在擬合過程中的運算量及提高后續配準的準確性,去掉頭皮等非腦組織結構(如圖1、2所示)(正常組和PD組的DTI圖像并未存在明顯差異),為減少干擾因素的影響,進行渦流校正和頭動校正;然后將圖像以1 mm×1 mm×1 mm分辨力重新采樣,再將圖像空間標準化,得到配準后的圖像[12]。

注:圖像均已去掉頭皮等非腦組織結構

圖1 健康成年人的DTI圖像
對配準后的圖像,按腦白質結構分別參考WM-label圖譜和WMtract圖譜對大腦進行分區,其中WMlabel圖譜將大腦分成了50個腦區,WMtract圖譜將大腦分成了20個腦區。分別計算各腦區的FA平均值,以此作為原始特征子集。然后分別采用Relief算法和主成分分析(principal component analysis,PCA)法對原始特征子集進行特征選擇與降維處理。Relief算法根據各個特征和類別的相關性賦予特征不同的權重,權重小于某個閾值的特征子集將被移除。特征子集的權重越大,表示該特征的分類能力越強,反之,表示該特征分類能力越弱[13]。PCA把數據從原來的坐標系轉換到新的坐標系,以方差最大的方向作為坐標軸方向。轉換后可發現前面的幾個主成分包含了原數據的絕大部分信息。貢獻率指某個主成分的方差占全部方差的比重,貢獻率越大,說明該主成分所包含的原始變量的信息越強。累積貢獻率指多個主成分疊加在一起所包含的信息占原始信息的百分比。一般選取累積貢獻率達到85%以上的前K個主成分。本文使用MATLAB工具箱princomp函數實現PCA。
對特征選擇與降維后的特征子集,利用SVM進行分類研究。本文使用臺灣大學林智仁(Chin-Jen Lin)博士團隊開發設計的通用SVM軟件包[14],核函數采用最常用的徑向基函數(radial basis function,RBF)。影響SVM系統性能的關鍵因素是RBF核函數中的懲罰因子c和參數g,選用網格搜索進行分類器參數的尋優。根據經驗初設c和g的搜尋范圍為2-8~28。重復進行網格搜索,得到最優參數best_c和best_g。由于研究中樣本數量較少,所以選擇留一法(leaveone-out)進行交叉驗證。留一法每次只留下一個樣本做測試集,其他樣本做訓練集,這使得留一法中被實際評估的模型與期望評估的全部數據集訓練出來的模型很相似,所以其評估結果比較準確[15]。本實驗共72例樣本,每次保留一個樣本用于測試,其余71例用于分類器的訓練。
為了評價算法的好壞,采用分類精度、ROC曲線及AUC值來評價[16]。分類精度是用被分類的樣本數除以總樣本數計算得到的。一般來說,精度越高,分類性能越好。ROC曲線越靠近左上角,其AUC值越大,分類性能就越好。
2.1.1 基于Relief算法的特征提取結果
將各腦區FA值經Relief排序后,基于WMlabel分區的前30個腦區權重為正,基于WMtract分區的前10個腦區權重為正。把每個腦區的FA值看作一個特征子集,如圖3、4所示。選用權重為正的特征子集進行分類訓練與測試。

圖3 基于WMlabel分區特征權重直方圖
2.1.2 基于PCA降維的特征提取結果
先分別將2種圖譜的各腦區FA值進行主成分分析,取累積貢獻率大于85%的前K個主成分進行分類訓練和測試。如圖5、6所示,在累積貢獻率大于85%時,WMlabel分區取前5個主成分,WMtract分區取前5個主成分。
2.2.1 基于Relief算法的分類結果

圖4 基于WMtrace分區特征權重直方圖

圖5 基于WMlabel分區PCA降維后帕累托圖

圖6 基于WMtract分區PCA降維后帕累托圖
對權重為正的腦區進行模型訓練后,發現基于WMlabel分區的累積前4個腦區和基于WMtract分區的累積前5個腦區的分類精度最高,如圖7、8所示。選用這些腦區的FA值作為最優子集,其分類精度及AUC值見表1。
2.2.2 基于PCA降維的分類結果
對累積貢獻率大于85%的主成分進行模型訓練后,發現基于WMlabel分區的FA值在累積貢獻率為99%時分類精度最高,基于WMtract分區的FA值在累積貢獻率為90%時分類精度最高,如圖9、10所示。選擇累積貢獻率最高的前K個腦區的FA值作為最優主成分,放入訓練得到的模型中,其分類精度及AUC值見表2。

圖7 基于WMlabel分區的前30個腦區對應的分類精度

圖8 基于WMtract分區的前10個腦區對應的分類精度

表1 基于Relief算法的最高分類精度和AUC值

圖9 基于WMlabel分區累積貢獻率與分類精度關系圖

圖10 基于WMtract分區累積貢獻率與分類精度關系圖

表2 基于PCA的最高分類精度和AUC值
由表1~2可見,基于WMlabel分區,Relief算法的分類精度及AUC值最大,分別為81.94%和0.846 5。正常組共36例,其中有31例被正確分類,5例被錯誤分類到PD組;PD組共36例,其中有28例被正確分類,8例被錯誤分類到正常組。基于WMtract分區,PCA的分類精度及AUC值最高,分別為73.61%和0.750 8。正常組共36例,其中有27例被正確分類,9例被錯誤分類到PD組;PD組共36例,其中有26例被正確分類,10例被錯誤分類到正常組。2種最佳分類方法下的ROC曲線如圖11所示。

圖11 分類精度最高的ROC曲線
PD是臨床常見的進行性神經變性疾病,主要是由黑質致密部多巴胺能神經元變性缺失所致,初期癥狀不明顯,患者確診時往往已處于中晚期。因此,PD的早期診斷是目前臨床中面臨的一大難題。目前,PD的診斷主要依靠病史、臨床表現和體格檢查。隨著MRI技術的發展,功能磁共振成像(functional MRI,fMRI)、DTI等作為新的MRI成像技術,可以無創性獲取腦結構和功能連接信息,為PD的早期診斷提供了新的影像學標記。基于DTI的功能性腦網絡可以更直觀地顯示各腦區之間的纖維連接。DTI使無創性、非侵入性研究白質纖維束成為可能,可以測量單個體素內的FA值,從而間接反映白質纖維束的完整性,并根據FA的方向追蹤白質纖維束的方向。研究表明,與正常對照組相比,PD組雙側額頂部、放射冠、胼胝體和扣帶回的腦白質FA明顯減低,因此FA作為一種有效的影像學特征為PD的早期診斷提供了可能。在PD的早期診斷中,大部分研究是基于統計學分析進行的。近年來,隨著人工智能的發展,不少學者提出將模式識別方法應用于PD的早期診斷。SVM作為一種模式識別分類器在解決非線性、小樣本問題上具有獨特優勢。如龍丹[17]通過提取分析fMRI的區域一致性、低頻振幅和腦網絡指標,利用SVM進行了PD的計算機輔助診斷,取得了不錯的分類性能。熊嘉臻等[18]利用SVM對提取到的腦脊液、灰質、白質、低頻振幅、區域一致性等特征進行了PD的分類研究,結果表明,基于MRI影像學分析方法可以對早期PD的出現進行準確率較高的預測。
本文選用2種圖譜作為模板,分別提取DTI圖像的FA值,通過預處理將MRI圖像信息轉化為計算機可讀取的特征向量,使用Relief算法和PCA方法對數據進行特征選擇與降維,然后利用SVM分類器對PD組和正常組的特征進行分類識別。實驗結果表明,基于WMlabel分區的Relief算法獲得了較高的分類精度,能夠實現對正常組和PD組的有效分類。最早提出的Relief算法主要針對二分類問題,本實驗數據具有明顯的二分類特性,所以采用Relief算法優化訓練集,能夠提高模型精度;并且SVM在解決非線性、高維模式識別和小樣本問題上具有明顯優勢,實驗結果表明本文所用方法取得了很好的分類效果。在后續研究中,可以考慮增加對PD多個亞型的分類,擴大研究對象范圍,進一步提高模型精度與泛化能力,為臨床診斷提供更有效的參考依據。