基于數據挖掘的腦白質疏松癥相關因素分析

2018-10-31 07:43:38娜迪熱艾孜熱提艾力封紅亮張帥美王美瑤劉煜敏

中國卒中雜志 2018年10期

娜迪熱·艾孜熱提艾力，封紅亮，張帥美，王美瑤，劉煜敏

腦白質疏松癥（leukoaraiosis，LA）是雙側側腦室周圍和（或）半卵圓中心區腦白質異常的影像學概念[1]，屬于腦小血管病的一種。LA在腦磁共振成像（magnetic resonance imaging，MRI）掃描時T1加權像上呈等信號或低信號影，T2加權像（T2-weighted imaging，T2WI）和液體衰減反轉恢復序列（fluid attenuated inversion recovery，FLAIR）上均為高信號影[2]。需指出的是，LA有廣義和狹義之分，廣義LA指血管源性、中毒、感染、脫髓鞘、腦積水、腫瘤和免疫等多種病因引起的腦白質影像學改變；狹義LA專指血管源性LA（vasogenic leukoaraiosis，VLA）。本研究排除非血管因素所致LA患者，分析VLA相關因素。目前國內外研究報道年齡和高血壓為VLA獨立的危險因素[3]，也有報道提出腦動脈粥樣硬化、既往腦梗死或腦出血病史、糖尿病、吸煙、尿酸水平等多種因素與VLA相關[4-6]，但仍存在多種爭議[7]。既往大部分有關VLA相關因素的研究中使用單因素和多因素Logistic回歸分析方法，有些研究中存在統計學分析不嚴謹或樣本量較少等問題，因此，本研究嘗試使用數據挖掘技術分析1197例住院患者臨床數據，探討VLA相關因素。

1 研究對象與方法

1.1 研究對象回顧性地收集2015年4月-2017年2月武漢大學中南醫院神經內科滿足條件的住院患者。納入標準：①年齡＞40歲；②已通過1.5T或3T超導磁共振掃描獲得T2WI-FLAIR圖像。排除標準：①磁共振T2WI-FLAIR圖像質量影響Fazekas評分的評估；②診斷為特異性的中樞神經系統脫髓鞘疾病或中樞神經系統感染性疾病；③MRI發現顱內腫瘤，顱內血腫等占位性病變；④患有急性或者陳舊性大面積腦梗死（＞1/3大腦中動脈供血區），或者存在直徑＞2 cm的新發或陳舊側腦室旁梗死灶；⑤存在其他可能影響Fazekas評分的疾病，如嚴重腦外傷、腦結構變異和各種原因導致的腦積水等；⑥住院資料中擬研究因素相關數據缺失較多等患者。

1.2 臨床數據收集收集的擬相關因素數據包括性別、年齡、顱內動脈狹窄[計算機斷層掃描血管成像（computed tomography angiography，CTA）或磁共振血管造影（magnetic resonance angiography，MRA）檢查發現任一顱內動脈狹窄超過50%]、頸內動脈狹窄程度、高血壓病史、2型糖尿病史、冠狀動脈粥樣硬化性心臟病史、吸煙史。檢驗科指標：白細胞計數、紅細胞計數、血紅蛋白濃度、血小板計數、紅細胞壓積、平均紅細胞體積、紅細胞分布寬度、平均紅細胞血紅蛋白濃度、平均紅細胞血紅蛋白含量、尿素氮、肌酐、尿酸、空腹血糖、甘油三酯、總膽固醇、高密度脂蛋白和低密度脂蛋白。為了避免涉及患者隱私，在錄用數據時為每位患者進行單獨編碼，隱去姓名、住院號等可能暴露患者身份信息的數據。

Fazekas評分：根據T2WI-FLAIR圖像顯示的腦白質損害程度和部位不同可進行Fazeks評分[8]。評分規則為側腦室旁高信號：0分：無病灶；1分：病灶呈帽狀或鉛筆樣薄層；2分：呈光滑的暈圈病灶；3分：不規則的腦室旁高信號，延伸到深部白質。深部白質高信號：0分：無病灶；1分：點狀病灶；2分：病灶開始融合；3分：病灶大片融合[9]。對側腦室旁和深部白質評分進行相加獲得最終Fazekas評分（0～6分）。此項評分作為數據分析時目標特征，即為患者分類依據。Fazekas評分0分為非LA患者，評分1～6為LA患者。上述住院資料收集和Fazekas評分均由兩名神經內科醫師獨立完成，數據不一致時通過協商或第三方再次審閱患者資料后確定。

1.3 數據挖掘方法分析步驟數據挖掘是通過機器學習的算法搜索與發現隱藏于大量數據中的信息與知識的過程。隨著醫院電子病歷系統的完善，臨床醫療數據每天都以指數級別增長，而數據挖掘的優點正是快速有效地處理和分析大規模數據。因此本研究中嘗試利用數據挖掘方法分析臨床數據，以此探討VLA相關因素。數據挖掘方法由三大步驟組成，分別為數據預處理、相關因素分析和預測模型的訓練及其評價（圖1）[10]。本文將通過這3個步驟講述分析數據過程。

圖1 數據挖掘的步驟圖

1.3.1 數據預處理首先從中南醫院電子病歷系統中收集研究對象臨床數據。臨床資料中存在大量非數值型數據，如既往史記錄、影像學表現等。通過編碼規則將文本資料轉化為能進行分析利用的數據。本研究中，對于二分類變量（＜60歲、男性、高血壓病史等）進行0或1編碼。對于檢驗科計量資料數據，根據非LA患者每項數據四分位數進行變量編碼。編碼后產生的數據集作為研究數據集。

由于電子病歷系統中既往史等部分由人工錄入，可能存在漏寫等情況，因此收集臨床數據時發現部分項目沒有明確記錄，即出現缺失值。本研究中顱內動脈狹窄、頸內動脈狹窄程度和吸煙史等因素都有缺失值，需進行缺失值處理。顱內動脈狹窄的缺失值占12.87%，建立自變量間簡單相關系數矩陣所得顱內動脈狹窄跟年齡、高血壓病史、2型糖尿病史、高密度脂蛋白膽固醇（high-density lipoprotein cholesterol，HDL-C）水平、白細胞計數等5種特征相關性最大。因此以上述5種變量為變量特征，利用已知1000余例患者數據，建立顱內動脈狹窄預測模型，以此獲得相關缺失數據的替代值。頸內動脈狹窄程度特征的缺失值占29.57%，吸煙史特征的缺失值占78.95%，由于缺失值過多，無法準確預測出缺失值，因此刪除這兩項因素數據。

1.3.2 相關因素分析方法特征是指納入研究的VLA潛在相關因素，比如性別、年齡、是否有高血壓等為患者3種不同特征。特征構建是指上述數據收集后對各項特征數據進行編碼處理，刪除存在大量缺失值的特征以及通過編碼建立新的特征的過程（如血紅蛋白濃度符合條件者為貧血，編碼為1；不符合條件為非貧血，編碼為0；條件為：男性血紅蛋白濃度＜120 g/L，女性血紅蛋白濃度＜110 g/L，以此構建出貧血特征）。最后的研究數據集中每例患者有24個特征，目標特征為MRI上是否發現LA，即Fazekas評分是否≥1。

利用數據挖掘技術從上述24種特征中選出與VLA相關性最大的因素，此過程稱之為特征選擇。過濾方法是最常用的特征選擇方法，該方法通過對每一個特征進行評分，根據分數的高低將特征排序，然后選擇指定數目的特征[11]。本研究中利用Pearson相關性分析和卡方檢驗（Chi2）方法對每一個特征進行評分，根據分數的高低對特征進行排序（表1）。Pearson相關性系數是衡量特征與目標因素之間的線性關系的指標，值越大表明相關性越強。卡方檢驗最基本的思想是通過觀察實際值與理論值的偏差來確定理論的正確與否，卡方值越大表明特征與目標因素之間的相關性較強。為了確定上述二者中以哪個評分結果為最終排序，分別以兩種特征排序結果為基礎建立了數據挖掘模型，根據性能最佳的模型來確定最終特征排序和被選出的特征數目。

表1 特征選擇表

1.3.3 預測模型的訓練及其評價標準目前有多種數據挖掘模型，其中常用于臨床數據分析的有決策樹模型（decision tree model，DT）、邏輯回歸模型（logistic regression model，LR）、支持向量機模型（support vector machine model，SVM）和人工神經網絡模型（artificial neural network model，ANN）。其中DT利用樹形結構在數據集中自動構建分類規則，該模型的最大優點是直觀，便于理解與解釋。LR在線性回歸模型的基礎上用邏輯函數f（x）=1/（1+e-x）將數據進行分類。

圖2 Pearson相關性方法的性能圖

圖3 Chi2特征選擇方法的性能圖

表2 各個模型在最佳特征下的性能比較

SVM首先利用核函數將數據轉化為高維數據集，然后在高維數據集上尋找分開數據集的完美分割線。人工神經網絡模型模仿人腦的結構，構建多層網絡結構，通過多層網絡結構表達線性模型難以表達的非線性關系。

本研究同時建立了上述4種數據挖掘模型，利用敏感度、特異度、準確率及受試者工作特征曲線下面積（area under the curve，AUC）（橫坐標為false positive rate，縱坐標為true positive rate的曲線）值等評價模型性能。一般情況下AUC面積值大于0.5小于1。AUC值越大表示模型的預測性能越好。

2 結果

2.1 特征排序方法比較為比較兩種評分方法（Pearson相關性分析和卡方檢驗）所得出的特征排序準確性，用數據挖掘算法分別在兩種特征排序基礎上構建出模型，模型的性能比較圖見圖2和3。根據AUC值評價模型的性能，卡方檢驗排序的特征基礎上建立的4種模型性能更佳，因此預測模型性能比較，特征選擇等步驟將在卡方檢驗方法排序基礎上進行。

2.2 預測模型性能比較 4個模型在最佳的特征集上的性能見表2，表中顯示每一個模型在最佳特征下性能的95%可信區間。敏感度最高的是神經網絡模型，特異度最高的是SVM模型，準確率最高的是LR模型。用AUC值綜合評價時性能最佳模型為LR模型。

2.3 相關因素分析（特征選擇）LR模型最高AUC值對應的特征數量為9，因此我們選取了卡方檢驗排序法前9項特征（表1）為本研究特征選擇結果，即VLA相關因素。根據LR模型中此9項特征對應的回歸系數β的大小，9項特征中跟VLA正相關的有：年齡（β=1.59），高血壓病史（β=1.06），顱內動脈狹窄（β=0.33），貧血（β=0.27），2型糖尿病（β=0.24），肌酐（β=0.14），紅細胞分布寬度（β=0.10）；而跟VLA負相關的有：紅細胞計數（β=-0.07），血紅蛋白濃度（β=-0.03）。

2.4 決策樹可視化結果利用決策樹模型預測性能最佳時（AUC=0.788±0.017）對應的4個特征，得到該決策樹的可視化結果見圖4。圖中E表示決策路徑對應的錯誤率。這種結果圖更為直觀地揭示幾種不同的VLA相關因素共存的情況，也比較符合臨床上老年患者多種危險因素共存的現狀。

3 討論

已有多項研究表明年齡和高血壓為VLA的獨立危險因素[12-13]，本研究得出的特征中，年齡和高血壓均與VLA呈正相關，根據特征排序結果認為與VLA相關性最大的因素為年齡，其次為高血壓病史，此結果與既往研究結果一致。VLA是腦小血管病的一種，但Seung-Jae Lee等[14]發現，LA在大動脈粥樣硬化性卒中患者中很常見。本研究中顱內動脈狹窄與VLA呈正相關，這可能是因為二者有共同危險因素。Pierleone Lucatelli等[15]認為糖尿病與LA呈正相關，但也有一項Meta分析認為二者無關[16]，糖尿病是否與VLA相關仍需進一步研究。因為腎臟和大腦特殊的微脈管系統，兩個系統均易受血管因素損害[17]，因此肌酐值作為腎功能損害的指標，或許與VLA有一定相關性，本研究也發現肌酐與VLA呈正相關。

特征選擇發現的其余4個相關因素均為紅細胞數量和功能方面檢驗指標。貧血是結合性別和血紅蛋白濃度進行編碼的特征，而國內外很少有研究報道貧血與VLA關系，Marco Inzitari等[18]發現合并有貧血的高血壓患者患LA風險增高，而無高血壓的群體中，貧血與腦白質病變無關。本次研究通過特征選擇發現貧血與VLA呈正相關，且相關程度僅次于年齡、高血壓、顱內動脈狹窄等特征，或許這結果為后期研究提供一個新的潛在相關因素。有關紅細胞分布寬度與VLA關系的研究不多，有研究報道，紅細胞分布寬度可能為急性腦梗死合并VLA的獨立危險因子且與LA的嚴重程度呈正相關，對LA具有一定的預測價值[19]，本研究表明紅細胞分布寬度可能是VLA的相關因素。

圖4 決策樹的可視化圖

本次研究利用數據挖掘技術分析臨床數據，探討了VLA相關因素，并通過特征選擇方法選出9種與VLA有關的因素。其中年齡、高血壓等是已被公認的危險因素，且在決策樹可視化圖中可見這兩項因素在預測VLA發病時權重很大，也比較符合臨床上老年高血壓患者LA發病率很高的現實。除此之外，本次研究也發現貧血、紅細胞分布寬度、肌酐值等仍沒被廣泛研究的因素也跟VLA發病相關，對后期進一步研究有一定的指向性作用。本次研究另一特點是探討數據挖掘方法在臨床數據分析應用方面的可行性。本次研究不足之處為患者例數僅為1000余例，研究納入的潛在相關因素也只有24種，仍然不能很好地體現數據挖掘技術的優越性。醫院信息系統功能的完善和臨床專業數據庫的建立為這種嶄新的數據分析方法提供更為廣泛的數據來源，這也一定程度上呼吁臨床工作者了解和探討數據挖掘技術在臨床科研中的應用，以此獲得更多有意義的、可指導臨床工作的研究成果。