張 巖, 孫成建, 張照龍, 謝宜興, 徐 銳, 劉國平, 趙曉龍, 邵黎明, 王振光
顱內動脈瘤的發病率為1%~2%,破裂后引起的蛛網膜下腔出血(SAH)占非創傷性SAH 的80%~85%[1]、破裂后所致死亡占了腦血管病死亡的22%~25%[2]。在顱內動脈瘤中,前交通動脈瘤占到了30%~35%[3]。 隨著影像技術的發展與人們對健康的愈益關注,顱內動脈瘤臨床檢出率也越來越高。當發現未破裂顱內動脈瘤時, 往往需要權衡動脈瘤短期和長期破裂的風險以及手術自身相關的風險。PHASES 評分作為目前常用的判斷顱內動脈瘤破裂風險的工具[4],提出了將年齡、高血壓、SAH 病史、動脈瘤大小、動脈瘤位置以及地理區域作為判斷動脈瘤破裂風險的指標。 而具體到前交通動脈瘤,據文獻報道,其破裂的危險因素包括動脈瘤的大小、形態、A1 優勢、患者的年齡、病史等[5]。 機器學習作為近些年興起的前交通動脈瘤破裂風險的預測模型建立方法,受到越來越多的關注。其中分類樹及隨機森林作為有監督機器學習中的一部分,是非常強大的方法,特別是在分類問題中。
研究對象為經青島大學附屬醫院臨床科研大數據平臺檢索出的于2012 年12 月至2020 年4 月期間住院的前交通動脈瘤患者,共檢索出452 例患者。 患者因SAH、腦血管疾病、健康查體等原因在我院行腦血管CT 血管造影(CTA)檢查,并診斷為前交通動脈瘤。 381 例前交通動脈瘤患者符合納入標準。 其中破裂引起SAH 患者244 例,未破裂前交通動脈瘤患者137 例。患者中男209 例,女172 例。破裂組平均年齡為(57.1±10.2)歲,未破裂組為(60.4±10.0)歲。
納入標準:①因各種原因于我院行腦血管CTA檢查,并診斷為前交通動脈瘤。 ②有詳細的臨床資料與影像學資料。 排除標準:①梭形動脈瘤、夾層動脈瘤、血管畸形患者。 ②患者及家屬不能配合完成研究。 ③患者因外傷或其他因素導致的前交通動脈瘤。 ④患者臨床資料或影像學資料不全。
1.2.1 資料收集 有關患者的年齡、性別、病史及頭頸部CTA 圖像均從醫渡云配合病歷系統檢索及測量。根據既往文獻研究[6],收集患者的年齡、性別、吸煙史、 高血壓病史、SAH 病史, 并分別測量患者CTA 圖像中前交通動脈瘤的高度、瘤頸寬度、是否有A1 優勢、動脈瘤是否規則、動脈瘤朝向,將以上特征納入預測模型。 A1 優勢定義為一側A1 段明顯增粗, 對側A1 段未顯影或直徑小于優勢側二分之一。 動脈瘤朝向為從CTA 矢狀位,以枕骨粗隆上緣與眉弓上緣連線為標準,根據動脈瘤瘤頂朝向分為前上、前下、后上及后下。 動脈瘤不規則定義為動脈瘤表面不光滑,有子囊、分葉或凸起。
1.2.2 數據處理及分析 采用R 軟件(3.6.3 版本)對數據進行處理及分析。 正態分布的計量資料組間比較采用獨立樣本t檢驗, 計數資料的組間比較采用χ2檢驗;后選用機器學習中的決策樹及隨機森林方法建立預測模型, 預測指標為動脈瘤的破裂與否,模型樣本量符合每個變量的事件數(EPV)原則。得出模型后在測試集中計算預測模型的準確度、靈敏度及特異度,并繪制受試者工作特征(ROC)曲線。以P<0.05 為具有統計學意義。
破裂組與未破裂組的年齡、動脈瘤高度、瘤頸寬度、動脈瘤不規則及A1 優勢這些特征,差異有統計學意義(P<0.05),而性別、吸煙史、高血壓史、動脈瘤朝向、SAH 病史這些特征之間的差異并無統計學意義。 表1。
將數據集以有放回的隨機抽樣方法即自助法,按照7∶3 比例分為訓練集及測試集。 訓練集273 例患者,其中動脈瘤破裂患者179 例;測試集108 例患者,其中動脈瘤破裂患者65 例。 在訓練集中,用分類回歸樹(CART)的方法進行模型建立。 生成分類樹后, 繼續在訓練集中利用10 折交叉驗證的方法,得到標準差最小的樹的分裂次數,從而對決策樹模型進行剪枝,最終得到分裂次數為7 的決策樹模型。如圖1 所示可以看到,在訓練集得出的決策樹模型中,動脈瘤不規則、動脈瘤高度、瘤頸寬度及年齡是參與決策樹分裂的較早的節點特征,其中動脈瘤高度以5.54 mm 作為最佳切分點, 動脈瘤頸寬度以3.59 mm 作為最佳切分點。 將該模型應用于測試集后,ROC 中曲線下面積(AUC)為0.737(95%CI: 0.637~0.837);最佳截斷值為0.500(圖2)。在該截斷值下,模型的預測準確率為73.15%,靈敏度為0.831,特異度為0.581,一致性檢驗(kappa)值為0.424。

表1 破裂動脈瘤與未破裂動脈瘤特征對比

圖1 決策樹預測模型

圖2 預測模型ROC 曲線

圖3 特征重要性排序
隨機森林是指多次隨機抽取數據, 生成許多決策樹,之后將這些樹得出的結果結合起來,理論上可以防止模型過度擬合。 訓練集及測試集分類方法同上。 將基尼指數的改善作為特征重要程度的評價標準, 對隨機森林中變量重要性進行排序,如圖3 所示,前3 位分別是動脈瘤的高度、動脈瘤頸寬度以及年齡,較單個分類樹模型有所區別。 在樹的規模為219 時,整體誤差率最小,模型達到最優。 將該模型應用于測試集,ROC 中AUC 為0.675(95%CI:0.569~0.7806);最佳截斷值為0.521(圖2)。在該截斷值下,模型的預測準確率為68.52%,靈敏度為0.800,特異度為0.512,kappa 值為0.322。準確率及ROC AUC 較決策樹無明顯改善。
由于分類樹及隨機森林模型效果不甚理想,故選用Xgboost()方法改善模型效果。 Xgboost 同隨機森林類似,亦是一種集成樹模型,但是由于其算法的優勢,往往經過參數的調優后得到更為理想的模型,廣泛應用于模型的優化提升。 利用網格搜索的方法,建立了一個具有36 個模型的網格,參數范圍如下:最大迭代次數為75、219;學習率為0.01、0.1、0.3;gamma 值為0.5、0.25;單個樹的最大深度為2、3、4。 利用5 折交叉驗證方法調優各個超參數,得出最優模型,其參數如下:最大迭代次數為為219;學習率為0.1;gamma 值為0.5;單個樹的最大深度為4。 最終ROC 中Auc 為0.758(95%CI:0.6569~0.8587);最佳截斷值為0.545(圖2)。 在該截斷值下,模型的預測準確率為77.78%,靈敏度為0.893,特異度為0.605,kappa 值為0.518,均較前改善。
考慮到本研究仍為一個相對較小樣本研究,當數據量較小時,訓練集與測試集的劃分對模型效能的影響較大, 故采用3 折交叉驗證訓練的方法,利用Xgboost 梯度提升訓練模型,并分別在不同的測試集中進行驗證。 如圖4 所示,在測試集1 中,ROC 中AUC 為0.848(95%CI:0.7759~0.9197);在測試集2中,ROC 中AUC 為0.797(95%CI:0.7171~0.8768;在測試集3 中,ROC 中AUC 為0.858(95%CI:0.7847~0.9306),均表現出了較好的模型效能。

圖4 不同測試集ROC 曲線
Greving 等[4]前瞻性隊列研究的結果中發現,顱內動脈瘤5 年的破裂風險隨PHASES 評分分值的增高而增加。 其中PHASES 評分主要包括以下6 個因素:年齡、高血壓、SAH 史、動脈瘤大小、動脈瘤位置和地理區域。 前交通動脈瘤作為顱內動脈瘤中發生率最高的動脈瘤,專注于其破裂風險預測模型的研究相對較少。 本研究中,按照預測模型判斷動脈瘤破裂與否的特征重要性進行排序, 動脈瘤深度,動脈瘤寬度,年齡,動脈瘤不規則,A1 優勢征以及是較為重要的分類特征,而性別、吸煙史、動脈瘤朝向對結果影響相對較小。 這也與一些國內外的既往研究相符。
有研究表明, 動脈瘤的破裂風險隨著動脈瘤大小的增加而增加[7]。 本模型中,動脈瘤深度達到5.54 mm 時, 是預測前交通動脈瘤破裂與否的一個重要切分點。 在隨機森林中根據基尼指數改善而得到的特征重要性排序中,動脈瘤高度亦是最重要的分類特征。 國外的一項基于ISUIA 數據庫進行的研究中,在進行多因素回歸分析后,動脈瘤的高度是唯一的獨立危險因素[8]。 此外,在本模型中,動脈瘤瘤頸寬度的切分點為3.585 mm,而破裂組的瘤頸寬度要小于未破裂組,差異有統計學意義。 有研究認為,較小的瘤頸寬度會導致動脈瘤內的壁切應力改變,引起動脈瘤壁重建,從而增加破裂的風險[9]。
有多個葉、子囊或其他類型的壁突的動脈瘤定義為不規則動脈瘤[10]。 本研究中的決策樹模型中,動脈瘤不規則是最早參與決策樹分裂的預測特征。瘤腔不規則增加破裂風險的機制可能與不規則瘤腔附近出現的高剪切應力值有關[11]。 一項關于前交通動脈瘤破裂的形態學特征的研究指出,不規則的動脈瘤是動脈瘤破裂的獨立危險因素[10]。 日本一項大型的關于動脈瘤自然病程的研究中表明,有子囊的動脈瘤更容易破裂(危險比1.63)[7]。 國外的另一項研究也表明,前交通動脈瘤出現瘤泡與前交通動脈瘤破裂顯著相關(OR∶22)[12]。 本研究與其得出的結論相符。
A1 優勢定義為一側A1 段明顯增粗, 對側A1段未顯影或直徑小于優勢側二分之一。 一項關于前交通小動脈瘤的研究中指出,A1 優勢征與動脈瘤破裂相關[13]。 有研究對A1 段的發育異常與前交通動脈瘤的形成及破裂的關系進行了血流動力學的三維數值模擬。 A1 段的發育異常會導致壁切應力的變化及湍流形成, 從而影響動脈瘤的形成與破裂[14]。本研究中, 破裂組與未破裂組的A1 優勢征有顯著差異,但依照基尼指數改善對特征排序,其重要性相對前述特征略低。
隨著血流動力學的研究深入,許多血流動力學參數也被證明與前交通動脈瘤的破裂相關。 采用計算流體力學(CFD)對動脈瘤血流動力學參數進行計算是目前應用較多的一種研究方法。 壁應切力(WSS)是研究比較多的一種參數。 但是研究結果存在一定爭議。Detmer 等[15]對大量的動脈瘤患者的血流動力學進行了研究, 結果表明, 破裂動脈瘤的WSS 明顯較低,這與以前的研究一致。 有研究表明,較低的WSS 可能會引起內皮細胞的凋亡,從而導致血管壁變化,這可能是低WSS 與動脈瘤破裂相關的機制[16]。 但Zhang 等[17]的研究表明,WSS 幅值高于12.3 達因/ cm2時, 載瘤動脈中的WSS 可能是預測動脈瘤破裂狀態的可靠血流動力學參數之一。 分析表明,每增加一單位WSS,前交通動脈瘤破裂的風險也會增加6.2 倍。 本研究受限于納入的病例影像資料為CTA,顯示動脈瘤形態欠佳,采用CFD計算動脈瘤的血流動力學參數誤差較大。 根據相關研究[14],本文納入了動脈瘤朝向和大腦前動脈A1優勢征這兩種與血流動力學表現密切相關的因素進行了分析。
年齡對動脈瘤破裂的影響目前尚有爭議。 既往有研究表明,高齡(尤其是超過60 歲)是顱內動脈瘤破裂的重要的危險因素[18]。 但也有對前交通動脈瘤研究得出的結果中, 動脈瘤破裂的患者更加年輕[12]。 此外,國外的一項研究認為,隨著年齡的增長,前交通動脈瘤的大小可能保持穩定,年輕患者和老年患者的破裂風險相似的。 在本研究中,破裂組的患者明顯要比未破裂組更加年輕(P=0.003)。參考本研究的結果,當我們面對年輕的未破裂前交通動脈瘤患者時,可能需要更加積極的干預[16]。
機器學習正在越來越多被人們應用到預測模型的建立。 有學者應用兩層的前饋人工神經網絡對前交通動脈瘤的破裂風險進行預測,結果較為理想[19]。 在近期的另一項研究中,支持向量機、隨機森林以及多層感知器亦應用在動脈瘤的破裂風險預測中[20]。 作為機器學習中的一員,分類樹較為簡潔易懂,而且對分類問題上有其獨到的優勢。 目前國內外的研究中,最常用的是logistic 回歸[21]。 logistic 回歸在線性關系的數據處理中有優勢,而面對非線性問題時, 機器學習的方法可能更加適合; 而且logistic 容易多重共線性,通常需要正則化,這些恰恰是決策樹的強項;此外,決策樹還能更加便捷的得出預測因子的最佳切分點,這也是相對于logistic回歸的一項優勢。在本研究中,選用了決策樹、隨機森林來建立預測模型, 并應用xgboost 梯度提升建立了更加優化的模型,得到了較為理想的結果。
本研究存在一定的局限性。 首先,本研究是一項回顧性研究,而不是一項前瞻性的關于前交通動脈瘤自然病程的研究,所以可能不能完全代表前交通動脈瘤破裂的真實風險。 其次,使用該模型評估未來動脈瘤破裂的風險是基于這樣的假設,即具有高破裂風險的動脈瘤與那些已經破裂的動脈瘤相似。 當輸入數據后,該數據進入預測模型并被分類為破裂組,便可認為其破裂可能性大。 該模型主要用于預測動脈瘤短期破裂可能性,從而幫助臨床醫師制訂治療方案。 另外,本研究是單中心研究,缺乏外部驗證,這可能會提高模型的置信水平,因此模型的泛化能力有待進一步論證。
應用機器學習中的決策樹、隨機森林、梯度提升方法建立模型,能較好地進行前交通動脈瘤的破裂預測, 其中梯度提升方法所建立的模型效能更優。 本研究在進行未破裂前交通動脈瘤的治療決策方面,具有一定的臨床應用價值。