葉 偉,陶永軍,陳錫程,伍亞舟
1.陸軍軍醫大學 軍事預防醫學系 軍隊衛生統計學教研室,重慶 400038
2.浙江省臺州市立醫院 神經內科,浙江 臺州 318000
急性缺血性腦卒中(acute ischemic stroke,AIS)是腦卒中最常見、最易預后不良的發病類型[1-3]。AIS的有效預后預測對于患者的臨床診治和預后康復具有重要意義。
當前,利用傳統機器學習預測腦卒中預后的研究已取得了一定進展。Matsumoto等[4]收集了單中心急性缺血性腦卒中患者的臨床特征,運用線性回歸或決策樹集成學習構建了性能較優的預測模型,取得了92%的受試者特征曲線下面積(area under the curve,AUC)。Avery等[5]選取了缺血性腦卒中CT影像組學的特征,運用機器學習和特征選擇算法構建了預測模型。Sung等[6]結合了臨床和計算機斷層掃描報告運用機器學習技術構建了預測模型,取得了86%的AUC值。Wang等[7]運用臨床和影像組學特征構建缺血性腦卒中預后模型,取得了80%的AUC。2007至2018年間相關Meta分析[8]表明,89%(260篇)的AIS預后研究文章在方法上僅為回歸分析,這揭示了數據和方法改良的必要性。
既往研究在數據、方法、應用等層面存在較大提升空間,這限制了預后預測能力的提升。就數據而言,聯用多種類型特征并采用多分類結局變量構建模型的既往研究相對較少。就方法而言,采用深度學習和集成學習預測缺血性腦卒中預后的研究更為少見。這些問題為預測準確性的提升帶來了較大障礙。
近年來,深度學習、集成學習等新興人工智能技術被提出和應用,存在廣闊的應用前景。Heo等[9]運用急性缺血性腦卒中的臨床特征構建預后預測模型,運用深度神經網絡取得的AUC值為88%。Hwangbo等[10]利用集成學習以預測缺血性腦卒中患者6個月的死亡率,AUC值為78.3%,其95%置信區間為75.8%到80.8%,且證實了集成學習的性能優于單一學習模型,這也在諸多研究中得到了驗證[11-14]。這些研究為本文提供了一定研究思路和啟示,但深度學習和集成學習的聯合應用于AIS的預后預測鮮有報道。此外,隨著深度神經網絡層數的增長及集成的加入,網絡參數量可能呈現幾何倍數的增長,應用中存在較大難點[15-17]。因此,本文將利用AIS多類型特征,以深度學習、集成學習為契機,構建深度集成學習模型并實施參數優化,從而進一步分析比較新興人工智能方法的應用效果。
本文貢獻和創新可總結如下。(1)對AIS臨床和影像組學特征進行特征提取和融合,旨在更加全面和有效地處置高維特征。(2)選擇深度集成學習進行訓練,增添了在腦卒中預后預測中方法的多樣性。(3)構建了改良人工蜂群算法,并對深度集成學習方法進行超參數優化,提高了模型的精確度。(4)采用腦卒中預后三分類結局(正常組、輕度組、中重度組),提升了分級的針對性。總之,相較于既往研究,本文模型有更好的準確性和泛化性,可依據具體問題和實際場景靈活應用。
本采用患者入院時大腦三維MRI圖像提取影像組學特征,并融合臨床特征,根據深度集成學習算法構建模型進行分級預測。
本課題組回顧性收集了浙江省臺州市立醫院神經內科在2021年7月至2022年2月期間確診為AIS的患者,共計331例,最終納入本實驗為317例。納入標準:(1)首次確診且符合急性缺血性腦卒中的診斷標準;(2)患者臨床資料完整且可獲得3D大腦MRI圖像,MRI影像清晰、無偽影;(3)顱部未接受過外科手術等任何形式的治療。排除標準:合并肝腎功能不全、血液系統疾病、惡性腫瘤和其他常見的心腦血管等疾病。
患者標簽選用美國國立衛生研究院卒中量表(national institute of health stroke scale,NIHSS),以評估患者出院時的預后情況。依據NIHSS評分[18-19]進行分組:正常組(<1分)62例、輕度組(1~4分)213例、中重度組(≥5分)42例。
圖像數據預處理選擇ITK-SNAP 3.6.0軟件,具體步驟如下。
(1)將收集到的圖像(DICOM格式)轉換成Python軟件可操作的圖像(NIFTI格式)。
(2)由主治醫師標注三維MRI圖像的病灶感興趣區域(region of interest,ROI)進行標注,使用大津(OSTU)閾值法獲取粗略分割掩碼,再針對各切片的病灶行手動精分割,將切片組合為該患者的3D掩膜標簽。該過程如圖1所示。

圖1 患者的3D掩膜標注過程Fig.1 Patient’s 3D masking process
(3)將圖像按原始3D圖像與3D掩膜標簽對應整理,隨后運用Python中的Pyradiomics包[20]提取影像組學特征。依據患者ID號匹配相應的NIHSS評分分級標簽。
基于預處理后AIS影像和臨床的融合特征,構建了改良人工蜂群算法優化的深度集成學習模型(improved artificial bee colony algorithm-deep ensemble learning,IABC-DEL),技術路線如圖2所示。模型構建過程可分為特征融合、模型構建和模型優化。

圖2 深度集成優化模型流程圖Fig.2 Flow chart of IABC-DEL model for AIS fusion feature
特征融合可解決特征間量綱差距。因此,在高維特征融合過程中進行特征選擇,將重要性高的特征納入模型中。
針對臨床和影像組學特征各自存在的差異,本文實施了個性化處理措施,詳細特征融合過程如圖3所示。

圖3 特征融合過程Fig.3 Schematic of feature fusion process
在臨床特征中,利用組間比較選擇出對結局變量有統計學意義的自變量。隨后,利用獨熱編碼將變量歸置于[0,1]間。獨熱編碼可將離散特征的取值擴展至歐式幾何空間,特征離散的取值對應歐式幾何空間的某個點。
在高維影像組學定量特征中,本文首先進行歸一標準化處理,其次以方差過濾法過濾掉大量差異性小的特征,隨后通過基于隨機森林(random forest,RF)模型的Embedded嵌入法,對特征進行權重排序,旨在選出對結局變量有用的特征。
最后,本文結合臨床和影像組學的特征形成了融合特征,并采用Borderline-SMOTE算法[21]對融合特征進行平衡化處理,旨在規避偏移的發生。
2.1.1 臨床特征篩選
從患者臨床特征中,本文提取了性別、年齡、血液中總膽固醇值、血液中低密度脂蛋白值、高血壓史、糖尿病病史、冠心病史、同型半胱氨酸血癥、房顫、吸煙、喝酒、入院時NIHSS評分、TOAST分型、OCSP分型等14個特征。分析各臨床特征對于出院時NIHSS分級的效果,進而篩選出性別、糖尿病病史、入院時NIHSS評分、TOAST分型和OCSP分型這5個有統計學意義的特征,如表1所示。

表1 臨床特征篩選的結果Ta ble 1 Results of screening for clinical features
2.1.2 影像組學特征篩選
用Python的影像組學特征分析工具包(Pyradiomics包)獲得每個患者的3D影像組學特征,共計1 781個。可分為7類:一階統計量342個、基于3D形狀14個、灰度共生矩陣456個、灰度游程矩陣304個、灰度大小區域矩陣304個、灰度依賴性矩陣266個以及鄰域灰度差矩陣95個。
對1 781個影像組學特征實施方差過濾法和Embedded嵌入法篩選特征,以閾值為橫坐標,特征數作為主縱坐標,隨機森林算法得到的準確率作為次縱坐標繪制閾值散點圖并擬合曲線。根據圖4(a)結果,以方差閾值為0.06篩選出115個特征后,以選出特征為特征變量、以NIHSS為結局變量,以0.015作為閾值實施Embedded嵌入法,最后對納入的11個特征進行重要性排序,如圖4(b)所示。

圖4 影像組學特征選擇過程Fig.4 Image omics feature selection process
以DNN、LSTM和GRU模型為基學習器構建深度集成學習模型。
2.2.1 基學習器
將本文使用的深度學習基學習器介紹如下。
深度神經網絡(deep neural networks,DNN)指隱藏層數量超過單層的神經網絡。輸入層與隱藏層、隱藏層與隱藏層及隱藏層與輸出層間均對應于一個線性關系,可表達為:
其中,yi為后一個神經元,xi為與yi相連的特征或神經元,σ為該層的激活函數,n為該神經元所連接的神經元個數或特征數,wi為特征與神經元之間或神經元與神經元之間的權重系數,b為常量。
長短期記憶網絡(long-short term memory,LSTM)是為解決循環神經網絡的梯度消失或梯度爆炸問題而提出[22-23]。其循環單元結構如圖5所示。

圖5 LSTM循環單元結構圖Fig.5 LSTM recurrent unit structure diagram
該單元結構通過引入一個新的內部狀態Ct-1以記錄當前狀態的患者特征信息,并進行內部信息傳遞。首先,利用當前狀態的患者特征信息xt和上一時刻隱藏狀態ht-1計算輸入門it、遺忘門ft和輸出門ot。然后,通過輸入門it和遺忘門ft分別控制保留的患者歷史特征信息和當前狀態特征信息,得到新的Ct。最后,再利用輸入門ot將內部狀態患者特征信息傳遞給隱藏狀態ht。
門控循環單元(gated recurrent unit,GRU)[24]將LSTM網絡的輸入門it與遺忘門ft合并成一個更新門,并可結合xt和ht-1的信息獲得輸出yt和傳遞給下一個隱層信息ht。GRU的內部主要包括重置門控r和更新門控z兩個門控系統,可各自表達為:
其中,δ為GRU單元的門控,即Sigmoid激活函數。wr與wz各代表兩個門控系統的權重系數。
2.2.2 深度集成學習
在深度學習領域,主流的集成學習方法包括Hardvoting、Soft-voting和Stacking等[25-27]。以DNN、LSTM和GRU模型為基學習器構建深度集成學習模型,結構如圖6所示,其中圖6(b)中基學習器概率數值均為示例,不代表實際概率。

圖6 集成學習示意圖Fig.6 Ensemble learning diagram
在Hard-voting中,每個分類器投票給一個類標簽,以獲得一半以上選票的標簽為最終輸出類標簽。
在Soft-voting中,將模型預測樣本類概率的均值作為標準,以概率最高對應的類為預測結果。
在Stacking中,在前述基學習器的基礎上,以隨機森林(random forest,RF)為元學習器,繼而實現更高的預測準確性,最終構建了深度集成學習(deep ensemble learning,DEL)模型。利用DNN、LSTM、GRU網絡模型分別擬合訓練集,訓練過程中各自進行參數優化,訓練集利用五折交叉驗證,將輸出結果縱向拼接為新特征,新特征作為新的訓練集;測試集運用上述已訓練的基學習器輸出結果的拼接值作為新的測試集。訓練集和驗證集具有一致的分類結局變量。模型對新訓練集進行訓練,新測試集得出的分類結果為DEL模型的預測結果。
深度學習網絡隱藏層的層數和神經元的個數較大程度上影響了模型參數量和效率。選擇合適的隱藏層和神經元數量至關重要,可能較大程度上影響著神經網絡的性能。人工蜂群算法的原理是模仿蜜蜂采蜜的行為,通過個體蜂局部尋優行為在蜂群中獲得最優解。以優化問題的解空間維度指代神經網絡的隱藏層層數,以蜜源的位置信息指代神經元的個數,以測試集的準確率指代問題所得值。采蜜過程包含三類蜂群的采蜜行為:采蜜蜂采集初始蜜源,觀察蜂根據采蜜蜂采蜜的花蜜量尋找新的蜜源,偵察蜂在蜜源附近隨機尋找新的蜜源。最終,依據最大所得值確定各深度學習網絡的最優參數。
在基線算法上,本文添加了無限折疊迭代混沌映射(iterative chaotic map with infinite collapses,ICMIC)以提升其全局搜索能力,并添加非線性自適應慣性權重以加快收斂速度。在執行上述改良后,本文構建了IABC,現將算法的操作步驟介紹如下。
(1)設問題的解空間是D維,解空間的維度即各隱藏層的層數(D={1,2,3,4,5}),各個采蜜蜂和蜜源進行逐個對應,采蜜蜂與觀察蜂數量相同為bn,蜜源的位置對應問題的可行解,蜜源的花蜜對應可行解xi的適應度Fi,即測試集的準確率。可迭代次數為t,第t次適應度Fi的標準差為St。利用ICMIC映射初始化各蜜源xi,蜜源間的關系可表達為:
其中,a為任意常數,a∈(0,∞)。
(2)為蜜源xi分配一只觀察蜂,在D維的空間進行搜索,則新蜜源xˉid可表達為:
其中,i=1,2,…,bn,d=1,2,…,D,k≠i,wt為引入的非線性自適應慣性權重。
其中,wmax、wmin為慣性權重的上下界值,b為阻尼因子,一般為0~1之間,Tmax為設定的最大迭代次數,k(t)為種群優化離散參數,如下式:
(3)依據下式,計算觀察蜂找到的蜜源被跟隨的概率:
(4)采蜜蜂將對當前花蜜量(測試集的準確率)與觀察蜂找到的蜜源的花蜜量(測試集的準確率)進行對比,根據貪婪選擇的方法確定保留的蜜源。
(5)判斷蜜源在給定步驟(定義為控制參數limit<0.01)內的適應值Fi并未提高,則滿足被放棄的條件。若滿足,對應的觀察蜂變為偵察蜂,不滿足轉至步驟(7)。
(6)偵察蜂根據式(9)隨機產生新蜜源x′id:
其中,xdmax和xmdin是第d維的上下界。
(7)迭代次數t=t+1;判斷算法是否滿足最大迭代次數Tmax,若滿足則終止,輸出最優解,否則轉至步驟(2)。
改良人工蜂群算法各參數設置如表2。

表2 IABC各參數設置Table 2 Parameter setting of IABC
在配備GPU的Linux工作站進行訓練,處理器為Intel Xeon?Gold 6246R CPU@3.40 GHz,運行內存為256 GB,GPU為NVIDIA Tesla V100,軟件平臺基于Python 3.7,所提算法均基于Tensorflow 2.8框架實現。對于各種算法模型,以7∶3的比例拆分為訓練集與測試集,在訓練集上對模型進行擬合,通過網格搜索法確定除隱藏層層數與神經元個數以外的超參數,五折交叉驗證后選擇最佳參數模型。最后使用測試集進行模型測試,以評估各模型的泛化性。本文網格搜索法確定的超參數包括學習率設置為10?4,神經網絡的批大小為20,動量項設置為0.9,epoch為32。另外,各類別樣本數量分布不均衡將導致模型的預測偏倚。為消除此影響,采用Borderline-SMOTE算法對融合特征進行數據增強。
本研究深度學習網絡的實現基于Tensorflow2.0的Keras包,運用Adam優化器對深度學習模型進行梯度優化,將交叉熵損失函數與SoftMax激活函數結合用以更好獲得分類效果。三種基學習器神經網絡初始設置為雙層,各層神經元個數為10個,IABC算法超參數優化后固定模型。
各深度神經網絡的最優參數為DNN隱藏層為2層,各層神經元的個數為34與34;LSTM隱藏層為2層,各層神經元的個數為24與24;GRU隱藏層為1層,該層神經元的個數為39。集成學習方法中,各基學習器采用與單一方法時相同的最優參數設置。
本文為三分類任務,評價指標包括:準確率(ACC)、精確率(Macro-P)、召回率(Macro-R)、F1分數(Macro-F1 score)和曲線下面積(Macro-AUC)。取值范圍均為0~1之間,取值越大代表分類效果越好。
在混淆矩陣中,每個分類i均有TPi、TNi、FPi和FNi。TPi代表將真實的分類i正確地預測為分類i,FPi代表將真實的分類非i錯誤地預測為分類i。各評價指標表達為:
其中,三分類任務的n取值為3。
為求解Macro-AUC的值,以各分類的真陽性率作為縱軸、以各分類的假陽性率作為橫軸而繪制各分類的ROC曲線。各分類ROC曲線下面積就是各分類的AUC取值。而該模型的Macro-AUC為所有分類的AUC求和取平均。
以融合特征為例分析各種方法的分類性能,如表3、圖7~8所示。基于總體加權準確率、Macro-AUC等指標從方法類型的角度對實驗結果進行分析:首先從總體上看,IABC-DEL的所有指標最優,其準確率為88.02%、精確率為88.01%、召回率為88.02%、Macro-F1分數為87.88%和Macro-AUC為96.27%;其次,由Macro-AUC的結果可知,優化后的深度學習網絡優于機器學習、深度學習和集成學習方法;再者,從準確率、精確率、召回率和Macro-F1分數上看,集成學習方法整體上優于機器學習和優化前后的深度學習網絡。基于此,將比較方法類型之間或方法類型內的各項指標,比較結果與可能原因如下。

圖7 深度學習優化前后的ROC曲線Fig.7 ROC curve before and after deep learning
3.1.1 單一學習方法(機器學習/深度學習)的分類性能
在融合特征上,比較了單一機器學習與深度學習方法的分類性能。結果表明:在默認優化方式(即網格搜索法)下,三種深度學習方法(GRU、DNN和LSTM)的性能優于其他三種機器學習方法,DNN的ACC最高,達到了86.46%,LSTM的Macro-AUC最佳,達到了95.35%,詳見表3中。決策樹的節點結構在訓練集訓練過程中易趨向過擬合,可能陷于局部最小值;隨機森林分類樹亦在訓練過程中容易產生過擬合;支持向量機則較多分類結局變量更善于處理二分類結局變量的數據。這些可能導致機器學習模型在此次任務中性能表現不佳。

表3 各種方法的分類性能比較(融合特征)Table 3 Effect comparison of various methods(fusion feature) 單位:%
3.1.2 集成學習方法的分類性能
在融合特征上,比較了不同集成方法的分類性能。本研究獲得Hard-voting,Soft-voting和Stacking三種集成學習模型在融合特征的分類結果,詳見表3。研究結果表明:基于Stacking的DEL性能優于Hard-voting和Soft-voting,Macro-AUC值達到了95.02%。在深度集成方面,本文利用Stacking的集成學習方式將三種強監督學習器進行了有效的結合,從而使模型準確度得到了提升。這證實了Stacking算法更適合融合特征AIS的NIHSS預后分級的預測,分析原因在于Stacking可有效從基學習器、元學習器中提取融合特征的有效信息,獲得更高的預測效果[28-29]。
3.1.3 優化前后的分類性能比較
IABC的優化對象為深度神經網絡的層數和神經元。因此,本文以深度學習模型為例,說明優化前后的分類性能比較,如表3、圖7~8所示。結果表明:相較于未經優化的深度學習方法和集成方法(GRU、DNN、LSTM、Hard-voting、Soft-voting和DEL),經IABC優化后的模 型(IABC-GRU、IABC-DNN、IABC-LSTM、IABC-Hard-voting、IABC-Soft-voting和IABC-DEL)的分類效果均得到提升。其中,DEL在優化后準確率和Macro-AUC分別提高了0.52個百分點和1.25個百分點。

圖8 集成學習優化前后的ROC曲線Fig.8 ROC curve before and after ensemble learning
對于深度集成學習而言,參數的優化對于模型運行效率和準確性至關重要,因此有必要引入新型智能算法。相較于傳統優化算法,本文的IABC算法在收斂速度和結果精度等方面有所提升,具有更好的全局搜索能力和更高的預測精度。

圖9 不同特征下IABC-DEL模型的ROC曲線Fig.9 ROC curve of IABC-DEL in different features

表4 不同特征的分類效果比較(IABC-DEL)Table 4 Classification performance comparison in different features(IABC-DEL) 單位:%
利用上述最佳的IABC-DEL模型對不同類型特征進行預測,基于臨床和影像特征的融合特征在所有指標中均獲得了最優的結果。而臨床特征預測效果優于影像組學特征的預測效果,其原因可能是收集的AIS患者的三維MRI圖像大多為正常組和低度組,使得獲取的3D掩膜圖大多體積較小,從而導致提取的影像組學特征較于臨床特征差異性不夠。如表4與圖9的結果表明,臨床特征與影像組學特征分別包含了患者不同方面的特征信息,融合不同類型的特征信息能夠更全面地、更好地反映患者的整體特征,從而獲得更好的分類預測效果。
為了更好地驗證類別不平衡分布對分類性能的影響,利用IABC-DEL模型對原始數據、5種平衡算法處理后數據進行分級預測,結果如表5、圖10所示。Borderline-SMOTE平衡算法處理后,在5個指標上IABC-DEL模型均可取得最優的分類效果。其原因可能是該算法使用邊界上的少數類樣本合成新樣本的方法,更好地改善AIS患者各樣本的預后類別分布。在未平衡的原始數據上,因各類別分布的不均衡,使得正常組的Macro-AUC(91.18%)明顯高于低度組(77.71%)和中重度組(71.96%)。而在接受平衡后,這種預測偏差得到了有效降低。

圖10 各種平衡模型的ROC曲線Fig.10 ROC curve of various balance methods

表5 各種平衡方法的效果比較(融合特征和IABC-DEL)Table 5 Effect comparison of various balance methods(fusion feature and IABC-DEL) 單位:%
表6為本文方法與既往經典方法的性能進行了比較結果,結果表明:IABC-DEL的Macro-AUC、ACC等分類性能明顯優于既往方法,且既往5篇研究都是基于二分類結局。證明本文構建的IABC-DEL模型對于AIS患者預后的NIHSS分類預測是有效的,通過特征融合與超參數尋優,使網絡模型具備更豐富的患者特征信息和更優的預測性能。

表6 與既往研究效果的比較Table 6 Comparison with previous studies
在實際預測效果的比較中,既往研究的方法限制較大,對于分類性能的提升作用有限。如Alaka等[30]利用單一機器學習模型預測AIS患者治療后的相關功能障礙,在內部數據取得了65%~72%的AUC,在外部數據上取得了66%~71%的AUC。Wang等[7]利用AIS預后進行二分類預測,取得了80%的AUC。這些方法往往使用單一數據或單一方法,或僅執行了二分類預測,在預測過程中存在較多限制。
本文提出一種基于AIS特征融合的深度集成學習模型IABC-DEL,在特征融合、深度集成和超參數優化等方面進行了嘗試和創新。在特征融合方面,通過對臨床特征的卡方檢驗和獨熱編碼與對影像組學特征的歸一標準化處理和特征篩選,有效地消除特征量綱和數量級等問題,且選取對結局變量有重要意義的特征,為后續的模型構建奠定基礎。在深度集成方面,本文利用Stacking的集成學習方式將三種強監督學習器進行了有效的結合,從而使模型準確度得到了提升。在結果變量方面,本文執行了AIS三分類預測,所得結果具有較高的準確性,在臨床應用中有較好的指導作用。同樣,本文研究存在著一些局限性,其不足之處在于數據為單中心收集,且模型的驗證為內部驗證。未來,將獲取多中心數據集,并利用外部數據集進行外部驗證。
在臨床診療過程中,因醫療資源緊張、患者個體化差異大的特征,通過院前資料預測AIS患者的預后對臨床診治較為重要。結合實際,本文收集并提取了臨床與影像組學特征,利用特征融合、深度集成和超參數優化等理念構建了預后預測模型,旨在提升患者預后預測的精度,為臨床預測模型的構建提供新的思路,對患者的臨床輔助診療和預后康復治療具有重要意義。未來,在擴大醫院的收集范圍和增加搜集的樣本量外,本文還將考慮對搜集的醫學影像資料進行自動分割,旨在降低人力成本,進而自動化、精準化、快捷化地完成預后預測任務。