基于機(jī)器學(xué)習(xí)的重癥監(jiān)護(hù)室超長入住時長預(yù)測

2021-12-13 07:35:20吳靜依胡永華孔桂蘭

北京大學(xué)學(xué)報(醫(yī)學(xué)版) 2021年6期

吳靜依，林瑜，藺軻，胡永華,3，孔桂蘭

(1.北京大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系，北京 100191；2.浙江省北大信息技術(shù)高等研究院，杭州 311200；3.北京大學(xué)醫(yī)學(xué)信息學(xué)中心，北京 100191；4.北京大學(xué)健康醫(yī)療大數(shù)據(jù)國家研究院，北京 100191)

重癥監(jiān)護(hù)室(intensive care unit，ICU)是為醫(yī)院內(nèi)危重患者提供持續(xù)護(hù)理、密切監(jiān)測以及最優(yōu)化醫(yī)療支持的醫(yī)療場所。ICU患者病情嚴(yán)重程度較高，常見的病癥包括呼吸窘迫綜合征、創(chuàng)傷、多器官衰竭和敗血癥等[1]。由于ICU對醫(yī)療設(shè)施和醫(yī)療人員都有嚴(yán)格的質(zhì)量要求，在經(jīng)濟(jì)水平較低的地區(qū)，ICU資源往往供不應(yīng)求[2]。因此，如何根據(jù)患者病情嚴(yán)重程度合理做出醫(yī)療干預(yù)，以提高醫(yī)療效率并改善患者預(yù)后就顯得尤為重要。

ICU入住時長(length of ICU stay，LOS-ICU)是判斷患者病情嚴(yán)重程度、評價醫(yī)院醫(yī)療衛(wèi)生資源利用效率的有效指標(biāo)[3]。研究表明，臨床醫(yī)師很難在患者入住ICU初始階段準(zhǔn)確地預(yù)測患者的LOS-ICU[4]。因此，利用歷史累積的ICU臨床數(shù)據(jù)，識別影響患者LOS-ICU的重要因素，構(gòu)建有效的LOS-ICU預(yù)測模型，可以輔助臨床醫(yī)師對ICU患者進(jìn)行危險度分層，做出合適的臨床干預(yù)并合理安排醫(yī)療資源，這對提高醫(yī)療質(zhì)量并改善患者預(yù)后至關(guān)重要。簡化急性生理功能評分Ⅱ(simplified acute physiology score Ⅱ，SAPS-Ⅱ)[5]、急性生理學(xué)和慢性健康狀況評分Ⅳ(acute physiology and chronic health evaluation Ⅳ，APACHE-Ⅳ)[6]等ICU常用的危重癥病情評分系統(tǒng)是量化患者病情嚴(yán)重程度最常用的手段之一。目前已有一些研究基于上述危重癥病情評分系統(tǒng)進(jìn)行改良，構(gòu)建定制版的危重癥病情評分系統(tǒng)用于預(yù)測患者的LOS-ICU[7-8]。然而研究結(jié)果表明，這類定制版的LOS-ICU預(yù)測評分系統(tǒng)的預(yù)測準(zhǔn)確性有限。近年來，數(shù)據(jù)挖掘技術(shù)與機(jī)器學(xué)習(xí)模型不斷發(fā)展，并在多種不同的醫(yī)療決策支持領(lǐng)域表現(xiàn)出優(yōu)良的預(yù)測性能[9-10]，這為開發(fā)新的LOS-ICU預(yù)測模型提供了方法支持。另外，隨著醫(yī)療信息化程度不斷提高，許多醫(yī)療信息得以實現(xiàn)電子化保存，這為構(gòu)建LOS-ICU預(yù)測模型提供了可靠的數(shù)據(jù)支持。

本文以國外大型重癥醫(yī)療數(shù)據(jù)庫(medical information mart for intensive care Ⅲ，MIMIC-Ⅲ)[11]為數(shù)據(jù)源，基于三種機(jī)器學(xué)習(xí)模型：支持向量機(jī)(support vector machine，SVM)、分類回歸樹(classification and regression tree，CART)和隨機(jī)森林(random forest，RF)，構(gòu)建患者是否發(fā)生超長LOS-ICU(prolonged LOS-ICU，pLOS-ICU)的預(yù)測模型，并比較其與傳統(tǒng)定制版SAPS-Ⅱ評分系統(tǒng)的預(yù)測性能。

1 資料與方法

1.1 數(shù)據(jù)來源

本研究基于美國大型公開重癥醫(yī)療數(shù)據(jù)庫MIMIC-Ⅲ[11]進(jìn)行數(shù)據(jù)分析與模型構(gòu)建。

1.2 患者納入與排除標(biāo)準(zhǔn)

納入標(biāo)準(zhǔn)：年齡≥18歲且≤90歲的ICU患者。排除標(biāo)準(zhǔn)：院內(nèi)死亡；LOS-ICU缺失；變量缺失率達(dá)30%及以上的ICU患者。對于單次住院期間多次入住ICU的患者隨機(jī)抽取一條ICU入住記錄。

1.3 研究結(jié)局與預(yù)測變量

本研究的結(jié)局指標(biāo)為二分類變量，即ICU患者是否發(fā)生pLOS-ICU。既往研究將ICU患者發(fā)生pLOS-ICU的界限值定義為LOS-ICU的第三四分位數(shù)(Q3)[12-13]，基于此，本研究中符合納入標(biāo)準(zhǔn)患者的LOS-ICU的Q3值為4 d，即LOS-ICU超過4 d的患者定義為發(fā)生pLOS-ICU。

為了更加客觀地比較三種機(jī)器學(xué)習(xí)模型(SVM、CART和RF)與傳統(tǒng)定制版SAPS-Ⅱ評分系統(tǒng)的預(yù)測性能，本研究使用SAPS-Ⅱ中涉及到的所有變量作為構(gòu)建SVM、CART與RF模型的基礎(chǔ)特征集，再使用遞歸特征消除法(recursive feature elimination)[14]進(jìn)行特征選擇。本研究使用RF模型的預(yù)測性能作為特征子集的評價準(zhǔn)則，向后逐步回歸篩選特征，每一次迭代將變量重要性排在最后一位的特征去除，直至模型中僅剩余一個預(yù)測變量，最后在遍歷的特征子集中選取使得RF模型的預(yù)測性能達(dá)到最優(yōu)的特征子集作為最終預(yù)測變量集。基礎(chǔ)預(yù)測變量包括：年齡，ICU入住類型(計劃手術(shù)、非計劃手術(shù)、無手術(shù))，是否合并艾滋病、血液系統(tǒng)惡性腫瘤、轉(zhuǎn)移癌，以及12項生理學(xué)指標(biāo)[心率、收縮壓、體溫、動脈血氧分壓與吸入氧分?jǐn)?shù)之比(ratio of arterial oxygen tension to the fraction of inspired oxygen，PaO2/FiO2)、尿量、血清尿素氮水平、白細(xì)胞計數(shù)、血清鉀水平、血清鈉水平、血碳酸氫鹽水平、血膽紅素水平、Glasgow昏迷評分]。其中12項生理學(xué)指標(biāo)取患者入住ICU后第一個24 h內(nèi)的測量值，一些變量(如心率、體溫等)為重復(fù)測量指標(biāo)。在SAPS-Ⅱ模型中，對于只有唯一取值的變量(如年齡、性別等)，根據(jù)變量的取值賦予相應(yīng)的分值；對于重復(fù)測量的變量，取患者入住ICU后第一個24 h內(nèi)的最差值(最大值或最小值)，并賦予相應(yīng)的分值[5]。在SVM、CART和RF模型中，對于唯一取值的變量，直接取該變量的原始值納入模型；對于重復(fù)測量的變量，則提取患者入住ICU后第一個24 h內(nèi)的最大值和最小值同時納入模型。

1.4 SVM模型

SVM是20世紀(jì)90年代中期開發(fā)的一種有監(jiān)督機(jī)器學(xué)習(xí)算法[15]。當(dāng)數(shù)據(jù)集線性不可分時，SVM可通過映射函數(shù)φ(x)將線性不可分的數(shù)據(jù)從原始特征空間映射到一個更高維的特征空間，在高維空間中找到一個最佳的分隔平面(最大間隔超平面)，從而將不同類別的樣本區(qū)分開來。給定包含N個樣本點的訓(xùn)練數(shù)據(jù)集：D={(x1,y1),…,(x2,y2),…,(xN,yN)}，其中，(xi,yi)稱為第i個樣本點，xi∈Rn，yi∈{-1,1}。SVM通過映射函數(shù)φ(x)將訓(xùn)練數(shù)據(jù)集D投射到更高維的特征空間。在高維特征空間，分隔超平面可表示為：wTφ(x)+b=0，其中，w是和高維特征平面維數(shù)相同的法向量，b是誤差項。距離分隔超平面最近的樣本點稱為支持向量，支持向量滿足：|wTφ(x)+b|=1。在高維特征空間，支持向量距離分隔超平面的距離R為：

SVM的學(xué)習(xí)目標(biāo)是在投射后的高維空間內(nèi)找到一個最大間隔超平面，使得支持向量到超平面的距離R最大。為了處理高維空間存在的爆炸性計算問題，SVM引入了核函數(shù)降低高維計算量。常用的核函數(shù)包括線性核函數(shù)、多項式核函數(shù)、徑向基核函數(shù)和指數(shù)核函數(shù)。SVM模型在處理非線性可分、高維數(shù)據(jù)分類問題和泛化能力方面都表現(xiàn)出特有的優(yōu)勢[16]。

本研究中SVM模型的參數(shù)尋優(yōu)結(jié)合五折交叉驗證與網(wǎng)格搜索法。網(wǎng)格搜索法是指通過循環(huán)遍歷給定的參數(shù)組合來實現(xiàn)參數(shù)尋優(yōu)。最終采用的SVM模型的參數(shù)為：核函數(shù)為徑向基核函數(shù)，懲罰因子C為100，核函數(shù)參數(shù)gamma為0.1，C和gamma共同控制SVM模型在訓(xùn)練集的擬合程度與泛化能力的平衡。

1.5 CART模型

CART是一種二分遞歸式的樹狀結(jié)構(gòu)的決策樹模型[17]。CART模型生成的決策樹可解釋性好，因此在臨床決策中被廣泛應(yīng)用。CART模型的核心是通過計算信息增益選擇決策樹局部的最優(yōu)劃分特征建立決策節(jié)點，從而逐步構(gòu)建決策樹。一般來講，一棵CART決策樹包含一個根節(jié)點、若干個內(nèi)部節(jié)點和若干個葉節(jié)點。其中，根節(jié)點包含樣本全集，根節(jié)點與內(nèi)部節(jié)點均為決策節(jié)點，每個決策節(jié)點對應(yīng)于一個特征決策，每個葉節(jié)點對應(yīng)于一種決策結(jié)果。CART算法采用二分遞歸分割算法，總是根據(jù)特征決策將當(dāng)前樣本集分割為兩個子樣本集，使得生成的決策樹的每個非葉節(jié)點都只有兩個分支，因此，CART算法生成的決策樹是結(jié)構(gòu)簡潔的二叉樹。

在每個決策節(jié)點，CART模型使用Gini指數(shù)減少量作為信息增益的度量指標(biāo)來選擇該節(jié)點的最優(yōu)劃分特征。若一個數(shù)據(jù)集D包含J個類別的樣本，則該數(shù)據(jù)集D的Gini指數(shù)為：

其中，pj為第j個類別的樣本在數(shù)據(jù)集D中所占的比例。若根據(jù)某個特征A將數(shù)據(jù)集D劃分為兩個子數(shù)據(jù)集D1和D2，則該特征A對應(yīng)的Gini指數(shù)減少量S=Gini(D)-Gini(D1)-Gini(D2)。Gini指數(shù)減少量最大的特征將用于劃分該節(jié)點。相比于傳統(tǒng)的線性回歸模型，CART模型不需要預(yù)測變量與結(jié)局變量滿足復(fù)雜的關(guān)系假設(shè)，并且適用于處理預(yù)測變量與結(jié)局變量之間的非線性相關(guān)關(guān)系[18]。

本研究中CART模型的參數(shù)尋優(yōu)結(jié)合五折交叉驗證與網(wǎng)格搜索法。最終采用的CART模型的參數(shù)為：決策樹最大深度為6，內(nèi)部節(jié)點再劃分所需最小樣本數(shù)為200。

1.6 RF模型

RF是由Breiman[19]提出的基于樹模型構(gòu)建的一種常見的集成學(xué)習(xí)模型。集成學(xué)習(xí)通過綜合多個弱分類器的分類結(jié)果，可進(jìn)一步提升模型的性能。研究表明，集成學(xué)習(xí)模型的性能一般優(yōu)于單個的基礎(chǔ)分類器[9，20-21]。RF使用決策樹作為基礎(chǔ)分類器，待分類樣本的分類結(jié)果由所有相互獨立的決策樹的分類結(jié)果投票決定。RF的具體分類流程為：(1)訓(xùn)練樣本隨機(jī)采樣：使用自助法(Bootstrap)在整個訓(xùn)練數(shù)據(jù)集D中重采樣，隨機(jī)產(chǎn)生K個訓(xùn)練子集D1,D2,…,DK，采樣比例為1-[1-1/N]N，其中，N為整個訓(xùn)練數(shù)據(jù)集D的樣本總數(shù)，當(dāng)N趨向無窮時，采樣比例約為2/3。(2)隨機(jī)特征訓(xùn)練決策樹：基于每個重采樣訓(xùn)練子集訓(xùn)練一棵決策樹，在決策樹的每個節(jié)點，從所有M個特征中隨機(jī)選取F個特征作為當(dāng)前節(jié)點的特征子集，并以特征子集中信息增益最大的特征對該節(jié)點進(jìn)行分裂，從而逐步構(gòu)建決策樹T1,T2,…,TK；決策樹的生成依據(jù)信息增益最大化原則，常用的信息增益度量指標(biāo)為Gini指數(shù)減少值。(3)決策樹投票判別：采用投票法得到K個決策樹中輸出最多的類別作為待分類樣本的分類結(jié)果。RF模型中的兩次隨機(jī)化過程——訓(xùn)練樣本隨機(jī)化和特征隨機(jī)化，使得RF在處理高維數(shù)據(jù)問題時更有優(yōu)勢，也提供了更強(qiáng)大的泛化能力[22]。

本研究中RF模型的參數(shù)尋優(yōu)結(jié)合五折交叉驗證與網(wǎng)格搜索法。最終采用的RF模型參數(shù)為：決策樹個數(shù)(K)為300，決策樹每個節(jié)點選擇的隨機(jī)特征數(shù)量(F)為5，決策樹最大深度為13。

1.7 定制版SAPS-Ⅱ模型

SAPS-Ⅱ是Le Gall等[5]于1993年使用12 997例ICU患者的數(shù)據(jù)基于邏輯回歸(Logistic regression，LR)算法開發(fā)的危重癥評分系統(tǒng)。SAPS-Ⅱ模型由兩部分組成：SAPS-Ⅱ評分和概率計算。SAPS-Ⅱ評分由17項變量構(gòu)成，每項變量依據(jù)患者情況進(jìn)行打分，最低0分，最高26分，總分0～163分。將所得SAPS-Ⅱ評分代入概率計算公式，即可得到ICU患者的死亡風(fēng)險。具體公式為：

z=β0+β1×Score+β2×ln(Score+1)，

其中，Score為SAPS-Ⅱ評分所得總分，β0、β1、β2為原始文獻(xiàn)基于LR計算得到的各變量的系數(shù)，Pmor為ICU患者的死亡風(fēng)險。

SAPS-Ⅱ模型最初是用于預(yù)測ICU患者的死亡風(fēng)險，現(xiàn)有的一些研究基于SAPS-Ⅱ進(jìn)行改良，定制用于預(yù)測ICU患者LOS-ICU的SAPS-Ⅱ模型[7-8]。本研究參照Vasilevskis等[7]的方法，使用MIMIC-Ⅲ數(shù)據(jù)庫基于LR算法定制了預(yù)測ICU患者發(fā)生pLOS-ICU風(fēng)險的SAPS-Ⅱ模型，作為其他三種機(jī)器學(xué)習(xí)模型的比較對象。具體的定制方法為：

其中，β′0、β′1、β′2為基于MIMIC-Ⅲ數(shù)據(jù)庫計算的各變量的系數(shù)，PpLOS-ICU為ICU患者發(fā)生pLOS-ICU的風(fēng)險概率。

1.8 統(tǒng)計分析與模型比較

本研究中數(shù)據(jù)的提取與清洗使用Postgre SQL軟件，數(shù)據(jù)分析與模型構(gòu)建使用Python 3.3.6軟件。各變量的缺失值使用該變量的正常值填補(bǔ)。變量的正常值定義為SAPS-Ⅱ評分系統(tǒng)中該變量評分為0時所對應(yīng)的變量取值，或者變量值區(qū)間的最大值和最小值的平均值。

模型預(yù)測性能的比較基于五折交叉驗證所得的預(yù)測性能的平均值。模型的預(yù)測性能使用三種指標(biāo)進(jìn)行評價：(1)Brier評分：評價模型的綜合預(yù)測性能；(2)受試者工作特征曲線下面積(area under the receiver operation characteristic curve，AUROC)：評價模型的區(qū)分度；(3)估計校準(zhǔn)度指數(shù)(estimated calibration index，ECI)：評價模型的校準(zhǔn)度[23-24]。Brier評分反映模型的預(yù)測結(jié)果與實際結(jié)果之間的誤差，Brier評分越小，模型的綜合預(yù)測性能越優(yōu)。模型的區(qū)分度是指模型能夠正確區(qū)分正樣本(發(fā)生pLOS-ICU)與負(fù)樣本(不發(fā)生pLOS-ICU)的能力，AUROC越接近于1，模型的區(qū)分度越優(yōu)。模型的校準(zhǔn)度是指模型預(yù)測的結(jié)局發(fā)生風(fēng)險與實際發(fā)生風(fēng)險之間的一致性程度，ECI越小，模型的校準(zhǔn)度越優(yōu)。使用校準(zhǔn)曲線圖進(jìn)一步直觀化評價模型的校準(zhǔn)度。校準(zhǔn)曲線圖的橫坐標(biāo)為實際的結(jié)局發(fā)生風(fēng)險，縱坐標(biāo)為模型預(yù)測的結(jié)局發(fā)生風(fēng)險，理想的模型校準(zhǔn)曲線應(yīng)為一條對角線，即模型預(yù)測的結(jié)局發(fā)生風(fēng)險與實際的結(jié)局發(fā)生風(fēng)險完全一致。校準(zhǔn)曲線圖可以反映在由低到高不同的結(jié)局發(fā)生風(fēng)險人群中，模型預(yù)測的結(jié)局發(fā)生風(fēng)險與實際結(jié)局發(fā)生風(fēng)險的差異。模型性能指標(biāo)之間的比較使用雙側(cè)t檢驗，以P<0.05為差異具有統(tǒng)計學(xué)意義的判斷標(biāo)準(zhǔn)。使用本研究中預(yù)測性能最好的模型識別出來的各預(yù)測變量重要性排序結(jié)果，給出重要性排序前五位的預(yù)測變量。

2 結(jié)果

2.1 基本特征

經(jīng)過數(shù)據(jù)清洗，本研究共納入40 200例符合條件的ICU患者，LOS-ICU的中位數(shù)為2.1 d(1.2～3.9 d)，發(fā)生pLOS-ICU的患者有9 514例，占比23.7%。患者平均年齡為(61.9±16.5)歲，男性患者23 145例，占比57.6%。ICU患者的詳細(xì)信息見表1。

表1 MIMIC-Ⅲ數(shù)據(jù)庫中ICU患者的基本特征(n=40 200)Table 1 Characteristics of ICU patients in MIMIC-Ⅲ(n=40 200)

圖1為患者的pLOS-ICU發(fā)生率依年齡、性別分層的金字塔圖，可見隨著年齡的上升，pLOS-ICU發(fā)生率在男性與女性患者中均呈上升趨勢。30歲以上患者中，各年齡層的女性患者pLOS-ICU發(fā)生率略高于男性。

單因素假設(shè)檢驗結(jié)果顯示，全部26個預(yù)測變量中，除體溫最小值、血碳酸氫鹽最小值、血膽紅素最小值以及是否合并艾滋病等4個預(yù)測變量外，其余22個預(yù)測變量與結(jié)局pLOS-ICU均顯著相關(guān)(P<0.05)。

pLOS-ICU,prolonged length of ICU stay.圖1 ICU患者pLOS-ICU發(fā)生率依年齡、性別分層的金字塔圖Figure 1 The pLOS-ICU proportion pyramid stratified by age and gender

2.2 特征選擇

使用SAPS-Ⅱ中涉及到的所有變量作為基礎(chǔ)特征集，在遞歸特征消除的過程中，建模特征的個數(shù)與RF模型性能的關(guān)系曲線如圖2所示。隨著納入特征數(shù)量的減少，RF模型的AUROC呈下降趨勢；當(dāng)納入全部26個特征時，RF模型的AUROC最大。因此，最終用于建模的變量數(shù)目為26個。

2.3 模型的預(yù)測性能比較

SVM、CART、RF和定制版SAPS-Ⅱ模型的預(yù)測性能(Brier分值、AUROC、ECI)比較見表2。五折交叉驗證結(jié)果顯示，四個模型中，RF模型在綜合預(yù)測性能、區(qū)分度與校準(zhǔn)度三個方面均表現(xiàn)最優(yōu)，其達(dá)到了最優(yōu)的Brier評分、AUROC和ECI，分別為 0.145、0.770和7.259。相比于定制版SAPS-Ⅱ模型，三個機(jī)器學(xué)習(xí)模型在綜合預(yù)測性能(Brier評分)、區(qū)分度(AUROC)和校準(zhǔn)度(ECI)三個方面均有明顯提升，且差異具有統(tǒng)計學(xué)意義(P<0.01)。

AUROC,area under the receiver operation characteristic curve.圖2 建模特征的個數(shù)與RF模型性能的關(guān)系曲線Figure 2 The relationship curve that the prediction performance of RF model varies with the number of selected features

表2 四種模型的預(yù)測性能比較Table 2 Prediction performance of the four models

2.4 RF模型的校準(zhǔn)曲線分析結(jié)果

從RF模型的校準(zhǔn)曲線(圖3)可以看出，在高pLOS-ICU發(fā)生風(fēng)險的ICU人群中，RF模型略微高估了其風(fēng)險；在低pLOS-ICU發(fā)生風(fēng)險的ICU人群中，RF模型略微低估了其風(fēng)險。

2.5 RF模型識別的變量重要性排序

基于RF模型識別的變量重要性，對pLOS-ICU預(yù)測最重要的五個變量依次為年齡、心率、收縮壓、體溫和PaO2/FiO2。

3 討論

LOS作為評價醫(yī)院效率與醫(yī)療資源利用率的有效指標(biāo)，近年來在各個醫(yī)療領(lǐng)域被廣泛研究。本研究使用美國大型重癥醫(yī)療數(shù)據(jù)庫MIMIC-Ⅲ，基于三種機(jī)器學(xué)習(xí)模型(SVM、CART和RF)構(gòu)建ICU患者是否發(fā)生pLOS-ICU的預(yù)測模型，并比較其與傳統(tǒng)的定制版SAPS-Ⅱ模型的預(yù)測性能。研究結(jié)果顯示，RF模型在綜合預(yù)測性能、區(qū)分度與校準(zhǔn)度三個方面均表現(xiàn)最優(yōu)，且相比于定制版SAPS-Ⅱ模型，其性能提升有統(tǒng)計學(xué)意義。

RF,random forest.圖3 RF模型的校準(zhǔn)曲線Figure 3 Calibration plot of RF model

MIMIC-Ⅲ數(shù)據(jù)庫由美國麻省理工學(xué)院(Massachusetts Institute of Technology，MIT)計算生理學(xué)實驗室、美國哈佛醫(yī)學(xué)院貝斯以色列迪康醫(yī)學(xué)中心(Beth Israel Deaconess Medical Center,BIDMC)于2015年8月合作建立并維護(hù)。MIMIC-Ⅲ數(shù)據(jù)庫為單中心數(shù)據(jù)庫，儲存了2001—2012年超過4萬例ICU患者的臨床信息記錄，包括每例患者的人口學(xué)特征、診斷編碼、生命體征測量數(shù)據(jù)、實驗室檢查數(shù)據(jù)、用藥記錄、生存結(jié)局等。其數(shù)據(jù)經(jīng)過了嚴(yán)格的去隱私處理，患者的隱私信息如姓名、職業(yè)、聯(lián)系方式等均不予記錄。MIMIC-Ⅲ數(shù)據(jù)庫不僅樣本量大、數(shù)據(jù)類型豐富，而且數(shù)據(jù)質(zhì)量高、可靠性好。

本研究基于三種機(jī)器學(xué)習(xí)模型(SVM、CART和RF)構(gòu)建ICU患者是否發(fā)生pLOS-ICU的預(yù)測模型，研究中所使用的三種機(jī)器學(xué)習(xí)模型在實踐中均有自己的優(yōu)勢所在，沒有一個機(jī)器學(xué)習(xí)模型絕對優(yōu)于另一種模型。具體建模實踐時，則需根據(jù)數(shù)據(jù)集的特點及應(yīng)用需求綜合選擇最為有效的機(jī)器學(xué)習(xí)模型。本研究結(jié)果提示，在預(yù)測ICU患者是否發(fā)生pLOS-ICU的應(yīng)用中，RF模型在綜合預(yù)測性能、區(qū)分度與校準(zhǔn)度三個方面均表現(xiàn)最優(yōu)，且相比于傳統(tǒng)的定制版SAPS-Ⅱ模型，其性能提升有統(tǒng)計學(xué)意義。SAPS-Ⅱ本質(zhì)上是基于LR算法開發(fā)的預(yù)測模型，傳統(tǒng)的LR算法能夠處理的樣本數(shù)據(jù)量和特征維度有限，而且無法解決變量間的共線性問題，其預(yù)測性能也因此受到限制。相比于傳統(tǒng)的LR模型，RF模型特有兩種隨機(jī)化思想——訓(xùn)練樣本隨機(jī)化和特征隨機(jī)化，可在構(gòu)建基礎(chǔ)決策樹時減少訓(xùn)練集的維度與樣本量，使得RF模型在處理高維度、大樣本數(shù)據(jù)時更有優(yōu)勢。

RF模型的預(yù)測性能在各個方面均優(yōu)于SVM和CART模型。不同于SVM和CART模型，RF模型是以決策樹為基礎(chǔ)分類器的集成學(xué)習(xí)模型，RF基于隨機(jī)采樣的訓(xùn)練數(shù)據(jù)子集生成大量相互獨立的決策樹，其最終的模型預(yù)測結(jié)果綜合了所有生成決策樹的輸出結(jié)果。在RF模型所有子決策樹中，每棵決策樹都可挖掘到預(yù)測變量與結(jié)局間相關(guān)性的一部分信息，RF則集成所有決策樹預(yù)測結(jié)果，以減小發(fā)生在單個決策樹中的預(yù)測誤差。大量研究表明，相比于單個的基礎(chǔ)分類器，集成學(xué)習(xí)模型的預(yù)測性能往往更為優(yōu)異，其泛化能力也更為強(qiáng)大[9,20-21]，與本研究的結(jié)果相一致。RF模型的校準(zhǔn)曲線分析結(jié)果顯示，RF模型會略微高估高風(fēng)險ICU患者的pLOS-ICU發(fā)生風(fēng)險，并略微低估低風(fēng)險ICU患者的pLOS-ICU發(fā)生風(fēng)險，說明RF模型傾向于拉開高風(fēng)險人群與低風(fēng)險人群的pLOS-ICU預(yù)測發(fā)生概率，這有助于更好地將高風(fēng)險人群與低風(fēng)險人群區(qū)分開來。

基于RF模型識別出的對pLOS-ICU預(yù)測最為重要的五個變量依次為年齡、心率、收縮壓、體溫和PaO2/FiO2。既往研究表明，年齡是影響ICU患者預(yù)后及醫(yī)療資源使用的一個重要因素[25-27]。高齡患者的身體機(jī)能下降，同時易合并多種慢性疾病，這增加了高齡ICU患者發(fā)生不良預(yù)后及消耗更多醫(yī)療資源的風(fēng)險[28]。心率、收縮壓和體溫是衡量患者各器官代謝機(jī)能及狀態(tài)的基本指標(biāo)，本研究結(jié)果表明這三個基礎(chǔ)指標(biāo)對ICU患者的預(yù)后有重要的預(yù)測作用，與既往研究結(jié)果一致[29-31]。PaO2/FiO2是ICU患者使用機(jī)械通氣的一個測量指標(biāo)，其對ICU患者預(yù)后的獨立預(yù)測作用也已在既往研究中被證實[32]。

本研究構(gòu)建的pLOS-ICU預(yù)測模型對于我國ICU患者有一定的可適用性。第一，既往文獻(xiàn)中報告的我國ICU患者的LOS-ICU的中位數(shù)為3 d[33]，與本研究所使用的MIMIC-Ⅲ數(shù)據(jù)庫中ICU患者的LOS-ICU的中位數(shù)(2.1 d)相近，且兩者的LOS-ICU分布有一定的相似性，均為右偏分布。第二，本研究建模所使用的預(yù)測變量大部分為我國ICU常規(guī)收集的醫(yī)療數(shù)據(jù)，數(shù)據(jù)獲取方便[34]。第三，汪洋等[35]使用我國ICU患者的數(shù)據(jù)，基于RF算法構(gòu)建的ICU患者的死亡預(yù)測模型達(dá)到了較高的準(zhǔn)確率(AUROC=0.836)，這表明RF模型在預(yù)測ICU患者的預(yù)后方面對我國ICU患者的醫(yī)療數(shù)據(jù)有著一定的可適用性與應(yīng)用前景。但另一方面，由于我國的人種特征、ICU的治療模式與技術(shù)水平仍與美國有一定差異，本研究所構(gòu)建的pLOS-ICU預(yù)測模型在應(yīng)用于我國ICU的臨床實踐前，有待進(jìn)一步的本地化修正與臨床效應(yīng)評估。

本研究有以下幾點優(yōu)勢：(1)所使用的數(shù)據(jù)庫樣本量大，數(shù)據(jù)類型豐富；(2)建模所使用的預(yù)測變量均可在入住ICU后24 h內(nèi)獲得，因此，可在入住ICU早期使用pLOS-ICU預(yù)測模型，及時輔助醫(yī)生進(jìn)行臨床決策；(3)使用五折交叉驗證方法驗證預(yù)測模型，所得結(jié)果較為穩(wěn)健。但本研究也有一定的局限性：第一，MIMIC-Ⅲ數(shù)據(jù)庫是一個美國的單中心數(shù)據(jù)庫，且僅包含2001—2012年的數(shù)據(jù)，因而本研究所構(gòu)建的pLOS-ICU預(yù)測模型的外推性可能會受到一定的限制，鑒于此，在應(yīng)用于臨床實踐前，該pLOS-ICU預(yù)測模型有待進(jìn)一步的本地數(shù)據(jù)修正與臨床效應(yīng)評估。第二，本研究樣本可能存在一定的選擇偏差，因為排除了在ICU內(nèi)死亡的患者，其LOS-ICU的發(fā)展規(guī)律可能與生存患者的LOS-ICU的發(fā)展規(guī)律不一致，所以，所構(gòu)建的pLOS-ICU預(yù)測模型可能不適用于在ICU內(nèi)死亡的患者。第三，為了客觀地比較機(jī)器學(xué)習(xí)模型與傳統(tǒng)SAPS-Ⅱ模型的預(yù)測性能，本研究只使用了SAPS-Ⅱ中涉及到的變量構(gòu)建機(jī)器學(xué)習(xí)模型，一些潛在的與LOS-ICU相關(guān)的特征可能未能納入本研究的預(yù)測模型之中。

綜上所述，本研究基于三種不同的機(jī)器學(xué)習(xí)算法構(gòu)建ICU患者的pLOS-ICU預(yù)測模型，其中RF模型的預(yù)測性能最佳。基于RF的pLOS-ICU預(yù)測模型有很大的潛力輔助臨床醫(yī)護(hù)人員對ICU患者進(jìn)行危險分層，從而進(jìn)行合理的臨床干預(yù)并改善患者預(yù)后。