999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機(jī)器學(xué)習(xí)的重癥監(jiān)護(hù)室超長入住時長預(yù)測

2021-12-13 07:35:20吳靜依胡永華孔桂蘭
關(guān)鍵詞:特征模型研究

吳靜依,林 瑜,藺 軻,胡永華,3,孔桂蘭

(1.北京大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系,北京 100191;2.浙江省北大信息技術(shù)高等研究院,杭州 311200;3.北京大學(xué)醫(yī)學(xué)信息學(xué)中心,北京 100191;4.北京大學(xué)健康醫(yī)療大數(shù)據(jù)國家研究院,北京 100191)

重癥監(jiān)護(hù)室(intensive care unit,ICU)是為醫(yī)院內(nèi)危重患者提供持續(xù)護(hù)理、密切監(jiān)測以及最優(yōu)化醫(yī)療支持的醫(yī)療場所。ICU患者病情嚴(yán)重程度較高,常見的病癥包括呼吸窘迫綜合征、創(chuàng)傷、多器官衰竭和敗血癥等[1]。由于ICU對醫(yī)療設(shè)施和醫(yī)療人員都有嚴(yán)格的質(zhì)量要求,在經(jīng)濟(jì)水平較低的地區(qū),ICU資源往往供不應(yīng)求[2]。因此,如何根據(jù)患者病情嚴(yán)重程度合理做出醫(yī)療干預(yù),以提高醫(yī)療效率并改善患者預(yù)后就顯得尤為重要。

ICU入住時長(length of ICU stay,LOS-ICU)是判斷患者病情嚴(yán)重程度、評價醫(yī)院醫(yī)療衛(wèi)生資源利用效率的有效指標(biāo)[3]。研究表明,臨床醫(yī)師很難在患者入住ICU初始階段準(zhǔn)確地預(yù)測患者的LOS-ICU[4]。因此,利用歷史累積的ICU臨床數(shù)據(jù),識別影響患者LOS-ICU的重要因素,構(gòu)建有效的LOS-ICU預(yù)測模型,可以輔助臨床醫(yī)師對ICU患者進(jìn)行危險度分層,做出合適的臨床干預(yù)并合理安排醫(yī)療資源,這對提高醫(yī)療質(zhì)量并改善患者預(yù)后至關(guān)重要。簡化急性生理功能評分Ⅱ(simplified acute physiology score Ⅱ,SAPS-Ⅱ)[5]、急性生理學(xué)和慢性健康狀況評分Ⅳ(acute physiology and chronic health evaluation Ⅳ,APACHE-Ⅳ)[6]等ICU常用的危重癥病情評分系統(tǒng)是量化患者病情嚴(yán)重程度最常用的手段之一。目前已有一些研究基于上述危重癥病情評分系統(tǒng)進(jìn)行改良,構(gòu)建定制版的危重癥病情評分系統(tǒng)用于預(yù)測患者的LOS-ICU[7-8]。然而研究結(jié)果表明,這類定制版的LOS-ICU預(yù)測評分系統(tǒng)的預(yù)測準(zhǔn)確性有限。近年來,數(shù)據(jù)挖掘技術(shù)與機(jī)器學(xué)習(xí)模型不斷發(fā)展,并在多種不同的醫(yī)療決策支持領(lǐng)域表現(xiàn)出優(yōu)良的預(yù)測性能[9-10],這為開發(fā)新的LOS-ICU預(yù)測模型提供了方法支持。另外,隨著醫(yī)療信息化程度不斷提高,許多醫(yī)療信息得以實現(xiàn)電子化保存,這為構(gòu)建LOS-ICU預(yù)測模型提供了可靠的數(shù)據(jù)支持。

本文以國外大型重癥醫(yī)療數(shù)據(jù)庫(medical information mart for intensive care Ⅲ,MIMIC-Ⅲ)[11]為數(shù)據(jù)源,基于三種機(jī)器學(xué)習(xí)模型:支持向量機(jī)(support vector machine,SVM)、分類回歸樹(classification and regression tree,CART)和隨機(jī)森林(random forest,RF),構(gòu)建患者是否發(fā)生超長LOS-ICU(prolonged LOS-ICU,pLOS-ICU)的預(yù)測模型,并比較其與傳統(tǒng)定制版SAPS-Ⅱ評分系統(tǒng)的預(yù)測性能。

1 資料與方法

1.1 數(shù)據(jù)來源

本研究基于美國大型公開重癥醫(yī)療數(shù)據(jù)庫MIMIC-Ⅲ[11]進(jìn)行數(shù)據(jù)分析與模型構(gòu)建。

1.2 患者納入與排除標(biāo)準(zhǔn)

納入標(biāo)準(zhǔn):年齡≥18歲且≤90歲的ICU患者。排除標(biāo)準(zhǔn):院內(nèi)死亡;LOS-ICU缺失;變量缺失率達(dá)30%及以上的ICU患者。對于單次住院期間多次入住ICU的患者隨機(jī)抽取一條ICU入住記錄。

1.3 研究結(jié)局與預(yù)測變量

本研究的結(jié)局指標(biāo)為二分類變量,即ICU患者是否發(fā)生pLOS-ICU。既往研究將ICU患者發(fā)生pLOS-ICU的界限值定義為LOS-ICU的第三四分位數(shù)(Q3)[12-13],基于此,本研究中符合納入標(biāo)準(zhǔn)患者的LOS-ICU的Q3值為4 d,即LOS-ICU超過4 d的患者定義為發(fā)生pLOS-ICU。

為了更加客觀地比較三種機(jī)器學(xué)習(xí)模型(SVM、CART和RF)與傳統(tǒng)定制版SAPS-Ⅱ評分系統(tǒng)的預(yù)測性能,本研究使用SAPS-Ⅱ中涉及到的所有變量作為構(gòu)建SVM、CART與RF模型的基礎(chǔ)特征集,再使用遞歸特征消除法(recursive feature elimination)[14]進(jìn)行特征選擇。本研究使用RF模型的預(yù)測性能作為特征子集的評價準(zhǔn)則,向后逐步回歸篩選特征,每一次迭代將變量重要性排在最后一位的特征去除,直至模型中僅剩余一個預(yù)測變量,最后在遍歷的特征子集中選取使得RF模型的預(yù)測性能達(dá)到最優(yōu)的特征子集作為最終預(yù)測變量集。基礎(chǔ)預(yù)測變量包括:年齡,ICU入住類型(計劃手術(shù)、非計劃手術(shù)、無手術(shù)),是否合并艾滋病、血液系統(tǒng)惡性腫瘤、轉(zhuǎn)移癌,以及12項生理學(xué)指標(biāo)[心率、收縮壓、體溫、動脈血氧分壓與吸入氧分?jǐn)?shù)之比(ratio of arterial oxygen tension to the fraction of inspired oxygen,PaO2/FiO2)、尿量、血清尿素氮水平、白細(xì)胞計數(shù)、血清鉀水平、血清鈉水平、血碳酸氫鹽水平、血膽紅素水平、Glasgow昏迷評分]。其中12項生理學(xué)指標(biāo)取患者入住ICU后第一個24 h內(nèi)的測量值,一些變量(如心率、體溫等)為重復(fù)測量指標(biāo)。在SAPS-Ⅱ模型中,對于只有唯一取值的變量(如年齡、性別等),根據(jù)變量的取值賦予相應(yīng)的分值;對于重復(fù)測量的變量,取患者入住ICU后第一個24 h內(nèi)的最差值(最大值或最小值),并賦予相應(yīng)的分值[5]。在SVM、CART和RF模型中,對于唯一取值的變量,直接取該變量的原始值納入模型;對于重復(fù)測量的變量,則提取患者入住ICU后第一個24 h內(nèi)的最大值和最小值同時納入模型。

1.4 SVM模型

SVM是20世紀(jì)90年代中期開發(fā)的一種有監(jiān)督機(jī)器學(xué)習(xí)算法[15]。當(dāng)數(shù)據(jù)集線性不可分時,SVM可通過映射函數(shù)φ(x)將線性不可分的數(shù)據(jù)從原始特征空間映射到一個更高維的特征空間,在高維空間中找到一個最佳的分隔平面(最大間隔超平面),從而將不同類別的樣本區(qū)分開來。給定包含N個樣本點的訓(xùn)練數(shù)據(jù)集:D={(x1,y1),…,(x2,y2),…,(xN,yN)},其中,(xi,yi)稱為第i個樣本點,xi∈Rn,yi∈{-1,1}。SVM通過映射函數(shù)φ(x)將訓(xùn)練數(shù)據(jù)集D投射到更高維的特征空間。在高維特征空間,分隔超平面可表示為:wTφ(x)+b=0,其中,w是和高維特征平面維數(shù)相同的法向量,b是誤差項。距離分隔超平面最近的樣本點稱為支持向量,支持向量滿足:|wTφ(x)+b|=1。在高維特征空間,支持向量距離分隔超平面的距離R為:

SVM的學(xué)習(xí)目標(biāo)是在投射后的高維空間內(nèi)找到一個最大間隔超平面,使得支持向量到超平面的距離R最大。為了處理高維空間存在的爆炸性計算問題,SVM引入了核函數(shù)降低高維計算量。常用的核函數(shù)包括線性核函數(shù)、多項式核函數(shù)、徑向基核函數(shù)和指數(shù)核函數(shù)。SVM模型在處理非線性可分、高維數(shù)據(jù)分類問題和泛化能力方面都表現(xiàn)出特有的優(yōu)勢[16]。

本研究中SVM模型的參數(shù)尋優(yōu)結(jié)合五折交叉驗證與網(wǎng)格搜索法。網(wǎng)格搜索法是指通過循環(huán)遍歷給定的參數(shù)組合來實現(xiàn)參數(shù)尋優(yōu)。最終采用的SVM模型的參數(shù)為:核函數(shù)為徑向基核函數(shù),懲罰因子C為100,核函數(shù)參數(shù)gamma為0.1,C和gamma共同控制SVM模型在訓(xùn)練集的擬合程度與泛化能力的平衡。

1.5 CART模型

CART是一種二分遞歸式的樹狀結(jié)構(gòu)的決策樹模型[17]。CART模型生成的決策樹可解釋性好,因此在臨床決策中被廣泛應(yīng)用。CART模型的核心是通過計算信息增益選擇決策樹局部的最優(yōu)劃分特征建立決策節(jié)點,從而逐步構(gòu)建決策樹。一般來講,一棵CART決策樹包含一個根節(jié)點、若干個內(nèi)部節(jié)點和若干個葉節(jié)點。其中,根節(jié)點包含樣本全集,根節(jié)點與內(nèi)部節(jié)點均為決策節(jié)點,每個決策節(jié)點對應(yīng)于一個特征決策,每個葉節(jié)點對應(yīng)于一種決策結(jié)果。CART算法采用二分遞歸分割算法,總是根據(jù)特征決策將當(dāng)前樣本集分割為兩個子樣本集,使得生成的決策樹的每個非葉節(jié)點都只有兩個分支,因此,CART算法生成的決策樹是結(jié)構(gòu)簡潔的二叉樹。

在每個決策節(jié)點,CART模型使用Gini指數(shù)減少量作為信息增益的度量指標(biāo)來選擇該節(jié)點的最優(yōu)劃分特征。若一個數(shù)據(jù)集D包含J個類別的樣本,則該數(shù)據(jù)集D的Gini指數(shù)為:

其中,pj為第j個類別的樣本在數(shù)據(jù)集D中所占的比例。若根據(jù)某個特征A將數(shù)據(jù)集D劃分為兩個子數(shù)據(jù)集D1和D2,則該特征A對應(yīng)的Gini指數(shù)減少量S=Gini(D)-Gini(D1)-Gini(D2)。Gini指數(shù)減少量最大的特征將用于劃分該節(jié)點。相比于傳統(tǒng)的線性回歸模型,CART模型不需要預(yù)測變量與結(jié)局變量滿足復(fù)雜的關(guān)系假設(shè),并且適用于處理預(yù)測變量與結(jié)局變量之間的非線性相關(guān)關(guān)系[18]。

本研究中CART模型的參數(shù)尋優(yōu)結(jié)合五折交叉驗證與網(wǎng)格搜索法。最終采用的CART模型的參數(shù)為:決策樹最大深度為6,內(nèi)部節(jié)點再劃分所需最小樣本數(shù)為200。

1.6 RF模型

RF是由Breiman[19]提出的基于樹模型構(gòu)建的一種常見的集成學(xué)習(xí)模型。集成學(xué)習(xí)通過綜合多個弱分類器的分類結(jié)果,可進(jìn)一步提升模型的性能。研究表明,集成學(xué)習(xí)模型的性能一般優(yōu)于單個的基礎(chǔ)分類器[9,20-21]。RF使用決策樹作為基礎(chǔ)分類器,待分類樣本的分類結(jié)果由所有相互獨立的決策樹的分類結(jié)果投票決定。RF的具體分類流程為:(1)訓(xùn)練樣本隨機(jī)采樣:使用自助法(Bootstrap)在整個訓(xùn)練數(shù)據(jù)集D中重采樣,隨機(jī)產(chǎn)生K個訓(xùn)練子集D1,D2,…,DK,采樣比例為1-[1-1/N]N,其中,N為整個訓(xùn)練數(shù)據(jù)集D的樣本總數(shù),當(dāng)N趨向無窮時,采樣比例約為2/3。(2)隨機(jī)特征訓(xùn)練決策樹:基于每個重采樣訓(xùn)練子集訓(xùn)練一棵決策樹,在決策樹的每個節(jié)點,從所有M個特征中隨機(jī)選取F個特征作為當(dāng)前節(jié)點的特征子集,并以特征子集中信息增益最大的特征對該節(jié)點進(jìn)行分裂,從而逐步構(gòu)建決策樹T1,T2,…,TK;決策樹的生成依據(jù)信息增益最大化原則,常用的信息增益度量指標(biāo)為Gini指數(shù)減少值。(3)決策樹投票判別:采用投票法得到K個決策樹中輸出最多的類別作為待分類樣本的分類結(jié)果。RF模型中的兩次隨機(jī)化過程——訓(xùn)練樣本隨機(jī)化和特征隨機(jī)化,使得RF在處理高維數(shù)據(jù)問題時更有優(yōu)勢,也提供了更強(qiáng)大的泛化能力[22]。

本研究中RF模型的參數(shù)尋優(yōu)結(jié)合五折交叉驗證與網(wǎng)格搜索法。最終采用的RF模型參數(shù)為:決策樹個數(shù)(K)為300,決策樹每個節(jié)點選擇的隨機(jī)特征數(shù)量(F)為5,決策樹最大深度為13。

1.7 定制版SAPS-Ⅱ模型

SAPS-Ⅱ是Le Gall等[5]于1993年使用12 997例ICU患者的數(shù)據(jù)基于邏輯回歸(Logistic regression,LR)算法開發(fā)的危重癥評分系統(tǒng)。SAPS-Ⅱ模型由兩部分組成:SAPS-Ⅱ評分和概率計算。SAPS-Ⅱ評分由17項變量構(gòu)成,每項變量依據(jù)患者情況進(jìn)行打分,最低0分,最高26分,總分0~163分。將所得SAPS-Ⅱ評分代入概率計算公式,即可得到ICU患者的死亡風(fēng)險。具體公式為:

z=β0+β1×Score+β2×ln(Score+1),

其中,Score為SAPS-Ⅱ評分所得總分,β0、β1、β2為原始文獻(xiàn)基于LR計算得到的各變量的系數(shù),Pmor為ICU患者的死亡風(fēng)險。

SAPS-Ⅱ模型最初是用于預(yù)測ICU患者的死亡風(fēng)險,現(xiàn)有的一些研究基于SAPS-Ⅱ進(jìn)行改良,定制用于預(yù)測ICU患者LOS-ICU的SAPS-Ⅱ模型[7-8]。本研究參照Vasilevskis等[7]的方法,使用MIMIC-Ⅲ數(shù)據(jù)庫基于LR算法定制了預(yù)測ICU患者發(fā)生pLOS-ICU風(fēng)險的SAPS-Ⅱ模型,作為其他三種機(jī)器學(xué)習(xí)模型的比較對象。具體的定制方法為:

其中,β′0、β′1、β′2為基于MIMIC-Ⅲ數(shù)據(jù)庫計算的各變量的系數(shù),PpLOS-ICU為ICU患者發(fā)生pLOS-ICU的風(fēng)險概率。

1.8 統(tǒng)計分析與模型比較

本研究中數(shù)據(jù)的提取與清洗使用Postgre SQL軟件,數(shù)據(jù)分析與模型構(gòu)建使用Python 3.3.6軟件。各變量的缺失值使用該變量的正常值填補(bǔ)。變量的正常值定義為SAPS-Ⅱ評分系統(tǒng)中該變量評分為0時所對應(yīng)的變量取值,或者變量值區(qū)間的最大值和最小值的平均值。

模型預(yù)測性能的比較基于五折交叉驗證所得的預(yù)測性能的平均值。模型的預(yù)測性能使用三種指標(biāo)進(jìn)行評價:(1)Brier評分:評價模型的綜合預(yù)測性能;(2)受試者工作特征曲線下面積(area under the receiver operation characteristic curve,AUROC):評價模型的區(qū)分度;(3)估計校準(zhǔn)度指數(shù)(estimated calibration index,ECI):評價模型的校準(zhǔn)度[23-24]。Brier評分反映模型的預(yù)測結(jié)果與實際結(jié)果之間的誤差,Brier評分越小,模型的綜合預(yù)測性能越優(yōu)。模型的區(qū)分度是指模型能夠正確區(qū)分正樣本(發(fā)生pLOS-ICU)與負(fù)樣本(不發(fā)生pLOS-ICU)的能力,AUROC越接近于1,模型的區(qū)分度越優(yōu)。模型的校準(zhǔn)度是指模型預(yù)測的結(jié)局發(fā)生風(fēng)險與實際發(fā)生風(fēng)險之間的一致性程度,ECI越小,模型的校準(zhǔn)度越優(yōu)。使用校準(zhǔn)曲線圖進(jìn)一步直觀化評價模型的校準(zhǔn)度。校準(zhǔn)曲線圖的橫坐標(biāo)為實際的結(jié)局發(fā)生風(fēng)險,縱坐標(biāo)為模型預(yù)測的結(jié)局發(fā)生風(fēng)險,理想的模型校準(zhǔn)曲線應(yīng)為一條對角線,即模型預(yù)測的結(jié)局發(fā)生風(fēng)險與實際的結(jié)局發(fā)生風(fēng)險完全一致。校準(zhǔn)曲線圖可以反映在由低到高不同的結(jié)局發(fā)生風(fēng)險人群中,模型預(yù)測的結(jié)局發(fā)生風(fēng)險與實際結(jié)局發(fā)生風(fēng)險的差異。模型性能指標(biāo)之間的比較使用雙側(cè)t檢驗,以P<0.05為差異具有統(tǒng)計學(xué)意義的判斷標(biāo)準(zhǔn)。使用本研究中預(yù)測性能最好的模型識別出來的各預(yù)測變量重要性排序結(jié)果,給出重要性排序前五位的預(yù)測變量。

2 結(jié)果

2.1 基本特征

經(jīng)過數(shù)據(jù)清洗,本研究共納入40 200例符合條件的ICU患者,LOS-ICU的中位數(shù)為2.1 d(1.2~3.9 d),發(fā)生pLOS-ICU的患者有9 514例,占比23.7%。患者平均年齡為(61.9±16.5)歲,男性患者23 145例,占比57.6%。ICU患者的詳細(xì)信息見表1。

表1 MIMIC-Ⅲ數(shù)據(jù)庫中ICU患者的基本特征(n=40 200)Table 1 Characteristics of ICU patients in MIMIC-Ⅲ(n=40 200)

圖1為患者的pLOS-ICU發(fā)生率依年齡、性別分層的金字塔圖,可見隨著年齡的上升,pLOS-ICU發(fā)生率在男性與女性患者中均呈上升趨勢。30歲以上患者中,各年齡層的女性患者pLOS-ICU發(fā)生率略高于男性。

單因素假設(shè)檢驗結(jié)果顯示,全部26個預(yù)測變量中,除體溫最小值、血碳酸氫鹽最小值、血膽紅素最小值以及是否合并艾滋病等4個預(yù)測變量外,其余22個預(yù)測變量與結(jié)局pLOS-ICU均顯著相關(guān)(P<0.05)。

pLOS-ICU,prolonged length of ICU stay.圖1 ICU患者pLOS-ICU發(fā)生率依年齡、性別分層的金字塔圖Figure 1 The pLOS-ICU proportion pyramid stratified by age and gender

2.2 特征選擇

使用SAPS-Ⅱ中涉及到的所有變量作為基礎(chǔ)特征集,在遞歸特征消除的過程中,建模特征的個數(shù)與RF模型性能的關(guān)系曲線如圖2所示。隨著納入特征數(shù)量的減少,RF模型的AUROC呈下降趨勢;當(dāng)納入全部26個特征時,RF模型的AUROC最大。因此,最終用于建模的變量數(shù)目為26個。

2.3 模型的預(yù)測性能比較

SVM、CART、RF和定制版SAPS-Ⅱ模型的預(yù)測性能(Brier分值、AUROC、ECI)比較見表2。五折交叉驗證結(jié)果顯示,四個模型中,RF模型在綜合預(yù)測性能、區(qū)分度與校準(zhǔn)度三個方面均表現(xiàn)最優(yōu),其達(dá)到了最優(yōu)的Brier評分、AUROC和ECI,分別為 0.145、0.770和7.259。相比于定制版SAPS-Ⅱ模型,三個機(jī)器學(xué)習(xí)模型在綜合預(yù)測性能(Brier評分)、區(qū)分度(AUROC)和校準(zhǔn)度(ECI)三個方面均有明顯提升,且差異具有統(tǒng)計學(xué)意義(P<0.01)。

AUROC,area under the receiver operation characteristic curve.圖2 建模特征的個數(shù)與RF模型性能的關(guān)系曲線Figure 2 The relationship curve that the prediction performance of RF model varies with the number of selected features

表2 四種模型的預(yù)測性能比較Table 2 Prediction performance of the four models

2.4 RF模型的校準(zhǔn)曲線分析結(jié)果

從RF模型的校準(zhǔn)曲線(圖3)可以看出,在高pLOS-ICU發(fā)生風(fēng)險的ICU人群中,RF模型略微高估了其風(fēng)險;在低pLOS-ICU發(fā)生風(fēng)險的ICU人群中,RF模型略微低估了其風(fēng)險。

2.5 RF模型識別的變量重要性排序

基于RF模型識別的變量重要性,對pLOS-ICU預(yù)測最重要的五個變量依次為年齡、心率、收縮壓、體溫和PaO2/FiO2。

3 討論

LOS作為評價醫(yī)院效率與醫(yī)療資源利用率的有效指標(biāo),近年來在各個醫(yī)療領(lǐng)域被廣泛研究。本研究使用美國大型重癥醫(yī)療數(shù)據(jù)庫MIMIC-Ⅲ,基于三種機(jī)器學(xué)習(xí)模型(SVM、CART和RF)構(gòu)建ICU患者是否發(fā)生pLOS-ICU的預(yù)測模型,并比較其與傳統(tǒng)的定制版SAPS-Ⅱ模型的預(yù)測性能。研究結(jié)果顯示,RF模型在綜合預(yù)測性能、區(qū)分度與校準(zhǔn)度三個方面均表現(xiàn)最優(yōu),且相比于定制版SAPS-Ⅱ模型,其性能提升有統(tǒng)計學(xué)意義。

RF,random forest.圖3 RF模型的校準(zhǔn)曲線Figure 3 Calibration plot of RF model

MIMIC-Ⅲ數(shù)據(jù)庫由美國麻省理工學(xué)院(Massachusetts Institute of Technology,MIT)計算生理學(xué)實驗室、美國哈佛醫(yī)學(xué)院貝斯以色列迪康醫(yī)學(xué)中心(Beth Israel Deaconess Medical Center,BIDMC)于2015年8月合作建立并維護(hù)。MIMIC-Ⅲ數(shù)據(jù)庫為單中心數(shù)據(jù)庫,儲存了2001—2012年超過4萬例ICU患者的臨床信息記錄,包括每例患者的人口學(xué)特征、診斷編碼、生命體征測量數(shù)據(jù)、實驗室檢查數(shù)據(jù)、用藥記錄、生存結(jié)局等。其數(shù)據(jù)經(jīng)過了嚴(yán)格的去隱私處理,患者的隱私信息如姓名、職業(yè)、聯(lián)系方式等均不予記錄。MIMIC-Ⅲ數(shù)據(jù)庫不僅樣本量大、數(shù)據(jù)類型豐富,而且數(shù)據(jù)質(zhì)量高、可靠性好。

本研究基于三種機(jī)器學(xué)習(xí)模型(SVM、CART和RF)構(gòu)建ICU患者是否發(fā)生pLOS-ICU的預(yù)測模型,研究中所使用的三種機(jī)器學(xué)習(xí)模型在實踐中均有自己的優(yōu)勢所在,沒有一個機(jī)器學(xué)習(xí)模型絕對優(yōu)于另一種模型。具體建模實踐時,則需根據(jù)數(shù)據(jù)集的特點及應(yīng)用需求綜合選擇最為有效的機(jī)器學(xué)習(xí)模型。本研究結(jié)果提示,在預(yù)測ICU患者是否發(fā)生pLOS-ICU的應(yīng)用中,RF模型在綜合預(yù)測性能、區(qū)分度與校準(zhǔn)度三個方面均表現(xiàn)最優(yōu),且相比于傳統(tǒng)的定制版SAPS-Ⅱ模型,其性能提升有統(tǒng)計學(xué)意義。SAPS-Ⅱ本質(zhì)上是基于LR算法開發(fā)的預(yù)測模型,傳統(tǒng)的LR算法能夠處理的樣本數(shù)據(jù)量和特征維度有限,而且無法解決變量間的共線性問題,其預(yù)測性能也因此受到限制。相比于傳統(tǒng)的LR模型,RF模型特有兩種隨機(jī)化思想——訓(xùn)練樣本隨機(jī)化和特征隨機(jī)化,可在構(gòu)建基礎(chǔ)決策樹時減少訓(xùn)練集的維度與樣本量,使得RF模型在處理高維度、大樣本數(shù)據(jù)時更有優(yōu)勢。

RF模型的預(yù)測性能在各個方面均優(yōu)于SVM和CART模型。不同于SVM和CART模型,RF模型是以決策樹為基礎(chǔ)分類器的集成學(xué)習(xí)模型,RF基于隨機(jī)采樣的訓(xùn)練數(shù)據(jù)子集生成大量相互獨立的決策樹,其最終的模型預(yù)測結(jié)果綜合了所有生成決策樹的輸出結(jié)果。在RF模型所有子決策樹中,每棵決策樹都可挖掘到預(yù)測變量與結(jié)局間相關(guān)性的一部分信息,RF則集成所有決策樹預(yù)測結(jié)果,以減小發(fā)生在單個決策樹中的預(yù)測誤差。大量研究表明,相比于單個的基礎(chǔ)分類器,集成學(xué)習(xí)模型的預(yù)測性能往往更為優(yōu)異,其泛化能力也更為強(qiáng)大[9,20-21],與本研究的結(jié)果相一致。RF模型的校準(zhǔn)曲線分析結(jié)果顯示,RF模型會略微高估高風(fēng)險ICU患者的pLOS-ICU發(fā)生風(fēng)險,并略微低估低風(fēng)險ICU患者的pLOS-ICU發(fā)生風(fēng)險,說明RF模型傾向于拉開高風(fēng)險人群與低風(fēng)險人群的pLOS-ICU預(yù)測發(fā)生概率,這有助于更好地將高風(fēng)險人群與低風(fēng)險人群區(qū)分開來。

基于RF模型識別出的對pLOS-ICU預(yù)測最為重要的五個變量依次為年齡、心率、收縮壓、體溫和PaO2/FiO2。既往研究表明,年齡是影響ICU患者預(yù)后及醫(yī)療資源使用的一個重要因素[25-27]。高齡患者的身體機(jī)能下降,同時易合并多種慢性疾病,這增加了高齡ICU患者發(fā)生不良預(yù)后及消耗更多醫(yī)療資源的風(fēng)險[28]。心率、收縮壓和體溫是衡量患者各器官代謝機(jī)能及狀態(tài)的基本指標(biāo),本研究結(jié)果表明這三個基礎(chǔ)指標(biāo)對ICU患者的預(yù)后有重要的預(yù)測作用,與既往研究結(jié)果一致[29-31]。PaO2/FiO2是ICU患者使用機(jī)械通氣的一個測量指標(biāo),其對ICU患者預(yù)后的獨立預(yù)測作用也已在既往研究中被證實[32]。

本研究構(gòu)建的pLOS-ICU預(yù)測模型對于我國ICU患者有一定的可適用性。第一,既往文獻(xiàn)中報告的我國ICU患者的LOS-ICU的中位數(shù)為3 d[33],與本研究所使用的MIMIC-Ⅲ數(shù)據(jù)庫中ICU患者的LOS-ICU的中位數(shù)(2.1 d)相近,且兩者的LOS-ICU分布有一定的相似性,均為右偏分布。第二,本研究建模所使用的預(yù)測變量大部分為我國ICU常規(guī)收集的醫(yī)療數(shù)據(jù),數(shù)據(jù)獲取方便[34]。第三,汪洋等[35]使用我國ICU患者的數(shù)據(jù),基于RF算法構(gòu)建的ICU患者的死亡預(yù)測模型達(dá)到了較高的準(zhǔn)確率(AUROC=0.836),這表明RF模型在預(yù)測ICU患者的預(yù)后方面對我國ICU患者的醫(yī)療數(shù)據(jù)有著一定的可適用性與應(yīng)用前景。但另一方面,由于我國的人種特征、ICU的治療模式與技術(shù)水平仍與美國有一定差異,本研究所構(gòu)建的pLOS-ICU預(yù)測模型在應(yīng)用于我國ICU的臨床實踐前,有待進(jìn)一步的本地化修正與臨床效應(yīng)評估。

本研究有以下幾點優(yōu)勢:(1)所使用的數(shù)據(jù)庫樣本量大,數(shù)據(jù)類型豐富;(2)建模所使用的預(yù)測變量均可在入住ICU后24 h內(nèi)獲得,因此,可在入住ICU早期使用pLOS-ICU預(yù)測模型,及時輔助醫(yī)生進(jìn)行臨床決策;(3)使用五折交叉驗證方法驗證預(yù)測模型,所得結(jié)果較為穩(wěn)健。但本研究也有一定的局限性:第一,MIMIC-Ⅲ數(shù)據(jù)庫是一個美國的單中心數(shù)據(jù)庫,且僅包含2001—2012年的數(shù)據(jù),因而本研究所構(gòu)建的pLOS-ICU預(yù)測模型的外推性可能會受到一定的限制,鑒于此,在應(yīng)用于臨床實踐前,該pLOS-ICU預(yù)測模型有待進(jìn)一步的本地數(shù)據(jù)修正與臨床效應(yīng)評估。第二,本研究樣本可能存在一定的選擇偏差,因為排除了在ICU內(nèi)死亡的患者,其LOS-ICU的發(fā)展規(guī)律可能與生存患者的LOS-ICU的發(fā)展規(guī)律不一致,所以,所構(gòu)建的pLOS-ICU預(yù)測模型可能不適用于在ICU內(nèi)死亡的患者。第三,為了客觀地比較機(jī)器學(xué)習(xí)模型與傳統(tǒng)SAPS-Ⅱ模型的預(yù)測性能,本研究只使用了SAPS-Ⅱ中涉及到的變量構(gòu)建機(jī)器學(xué)習(xí)模型,一些潛在的與LOS-ICU相關(guān)的特征可能未能納入本研究的預(yù)測模型之中。

綜上所述,本研究基于三種不同的機(jī)器學(xué)習(xí)算法構(gòu)建ICU患者的pLOS-ICU預(yù)測模型,其中RF模型的預(yù)測性能最佳。基于RF的pLOS-ICU預(yù)測模型有很大的潛力輔助臨床醫(yī)護(hù)人員對ICU患者進(jìn)行危險分層,從而進(jìn)行合理的臨床干預(yù)并改善患者預(yù)后。

猜你喜歡
特征模型研究
一半模型
FMS與YBT相關(guān)性的實證研究
遼代千人邑研究述論
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
視錯覺在平面設(shè)計中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
如何表達(dá)“特征”
不忠誠的四個特征
EMA伺服控制系統(tǒng)研究
抓住特征巧觀察
主站蜘蛛池模板: 亚洲视频影院| 一级毛片在线播放| 欧美日本激情| 国产极品嫩模在线观看91| 夜夜操天天摸| 亚洲精品视频免费看| 在线a视频免费观看| 欧美日韩国产高清一区二区三区| 日韩高清一区 | 日韩毛片视频| 国产人成网线在线播放va| 免费一级无码在线网站| 精品人妻无码中字系列| 老司机午夜精品网站在线观看| 久久黄色影院| 久久久久青草线综合超碰| jizz在线观看| 国产精品午夜福利麻豆| 成人亚洲天堂| 免费国产在线精品一区| 亚洲天堂久久久| 久久精品最新免费国产成人| 亚洲综合婷婷激情| 国产成人无码播放| 找国产毛片看| 成年人午夜免费视频| 国产永久无码观看在线| 91成人在线免费视频| 波多野结衣亚洲一区| 成人福利视频网| 国产精品女熟高潮视频| 精品少妇三级亚洲| 在线免费无码视频| 国产小视频a在线观看| 亚洲不卡无码av中文字幕| 免费国产一级 片内射老| 91麻豆国产视频| 天天色天天综合| 免费欧美一级| 日韩黄色在线| 国产成人免费高清AⅤ| 尤物亚洲最大AV无码网站| 亚洲欧美精品日韩欧美| 粉嫩国产白浆在线观看| 97视频在线观看免费视频| 成人午夜视频免费看欧美| 欧美日本在线| 中文字幕1区2区| 欧美日韩资源| 人妻精品全国免费视频| 青青久久91| 中文字幕 欧美日韩| 在线观看国产精美视频| 美女毛片在线| 在线国产三级| 亚洲精品无码专区在线观看| 国产超碰一区二区三区| 欧美一区二区三区不卡免费| 国产福利在线免费观看| 亚洲精品手机在线| 免费啪啪网址| 国产精品亚洲专区一区| 免费毛片在线| 日韩欧美中文在线| 日韩无码白| 手机成人午夜在线视频| 波多野结衣视频一区二区| 久久久久久尹人网香蕉| 日韩123欧美字幕| 激情无码视频在线看| 91亚洲免费视频| 国内精品九九久久久精品| 国产精品污视频| 精品国产黑色丝袜高跟鞋| 无码一区二区三区视频在线播放| 色综合狠狠操| 精品国产一区91在线| 亚洲精品在线影院| 免费高清a毛片| 国产欧美视频综合二区| 中文字幕欧美成人免费| 亚洲国产成人无码AV在线影院L|