999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于EasyEnsemble和C5.0決策樹算法的患者非醫(yī)囑離院預(yù)測(cè)研究*

2018-09-20 06:47:50王欣然
關(guān)鍵詞:模型

李 杰 張 睿 芮 晨, 王欣然

【提 要】 目的 在C5.0決策樹算法的基礎(chǔ)上,結(jié)合處理不平衡樣本集的EasyEnsemble思想,建立患者非醫(yī)囑離院預(yù)測(cè)模型,有效識(shí)別非醫(yī)囑離院傾向患者。方法 基于EasyEnsemble思想,通過Bootstrap采樣方法抽取多數(shù)類樣本子集組建多個(gè)新的均衡數(shù)據(jù)樣本集,運(yùn)用C5.0決策樹算法并結(jié)合交叉驗(yàn)證方法與代價(jià)矩陣,訓(xùn)練多個(gè)基分類器,最后經(jīng)Bagging算法集成,得到最終預(yù)測(cè)模型。結(jié)果 在10組測(cè)試集下平均總分類準(zhǔn)確率、平均平衡準(zhǔn)確率、少數(shù)類別樣本平均召回率和平均AUC值分別達(dá)到74.27%、82.34%、91.70%、86.21%。結(jié)論 基于EasyEnsemble和C5.0決策樹算法的患者非醫(yī)囑離院預(yù)測(cè)模型有較好較穩(wěn)定的識(shí)別性能,為醫(yī)院提升醫(yī)療質(zhì)量和服務(wù)水平,降低非醫(yī)囑離院率提供了有力依據(jù)。

非醫(yī)囑離院率是重要的醫(yī)療統(tǒng)計(jì)指標(biāo)之一,能客觀地衡量醫(yī)療質(zhì)量和服務(wù)水平[1]。非醫(yī)囑離院是指患者的病情需要繼續(xù)住院進(jìn)行治療,但患者自身或者其家屬由于個(gè)人原因沒有按照醫(yī)囑要求而自行出院。非醫(yī)囑離院使本應(yīng)得到治療的患者沒有得到相應(yīng)的救治,可能導(dǎo)致病情加劇。對(duì)于醫(yī)院來說,過多非醫(yī)囑離院不利于醫(yī)院醫(yī)療活動(dòng)的正常開展,降低醫(yī)院自身的社會(huì)效益和經(jīng)濟(jì)效益[2-3]。因此,亟需科學(xué)分析非醫(yī)囑離院傾向患者特征并有效識(shí)別非醫(yī)囑離院傾向患者,從而幫助醫(yī)院提前開展針對(duì)性工作,降低非醫(yī)囑離院率。

C5.0算法[4]是在C4.5的基礎(chǔ)上結(jié)合誤判成本矩陣和Boosting等先進(jìn)技術(shù)的一種復(fù)雜度更低的決策樹分類算法。它進(jìn)一步提高了決策樹對(duì)樣本的識(shí)別率,可同時(shí)處理數(shù)值型數(shù)據(jù)和非數(shù)值型數(shù)據(jù),作為個(gè)體學(xué)習(xí)器有較好的性能表現(xiàn),非常適合醫(yī)療領(lǐng)域數(shù)據(jù)統(tǒng)計(jì)分析[5],但其在不平衡訓(xùn)練集中識(shí)別少數(shù)類別樣本能力較差,因此需要借助EasyEnsemble思想對(duì)不平衡訓(xùn)練集進(jìn)行平衡化處理。EasyEnsemble思想是指通過不斷從多數(shù)類中抽取樣本,使每個(gè)模型中各類樣本數(shù)量相同,最后集成所有模型,從而較好地處理不平衡數(shù)據(jù)下分類器的識(shí)別率偏向于多數(shù)類別樣本的這一問題[6]。

在現(xiàn)實(shí)離院方式數(shù)據(jù)中,非醫(yī)囑離院數(shù)據(jù)量通常與醫(yī)囑離院數(shù)據(jù)量有較大差距。因此,本文借助EasyEnsemble思想,通過抽取多數(shù)類別樣本子集組建多個(gè)新的均衡訓(xùn)練集訓(xùn)練出多個(gè)C5.0分類器,然后借助Bagging算法集成最終分類結(jié)果,從而使非醫(yī)囑離院傾向患者能更好地被識(shí)別出來。

資料和方法

1.資料來源

在某醫(yī)院數(shù)據(jù)庫(kù)中檢索2015年1月至2017年6月間離院方式不為空值的106457例出院患者的完整數(shù)據(jù)。其中,非醫(yī)囑離院數(shù)據(jù)量和醫(yī)囑離院數(shù)據(jù)量比例低于1:10,數(shù)據(jù)具有不平衡的特征。根據(jù)需要,提取出13個(gè)有效字段,用于模型訓(xùn)練和測(cè)試。前12個(gè)字段分別為付款方式、性別、年齡、婚姻、職業(yè)、民族、入院途徑、入院科別、住院天數(shù)、主要診斷病況分類號(hào)、患者轉(zhuǎn)歸、手術(shù)級(jí)別,最后一個(gè)字段為是否為非醫(yī)囑離院。將數(shù)據(jù)進(jìn)行離散化處理,除住院天數(shù)字段設(shè)置為連續(xù)型變量外,其余字段均設(shè)置為類別變量,并用10折交叉驗(yàn)證法將整個(gè)數(shù)據(jù)集劃分為10組訓(xùn)練集和測(cè)試集。

2.患者非醫(yī)囑離院預(yù)測(cè)模型建立

3.誤判成本值

在進(jìn)行模型測(cè)試時(shí),將醫(yī)囑離院識(shí)別為非醫(yī)囑離院的錯(cuò)誤作為假陽(yáng)性,用COST(A)表示;將非醫(yī)囑離院識(shí)別為醫(yī)囑離院的錯(cuò)誤作為假陰性,用COST(B)表示[7]。由于非醫(yī)囑離院患者傾向識(shí)別是一個(gè)在不平衡樣本集上識(shí)別少數(shù)類別樣本問題,總體錯(cuò)誤率無法全面反應(yīng)該模型的優(yōu)劣,而應(yīng)著重考慮少數(shù)類別識(shí)別錯(cuò)誤率。采用excel軟件,選擇CHITEST()函數(shù),運(yùn)用卡方檢驗(yàn)分別比較COST(B)取不同值時(shí)模型兩兩之間的差異,以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。

4.編程實(shí)現(xiàn)與性能度量

R語(yǔ)言是統(tǒng)計(jì)領(lǐng)域較為流行的模型編程和統(tǒng)計(jì)分析工具[8],因此患者非醫(yī)囑離院預(yù)測(cè)模型基于R語(yǔ)言實(shí)現(xiàn)。將β設(shè)置為1.5,用RODBC中的函數(shù)提取原始數(shù)據(jù),主要采用C5.0()函數(shù)作為基學(xué)習(xí)器的模型訓(xùn)練,predict()函數(shù)進(jìn)行驗(yàn)證集和測(cè)試集的非醫(yī)囑離院識(shí)別,其余流程代碼自己編程實(shí)現(xiàn)。

非醫(yī)囑離院識(shí)別是一個(gè)在不平衡樣本集上識(shí)別少數(shù)類的分類問題。在預(yù)測(cè)結(jié)果的真陽(yáng)性(true positive,TP)、假陽(yáng)性(false positive,FP)、真陰性(true negative,TN)、假陰性(false negative,FN)基礎(chǔ)上,綜合考慮總的分類準(zhǔn)確率(accuracy,ACC)=(TP+TN)/ (TP+FN+FP+TN)、平衡準(zhǔn)確率(blanace accuracy,BA)= (TP/(TP+FN)+TN/(TN+FP))/2、少數(shù)類別樣本召回率(recall,R)=TP/(TP+FN)、以及AUC值(area under ROC curve)來衡量該模型的性能[9]。

結(jié) 果

1.誤判成本值設(shè)定

本文通過多次實(shí)驗(yàn)的方法確定最有成本矩陣。在其他模型參數(shù)固定不變的前提下,將COST(A)固定為1,COST(B)值由1開始逐步增大進(jìn)行設(shè)定,然后訓(xùn)練出多個(gè)模型并用同一組測(cè)試集進(jìn)行測(cè)試,得到的各個(gè)模型的分類錯(cuò)誤率如表1所示。從B類錯(cuò)誤率來看,COST(B)=1與COST(B)=2、3、4、5分別比較,經(jīng)過卡方檢驗(yàn)得到P<0.001。即COST(B)=1與其他取值相比,差異有統(tǒng)計(jì)學(xué)意義,且COST(B)=1時(shí)B類錯(cuò)誤率較高,則COST(B)應(yīng)設(shè)置為2≤COST(B)≤5。COST(B)=2、3、4、5兩兩之間P值均大于0.05,差異無統(tǒng)計(jì)學(xué)意義,而COST(B)=2總錯(cuò)誤率相對(duì)較低,即COST(B)=2是比較合適的選擇。

表1 COST(B)取不同值時(shí)模型的錯(cuò)誤率(%)

2.性能度量結(jié)果

患者非醫(yī)囑離院預(yù)測(cè)模型在10組測(cè)試集上預(yù)測(cè)結(jié)果的TP、FP、TN、FN以及各性能度量指標(biāo)計(jì)算結(jié)果如表2所示。計(jì)算10組測(cè)試集下4種性能指標(biāo)平均值,ACC、BA、R、AUC均值依次為74.27%、82.34%、91.70%、86.21%。

表2 10組測(cè)試集下各性能度量結(jié)果表

3.患者非醫(yī)囑離院預(yù)測(cè)決策樹模型

用全訓(xùn)練集進(jìn)行模型訓(xùn)練,生成決策樹模型,選擇涵蓋訓(xùn)練樣本較多的決策分類規(guī)則,繪制決策樹如圖1所示。根據(jù)訓(xùn)練出的模型分析非醫(yī)囑離院患者主要特征。首先,入院科別在非醫(yī)囑離院識(shí)別模型中是最為重要的變量。其中,重癥醫(yī)學(xué)科、腫瘤內(nèi)科、老年內(nèi)科等為非醫(yī)囑離院高發(fā)科室。第二,住院天數(shù)和患者轉(zhuǎn)歸為次重要變量,其中非醫(yī)囑離院患者的住院天數(shù)基本集中兩周以內(nèi),患者轉(zhuǎn)歸則以未愈為主。第三,非醫(yī)囑離院患者的付款方式主要為全自費(fèi)和城鄉(xiāng)居民醫(yī)療保險(xiǎn);入院途徑以急診為主;大多沒有進(jìn)行手術(shù);老年年齡段居多。

討 論

基于某醫(yī)院106457位患者的數(shù)據(jù),采用C5.0決策樹算法和EasyEnsemble思想,誤判成本值設(shè)定為COST(A):COST(B)=1:2,進(jìn)行非醫(yī)囑離院預(yù)測(cè)模型的訓(xùn)練與測(cè)試,取得了令人滿意的結(jié)果。患者非醫(yī)囑離院模型在10組測(cè)試集上表現(xiàn)較為穩(wěn)定,測(cè)試的總體準(zhǔn)確率均值達(dá)到74.27%,AUC均值達(dá)到86.21%,尤其是對(duì)于非醫(yī)囑離院患者的識(shí)別率均值高達(dá)91.70%,即模型能將絕大多數(shù)非醫(yī)囑離院傾向患者識(shí)別出來,預(yù)測(cè)效果好且性能穩(wěn)定。

圖1 患者非醫(yī)囑離院預(yù)測(cè)的決策樹模型

在非醫(yī)囑離院預(yù)測(cè)的決策樹模型中,入院科室、住院天數(shù)、患者轉(zhuǎn)歸、付款方式、入院途徑和患者年齡等是重要的預(yù)測(cè)變量。不同科室間收治患者的病種和危重程度不同,所以各科室非醫(yī)囑離院情況有較大差別。其中,由于經(jīng)濟(jì)因素、疾病因素、子女因素等[10],重癥醫(yī)學(xué)科非醫(yī)囑離院率較高。與何麗萍等發(fā)現(xiàn)相類似[1],住院時(shí)間較短的患者非醫(yī)囑離院率較高,大多為短期住院后轉(zhuǎn)院、放棄治療或自覺好轉(zhuǎn)出院。患者轉(zhuǎn)歸以未愈為主,說明患者應(yīng)盡量遵從醫(yī)囑,否則有可能會(huì)造成治療延誤、病情加劇。非醫(yī)囑離院患者中大多為自費(fèi),其原因主要與缺乏有效的醫(yī)療保障和治療帶來的經(jīng)濟(jì)壓力過大有關(guān)[11]。另外,非醫(yī)囑離院患者以老年患者居多,大多由于老年患者預(yù)后差,家屬放棄治療比例高。已有非醫(yī)囑離院研究中鮮有考慮入院途徑這一因素,研究發(fā)現(xiàn)急診患者非醫(yī)囑離院率較高,由于為急診出院患者制定好出院醫(yī)囑非常關(guān)鍵[12],因此醫(yī)院應(yīng)高度重視急診患者群體。

根據(jù)本研究得到的決策樹模型,能夠幫助醫(yī)院提前識(shí)別有非醫(yī)囑離院傾向的患者,并采取針對(duì)性措施,使患者按醫(yī)囑離院。非醫(yī)囑離院是一個(gè)綜合因素影響的結(jié)果,醫(yī)院應(yīng)針對(duì)可控因素開展工作,全面提高醫(yī)療服務(wù)質(zhì)量,降低非醫(yī)囑離院率,獲取更大社會(huì)和經(jīng)濟(jì)效益[2]。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 狠狠色噜噜狠狠狠狠色综合久| 国产黄网永久免费| 亚洲精品国产精品乱码不卞| 91激情视频| 国产小视频网站| 欧美五月婷婷| 久草视频精品| 日本日韩欧美| 99精品在线看| 夜夜操天天摸| 亚洲视频四区| 中文字幕 91| 亚洲国产无码有码| 亚洲无码视频喷水| 国产在线无码一区二区三区| 无码免费的亚洲视频| 久久精品这里只有精99品| 亚洲综合亚洲国产尤物| h网站在线播放| 又爽又黄又无遮挡网站| 永久免费无码日韩视频| 美女高潮全身流白浆福利区| 国产成人1024精品| 日本伊人色综合网| 被公侵犯人妻少妇一区二区三区| 午夜福利在线观看入口| 国产日韩欧美一区二区三区在线| 青青青视频蜜桃一区二区| 一级毛片无毒不卡直接观看| 99国产在线视频| 免费看的一级毛片| 日韩精品一区二区三区swag| 少妇精品久久久一区二区三区| 国产毛片基地| 在线视频一区二区三区不卡| 国产免费a级片| 色婷婷电影网| 国产a网站| 国产凹凸一区在线观看视频| 亚洲精品国产精品乱码不卞 | 久草视频精品| 免费av一区二区三区在线| 婷婷综合缴情亚洲五月伊| 2020极品精品国产| 色婷婷狠狠干| 亚洲综合色婷婷| 日韩精品一区二区三区免费在线观看| 人妻少妇久久久久久97人妻| 真实国产精品vr专区| 国产又色又刺激高潮免费看| 午夜福利网址| 亚洲综合香蕉| 在线观看亚洲精品福利片| 亚洲欧美成人网| 九九热精品在线视频| 日韩精品中文字幕一区三区| 婷婷激情亚洲| 91精品人妻互换| 国产精品无码影视久久久久久久 | 高清色本在线www| 国产欧美日韩另类| 有专无码视频| 中文字幕免费视频| 在线观看国产黄色| 欧美一区日韩一区中文字幕页| 中文字幕有乳无码| 欧美人在线一区二区三区| 国产精品3p视频| 国产18页| 国产国产人在线成免费视频狼人色| 亚洲无卡视频| 亚洲成aⅴ人在线观看| 熟女成人国产精品视频| 久久久久国产一区二区| 中文字幕在线播放不卡| 人妻夜夜爽天天爽| 国产一级毛片网站| 日韩精品久久久久久久电影蜜臀| 免费观看成人久久网免费观看| v天堂中文在线| 国产二级毛片| 黄片在线永久|