999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于代價(jià)敏感性和概率校準(zhǔn)的先天性心臟病概率預(yù)測(cè)模型研究*

2019-03-18 03:31:34羅艷虹余紅梅郭虎生曹紅艷宋春英郭興萍張巖波
關(guān)鍵詞:評(píng)價(jià)模型

羅艷虹 李 治 余紅梅 郭虎生 曹紅艷 王 蕾 宋春英 郭興萍△ 張巖波△

我國(guó)是先心病高發(fā)國(guó)家,2010-2011年我國(guó)活產(chǎn)新生兒先心病的發(fā)生率高于其他類型出生缺陷[1]。遺傳因素、母親孕期患病及用藥等因素都會(huì)導(dǎo)致子代先心病的發(fā)生,因此早期預(yù)測(cè)子代先心病的發(fā)病風(fēng)險(xiǎn),盡可能消除各種可能的危險(xiǎn)因素,對(duì)預(yù)防先心病起關(guān)鍵作用。利用山西省先心病數(shù)據(jù),采用機(jī)器學(xué)習(xí)算法,建立預(yù)測(cè)性能優(yōu)良的預(yù)測(cè)模型,可為篩選先心病高危人群提供參考依據(jù)。國(guó)內(nèi)外基于影響因素對(duì)出生缺陷的預(yù)測(cè)研究較多,但大多數(shù)研究關(guān)注分類預(yù)測(cè)[2-5],很少有研究針對(duì)先心病進(jìn)行概率預(yù)測(cè),故本文研究先心病的風(fēng)險(xiǎn)概率預(yù)測(cè)。對(duì)于全部出生兒的調(diào)查數(shù)據(jù)進(jìn)行先心病概率預(yù)測(cè)時(shí),先心病發(fā)生與否的兩種類別存在比例不平衡,機(jī)器學(xué)習(xí)算法通常針對(duì)類別平衡數(shù)據(jù),因此,對(duì)于不平衡數(shù)據(jù),機(jī)器學(xué)習(xí)算法對(duì)于多數(shù)類易產(chǎn)生“過(guò)擬合”,導(dǎo)致預(yù)測(cè)概率有偏差,降低預(yù)測(cè)性能[6-8]。

針對(duì)不平衡數(shù)據(jù)的處理方法大致分兩種:一種是改變訓(xùn)練樣本分布,可以采用隨機(jī)抽樣以增加少數(shù)類樣本或減少多數(shù)類樣本降低數(shù)據(jù)的不平衡性[9];另一種通過(guò)改進(jìn)算法補(bǔ)償數(shù)據(jù)的不平衡性,如代價(jià)敏感性學(xué)習(xí)。綜上所述,利用不平衡數(shù)據(jù)構(gòu)建模型進(jìn)行概率預(yù)測(cè)時(shí),先心病預(yù)測(cè)概率有可能存在偏差,對(duì)此可以采用代價(jià)敏感性學(xué)習(xí)和概率校準(zhǔn)的方法進(jìn)行“糾正”,提高模型的概率預(yù)測(cè)性能。

概率校準(zhǔn)(probability calibration)就是采用函數(shù)把原始模型的分類或概率轉(zhuǎn)換為準(zhǔn)確的概率[10]。一個(gè)良好校準(zhǔn)的預(yù)測(cè)模型可以反映疾病發(fā)生的潛在概率。常用的概率校準(zhǔn)方法是Platt scaling和Isotonic regression[11-12]。眾多研究表明,經(jīng)過(guò)Platt scaling校準(zhǔn)的支持向量機(jī)(support vector machines,SVM)、隨機(jī)森林(random forest,RF)和boosted tree的預(yù)測(cè)概率最準(zhǔn)確,其中boosted tree不僅訓(xùn)練時(shí)間長(zhǎng)而且需要的存儲(chǔ)量大,所以首選SVM和RF模型[13-14]。因此,選取SVM、RF及應(yīng)用廣泛的logistic回歸模型作為本文的概率預(yù)測(cè)模型。logistic回歸的預(yù)測(cè)概率不產(chǎn)生偏倚,校準(zhǔn)效果不明顯[14]。

資料與方法

1.研究資料

根據(jù)山西省各縣、市的生態(tài)環(huán)境、地理位置、醫(yī)療條件和經(jīng)濟(jì)狀況等因素,本文的研究對(duì)象選自山西省6個(gè)縣(市)(中陽(yáng)縣、代縣、平定縣、懷仁縣、交口縣和汾陽(yáng)市)在2006-2008年出生的所有健康新生兒及先心病患兒的母親或父親,通過(guò)讓研究對(duì)象填寫(xiě)出生情況調(diào)查表獲取調(diào)查數(shù)據(jù)。先心病的確診以先前醫(yī)生的診斷為準(zhǔn);先心病疑似病例請(qǐng)先心病專家確診。

通過(guò)對(duì)調(diào)查數(shù)據(jù)進(jìn)行初步分析發(fā)現(xiàn),涉及的多數(shù)危險(xiǎn)因素如母親孕期患病和母親既往病史等因素的發(fā)生率很低,直接引入方程,影響預(yù)測(cè)效果,故對(duì)變量進(jìn)行初步分析,本文生成9個(gè)綜合變量,其中綜合變量的值為包含的各個(gè)危險(xiǎn)因素的值相加得到[15-16]。綜合變量包含的危險(xiǎn)因素見(jiàn)表1。

2.加權(quán)支持向量機(jī)和加權(quán)隨機(jī)森林

(1)加權(quán)支持向量機(jī)

支持向量機(jī)利用核函數(shù)采用非線性映射將線性不可分的原始數(shù)據(jù)投影到高維空間,使原始數(shù)據(jù)在高維空間線性可分。常用的核函數(shù)有線性核、徑向基核和多項(xiàng)式核等。本文通過(guò)測(cè)試確定SVM的核函數(shù)為線性核。當(dāng)SVM處理的數(shù)據(jù)存在類別不平衡時(shí),可以采用Veropoulos等提出的代價(jià)敏感性算法,將多數(shù)類和少數(shù)類樣本的懲罰系數(shù)之比定為二者例數(shù)的倒數(shù),該法是SVM分析非平衡數(shù)據(jù)的常用方法[17]。本文采用該法,構(gòu)建WSVM。

(2)加權(quán)隨機(jī)森林

RF對(duì)原始樣本進(jìn)行多次bootstrap重抽樣產(chǎn)生多個(gè)樣本,每個(gè)樣本的樣本量和原始樣本相同,對(duì)所有樣本構(gòu)建決策樹(shù),且決策樹(shù)在生長(zhǎng)過(guò)程中不剪枝,最終的預(yù)測(cè)結(jié)果通過(guò)對(duì)多棵決策樹(shù)的預(yù)測(cè)結(jié)果進(jìn)行多數(shù)投票產(chǎn)生[18-19]。對(duì)于本文的先心病不平衡數(shù)據(jù),為了保留原有數(shù)據(jù)結(jié)構(gòu),本文基于代價(jià)敏感性思想,構(gòu)建WRF。根據(jù)相關(guān)文獻(xiàn)建議,小類的權(quán)重設(shè)定為2或3,本研究經(jīng)過(guò)對(duì)比選擇權(quán)重為2[20]。

表1 9個(gè)綜合變量的描述

RF有三個(gè)主要參數(shù):一是構(gòu)成RF的決策樹(shù)棵數(shù)ntree;二是樹(shù)節(jié)點(diǎn)處預(yù)選的變量數(shù)mtry;三是葉節(jié)點(diǎn)nodesize的大小。經(jīng)過(guò)對(duì)比,這些參數(shù)的取值分別設(shè)定為ntree=500,mtry=3,nodesize=65,cutoff=c(0.7,0.3)。

對(duì)于預(yù)測(cè)模型,需要從原數(shù)據(jù)中進(jìn)行重抽樣生成訓(xùn)練集和測(cè)試集。對(duì)于本文的極端不平衡數(shù)據(jù),采用分層bootstrap重抽樣,即從少數(shù)類和多數(shù)類樣本中分別隨機(jī)抽取三分之二構(gòu)成訓(xùn)練集,剩余的樣本構(gòu)成測(cè)試集。本文采用三折交叉驗(yàn)證及網(wǎng)格搜索(grid search)選取WSVM和WRF的參數(shù)。由于隨機(jī)抽樣會(huì)使構(gòu)建的模型結(jié)果存在多變性,故抽樣及構(gòu)建模型過(guò)程重復(fù)1000次。本文所有程序均采用R軟件實(shí)現(xiàn)。

3.概率校準(zhǔn)

兩種常用的概率校準(zhǔn)方法為Platt scaling校準(zhǔn)和Isotonic regression校準(zhǔn)。當(dāng)模型的預(yù)測(cè)值產(chǎn)生S形扭曲,采用Platt scaling校準(zhǔn)。Isotonic regression校準(zhǔn)屬于非參數(shù)校準(zhǔn),采用pair-adjacent violators(PAV)算法[21-22]。

(1)Platt校準(zhǔn)

針對(duì)模型的預(yù)測(cè)結(jié)果f(x),由(1)式sigmoid函數(shù)產(chǎn)生校準(zhǔn)概率:

(1)

其中,f=f(x),采用最大似然估計(jì)得到參數(shù)A和B的取值[11]。

(2)Isotonic校準(zhǔn)

保序回歸的公式如下:

yi=m(fi)+εi

(2)

4.預(yù)測(cè)模型的評(píng)價(jià)

常用的概率預(yù)測(cè)評(píng)價(jià)指標(biāo)有AUC和RMSE。AUC的取值較高,RMSE的取值較低時(shí),模型的預(yù)測(cè)精度較高。任何模型都不可能在所有的評(píng)價(jià)指標(biāo)上取值都理想。當(dāng)模型合適的評(píng)價(jià)指標(biāo)未知時(shí),SAR是一個(gè)穩(wěn)健的評(píng)價(jià)指標(biāo),SAR=(ACC+AUC+(1 -RMSE))/3[23-24],其中ACC為Accuracy的簡(jiǎn)稱。選用AUC、RMSE和SAR作為本文模型的評(píng)價(jià)指標(biāo)。

結(jié) 果

1.綜合因素描述

本文調(diào)查總?cè)藬?shù)為33831人,其中健康新生兒33753例,先心病患兒78例。綜合變量的描述見(jiàn)表1。

2.各個(gè)模型Platt校準(zhǔn)和Iso校準(zhǔn)效果比較

由于篇幅所限,本文結(jié)果僅針對(duì)測(cè)試集。表2給出重復(fù)抽樣1000次,6個(gè)模型評(píng)價(jià)指標(biāo)的中位數(shù)、上四分位數(shù)P25和下四分位數(shù)P75,其中WSVM-Platt、WSVM-Iso分別代表基于Platt校準(zhǔn)和Isotonic校準(zhǔn)的WSVM模型。WRF-Platt和WRF-Iso分別代表基于Platt校準(zhǔn)和Iso校準(zhǔn)的WRF模型。

由表2可得,logistic模型的AUC和SAR值的中位數(shù)分別高于0.83和0.92;AUC值的P25和P75都高于0.8,SAR值的P25和P75都高于0.9。

表2 測(cè)試集6種模型預(yù)測(cè)結(jié)果的比較(Median(P25- P75))

從表2的WSVM-Platt 和WSVM-Iso的評(píng)價(jià)指標(biāo)可得,二者的AUC及SAR值的中位數(shù)均高于0.83和0.90,且WSVM-Platt的AUC值和SAR值的中位數(shù)、P25和P75均高于WSVM-Iso;WSVM-Platt和WSVM-Iso的RMSE中位數(shù)均低于0.07,且WSVM-Platt的RMSE值的中位數(shù)、P25和P75均低于WSVM-Iso,故Platt校準(zhǔn)效果略優(yōu)于Iso校準(zhǔn)。

WRF-Platt、WRF-Iso和WRF的AUC和SAR中位數(shù)值均分別高于0.81和0.85。WRF-Platt和WRF-Iso與WRF相比,在AUC指標(biāo)上,中位數(shù)、P25和P75取值接近;對(duì)比RMSE值可知,WRF-Platt和WRF-Iso的RMSE值的中位數(shù)、P25和P75均低于WRF對(duì)應(yīng)的RMSE值,且WRF-Platt的上述三種取值均略低于WRF-Iso;WRF-Platt和WRF-Iso的SAR值的中位數(shù)、P25和P75均高于WRF,且WRF-Platt的上述三種取值均略高于WRF-Iso。由上可知,校準(zhǔn)提高了WRF概率預(yù)測(cè)效果,且Platt校準(zhǔn)效果略優(yōu)于Iso校準(zhǔn)。

討 論

現(xiàn)階段關(guān)于先心病及其他出生缺陷的研究多數(shù)集中在發(fā)生率的預(yù)測(cè)、影響因素的探索及分類預(yù)測(cè)等方面。楊峰利用決策樹(shù)進(jìn)行出生缺陷分類預(yù)測(cè)[2]。方俊群等利用判別分析和C5.0決策樹(shù)對(duì)2007-2008年湖南省45家醫(yī)院的出生缺陷患兒進(jìn)行分類預(yù)測(cè)[3]。劉長(zhǎng)云采用logitboost和分類樹(shù)算法進(jìn)行唇腭裂概率預(yù)測(cè)[4]。趙佳璐利用關(guān)聯(lián)規(guī)則對(duì)出生缺陷進(jìn)行概率預(yù)測(cè)[5]。Wang JF等采用SVM對(duì)和順縣1998-2005年出生的7880名嬰兒進(jìn)行出生缺陷分類預(yù)測(cè)[25]。Sainz JA等進(jìn)行了先心病分類研究[26],Wieczorek A等利用心血管風(fēng)險(xiǎn)得分預(yù)測(cè)先心病。在出生缺陷的預(yù)測(cè)中,關(guān)于分類預(yù)測(cè)較多,基于全人群調(diào)查資料進(jìn)行先心病概率預(yù)測(cè)的研究甚少[27]。

本研究基于代價(jià)敏感性和概率校準(zhǔn)構(gòu)建了先心病概率預(yù)測(cè)模型,預(yù)測(cè)結(jié)果符合預(yù)期。國(guó)內(nèi)有關(guān)概率校準(zhǔn)的研究相對(duì)較少。呂奕等對(duì)SVM和AdaBoost的概率預(yù)測(cè)結(jié)果進(jìn)行Platt校準(zhǔn),然后將二者的校準(zhǔn)概率和logistic回歸的預(yù)測(cè)概率進(jìn)行集成,結(jié)果顯示,經(jīng)過(guò)校準(zhǔn)模型的預(yù)測(cè)效果提高[28]。沈翠華對(duì)SVM進(jìn)行保序回歸校準(zhǔn)用于個(gè)人信用評(píng)估,預(yù)測(cè)效果優(yōu)良[29]。從表2模型的對(duì)比可知,WSVM校準(zhǔn)模型和logistic模型的預(yù)測(cè)結(jié)果都優(yōu)于WRF及其校準(zhǔn)模型,WRF雖然是性能優(yōu)良的學(xué)習(xí)器,但不適合處理不平衡數(shù)據(jù)。WRF-Platt和WRF-Iso預(yù)測(cè)效果優(yōu)于WRF,說(shuō)明校準(zhǔn)提高了模型概率預(yù)測(cè)性能。準(zhǔn)確的預(yù)測(cè)概率對(duì)于預(yù)防先心病很關(guān)鍵,可為篩選先心病高危人群提供初步參考。

有關(guān)概率預(yù)測(cè)效果評(píng)價(jià)指標(biāo)的選取,本文不僅選擇了概率評(píng)價(jià)指標(biāo)RMSE和AUC,同時(shí)采用了SAR評(píng)價(jià)指標(biāo)。由于SAR包含了閾值評(píng)價(jià)指標(biāo)ACC、等級(jí)評(píng)價(jià)指標(biāo)AUC和概率評(píng)價(jià)指標(biāo)RMSE,故而非常穩(wěn)健。該指標(biāo)提示校準(zhǔn)提高了模型的概率預(yù)測(cè)性能[23]。

本文存在不足之處。第一,本研究?jī)H選用了三種模型,在今后的研究中,將考慮建立其他模型如神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)等進(jìn)行比較;第二,由于本文建立了綜合變量,故而沒(méi)有考慮交互作用。

猜你喜歡
評(píng)價(jià)模型
一半模型
SBR改性瀝青的穩(wěn)定性評(píng)價(jià)
石油瀝青(2021年4期)2021-10-14 08:50:44
中藥治療室性早搏系統(tǒng)評(píng)價(jià)再評(píng)價(jià)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
基于Moodle的學(xué)習(xí)評(píng)價(jià)
關(guān)于項(xiàng)目后評(píng)價(jià)中“專項(xiàng)”后評(píng)價(jià)的探討
保加利亞轉(zhuǎn)軌20年評(píng)價(jià)
主站蜘蛛池模板: 九色视频在线免费观看| 久久国产热| 天堂网亚洲综合在线| 亚洲精品久综合蜜| 精品国产免费第一区二区三区日韩| 最新痴汉在线无码AV| 亚洲国产欧洲精品路线久久| 精品国产一二三区| 国产精品毛片一区| 日韩高清一区 | 久久性妇女精品免费| 无码精品一区二区久久久| 99精品在线视频观看| 在线观看亚洲精品福利片| 青青草国产免费国产| 久久久精品国产SM调教网站| 高清色本在线www| 亚洲成人动漫在线观看| 麻豆AV网站免费进入| 97久久精品人人做人人爽| 成人福利视频网| 波多野结衣久久高清免费| 欧美精品在线免费| 免费精品一区二区h| 四虎国产在线观看| 久久午夜夜伦鲁鲁片无码免费| 在线中文字幕日韩| 久久精品丝袜| 国产成人精品在线| 91视频免费观看网站| 国产精彩视频在线观看| 久久www视频| 日本高清成本人视频一区| 亚洲视频欧美不卡| 亚洲av无码牛牛影视在线二区| 久久永久精品免费视频| 蜜芽国产尤物av尤物在线看| 亚洲丝袜第一页| 无码专区国产精品一区| 国产在线精品香蕉麻豆| 国产成人精品在线1区| 午夜丁香婷婷| 亚洲第一成年免费网站| 国产www网站| 国产aⅴ无码专区亚洲av综合网 | 成人年鲁鲁在线观看视频| 精品国产网| 亚洲一级毛片免费看| 欧美在线精品怡红院| 精品伊人久久久大香线蕉欧美| 国产精品美乳| 色视频国产| 国产成人综合久久精品下载| 亚洲永久免费网站| 又污又黄又无遮挡网站| 国产99热| 亚洲无码高清免费视频亚洲| 欧美日韩高清在线| 国产欧美又粗又猛又爽老| 全部免费毛片免费播放| 国内精品久久久久鸭| 久久久久久尹人网香蕉| 国产精品一区二区国产主播| 午夜a级毛片| 久久99国产精品成人欧美| 欧美高清视频一区二区三区| 丝袜国产一区| 99在线观看视频免费| 中文字幕在线播放不卡| 国产精品永久不卡免费视频| 中文字幕亚洲无线码一区女同| 午夜毛片免费观看视频 | 国产日韩精品欧美一区喷| 91精品aⅴ无码中文字字幕蜜桃 | 国产一区二区三区夜色| 精品国产香蕉伊思人在线| 国产av一码二码三码无码| 高清不卡一区二区三区香蕉| 国产久操视频| 91青青草视频| 国产欧美日韩在线在线不卡视频| 国产精品一区在线麻豆|