999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于三種回歸器和VotingRegressor優(yōu)化Adaboost的血糖集成預(yù)測(cè)*

2021-05-08 07:49:52都承華龔誼承張冬陽
關(guān)鍵詞:血糖模型

都承華 龔誼承,2△ 張冬陽

【提 要】 目的 透過眾多的醫(yī)學(xué)特征更準(zhǔn)確地預(yù)測(cè)疾病指標(biāo),比如血糖值。方法 利用VotingRegressor優(yōu)化Adaboost,將三種精度較高的學(xué)習(xí)器進(jìn)行兩種集成學(xué)習(xí)。其中,模型1是基于Adaboost視角集成三種精度較高的學(xué)習(xí)器(GBDT、KRR和SVR);模型2在模型1的基礎(chǔ)上引入VotingRegressor算法優(yōu)化Adaboost得到Ada-VotingRegressor模型。結(jié)果 以血糖值的預(yù)測(cè)為算例,模型1的(均方誤差,預(yù)測(cè)時(shí)間)在訓(xùn)練集和測(cè)試集分別為(0.006748,43059.072s)和(0.006826,32.123s);模型2的(均方誤差,預(yù)測(cè)時(shí)間)在訓(xùn)練集和測(cè)試集分別為(0.005256,306.688 s)和(0.005234,1.023 s)。結(jié)論 基于VotingRegressor優(yōu)化Adaboost的模型2具有較高的預(yù)測(cè)精度和效率。

合理運(yùn)用一些統(tǒng)計(jì)方法對(duì)疾病指標(biāo)進(jìn)行預(yù)測(cè),有利于疾病的預(yù)防和控制,對(duì)我國(guó)人民群眾整體的身體素質(zhì)水平的提高具有重要貢獻(xiàn)。在國(guó)內(nèi),糖尿病從十年前開始,一直高居國(guó)人十大死因第四位,到近期,因糖尿病誘發(fā)相關(guān)病變,占總死亡人數(shù)約8%,說明糖尿病已長(zhǎng)期嚴(yán)重威脅國(guó)人健康與生命[1-3]。血糖濃度是反映病情狀況的一個(gè)重要指標(biāo),本文擬采用Adaboost集成方法對(duì)血糖濃度進(jìn)行預(yù)測(cè),試圖找到更加簡(jiǎn)單、高效的血糖預(yù)測(cè)方法。

資料與方法

1.資料來源

血糖數(shù)據(jù)來源于2017年天池精準(zhǔn)醫(yī)療大賽(人工智能輔助糖尿病遺傳風(fēng)險(xiǎn)預(yù)測(cè)),由阿里云和青梧桐健康科技有限公司提供。

2.研究方法

(1)預(yù)測(cè)分析

模型1基于Adaboost視角集成GBDT、KRR和SVR三種精度較高的基礎(chǔ)回歸器(其中KRR、SVR結(jié)合GridSearchCV方法進(jìn)行調(diào)參,為了簡(jiǎn)潔,將第i個(gè)基礎(chǔ)回歸器(basic regressor)簡(jiǎn)稱為bri(br1=svr,br2=gbdt,br3=krr);模型2在模型1的基礎(chǔ)上引入可以將不同學(xué)習(xí)器更好融合的VotingRegressor算法優(yōu)化Adaboost得到Ada-VotingRegressor模型。兩個(gè)模型均采用Adaboost R2回歸算法。

模型1 集成流程:(1)輸入訓(xùn)練樣本和迭代次數(shù)K,初始化樣本權(quán)重,分別對(duì)基礎(chǔ)回歸器使用初始化權(quán)重進(jìn)行訓(xùn)練,得到弱學(xué)習(xí)器G(bri)k(xi)。(2)計(jì)算訓(xùn)練集上最大誤差E(bri)K,計(jì)算每個(gè)樣本的相對(duì)誤差e(bri)ki,弱學(xué)習(xí)器系數(shù)α(bri)k。(3)更新樣本的權(quán)重分布D(bri)k,輸出強(qiáng)學(xué)習(xí)器f(x)。

輸出最終模型:

(2)缺失值處理:先將整個(gè)數(shù)據(jù)集中缺失數(shù)據(jù)達(dá)80%的指標(biāo)進(jìn)行剔除,量化定性數(shù)據(jù)和對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化處理,再將其余的缺失數(shù)據(jù)由平均值代替。

結(jié) 果

1.集成模型1

為了確定最優(yōu)的迭代次數(shù),我們進(jìn)行了大量的實(shí)驗(yàn)。表1為基于GBDT、KRR和SVR三種算法的Adaboost集成迭代次數(shù)實(shí)驗(yàn)結(jié)果。

表1 Adaboost集成迭代次數(shù)實(shí)驗(yàn)結(jié)果

根據(jù)表1可知,隨著迭代次數(shù)的增加,模型的訓(xùn)練集和測(cè)試集的MSE慢慢下降,當(dāng)?shù)螖?shù)為30 時(shí),無論是訓(xùn)練集還是測(cè)試集MSE均達(dá)到最小,而后隨著迭代次數(shù)增加,模型的MSE慢慢上升,因此最終選定模型1的迭代次數(shù)為30 次。最后我們做出迭代次數(shù)為30的模型1在訓(xùn)練集上和測(cè)試集上的預(yù)測(cè)圖,如圖1所示。

圖1 模型1訓(xùn)練集和測(cè)試集預(yù)測(cè)圖

圖1中,實(shí)線表示血糖的預(yù)測(cè)值Y*,虛線表示血糖的真實(shí)值Y。其中,模型1訓(xùn)練集的均方誤差為0.006748,擬合時(shí)間為43059.072s,測(cè)試集的均方誤差為0.006826,模型預(yù)測(cè)時(shí)間為32.123s。

2.集成模型2

為了更加清楚地了解模型2的預(yù)測(cè)效果,我們依次做出模型2的血糖預(yù)測(cè)模型、預(yù)測(cè)值和學(xué)習(xí)曲線圖。

首先,輸出模型2在訓(xùn)練集上的學(xué)習(xí)出的預(yù)測(cè)模型。

f(x)=0.28785404model(krr)+0.3110837model(svr)+0.40106226model(gbdt)

(1)

接著,做出模型2在訓(xùn)練集和測(cè)試集上的血糖預(yù)測(cè)圖,如圖2所示。

圖2 模型2訓(xùn)練集和測(cè)試集預(yù)測(cè)圖

圖2中,實(shí)線表示血糖的預(yù)測(cè)值Y*,虛線表示血糖的真實(shí)值Y。其中,模型2訓(xùn)練集的均方誤差為0.005256,擬合時(shí)間為306.688s,測(cè)試集的均方誤差為0.005234,模型預(yù)測(cè)時(shí)間為1.023s。

最后,做出SVR、KRR、GBDT和模型2(Ada-VotingRegressor)學(xué)習(xí)曲線。由于四個(gè)模型的均方誤差波動(dòng)幅度不大,為了更加清楚地對(duì)比四個(gè)模型的學(xué)習(xí)曲線,我們將其放在一張圖上,如圖3所示。

圖3 三種基礎(chǔ)回歸器和模型2(Ada-VotingRegressor)的學(xué)習(xí)曲線圖

從圖3我們可以看出:(1)KRR模型曲線一直處于SVR模型學(xué)習(xí)曲線和GBDT模型學(xué)習(xí)曲線的下方;(2)當(dāng)訓(xùn)練樣本量小于2500時(shí),GBDT的學(xué)習(xí)曲線處于SVR學(xué)習(xí)曲線的下方,當(dāng)訓(xùn)練樣本量超過2500時(shí),GBDT的學(xué)習(xí)曲線處于SVR學(xué)習(xí)曲線的上方;(3)模型2(Ada-VotingRegressor)的學(xué)習(xí)曲線一直處于其他三條學(xué)習(xí)曲線之下。

就SVR和GBDT兩個(gè)模型而言,在樣本量為2500前后,學(xué)習(xí)曲線的上下位置互換,其原因可能有算法和樣本容量?jī)蓚€(gè)因素。經(jīng)過將訓(xùn)練集和測(cè)試集的樣本劃分調(diào)整為6.5∶3.5發(fā)現(xiàn),SVR和GBDT的均方誤差仍然隨著樣本量的變化而波動(dòng),因此SVR和GBDT的學(xué)習(xí)曲線的波動(dòng)可能是由于算法問題導(dǎo)致。所以仍然在訓(xùn)練集和測(cè)試集劃分比例為7:3時(shí)討論問題,此時(shí)訓(xùn)練集處理的數(shù)據(jù)不僅維度較高,樣本量也較大。SVR算法雖然可以有效解決高維度數(shù)據(jù)但它更適合于小樣本,所以在樣本量大于1500時(shí),SVR模型的學(xué)習(xí)曲線下降幅度趨于平緩;而GBDT算法雖然適合的樣本量較大,但不適合處理高維度數(shù)據(jù),所以在樣本大于2000時(shí),GBDT的學(xué)習(xí)曲線呈現(xiàn)上升趨勢(shì),因此達(dá)到2500時(shí),SVR和GBDT學(xué)習(xí)曲線的上下位置互換。

從圖3可以進(jìn)一步看出,模型2在訓(xùn)練樣本量大約達(dá)到3600時(shí)與KRR模型學(xué)習(xí)曲線相交,因?yàn)槟P?在樣本量超過3500時(shí)呈現(xiàn)略微上升趨勢(shì)。具體的原因是:在樣本量超過3500 時(shí),SVR模型和GBDT模型都有上升的趨勢(shì),只有KRR模型仍然呈現(xiàn)下降趨勢(shì);但最終模型融合時(shí),由公式(1)可知,SVR模型和GBDT模型的權(quán)重系數(shù)相加超過0.7,大于KRR的權(quán)重系數(shù),所以上升的總體趨勢(shì)大于下降的總體趨勢(shì),使得最終的模型2也呈現(xiàn)上升趨勢(shì)。

討 論

為了考察選擇GBDT、KRR、SVR(其中KRR和SVR均采用GridSearchCV方法進(jìn)行自動(dòng)調(diào)參)三種算法作為基礎(chǔ)回歸器后模型1和模型2集成的預(yù)測(cè)效果是否有所提高,本文將分別算出GBDT、KRR、SVR三種算法對(duì)血糖值的預(yù)測(cè)精度,具體結(jié)果表2所示。

表2 5種模型的均方誤差

由表2可知,選用GBDT、KRR、SVR三種算法作為基礎(chǔ)回歸器進(jìn)行迭代學(xué)習(xí)時(shí),最終得到的模型1的精度反而有所降低,沒有單個(gè)的GBDT模型、KRR模型、SVR模型精度高,這說明本文之前采用的GBDT模型、KRR模型、SVR模型已是高精度的回歸模型,并不適合直接做 Adaboost集成的基礎(chǔ)回歸器。為了利用Adaboost提升已有的強(qiáng)學(xué)習(xí)器,本文引入可以將不同學(xué)習(xí)器更好融合的VotingRegressor模型,得到一個(gè)新的集成模型記為Ada-VotingRegressor(模型2)。由表2可知:模型2明顯預(yù)測(cè)精度高于SVR、KRR、GBDT、模型1,預(yù)測(cè)時(shí)間和擬合時(shí)間也較短,模型效率高;由于受模型1和模型2所選基礎(chǔ)回歸器的影響,即SVR算法不適合大樣本數(shù)據(jù),GBDT算法不適合高維度數(shù)據(jù),使得集成后的模型1和模型2的均方誤差隨著樣本量的波動(dòng)而變化,最終使得訓(xùn)練集和測(cè)試集之間的誤差分別為萬分之七和萬分之二。

利用天池精準(zhǔn)醫(yī)療大賽的數(shù)據(jù)所作的實(shí)證分析的結(jié)果表明:模型2不僅預(yù)測(cè)精度高于SVR、KRR、GBDT和模型1,預(yù)測(cè)時(shí)間和擬合時(shí)間也較短,模型效率高。在基礎(chǔ)回歸器的選擇上,建議首選基礎(chǔ)回歸器的精度最好不要太高;其次,在同時(shí)選用幾個(gè)基礎(chǔ)回歸器時(shí)最好考慮這幾個(gè)回歸器各自的優(yōu)缺點(diǎn),使集成模型各方面更完善;最后,取基礎(chǔ)回歸器時(shí)要考慮所選回歸器與研究使用的樣本量的大小與維度是否合適。本研究結(jié)合了Adaboost的權(quán)重更新算法和VotingRegressor加法集成原理對(duì)模型進(jìn)行線性融合,得出的模型2,能夠更準(zhǔn)確地預(yù)測(cè)血糖值,同時(shí)該方法同樣適用于其他疾病指標(biāo)的預(yù)測(cè)。

在疾病指標(biāo)值預(yù)測(cè)問題中,本文采用的是基于Adaboost視角的集成模型,但預(yù)測(cè)疾病指標(biāo)值方法還有許多,比如楊光利用決策樹模型建立2型糖尿病預(yù)測(cè)模型[4],冷菲利用極限梯度增強(qiáng)算法構(gòu)建模型,研究?jī)煞N不同癌癥亞型中mRNA表達(dá)量[5];除此之外神經(jīng)網(wǎng)絡(luò)[6-7]、隨機(jī)森林[8]、支持向量機(jī)[9]等也是常用于預(yù)測(cè)疾病指標(biāo)的算法,也可以嘗試?yán)眠@些算法作為集成算法的學(xué)習(xí)器,以優(yōu)化Adaboost模型,提升模型的預(yù)測(cè)精度。雖然本文采用的基礎(chǔ)回歸器訓(xùn)練結(jié)果并不是最理想的,但是引入VotingRegressor算法的模型2預(yù)測(cè)疾病指標(biāo)的精度有所提高,為糖尿病等疾病的預(yù)測(cè)和控制提供依據(jù)。

猜你喜歡
血糖模型
一半模型
細(xì)嚼慢咽,對(duì)減肥和控血糖有用么
一吃餃子血糖就飆升,怎么辦?
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
慎防這些藥物升高血糖
妊娠期血糖問題:輕視我后果嚴(yán)重!
媽媽寶寶(2017年3期)2017-02-21 01:22:30
豬的血糖與健康
3D打印中的模型分割與打包
糖尿病患者每天應(yīng)該測(cè)幾次血糖?
人人健康(2016年13期)2016-07-22 10:34:06
主站蜘蛛池模板: 麻豆国产精品一二三在线观看| 好吊日免费视频| 无码精油按摩潮喷在线播放| 丝袜国产一区| 免费高清a毛片| 亚洲aⅴ天堂| 538国产视频| 午夜精品区| 韩日免费小视频| 国产拍在线| 欧美成人区| 99久视频| 欲色天天综合网| 2019年国产精品自拍不卡| 九九线精品视频在线观看| 天堂成人在线| 欧美国产在线看| 人妻无码AⅤ中文字| 久草青青在线视频| 国产成人啪视频一区二区三区| 国产一区二区三区夜色 | 视频二区国产精品职场同事| 国产免费一级精品视频| 亚洲国产在一区二区三区| 五月丁香在线视频| 成人一级免费视频| 久久久久无码精品| 色哟哟国产精品一区二区| 99热这里只有精品国产99| 国产成人艳妇AA视频在线| 亚洲无码久久久久| 99精品视频在线观看免费播放| 国产高清在线观看91精品| 成·人免费午夜无码视频在线观看| 色偷偷男人的天堂亚洲av| 99热国产在线精品99| 精品伊人久久久久7777人| 伊人成人在线视频| 欧美综合中文字幕久久| 亚洲天堂视频网站| 91九色国产porny| 无码内射中文字幕岛国片 | 久久久黄色片| 久久午夜夜伦鲁鲁片不卡| 久久网欧美| 中文字幕日韩久久综合影院| 亚洲成a人在线观看| 成人国产免费| a国产精品| 国产国拍精品视频免费看| 99视频国产精品| 国产毛片高清一级国语| 91精品国产91久久久久久三级| 欧美成人看片一区二区三区| 18禁影院亚洲专区| 美美女高清毛片视频免费观看| 国产成人精品男人的天堂| 成人蜜桃网| 成人免费一级片| 国产午夜小视频| 国产成人永久免费视频| 国产九九精品视频| 美臀人妻中出中文字幕在线| 成人午夜视频网站| 欧美日韩一区二区三区在线视频| 2048国产精品原创综合在线| 色综合a怡红院怡红院首页| 拍国产真实乱人偷精品| 免费人成黄页在线观看国产| 一级全黄毛片| 婷婷综合色| 中文字幕66页| 亚洲AⅤ永久无码精品毛片| 丁香五月激情图片| 手机在线看片不卡中文字幕| 成年看免费观看视频拍拍| 丁香婷婷久久| 国产视频一区二区在线观看| 91成人免费观看在线观看| 72种姿势欧美久久久久大黄蕉| 成人va亚洲va欧美天堂| 欧美国产另类|