999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機器學習中集成模型的應用問題研究

2023-01-16 06:00:32嘉,劉
無線互聯科技 2022年21期
關鍵詞:糖尿病模型

焦 嘉,劉 婷

(湖南信息職業技術學院,湖南 長沙 410203)

0 引言

機器學習的本質是學習計算機智能,并賦予計算機與人類相同的學習能力。利用糖尿病患者數據與機器學習的結合[1-2],能夠達到對專業數據進行處理提供定制醫療咨詢的能力。

圖1 集成模型總體流程

1 集成模型定義及流程

將Logistic回歸得到的結果按照概率值劃分為3個區間,分別是[0-0.4][0.4-0.6][0.6-1]。然后根據概率值區間將樣本訓練集也劃分為3個區間,求出每個區間內樣本預測的準確率。將劃分的3個區間分別使用C4.5決策樹算法進行訓練,分別求出其預測準確率,然后分別比較兩種模型在3個區間的預測準確率,選擇準確率較高的作為最終判別標準。

如圖1所示為集成模型的總體流程,步驟包括原始數據收集、數據預處理、單因素分析、多因素Logistic回歸分析、樣本數據集劃分與處理、決策樹模型的形成、模型的集成比較、最終形成集成模型等。

2 模型及目標函數

2.1 單因素分析

單因素分析使用SPSS軟件進行,采用的是列鏈表x2檢驗,用于探討各因素與糖尿病的關系。糖尿病危險因素單因素分析結果如表1所示。

2.2 多因素Logistic回歸

多因素Logistic回歸分析根據表1中單因素分析的結果選擇出來的影響因素進行,Logistic回歸分析使用的是sigmoid函數,將線性回歸的結果變換后輸出到[0-1]區間,表達式如下:

(1)

其中,β和X為向量,Xi(i=1,2,…,7) 分別表示經過單因素分析的影響因素,而βi則表示每個Xi所對應的參數,也就是所要求解的回歸系數,β0為常數,而最終要求的是βi(i=0,1,2,…,7)值。

2.3 樣本數據集劃分與處理

將所有樣本按照sigmoid函數得到的概率進行區間劃分,其劃分標準如下:

H1=[0,0.4],H2=[0.4,0.6] ,H3=[0.6,1]

將樣本數據集劃分區間后,發現數據集H1,H3的數據不平衡,為了解決這個問題方便下面的模型構建,本文采用的方法是Easy Ensemble:這是集成算法中最簡單的算法之一[3],具體做法是從0類中(樣本多的類)中取出1類等量樣本,并且不重復地取多次,用于構建多個訓練集,最終使得0類樣本大部分都參與訓練一次。之后,根據得到的多個模型選擇其中預測準確率最好的模型作為最終模型。

2.4 決策樹生成

決策樹先選擇根節點屬性,只要有一個可能的屬性值,就產生一個分支。本文以收集到的醫療數據為例,以Y(是否患病)作為輸出變量,輸入變量以Ti(i=1,2,……13)表示,決策樹輸出變量Y的信息熵為:

(2)

其中,P(y2)代表不患糖尿病的概率,P(y1)代表患糖尿病的概率。

2.5 決策樹減枝

在決策樹生成的過程中,由于數據可能存在噪聲和決策樹算法本身存在的問題,也就是常說的過擬合現象。本文采用的是PEP (Pessimistic Error Pruning)(悲觀剪枝)[3]。其剪枝過程如下所示:

(1)計算剪枝前錯誤率e。

(2)計算剪之前誤判次數均值E,其中E=N×e(其中N是樣本總數)。

(4)計算剪枝后錯誤率e+。

(5)計算減值后誤判次數均值E+,其中E+=N×e+。

(6)判斷剪枝條件,若E-var>E+,則剪枝該子樹;若E-var≤E+,則不剪枝該子樹。

上述步驟中的錯誤率估計如下所示:

(3)

2.6 模型集成

本文將數據集劃分之后結合Easy Ensemble技術形成決策樹的訓練數據集,隨后生成多個決策樹模型,然后分別計算出各個模型決策樹的預測準確率,在3個分區H1=[0,0.4],H2=[0.4,0.6] ,H3=[0.6,1] 分別選擇預測準確率最高的模型作為最終形成的決策樹模型,其預測準確率分別記為PJi(i=1,2,3)。同時結合之前生成的Logistic回歸模型在3個分區H1=[0,0.4],H2=[0.4,0.6] ,H3=[0.6,1]的預測準確率PLi(i=1,2,3),最終比較并選出分別在3個分區上的模型。其集成過程如下:

(1)選擇分區Hi(i=1,2,3) ,分別計算兩種模型預測準確率。

(2)若PLi>PJi(i=1,2,3),在分區Hi上最終選擇Logistic回歸模型;若PLi≤PJi(i=1,2,3),在分區Hi上最終選擇決策樹模型。

(3)重復步驟1,直到i=3。

3 實驗結果與分析

如圖2所示為3個分區內的兩個模型的預測準確率,在H2分區內,決策樹和Logistic回歸模型的預測準確率相差明顯,決策樹預測準確率明顯高于Logistic回歸模型,在H1,H3兩個分區內決策樹和Logistic回歸模型的預測準確率差別不大,最終在3個分區內分別選擇H1決策樹、H2決策樹、Logistic回歸模型作為最終的集成模型的判別標準。

由集成模型和實驗數據可知,其訓練集和測試集的預測準確率如表2所示。

表2 集成模型的預測準確率

由表2可知,集成模型的預測準確率在3個模型中最高,其中訓練集預測準確率為91.16%,測試集的預測準確率為88.28%,所有樣本的預測準確率為90.34%。由此可知該模型在3個模型中最具有參考意義,對糖尿病的風險預測作用最大。

4 結語

本文立足實際的醫療數據,采用機器學習技術中集成模型來建立糖尿病風險預測模型,改進之處如下:

(1)將機器學習的幾種分類算法結合起來應用到糖尿病的風險預測中,采用Logistic回歸算法和決策樹算法構建集成模型,結合了Logistic回歸模型的優點與決策樹模型的優點,在一定的程度上解決單分類模型預測結果不穩定的問題。

圖2 3個分區內兩種模型預測準確率對比

(2)使用集成模型進行實驗,通過對醫療數據的處理,最終證明了集成模型擁有較高的分類準確率和穩定性,適合于糖尿病的風險預測。

猜你喜歡
糖尿病模型
一半模型
糖尿病知識問答
中老年保健(2022年5期)2022-08-24 02:35:42
糖尿病知識問答
中老年保健(2022年1期)2022-08-17 06:14:56
糖尿病知識問答
中老年保健(2021年5期)2021-08-24 07:07:20
糖尿病知識問答
中老年保健(2021年9期)2021-08-24 03:51:04
糖尿病知識問答
中老年保健(2021年7期)2021-08-22 07:42:16
糖尿病知識問答
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产综合色在线视频播放线视 | 日韩欧美中文字幕在线韩免费| 欧美.成人.综合在线| 精品视频一区二区三区在线播| 国产日韩欧美成人| 女人毛片a级大学毛片免费| 免费99精品国产自在现线| 国产网友愉拍精品视频| 国产99在线| 日韩在线网址| 日本AⅤ精品一区二区三区日| 欧美精品影院| 久久精品免费看一| 国产成人AV综合久久| 久久夜色精品国产嚕嚕亚洲av| 成人看片欧美一区二区| 久久99久久无码毛片一区二区| 国产区成人精品视频| 亚洲香蕉久久| 久无码久无码av无码| 日韩AV无码免费一二三区| 女人爽到高潮免费视频大全| 欧美综合区自拍亚洲综合绿色| 一本大道东京热无码av| 久久国产亚洲欧美日韩精品| 亚洲一级色| 国产视频只有无码精品| 在线播放国产99re| 久久午夜夜伦鲁鲁片不卡| 成人综合久久综合| 久久黄色一级视频| 国产美女丝袜高潮| 欧美黄网在线| 日本黄色不卡视频| 久久精品66| www.精品国产| 999精品色在线观看| 午夜视频在线观看区二区| 日韩AV手机在线观看蜜芽| 国产99精品久久| 制服丝袜一区| 久久成人18免费| 亚洲男人的天堂在线观看| 欧美中出一区二区| 国产综合网站| 国产婬乱a一级毛片多女| 伊人久久青草青青综合| 亚洲男人天堂网址| 日韩AV无码一区| 亚洲人视频在线观看| 露脸国产精品自产在线播| 毛片手机在线看| 极品国产一区二区三区| 国产打屁股免费区网站| 91欧美在线| 国产在线拍偷自揄拍精品| 国产麻豆精品在线观看| 成年女人a毛片免费视频| 91麻豆国产在线| 99青青青精品视频在线| 国产精品极品美女自在线| 玩两个丰满老熟女久久网| a在线亚洲男人的天堂试看| 一本色道久久88综合日韩精品| 国产成人综合久久精品尤物| 看国产一级毛片| 高清码无在线看| 亚洲一区二区约美女探花| 五月婷婷综合色| 国产成人一区在线播放| 国产爽歪歪免费视频在线观看| 在线观看国产精美视频| 日韩专区欧美| 国产精品亚洲五月天高清| 好紧太爽了视频免费无码| 亚洲国产综合第一精品小说| 欧美激情第一欧美在线| 试看120秒男女啪啪免费| 国产精品v欧美| 久久久久亚洲AV成人网站软件| av大片在线无码免费| 日韩av无码DVD|