999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于樹模型的糖尿病分類預測研究

2023-09-13 12:14:48汪藝璇
黑龍江科學 2023年16期
關鍵詞:分類特征糖尿病

汪藝璇

(河北地質大學經濟學院,石家莊 050030)

0 引言

糖尿病是一種慢性疾病,目前還無法徹底治愈,其以高血糖為主要發病特征,會引發一系列的并發癥。由于知曉率較低,往往患者發現患病時已經產生了一系列的并發癥。若能找出糖尿病患者的相關特征,對其進行早期預測,防患于未然,可令患者更早的接受治療,有助于更好地預防。目前,關于糖尿病分類預測的研究取得了一定的進展,汪迎歸[1]提出優化及改進的Stacking分類預測模型,取得了較好的預測結果。楊雨含等[2]基于隨機森林及序聯合搜索的Wrapper式特征選擇算法精度達到81.13%。劉文博等[3]基于迭代隨機森林對糖尿病數據集進行分類,得到的分類結果較好。苗豐順[4]使用了一種新型的Boosting算法進行糖尿病分類,預測效果較好。但目前基于樹模型預測方法的糖尿病分類研究文獻較少,樹模型是以決策為基礎的分類方法,包含單一的決策樹及決策樹組合模型。本研究以糖尿病分類為研究對象,分析對比了一系列樹模型,如C4.5決策樹生成算法、CART決策樹生成算法、Bagging算法、隨機森林、Adaboost算法等在糖尿病分類預測中的性能。

1 算法概述

樹模型是一種以決策樹模型為基礎的模型,包括單一的決策樹模型及組合的決策樹模型。其中單一的決策樹模型又發展出了不同的決策樹生成算法,如C4.5與CART算法可用來生產決策樹,這兩種算法的區別在于特征選擇方式不同,C4.5算法使用了信息增益比,CART算法則采用了基尼指數對特征進行分類。組合決策樹模型是以單一的決策樹模型組合生成一系列的樹集體進行決策,如Bagging算法。主要思想是隨機采樣,即在訓練集上隨機采樣,建立不同的決策樹,合成一個強分類器,合成的方法為簡單投票法,得到票數最多的標簽類別作為投票結果。隨機森林算法也稱為Bagging的加強版,對決策樹的建立做了一些改進,在建立過程中引入隨機特征選擇。Adaboost算法是用加權多數表決的一種決策樹集成方法,在訓練過程中如果某個樣本在前一輪決策樹的建立中被錯分,那么在建立下一棵決策樹時就會給它較大的權重,令其受到更多的關注。

1.1 決策樹

決策樹模型整體結構像一棵樹,從最開始的一個節點出發,通過數據訓練選擇最優特征并不斷分叉下去,是很好的一種分類方法,當決策數據結果訓練好以后,輸入樣本便能預測出該樣本屬于哪種類別,適用于糖尿病分類問題。本研究主要探究決策樹生成算法中的C4.5與CART算法。

在C4.5生成算法[5]中,以信息增益比進行特征選取,若設訓練集為D,特征為A,信息增益為g(D,A),訓練集D關于特征A的值的熵為HA(D),具體表達式如下:

(1)

其中,n為特征A取值的個數,特征A對訓練集D的信息增益比為其信息增益與HA(D)的比,具體表達式為:

(2)

在CART生成算法[6]中,以基尼指數進行特征選擇,假設有K個類,樣本點屬于第k類的概率為pk,那么概率分布的基尼指數定義表達式為:

(3)

由于糖尿病分類是一個二分類問題,若設樣本屬于糖尿病的概率為p,則概率分布的基尼指數表達式具體為:

Gini(p)=2p(1-p)

(4)

對于一個給定的樣本集合D,基尼指數按照如下公式定義:

(5)

其中,K是類總共的數目,Ck是D中屬于第k類的樣本的一個子集。

1.2 決策樹組合模型

決策樹組合模型則是把許多的樹組合在一塊進行分類預測,單棵樹的學習能力一般不如許多個樹一塊學習,這樣集成起來的分類預測能力強。若把單棵樹看做弱分類器,那么決策樹組合模型就是合成多個樹,每個樹的結果綜合在一塊,然后一起給出最終結果,根據特征選擇方式及弱分類器集成方式的不同形成了多種決策樹組合模型,包括Bagging算法、隨機森林算法、Adaboost算法。

Bagging算法是一種相對于隨機森林與AdaBoost算法簡單得多的算法。這種算法的思想很簡單,是把每個決策樹看做是一個人,很多人組成一個群體,那么要決策一件事情時,每個人都形成一種自己的判斷,然后所有人一塊進行投票,得到最多的類別作為最終的決策。以糖尿病分類預測為例,在Bagging算法中,設樣本集為D={(x1,y1),(x2,y2),…,(xm,ym)},其中m代表樣本量,為768,xi(i=1,2,…,m)∈R8,yi(i=1,2,…,m)∈R,t=1,2,…,T,每次采樣m′(

(6)

隨機森林算法[7]是一種使用廣泛的集成樹分類算法,因其良好的分類性能得到了人們的認可,是Bagging算法的升級版,對t=1,2,…,T每次在集合D中隨機采樣形成集合Dm′,但是整個過程與Bagging算法不同,在訓練決策樹模型節點時,只選取一部分樣本特征,在其中選擇一個最優特征來做決策樹的下一步分叉決策,形成弱分類器Mt(Dm′),最終綜合成強分類器,其表達式為:

(7)

Adaboost算法[8]的總體思想是形成一系列弱分類器,再組合成強分類器,但與前兩種組合算法存在極大的不同。如弱分類器組成強分類器的方法不同,不再采用簡單隨機投票得票多勝出的方法,而是進行一定的綜合,這種綜合體現為偏重多數的決策辦法,即在決策時向分類誤差率小的樹進行偏斜。在構建下一輪弱分類器時,更加重視被前一輪樹分錯的樣本,算法步驟是對數據的權值分布進行初始化,即:

(8)

對t=1,2,…,T用具有Wt的訓練集進行學習得到分類樹Ηt,計算它的分類誤差率:

(9)

計算它的系數為:

(10)

更新訓練集的權值分布為:

(11)

構建多個樹的線性組合,得到最終的模型為:

(12)

2 模型構建與結果

2.1 數據來源與預處理

數據來源為UCI上的糖尿病數據集,該數據集共有樣本768條,數據中給出了每個樣本的分類標簽,其中為糖尿患者的樣本為268,非糖尿病患者的數據500條,可見樣本標簽分類較為均衡,比值約為3∶5。數據集的特征變量共有8個,變量名稱分別為Pregnancies、Glucose、BloodPressure、SkinThickness、Insulin、BMI、DiabetesPedigreeFunction、Age,取值均為連續型數據。利用這8個特征數據訓練分類器之前,檢查原始數據集,觀察其中是否有缺失,發現數據集較完整,無缺失,較為理想,將數據格式調整為數值型數據即可投入分類器訓練中。

2.2 數據的描述性統計

對數據的描述性統計分析可以從總體上掌握統計特征,故對糖尿病患者的8個特征變量數據進行描述性統計,包括數據最大值、最小值等,結果如表1所示。

表1 特征變量的描述性統計分析

通過對8個特征變量的描述性統計分析可知,Pregnancies的最小值為0,最大值為17,平均值為3.8451,標準差為3.36958,偏度為0.902,峰度為0.159,Age的最小值為21歲,最大值為81歲,平均為33歲,以此類推,可以得到其他各特征變量的描述性統計結果。2.3 兩種決策樹模型的建立與結果分析

C4.5算法下的模型,利用R軟件進行決策樹的建立及結果分析,利用數據訓練出決策樹,繪制出原始的決策樹,發現其枝葉較為繁茂,故需要對決策樹進行修剪,主要通過參數U進行設置,參數U代表不對決策樹進行剪枝,默認值為True,將模型的參數U設置為False,并將剪枝過程的置信閾值設為0.05,每個葉結點最小觀察樣本量設置為6。參數B代表每個節點僅分為兩個分支,默認值為True,設置為False。繪制簡化版的決策樹如圖1所示。

圖1 決策樹C4.5

建立CART算法生成的決策樹模型,利用數據訓練出原始的決策樹,發現訓練出的模型較為復雜,故綜合模型復雜度及預測精度進行了決策樹剪枝,計算復雜度列表并進行可視化,繪制了模型復雜度與模型錯誤率的關系圖,如圖2所示。

圖2 復雜度與模型錯誤率關系圖

經過綜合考量,選取復雜度為0.01,建立決策樹如圖3所示。

圖3 決策樹CART

給出以上兩種算法下決策樹的分類混淆矩陣及模型預測精度。經過分析,訓練并建立最終的決策樹模型,為了比較分析兩種模型的預測性能,給出分類預測混淆矩陣如表2、表3所示。

表2 決策樹C4.5分類預測混淆矩陣

表3 決策樹CART分類預測混淆矩陣

由表2、表3可見,決策樹C4.5將30名未患糖尿病的人錯分成了糖尿病患者,還有131名糖尿病患者沒有識別出來,而決策樹CART將44名未患糖尿病的人分成了糖尿病患者,還有88名糖尿病患者沒有識別出來。根據這兩個混淆矩陣,計算了C4.5算法與CART算法生成的決策樹預測錯誤率分別為20.96%、17.19%,可見CART算法生成的決策樹對糖尿病的分類預測效果更好一些。

2.3 三種決策樹組合模型的建立與結果分析

Bagging算法較為簡單,主要通過建立多個決策樹進行投票,觀察哪個得票最多,從而做出決策。在隨機森林算法中,可根據OBB錯判率來決定樹的棵數,故繪制隨機森林的OBB錯判率及決策樹棵樹之間的關系圖進行判斷。利用R軟件繪制的OBB錯判率及決策樹棵樹之間的關系如圖4所示:

圖4 OBB錯判率與決策樹棵樹之間的關系

通過圖4可以看出,當建立的決策樹棵樹為100棵時,隨機森林的模型錯判率趨于穩定,故采用100棵樹建立隨機森林模型。Adaboost算法是通過多棵樹建立決策樹組合預測,不再采取簡單投票而是進行線性綜合,利用R軟件依據糖尿病數據進行模型擬合。

對建立的3種決策樹組合模型在糖尿病數據集上的分類性能進行分析比較,給出3種決策樹組合模型分類預測的混淆矩陣,如表4、表5、表6所示。

表4 Bgging算法分類預測混淆矩陣

表5 隨機森林算法分類預測混淆矩陣

表6 Adaboost算法分類預測混淆矩陣

由表4、表5、表6可見,Bagging算法只將1名未患糖尿病的人錯分成了糖尿病患者,只有8名糖尿病患者沒有識別出來。隨機森林算法與Adaboost算法則全部分類正確,所有糖尿病患者都識別出來了,且沒有把未患糖尿病的人錯分為糖尿病患者。根據這3個混淆矩陣計算Bagging算法、隨機森林算法及Adaboost算法在糖尿病分類預測中的錯誤率分別為1.17%、0%、0%,可見隨機森林算法與Adaboost算法生成的決策樹對糖尿病的分類預測效果更好一些。

2.4 糖尿病分類預測變量的重要性分析

通過以上2種決策樹生成算法及3種決策樹組合預測模型的分類結果可知,這5種樹模型的分類預測性能從總體上看,3種決策樹組合分類模型皆優于單一的決策樹分類預測模型,證實了決策樹組合模型在糖尿病分類預測中的優越性。選擇Adaboost模型作為糖尿病預測模型,進行輸入變量的重要性分析,以確定影響糖尿病發生的重要特征,為糖尿病的預防提供參考。利用R軟件計算出8個糖尿病特征變量的重要性,如表7所示。

表7 特征變量重要性

為了更直觀地看出8個變量的重要性大小關系,進一步對8個變量的數據重要性進行可視化,繪制成柱形圖如圖5所示。

圖5 輸入變量的重要性

由圖5可知,對糖尿病患者進行分類預測的過程中,變量重要性從大到小依次為Glucose、BMI、DiabetesPedigreeFunction、BloodPressure、Age、Pregnancies、SkinThickness、Insulin。其中,Glucose、BMI、DiabetesPedigreeFunction三個變量的重要性較大,分值均在18分以上,故在糖尿病的預防及診斷過程中要特別關注這3個特征變量的情況。

3 結論和建議

分析了決策樹C4.5、決策樹CART、Bagging、隨機森林及Adaboost等5種算法在糖尿病預測中的表現,發現決策樹C4.5將30名未患糖尿病的人錯分成了糖尿病患者,還有131名糖尿病患者沒有識別出來;決策樹CART將44名未患糖尿病的人分成了糖尿病患者,還有88名糖尿病患者沒有識別出來;Bagging算法只將1名未患糖尿病的人錯分成了糖尿病患者,只有8名糖尿病患者沒有識別出來;隨機森林算法及Adaboost算法則全部分類正確。這5種樹模型的分類預測錯誤率分別為20.96%、17.19%、1.17%、0%、0%,從總體上看,3種決策樹組合分類模型皆優于單一的決策樹分類預測模型,證實了決策樹組合模型在糖尿病分類預測中的優越性。選擇Adaboost模型找到糖尿病的影響因素相對重要性,發現Glucose、BMI、DiabetesPedigreeFunction 3個變量的重要性較大,故在糖尿病預防及診斷過程中要特別關注這3個特征變量的情況。

猜你喜歡
分類特征糖尿病
糖尿病知識問答
中老年保健(2022年5期)2022-08-24 02:35:42
糖尿病知識問答
中老年保健(2022年1期)2022-08-17 06:14:56
糖尿病知識問答
中老年保健(2021年5期)2021-08-24 07:07:20
糖尿病知識問答
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 日本午夜在线视频| 国产福利免费视频| 国产精品私拍在线爆乳| 日a本亚洲中文在线观看| 亚洲人成人无码www| 亚洲Va中文字幕久久一区 | 国产精品久久自在自2021| 黄片在线永久| 欧美三級片黃色三級片黃色1| 久久99热66这里只有精品一| 精品国产香蕉在线播出| 亚洲天堂视频网站| 99视频精品全国免费品| 亚洲经典在线中文字幕| 国产成人禁片在线观看| 中文字幕亚洲综久久2021| 三上悠亚精品二区在线观看| 久久精品人人做人人爽电影蜜月 | 欧美一级特黄aaaaaa在线看片| 欧美高清国产| 久久九九热视频| 久久一本日韩精品中文字幕屁孩| 成人日韩欧美| 国产地址二永久伊甸园| 久久久久免费看成人影片| 欧美日韩中文国产| 亚洲大学生视频在线播放| 国产女人爽到高潮的免费视频| 最新午夜男女福利片视频| av天堂最新版在线| 92午夜福利影院一区二区三区| 国内精品久久久久鸭| 欧美色丁香| 欧美一区二区三区国产精品| 蜜臀AV在线播放| 欧美精品三级在线| 国产亚洲欧美在线中文bt天堂| 蜜臀AVWWW国产天堂| 午夜视频日本| 国产毛片片精品天天看视频| 欧美激情一区二区三区成人| 亚洲aaa视频| 欧美日本激情| 中文字幕在线视频免费| 亚洲第一视频免费在线| 激情综合激情| 成年网址网站在线观看| 五月婷婷综合色| 91国语视频| 伊人婷婷色香五月综合缴缴情| 国产福利不卡视频| 超碰91免费人妻| 在线欧美日韩国产| 欧美在线黄| 免费亚洲成人| 五月婷婷伊人网| 91久久国产成人免费观看| 蜜桃视频一区二区| 国产精品亚洲片在线va| 男女性午夜福利网站| 四虎永久在线精品国产免费| 免费国产好深啊好涨好硬视频| 亚洲AV成人一区二区三区AV| 国产SUV精品一区二区| 亚洲视频二| 97av视频在线观看| 视频国产精品丝袜第一页| 国产精品丝袜在线| 国产精品自在自线免费观看| 亚洲国产成人精品无码区性色| 欧美性精品| 久久国产成人精品国产成人亚洲 | 欧美翘臀一区二区三区| 国产成人亚洲综合a∨婷婷| 狼友av永久网站免费观看| 久久这里只精品国产99热8| 日韩福利在线观看| 成人福利在线看| 无码一区18禁| 色综合婷婷| 无码日韩精品91超碰| 四虎永久在线|