999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于決策樹的Titanic乘客生存預(yù)測

2019-07-23 01:11:35苗水清鄭海英白海濤
山東工業(yè)技術(shù) 2019年20期

苗水清 鄭海英 白海濤

摘 要:本文以史上泰坦尼克號沉船事件對乘客生存進(jìn)行預(yù)測。以決策樹算法對沉船事件進(jìn)行分析和研究,文中對決策樹進(jìn)行構(gòu)造,數(shù)據(jù)分類測試,結(jié)果表決策樹預(yù)測模型對應(yīng)用到事故分析中具有一定的可行性和有效性。

關(guān)鍵詞:決策樹;預(yù)測;數(shù)據(jù)分類

DOI:10.16640/j.cnki.37-1222/t.2019.20.175

0 引言

泰坦尼克號的沉沒是歷史上最臭名昭著的沉船事件之一。1912年4月15日,泰坦尼克號在處女航中與冰山相撞,2224名乘客和船員中有1502人喪生。這場轟動(dòng)性的悲劇震驚了國際社會,并導(dǎo)致了更好的船舶安全法規(guī)。

這次海難造成人員傷亡的原因之一是沒有足夠的救生艇供乘客和船員使用。雖然在沉船中幸存下來有一些運(yùn)氣因素,但有些人比其他人更可能存活下來,如婦女、兒童和上層階級。在這個(gè)挑戰(zhàn)中,本文通過機(jī)器學(xué)習(xí)工具來預(yù)測哪些乘客在悲劇中幸存下來。

1 構(gòu)造決策樹進(jìn)行預(yù)測

1.1 決策樹

決策樹方法屬于統(tǒng)計(jì)學(xué)中分類的一種,該方法中經(jīng)典算法有ID3、C4.5、CART等[1-2]。決策樹算法是一種從一組無次序,無規(guī)則的案例中推理得出的規(guī)則。決策樹的構(gòu)造過程實(shí)質(zhì)是分類的過程[3]。決策樹分析法是一種運(yùn)用概率與圖論中的樹對決策中的不同方案進(jìn)行比較,從而獲得最優(yōu)方案的風(fēng)險(xiǎn)型決策方法。

決策樹采用自頂向下的遞歸方式,在決策樹的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性值的比較并根據(jù)某一規(guī)則進(jìn)行分裂,每一個(gè)節(jié)點(diǎn)的父節(jié)點(diǎn)和子節(jié)點(diǎn)相對分裂,直至不能分裂為止,利用每一個(gè)非葉子節(jié)點(diǎn)作為判斷節(jié)點(diǎn),則在決策樹的葉節(jié)點(diǎn)中得到結(jié)論。

1.2 決策樹在乘客生存預(yù)測中的應(yīng)用

(1)泰坦尼克號沉船問題,涉及到乘客存活與否的問題,每一位乘客只有兩種結(jié)果,這是一個(gè)二元分類的問題,過對訓(xùn)練數(shù)據(jù)的研究得出對分類比較關(guān)鍵的因素有{'Pclass','Sex','Age','SibSp','Parch,Embarked,Survived}。

(2)在(1)中描述的因素中除了年齡取值多樣之外,其他因素均有一定的劃分范圍標(biāo)簽,因此對年齡也采用了少年,中年,成年分別表示為0,1,2,3,4,5進(jìn)行了分類,最后采用決策樹方法進(jìn)行了分類。

決策樹計(jì)算主要包含了數(shù)據(jù)的加載,清洗,信息熵的計(jì)算,樹的創(chuàng)建、遍歷,模型存儲、加載等。構(gòu)造決策樹主要過程是:

Step1:確定分類屬性,篩選必要屬性作為分類關(guān)鍵信息,并對一些取值較多的屬性進(jìn)行包箱處理,例如乘客的年齡,可以把不同乘客的年齡處理成,幼兒,青年,成年,老人四個(gè)類別;

Step2:計(jì)算各個(gè)分類標(biāo)簽的信息增益,信息增益越大,表明該標(biāo)簽的分類效果越好;

計(jì)算公式為:

其中Gain表示節(jié)點(diǎn)的復(fù)雜度,Gain越高,說明復(fù)雜度越高,分類的效果越明顯。

Step3:對于Step2中分類結(jié)果進(jìn)一步判斷分類結(jié)果是否為同一種。如果不是,則返回Step2,否則進(jìn)入Step4;

Step4:設(shè)置該節(jié)點(diǎn)為葉子節(jié)點(diǎn),也即分類最終結(jié)果標(biāo)簽。求熵。熵是對集合信息的度量,熵越大,混亂程度越高,也就是純度越低。計(jì)算公式:

其中Pi表示類i的數(shù)量占比。以二分類問題為例,如果兩類的數(shù)量相同,此時(shí)分類節(jié)點(diǎn)的純度最低,熵等于1;如果節(jié)點(diǎn)的數(shù)據(jù)屬于同一類時(shí),此時(shí)節(jié)點(diǎn)的純度最高,熵等于0。

Step4:分割數(shù)據(jù)集,將當(dāng)前已分類的特征整列數(shù)據(jù)去掉,選取數(shù)據(jù)集用于劃分?jǐn)?shù)據(jù)集的最優(yōu)特征。

本文采用python編程,生成的乘客生存決策樹如圖1所示:

1.3 實(shí)驗(yàn)結(jié)果

樣本總數(shù)為1309個(gè),其中訓(xùn)練樣本數(shù)為891個(gè),用418個(gè)樣做測試,結(jié)果表明:

(1)能夠正確分類的個(gè)數(shù)比重0.8975903614457831,未能分類個(gè)數(shù)為34個(gè)。

(2)用訓(xùn)練集測試樣本,結(jié)果為100%。

從實(shí)驗(yàn)結(jié)果中能夠發(fā)現(xiàn)在輸入訓(xùn)練集進(jìn)行測試的時(shí)候,決策樹能夠?qū)⒂?xùn)練集中所有情況包含,也即能夠?qū)τ?xùn)練集樣本做出正確分類,對于測試集樣本,由于有些測試樣本不在訓(xùn)練集范圍內(nèi),可通過提高訓(xùn)練集的完整度,進(jìn)一步提高其測試精度。

問題分析:

(1)熵用來描述樣本的不確定度的大小,值越大不確定度越大,而信息熵增益是指整體信息熵和某個(gè)特征條件確定的情況下信息熵的差值,差值越大表明通過該特征進(jìn)行區(qū)分樣本會越明顯,因此決策樹按照信息熵增益的大小進(jìn)行了決策樹構(gòu)造,當(dāng)然這種算法有一定的趨向性,也即,總是以特征內(nèi)類別取值多的屬性作為樹節(jié)點(diǎn),這樣構(gòu)造的樹隨機(jī)性不夠。

(2)決策樹測試中有些樣本不能分類,主要是因?yàn)闆Q策樹訓(xùn)練樣本中并未涵蓋測試集中的所有情況,因此測試集中有的樣本通過決策樹后未能得到分類標(biāo)簽值,此時(shí)需要默認(rèn)給個(gè)標(biāo)簽或者舍棄該樣本,出現(xiàn)了過擬合現(xiàn)象,后期需進(jìn)行必要的決策樹剪枝。

2 總結(jié)

測試的結(jié)果由于是通過遍歷樹來確定的,因此一方面其精度受決策樹的完整度(包含情況的全面性影響,另一方面也需要進(jìn)行比較的裁剪來處理其過擬合問題,進(jìn)一步提高其隨機(jī)性。此外,雖然本文采用ID3算法構(gòu)造決策樹時(shí)是優(yōu)先選擇了屬性取值較多的特征作為樹節(jié)點(diǎn)的,但是這樣構(gòu)造的樹深度淺,對于復(fù)雜切特征量大的模型,相比于其他深度大的樹來說其查詢速度是一個(gè)優(yōu)勢。當(dāng)然為了避免ID3算法這種趨向性,增加決策樹的隨機(jī)性可以采用信息增益比即C4.5算法,和CART基尼系數(shù)進(jìn)行研究。

參考文獻(xiàn):

[1]Karagiannis T,Papagiannaki K,F(xiàn)aloutsos M.BLINC: Multilevel traffic classification in the dark[C].Proc of the ACM SIG-COMM,2005.

[2]Erman J,Arlitt M,Mahanti A.Traffic classification using clustering algorithms[C].Proc of the ACM SIGCOMM Workshop on Mining Network Data( MineNet) ,2006.

[3]毛國君.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2007:12.

項(xiàng)目編號:18JK1217? ?課題名稱:基于云計(jì)算的室內(nèi)定位算法應(yīng)用研究

作者簡介:苗水清(1988-),女,內(nèi)蒙古人,碩士研究生,講師,研究方向:圖像處理、機(jī)器學(xué)習(xí)。

主站蜘蛛池模板: 国产清纯在线一区二区WWW| 国产精品视频白浆免费视频| 亚洲视频四区| 九色视频最新网址| 国产高清无码第一十页在线观看| 日本日韩欧美| 亚洲精品在线91| 成人韩免费网站| 欧美综合成人| 欧美a在线视频| 日韩免费成人| 久久人妻xunleige无码| 少妇精品在线| igao国产精品| 日本国产精品| 中文字幕乱码二三区免费| 91美女在线| 国产日韩欧美黄色片免费观看| 九色91在线视频| 丁香综合在线| 国产在线第二页| 国产永久在线观看| 69综合网| 亚洲国产日韩在线观看| 国产亚洲精久久久久久无码AV| 欧美成人区| av免费在线观看美女叉开腿| 亚洲av片在线免费观看| 中文字幕伦视频| 青青草欧美| 欧美国产综合视频| 国产三级视频网站| 视频一区视频二区日韩专区| 2020国产免费久久精品99| 四虎精品免费久久| 国产在线视频福利资源站| 国产精品黑色丝袜的老师| 亚洲人成色在线观看| 久久久久国产精品免费免费不卡| 91色在线观看| 色噜噜在线观看| 九色视频线上播放| 欧美在线三级| 欧美激情首页| av在线人妻熟妇| 伊人色在线视频| 欧美国产日韩另类| 成人免费一级片| 婷婷亚洲视频| 久久婷婷综合色一区二区| 国产高清无码麻豆精品| 亚洲欧美成人| 欧洲熟妇精品视频| 日韩资源站| 青青草原偷拍视频| 亚洲欧洲一区二区三区| 亚洲精品爱草草视频在线| 日本成人一区| 99视频精品全国免费品| 亚欧美国产综合| 草草线在成年免费视频2| 国产精品免费电影| 伊人久久久久久久久久| 色成人综合| 国产精品爽爽va在线无码观看| 秋霞国产在线| 狠狠色综合久久狠狠色综合| 亚洲国产中文在线二区三区免| 人妻21p大胆| www成人国产在线观看网站| 亚洲天堂免费| 亚洲第一极品精品无码| www亚洲精品| 1024国产在线| AV片亚洲国产男人的天堂| 欧美国产三级| 99热最新网址| 久久天天躁夜夜躁狠狠| 欧美成人第一页| 中文字幕 日韩 欧美| 97人妻精品专区久久久久| 久久精品一品道久久精品|