999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于決策樹的Titanic乘客生存預(yù)測

2019-07-23 01:11:35苗水清鄭海英白海濤
山東工業(yè)技術(shù) 2019年20期

苗水清 鄭海英 白海濤

摘 要:本文以史上泰坦尼克號沉船事件對乘客生存進(jìn)行預(yù)測。以決策樹算法對沉船事件進(jìn)行分析和研究,文中對決策樹進(jìn)行構(gòu)造,數(shù)據(jù)分類測試,結(jié)果表決策樹預(yù)測模型對應(yīng)用到事故分析中具有一定的可行性和有效性。

關(guān)鍵詞:決策樹;預(yù)測;數(shù)據(jù)分類

DOI:10.16640/j.cnki.37-1222/t.2019.20.175

0 引言

泰坦尼克號的沉沒是歷史上最臭名昭著的沉船事件之一。1912年4月15日,泰坦尼克號在處女航中與冰山相撞,2224名乘客和船員中有1502人喪生。這場轟動性的悲劇震驚了國際社會,并導(dǎo)致了更好的船舶安全法規(guī)。

這次海難造成人員傷亡的原因之一是沒有足夠的救生艇供乘客和船員使用。雖然在沉船中幸存下來有一些運氣因素,但有些人比其他人更可能存活下來,如婦女、兒童和上層階級。在這個挑戰(zhàn)中,本文通過機器學(xué)習(xí)工具來預(yù)測哪些乘客在悲劇中幸存下來。

1 構(gòu)造決策樹進(jìn)行預(yù)測

1.1 決策樹

決策樹方法屬于統(tǒng)計學(xué)中分類的一種,該方法中經(jīng)典算法有ID3、C4.5、CART等[1-2]。決策樹算法是一種從一組無次序,無規(guī)則的案例中推理得出的規(guī)則。決策樹的構(gòu)造過程實質(zhì)是分類的過程[3]。決策樹分析法是一種運用概率與圖論中的樹對決策中的不同方案進(jìn)行比較,從而獲得最優(yōu)方案的風(fēng)險型決策方法。

決策樹采用自頂向下的遞歸方式,在決策樹的內(nèi)部節(jié)點進(jìn)行屬性值的比較并根據(jù)某一規(guī)則進(jìn)行分裂,每一個節(jié)點的父節(jié)點和子節(jié)點相對分裂,直至不能分裂為止,利用每一個非葉子節(jié)點作為判斷節(jié)點,則在決策樹的葉節(jié)點中得到結(jié)論。

1.2 決策樹在乘客生存預(yù)測中的應(yīng)用

(1)泰坦尼克號沉船問題,涉及到乘客存活與否的問題,每一位乘客只有兩種結(jié)果,這是一個二元分類的問題,過對訓(xùn)練數(shù)據(jù)的研究得出對分類比較關(guān)鍵的因素有{'Pclass','Sex','Age','SibSp','Parch,Embarked,Survived}。

(2)在(1)中描述的因素中除了年齡取值多樣之外,其他因素均有一定的劃分范圍標(biāo)簽,因此對年齡也采用了少年,中年,成年分別表示為0,1,2,3,4,5進(jìn)行了分類,最后采用決策樹方法進(jìn)行了分類。

決策樹計算主要包含了數(shù)據(jù)的加載,清洗,信息熵的計算,樹的創(chuàng)建、遍歷,模型存儲、加載等。構(gòu)造決策樹主要過程是:

Step1:確定分類屬性,篩選必要屬性作為分類關(guān)鍵信息,并對一些取值較多的屬性進(jìn)行包箱處理,例如乘客的年齡,可以把不同乘客的年齡處理成,幼兒,青年,成年,老人四個類別;

Step2:計算各個分類標(biāo)簽的信息增益,信息增益越大,表明該標(biāo)簽的分類效果越好;

計算公式為:

其中Gain表示節(jié)點的復(fù)雜度,Gain越高,說明復(fù)雜度越高,分類的效果越明顯。

Step3:對于Step2中分類結(jié)果進(jìn)一步判斷分類結(jié)果是否為同一種。如果不是,則返回Step2,否則進(jìn)入Step4;

Step4:設(shè)置該節(jié)點為葉子節(jié)點,也即分類最終結(jié)果標(biāo)簽。求熵。熵是對集合信息的度量,熵越大,混亂程度越高,也就是純度越低。計算公式:

其中Pi表示類i的數(shù)量占比。以二分類問題為例,如果兩類的數(shù)量相同,此時分類節(jié)點的純度最低,熵等于1;如果節(jié)點的數(shù)據(jù)屬于同一類時,此時節(jié)點的純度最高,熵等于0。

Step4:分割數(shù)據(jù)集,將當(dāng)前已分類的特征整列數(shù)據(jù)去掉,選取數(shù)據(jù)集用于劃分?jǐn)?shù)據(jù)集的最優(yōu)特征。

本文采用python編程,生成的乘客生存決策樹如圖1所示:

1.3 實驗結(jié)果

樣本總數(shù)為1309個,其中訓(xùn)練樣本數(shù)為891個,用418個樣做測試,結(jié)果表明:

(1)能夠正確分類的個數(shù)比重0.8975903614457831,未能分類個數(shù)為34個。

(2)用訓(xùn)練集測試樣本,結(jié)果為100%。

從實驗結(jié)果中能夠發(fā)現(xiàn)在輸入訓(xùn)練集進(jìn)行測試的時候,決策樹能夠?qū)⒂?xùn)練集中所有情況包含,也即能夠?qū)τ?xùn)練集樣本做出正確分類,對于測試集樣本,由于有些測試樣本不在訓(xùn)練集范圍內(nèi),可通過提高訓(xùn)練集的完整度,進(jìn)一步提高其測試精度。

問題分析:

(1)熵用來描述樣本的不確定度的大小,值越大不確定度越大,而信息熵增益是指整體信息熵和某個特征條件確定的情況下信息熵的差值,差值越大表明通過該特征進(jìn)行區(qū)分樣本會越明顯,因此決策樹按照信息熵增益的大小進(jìn)行了決策樹構(gòu)造,當(dāng)然這種算法有一定的趨向性,也即,總是以特征內(nèi)類別取值多的屬性作為樹節(jié)點,這樣構(gòu)造的樹隨機性不夠。

(2)決策樹測試中有些樣本不能分類,主要是因為決策樹訓(xùn)練樣本中并未涵蓋測試集中的所有情況,因此測試集中有的樣本通過決策樹后未能得到分類標(biāo)簽值,此時需要默認(rèn)給個標(biāo)簽或者舍棄該樣本,出現(xiàn)了過擬合現(xiàn)象,后期需進(jìn)行必要的決策樹剪枝。

2 總結(jié)

測試的結(jié)果由于是通過遍歷樹來確定的,因此一方面其精度受決策樹的完整度(包含情況的全面性影響,另一方面也需要進(jìn)行比較的裁剪來處理其過擬合問題,進(jìn)一步提高其隨機性。此外,雖然本文采用ID3算法構(gòu)造決策樹時是優(yōu)先選擇了屬性取值較多的特征作為樹節(jié)點的,但是這樣構(gòu)造的樹深度淺,對于復(fù)雜切特征量大的模型,相比于其他深度大的樹來說其查詢速度是一個優(yōu)勢。當(dāng)然為了避免ID3算法這種趨向性,增加決策樹的隨機性可以采用信息增益比即C4.5算法,和CART基尼系數(shù)進(jìn)行研究。

參考文獻(xiàn):

[1]Karagiannis T,Papagiannaki K,F(xiàn)aloutsos M.BLINC: Multilevel traffic classification in the dark[C].Proc of the ACM SIG-COMM,2005.

[2]Erman J,Arlitt M,Mahanti A.Traffic classification using clustering algorithms[C].Proc of the ACM SIGCOMM Workshop on Mining Network Data( MineNet) ,2006.

[3]毛國君.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2007:12.

項目編號:18JK1217? ?課題名稱:基于云計算的室內(nèi)定位算法應(yīng)用研究

作者簡介:苗水清(1988-),女,內(nèi)蒙古人,碩士研究生,講師,研究方向:圖像處理、機器學(xué)習(xí)。

主站蜘蛛池模板: 亚洲第一精品福利| 国产亚洲欧美日韩在线一区| 国产在线八区| 在线观看91香蕉国产免费| 综合色亚洲| 国产香蕉97碰碰视频VA碰碰看| 欧美精品不卡| 国产精品永久久久久| 免费无码一区二区| 自拍亚洲欧美精品| 亚洲欧洲日产国码无码av喷潮| 日韩毛片免费| 激情综合网址| 青青草一区二区免费精品| 91丝袜美腿高跟国产极品老师| 美美女高清毛片视频免费观看| 欧美日本中文| 最新日韩AV网址在线观看| 丰满的少妇人妻无码区| 18禁黄无遮挡网站| 伊人色天堂| 亚洲二区视频| 亚洲人成网站18禁动漫无码| 少妇精品网站| 国产福利2021最新在线观看| 91久久偷偷做嫩草影院电| 在线毛片网站| 波多野结衣一二三| 福利小视频在线播放| 国产亚洲精久久久久久久91| 大陆国产精品视频| 无码高潮喷水专区久久| 国产第四页| 日韩在线欧美在线| 亚洲乱码在线播放| 亚洲高清中文字幕| 国产成人喷潮在线观看| 大乳丰满人妻中文字幕日本| 亚洲精品高清视频| 亚洲色图欧美视频| 亚洲精品福利视频| 真人高潮娇喘嗯啊在线观看| 精品无码视频在线观看| 国产网站在线看| 免费啪啪网址| 嫩草影院在线观看精品视频| 国产91成人| 久久婷婷五月综合色一区二区| 青青青国产视频手机| 最新午夜男女福利片视频| 黑色丝袜高跟国产在线91| 91亚瑟视频| 青青操视频免费观看| 日韩中文字幕亚洲无线码| 国产成人艳妇AA视频在线| 国产97视频在线观看| 久久人体视频| 四虎国产精品永久一区| 亚洲天堂成人在线观看| 亚洲激情区| 伊人色天堂| 美女亚洲一区| 久久夜色精品国产嚕嚕亚洲av| 日本日韩欧美| 欧美第一页在线| 一级毛片a女人刺激视频免费| 57pao国产成视频免费播放| 中文字幕1区2区| 91年精品国产福利线观看久久| 欧美日韩亚洲综合在线观看| 欧美精品亚洲精品日韩专区| 久久免费精品琪琪| 中文字幕不卡免费高清视频| 伊人久久福利中文字幕| 美女啪啪无遮挡| 丰满人妻中出白浆| 国产精品网址在线观看你懂的| 在线国产三级| 中文国产成人精品久久一| 亚洲国产成人久久精品软件| 欧美国产日韩在线| 国产高清不卡视频|