999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

泰坦尼克號乘客遇難預測分析

2019-04-05 14:19:54撒宇航
青年與社會 2019年7期

撒宇航

摘 要:在機器學習中,有兩大類常見的問題,一類為回歸問題,另外一類為分類問題。對于回歸問題的解決,常見的方法有線性回歸,隨機森林等。而針對分類問題,有kNN,logsitic,SVM,神經網絡等算法。不同的算法在不同的問題中具有不同的效果。因此,本研究通過具體的實例“泰坦尼克號乘客遇難預測”,通過運用機器學習中的不同分類模型來分析乘客的存活是運氣原因,還是存在一定的規律性。通過該對問題的研究,比較了不同機器學習分類模型的差異性以及優缺點。

關鍵詞:遇難乘客預測;kNN;SVM;邏輯回歸;神經網絡

泰坦尼克號的沉沒是歷史上具有廣泛影響的沉船事件之一,1912年4月15日,在首次航行期間,泰坦尼克號撞上冰山后沉沒,2224名乘客和機組人員中有1502人遇難。這場轟動的悲劇震撼了國際社會。雖然幸存下來的人存在一些運氣方面的因素,但有一些人比其他人更有可能生存,比如婦女,兒童和上層階級。我們的目標便是根據每位乘客的性別,年齡,艙位等相關特征,來預測該乘客是否會在該次乘船事故中存活下來。訓練集以及測試集,我們總共有900名左右的乘客數據,每位乘客包括10個特征,包括Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarke。我們將拿出600名乘客數據作為我們的訓練集,剩余的300名乘客的數據,用來作為我們的測試集,用于檢驗訓練出的模型的性能。

一、分類模型構建

(一) kNN模型

(1) kNN模型原理。kNN(k Nearest Neighbor)算法,又叫作k領近算法,是機器學習中一種常見的分類算法之一。其中的k表示待測樣本最近的k個鄰居。在1968年,Cover和Hart提出了kNN算法,這是一個在理論上比較成熟的方法[1]。

kNN算法的訓練過程是將所有的訓練集映射在特征空間中,測試過程將待測試樣本,計算每個樣本與訓練集樣本的歐氏距離,然后對所有距離進行排序,從中挑選出最近的k個樣本,在k個樣本中,采用基本投票原則,票數最多的類別作為待測樣本的類別。

在我們的泰坦尼克號問題中,訓練集一共含有600名乘客的特征數據,將它們映射到特征空間當中。測試階段,我們將測試集的300個乘客數據,分別計算與600名乘客的歐幾里得距離,從中挑選出最近的k個距離后,采用投票原則,將票數最多的類別作為待測樣本的類別。

(2) 結果分析。我們調用了sklearn中集成的kNN模型,在訓練集上進行了訓練,并且嘗試了不同的k取值,在該問題上的正確率。我們分別測試了當k 取5,10,15,20時模型的結果。測試的結果顯示,在上述4種k的取值下,在測試集上的正確率分別為79.3%,81.7%,83.1%,82.4%。由此可見,在泰坦尼克號這個問題上,當k取值在15左右時,模型的結果較好。

關于kNN模型中k值的不同選擇:當k值較小時,預測結果對近鄰的實例點非常敏感,容易發生過擬合;如果k值過大模型會傾向大類,容易欠擬合;通常k是不大于20的整數。kNN算法的優點是精度高,對異常值不敏感。但是缺點是對k的取值相對比較敏感,不同的k取值對模型產生的結果可能差異性非常的明顯。

另一方面,由于我們的訓練集的大小僅僅為600個樣本,而對于其他的一些機器學習應用,我們的數據集可能十分巨大,特征維數也會十分巨大,會造成kNN算法的運行速度緩慢,因為每預測一個樣本,就要計算該樣本與訓練集中的所有的樣本距離,還要對所有距離進行排序,這會大大提高算法運行的時間,降低kNN算法的效率,所以一般kNN算法只適用于數據集比較小的情況。

(二)邏輯回歸模型

(1) 邏輯回歸模型原理。邏輯回歸是現今的工業界中一種常見的分類模型,對于大多數的問題都夠取得相當不錯的結果。邏輯回歸的基本原理是使用邏輯回歸函數來作為我們的預測函數,去預測在給定特征下,樣本屬于每個類別的概率。在訓練階段,通過梯度下降算法,不斷的降低交叉熵代價函數,提高在訓練集上的準確率。同時,我們加入了L1正則化,可以避免模型陷入過擬合。

(2)結果分析。通過在訓練的過程中加入的L1正則化項,我們的模型基本沒有發生過擬合,在訓練集上的準確率達到了79.8%,在測試集上達到了81.7%的正確率,取得了良好的性能。邏輯回歸的優點是在于簡單,訓練速度相對于KNN模型快很多。但是其一般更適合用于線性可分的問題當中,而對于一些線性不可分的問題中,采用更復雜的非線性模型可能會取得更好的效果。

(三)SVM模型

(1) SVM模型原理。支持向量機(support vector machine,SVM),是機器學習分類算法中一種綜合性能十分優秀的模型。其不僅能處理線性可分的問題,引入的核函數,還能夠處理線性不可分的問題。大大提高了模型的泛化能力。近年來,由于其性能優異,被廣泛的運用在各種分類問題中。SVM可以理解為是邏輯回歸的改進,對于邏輯回歸模型來講,由于存在無數個可能的解,解不唯一。即存在無數個超平面將數據分割開來,因此算法得到的解可能不一定是最優的。而SVM算法能從這無數個超平面中,選取一個最大間隔的超平面,使模型的泛化能力更強。SVM主要適用于兩種情況。第一類是線性可分數據,第二類是線性不可分數據。對于線性可分數據,采用了核技巧,將數據從低維空間映射到高維空間,再通過松弛變量等技術使數據變的線性可分。

(2) SVM模型的核函數。對于線性可分的數據,普通的SVM可以取得很好的效果。但在現實世界里,存在著很多非線性可分的數據。這個時候,普通的SVM就不太適用。但是可以通過一定的核技巧,將數據從低維空間映射到高維度空間。此時,線性不可分數據就可能變成線性可分數據,核函數用來計算兩個低維空間的向量在高維空間的內積,只要滿足Mercer 條件的函數,都可以作為核函數。常見的核函數有線性核函數,高斯核函數,多項式核函數等。

(3) 結果分析。當訓練集數目比較小時,SVM算法一般能夠取得很好的效果。但是當訓練集數目比較多時,SVM比較容易陷入過擬合,所以需要采用一定的正則化措施來緩解過擬合。因此我們使用了sklearn中帶有核函數的SVM,在包含有600個樣本的訓練集上經過一段時間的訓練后,最終得到的支持向量個數為298個。可以看到大概有50%的訓練樣本為支持向量。我們采用了不同的核函數來檢驗模型的效果,實驗結果表明,不同的核函數在該問題上的差異性不顯著。最終我們采用了帶有高斯核函數的SVM,在訓練集上的正確率為81.8%,在測試集中進行測試時,得到了83.5%的正確率。從訓練集和測試集上的正確率來看,模型基本上沒有發生過擬合。SVM也是在包含上述一系列的分類模型中,所達到的正確率比較高的模型,因此可見,SVM模型是效果非常好的一個分類模型。

(四)神經網絡模型

(1)神經網絡模型原理。神經網絡是基于生物學中神經網絡的基本原理,對人類大腦工作過程的一個簡單的模擬。它能夠通過一定的學習算法,學到一個非常復雜的非線性模型。當數據量比較大時,具有十分強大的泛化能力。神經網絡通過將多個神經元通過一定的聯結方式連接在一起,構成一個運算模型。每個神經元節點的輸入是上一層神經元輸入的線性組合,然后加上激活函數后,作為該個神經元的輸出。常用的激活函數有sigmoid,tanh,Relu等。每兩個神經元之間,具有一個權重值w。神經網絡就是通過激活函數,權重,聯結方式來模擬人類大腦的學習記憶功能。神經網絡在工作時,首先通過前向傳播計算代價函數值,然后通過反向傳播算法計算代價函數的梯度值,最后通過一定的優化算法,更新神經網絡的每一層的權重矩陣W。

在我們的泰坦尼克號乘客遇難問題中,每個乘客在經過預處理后,有14個特征,所以我們的神經網絡的輸入層一共含有14個神經元,第二層網絡具有32個神經元,第三層網絡具有64個神經元,輸出層含有一個神經元。在這個問題上,我們建立了一個具有多層感知機的神經網絡來進行預測,并且添加了相應的正則化項來防止模型的過擬合。

(2) 結果分析。我們通過構建了一個三層的感知機神經網絡,對600個訓練集數據進行訓練,最終在訓練集上取得了85.8%的正確率,在測試集上取得了83.5%的正確率,基本和SVM得到的結果不相上下。實質上,神經網絡更適合處理特征數目很多,訓練集數目很大的情況,而在泰坦尼克號這個問題上,由于我們只有幾百個訓練樣本,每個樣本只有十幾個特征。因此,雖然結果表現不錯,但是沒有真正體現出神經網絡強大的泛化能力,沒有體現出多層神經網絡的主要優勢。

三、結語

本項目通過具體的實例“泰坦尼克號乘客遇難預測分析”,對該問題分別采用了kNN模型,邏輯回歸模型,SVM模型以及神經網絡模型。在該問題的同一測試集上,最優模型分別取得了79%,81.7%,83.5%,83.5的正確率。比較了機器學習中不同的分類模型在該問題上的優缺點。通過對該問題的研究,掌握了不同分類模型的差異性。

參考文獻

[1] 楊麗華,戴齊,郭艷軍.KNN文本分類算法研究[J].微計算機信息,2006,22(21):269-270.

[2] 范玉妹,郭春靜.支持向量機算法的研究及其實現[J].河北工程大學學報(自然科學版),2010,27(04):106-112.

主站蜘蛛池模板: 国产小视频免费| 波多野结衣在线一区二区| 国产草草影院18成年视频| 久久精品aⅴ无码中文字幕| 国产人碰人摸人爱免费视频| 国产精品片在线观看手机版| 国产欧美日韩va另类在线播放| 香蕉久人久人青草青草| 色综合天天娱乐综合网| 日韩毛片基地| 91国内视频在线观看| 婷婷综合在线观看丁香| 国产黄视频网站| 婷婷色丁香综合激情| 亚洲国产综合自在线另类| 九九这里只有精品视频| 亚洲一区二区三区香蕉| 欧美a在线视频| 中文字幕日韩欧美| 在线观看热码亚洲av每日更新| 国产95在线 | 香蕉国产精品视频| 国产一区二区色淫影院| 欧美午夜在线播放| 在线a网站| 国产网友愉拍精品视频| 久久综合伊人77777| 久久永久视频| a级高清毛片| 久久国产高清视频| 成人免费午间影院在线观看| 亚洲色欲色欲www在线观看| 成人国产精品一级毛片天堂| 国产精品区视频中文字幕 | 黄色网页在线观看| 一级毛片a女人刺激视频免费| 国产综合色在线视频播放线视| 欧美亚洲日韩不卡在线在线观看| 又粗又大又爽又紧免费视频| 欧洲精品视频在线观看| 国产在线视频导航| 91精品福利自产拍在线观看| 丝袜久久剧情精品国产| 人妻无码AⅤ中文字| 色丁丁毛片在线观看| 亚洲欧洲AV一区二区三区| 亚洲愉拍一区二区精品| 亚洲黄色成人| www.99精品视频在线播放| 免费一级全黄少妇性色生活片| 88av在线| 午夜福利亚洲精品| 国产亚洲精品自在久久不卡 | 爆乳熟妇一区二区三区| 97国产在线播放| 四虎免费视频网站| 午夜日本永久乱码免费播放片| 四虎影视库国产精品一区| 精品视频一区在线观看| 精品国产电影久久九九| 啊嗯不日本网站| 精品亚洲欧美中文字幕在线看| 亚洲精品午夜天堂网页| 97视频精品全国免费观看| 亚洲美女一级毛片| 亚洲日韩精品无码专区97| 免费高清a毛片| 亚洲国产日韩欧美在线| 亚洲综合片| 国产精品欧美激情| 亚洲bt欧美bt精品| 国产成人精品综合| 夜夜操国产| 成人久久18免费网站| 91伊人国产| 99久久国产自偷自偷免费一区| 免费人成网站在线观看欧美| 欧美激情综合一区二区| 91无码人妻精品一区| 国产精品无码AV片在线观看播放| 国产精品一区二区在线播放| 久久久久久久久18禁秘|