999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于泰坦尼克之災問題的機器學習傳統算法和神經網絡算法對比分析

2019-02-14 08:51:22王可晴
電子制作 2019年2期
關鍵詞:模型

王可晴

(浙江省蕭山中學,浙江杭州,310000)

1 概述

泰坦尼克號的沉沒是歷史上具有廣泛影響的沉船事件之一,1912年4月15日,在首次航行期間,泰坦尼克號撞上冰山后沉沒,2224名乘客和機組人員中有1502人遇難。這場轟動的悲劇震撼了國際社會。雖然幸存下來的人存在一些運氣方面的因素,但有一些人比其他人更有可能生存,比如婦女,兒童和上層階級。我們的目標便是根據每位乘客的性別,年齡,艙位等相關特征,來預測該乘客是否會在該次乘船事故中存活下來。

■1.1 訓練集以及測試集

我們總共有900名左右的乘客數據,每位乘客包括10個 特 征, 包 括 Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarke。 我 們 將 拿 出600名乘客數據作為我們的訓練集,剩下的數據作為我們的測試集,用來檢驗我們構建模型的性能好壞。

■1.2 數據預處理

通過對數據集的觀察發現,有些乘客的部分屬性存在著一定的缺失值NaN,比如Age,Fare等相關屬性。我們需要對這些數據進行填充,對于連續型屬性數據缺失的情況,我們通過在未缺失數據上構建一個隨機森林回歸模型,來對缺失的數據屬性進行擬合,然后填充該部分缺失的數據。對于離散型數據缺失的情況,我們將刪除該乘客對應的記錄。

對于Ticket,Cabin,Embarke等類目型變量,我們將把它們轉化為one-hot獨熱編碼。采用one-hot編碼后,一方面可以使樣本之間能夠直接進行距離的計算,另一方面能夠擴充樣本特征的數目。在一定的程度上,提高模型的性能。

經過預處理后,我們的待訓練樣本,從原始的10個特征增加到15個特征。增加的特征主要是由于類目型特征經過了one-hot編碼的轉換。15個特征中不包括乘客姓名特征Name,因為通過對數據分析,乘客的姓名應該和該乘客是否能夠存活下來無關。

2 分類模型構建

■2.1 kNN模型

2.1.1 kNN模型原理

KNN(K Nearest Neighbor)算法,又稱之為K領近算法,是數據挖掘與機器學習中最簡單的分類方法之一。K領近指的是待分類樣本點最近的K個鄰居。kNN 模型最初由Cover和Hart于1968 年提出, 是一個在理論上比較成熟的方法[1]。

KNN模型的主要思想是,將訓練集繪制在特征空間中,然后將待分類樣本,通過特定的距離計算公式,得到該樣本在該特征空間最近的K個鄰居,然后采取投票原則,將K個鄰居中得票最多的類別作為待分類樣本的類別。

在我們要解決的實例問題中,我們的訓練樣本包括600個乘客的特征數據,將它們繪制在特征空間里。在測試集的300個數據中,我們計算每一個乘客與訓練集中600個乘客的距離遠近,挑選出最近的k個距離,然后采取投票原則,k個樣本中所屬類別最多的類別就是測試樣本的類別。

2.1.2 結果分析

我們采用了sklearn機器學習庫中kNN模型算法,對我們的數據進行了訓練。并且嘗試了不同的k取值,在該問題上的正確率。我們分別測試了當k 取5,10,15,20時模型的結果。測試的結果顯示,在上述4種k的取值下,在測試集上的正確率分別為79.3%,81.7%,83.1%,82.4%。由此可見,在泰坦尼克號這個問題上經過驗證,當k取值在15左右時,模型的結果較好。

關于kNN模型中k值的不同選擇:當k值較小時,預測結果對近鄰的實例點非常敏感,容易發生過擬合;如果k值過大模型會傾向大類,容易欠擬合;通常k是不大于20的整數。kNN算法的優點是精度高,對異常值不敏感。但是缺點是對k的取值相對比較敏感,不同的k取值對模型產生的結果可能差異性非常的明顯。

另一方面,由于我們的訓練集的大小僅僅為600個樣本,而對于其他的一些機器學習應用,我們可能有上百萬訓練樣本,這個時候kNN算法的局限性就暴露出來了,每預測一個新的樣本的類別,我們都需要計算該樣本與上百萬樣本的距離,會造成算法運行速度非常緩慢,效率低下,這時候需要采用其他速度更快的分類模型來解決該問題。

■2.2 邏輯回歸模型

2.2.1 邏輯回歸模型原理

邏輯回歸是機器學習中一種常見的分類模型,其對于簡單的分類問題具有良好的效果。其基本原理是采用sigmoid函數作為我們的預測函數,來預測條件概率P(y = 1 | x)。在我們的問題中,sigmoid函數的輸出就是乘客存活下來的概率,范圍在[0,1]之間。模型在訓練的過程中,通過不斷最小化極大似然代價函數,來提高模型預測的準確率。在訓練的過程中,加入正則化項,可在一定程度上減輕模型過擬合。

2.2.2 邏輯回歸的假設函數

假設函數采用sigmoid函數,函數形式為如1式,取值范圍為[0,1]。代表了每位乘客存活下來的概率。其中z =θTxX,θ是模型需要學習的參數,X在該問題中對應每個乘客的特征向量。即z是每位乘客所有特征的線性組合。

2.2.3 邏輯回歸的代價函數

代價函數是我們優化的目標函數,用來衡量模型在訓練集上的擬合程度,在訓練集上擬合的越好,代價函數就越小,在訓練集上擬合的不好,那么代價函數就越大。所謂的學習過程,實質是就是不斷的通過更新模型的參數值,來降低代價函數值的過程。

常見的代價函數有MSE代價,交叉熵代價。其中前者常常應用于回歸問題中,交叉熵代價常用于分類問題中。對于我們的問題而言,由于是一個二分類問題,所以采用交叉熵代價函數。交叉熵代價函數的表達形式如2式。其中g(θ)代表了邏輯回歸函數的輸出,log代表以10為底的對數,yi代表樣本的真實分布。

2.2.4 邏輯回歸的潛在問題

理論上來說,算法在經過多次迭代的過程中。代價函數的值可以不斷的降低,直到達到一個比較小的值后,基本保持不變。但是這樣存在的一個問題是,模型會過度的擬合訓練集的數據,從而陷入過擬合的風險。一旦模型陷入了過擬合,即使模型在訓練集上的準確率很高,但是模型沒有足夠的泛化能力,將模型推廣到未知的數據[2],造成在測試集上的效果不好。

2.2.5 邏輯回歸的正則化

為了解決上述提到的模型可能陷入過擬合的問題,需要采取一定的措施。常見的緩解過擬合的措施,可以增加訓練集的數目,或者采取正則化手段。由于我們不太容易去增加訓練集的數目,因此可以采用正則化手段。常見的正則化有L1,L2正則化。在我們的問題中采用L1正則化,加入正則化項的代價函數如3式,其中C為正則化參數。

2.2.6 結果分析通過在訓練的過程中加入的L1正則化項,我們的模型基本沒有發生過擬合,在訓練集上的準確率達到了79.8%,在測試集上達到了81.7%的正確率,取得了良好的性能。邏輯回歸的優點是在于簡單,訓練速度相對于KNN模型快很多。但是其一般更適合用于線性可分的問題當中,而對于一些線性不可分的問題中,采用更復雜的非線性模型可能會取得更好的效果。

■2.3 SVM模型

2.3.1 SVM模型原理

支持向量機(support vector machine,SVM),它最初于20世紀90年代由Vapnik提出,是機器學習中一種十分強大的分類模型。與數據挖掘中的其他分類模型相比,具有較好的泛化能力。而且針對非線性可分數據,擁有一套先進的理論方法來處理。SVM(Support Vector Machine)指的是支持向量機,是常見的一種判別方法。在邏輯回歸建立超平面的基礎上尋找唯一且最合理的分界。對于線性可分情況,具體方法是尋找離各鄰近點距離之和最大的線來進行分隔;對于線性不可分情況,則需要核函數的幫助。由于其優秀的分類性能,在機器學習領域成為了研究的熱點。在學術界,不斷的有新的理論被提出。近年來,與SVM相關的方法,在人臉識別,手寫識別,文本分類中得到了廣泛的應用,并且取得了很好的效果[2]。

SVM可以理解為是邏輯回歸的改進,對于邏輯回歸模型來講,由于存在無數個可能的解,解不唯一。即存在無數個超平面將數據分割開來,因此算法得到的解可能不一定是最優的。而SVM算法能從這無數個超平面中,選取一個最大間隔的超平面,使模型的泛化能力更強。

SVM主要適用于兩種情況。第一類是線性可分數據,第二類是線性不可分數據。對于線性可分數據,采用了核技巧,將數據從低維空間映射到高維空間,再通過松弛變量等技術使數據變的線性可分。

2.3.2 SVM模型的核函數

對于線性可分的數據,普通的SVM可以取得很好的效果。但在現實世界里,存在著很多非線性可分的數據。這個時候,普通的SVM就不太適用。核函數本質上是一種建立從一維到多維空間的映射。當線性不可分的情況通過核函數映射到多維,就可能成為線性可分,即可以通過方法一加以分隔。此時,線性不可分數據就可能變成線性可分數據,核函數用來計算兩個低維空間的向量在高維空間的內積,只要滿足Mercer 條件的函數,都可以作為核函數。常見的核函數有線性核函數,高斯核函數,多項式核函數等[3]。

2.3.3 結果分析

當訓練集數目比較小時,SVM算法一般能夠取得很好的效果。但是當訓練集數目比較多時,SVM比較容易陷入過擬合,所以需要采用一定的正則化措施來緩解過擬合。

因此我們使用了sklearn中帶有核函數的SVM,在包含有600個樣本的訓練集上經過一段時間的訓練后,最終得到的支持向量個數為298個。可以看到大概有50%的訓練樣本為支持向量。

我們采用了不同的核函數來檢驗模型的效果,實驗結果表明,不同的核函數在該問題上的差異性不顯著。最終我們采用了帶有高斯核函數的SVM,在訓練集上的正確率為81.8%,在測試集中進行測試時,得到了83.5%的正確率。從訓練集和測試集上的正確率來看,模型基本上沒有發生過擬合。SVM也是在包含上述一系列的分類模型中,所達到的正確率比較高的模型,因此可見,SVM模型是效果非常好的一個分類模型。

■2.4 神經網絡模型

2.4.1 神經網絡模型原理

神經網絡是基于生物學中神經網絡的基本原理,對人類大腦工作過程的一個簡單的模擬。它能夠通過一定的學習算法,學到一個非常復雜的非線性模型。當數據量比較大時,具有十分強大的泛化能力。

神經網絡通過將多個神經元通過一定的聯結方式連接在一起,構成一個運算模型。每個神經元節點的輸入是上一層神經元輸入的線性組合,然后加上激活函數后,作為該個神經元的輸出。常用的激活函數有sigmoid,tanh,Relu等。每兩個神經元之間,具有一個權重值w。神經網絡就是通過激活函數,權重,聯結方式來模擬人類大腦的學習記憶功能。

神經網絡在工作時,首先通過前向傳播計算代價函數值,然后通過反向傳播算法計算代價函數的梯度值,最后通過一定的優化算法,更新神經網絡的每一層的權重矩陣W。

在我們的泰坦尼克號乘客遇難問題中,每個乘客在經過預處理后,有14個特征,所以我們的神經網絡的輸入層一共含有14個神經元,第二層網絡具有32個神經元,第三層網絡具有64個神經元,輸出層含有一個神經元。在這個問題上,我們建立了一個具有多層感知機的神經網絡來進行預測,并且添加了相應的正則化項來防止模型的過擬合[4]。

2.4.2 神經網絡模型dropout正則化

dropout(隨機失活神經元)是在訓練神經網絡過程中,避免模型過擬合常用的技巧。在標準的神經網絡中,由于層次可能較深,神經元的個數可能較多。因此模型很容易陷入過擬合。如果引入了dropout技術,在每輪訓練的過程中隨機斷開部分神經元,只更新部分神經網絡權重值。可以在一定程度上,緩解神經網絡訓練過程中模型的過擬合問題。從另一個角度講,由于每次只訓練部分神經元,也可以提高訓練的速度,加速訓練的過程。

2.4.3 結果分析

我們通過構建了一個三層的感知機神經網絡,對600個訓練集數據進行訓練,最終在訓練集上取得了85.8%的正確率,在測試集上取得了83.5%的正確率,基本和SVM得到的結果不相上下。實質上,神經網絡更適合處理特征數目很多,訓練集數目很大的情況,而在泰坦尼克號這個問題上,由于我們只有幾百個訓練樣本,每個樣本只有十幾個特征。因此,雖然結果表現不錯,但是沒有真正體現出神經網絡強大的泛化能力,沒有體現出多層神經網絡的主要優勢。

3 結語

本項目通過Kaggle上具體的實例“泰坦尼克號乘客遇難預測分析”,對該問題分別采用了KNN模型,邏輯回歸模型,SVM模型以及神經網絡模型。在該問題的同一測試集上,最優模型分別取得了79%,81.7%,83.5%,83.5的正確率。比較了機器學習中不同的分類模型在該問題上的優缺點。通過對該問題的研究,掌握了不同分類模型的差異性。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 91网在线| 国产精品无码AV中文| 国产在线观看成人91| 日韩亚洲高清一区二区| 国内精品91| 日日摸夜夜爽无码| www精品久久| 亚洲中文精品久久久久久不卡| 综合色88| 亚洲国产精品日韩欧美一区| 国产欧美在线| 国产精品欧美在线观看| 亚洲三级色| 欧美国产成人在线| 亚洲第一极品精品无码| 欧美中出一区二区| 日本欧美成人免费| 亚洲三级影院| 国产女人18水真多毛片18精品| 毛片手机在线看| 久久精品女人天堂aaa| 日韩大片免费观看视频播放| 国产在线自揄拍揄视频网站| 日韩高清中文字幕| 日本国产一区在线观看| 欧美一级夜夜爽| 国产免费人成视频网| 中文字幕 91| 无码中文AⅤ在线观看| 91在线激情在线观看| 东京热一区二区三区无码视频| 亚洲欧美日韩成人在线| 一级毛片免费观看不卡视频| 欧美a网站| 日韩美毛片| 欧美精品v欧洲精品| 国产成人综合亚洲网址| 激情综合激情| 国产精品毛片一区| 91在线中文| 中文字幕日韩欧美| 免费A级毛片无码免费视频| 午夜无码一区二区三区| 亚洲欧美一级一级a| 日韩欧美成人高清在线观看| 欧美伦理一区| 国产成人亚洲无吗淙合青草| 国产午夜不卡| 国产欧美精品专区一区二区| 国产熟睡乱子伦视频网站| 精品国产自在在线在线观看| 免费xxxxx在线观看网站| 国产成人91精品免费网址在线| 人妻21p大胆| 九色在线观看视频| 久久精品人妻中文系列| 中文字幕无线码一区| 成人国产精品视频频| 国产交换配偶在线视频| 久久77777| 中文字幕 日韩 欧美| 青青草国产精品久久久久| 一本一道波多野结衣一区二区 | 热99精品视频| AV老司机AV天堂| 在线毛片网站| 成人精品亚洲| 99热这里只有精品免费国产| 四虎国产在线观看| 国产麻豆另类AV| 国产乱人免费视频| 日韩欧美中文| 欧美亚洲激情| 国产精品99久久久久久董美香| 国产精品永久在线| 欧美性天天| 国产精品美女自慰喷水| 免费观看三级毛片| 国产青青操| 天天综合天天综合| 亚洲精品大秀视频| 91麻豆精品国产91久久久久|