999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于KNN與邏輯回歸對海難乘客生還率的預測探討

2019-07-03 04:10:52陳宇皓
現代商貿工業 2019年16期

陳宇皓

摘要:近日,馬航MH370搜救小組正式解散的新聞引起了軒然大波,很多人感嘆現在交通救援的發展遠遠不及交通運輸的狀況是非常不合理的。在互聯網時代下大數據興起人工智能急速發展的浪潮里,通過對大數據的分析更好的預測不同類型乘客的生還率以協助實施救援,成為非常有效的方法。在對數據處理的各種算法進行學習的時候運用創新思維,以泰坦尼克號的有效數據為例,選擇KNN(k-NearestNeighbor)模型和邏輯回歸(Logistic Regression)模型,結合數據預處理、可視化分析等方法,對船只失事時乘客的生還率進行預測,同時對比兩種模型的優劣,希望對上述方面有實質性的意義。

關鍵詞:KNN;邏輯回歸;海上災難

中圖分類號:F24文獻標識碼:Adoi:10.19311/j.cnki.1672-3198.2019.16.038

1引言

1.1選題背景

海上搜救是指政府、專業部門及志愿者針對海上事故等做出的搜尋、救援等工作,海上搜救僅靠個人的力量是遠遠不夠的,需要全方位的技術支持。提前求援一分鐘可能就能夠少一分危險,挽救更多人的、奄奄一息的生命。海上搜救不可知因素較多和經驗也比較少,因此其難度非常大,政府也一直致力于探索海上搜救如何能及時判斷不同類型乘客的存活率,從而第一時間找到最適合救援方案。漫無目的的搜救效率較低,準確的根據乘客特征預測其生還的概率可以提高搜救的效率。

本文以泰坦尼克號乘員的數據為例,結合KNN與邏輯回歸兩種模型進行探索,希望可以給海上搜救中對遇難者生還概率的判定一定的輔助作用。

1.2研究綜述

海上搜救的不可知因素非常多,其難度非常大,并需要較強的技術系統等支持,因此,對海難搜救效率的提升、快速準確的判斷乘客生還率非常重要。海難時的天氣、地理位置等影響因素都會導致簡單的模型無法準確預測,因此需要構建更復雜更嚴格的模型來進行相關的預測。研究界目前對海上遇難情況中不同類型的乘客的生還率預測有多種方法,如SVM支持向量機模型、邏輯回歸模型、卷積神經網絡、前饋神經網絡等等模型,接下來對本文所用的模型等進行簡單的介紹。

1.3本文簡介

本文所獲取的泰坦尼克號船只相關數據集來自AI領域非常知名的比賽網站Kaggle,通過對數據的可視化分析等找出影響乘客生還的主要因素,對比KNN與邏輯回歸兩個模型的優勢與劣勢,結合集成學習的方法進行實驗。試驗的過程中通過多次觀察發現不同的數據預處理對實驗結果的影響較大,因此,本文首先針對數據預處理進行了比較詳細的介紹。實驗過程中,使用交叉驗證的方法避免過擬合現象的發生,并通過集成學習的方法進一步提高精度。

2數據預處理

2.1介紹數據與數據預處理

數據(data)是對客觀事物的性質、狀態及相互關系等進行觀察并邏輯歸納的一種物理符號,是一個抽象的概念。數據“屬性”是指數據所具有的各種維度的性質,維度過大的數據中常包含一些與預測結果無關的屬性,此時便需要通過各種各樣的數據降維處理方法進行降維篩選。數據屬性也和其他屬性一樣有其對應的描述單位,我們平時所說的電腦容量,手機內存等等都是如此。

實驗中的數據通常來自現實生活,所以得到的數據往往比較雜亂,雜亂的數據并不是信息,只有加工后且有一定意義的數據才可以成為信息。大量的原始數據中有缺失、冗余、錯亂等瑕疵數據,數據缺失是指某些重要的數據不完整造成對整體結果的影響,數據冗余是指數據中存在不相關的干擾因素,需要刪除。因此,在實驗代入算法之前,需要對數據進行一些預處理。

2.2數據預處理的方式

數據預處理形式包括多項,常見的例如:數據清理,數據集成與變換,數據歸約,數據離散化及概念分層等,除了這些常規的處理,還有其他可能數據預處理的形式,如數據的壓縮存儲,包括有損壓縮與無損壓縮,基于項目的實際意義對數據內容篩選等。本文僅詳細介紹數據清理,數據集成與數據變換。

2.2.1數據清理

實驗中的數據通常來自現實生活的積累,所以得到的數據往往比較雜亂,無法直接帶入算法計算,數據清理便是為了解決這個問題。數據的清理包括識別并消除“噪音”,填充遺漏的值,將數據中的不一致更改為一致等過程,在實驗中可根據情況選擇其中幾個過程。

計算機無法處理為NULL的遺漏值,因此處理遺漏值常采用的措施有兩類,忽略和補全。忽略即當此元組缺失屬性較多時忽略整個元組,或此屬性樣本缺失過多時可忽略此屬性;補全即通過某種方法將此遺漏補全,常見的方法是根據現有數據的情況用均值等填充某個遺漏值。

“噪音”的本意是指音量過強而危害人體健康,或引起人煩躁的聲音,對于數據而言,“噪音”是指獲取數據時出現的隨機錯誤或偏差,例如測量偏差等。去除“噪音”有以下方法:數據分箱是指將數據按照一定規則分布到一些“箱”中,用周圍相鄰的值來平滑箱中的值。數值聚類是根據規則將近似的值聚集成某種有中心的形狀的“類”,落在這個“類”集合之外的值通常可被視為“噪音”?;貧w分析是現在常用的一種方法,回歸分析的原理是擬合出一個可以表達數據之間關系的函數,然后找出離群點。例如最簡單的線性回歸,即擬合出能表達兩個變量之間關系的直線,通過一個變量預測另一個變量(y=kx+b),如圖1所示,離直線過遠的點即為離群點。

2.2.2數據集成

數據集成是指根據數據相關性將不同數據統一起來。

顯然,數據集成中最核心的概念是數據的相關性。數據相關性分為強正(負)相關、弱正(負)相關、非線性相關和不相關。其中,強正相關是指同進退,共同增加或共同減少,強負相關是指你進我退,強正(負)相關均互相變化影響明顯,說明A是B的主要影響因素;弱正(負)相關與強正(負)相關類似,但是指變化不明顯,即A是B的影響因素,但不是唯一因素;非線性相關是指A是B只有一定的關系,并不是重要的影響因素;不相關顧名思義即兩者無關。

2.2.3數據變換

顧名思義數據變換即在不失真的情況下對數據的格式、粒度等進行一定的調整。常見的數據變換有數據規范化,數據泛化,屬性構造等。

數據規范化是指為了計算方便、保持不同類型屬性權重一致等目的將數據映射到更合理的大小范圍內,需保持大小關系不變。常見的規范化有最小-最大規范化等。

數據泛化是將數據集從較低的概念層抽象到較高的概念層的過程。例如,在本項目中,我們需要乘客的年齡,卻不需要非常詳細的出生年月日,這時可將原有的“出生年月日”屬性抽象為“年齡”屬性,甚至“年齡層”屬性。泛化需要遵循一定的規則,即當屬性存在大量不同值,且屬性值無法概念分層時,此屬性刪除,例如“姓名”;當屬性存在大量不同值,且屬性值可以概念分層,則將屬性值概念分層,例如“出生日期”;當屬性存在少量不同值時,可保留原屬性,例如“船艙登記”屬性;當屬性不存在不同值時,此屬性對預測結果無意義,可刪除。

3模型引入

3.1K近鄰(KNN)模型

鄰近算法,或者說K值最近鄰分類算法(KNN,k-Nearest Neighbor)是數據挖掘分類技術中最常見的算法之一。其實質是每個樣本都可用它最接近的K鄰居來代表,這倒也應了那句古話,“物以類聚、人以群分”,其實在數學上的許多方法就是運用了類似思想。由于KNN方法的核心思想主要依靠需預測值周圍有限的鄰近的樣本,而不是靠判別需預測值類域的方法來確定所屬類別,因此,對于類域的重疊較多的樣本集來說,KNN方法更為適合。

K值最近鄰分類算法(KNN,k-Nearest Neighbor)的核心思想是在特征空間中,如果一個樣本在的K個距離最近的樣本中的大部分樣本屬于某個類別,則該樣本也屬于此類別。根據此思想我們可以知道,“距離”是KNN中最重要的概念。常見的距離計算方式有歐氏距離、曼哈頓距離等,歐氏距離在二維空間中即為高中所學的兩點間距離公式,三維空間中加上z軸距離差進行計算。

二維空間公式為:

三維空間公式為:

其中ρ為點x2,y2 與x1,y1 之間的歐氏距離,X 為點x2,y2到原點的歐式距離。

我們要解決的問題中,訓練樣本包括600個乘客的特征數據。對于測試集的300個數據,計算每一個乘客與訓練集中600個乘客的距離遠近,從中選出距離最近的K個樣本,K個樣本中所屬類別最多的類別即測試樣本的類別。

在實驗中,采用sklearn機器學習庫中KNN模型算法,嘗試了不同的k取值,觀察其在該問題上的正確率。測試的結果顯示,當k=16時,測試集的正確率最高,在87.8%左右,還存在優化的空間。本實驗的訓練集僅為600個樣本,當上百萬訓練樣本時,KNN算法的局限性就較明顯,每預測一個新的樣本,都需要計算該樣本與上百萬樣本的距離,運行速度緩慢且效率低下,這時需要選用其他更合適的分類模型。

3.2邏輯回歸(Logistic Regression)模型

3.2.1邏輯回歸的思想來源

在高中數學中,我們都學過給定兩個點的坐標,求得兩點之間直線的坐標,“回歸分析”則是用直線來擬合多個點的大概走勢。在一個坐標系中,分布著許許多多的點,我們用一條直線去盡可能的串聯起所有點,再運用此函數圖像對需要預測的數據進行預測。

在了解邏輯回歸之前,我們先談談什么是概率。概率,又稱或然率、機率或可能性,是對隨機事件發生可能性的一種度量,通常用一個在0到1之間的實數表示事件發生可能性的大小。概率,簡而言之,就是描述一件事情發生的可能性。比如隨機擲骰子,那么得到任意一個點數的概率是1/6。一件事情的概率,可能性的取值在[0,1]之間。邏輯回歸(Logistic Regression)是機器學習中一個經典的分類模型,為什么之前提到概率知識呢?因為邏輯回歸模型就是預測一件事情發生的概率可能性。比如預測乘客存活的概率是08,0.7等等。

舉個例子,對于一個分類問題,如果想實現我們的分類要求,只需要在特征空間里找到一個“超平面”,即可將兩種類別給區分開來。這個超平面也稱之為決策邊界。比如考試成績,60分就是一個臨界值,可以看作為一個決策邊界,所有大于60分的判為及格,所有小于60分的判為不及格。邏輯回歸,就是幫助我們找到這樣一條“超平面”,能夠將不同的類型正確的劃分開來。如把存活的乘客和未存活的乘客劃分開。

邏輯回歸基本原理是采用sigmoid函數作為預測函數,來預測條件概率。在本實驗中,sigmoid函數的輸出就是乘客存活下來的概率,在訓練模型的過程中,通過最小化極大似然代價函數,來不斷的提高準確率。

3.2.2邏輯回歸的假設函數

假設函數(Hypothesis Representation)的構造方法以多變量線性回歸問題為基礎,其計算方法為綜合考慮多個變量得到其線性組合。而對于二分類問題,假設函數的取值應該滿足 0 ≤ h(θ)≤ 1,因此采用非線性函數 Sigmoid 函數(SigmoidFunction)來將任意范圍內的值規范化到 [0,1]區間內。邏輯回歸方法的假設函如下式:

g(z) = 1/(1+e-z)

我們的模型在訓練集上的準確率達到了79.8%,在測試集上達到了81.7%的正確率,取得了良好的性能。邏輯回歸的優點是在于簡單,訓練速度相對于KNN模型快很多。但是其適合用于線性可分的問題當中,而對于一些線性不可分的問題中,采用更復雜的SVM模型可能會取得更好的效果。

3.3集成學習簡介

集成學習被認為是各種各樣的單一學習的有機統一學習模型,從而獲得更準確、穩定和強壯的結果。近年來,各種各樣的集成學習模型相繼被提出并運用于各種類型的大數據運算中。為了進行更加全面更加有效的預測,我們需要把不同方面的單一學習結合起來,全局進行分析問題。在上文我們已經通過KNN算法與回歸模型已經建立起了簡單的單一學習。但為進行更加全面更加有效的預測,我們就需要把從不同方面的來的單一學習結合起來,全局進地分析問題。本項目選擇Bagging策略來進行準確率的提升。

4結語

本文以泰坦尼克號乘員的數據為例,結合KNN與邏輯回歸兩種模型進行探索,對比兩種模型在該問題上的優缺點。

KNN算法的優點是精度高,對異常值不敏感。但是缺點是對k的取值相對比較敏感,不同的k取值對模型產生的結果可能差異性非常的明顯。邏輯回歸的優點是在于簡單,訓練速度相對于KNN模型快很多。但是其一般更適合用于線性可分的問題當中,而對于一些線性不可分的問題中,采用更復雜的非線性模型可能會取得更好的效果。

參考文獻

[1]楊麗華,戴齊,郭艷軍.KNN文本分類算法研究[J].微計算機信息,2006,22(21):269-270.

[2]李卓冉.邏輯回歸方法原理與應用[J].中國戰略新興產業,2017,(28):114-115.

[3]范玉妹,郭春靜.支持向量機算法的研究及其實現[J].河北工程大學學報(自然科學版),2010,27(04):106-112.

主站蜘蛛池模板: 亚洲最新地址| 国产在线观看高清不卡| 91福利片| 99资源在线| 视频国产精品丝袜第一页| 毛片久久网站小视频| 毛片免费视频| 亚洲第一精品福利| 亚洲国产欧美自拍| 色成人亚洲| 波多野结衣在线se| 日韩精品免费一线在线观看| 日韩精品一区二区三区视频免费看| 国产精品大尺度尺度视频| 99色亚洲国产精品11p| 亚洲日本一本dvd高清| 深爱婷婷激情网| 欧美三级不卡在线观看视频| 高清无码手机在线观看| 国产精品 欧美激情 在线播放| 无遮挡国产高潮视频免费观看| 伊在人亞洲香蕉精品區| 尤物国产在线| 88av在线| 色吊丝av中文字幕| 成人国产小视频| 中文字幕免费视频| 国产日韩精品一区在线不卡| 亚洲一区二区三区中文字幕5566| 国产麻豆永久视频| 国产在线91在线电影| 国产资源免费观看| 中国特黄美女一级视频| 国产日本欧美在线观看| 久久人体视频| 午夜国产理论| 国产成人一二三| 国产精品青青| 亚洲婷婷六月| 国产xx在线观看| 日韩欧美中文字幕在线韩免费| 性喷潮久久久久久久久| 亚洲自偷自拍另类小说| 久久 午夜福利 张柏芝| 国产真实乱人视频| 欧美精品高清| 欧美日韩精品一区二区在线线| 国产尤物视频在线| 色婷婷电影网| 国产精品欧美在线观看| 久久久久亚洲Av片无码观看| 一级毛片基地| 日本影院一区| 国产精品区视频中文字幕| 午夜日韩久久影院| 99久久国产精品无码| 91丝袜美腿高跟国产极品老师| 国内精品伊人久久久久7777人| 在线观看欧美精品二区| 在线观看无码a∨| 亚洲精品在线91| 天堂成人在线视频| 国产精品视频观看裸模| 97成人在线观看| 九九久久精品国产av片囯产区| 亚洲免费黄色网| 日韩无码真实干出血视频| 成人日韩视频| 欧美日韩国产在线播放| 一区二区三区在线不卡免费| 免费国产不卡午夜福在线观看| 国产日韩欧美一区二区三区在线| 国产亚洲视频播放9000| 99久久免费精品特色大片| 国内a级毛片| 91在线视频福利| AV网站中文| 国产精品综合色区在线观看| 久久香蕉国产线看观看亚洲片| 久久久久无码精品| 欧美国产精品拍自| 亚洲视频在线网|