999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

預測個人收益數據計算模型研究

2024-07-17 00:00:00賴丹何軍
科技風 2024年19期

摘要:個人的收益情況與未來的發展以及社會的建設都有緊密的聯系。個人收益也是社會各界所關注的熱門話題之一。本文根據數據計算模型對個人收益情況進行預測研究應用,將收集的數據進行數據處理、數據建模和各數據結果分析對比。所運用到數據挖掘的模型主要有KNN模型、決策樹模型、隨機森林模型。在三個模型的對比下,隨機森林模型的預測準確率最好,最終選取隨機森林模型預測個人收益是否超過50k。

關鍵詞:個人收益;KNN模型;決策樹模型;隨機森林模型

DataMiningResearchonPersonIncomePrediction

LaiDan1HeJun2

1.ChengduJinchengCollegeSichuanChengdu610097;

2.ChengduGaoxinChengwaiSeniorHighSchoolSichuanChengdu610095

Abstract:Theincomestatusofindividualsiscloselyrelatedtotheleveloffutureeconomicdevelopmentandsocialconstruction.Atpresent,thestudyofpersonalincomehasalwaysbeenoneofthehotspotsthatpeoplepayattentionto.Thispapermainlystudiestheapplicationofmachinelearninginpersonalincomeprediction,andconductsdataprocessing,datamodeling,andanalysisandcomparisonofvariousdataresultsonthecollecteddata.ThemodelsusedindataminingmainlyincludeKNNmodel,decisiontreemodelandrandomforestmodel.Inthecomparisonofthethreemodels,therandomforestmodelhasthebestpredictionaccuracy.Finally,therandomforestmodelisselectedtopredictwhetherpersonalincomeexceeds50k.

Keywords:personalincome;KNNmodel;decisiontreemodel;randomforestmodel

1研究背景

隨著社會經濟的發展進步,社會關注的熱點逐步轉移到了個人收益水平上來,個人的收益水平直接決定著一個家庭的穩固和社會的進步。個人的收益狀況在目前的技術支持之下也可預測,通過預測我們可以發現并解決目前的個人收益出現逆差的問題,就可以做到在問題出現之前解決問題。筆者先收集個人的基本信息,通過數據挖掘依據計算機不同的計算方法對個人收益情況進行預測。機器學習解決生活中的問題已經不勝枚舉[1]。利用計算機的數據挖掘算法解決社會中的各個領域的數據問題,如經濟、生活和醫學等,處理各個行業的工作推進的難點都可以提供有效的辦法[2]。筆者通過愛數科數據收集網站收集了個人的一些基本數據集,收集了個人的個體受教育程度、年齡、性別、職業、婚姻狀態以及個人收益等。筆者選取了這些數據的一部分進行數據挖掘實驗,具體采用了KNN計算模型、決策樹計算模型、隨機森林計算模型。通過分類別計算預測、比對不同的計算方法以及特征因素對個人收益預測準確性的影響;通過調整其中的重要參數比對,達到各個模型預測準確性的最優值再對比;通過比對結果得到最優的預測模型。

2KNN模型、決策樹模型、隨機森林模型介紹

2.1KNN模型概述

KNN模型的全稱是K近鄰模型,這是一種簡單的預測模型,便于操作,同時也便于移植,但要得到實驗的高精度就要滿足多種限制條件。首先在計算數據時,會要求數據的范圍不能太大,數據范圍稍小一些,通過模型計算結果就會很精確;反之,范圍過大會導致預測結果偏差較大。其次是在進行數據計算時,KNN模型的計算核心是計算度量之間的距離,計算距離的前提就是要選取目標點,也就是要選取距離目標最近的K值,然后再根據分類決策的原則,決定目標點的類比。最后一點,也是最關鍵的一點,通過K值的確定來決定最后的預測準確度,而K值的選取是完全主觀的,也是決定性的。當K值的選擇過大時,預測的誤差會增大,模型就會變得過于泛化,無法預測訓練和測試集中的數據點;反之,當K值的選擇過小時,近似誤差就會偏大,模型會變得過于具體,不能很好地泛化。

2.2決策樹模型概述

決策樹模型是一種簡單的非參數分類器。它不僅不需要對數據有任何的先驗假設,而且在計算數據速度方面較快,其結果容易解釋。在復雜的決策情況中,往往需要多層次或者多階段的決策。當一個階段的決策完成后,又會有新的不同的自然情況發生,每種自然狀態下,都又有新的策略需要選擇,選擇后產生的不同的結果又會有更新的自然狀態,這些被稱為序列決策或者多級決策。這樣就可以由一個決策圖和可能的結果組成。它參照了樹的形態來建立可視化圖形結構,是一種類似于流程圖的結構。其中,每一個內部節點都代表著一個特征變量的測試,而每一個分支代表著測試的結果,每一個葉節點代表著一個類的標簽。其結點的類型有三種:決策節點、機會節點和結束節點。在決策樹模型中有三種算法分別為ID3算法、C4.5算法、CART算法。ID3算法是計算訓練集所有樣本的信息熵和每一個特征分類后的信息增益來選擇信息增益最大的特征進行分類。C4.5算法則是在ID3算法的基礎上采用信息增益率作為特征選擇,解決了ID3算法無法處理連續變量的問題。CART算法不再通過信息熵的方式來選擇特征,而是采用了基尼系數,通過衡量信息量對特征進行選擇。由于基尼系數沒有對數計算,可以大幅度地減少開銷,相對于ID3算法和C4.5算法,最大的優勢是可以處理回歸問題。在決策樹模型中max_depth(決策樹最大參數)是使模型達到最優的參數之一,當模型的樣本量過多、特征特多的情況下,使用max_depth可以解決過擬合的問題。

2.3隨機森林概述

隨機森林算法的本質也是決策樹模型,與決策樹算法的本質相同,但計算方式卻又有很大的區別。隨機森林算法包含了多個決策樹,同時通過隨機森林算法所輸出的類比由眾數來確定。隨機森林算法結合了隨機種子的空間算法和集成學習算法,得到了一個在不同的數據環境下優于決策樹模型的算法。通過新的計算方法,解決了決策樹模型中的過擬合問題,同時數據中的噪聲以及異常值對于本算法的準確預測都不會產生影響,而且在計算的最后也不需要進行最后的分類驗算,大大提高了計算的效率。隨機森林算法是建立在決策樹算法的基礎上,通過分類建立了更多的決策樹。首先,在數據進行訓練時使用Bagging算法訓練得到多個決策樹模型;然后對特征變量進行分類時,采用多個決策樹分別進行類別預測;再通過投票法對數據的類別進行判斷,哪一種類別所獲得的投票數最多,就把該數據歸于哪一類。在實踐中我們可以發現,隨機森林模型的計算結果也在前面的計算中得到了很大的提升,不僅不會出現過擬合的問題,也大大展示了它強大的泛化能力,從而計算的預測誤差也相對減小。由于隨機森林包含很多的決策樹,因此此算法可以處理分類問題,也可以處理回歸問題,同時也可以處理降維問題。同時,由于隨機森林在計算當中對于異常值和噪音由很強的包容性,在各個領域的應用中都凸顯了自己強大的優點,計算的結果也具有更強的預測性和分類性。因此,在醫學計算領域,以及經濟建模領域等都有隨機森林的優秀表現。

3實驗分析

3.1實驗數據案例分析

3.1.1實驗數據來源與實驗工具

愛數科數據網站有關于個人收益預測的數據集,筆者先從網站上下載這些數據,這些數據集有個人的一些基本的數據,包含性別、年齡、職業、婚姻狀態以及受教育程度等。每一條個人收益有類別標簽,其標簽有兩種取值1或0,1表示個人收益超過5萬美元,0表示個人收益低于5萬美元。筆者將下載好的數據集進行特征變量和目標變量選擇,選取年齡、性別、受教育時長、種族、每周工作小時數作為測試集,將收益作為目標變量;接下來對數據集進行訓練集和測試集劃分,數據集有10000+條數據,筆者的實驗配置相對較低,同時也考慮到數據模擬計算的難度,提高數據運算的可行性,本文從數據集中隨機抽取4000+條數據來進行實驗。

本文使用jupyterNotebook軟件進行機器學習的實驗,這個軟件的本質是Web應用程序可以很便捷地創建和共享程序文檔,并且支持實時代碼,便于操縱數學方程,也能可視化調整,也可以隨時markdown,常用于數據清理和轉化,進行數據模擬,統計建模等等實驗性的應用。

3.1.2數據預處理

筆者對下載的數據保存為Excel的形式,如下圖,由于數據中存在字符型和數據數值相差幅度較大,因此,筆者在進行實驗之前對數據進行處理。具體的處理步驟為;字典特征提取、無量綱化處理、數據歸一化[3]。

部分個人收益信息圖

3.2實驗結果

3.2.1KNN模型的實驗結果

在對數據進行特征工程處理后,先使用KNN模型進行實驗。在上文解釋了K值的重要性,所以首先要調整KNN模型中K值的大小以便于實驗。為了K值的最優取值,運用網格搜索對K值進行最優范圍的篩選,通過篩選的結果,最終將K值的取值范圍選取為3、5、7、9、11,實驗的結果如表1所示。

由表1可以看出,當K值從[3、5、8、10、12]逐漸變大時,模擬實驗的準確率開始不斷的上升,K值上升到10的時候準確率又開始下降;K值取10時,KNN模型的準確率最高。由此,本文的KNN模型中的參數K值的最優值是10。

3.2.2決策樹的實驗結果

本文使用決策樹模型進行實驗,上文解釋了max_depth參數的重要性,為了使模型能達到最好的效果,將對max_depth進行最優參數篩選。我們采用網格搜索對max_depth值進行最優范圍的篩選,通過最終的篩選結果,本文將決策樹最大深度的最佳范圍取值為6、8、10、15、17,實驗的結果如表2所示。

表2是對決策樹max_depth參數最佳范圍篩選的結果。從表2可以看出,隨著決策樹深度的加深,決策樹模型預測準確率在逐步增加,當max_depth取15時準確率達到最高。由此可以判斷出,本文的決策樹模型中max_depth的最佳參數為15。

3.2.3隨機森林的實驗結果

通過隨機森林模型再進行實驗,通過調整n_estimators值來篩選范圍,可以快速找到隨機森林包含決策樹的最佳個數,將結果進行篩選,可以將決策樹的個數依次設置為5、10、20、30、40,實驗結果如表3所示。

由表3可知,當決策樹的數目增大的時候,通過隨機森林模型模擬的結果的準確率會不斷變高,并且決策樹數目達到30的時候,準確率達到最高。因此,可以得出結論,利用隨機森林模型模擬個人的收益情況中,決策樹的數目為30的時候模擬的情況最好。

3.2.4三種模型的比較

現將三類模型的模擬情況進行對比,KNN模型的K值為7,決策樹模型的max_depth為15,隨機森林模型含有30個決策樹,通過對比可以得到三個模型模擬的準確率都很高,其中隨機森林模型的預測準確率最高。因此,本文選擇隨機森林模型來判斷年收益是否超過50k這一問題的解決方案。

結語

本文通過計算機模型對個人收益進行預測,使用了三種模型進行預測,并對比預測結果:KNN模型的預測準確率最高為79.4%、決策樹模型預測準確率最高為78.7%、隨機森林模型預測準確率最高為80.6%。通過比對實驗結果,可以看到預測效果最好的是隨機森林模型。

參考文獻:

[1]李運.機器學習算法在數據挖掘中的應用[D].北京郵電大學,2015.

[2]楊志輝.基于機器學習算法在數據分類中的應用研究[D].中北大學,2017.

[3]方洪鷹.數據挖掘中數據預處理的方法研究[D].西南大學,2009.

作者簡介:賴丹(1988—),女,漢族,四川雙流人,研究生,中學一級,研究方向:計算數學;何軍(1986—),男,漢族,四川綿竹人,本科,中學一級,研究方向:中學數學教育。

主站蜘蛛池模板: 香蕉精品在线| 91精品专区国产盗摄| 91精品啪在线观看国产91| 久996视频精品免费观看| 91免费在线看| 五月婷婷丁香综合| 国产精品免费福利久久播放| 午夜在线不卡| 欧美视频在线播放观看免费福利资源| 五月天福利视频| 1024你懂的国产精品| 国产美女无遮挡免费视频网站| 试看120秒男女啪啪免费| 免费国产在线精品一区| 欧美亚洲国产精品久久蜜芽| 午夜国产不卡在线观看视频| 黄色片中文字幕| 免费观看无遮挡www的小视频| 欧美精品色视频| 理论片一区| 亚洲成年人网| 亚洲欧洲日韩国产综合在线二区| 国产精品免费久久久久影院无码| 99精品视频在线观看免费播放| 亚洲水蜜桃久久综合网站| 成人在线观看不卡| 久久永久视频| 亚洲精品午夜天堂网页| 在线免费无码视频| 一本大道无码日韩精品影视| 亚洲aaa视频| 国产精品漂亮美女在线观看| 直接黄91麻豆网站| 毛片大全免费观看| 中文字幕色站| 国产成人精品综合| 精品视频一区二区观看| 国产一级做美女做受视频| 国产乱码精品一区二区三区中文 | 亚洲人成网线在线播放va| 免费毛片网站在线观看| 欧美成人aⅴ| 狠狠干综合| 国产黄网站在线观看| 久久久久国产精品熟女影院| 黄色不卡视频| 亚洲视频免费在线| 青青草国产一区二区三区| 久久婷婷六月| 亚洲国产精品日韩欧美一区| 中文字幕无码电影| 婷婷成人综合| 日韩AV无码一区| 中文国产成人精品久久| 国产成人凹凸视频在线| 无码福利视频| 国产日韩欧美视频| a亚洲视频| 亚洲欧美h| 欧美精品亚洲精品日韩专| 99久久精品国产精品亚洲| 国产伦精品一区二区三区视频优播| 国产人人射| 人人爽人人爽人人片| 韩国自拍偷自拍亚洲精品| 欧美亚洲欧美| 亚洲男人的天堂久久香蕉| 国产经典三级在线| 久久精品国产电影| 亚洲天堂久久新| 亚洲中文字幕久久精品无码一区| 老司国产精品视频91| 女人av社区男人的天堂| 综合色亚洲| 亚洲第一黄色网址| 欧美日韩国产综合视频在线观看| 无码网站免费观看| 国产精品所毛片视频| 亚洲精品视频网| 亚洲系列中文字幕一区二区| 毛片卡一卡二| 日韩a在线观看免费观看|