999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GBDT 的個體收入水平預估*

2020-06-09 06:17:52潘慶雯
計算機與數字工程 2020年3期
關鍵詞:分類特征模型

譚 波 潘慶雯 程 雯

(武漢郵電科學研究院 武漢 430074)

1 引言

個體收入水平評估任務常見于那些依賴于捐款而存在的非營利性組織。了解個體的收入情況可以幫助一個非營利性的機構更好地了解他們要捐贈多少,或他們是否應該接觸這些人。近年來,許多機器學習算法被用于個體收入水平的評估中,比如高斯樸素貝葉斯(GaussianNB)[1],支撐向量機(SVM)[2],決策樹(DecisionTree)等。決策樹模型對缺失值不敏感,易于實現和理解,數據預處理簡單[3],但在處理特征關聯性強的數據表現不好,如果有時間順序的數據,需要大量的預處理,同時容易出現過擬合現象;支撐向量機在樣本數據較小時可以有效地處理高緯度[4]的數據,由于只使用一部分子集進行模型訓練,不需要太大內存,但是當數據集中缺少較多數據,模型對于數據缺失敏感。然而這些算法在數據缺省,數據樣本比例不均衡,數據集存在異常值的情況下,模型預測的準確率會受到影響。GBDT 通過將多個基學習器組合提升模型的預測性能。同時GBDT 可以處理混合類型的數據[5],也能處理非平衡數據和缺省數據,通過選取適當的損失函數,可以提升模型在輸出空間存在異常值情況下的健壯性。在UCI 公開的人口普查數據集中,驗證了GBDT 在個體收入評估上的實用性和準確性。

2 Boosting介紹

GBDT屬于Boosting算法[6]的一種,這類算法的工作機制都比較類似,首先需要從初始的訓練集中訓練出一個基學習器,再根據基學習器的表現對樣本的權重進行調整,使得先前基學習器中的誤分類訓練樣本在后續的訓練中得到更多的關注,然后用調整后的樣本分布來訓練下一個基學習器。經過反復地進行這個過程,會產生指定個數為N個的基學習器,最終將這N 個基學習器進行加權結合,得到最終的模型。

為了對回歸和分類問題進行非線性擬合,可以創建一種自適應基函數模型,它有如下形式:是第 m 個基函數[7],該基函數形式可以通過輸入的數據確定。通常而言,基函數是參數化的,可以寫成其中vm是基函數自身的參數,通過將表示整個參數集,這樣得到的模型參數就不再是線形化的。因此我們只能計算出估計值θ的局部最優值,然而這樣的模型在性能方面通常比線形模型表現更好。

Boosting 是一種貪心算法,用來擬合自適應基模型,φm為基函數/弱學習器。通過將弱學習器循環作用于加權的數據中,每次循環后提高誤分樣本的分布概率,誤分樣本在訓練集中所占權重增大,使得下一次循環弱學習器能集中對誤分樣本進行判斷。該弱學習器可以是任意分類器或者回歸器,但是通常使用CART 模型。在1998 年,Leo Breiman 提出在boosting中淺層的決策樹是最佳的弱學習器。這一觀點在2006 年Caruana 和Niculescu-Mizil 的實驗中通過將10 種不同分類器進行廣泛的試驗比較后得到證實的[9],同時該實驗通過ROC 曲線顯示提升決策樹在降低分類誤差和產生良好校準概率兩方面均表現最佳。

Boosting最初是在計算機學習理論中推導出來的,主要解決二分類問題。將分類準確率高于0.5的學習器作為弱分類器。在訓練集上,可以通過組合任意多個弱學習器進而獲得分類準確率性能的提升。1998 年,Breiman 提出 boosting 可以通過函數空間的梯度下降方式解釋的觀點,這一觀點通過Friedman在2000年得到進一步擴展,Friedman提出boosting是可用于處理各種各樣的損失函數包括魯棒回歸,泊松回歸等[10]。

3 GBDT原理

通過將boosting 方法推廣到更加一般的情況,可以得到梯度提升方法(grading boosting),當我們的目標是最小化公式(1):

其中f=(f(x1),…,f(xN))是參數,將通過梯度下降的方式得到最佳解。在第m步時,令gm是在f=fm-1時刻L(f)的梯度,如式(2):

對fm進行更新,fm=fm-1-ρmgm,其中ρm是步長。以上就是函數式梯度下降。在當前形式中,該算法只是在N個數據點上優化f,通過修改算法,將一個弱學習器近似為負梯度,如式(3)。

整個算法流程可以總結如下:

如果squared loss 作為該算法的損失函數,那么可以得到L2Boosting,如果log-loss作為該算法的損失函數,可以得到BinomialBoost。該算法相比LogitBoost 的優勢在于,可以相對容易地能擴展到多分類的問題[11],同時該算法對于許多損失函數都適用。

4 實驗結果分析

該實驗將使用1994 年美國人口普查收集的數據,數據集來自UCI機器學習知識庫。這個數據集是由 Ron Kohavi 和 Barry Becker 在發表文章“Scaling Up the Accuracy of Naive-Bayes Classifiers:A Decision-Tree Hybrid”之后捐贈的,這里探索的數據集相比于原有的數據集有一些小小的改變,比如說移除了特征“fnlwgt”以及一些遺失的或者是格式不正確的記錄。通過選用幾個監督學習算法來準確建模被調查者的收入。然后根據初步結果從中選擇出最佳的候選算法,并進一步優化該算法從而更好地建模這些數據。目標是建立一個能夠準確預測被調查者年收入是否超過50000 美元的模型。通過使用高斯樸素貝葉斯、隨機森林以及GBDT 方法,進行收入分類性能比較實驗。為了保證GBDT 的最佳分類預測性能,采取5 折交叉驗證方法。交叉驗證法可以提升訓練樣本和測試樣本的多樣性,同時降低模型偏差。通過將數據集隨機劃分為同等規模的五份,輪流地將四份數據作為訓練集,剩余一份作為驗證集。在訓練集上得到訓練的參數,在驗證集上計算分類誤差。通過最小化分類誤差,得到模型的最佳參數。

該實驗期望模型具有準確預測那些能夠年收入大于$50,000 的能力比模型具有高的查全率更重要,于是使用F-beta score 作為評價指標,這樣能夠同時考慮查準率和查全率如式(4)所示:

尤其是,當β=0.5 的時候更多強調查準率,該指標稱為F0.5score。通過對多個模型的實驗結果比較如表1所示。

表1 Naive-Bayes、Random Forest、GBDT模型結果

由表1 中實驗數據可以看出,GBDT 模型有最佳的精度和F 得分結果,隨機森林[12]模型效果次之,樸素貝葉斯模型[13]效果最不佳。GBDT 唯一的缺點是模型需要更多的訓練時間,但是在本文中,訓練時間并不是問題,因為GBDT只需要9s左右的訓練時間,訓練時間在合理范圍內。

將GBDT 作為最佳的候選模型,利用網格搜索(GridSearchCV)方法進行模型調優。在GBDT的提升過程中主要調整基分類器個數,以及學習率;對每個樹基分類器調整最大深度和最小樣本分割數目;最后通過最小化學習率來提高模型健壯性。模型參數調優完成后,在測試集上完成模型的評估。模型在測試集上效果如表2所示。

表2 測試集上模型結果對比

由表2 可以看出,經過優化的GBDT 模型比未優化的模型在精確率方面提升了0.7%,在F-score方面提升了1.1%。而經過優化的GBDT 比基準水平在精確度上提高350.73%,在F-score 方面提升了大概256.26%。通過交叉驗證和網格搜索,得到的優化后的模型準確率和F-score比基準預測器高的多,但是比未優化的模型比,提升不大。因為GBDT 算法自適應性已經很強大了,增加弱學習器的數量并不能大幅度地提高算法的準確度和F-score。

在數據上(比如這里使用的人口普查的數據)使用監督學習算法的一個重要的任務是決定哪些特征能夠提供最強的預測能力。專注于少量的有效特征和標簽之間的關系,能夠更加簡單地理解這些現象,這在很多情況下都是十分有用的。在本文的情境下期望選擇一小部分特征,這些特征能夠在預測被調查者是否年收入大于$50,000 這個問題上有很強的預測能力。通過提取五個用于預測被調查者年收入是否大于$50,000 最相關的特征信息。主成分特征如圖1所示。

圖1 主成分特征

可以看出年齡和工時這兩個特征對收入的影響最大,而學歷和職業反而不是影響收入的較大因素。通過觀察圖1 展示五個用于預測被調查者年收入是否大于$50,000 最相關的特征的可視化圖像,可以看到前五個最重要的特征貢獻了數據中所有特征中超過一半的重要性。這提示我們可以嘗試去減小特征空間,簡化模型需要學習的信息。通過使用更少的特征來訓練,在評價指標的角度來看,本文的期望是訓練和預測的時間會更少。最終將模型在只使用五個特征的數據上和使用所有的特征數據上的F-score 和Accuracy 進行比較,結果如表3全量特征與部分特征結果對比所示。

表3 全量特征與部分特征結果對比

通過表3 發現使用部分特征會導致Accuracy和F-score都略有下降。一般而言會考慮部分特征作為一種備選方案,可以看出精確度降低的并不多,而F-score 反映地是查準率/查全率的不同偏好。有些場景比如商品推薦系統,更希望推薦內容確實是用戶感興趣的,那么查準率更重要一些,那么需要的特征需要多一點。又比如逃犯信息檢索系統中,盡可能地少漏掉逃犯,那么查全率希望高一些。如果是第二種情況,那么適當的減少點特征值相對影響較小。最后通過選擇已訓練的GBDT模型在測試集上完成模型效果評估,在測試集上Accuracy是0.8648,F-score是0.7443。

5 結語

本文針對當前收入水平預估算法只應用于某種類型單一且數據比例平衡的問題,提出基于Gradient Boosted Decision Tree(GBDT)的個體收入水平預估方法,實驗表明GBDT 算法相對工業常用隨機森林[14],樸素貝葉斯算法保持較高分類準確率[15],以及更好的穩定性和普適性。

猜你喜歡
分類特征模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 国产成人精品免费av| 91九色国产在线| 色屁屁一区二区三区视频国产| 在线国产三级| 日韩a级毛片| 2020精品极品国产色在线观看 | 国产丝袜一区二区三区视频免下载| 有专无码视频| 国产精品开放后亚洲| 欧美精品影院| 国产福利免费观看| 九色视频一区| 亚洲天堂网站在线| 五月婷婷综合在线视频| 91精品啪在线观看国产91| 国产欧美在线观看一区| 亚洲an第二区国产精品| 美女免费黄网站| 丁香婷婷综合激情| 久久香蕉国产线看观看精品蕉| 特黄日韩免费一区二区三区| 国产成人精品一区二区三区| Jizz国产色系免费| 欧美成人aⅴ| www精品久久| 91精品啪在线观看国产| 国产精品亚洲综合久久小说| 秋霞国产在线| 成年av福利永久免费观看| 五月婷婷伊人网| 国产精品va免费视频| 一区二区日韩国产精久久| 久久综合五月| 四虎永久免费地址| 久久精品人人做人人综合试看| 污污网站在线观看| 久久成人免费| 欧美成人二区| 日本欧美中文字幕精品亚洲| 欧美怡红院视频一区二区三区| 国产精品女人呻吟在线观看| 97国内精品久久久久不卡| 男人的天堂久久精品激情| 91午夜福利在线观看精品| 国产va免费精品| 国产国产人免费视频成18| 国产精品丝袜视频| 国产精品久久久久久影院| 国产精品区网红主播在线观看| 国产欧美日韩资源在线观看| 国产精品美女自慰喷水| 手机在线免费毛片| 天堂av综合网| 精品91在线| 国产在线自乱拍播放| 欧美激情成人网| 精品夜恋影院亚洲欧洲| 成人福利一区二区视频在线| 999国内精品久久免费视频| 一级毛片免费高清视频| 国产18在线播放| 国产微拍精品| 国产超薄肉色丝袜网站| 国产99视频精品免费视频7 | 日韩精品毛片人妻AV不卡| 精品无码人妻一区二区| 亚洲中文字幕日产无码2021| 中文字幕人妻av一区二区| 国产黄色视频综合| 国产尤物在线播放| 免费一级无码在线网站| 亚洲国产高清精品线久久| 国产福利不卡视频| 国产精品色婷婷在线观看| 国产一级α片| 亚洲 欧美 日韩综合一区| 日韩 欧美 国产 精品 综合| 欧美在线黄| 亚洲综合久久一本伊一区| 国产成人久视频免费| 国产日韩欧美中文| 亚洲高清在线播放|