999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于隨機森林的扶貧識別辦法

2021-09-14 14:25:50陸澤凱王雅瑜謝穎
中國市場 2021年25期
關鍵詞:機器學習評價指標精準扶貧

陸澤凱 王雅瑜 謝穎

[摘 要]2020 年是我國全面建成小康社會的決勝年,我國也進入了決戰決勝脫貧攻堅的最后階段。唯有精確的識別貧困人口,才能推進精準扶貧工作更好地開展。文章以西部內陸省份 G 省 A 市農村地區的調研數據為基礎,選取了多個指標,通過隨機森林算法來精確識別貧困人口。通過研究發現,隨機森林算法在甄別貧困人口中效果好,同時擁有較大的靈活性,能較好適應精準扶貧識別工作。

[關鍵詞]精準扶貧;機器學習;隨機森林;評價指標

[DOI]10.13939/j.cnki.zgsc.2021.25.022

1 引言

2018年2月12日,習近平總書記在打好精準脫貧攻堅戰座談會上強調,脫貧攻堅,精準是要義。必須堅持“六個精準”,扶貧扶到點上扶到根上。但是,隨著扶貧工作難度的提高,一些缺陷日益突出。一些冒領扶貧款,扶貧名額變成干部“獲取民心”的工具、扶貧名額分配不均的情況時有發生。以四川省×縣為例,每個村只有十幾個指標申請貧困戶,卻經常達到幾百號人甚至幾乎全村的人都去申請,這種情況下扶貧名額的分配往往由干部的主觀意愿決定。這種情況也不僅僅發生在西部地區,在沿海發達省份廣東省 S 市也出現了扶貧不精確、不高效的問題。這些問題與扶貧對象的識別不夠精確有緊密關系。而文章以我國扶貧的重要攻堅點西部 G 省 A 市某一農村為研究樣本,注重研究一種基于隨機森林模型的貧困戶精準識別評價體系。

2 隨機森林模型

隨機森林(Random Forest)是一種集成學習方法,常用于分類、回歸和其他機器學習任務[1]。它的原理是在訓練時構建大量決策樹(Decision Tree),隨機森林的每一棵決策樹之間是沒有關聯的,當有一個新的樣本進入算法的時候,每一棵決策樹都會分別進行一下判斷,并各自識別這個樣本應該屬于哪一類別,然后根據某一類別被選擇最多,就預測這個樣本為哪一類別,隨機森林有效地糾正了決策樹擬合的問題。[2]

在統計學中,邏輯回歸(Logistic Regression)是最常用的分類算法,因為其易解釋性,常常是傳統社科文章定量分類的工具[3],然而由于一般的邏輯回歸有一定的局限性,通常需要通過增加組合項或高斯項來提高其分類性能,然而添加了各類項式后模型的解釋力度卻也下降了。同時有研究指出,在較小數據中隨機森林分類的效果優于邏輯回歸模型,研究中重點是放在模型的精確度上而不是其解釋性上,因此文章采用了隨機森林的算法,以提高模型的分類性能。

3 問卷清洗

本次調研通過研究人員與 G 省 A 市某農村村委會的溝通,通過該村支部的工作人員分發紙質問卷為主要調查手段,分發了600張問卷,在該村委會的大力支持下共回收問卷 329 份,回收率達到了54%,問卷涵蓋了個人情況、家庭情況以及各種社會保險情況共三個方面。

本次問卷調研中是貧困戶的對象為 78 人,非貧困戶的對象為 251 人,調研中對象的貧困發生率約為 23.7%。由于被調查者問卷填寫不規范、對自身信息不確定、不愿公開個人信息等原因,導致問卷中存在一定數量的缺失值,為提高數據的可用性,方便進一步分析問卷數據,本節對問卷問題進行描述并對問卷中的缺失值進行進一步的填補。

由于預測的目標變量——是否為貧困戶是村委會提供相應的扶貧數據并沒有出現缺失,研究中用的是填補后的家庭成員數量以及勞動成員數量,也不存在缺失值。

研究中對于數值型變量采用了中位數填補法,這是由于扶貧數據的特殊性所致的。扶貧對象和普通人之間往往存在收入、支出等各方面差異懸殊的情況。如果使用平均數填補法容易出現扶貧對象被平均的情況,導致數據失真。而在因子型變量中采用給缺失值貼新標簽的方法,則利用了機器學習分類預測的優勢,由于目標變量始終是確定的,因此新的標簽也可以作為被機器學習使用的特征,比如說在低保戶申請上如果不選擇回答的人中的目標變量觀測值較多的是扶貧對象,他們可能出現難以啟齒的現象而選擇不回答。那么機器學習也會給這個缺失值標簽在扶貧對象的識別上更多的權重。在完成缺失值的填補后就可以利用機器學習算法進行預測了。

4 模型預測效果

將被調研的人分為兩類:第一類是獲得精準扶貧補助的貧困戶;第二類是未獲得精準扶貧補助的非貧困戶,通過隨機森林算法進行二分類預測。以前面收集到的 G 省 A市所得數據并清理好的數據進行訓練,通過隨機森林模型預測被調研者是否貧困。數據的自變量是被調研者關于 16 項問卷問題的回答,因變量則為一個是否貧困的標簽。算法中會自動將數值型數據進行標準化處理(Standardize),并將因子型變量轉換為機器識別的啞變量(Dummy Variable),隨機森林的參數如表2所示。

將數據集分為 10 折,其中 9 折作為訓練集以建立和優化模型,1 折作為驗證集以驗證模型在新數據上的表現,并采用自助法訓練以克服數據集較小的弱點。根據上面的參數設定隨機森林模型訓練后得到以下結果,如表3所示。

模型的準確性(Accuracy)達到了 80%,機器學習中最為關注的 ROC 曲線下方的面積大小(AUC)也達到了 86.59%,下圖為模型的 ROC 曲線圖。其他測量模型適應度的數值也相對比較高。模型的 Kappa值達到了 57.64%,表現出模型一致性較好,模型在各折數據上都表現出較強的魯棒性(Robust)。綜上所述,隨機森林模型訓練效果較好,能較好識別出貧困人口。之后根據模型給出的結果做出混淆矩陣(Confusion Matrix),如表4所示。可以發現模型在識別錯誤的兩種情況即假陽性和假陰性。假陽性為 52,在模型中表示為錯誤的將本來不是貧困戶的對象給識別為貧困戶。假陰性為 14,在模型中表現為將本來是貧困戶的識別為非貧困戶。現實中,希望的是寧可幫錯一個也不能少幫一個。模型還是較好的符合預期,模型后續還可以加入懲罰函數,對假陰性施加懲罰項,以減少識別錯誤的概率。

猜你喜歡
機器學習評價指標精準扶貧
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
第三方物流企業績效評價研究綜述
商(2016年33期)2016-11-24 23:50:25
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
基于UML的高校思想政治教育工作評價系統的分析與研究
公共文化服務體系評價指標的國際經驗與啟示
中國市場(2016年38期)2016-11-15 00:01:08
資源型企業財務競爭力評價研究
中國市場(2016年33期)2016-10-18 13:33:29
基于支持向量機的金融數據分析研究
“精準扶貧”視角下的高校資助育人工作
科技視界(2016年20期)2016-09-29 12:23:49
主站蜘蛛池模板: 一本色道久久88| 性喷潮久久久久久久久| 国产在线视频二区| 国产成人免费| 国产91丝袜在线播放动漫 | 亚洲va在线∨a天堂va欧美va| 日韩中文无码av超清| 成人av手机在线观看| 亚洲欧洲天堂色AV| 久久综合伊人77777| 国产精品久久久精品三级| 国产美女久久久久不卡| 人妻丰满熟妇AV无码区| 亚洲第一极品精品无码| 老色鬼久久亚洲AV综合| 一级爆乳无码av| 波多野结衣无码中文字幕在线观看一区二区| 亚洲天堂啪啪| 51国产偷自视频区视频手机观看| 国产日韩AV高潮在线| 伊人国产无码高清视频| 国产青榴视频| 美女裸体18禁网站| 伊人色综合久久天天| 伊在人亚洲香蕉精品播放| 精品国产自在现线看久久| 欧美亚洲欧美| 亚洲天堂精品在线观看| 青青极品在线| 青青青视频91在线 | 人人91人人澡人人妻人人爽| www.av男人.com| 亚洲五月激情网| 亚洲色图欧美| 女人一级毛片| 人人91人人澡人人妻人人爽 | 国产视频资源在线观看| 久久精品国产亚洲麻豆| 国产一级妓女av网站| 18禁色诱爆乳网站| 国产日本欧美亚洲精品视| 亚洲国产日韩在线成人蜜芽| 亚洲第一色视频| 日韩成人在线网站| AV不卡国产在线观看| 日韩无码黄色| 五月天久久婷婷| 国内精品久久久久鸭| 91麻豆精品国产高清在线| 免费一看一级毛片| 女同久久精品国产99国| 国产喷水视频| 污网站在线观看视频| 蜜桃视频一区| 国产真实乱子伦视频播放| 国产91av在线| 国产永久在线观看| 国产成人精品综合| 91久久天天躁狠狠躁夜夜| 全部免费特黄特色大片视频| 亚洲AⅤ永久无码精品毛片| 成人国产精品网站在线看| 国产色网站| 日本人妻一区二区三区不卡影院 | 久久黄色免费电影| 五月六月伊人狠狠丁香网| 永久免费无码日韩视频| 四虎成人精品| 在线日韩日本国产亚洲| 激情综合婷婷丁香五月尤物| 亚洲精品桃花岛av在线| 露脸一二三区国语对白| 最新亚洲人成无码网站欣赏网| 一级毛片无毒不卡直接观看| 亚洲中文字幕av无码区| 亚洲看片网| 日韩精品毛片| a色毛片免费视频| 99热这里只有精品国产99| 久久精品人人做人人爽97| 亚洲va欧美va国产综合下载| 国产乱子精品一区二区在线观看|