基于Random Forest的精準扶貧著力點識別研究

2020-09-29 01:29:56

環渤海經濟瞭望 2020年8期

一、Random forest的相關定義

（一）Bootstrap。Bootstrap（自助法）指在訓練集里有放回的重采樣等長的數據形成新的數據集并計算相關參數，重復n次得到對參數的估計，計算標準誤。Bootstrap不僅可以用于均值估計，也可以對任意統計量，如偏差、方差等。

（二）Random Forest。隨機森林是一種統計學習理論，它利用bootstrap重采樣方法從原始樣本中提取多個樣本，對每個bootstrap樣本采用決策樹進行建模，然后結合多個決策樹的預測，通過投票得到最終的預測結果。實踐證明，隨機森林具有較高的預測精度，對異常值和噪聲有較好的容忍度，不易出現過擬合。換而言之，隨機森林是天然的、非線性建模工具，持續地訓練樣本信息，具有良好的自適應功能，非常適合解決先驗知識不清楚、沒有規則且約束條件多和不完整數據的應用程序，方便快速，克服了傳統預測方法導致間接獲取信息和知識不僅費時而且效率不高的缺點，這為預測實踐奠定了基礎。

二、Random Forest算法的基本原理

實際上，隨機森林一般可以理解為由許多決策樹組成的森林，每個樣本必須由每棵樹進行預測，并根據所有決策樹的預測結果確定整個隨機森林的預測結果。隨機森林中的每棵決策樹是二叉樹，其生成遵循從上到下的遞歸劃分的原則，即訓練集從根節點開始依次劃分訓練集。在二叉樹中，根節點包含所有訓練數據，按照節點不純度最小原則，它分為左節點和右節點，每個節點包含訓練數據的子集，遵循相同的規則，節點將繼續分裂，直到滿足分支停止規則并且停止增長。

采用Bootstrap方法進行自助抽樣時，原始訓練集中有N個樣本，那么每個樣本未被抽取的概率為，當原始訓練集中樣本特別多時，將趨向于0.368，這就告訴大家原始樣本集中有差不多37%的樣本不會出現在Bootstrap樣本中。所以，要更好地應用隨機森林模型，還需構造多個不同的訓練集，以此來增加分類模型間的差異，這樣可以提高組合分類模型的外推預測能力。這樣的訓練經過k輪，得到一個分類模型序列{h1(x)，h2(x)，…，hk(x)}，把這些序列利用起來構成一個多分類模型系統，則可以得到其余量函數（margin function）：

這個函數主要用來測度平均正確分類樹超過平均錯誤分類樹的程度，函數值越大，說明分類預測就越可靠。因此，外推誤差則為：

隨著決策樹分類模型的增加，所有序列PE*幾乎處處收斂于：

公式里面，θ指的是選用所有變量所建立的分類模型。

公式2.2和 2.3 表明隨機森林模型不會隨著決策樹的增加而產生過度擬合的問題，但可能會產生一定限度內的外推誤差。

于是余量函數mr(X，Y)定義為：

則分類模型集合的強度s是：

假設s≥0，則根據切比雪夫不等式有：

由此公式可以看出，如果增加樹的相關性或者降低組合分類模型的強度，外推誤差的上界就會趨向于增加，隨機化也會減少決策樹間的相關性，以此達到改善組合分類模型外推誤差大小的目的。

三、貧困戶精準識別中的Random Forest模型

（一）選取貧困戶的樣本。為了使得論文的數據更具有代表性，本人共統計了450戶的家庭情況。在這450戶當中，有245戶是貧困家庭，205戶非貧困家庭。在統計過程中，主要采取了問卷調查的方式對貧困家庭的個人基本情況、家庭總體情況、家庭收入來源情況、家庭可支配收入等方面進行了調查統計。根據理論，將這數據量里面的2/3作為訓練集，也就是訓練集里面是300個樣本，其中貧困家庭樣本為163個，非貧困家庭樣本為137個；剩下的150個數據為貧困戶測試集數據，其中貧困家庭樣本有82個，非貧困家庭樣本有68個。為了更好地運用隨機森林模型，本文針對家庭可支配收入以5000的貧困標準對所統計數據進行了分組處理，將家庭可支配收入小于5000的分為1組，家庭可支配收入介于[5000，10000)這一區間的分為2組，家庭可支配收入介于[10000，15000)這一區間的分為3組，家庭可支配收入介于[15000，20000) 這一區間的分為4組，家庭可支配收入在20000以上的標記為5組。

（二）Random Forest模型建立。基于裝袋法對隨機森林進行了修改，這基本上是對決策樹算法的一種改進而對多個決策樹進行的組合。每棵樹的建立取決于獨立的采集樣本，而且每棵樹具有相同的分布，分類誤差取決于每個決策樹的分類能力及其相關性。具體步驟如下：1.設N為原始訓練集樣本的數量，M為變量的數量。2.需要找到固定值m，此值用于確定在制定節點決策時要使用多少個變量。應該注意的是，決策時m小于M；3.使用自助服務方法，我們隨機抽取了k個新的自助服務樣本集，并構建了k棵決策樹，每次沒被抽到的樣本組成了袋外數據；4.每個自助服務樣本集都成長為單棵決策樹，在樹的每個節點上，從M個功能中隨機選擇m個功能（m小于M）。根據節點不純度最小的原則選擇M函數，然后選擇功能進行分支增長。然后完全生長決策樹，以最大程度地減少每個節點上的雜質，并且不執行正常的修剪操作。5.根據生成的多決策樹分類器對需要預測的數據進行預測，并根據各決策樹的投票結果選擇投票數最高的類別。

在構建隨機森林時，使用自助樣本集來形成每個樹分類器。通過每次采樣生成的袋外數據用于預測分類精度，并且通過收集每個預測結果來獲得錯誤率，接著評估外部數據和估計組合分類的正確率。此外，在隨機森林中，當生成每棵決策樹時，從原始訓練樣本集中隨機選擇使用的自助樣本集，在每個節點上隨機選擇每個決策樹使用的變量，并從所有變量M中隨機選擇，從而最小化了各棵決策樹之間的相關性，提高了分類精確度。

（三）Random Forest模型中貧困戶的精準識別

首先，在已經創建好的模型中放入我們訓練集中的變量，這樣就得到分類結果。接著，需要把實際情況跟前面得到的分類結果進行對比，很容易發現此隨機森林模型存在過度擬合的問題，所以需要進行調參。比如說通過減少樹的深度、增大分裂節點樣本數、減少特征數等來降低模型的復雜度，從而實現調參的目的。最后，借用醫學上的“金標準”來進行初步檢測，因此得出了隨機森林算法對訓練集數據的混淆矩陣，從這個混淆矩陣中可以得到貧困識別中的陽性預測值為0.944、陰性預測值為0.976，表明在預測的貧困戶中貧困戶所占的比率近似是94.4%，非貧困戶所占的比率近似為97.6%，具體見表2和3-2。

表2 Random Forest算法對訓練集數據的混淆矩陣

表3-2 Random Forest分類檢驗指標（1）

為了得到隨機森林模型其他方面的特性，我們仍需進一步的進行檢驗，主要的檢驗指標見下表3-3。

表3-3 Random Forest分類檢驗指標（2）

由表3-3可知，Random Forest分類模型中的0.958表明在該模型中被正確分類的貧困戶和非貧困戶占所有戶數的比值，0.042可以說明模型分類的誤差比較小，0.981表明模型能正確識別的貧困戶，0.931表明模型能正確識別93.1%的非貧困戶，0.944表明模型分類的精確性比較高，0.962 說明Random Forest分類器對于貧困識別的分類效果越好，0.956表明Random Forest模型的性能很好，0.452表明了Random Forest分類模型的預測性能還有待提高。

四、結語

脫貧攻堅是全面建成小康社會的底線任務和標志性指標，全面建成小康社會，困擾了中華民族幾千年的絕對貧困問題，將歷史性地得到解決，中國人民將書寫人類發展史上的偉大傳奇。唯其如此，我們更加深刻地體味到“決戰決勝脫貧攻堅”的歷史意義和分量。在調研過程中發現，貧困家庭的貧困原因各有各的不同，有些家庭貧困是因為疾病、因為殘疾，有些家庭貧困是因為教育，有些家庭本來已經脫貧了但卻因病返貧，也有一些家庭貧困是因為缺乏勞動力。雖然目前在我國采用的扶貧方式不少，比如說資金幫扶、產業幫扶、補貼幫扶等等措施，但是在實際中仍會發現并沒有完全做到因貧施策。所以最好的做法是能在了解貧困家庭現狀以及貧困原因之后，制定有針對性的解決方案，從而高效實施扶貧措施，精準幫扶貧困群體。