李衍瑞
(塔里木大學信息工程學院,新疆 阿拉爾 843300)
我國是農業大國,農業經濟在國民經濟中占據著非常重要的地位,2020年全國農業及相關產業增加值為166 900億元,占國內生產總值(GDP)的比重為16.47%[1]。隨著經濟的飛速發展,人們的生活質量大幅度提升,人們對于食品方面的要求越來越高,這就要求農業生產質量也要不斷提高。機器學習成為農業信息化中的重要一環,為農業提質增效作出了巨大貢獻,隨機森林算法作為機器學習的一種,在農業中有著廣泛的應用[2-4]。
決策樹是有監督的機器學習算法,是一種樹狀結構的流程圖,主要解決分類問題。這種方法根據數據及參數的屬性特征對其進行分類,對每一次分類過程進行記錄并匯總。決策樹本身由根節點、非葉子節點(決策點)、葉子節點和分支組成。在決策樹中,每個決策點實現一個具有離散輸出的測試函數記為分支[5]。根節點是決策樹中最上面一層的節點,該節點往往具有信息增益大的特點,在根節點處,信息熵值下降最快,可以有效地對數據進行第一次分類。非葉子節點代表問題的決策,通常對應決策所依據的屬性。葉子節點代表分類的標簽值,決策樹是一個由上到下的遍歷過程,每一次分類會有不同的判斷結果,將不同的判斷結果引入不同的分支,從而賦予不同的標簽值[6]。
如果決策樹在構建中考慮了所有的訓練數據集,得到的決策樹就會很龐大[7]。雖然這樣可以保證訓練數據集的決策正確率達到100%,但是由于需要考慮所有數據,將數據分割得過于零散,致使決策樹學習到一些噪聲點和錯誤點,出現過擬合現象[8]。對于上述問題可以通過決策樹的剪枝有效解決。決策樹常用的剪枝方法有兩種。
1)預剪枝:在構建決策樹時提前停止。如果該節點的信息增益過低,則說明該節點的分類效果不好,并將該節點設為葉子節點。
2)后剪枝:在決策樹構造完成后,進行剪枝。自下而上地對每個非葉子節點進行考察,選擇該節點中個數最多的類別作為標簽,試將節點的子樹替換為葉子節點;若能夠使得決策樹在驗證集上的準確率升高,則將該子樹替換成葉子節點。
隨機森林由Leo Breiman提出,它通過自助法(Bootstrap)重采樣技術,從原始訓練樣本集N中有放回地重復隨機抽取m個樣本生成新的訓練樣本集合,然后根據自助樣本集生成m個分類樹組成隨機森林,新數據的分類結果按分類樹投票多少形成的分數而定。通俗來講,隨機森林就是將若干個弱分類器組成一個強分類器。其本質是將決策樹算法進行了集合,將若干個決策樹組起來,每一個獨立抽取樣本建立一棵相關的決策樹,森林中的每棵樹具有相同的分布,每棵樹的誤差取決于每棵樹的相關性。參數特征采用隨機方式對每一個節點進行分類,然后比較不同情況下產生的誤差,能夠檢測到內在估計誤差、分類能力和相關性決定選擇特征的數目[9]。每一棵樹的分類能力較小,隨著大量的樹的建立,其分類能力逐步提高,一個測試樣品可以通過每一棵樹的分類結果統計后選擇最可能的分類。隨機森林的基本原理和技術路線如圖1、圖2所示。

圖1 隨機森林基本原理

圖2 隨機森林技術路線
農業干旱監測一直是農業方面的一項重大工作,干旱意味著農作物從種植、生長到收獲都會受到巨大影響,而農業干旱監測如果出現誤差過大的情況,會導致灌溉量不符合要求,作物生長得不到有效保障,使得農民種植成本大大提高,甚至出現經濟損失等問題。對于大部分農民來說,對土壤干旱檢測的方法還停留在經驗層面,通過種植經驗對土壤干旱程度進行估算,從而確定灌溉量等信息。這樣以經驗來判斷土壤干旱程度的方法,對農民種植經驗有著較高要求。另外,不同作物的需水量不同,對土壤的含水量需求也不相同,一定程度上加大了土壤干旱檢測的誤差,使得農民資金受損的風險大大提高。少部分人使用手持土壤檢測設備,對農田進行隨機采樣,通過隨機采樣點的數據對整體農田的土壤干旱度進行估算。這種方法不僅對人力有著巨大要求,而且只對農田的個別區域有著較高的精度,農田整體的土壤干旱數據可能存在較大誤差。上述兩種常用的方法都有著高誤差風險,一旦出現估算錯誤,對整體的種植進程有著巨大影響。
農作物與人們生活息息相關,農作物產量對人們的生活有著巨大的影響,隨著我國人口的增長,農業系統的壓力逐步增大,另外,農作物產量對國家農業系統的政策制定等也有著重要的影響,因此農作物產量預測非常重要。傳統的農作物產量預測通常以近幾年的農作物產量數據為基礎,應用統計類模型進行相關預測,常用的分析方法有灰色關聯度分析、逐步回歸模型等。其中,灰色關聯度分析需要對各項指標的最優值進行現行確定,相當一部分的指標無法現行確定,這就導致該方法主觀性過強,容易產生誤差,另外灰色關聯度分析的一系列模型已不能滿足當前對于模型的需求,導致結果具有偏差。在逐步回歸模型中,采用哪一種因子和該因子采用哪一種具體的表達式并不能完全確定,這就影響了因子的多樣性和不確定性,使得回歸分析的精度受到影響,導致作物產量預測有較大誤差。
隨著經濟社會發展,人們對生活質量的要求越發提高,并且隨著食品安全意識的普及,老百姓對食品品質也越來越重視,農產品在日常飲食中占據極大的比例,所以如今對農作物品質的檢測要求也越來越高。現如今對農作物的品質檢測分為有損檢測和無損檢測,有損檢測雖然更為精確,但是成本過高,而且農作物的有損檢測步驟煩瑣,需要消耗大量的人力、物力。對于無損檢測來說,傳統的檢測方法有近紅外光譜檢測和高光譜檢測,通過高光譜成像對作物進行檢測。近紅外光譜檢測和高光譜成像技術雖然極具優勢,但是有一定的局限性。近紅外光譜設備造價高,且接收光譜時容易受到外界因素的干擾,高光譜成像技術數據采集時間長,獲取的數據復雜、冗余高。
作為機器學習的一種,隨機森林算法有著分類回歸的作用。2022年,王曉燕等[10]通過隨機森林、BP神經網絡、支持向量機等對農業干旱監測建立了模型。通過確定不同的參數因子,提取2002—2019年甘肅4—10月所有氣象站點的VCI、TCI、PCI和VSWI指數,按月依次對4種遙感指數和1個月、3個月、6個月時間尺度的SPEI進行Pearson相關性分析,分析單個遙感干旱指數監測農業干旱的能力以及融合多源數據的必要性。結果表示,各項因子都高于0.01,表示其對于干旱指數顯著相關,選取站點數據構建隨機模型,對于隨機森林、BP神經網絡、支持向量機的結果進行R2、RMSE、MAE的測算,結果如下:R2=0.86、0.81、0.82,RMSE=0.53、0.59、0.53,MAE=0.41、0.45、0.42。隨機森林算法在對數據進行擬合后,其精度高于BP神經網絡和支持向量機。從而得出結論:隨機森林可以更全面、可靠地進行農業干旱監測。
2019年,王鵬新等[11]基于隨機森林回歸的算法,對玉米進行了單產估測。該文的研究區域為河北省的中原區域,特征變量選取了上包絡線S-G濾波的葉面積指數和條件植被溫度指數。該文首先確定了玉米對于水分的脅迫程度,進行了VTCI的計算,VTCI的計算公式如下:

通過上包絡線S-G濾波對選取的葉面積指數進行平滑處理,使得該葉面指數更加符合該地區玉米生長的實際情況,之后建立回歸決策樹,通過建立隨機子空間法確立決策樹的相關節點及其分裂特征。通過有放回地隨機參數抽樣,從最初的原始樣本抽取訓練樣本,通過該方法確立m個訓練樣本,在決策樹建立過程中,利用CART方法隨機選取樹的數量,且不對決策樹進行剪枝,將所有決策樹構建成隨機森林后,對所有回歸后得到的玉米單產值進行平均計算,所得到的最終值即為該地區玉米單產的估算值。結果表明,通過隨機森林回歸模型構建變量估產模型時,其精度較高,具有實際意義,可以對該地區的相關作物產量進行相對精確的預測。
2019年,劉倩[12]以哈密瓜為試驗材料,通過隨機森林算法對其進行了模型構建,對哈密瓜的無損檢測進行研究。該文首先通過哈密瓜對不同基質的含水量進行統計和處理,包括糖分、可溶性固體物、維生素C等不同品質指標。并且提取了哈密瓜相關的外部表型特征,例如紋理特征、顏色特征等。之后對哈密瓜進行了外部因子的相關性分析,綜合多個環境因子,使用隨機森林的回歸算法,對哈 密瓜的紋理特征和顏色特征進行模型建立,結合哈密瓜對外部環境因子的敏感程度,對不同的環境因子進行了R2的測算。最后通過試驗證明哈密瓜內部品質與外部特征有著顯著的相關性,通過隨機森林進行預測模型的建立,結合外部表型特征,建立果實預測模型。通過對比哈密瓜含水量與內部品質,確定其規律,并將特征分析的結果與外部表型對比。試驗結果表明,哈密瓜對不同的內外部因素測算得到相應的R2,其R2均高于0.75。該試驗表明隨機森林算法在農作物的品質檢測方面,構建的品質預測模型有著較高的精度及實用性。
綜上所述,隨機森林作為機器學習的一類算法,可以應用到很多方面,在農業上的應用也很廣泛,無論是在農業環境中的應用還是在農產品中的應用,都有著較高的應用價值。隨機森林算法具有高精度以及對數據的強大處理能力,并且可以有效地避免數據過多時出現數據冗余的情況。