王欣欣,王展青*(武漢理工大學理學院,湖北武漢,430070)
?
析取隨機森林算法研究
王欣欣,王展青*
(武漢理工大學理學院,湖北武漢,430070)
摘要:本文通過引進前向反饋模型的概念提出析取-隨機森林算法,該方法將析取隨機森林模型中決策樹的學習方法進行改進,引入全局損失函數的概念,從而增加單個決策樹每個節點之間的聯系以影響下個節點的分類情況。改進后的模型可以達到減少訓練時間和使最后訓練得到的隨機森林收斂速度更快、預測結果更為準確的目的。
關鍵詞:隨機森林;前向反饋模型;人臉識別
為了設計高性能的單分類器模式識別系統,傳統的做法是首先進行最優的特征提取,然后設計最優的分類器,實際當中要達到這兩個“最優”是非常困難的.近年來,更流行的做法是融合多個分類器。單一的分類算法一般會得到不同的分類結果,實驗已經驗證任何單一的分類器都不能完全解決所有的問題或者達到應用系統的要求。而單一分類器結果相互之間一般具有很強的互補性,因此,可以充分發揮各個分類器的優勢,通過對多分類器的分類識別結果進行融合來提高分類的正確性和魯棒性。近年來,多分類器融合算法受到了越來越多的關注,在各個應用領域都取得了很大的進展,隨機森林就是目前比較流行的多分類器融合方法之一。
眾所周知,決策樹是由一組“規則”分層組成的樹狀圖。在決策樹的每一個結點都要學習一個分裂函數(一般為二元函數),它決定輸入的數據會被分到左結點還是右結點?,F假設在k結點處有一組d維的數據,則其在k節點的分裂函數可定義為:



將可微的析取范式帶入式(2)得決策樹的可微范式:



誤差函數用梯度下降的方式求解最小值:




為了求解(7)式,將公式進行泰勒展開,則有:

結合梯度提升算法推導出:求最優化問題(7),等價于對訓練樣本集增加對應的權重系數,其中:

這里使用的梯度提升算法對于任何可微的損失函數都適用,即使是非凸函數也有很好的效果。這就改進了析取隨機森林中因為損失函數是非凸函數,使用梯度下降會被困在局部最小值的狀況。
加入前向疊加模型的隨機森林可以表示為:

現將前向疊加的逐步疊加過程看成是隨機森林“一步步”的生成過程,則令隨機森林中的每棵決策樹同時生長,即令每棵決策樹同時生長到某一節點k,從而達到利用k節點的分類結果影響第k+1個節點生成的效果。則隨機森林可表示為:

為了求解(11)式,可以利用最速梯度下降法的求解原理,對公式(11)中的求關于的導數。但的定義本身并不存在,需要類比梯度的概念構造如下:



本文將前向疊加的概念引入到析取隨機森林中,使得改進后的算法模型減少訓練時間、增加節點間的聯系,突破了傳統隨機森林算法的局限性,提高了算法的精確度。該算法在分類、決策等廣義問題上具有很好的推廣性與應用性。
參考文獻
[1]L. Breiman, Random forests, Mach. Learn. 45 (1) (2001) 5–32.
[2]F. Schroff, A. Criminisi, A. Zisserman, Object class segmentation using random forests, in: British Machine Vision Conference, 2008.
[3]Mojtaba Seyedhosseini, Tolga Tasdizen. Disjunctive normal random forests[J]. Pattern Recognition 48 (2015) 976-983.
[4]Schulter, S. Wohlhart, P. Leistner, C. Saffari A. Roth, P.M. Bischof, H. Alternating Decision Forests. In CVPR[C],2013
作者簡介
王欣欣(1989-)、女、漢,吉林省吉林市、學生、碩士、圖像處理;通訊作者:王展青
The research of the disjunction of random forest algorithm
Wang Xinxin,Wang Zhanqing
(Wuhan University of technology,wuhan430070,Hubei province,China)
Abstract:In this paper,by introducing the concept of additive-forward model disjunction of random forest algorithm is put forward,This method improved the decision tree learning method ,it introduces the concept of a global loss function,thus increasing the individual decision tree nodes under the influence of the connection between the each node in the classification of the situation.The improved model can achieve reduce training time and make the training get faster convergence speed,the purpose of the forecast results more accurate.
Keywords:random forest;additive-forward model;Face recognition