摘 要:伴隨遙感技術的發展,高分辨率遙感開始得到普遍應用,數據豐富,遙感檢測對象目標細化,高分辨率遙感圖像開始成為遙感變化檢測的主要數據來源。高分辨率遙感圖像擁有著龐大的信息量,這些龐大的信息也會導致繁雜的背景和復雜的內部結構,這對目標檢測提出了新的挑戰。針對這一挑戰問題,近年來涌現出了很多不同的新方法,而這其中就有作為一種叫做隨機森林的新興機器學習方法,有著準確、方便、快速并能分析數據特點等方面的諸多優點,能對目標檢測提供新的思路。
關鍵詞:隨機森林;高分辨率;遙感;沿海地貌
沿海地貌有許多種類,如沙灘,灰色沙丘,白色沙丘、沿海植被、森林等,這些依次分布在沿海。而在遙感圖像上很多情況他們幾乎沒有區別,在圖像上沙丘和植被可以比較清晰的區分,但是沙丘和沙灘之間的混亂則是完全存在的。此外,白色沙丘和灰色沙丘之間的邊界也很難進行區分。同時其他因素也影響了分類,如濕砂。我們希望能精確地檢測到沿海地貌,即劃定海灘和沙丘之間的邊界。普通邊界的劃分我們可以通過監督分類過程來檢測。對于復雜的環境,如沿海地貌,傳統方法生產可能不能勝任,我們提出隨機森林的方法來解決這個分類問題,以實現的沿海區域分類檢測。
隨機森林(Random Forests,RF)算法是美國科學院院士 Leo Breiman等人提出的一種基于分類與回歸決策樹(Classification And Regression Tree,CART)的集成算法。隨機森林中的每一棵決策樹相當于一個分類器,而這個森林則是所有分類器的集成。每一個決策樹都是一個獨立存在,不受外界干擾,而我們將它們捏合在一起,使得單獨存在變成集合存在,將偶然變成必然。這讓隨機森林有需要人工干預少、分類表現優異、能對數據提供額外的刻畫以及運算非常快等許多優點。正是這些特點,隨機森林在沿海地貌檢測中得到了良好的效果。
1 數據獲取
采用SPOT5高分辨率圖像和實地采樣檢測相結合的方法。對SPOT5遙感圖像進行處理的同時,利用GPS在實地對沙灘與沙丘,沙丘與森林、植被,白色沙丘與灰色沙丘的分界線進行打點定位,在實地得到不同地物的分類情況和界線。
2 隨機森林算法
沿海地區分類的方法是基于高分辨率多光譜圖像隨機森林監督分類的方法。隨機森林的兩個主要參數為m和T,m是在在判定決策樹節點隨機分割選擇輸入變量的數量(默認,其中p是屬性的數量),T是在隨機森林中決策樹樹木的數量。在本研究中,M = 2,因為它使用四個屬性,分別是四個光譜波段(R,G,B,NIR)。此外,隨機森林需要的預測能力可以從袋外數據(Out-Of-Bag)進行誤差估計。袋外數據樣品是一組沒有被用于當前決策樹約37%的訓練數據。該樣品用于預測估計誤差,并評估操作變量的重要性。
隨機森林算法:
輸入:S——訓練集; T——在森林決策樹的數量;m——在隨機分割選擇輸入變量的數量。
輸出:所有樹木組成的隨機森林
(1)從1到T進行循環處理。
(2)隨機從訓練集S中選取部分數據Si 來建立樹木。
(3)只有根節點的樹木,也就是空樹,作為森林的第一棵樹。
(4)通過參數Si,m,從樹木的根節點開始建立每一棵樹木。
(5)將樹木添加森林,組成森林。
(6)回到森林。
(7)通過計算袋外數據和混淆矩陣得到誤差。
3 數據分析
采樣數據被分為五類:沙灘、白色沙丘、灰色沙丘、灌木和森林(如下表所示)。可以看到采樣數據分布并不均勻,森林的采樣點數量較其他類別多,所以在之后的數據處理中盡量要避免類別不平衡而導致分類誤差過大。
數據集被分為兩部分:訓練集和測試集,訓練集大小設定為數據的75%,測試集大小設定為基準數據的25%(如下表所示)。
4 檢測結果
我們設置不同的隨機森林參數來對沿海地貌測試分類。以下列出的所有結果都來源于平均超過10次的計算。
決策樹的數量從1,25,101,251到501依次變化測試,并通過混淆矩陣評價每一組誤差的情況。以此分析,分類精度隨著決策樹樹木數量的提高而增加。 在25樹木的情況下,袋外數據預測誤差為23.83%和對測試樣本的誤差為23.03%(±10%)。使用501樹木,袋外數據誤差減小到20.24%,而在試驗樣品的誤差為13.43%(±4%)。
袋外數據和測試集的混淆矩陣(如上表所示)的行是實際的類和列是預測的類。可以注意到,大部分類都有較低的錯誤率,低于20%。然而灌木位于邊界,是海灘和沙丘的部分界限,數量較少,所以分類誤差較大。而白色沙丘和灰色沙丘因為性質相似,所以分類上也存在一定困難。
5 結論
機器學習是遙感影像智能處理的一個核心問題和熱點問題,而Leo Breiman 等人提出的隨機森林是一種新興的機器學習方法,具有堅實的理論基礎,方便、準確、快速并具有分析數據特點等優點。這個方法在沿海地貌這個數據量大,較為復雜的地區有著良好的表現,計算速度、精度遠超過傳統方法,是一個值得談到和研究的機器學習方法。
參考文獻:
[1]Breiman L.(2001). Random Forests. Machine Learning, 45:5-32.
[2]Guo L., Boukir S.(2011), Une nouvelle méthode délagage densemble de classifieurs basée sur le concept de marge, Traitement du signal, 6:491-514.
[3]Guo L.(2011), Classifieurs multiples intégrant la marge densemble. Application aux données de télédétection, thèse de Doctorat, université de Bordeaux 3.
作者簡介:張作淳(1986-),男, 浙江杭州人 ,碩士研究生,助教,研究方向:遙感研究。endprint