基于不同分類器的農用地分類提取

2019-10-21 11:25:00趙忠國

新疆農業科學 2019年8期

關鍵詞：分類

張峰，趙忠國，李剛, 陳剛

(1.新疆交通職業技術學院，烏魯木齊， 830052；2.新疆大學資源與環境科學學院，烏魯木齊,830052；3.河南測繪職業學院，鄭州，450000)

0 引言

【研究意義】遙感影像分類是獲取地物的有效信息，而分類方法的選擇是影響分類精度的關鍵因素[1]。傳統的遙感分類方法在資料獲取中受到人員的限制，在大面積的調查過程中也存在時間的制約，分類精度會受到數據的質量和判讀者的經驗水平的影響[2]。近年來，遙感分類不管從數據的來源和質量方面都有了進一步的發展，在分類方法上更趨向人工智能領域的發展[3]。目前，伴隨著神經網絡、支持向量機、隨機森林等分類器技術的快速發展，結合高質量的遙感衛星數據，使得遙感分類的精度有了進一步的提升。選擇一種合適分類器對遙感分類的精度具有重要意義。【前人研究進展】目前支持向量機(SVM)已經在鹽堿地信息提取、濕地遙感分類、圖像建筑物等方面得到了廣泛的應用[4-6]，支持向量機的高分辨率遙感影像的艦船目標識別研究也得到了應用[7]。程彬[8]通過利用最大似然法和支持向量機的方法對乾安縣土地利用進行分類研究，結果表明支持向量機方法分類精度更高。隨機森林(RF)已經在遙感圖像分類中涉及樹種分析[9]、土地分類[10]、生態區的劃分[11]等方面得到了廣泛的應用。Pierce 通過隨機森林來對當地的森林火災進行預警，大大降低了火災風險程度[12]。隨機森林也應用到高光譜遙感圖像分類中的應用，李壘[13]通過提取高光譜數據的光譜信息和空間結構，提出了一種新的方法，且分類精度高于單一特征的方法。【本研究切入點】不同類型遙感影像各具特點、不同分類器各具優缺點，很難找到一個適合多種應用需求的分類器[4]。基于Landsat 8 OLI衛星遙感影像為數據源，對新疆奇臺縣農用地(草地、裸地、冬小麥、其他耕地、水體、道路)進行分類，利用支持向量機(SVM)、隨機森林(RF)和神經網絡(Neural Net)三種分類器對不同地物地類提取精度進行對比分析。【擬解決的關鍵問題】利用不同分類器方法對研究區農用地進行分類，并對不同方法進行比較分析，找出一種精度相對比較高的適合研究區地物的分類方法。

1 材料與方法

1.1 材料

奇臺縣位于新疆東北部，東與木壘縣為鄰，南與吐魯番市交界，西連吉木薩爾縣，北接富蘊縣、青河縣，位于E89°13′-91°22′，N42°25′-45°29′。東西橫距150公里，南北縱距250公里，縣域總面積1.93萬平方公里。奇臺縣屬中溫帶大陸性半荒漠干旱性氣候。年平均氣溫5.5℃。7月平均氣溫22.6℃，年平均降水量269.4mm，農業資源豐富。圖1

圖1 研究區示意
Fig.1 Sketch map of research area

研究影像從地理空間數據云網站獲取兩景Landsat 8 OLI 影像數據(http://www.gscloud.cn/)，成像時間為2017年4月19。將Landsat 8 OLI影像在ENVI軟件的FLAASH模塊完成輻射定標、大氣校正，并對進行圖像鑲嵌、圖像裁剪工作。輻射定標主要實現DN值到輻射率的過程；大氣校正減少或消除大氣對遙感影像的影響；對兩幅相鄰遙感影像進行大范圍、無縫拼接，通過圖像裁剪去除非研究區，最后得到研究區域。

實地GPS采樣的50個野外實測點數據主要用來對冬小麥分類的驗證，用高分辨率的Google Earth，利用目視判讀對研究影像分類進行驗證。

1.2 方法

隨機森林法是用N來表示訓練用例(樣本)的個數，M表示特征數目。通過輸入特征數目m，用于確定決策樹上一個節點的決策結果；其中m應遠小于M。從N個訓練用例(樣本)中以有放回抽樣的方式，取樣N次，形成一個訓練集(即bootstrap取樣)，并用未抽到的用例(樣本)作預測，評估其誤差。對于每一個節點，隨機選擇m個特征，決策樹上每個節點的決定都是基于這些特征確定的。根據這m個特征，計算其最佳的分裂方式[14]。

支持向量機是一種二分類模型，目的是尋找一個超平面來對樣本進行分割，分割的原則是間隔最大化，最終轉化為一個凸二次規劃問題來求解。同時能夠在有限樣本信息的條件下，在學習精度和學校效果之間找到最佳平衡[15]。

神經網絡包括輸入層、隱含層和輸出層，輸入層主要是包括單個訓練像元的信息，比如光譜信息、高程、坡度等信息。不同層之間由互相連接的節點構成,因此可使得信息與多個方向互通。當訓練樣本數據越具有代表性，神經網絡就越能映射真實世界的反應，從而得到精確的分類結果[16]。

2 結果與分析

2.1 參數精度檢驗

選用支持向量機算法(SVM)、隨機森林算法(RF)和神經網絡方法(NeuralNet)三種分類器對農用地分類提取進行對比分析。為保證分類精度，首先對三種分類器的參數進行分析。隨機森林算法通過設置不同決策樹的數量以及停止分割的最小樣本數從而找出最適參數，三者所選特征均一致。隨機森林算法決策樹數量參數(Number of Trees , NT)設置對精度評價結果。表1

表1 決策樹數量下精度變化
Table1 Effect of Decision Tree Number on Accuracy

決策樹數量NT1102030405060708090100總體分類精度OA89.37%92.11%92.57%92.62%92.71%92.70%92.85%92.56%93.00%92.91%92.89%卡帕系數Kappa0.8590.8950.9010.9020.9030.9030.9050.9010.9070.9060.905

研究表明,隨機森林算法決策樹數量的不斷增加，分類的總體精度整體在不斷緩慢增高，Kappa的值也隨之緩慢增高當決策樹數量為80時，總體精度和kappa系數達到最大分別為93.00%、0.907，不過從整體角度來評價分類精度，決策樹數量對分類總體精度不大。控制決策樹數量為80時，對分割的最小樣本數進行研究，隨機森林算法不同分割的最小樣本數(Min Node Samples，MNS)參數設置對精度評價結果。表1，表2

表2 停止分割的最小樣本數參數下精度變化
Table2 the Effect of Minimum Sample Number Parameters on the Accuracy of Stopping Segmentation

最小樣本數MNS11020304050607080總體分類精度OA93.00%92.74%92.11%92.07%94.30%91.49%91.58%91.17%91.14%卡帕系數Kappa0.907 20.903 80.895 40.894 70.92510.8870.888 30.882 50.882 4

當控制決策樹數量為80時，不同分割的最小樣本數對分類總體精度整體先增加后減少，kappa系數的變化與總體精度變化基本保持一致，但MNS=1時，分類整體精度高于其他分割的最小樣本數參數(除MNS= 40),與MNS 是表示停止分割的最小樣本數，MNS=1時，分割的更加精細，提高了分類總體精度。MNS=40時取得最高的總體精度94.30%、kappa系數為0. 9251。

支持向量機算法核函數選擇徑向基核函數，懲罰系數選擇30，gamma參數設置為0；神經網絡算法激活函數選擇對數(Logistic)，訓練貢獻閾值0.9，權重調節速度為0.2，由于進行非線性分類，隱藏層默認設置為1，當迭代次數為1 000次或訓練RMS值小于0.1時停止訓練，通過不斷訓練得到最好的神經網絡RMS誤差圖，訓練迭代到800次時訓練的均方根RMS誤差趨近于0.33，得到研究區的初步分類圖，接著通過聚類等分類后處理方法，得到研究區的分類結果。圖2，圖3

圖2 神經網絡均方根(RMS)誤差
Fig.2 RMS Error of Neural Network

圖 3 研究區分類
Fig.3 Study Area Classification Diagram

2.2 分類精度評價

其中在神經網絡分類中，草地的制圖精度、用戶精度較低，錯分誤差為14.41%，漏分誤差為25.37%；冬小麥制圖精度為97.44%，用戶精度93.73%，錯分、漏分誤差分別為6.27%和2.56%。表3

表3 神經網絡(Neural Network)農用地分類精度評價結果
Table 3 Accuracy Evaluation of Neural Network Ground Object Classification

地物分類Classificationof objects制圖精度Cartographic accuracy用戶精度User accuracy錯分誤差Commission Errors漏分誤差Omission Errors草地Grassland74.6385.5914.4125.37裸地Bare land99.6592.137.870.35冬小麥Winter wheat97.4493.736.272.56其他耕地Other cultivated land89.5198.221.7810.49水體Water body100.00100.000.000.00道路Road88.6297.142.8611.38

表4 支持向量機(SVM)農用地分類精度評價結果
Table 4 Accuracy Evaluation of Ground Object Classification Based on Support Support Vector Machine

地物分類Classification of objects制圖精度Cartographic accuracy用戶精度User accuracy錯分誤差Commission Errors漏分誤差Omission Errors草地Grassland67.3672.8427.1632.64裸地Bare land100.0094.255.750.00冬小麥Winter wheat94.6191.788.225.39其他耕地Other cultivated land93.5282.3517.656.48水體Water body100.00100.000.000.00道路Road34.5185.2514.7565.49

在支持向量機算法在地物分類精度評價中，草地的制圖精度和用戶精度分別為67.36%和72.84%。錯分誤差和漏分誤差分別達27.16%和32.64%，相對于裸地、冬小麥和其他耕地分類精度最低。在隨機森林算法對冬小麥分類的制圖、用戶精度分別為96.36%和96.90%，錯分、漏分誤差為3.10%和3.64%，三者分類整體精度評價結果。表6

三種算法的地物分類總體精度支持向量機(SVM)<隨機森林(RF)R<神經網絡(Neural Net),在 kappa系數方面支持向量機(SVM)<隨機森林(RF)<神經網絡(Neural Net),神經網絡分類總體精度為94.84%比隨機森林(NT= 80，MNS=40)分類高0.54%，比SVM分類算法高4.09%；kappa系數為0.9317，比RF、SVM分別高0.0069、0.54。整體分類中使用神經網絡分類對研究區地物分類效果最好。

表5 隨機森林(RF)農用地分類精度評價結果
Table 5 Evaluation of Random Forest Classification Accuracy

地物分類Classification of objects制圖精度Cartographic accuracy用戶精度User accuracy錯分誤差Commission Errors漏分誤差Omission Errors草地Grassland87.0782.4017.6012.93裸地Bare land99.9393.996.010.07冬小麥Winter wheat96.3696.903.103.64其他耕地Other cultivated land93.6888.1111.896.32水體Water body97.5396.502.103.20道路Road56.9089.7110.2943.10

表6 精度整體評價結果
Table 6 Accuracy evaluation results

分類算法Classification algorithm支持向量機SVM神經網絡Neural Net隨機森林RF總體分類精度OA90.75%94.84%94.30%卡帕系數Kappa0.877 60.931 70.925 1

3 討論

遙感圖像分類的主要研究目的是提取有效的地物類型，在地物信息提取過程中，如何選擇適當可行的分類方法是我們所面臨的主要問題之一。機器學習分類方法作為目前流行的算法，在分類精度方面和時間效率方面相對于傳統的分類方法具有一定的優勢[17]。

由于遙感成像的復雜性和多種不可控制因素的影響，在傳統感影像分類過程中存在一定的模糊性和不確定性。神經網絡算法能夠在一定程度上消除上述的弊端[18]研究中神經網絡算法相對于支持向量機算法和隨機森林算法在模型訓練時間消耗長，但是在分類精度方面是最優的，對于容易錯分漏分的地物得到了比較好的分區，能夠更準確地提取出目標地物。但是閆琰利用了神經網絡和支持向量機等四種方法對遙感圖像監督分類進行了總體分類精度評價，認為支持向量機在總體分類精度比神經網絡算法較高[19]，原因之一有可能在于在兩者之間樣本的選擇方法不同而造成。研究在神經網絡算法中選擇的模型參數均按默認值，在今后的研究中選取合理的神經網絡模型和權重調節方面需要進一步的研究，因為默認的權重是用標準正態分布隨機初始化的存在一定的弊端，因此在權重選擇方面要進一步的實驗從而選擇最優權重。

劉毅[3]等通過對隨機森林參數設置對分類精度的影響程度進行了研究，認為參數設置對分類精度的影像不敏感，使用默認條件下，就可以達到理想的分類效果。研究按照不同參數設置進一步實驗得出隨機森林分類控制決策樹數量和最小樣本數，從而保證分類效果。但是在最終分類精度方面高于支持向量機算法而小于神經網絡算法。但是在實驗過程中能夠找到最優合適的分類樹數目，能夠不僅能提高分類精度同時在運算速度方面相對于其他算法具有一定的優勢。

研究確定樣本的方法是結合實地調查、目視解譯標志與高分辨率遙感影像相結合的選取樣本的方法，雖然在一定程度上提高了樣本的精確性，但是在以后研究中，樣本的選擇要根據不連續性、代表性、分布、數量等方面綜合考慮，進而保證分類結果的精度。同時除了樣本因素考慮外，要進一步提高特征選擇，如果選擇特征少與多，會造成分類器設計簡單與復雜，影響分類。因此進一步要研究分類所有特征，從而達到最優。

4 結論

在神經網絡算法中，冬小麥制圖精度為和用戶精度分別為相對于草地、裸地和其他耕地的精度要高。在支持向量機算法中，草地的信息提取精度相對于裸地、冬小麥和其他耕地最低。在隨機森林算法中，耕地的提取精度整體要比其他地類提取的精度要好。而三種算法的地物分類總體精度進行比較中，神經網絡算法的分類精度高于其它算法，適合該區域的基于遙感影像的農用地地物分類信息提取方法。

基于不同分類器的農用地分類提取

0 引 言

1 材料與方法

1.1 材 料

1.2 方 法