姚 揚,秦海明,張志明,王偉民,周偉奇,4,5,*
1 中國科學院生態環境研究中心城市與區域生態國家重點實驗室,北京 100085 2 云南大學生態與環境學院暨云南省高原山地生態與退化環境修復重點實驗室,昆明 650091 3 深圳市環境監測中心站,國家環境保護快速城市化地區生態環境科學觀測研究站,深圳 518049 4 中國科學院大學,北京 100049 5 北京城市生態系統研究站,北京 100085
樹種多樣性是生態學研究的重要內容。樹木的種類和空間分布是生物多樣性保護、森林生態系統服務等研究的基本數據源[1—2],服務于森林資源保護與森林可持續性管理[2—3]。但傳統的森林清查和其他基于現場的數據采集很難獲取詳細的樹種空間分布信息[4—5]。衛星遙感數據在樹種分布研究中盡管已成功應用,但由于其較低的空間分辨率和光譜分辨率,精度普遍較低[6—7]。無人機近地面遙感技術可以采集得到具有更多信息量的數據,如可見光數據、高光譜數據、激光雷達數據(Light Detection And Ranging,LiDAR)等,并對應提取分類特征[4—5,8],從而實現樹種分類精度的提升[9—10]。
目前基于無人機數據的樹種分類研究已經在溫帶森林取得一定研究成果,分類精度較高。如Huang等基于高光譜數據對中國9個北方樹種進行分類,分類精度高達95.7%[8]。Prosek等基于可見光紋理信息和多光譜信息對捷克溫帶森林中6個植物種進行分類,精度為88.2%[11]。Beyer等基于多光譜植被指數、可見光紋理以及熱紅外冠層溫度特征,對溫帶9類樹種進行分類,制圖精度達到89.0%[12]。而熱帶、亞熱帶森林由于其豐富的物種多樣性,一直是生態學研究的重點區域,但其林分條件復雜,樹冠茂密,物種眾多,一直難以獲得較高精度的樹種分類結果,如Féret和Asner基于高光譜影像對夏威夷森林的9個樹種開展分類,精度僅為70%[13],Sothe等用高光譜波段分類巴西亞熱帶森林的12種樹種,最高精度為72.3%[14]。盡管部分學者獲得了較高精度的制圖結果[3,15],但分類樹種數相對偏少。多樹種的熱帶、亞熱帶森林的分類精度提升一直是一個難點。
本實驗利用可見光、高光譜、LiDAR等多源無人機遙感數據,基于機器學習的方式和特征融合的理念探究無人機遙感多源數據在亞熱帶林分條件下的樹種分類潛力,分析機器學習分類器、不同數據源、不同分類特征等分類過程與方法對分類精度的影響,為亞熱帶森林高精度分類制圖提供經驗和例證。
研究區位于深圳市坪山區馬巒山(114.4083°—114.4133°E,22.6886°—22.6931°N),平均海拔100m,海拔梯度較大。該區域的氣候類型是亞熱帶海洋性氣候,土壤類型為砂壤土,主要植被類型是熱帶植被和亞熱帶植被。研究區內植物種類較多,包括馬占相思(Acaciamangium)、木荷(Schimasuperba)等樹種、紅茅草(Rhynchelytrumrepens)、芒萁(Dicranopterispedata)等草本植物。研究區位置及正射影像見圖1。

圖1 研究區Fig.1 Study area
本研究數據采集于2019年8月5日,當日晴朗無風,陽光充足。航線的航向重疊度設置為65%,旁向重疊度設置為80%,以確保圖像的多視圖和清晰的表面特征。傳感器及數據信息見表1。

表1 數據信息Table 1 Data information
在飛行區域均勻布設控制點,通過架設實時動態全球定位系統(RTK-GPS),測量并記錄控制點的經緯度和高程信息,用于后續對可見光、高光譜影像進行幾何校正和絕對坐標系配準。實地樹種調查主要包括樣地內樹種信息、優勢種信息以及經緯度信息。
1.3.1可見光數據
可見光影像的處理主要包括兩個過程,一是利用運動恢復算法SfM(Structure from Motion)完成稀疏點云匹配和重建,二是根據多視立體視覺算法MvS(Multi-view Stereo)生成稠密點云[16—17]。在此基礎上通過克里金插值生成研究區的格網和紋理,最后獲得正射影像。根據正射影像計算其紋理特征,具體包括均值、方差、協同性等。
1.3.2高光譜數據
高光譜數據依次進行輻射校正,反射校正,幾何校正等預處理工作,以去除干擾,提高影像幾何精度,并將原始影像的DN值轉換為反射率[3,8],之后對相鄰條帶做影像配準后再進行鑲嵌拼接[18]。基于高光譜影像提取最小噪聲變換(Minimum Noise Fraction Rotation,MNF)分量[8,19]和窄帶植被指數[20],以實現高光譜影像降維,并反映植物冠層光譜信息的差異。具體選取包括代表葉面積和冠層結構[21—23],葉和冠層色素[22,24—25],植物脅迫[26—27]和光能利用效率[28—30]等20余個窄帶植被指數。
1.3.3Lidar數據
LiDAR點云數據基于去噪、濾波等預處理,消除噪聲干擾,并區分地面點和非地面點?;诘孛纥c平均高程生成數字高程模型(Digital Elevation Model,DEM)[31],之后利用非地面點生成數字表面模型(Digital Surface Model,DSM)[32],二者做差即為冠層高度模型(Canopy Height Model,CHM)[9,33]。此外,為進一步挖掘不同樹種的結構特征,在分類軟件中計算點云高度分位數,均值,眾數等特征。
根據實地樹種調查的點位信息,手動勾畫樣本,按照7:3的比例將70%的樣本用于樹種分類,30%用于分類后檢驗。分類樣本各類型數量見表2。

表2 分類樣本數量統計表Table 2 The quantity of the classification samples
1.5.1分類方法
本研究使用面向對象的分類范式將影像分割為有意義的對象,分割方法為多尺度分割,使用所有特征參與分割[34—35],并基于ESP插件來選取最適分割參數[36—37]。通過ESP結果和目視檢查,最終光譜帶的權重為1,CHM的權重設置為5,分割尺度設置為15,形狀指數設置為0.3,緊湊度設置為0.5。
計算每個分割對象的紋理、植被指數、結構等分類特征,點云高度分位數和眾數的計算公式如下
(n-1)×p=i+j,Hp=(1-j)×Hi+1+j×Hi+2
(1)
式中,n為區域內點云個數,p為分位數比率,i,j為計算結果的整數和小數部分,Hp為高度分位數,Hi+1、Hi+2為區域內點云高度排序后的第i+1、i+2個點云的高度。
HMode=Hmean-3×(Hmean-H50%)
(2)
Hmode是點云高度眾數,Hmean是點云高度均值,H50%是點云高度中位數。
本研究選擇機器學習中較為常用的四個分類器,隨機森林(Random Forests,RF)、支持向量機(Support Vector Machine,SVM)、貝葉斯(Bayes)以及K最近鄰(K-Nearest Neighbor,KNN)來探究不同分類器對分類精度的影響,參數設置見表3。

表3 各分類器優缺點及參數設置Table 3 Advantages and disadvantages of each classifier and parameter settings
1.5.2精度評價
利用總體精度Overall accuracy(OA)和Kappa系數評估分類模型總體準確性和可靠性。基于F1分數(生產者精度和用戶精度的調和平均數)來評估特定類別的分類性能。
Z統計量被用來檢驗兩個分類混淆矩陣之間的差異性,進而表征不同方法間的統計學差異,其計算公式為
(3)
式中,k1,k2為混淆矩陣,var(k1)和var(k2)代表混淆矩陣的方差。
基于總體分類精度及各類別的F1分數,對四個分類器的效能和分類精度進行評價。
1.5.3分類模型與特征重要性
在最優分類器下,將可見光、高光譜、LiDAR數據按照單數據源、雙數據源以及多數據源的方式,構建分類模型,并比較其總體分類精度和Kappa系數,判定基于不同數據源模型的分類精度差異。之后基于精度最高的分類模型,重新排列分類特征的順序或逐級加入分類特征,通過測量每種特征對模型預測準確率的影響,計算所有分類特征的重要值。
各分類器的分類精度和Z統計值結果見表4,總體精度從高到低的排序為RF、SVM、Bayes、KNN,四者的總體精度均存在顯著差異。其中精度最低的KNN分類器,OA和Kappa系數低于0.9,另三種分類器的OA和Kappa系數則均高于0.9。

表4 各分類器精度Table 4 The accuracies of all classifiers
各分類器的分類結果見圖2,圖中可以看到KNN分類器的分類結果較其他有較大差別,另三個分類器的分類趨勢和圖斑分布則相對較為一致。

圖2 不同分類器分類結果Fig.2 Classification results of different classifiersRF:隨機森林,Random Forests;SVM:支持向量機,Support Vector Machine;Bayes:貝葉斯,KNN:K最近鄰,K-Nearest Neighbor
各樹種的F1分數結果見圖3,不同分類器對不同樹種的響應情況不同,基于RF分類器的各樹種F1分數表現最好,除黃槿之外,其余類別的F1分數均高于0.9。其他分類器的各樹種精度差異較大,精度最低的KNN分類器,除紅茅草,馬占相思外其余樹種F1分數均低于0.9。Bayes和SVM分類器中的部分樹種F1分數雖高于RF,但精度較RF低的類別更多,尤其是芒草和小葉榕,其分類精度顯著低于RF分類器。綜上,RF分類器的分類效果最好。

圖3 不同分類器各樹種F1分數Fig.3 F1 score of each tree species of the different classifiers
基于RF分類器的多源數據模型精度差異如表5,各數據源和模型之間的顯著性檢驗結果見表6。當使用單一數據源時,總體精度和Kappa系數從高到低的排序分別為高光譜數據、LiDAR數據、可見光數據,且三者之間的差異極顯著。說明三種數據所含信息量的高低排序分別為豐富的光譜信息,結構信息和可見光紋理信息。

表5 多源數據模型精度差異Table 5 The accuracies of different models

表6 多源數據模型Z統計量Table 6 The Z-statistics of different models
從雙數據源看,可見光結合LiDAR數據的分類精度分別從74.66%、77.45%提升至87.68%(表5),差異極顯著,高于單獨使用高光譜數據的分類精度(0.35%)。而高光譜再結合可見光、LiDAR數據,精度將進一步分別提升3.09%和6.1%,達到90.42%和93.43%,且差異極顯著。而當使用全部數據源的時候,較高光譜與LiDAR結合時,精度提升2.2%達到最高(95.63%),但差異不顯著(Z=1.504)。高光譜與LiDAR結合的模型便可較好地區分各樹種,引入可見光紋理數據并未顯著提高分類精度。
不同分類特征的重要性結果如圖4。重要性最大的是結構特征,包括點云高度特征、DEM、CHM等,其次是植被指數,如改進光化學反射指數(Modified Photochemical Reflectance Index,MPRI),葉綠素含量指數(Datt Chlorophyll Content Index,Datt),紅邊指數(Red Edge Index,REI),調整植被指數(Soil-Adjusted Vegetation Index,SAVI),花青素含量指數1(Anthocyanin Content Index1,ACI1)等。紋理特征和MNF的前五分量重要性相對較低。其中,綠光波段的紋理特征的重要性要高于紅光和藍光,而隨著分量維數的增加,MNF的前五分量重要性逐漸下降,可見最小噪聲變換分量在對高光譜數據降維的同時會損失較多信息量,在亞熱帶森林分類過程中難以體現優勢。

圖4 分類特征重要性Fig.4 The importance of different classification featuresDEM:數字高程模型,Digital elevation model;Height_mean:冠層高度均值,Mean canopy height;Height_95%:冠層高度95%分位數,The 95% quantile of the canopy height;Height_90%:冠層高度90%分位數,The 90% quantile of the canopy height;CHM:冠層高度模型,Canopy height model;MPRI:改進光化學反射指數,Modified Photochemical Reflectance Index;Datt:葉綠素含量指數,Datt Chlorophyll Content Index;REI:紅邊指數,Red Edge Index;SAVI:調整植被指數,Soil-Adjusted Vegetation Index;ACI1:花青素含量指數1,Anthocyanin Content Index 1;Vog2:Vog植被指數2,Vogelmann Red Edge Index 2;PPR:植物色素比,Plant Pigment Ratio;Green_mean:綠光波段均值,The mean value of green band;GI:綠度指數,Green Index;NDVI:歸一化植被指數,Normalized Difference Vegetation Index;MRESRI:改進紅邊比值植被指數,Modified Red Edge Simple Ratio Index;SIPI:結構不敏感色素指數,Structure Insensitive Pigment Index;Red_entropy:紅光波段信息熵,The entropy of red band;Green_correlation:綠光波段相關性,The correlation of green band;MNDVI:改進型歸一化紅邊植被指數,Modified Red Edge Normalized Difference Vegetation Index;B550:550nm處波段值,The band value of 550nm;Green_homogeneity:綠光波段協同性,The homogeneity of green band;ARI2:花青素反射指數2,Anthocyanin Reflectance Index 2;Blue_correlation:藍光波段相關性,The correlation of blue band;Blue_ second moment:藍光波段二階矩,The second moment of blue band;Red_homogeneity:紅光波段協同性,The homogeneity of red band;Grenn_entropy:綠光波段信息熵,The entropy of green band;PSSR:特異性色素簡單比值指數,Pigment-Specific Simple Ratio;Red_dissmilarity;紅光波段相異性,The dissmilarity of red band;Red_mean:紅光波段均值,The mean value of red band;Blue_homogeneity:藍光波段協同性,The homogeneity of blue band;Green_contrast:綠光波段對比度,The contrast of green band;Blue_entropy:藍光波段信息熵,The entropy of blue band;B660-740:660—740nm處均值,The mean value of 660—740nm;RI2:比值植被壓力指數2.Ratio Index 2;Height_mode:冠層高度眾數,The mode of the canopy height;Blue_variance:藍光波段標準差,The variance of blue band;PSI:植物壓力指數,Plant Stress Index;Blue_dissimilarity:藍光波段相異性,The dissimilarity of blue band;Red_variance:紅光波段標準差,The variance of red band;CI2:葉綠素指數2,Chlorophyll Index 2;Red_contrast:紅光波段對比度,The contrast of red band;Green_ dissimilarity:綠光波段相異性,The dissimilarity of green band;Green_ second moment:綠光波段二階矩,The correlation of green band;RVSI:紅邊植被壓力指數,Red Edge Vegetation Pressure Index;Green_variance:綠光波段標準差,The variance of green band;SR:紅邊斜率,The slope of red edge;Blue_mean:藍光波段均值,The mean value of blue band;EVI:增強型植被指數,Enhanced Vegetation Index;MNF1:最小噪聲分離變換分量1,The first component of the Minimum Noise Fraction Rotation;MNF2:最小噪聲分離變換分量2,The second component of the Minimum Noise Fraction Rotation;Blue_contrast:藍光波段對比度,The contrast of blue band;Red_ second moment:紅光波段二階矩,The second moment of red band;B750:750nm處波段值,The band value of 750nm;MNF3:最小噪聲分離變換分量3,The 3th component of the Minimum Noise Fraction Rotation;MNF4:最小噪聲分離變換分量4,The 4th component of the Minimum Noise Fraction Rotation;MNF5:最小噪聲分離變換分量5,The 5th component of the Minimum Noise Fraction Rotation
對于分類器,本研究證明在亞熱帶林分條件下,RF分類器的總體精度和單類樹種分類精度均為最高,雖然不同分類器在不同情境下的表現力存在一定差異[38—39],但RF分類器具有較好的先天優勢,其對參數設置不敏感,可以在多物種數分類過程中獲得較高的精度,在各種樹種配置條件下均有較高的分類適用性[39]。
對于數據源,高光譜影像在熱帶亞熱帶樹種分類過程中的應用前景較好[13—14]。本研究中只基于高光譜數據的模型,總體精度即達到87.33%。各類別的光譜曲線如圖5。

圖5 各類別光譜曲線圖Fig.5 Spectral curves of each category
不同類別間存在較明顯差異,唯獨馬占相思和木荷,陰香和芒草之間存在一定的曲線重疊和波形相似。而窄帶植被指數的使用顯著放大了各類別間的差異,只基于高光譜窄帶植被指數數據即可達到86.24%的分類精度,而只基于MNF變換分量的模型分類精度極低,僅為50.34%。雖然二者結合使精度提升1.09%(87.33%),但引入MNF數據前后的差異并不顯著,因此降維后的數據會損失較多信息量,MNF數據的重要性和價值有待進一步探究。后續研究應進一步挖掘高光譜信息特征,嘗試使用原始波段信息,而不是降維后的數據。
單獨使用LiDAR或可見光數據得到的分類精度均不足80%,說明單一的紋理或結構信息均不足以作為分類的解釋因子。但基于二者融合后的數據,分類精度提升至87.68%,精度提升則主要歸因于LiDAR的結構信息[40]。高光譜數據結合LiDAR、可見光影像數據,其中的紋理信息和結構信息可以幫助區分具有相似光譜特征但冠層高度、冠層大小不同的物種[3,41],能夠顯著提高分類精度,較單獨的高光譜數據整體精度提高了8.3%。全特征模型與高光譜+LiDAR模型之間無顯著差異,因此高光譜和LiDAR雙數據源的結合提供了最主要的信息量,而在此基礎上引入可見光紋理數據不會對分類結果產生顯著影響。
排名靠前的分類特征的重要性占比如圖6,在所有分類特征中,前15個分類特征的重要性之和超過60%,其中前5個都是結構特征,分別是DEM,高度均值、高度95%分位數,高度90%分位數,CHM。第6—15位中,窄帶植被指數占到9個,紋理特征中重要性最高的為綠光波段均值,排第十三位。

圖6 重要性前15的分類特征Fig.6 The top 15 of the classification features
本研究中各樹種DEM和CHM均值情況見圖7,樣地內的各樹種分布區域的DEM差異顯著,存在較為明顯的地帶性分布,各樹種之間的高度存在顯著差異。因此在分類特征重要性排序上DEM和結構分類特征的重要性較高,與其他研究結果較為一致[12]。而部分研究也證明當使用所有分類特征時,LiDAR數據得出的分類特征比高光譜特征對物種準確預測的貢獻更大[42],但結合不同傳感器的分類精度結果,高光譜數據仍然是保證分類精度的最主要數據源。
不同植物在550nm附近的綠光波段和700—1000nm的近紅外波段,反射峰存在顯著差異,且后者的反射峰對植物分析十分重要[12,43]。本研究中重要性排名靠前的窄帶植被指數,如改進光化學反射指數,花青素含量指數,植物色素比屬于綠光譜段的植被指數,其余六個均屬于700—1000nm的波譜范圍或含有該譜段的信息(圖6)。而紋理信息中重要性排名最前的也是綠光波段的均值(圖6)。
此外9個最重要的植被指數中,改進光化學指數屬于反映光能利用效率的植被指數,其在判定芽期樹種發揮著重要作用[42]。而葉綠素含量指數、紅邊指數、花青素含量指數等均屬于反映葉和冠層色素的植被指數,調整植被指數、歸一化植被指數屬于反映葉面積和冠層結構的植被指數,均可反映植物生長狀況的差異[8,21,25]。
本實驗尚存在一定的不足,主要在于亞熱帶林分條件下,受限于采集樣本的數量,為避免維數陷阱,無法充分利用高光譜數據光譜信息,而是參照Huang等[8]的處理,使用了MNF變換分量和多種窄帶植被指數,實際結果表明MNF分量難以代表原數據,而植被指數雖然突出了不同樹種間的差異,但尚無法體現不同樹種的光譜特征。對于更大范圍更多種數的亞熱帶熱帶森林制圖,仍需對高光譜特征進行深入挖掘,對應樹種建立特征庫。其次在實驗方法上,部分研究已成功基于可見光影像和深度學習實現高精度的溫帶樹種分類[16,44],而在亞熱帶森林,受限于樣本庫的容量,這方面的研究仍然較少,后續對于林分條件更為復雜的區域,可基于多源數據融合的手段基于深度學習的方法實現更高精度的樹種分類。
本研究探討了可見光、高光譜、LiDAR等多源無人機近地面遙感數據在亞熱帶森林中樹種分類的潛力,發現基于機器學習和利用多源數據可以實現多樹種的分類精度的提高。隨機森林分類器分類精度最高,總體精度為95.63%,Kappa系數為0.948,除黃槿外,其余各類別的F1分數均高于90%。利用多源數據可以顯著提高分類精度,全特征模型精度最高,較單獨使用高光譜數據提升了8.3%,且高光譜和LiDAR數據顯著影響全特征模型分類精度,可見光紋理數據作用較小。眾多分類特征中,重要性從大到小排序為結構特征,DEM數據,植被指數,空間紋理和MNF分量。且紋理和MNF特征在亞熱帶林分下,無法有效對樹種進行區分,而MNF降維后的數據會損失較多信息量,高光譜數據應重點挖掘原波段信息。