王 佳 張隆裕 呂春東 牛利偉
(1.北京林業(yè)大學精準林業(yè)北京市重點實驗室, 北京 100083; 2.北京林業(yè)大學測繪與3S技術(shù)中心, 北京 100083)
森林在維持生態(tài)平衡中發(fā)揮著重大作用,為了保護森林資源,樹種識別是其中重要一環(huán),而傳統(tǒng)意義上的人工實地調(diào)查方法費時費力,激光雷達作為一種主動遙感技術(shù),近年來在國際上發(fā)展迅速,使得遙感技術(shù)用于樹種分類和識別的效率大大提高[1-3]。通過激光雷達進行數(shù)據(jù)掃描,運用點云數(shù)據(jù)軟件處理,可以提取一系列基于激光雷達點云數(shù)據(jù)的森林參數(shù)和變量,進而實現(xiàn)樹種識別。在提取森林參數(shù)方面,LIANG等[4]通過將分離出來的樹干點云數(shù)據(jù)分割成切片,達到自動識別樹干位置的目的。STRAHLER等[5]利用紅外激光雷達獲取林分影像,從中識別單木樹高及胸徑提取葉面積指數(shù),效果良好。KOUKOULAS等[6]使用LiDAR和多光譜遙感數(shù)據(jù)對闊葉落葉林的單木位置、高度和樹種進行制圖,采樣間隔約為2 m。CLARKM等[7]用小光斑LiDAR系統(tǒng)估測熱帶雨林的地形高程和樹高,采樣密度為每平方米9個回波點。劉清旺等[8]利用機載激光點云數(shù)據(jù)提出了一種雙正切角樹冠識別算法,獲取樹冠和樹高數(shù)據(jù)。樹種識別方面,余超[9]使用分類回歸樹、神經(jīng)網(wǎng)絡和支持向量機算法進行研究區(qū)內(nèi)主要風景林樹種的分類,分類回歸樹的總體分類精度可以達到87.1%,支持向量機算法為76.91%,神經(jīng)網(wǎng)絡法只有73.85%。魏田[10]從三維點云數(shù)據(jù)提取單木信息,選用樹干收縮度為樹種分類的因素之一,基于核函數(shù)三次多項式的支持向量機的算法分類,并用單因素分類、雙因素分類與多因素分類的正確率進行對比,得出單因素和雙因素的分類精度低的結(jié)論。PLAZA等[11]從光譜特征角度出發(fā),利用波譜角的不同對城區(qū)中的樹種進行識別,分類效果較好;GEORGE等[12]基于Hyperion影像,采取支持向量機法和面向?qū)ο蠓诸惙▽浞N進行識別,結(jié)果顯示,面向?qū)ο蠓诸惙ǖ木雀哂谥С窒蛄繖C法。文獻[13-15]均是利用高光譜和機載雷達相融合的方法對復雜森林樹種識別,發(fā)現(xiàn)總體分類精度和樹種分類精度比單一高光譜數(shù)據(jù)有所提高。ALONZO等[16]利用激光雷達數(shù)據(jù)在基于冠層尺度上對常見樹種進行分類,分類精度提高了4.2%。李永亮等[17]建立了BP神經(jīng)網(wǎng)絡模型,輸入高光譜特征參數(shù),輸出森林樹種類別,分類綜合精度可達93.3%。
從上述研究可以看出,目前大多數(shù)樹種識別研究主要集中于利用多光譜、高光譜遙感結(jié)合機載激光雷達,對大區(qū)域森林垂直結(jié)構(gòu)的獲取能力較強,但對林冠下層結(jié)構(gòu)描述不詳細,樹種識別精度也有待提高,而地面激光雷達的研究仍主要集中在森林參數(shù)的提取方面,主要包括樹高、冠幅、郁閉度和生物量等。本文通過地面激光雷達獲取樹木點云數(shù)據(jù),利用機器學習較為主流的3種方法,通過對樣木學習生成分類器,依照校園立木的形態(tài)參數(shù)對其進行樹種的分類識別。
胸徑為樹干距地面1.3 m處的直徑。設單木點云中Z坐標最小的為Zmin,在點云數(shù)據(jù)中檢索出Z坐標為Zmin+1.3 m的所有點,設為集合P。求出P中所有點的重心O,對于?Pi∈P,求其到O的距離,最大的距離則為胸徑DBH(Diameter at breast height),單位為cm。
(1)
枝下高位置是樹木主干與樹冠的分割點,對枝下高的測量一般是測量離地面最近的明顯大枝的高度,枝下高即為樹木的主干高度。如果樹木從1.3 m以下分叉,則認為是兩棵樹,1.3 m以上分叉就認為是枝干。所以枝下高大于1.3 m。對于每棵樹,監(jiān)測不同高度處樹干的干徑和重心位置。在每棵樹的點云中取出該樹從1.3 m至最高處的點云。從1.3 m處開始對點云數(shù)據(jù)水平分層,單層厚度10 cm。采用Hough變換和圓擬合方法得到該層樹干圓心和半徑。以獲取的圓心為圓心,提取半徑為2r范圍內(nèi)點云數(shù)據(jù)(r為每層樹干處擬合圓的半徑),將該薄層數(shù)據(jù)體元化,體元尺寸為5 cm×5 cm×10 cm,若體元內(nèi)回波點個數(shù)n>2,則認為該體元被覆蓋。遍歷所有層,得到各層的覆蓋體元個數(shù),即為樹干處垂直剖面。在樹干處點云分布比較集中,而且各層的覆蓋度變化不大,到枝下高處,覆蓋度明顯變大。根據(jù)這個特點,可以得到枝下高位置。該位置所在高度與樹干最低端所在高度之差即是要提取出的枝下高BH,單位為m。
BH=Zmaxb-Zminb
(2)
式中Zmaxb——第1分枝樹干位置坐標
Zminb——立木底部坐標
冠高的提取過程比冠幅的提取更方便。冠高定義為樹冠頂端到樹冠最低端間的豎直距離。在傳統(tǒng)測量當中,冠高的測量難點在于分辨樹冠最低端。在冠層底部較復雜的情況下,找到最低端的過程需要進行仔細觀測。利用地面激光雷達可以對單木的點云進行三維檢視,可以有效解決枝葉間互相遮擋的問題,方便尋找樹冠最低端,準確地提取冠層部分點云。
在樹冠點云數(shù)據(jù)中,樹冠頂部即是其Z坐標最大值Zmaxc,樹干第1分枝的位置是Z坐標最小值Zminc,其二者的差值即是樹冠的冠高CH,單位為m。
CH=Zmaxc-Zminc
(3)
在完整的立樹點云數(shù)據(jù)中,立木頂部即是其Z坐標最大值Zmaxt,立木底部的位置是Z坐標最小值Zmint,其二者的差值即是樹高TH,單位為m。
TH=Zmaxt-Zmint
(4)
枝下高為從地面算起的第1個分枝與地面之間的豎直距離,冠高為冠層頂端到冠層最低端的豎直距離,樹高為樹的頂端到地面的距離。三者的關系如圖1所示。

圖1 枝下高、冠高、樹高的關系Fig.1 Relationship between heights of branch, crown and tree
點集的凸包是指一個最小凸多邊形,滿足點集Q中的點或者在多邊形內(nèi)或者在多邊形上。本文中提取冠幅的先導步驟是采用二維凸包的快速算法獲得樹冠的外輪廓,如圖2所示。

圖2 冠層點云的凸包Fig.2 Convex hull of canopy point cloud
設凸包頂點的集合為V。對于凸包的每一個頂點Vi,計算其在二維坐標內(nèi)與其他頂點Vj的歐氏距離,距離最長的兩個頂點之間的距離就是該樹的最長冠幅LS,單位為m。

(5)
式中XVi、YVi、XVj、YVj——頂點Vi、Vj的坐標
設直線l:y=kx+b,令l穿過最長冠幅的2個頂點,將頂點Vi、Vj代入l中,有
(6)
直線l過Vi、Vj中點的垂線l′可表示為
(7)
設凸包內(nèi)的點的集合為P,對于?Pi∈P,判斷其是否在l′上。設在l′上的Pi的集合為P′,P′中歐氏距離最長的兩點的距離即為需要求的垂直最長方向冠幅LCS,單位為m。
(8)

最長冠幅(LS)與垂直最長方向冠幅(LCS)的關系如圖3所示。

圖3 最長冠幅(LS)與垂直最長方向冠幅(LCS)Fig.3 The longest spread of crown cover (LS) and the longest cross-spread of crown cover (LCS)
支持向量機產(chǎn)生自在線性可分前提下最優(yōu)分類面的發(fā)展,分類線的方程是xω+b=0,對分類線方程進行歸一化處理,得到樣本的集合(xi,yi),i=1,2,…,n,x∈Rd,y∈(-1,1),該樣本集線性可分,且滿足
yi[|(xi,ω)|+b]-1≥0 (i=1,2,…,n)
(9)
支持向量機的核函數(shù)有3類,分別是神經(jīng)網(wǎng)絡核函數(shù)、徑向基核函數(shù)和多項式核函數(shù)。每一種核函數(shù)對應不同類型的非線性映射問題。
分類回歸決策樹方法(CART)是BERIMAN等[18]在1984年提出的一種非參數(shù)方法。分類回歸決策樹依用途可以分為分類決策樹和分類回歸樹兩種。本文中根據(jù)多種測樹因子對樣地中選取的4種樹種進行分類,主要用到的是分類決策樹。分類決策樹將分類變量的情況作為因變量(又稱目標變量、輸出變量)。假設自變量(又稱輸入變量、屬性)是隨機向量Xn×m(X1,X2,…,Xm),Xi既可以是連續(xù)變量,也可以是離散變量,設它的定義域為Dom(Xi) 。Y是隨機變量,作為因變量,如果Y為分類變量,設其定義域是Dom(Y)={1,2,…,J},那么由自變量Xi和因變量Y構(gòu)建的決策樹就是分類決策樹。分類決策樹將分類變量的情況作為因變量。CART是非參數(shù)方法,它不需要假設總體服從先驗分布。CART在計算過程中充分利用二叉樹結(jié)構(gòu),是一種二分遞歸的分割方法。樣本集在一定的分割規(guī)則下被分割為2個樣本集,生成的決策樹每個非葉子節(jié)點都有2個分支。此過程在樣本集上始終重復進行,直到不可再分成葉子節(jié)點。
BREIMAN[19]在隨機決策森林方法的基礎上提出了把分類樹組合成隨機森林再匯總分類樹的隨機森林算法。不同的CART決策樹由投票決策組合成隨機森林[20],隨機森林算法對訓練集的隨機性策略分為訓練樣本選擇和特征屬性選擇。隨機森林的抽象表示如下:假設有K棵CART樹組成隨機森林,產(chǎn)生第i棵決策樹的函數(shù)表示為:fi(x,θi):X→Y,i=1,2,…,K,這里x為輸入向量,θi為隨機向量(獨立同分布),這個向量是作用在訓練樣本的機制,因此隨機森林可以表示為
F={f1,f2,…,fK}
其中K為森林的規(guī)模。在構(gòu)造完學習器之后,使用隨機森林對樣本數(shù)據(jù)進行分類,并且隨機森林和多數(shù)集成學習算法一樣,均在決定類別的過程采用投票機制,表示為
(10)
式中I(·)——示性函數(shù),取值為0和1,括號中條件成立時,示性函數(shù)值為1,條件不成立時,示性函數(shù)值為0
投票最多的類別被隨機森林選為樣本的最終類別。
為了評價幾種模式分類模型的精度,采用準確率、召回率和F值3個指標。準確率和召回率是廣泛用于信息檢索和統(tǒng)計學分類領域的兩個度量值,用于評價結(jié)果的質(zhì)量。準確率為提取出的正確信息條數(shù)與提取出的信息條數(shù)的比值,召回率為提取出的正確信息條數(shù)與樣本中的信息條數(shù)的比值,兩者取值在0和1之間,數(shù)值越接近1,查準率或查全率就越高。F值為準確率、召回率的乘積與準確率、召回率之和比值的2倍,也是正確率和召回率兩者之間的調(diào)和平均值。
為了避免驗證樣本影響模型精度的偶然性,本研究中采用交叉驗證的策略選取驗證樣本。交叉驗證的過程為:將原始數(shù)據(jù)分成K組(一般是均分),將每個子集數(shù)據(jù)分別做一次驗證集,其余的K-1組子集數(shù)據(jù)作為訓練集,這樣會得到K個模型,用K個模型最終驗證集分類準確率的平均數(shù)作交叉驗證下分類器的性能指標。K一般大于等于2,實際操作時一般從3開始取,只有在原始數(shù)據(jù)集合數(shù)據(jù)量小的時候才會嘗試取2。

圖4 FARO Photon 120型地面激光雷達Fig.4 Picture of FARO Photon 120 model ground-based LiDAR
在北京林業(yè)大學校園內(nèi)選取樹木,利用FARO Photon 120型地面激光雷達(如圖4所示,主要參數(shù)如表1所示)對研究區(qū)內(nèi)樹木進行了激光掃描,獲取樹木的點云數(shù)據(jù)。對同一樹木進行了多次設站掃描,首先需要對多次掃描的點云進行拼接。拼接后的點云圖像中除目標樹外還存在許多噪點,在立體視圖中刪除多余噪點。研究共采集到26棵銀杏、20棵鵝掌楸、26棵臭椿、20棵西府海棠的激光點云數(shù)據(jù)。

表1 FARO Photon 120型地面激光雷達的主要參數(shù)Tab.1 Parameters of FARO Photon 120
數(shù)據(jù)采集方法:在樹干胸高處朝南或朝北方向貼標靶紙,在樣木周圍無遮擋的地方均勻放置3個參考球,選擇能同時見到3個參考球的均勻分布的3個位置設站,理想的測站位置間隔角度為120°(以待掃描樹為參考),安裝上地面激光雷達并連接好相關設備,對掃描范圍、掃描分辨率等參數(shù)進行設置之后,就可進行樹木掃描。本研究設置掃描區(qū)域為水平方向360°,垂直方向155°,掃描分辨率每一圓周10 000點,每株樣木需從不同角度掃描至少3次,完整掃描一株樣木需10 min左右,掃描場景如圖5所示。

圖5 點云數(shù)據(jù)處理Fig.5 Process of point cloud data
將地面激光雷達掃描數(shù)據(jù)導入計算機中,通過其配套軟件Faro Scene,對點云數(shù)據(jù)進行加載、套準、過濾、剔除、導出等內(nèi)業(yè)處理。打開Faro Scene軟件,直接把測站數(shù)據(jù)加載到軟件中,第一次打開軟件時,掃描數(shù)據(jù)的Mio掃描點數(shù)值默認為62,這個數(shù)值是根據(jù)計算機的內(nèi)存自動顯示的,本文所涉及的點云提取使用的計算機內(nèi)存為8 GB,經(jīng)過在不同內(nèi)存的計算機中進行點云數(shù)據(jù)提取實驗,結(jié)果顯示默認的Mio掃描點的數(shù)值均能滿足精度要求。圖5為加載的測站點云數(shù)據(jù)顯示。
當對圖5示例的立木掃描的3站數(shù)據(jù)都加載到統(tǒng)一的工作空間的窗口下,當窗口的顯示標記為綠色的3個公共參考球,表示3站數(shù)據(jù)已經(jīng)很好地擬合。在3D模式下,手動選取單木點云數(shù)據(jù),剔除冗余數(shù)據(jù),最終提取結(jié)果如圖6所示,然后導出所需要后處理的數(shù)據(jù)格式.xyz。

圖6 單木數(shù)據(jù)提取結(jié)果Fig.6 Extraction results of single tree for four species
為了驗證點云數(shù)據(jù)提取的測樹因子精度,將點云數(shù)據(jù)提取的測樹因子和傳統(tǒng)方法進行了對比,對比結(jié)果見表2~5。其中表2中給出了銀杏的各測樹因子的絕對精度與相對精度。從總體來看,各測樹因子中枝下高的相對誤差均值是最小的,這主要是因為枝下高與胸徑的量綱有所不同。從絕對精度來看的話,胸徑的絕對精度誤差分析最小,為1.72 cm,枝下高的絕對精度均值為0.17 m,比胸徑絕對精度均值大一些,可以滿足實際測量需求的程度。對于涉及高程的測量,常用的其他測量手段也會產(chǎn)生比較大的偏差,高密度的三維點云在高程提取上可以比其他手段有更好的效果。枝下高的誤差最低,冠高的誤差其次,樹高的誤差最大,產(chǎn)生該現(xiàn)象的原因主要有:①立木的最高點的確定有難度。②在單木最高處的點云密度較小,在前期點云預處理和后期樹高提取的過程中都有被忽略掉的可能。另外,兩個冠幅相關的測樹因子的誤差都要大一些,主要是因為冠幅會受風速、風向等環(huán)境因素影響產(chǎn)生變化,而且冠幅傳統(tǒng)測量方法也是目視的方法,方法本身也有很大的不確定性,同時目視確定最長冠幅的方向有難度。垂直最長方向冠幅的誤差相對最長冠幅誤差大,主要原因是提取過程涉及垂直方向的確定,并且有可能遇到多棵樹樹冠相互遮擋的情況。
表3為臭椿的測樹因子誤差統(tǒng)計。各個測樹因子的誤差之間的相對規(guī)律與銀杏測樹因子的誤差大致相同。皆為胸徑的絕對誤差最小,除了胸徑外,枝下高和冠高的相對誤差最小,樹高相對誤差相比而言較大,兩個冠幅因子的相對誤差最大,而其中垂直最長方向冠幅的相對誤差比最長冠幅的相對誤差大。不過與銀杏不同的是,臭椿胸徑的相對誤差最小。

表2 銀杏測樹因子誤差統(tǒng)計Tab.2 Measuring factor error statistics of Ginkgo biloba

表3 臭椿測樹因子誤差統(tǒng)計Tab.3 Measuring factor error statistics of Ailanthus altissima

表4 鵝掌楸測樹因子誤差統(tǒng)計Tab.4 Measuring factor error statistics of Liriodendron chinense

表5 西府海棠測樹因子誤差統(tǒng)計Tab.5 Measuring factor error statistics of Malus micromalus
表4是鵝掌楸測樹因子的誤差統(tǒng)計。鵝掌楸的胸徑相對誤差沒有枝下高相對誤差小。冠幅的相對誤差要小于樹高的相對誤差。
表5是西府海棠測樹因子的誤差統(tǒng)計。西府海棠測樹因子中,相對誤差最大的是樹高和最長冠幅,達到了9%以上,而胸徑和枝下高相對誤差最小,在5%左右。
選取訓練樣本的胸徑、樹高、枝下高、冠高、最長冠幅、垂直最長方向冠幅這6個參數(shù),使用訓練樣本的多個屬性訓練分類器,可以使分類器兼顧樣本的各方面特征,而不是像只是用一個屬性時分類器只考慮一個屬性中的特征,忽略其他特征。樣本的屬性越多,其特征被描述得越全面,越能更好地訓練分類器,從而使分類器可以產(chǎn)生更好的分類效果。本研究采集了立木的6個測樹因子,較為全面地描述了樣本立木的形態(tài)特征。將所有屬性全部參與分類器的訓練,分別采用支持向量機、分類回歸樹和隨機森林方法進行樹種分類。檢驗分類準確性時,采用交叉驗證。分樹種取樣本的80%為訓練樣本,剩余20%的樣本留作驗證樣本,在檢驗分類效果時使用。使用精準率和召回率評價分類的效果。結(jié)果如表6所示。

表6 多參數(shù)分類評價指標(測樹因子)Tab.6 Multi parameter classification evaluation index (tree measurement factor)
從表6中可以看出,從總體準確率、召回率和F值來看,分類效果最好的是分類回歸決策樹法,其次是隨機森林法,但兩者相差不大,最差是支持向量機法;具體分析每個樹種,3種方法對臭椿的識別都較好,準確率都在0.9以上,而鵝掌楸的識別差異較大,最好的分類回歸法準確率可以達到0.938,而最差的支持向量機只有0.125。銀杏、鵝掌楸和西府海棠的情況均類似。
本文除了采用常見的6個測樹因子之外,還通過組合2個常見測樹因子得到更多的樹形參數(shù)。組合而成的特征參數(shù)可以歸結(jié)為5個類別,分別反映出立木的樹干、樹枝、樹冠和全樹的形態(tài)結(jié)構(gòu)特征。其中全樹的特征參數(shù)1個,樹干的特征參數(shù)2個,樹枝的特征參數(shù)2個,樹冠的特征參數(shù)1個。具體見表7。表中Lc為冠長,D為胸高直徑,LHB為在一定高度處的樹枝長度,LHS為在相同高度處的樹干長度。

表7 組合特征參數(shù)Tab.7 Combined feature parameters
參照陳國定等[21]和劉鎮(zhèn)波等[22]提出的魯棒性分析的方法,將提取的測樹因子和組合特征參數(shù)分別在SPSS 17中進行識別分析,結(jié)果輸出如圖7所示。從圖7a可以看出,利用測樹因子的方法,4個樹種識別質(zhì)心(圖中質(zhì)心1、2、3、4分別表示西府海棠、臭椿、鵝掌楸、銀杏)聚集度高,樹種之間辨識難度增加,特別是鵝掌楸和銀杏,2個樹種基本混在一起,大大增加了識別難度。而組合特征參數(shù)可以很好地解決這一問題,從圖7b可以看出相對于測樹因子,4個樹種質(zhì)心相距較遠,樹種識別容易,減少識別錯誤發(fā)生的幾率,同時也說明了組合特征參數(shù)魯棒性要優(yōu)于測樹因子。

圖7 魯棒性分析結(jié)果Fig.7 Results of robust analysis
4個樹種樣本數(shù)據(jù)的冠長樹高比、胸徑樹高比、冠高樹高比、分枝角、冠長最大冠幅之比、最長冠幅與垂直方向冠幅之比6個指標,各參數(shù)對全部樣本,分別采用支持向量機、分類回歸決策樹和隨機森林方法進行樹種分類。分樹種取樣本的80%為訓練樣本,剩余20%的樣本留作驗證樣本,在檢驗分類效果時使用。使用準確率和召回率評價分類的效果。
從表8可以看出,采用組合特征參數(shù)進行樹種識別,3種分類識別方法均取得了較為滿意的結(jié)果,其中隨機森林和支持向量機,總體準確率、召回率和F值都在0.9以上,而分類回歸決策樹略低于0.9。其中臭椿識別效果最優(yōu),準確率達到0.96,最差的鵝掌楸是0.792,相對于單一特征參數(shù)分類而言,平均準確率、召回率和F值均大幅提高,識別效果相對更優(yōu),這主要是因為多參數(shù)可以使分類器依據(jù)全面的立木結(jié)構(gòu)情況對其進行分類,而不是只依據(jù)單一的結(jié)構(gòu)情況。

表8 多參數(shù)分類評價指標(組合特征參數(shù))Tab.8 Multi parameter classification evaluation index (combined feature parameters)
(1)利用地面激光雷達提取單木測樹因子及識別樹種是可行且有效的,與傳統(tǒng)儀器和測量手段相比具有明顯優(yōu)勢。利用一臺地面激光雷達設備對單木進行一次掃描,獲取的點云數(shù)據(jù)可用于提取樹高、胸徑、枝下高、冠高、冠幅等測樹因子,減輕外業(yè)測量工作量,提升效率;在提取測樹因子的同時,根據(jù)樹木測樹因子和組合特征參數(shù)可以準確識別不同樹種,為今后建立樹種識別信息庫提供技術(shù)支撐。
(2)從提取的測樹因子結(jié)果來看,胸徑的絕對誤差最小;一般而言枝下高的相對誤差最小,其次是胸徑、冠高、樹高,冠幅的相對誤差最大。從不同樹種來看,臭椿提取胸徑的相對誤差最小,銀杏提取枝下高、樹高、冠高的相對誤差最小,鵝掌楸提取冠幅的相對誤差略小。
(3)對于樹種識別問題,采用了樹木測樹因子和組合特征參數(shù)2種方式,分別利用支持向量機、分類回歸決策樹和隨機森林方法,加入分類識別器,進行樹種識別。通過分析發(fā)現(xiàn),總體來說使用組合特征參數(shù)識別效果比單一使用測樹因子優(yōu),不同分類方法相比,從平均準確率和召回率來看,隨機森林方法優(yōu)于支持向量機和分類回歸決策樹方法。