廖佩瑩,王雅楠,丘甜,華偉平,3*,鄭士超,周艷,饒貴川
(1.武夷學院 生態與資源工程學院,福建 武夷山 354300;2.武夷學院 商學院,福建 武夷山 354300;3.福建農林大學 林學院,福建 福州 350002;4.武夷山國家公園科研監測中心,福建 武夷山 354300)
森林是陸地生態系統的組成部分之一,具有凈化空氣、調節氣候、涵養水源等8 種生態功能,同時它還具有碳匯功能,森林植被總碳儲量中80%以上的貢獻來源于天然林[1]。我國森林資源十分豐富,根據全國森林資源清查報告數據顯示,我國森林面積在逐漸增加,其中,福建省的森林覆蓋率達到66.8%,是全國森林覆蓋率最高的省份。全國森林清查中的一項是對森林蓄積量的調查,森林蓄積量不僅反映一個國家的森林資源數量規模,而且對森林生態系統整體固碳功能也起著重大作用[2],也是評價森林生長質量、森林生產力的重要指標[3]。隨著全球氣候的變化,森林生產力受到了不同程度的影響[4-6]。
近年來,森林蓄積量一直都是國內外學者們研究的熱點。D’Amico[7]研究野外樣地數據和ALS 數據以及Landsat 數據對蓄積量生長的貢獻,得出在使用Landsat 數據時相對效率為1.16,使用ALS 覆蓋率增加的情況下,相對效率高達1.33;黃冰倩等[8]利用遙感技術、隨機森林、多元逐步回歸方法對森林蓄積量進行估測研究,主要是利用光譜、紋理特征進行組合研究,未將地形、環境因子參與建模分析;崔博文[9]利用機器學習結合遙感衛星對森林蓄積量進行研究。有的學者在研究森林蓄積量時還會以立地因子、林分年齡、氣候因子等環境因子為自變量結合機器學習來估測森林蓄積量,如:王震等[10]利用貝葉斯模型平均法(BMA)和逐步回歸法(SR)構建杉木林分蓄積量與林分變量因子和氣候因子的關系模型;劉帥[11]以地形、地貌、氣候、土壤、林分結構等為自變量來估測森林蓄積量。
隨著科技不斷的發展,機器學習方法越來越受研究者的青睞,并且在不同領域被廣泛的應用。機器學習是人工智能的一個重要分支,對處理數據量大的數據具有優勢之處。自20 世紀90 年代以來,機器學習越來越多地用于生態學領域研究,如水文學、氣候變化、物種分布等領域[12]。本文以環境因子為自變量,借助決策樹回歸、隨機森林回歸、adaboost 回歸、梯度提升樹回歸(GBDT)、CatBoost 回歸、ExtraTrees 回歸、XGBoost 回歸、LightGBM 回歸8 種機器學習的方法,分析比較在有無林分年齡的情況下,環境因子與林分蓄積量的關系,為后期建立天然林生長模型構建提供理論支撐。
福建省地處中國東南沿海地區,介于23°33′N~28°20′N、115°50′E~120°40′E,東隔臺灣海峽,東北與浙江省毗鄰,西北橫貫武夷山脈與江西省交界,西南與廣東省相連。福建省氣候屬亞熱帶海洋性季風氣候,溫暖濕潤,雨量充沛,光照充足,年平均氣溫17~21 ℃,平均降雨量1 400~2 000 mm,雨量豐富[13]。氣候條件優越,但氣候區域差異較大,閩東南沿海地區屬南亞熱帶氣候,閩東北、閩北和閩西屬中亞熱帶氣候,各氣候帶內水熱條件的垂直分異較明顯。其土壤類型以紅壤、黃壤為主。
數據來源于福建省第九次森林資源清查一類固定樣地中的馬尾松、闊葉林樹種(組)、針闊混交樹種(組)、針葉混交樹種(組)。馬尾松有121 塊樣地、闊葉林樹種(組)695 塊樣地、針闊混交樹種(組)147、針葉混交樹種(組)76 塊樣地。調查因子主要包括樹種(組)、年齡、蓄積量。

表1 不同樹種(組)天然林蓄積量統計值Tab.1 Statistical values of natural forest volume for different tree species (groups)
研究對象是環境因子中的氣候因子和立地因子以及林分年齡因子對4 種樹種(組)蓄積量的影響。其中氣候因子有年平均溫度、年降水量、生長積溫、哈格里夫斯氣候水汽虧缺等,其數據是通過固定樣地的緯度和經度以及高程利用ClimateAP[14]獲得;立地因子主要包含坡位、坡度、土層厚度、腐殖層厚度、枯枝落葉厚度。
機器學習法主要有決策樹回歸、隨機森林回歸、adaboost 回歸、梯度提升樹回歸(GBDT)、CatBoost 回歸、ExtraTrees 回歸、XGBoost 回歸、LightGBM 回歸。決策樹回歸具有很強的可解釋性,能處理離散和連續變量的優點[15];隨機森林回歸具有訓練速度快、準確率極高、處理高維數據、處理特征遺失數據、處理不平衡數據等優點[16];adaboost 回歸具有較高科學性、規范性和可行性、準確率高、運算速度快的優點[17];GBDT 預測準確率高、強魯棒性等優點,可靈活處理各種數據[18];CatBoost 回歸具有具有性能卓越、魯棒性與通用性更好、降低了模型過擬合的可能[19];ExtraTrees 回歸具有訓練出來的模型方差小,隨機性、泛化能力強、具有抵抗噪聲的能力的優點[20];XGBoost 回歸具有較強的泛化能力、較高的擴展性、較快的運行速度的優點[21];Light-GBM 回歸具有效率快、高精度、高效并行的優點[22]。
采用評價指標為MSE(均方誤差)、RMSE(均方根誤差)、MAE(平均絕對誤差)、MAPE(平均絕對百分比誤差)、相關系數(R2),R2值結果越靠近1 模型準確度越高。
式中:yi為第i 樣本實測值;是第i 樣本預估值;m 為樣本數。
不同方法分析4 種樹種(組)蓄積量與氣候因子和地貌因子關系檢驗結果存在較大差異。從表2 可得,馬尾松中GBDT、CatBoost 回歸和XGBoost 回歸的方法較好,最佳的是GBDT,較差的是隨機森林回歸和ExtraTrees 回歸;而闊葉林樹種(組)中方法較好的是adaboost 回歸、GBDT 和XGBoost 回歸,最佳的是adaboost 回歸,較差的是決策樹回歸、隨機森林回歸和ExtraTrees 回歸;在針闊混交樹種(組)中GBDT、XGBoost 回歸和LightGBM 回歸的方法較好,最佳的是GBDT,較差的是隨機森林回歸、LightGBM 回歸;在針葉混交樹種(組)中方法較高的是GBDT、CatBoost 回歸和XGBoost 回歸,其中最佳的是GBDT,較差的是隨機森林回歸和ExtraTrees 回歸。總體來看,8 種機器學習方法分析4 種樹種(組)蓄積量與氣候因子和地貌因子關系檢驗的結果存在差異性,但不明顯。除闊葉林樹種(組)外,最好的方法為GBDT。因此,本次選用GBDT計算馬尾松、針闊混交樹種(組)、針葉混交樹種(組)與氣候和地貌因子重要值(或特征值),選用XGBoost 回歸計算闊葉林樹種(組) 與氣候和地貌因子的重要值(或特征值)。

表2 未引入年齡因子的預測模型效果評價Tab.2 Evaluation of the effectiveness of predictive models without introducing age factors
在考慮林分年齡后,不同方法分析4 種樹種(組)蓄積量與林分年齡、氣候和地貌因子關系檢驗結果存在較大差異。表3 表明,馬尾松中GBDT、CatBoost 回歸、XGBoost 回歸的方法較好,最佳的是GBDT,較差的是ExtraTrees 回歸;而闊葉林樹種(組)中方法較好的是決策樹回歸、GBDT、XGBoost 回歸,最佳的是XGBoost 回歸,較差的是決策樹回歸、ExtraTrees 回歸;在針闊混交樹種(組) 中決策樹回歸、GBDT、CatBoost 回歸、XGBoost 回歸的方法較好,最佳的是GBDT,較差的是隨機森林回歸、LightGBM 回歸;在針葉混交樹種(組)中方法較好的是GBDT、CatBoost 回歸、XGBoost 回歸,最佳的是GBDT,較差的是隨機森林回歸、Extra-Trees 回歸、LightGBM 回歸。8 種機器學習方法分析4種樹種(組)與林分年齡、氣候和地貌因子關系檢驗的結果存在一定的差異,除闊葉林樹種(組)外,最好的方法為GBDT。因此,本次選用GBDT 計算馬尾松、針闊混交樹種(組)、針葉混交樹種(組)與林分年齡、氣候和地貌因子重要值(或特征值),選用XGBoost 回歸計算闊葉林樹種(組)與林分年齡、氣候和地貌因子的重要值(或特征值)。

表3 引入年齡因子的預測模型效果評價Tab.3 Evaluation of the effect of introducing age factor in predictive models
不同的樹種,在未引入林分年齡的情況下,各因子對林分蓄積量的影響存在一定差異。圖1 可看出,對馬尾松影響較大的因子有平均最冷月溫度、腐殖層厚度、年平均降水量、坡度、夏季平均最低溫度;對闊葉樹種(組)蓄積量影響較大的因子有土層厚度、干燥指數、坡度、夏季降雨量、夏季平均最低溫度,年平均溫度對其影響較小;對針闊混交樹種(組)蓄積量影響較大的因子有夏季平均最高溫度、坡度、夏季降雨量、腐殖層厚度、年平均降水量,年平均溫度對其影響相對較小;對針葉混交樹種(組)蓄積量影響較大的因子有平均氣溫差、腐殖層厚度、生長積溫、夏季降雨量、土層厚度,坡位、夏季平均最低溫對其影響相對較小。從整體上來看,氣候因子和地貌因子均交互影響4 種樹種(組)的蓄積量,因此在建立林分蓄積量預估模型時,應當要充分考慮氣候與地貌因子。

圖1 未引入年齡的4 種樹種(組)重要值占比Fig.1 The proportion of important values of four tree species (groups) without introducing age
引入林分年齡后,各因子對各林分的影響與未引入林分年齡的存在差異。在所有影響因子中林分年齡對林分蓄積量影響均較大,且大于0.50;其他因子對4種樹種(組)的影響有所不同,其中,對馬尾松影響較大的因子有年平均降水量、平均最冷月溫度、坡度、腐殖層厚度,哈格里夫斯氣候水汽虧缺、平均月最熱溫度對其影響相對較小;對闊葉樹種(組)蓄積量影響較大的因子有夏季降雨量、夏季平均最低溫度、腐殖層厚度、干燥指數、土層厚度;對針闊混交樹種(組)蓄積量影響較大的因子有腐殖層厚度、土層厚度、夏季降雨量、年平均溫度、平均氣溫差,坡位對其影響相對較小;對針葉混交樹種(組)蓄積量影響較大的因子有夏季平均溫度、夏季平均最高溫度、生長積溫、年平均溫度、夏季平均最低溫度,坡位、哈格里夫斯氣候水汽虧缺對其影響相對較小。(圖2)林分年齡對4 種(組)樹種林分蓄積量的影響程度都很大,且氣候因子和地貌因子均交互對4 種樹種(組)林分蓄積存在不同程度的影響。因此,在建立氣候和地貌因子與林分蓄積量關系模型時,應當將林分年齡作為重要的因子。

圖2 引入年齡因子的4 種樹種(組)重要值占比Fig.2 The proportion of important values of four tree species (groups) introducing age factors
國內的學者也有利用機器學習對蓄積量進行研究,黃宇玲等[21]利用XGboost 方法結合林分因子、地形因子、遙感因子對森林蓄積量研究,他們得出的結論是逐步回歸特征選擇方法結合XGboost 方法對森林蓄積量的估測效果最佳,與我們研究的結果有所差異,這一現象可能在研究過程中采用的自變量以及所用的具體機器學習方法不同而導致結果有所差異;賈勃等[23]對比逐步回歸與貝葉斯模型平均法得出的決定系數相對于貝葉斯模型平均法逐步回歸更為準確,林分因子、環境因子對林分蓄積量的影響也是不盡相同;胡建錦等[24]利用4 種不同的機器學習法在不區分樹種情況下對森林蓄積量進行估測,得出的結論是Catboost 的預測結果最優,與此研究得出的結果有所差異。相對于其他學者研究的情況而言,本研究對環境因子研究范圍較大,采用了多種機器學習方法進行比較,認為環境因子對4 種樹種(組)蓄積量有影響。
利用決策樹回歸、隨機森林回歸以及adaboost 回歸等8 種機器學習方法對福建省的馬尾松、闊葉林樹種、針闊混交樹種、針葉混交樹種的蓄積量進行處理分析,研究結果表明,馬尾松、針闊混交樹種(組)和針葉混交樹種(組)無論是否引入林分年齡,GBDT 模型能較好地分析出環境因子與蓄積量重要性,而對于闊葉林樹種(組)來說,在引入林分年齡的情況下,模型較好的為GBDT;未引入林分年齡的情況下,預估模性較好的均為adaboost 回歸。GBDT 和adaboost 回歸的評價指標R2都大于0.95。通過較好模型預估的R2來看,林分年齡對蓄積量的影響較大,其值大于0.50。因此在建立天然林蓄積量生長模型時應綜合考慮林分年齡、氣候、地貌、土壤等林分和環境因子。