陳文燦 張偉東 申屠惠良 鄭春茂(國家林業局華東林業調查規劃設計院 浙江杭州 310019)
摘要:采集生物量建模數據過程中,因季節、天氣變化、立地條件,以及外業調查人員對數據采集過程的把握,諸多因素均會對采集到的數據產生影響,導致部分數據異常。異常數據稱為擾動數據,若參與建模,會引起建模結果的異常,應該剔除。從殘差分析的角度,對如何從眾多數據中過濾出擾動數據提出了解決方案。關鍵詞:擾動數據;殘差分析;三倍標準差中圖分類號:TP391 文獻標識碼: B 文章編號:1004-7743(2012)01-0061-04
生物量建模過程中剔除擾動數據方法探討
陳文燦 張偉東 申屠惠良 鄭春茂
(國家林業局華東林業調查規劃設計院 浙江杭州 310019)
摘要:采集生物量建模數據過程中,因季節、天氣變化、立地條件,以及外業調查人員對數據采集過程的把握,諸多因素均會對采集到的數據產生影響,導致部分數據異常。異常數據稱為擾動數據,若參與建模,會引起建模結果的異常,應該剔除。從殘差分析的角度,對如何從眾多數據中過濾出擾動數據提出了解決方案。
關鍵詞:擾動數據;殘差分析;三倍標準差
中圖分類號:TP391 文獻標識碼: B 文章編號:1004-7743(2012)01-0061-04
生物量建模數據的準備分為外業數據采集和內業數據處理兩個階段。外業數據采集階段,按樹根、樹干、樹枝、樹葉四個部位,采集樣木的鮮重數據,以及樣木各部位樣品的鮮重數據。內業數據處理階段,主要是測定樣木各部位樣品干重與含水率,根據樣木鮮重、樣品鮮重與樣品干重,計算樣木整體干重,即生物量。
此處,樣木指調查主體;樣品指樣木的一部分,用來測定生物量。生物量的具體計算過程如下:

其中M為樣木總體生物量;iW為樣木各部位鮮重;iw為樣木各部位樣品鮮重;iz為樣木各部位樣品干重。
經過外業調查和內業數據處理,獲得某個樹種的生物量總體建模數據,實際樣木數量51株,各樣本平均值、最大值、最小值的特征數據見表1。
選擇生物量模型形式:M =a(D2H)bV,其中a、b為模型參常數;D 為樣木胸徑;H為樣木樹高;V為樣木材積。

表1 生物量建模樣木特征數據
2.1 建立回歸方程
使用普通最小二乘法(OLS),對生物量建模樣木數據進行多元非線性回歸計算,獲得模型的參數a、b,由此建立回歸方程,根據此回歸方程,計算模型估計值。
2.2 殘差分析
生物量建模數據中,樣木實測生物量稱為觀察值,根據回歸模型計算的生物量稱為估計值,觀察值和估計值之差,稱為殘差。為了消除負數對分析過程的影響,將殘差的平方作為統計量。
殘差平方的方差:

其中:n為樣木總數。
2.3 擾動數據剔除依據
根據《國家森林資源連續清查技術規定》,正常樣木的估計區間為。在生物量建模過程中,可以引用此標準,其中為殘差平方的平均數,若殘差的平方超過樣本估計區間范圍的樣木,即為擾動數據,不能參與回歸方程的計算。
以上述生物量調查數據為例,使用普通最小二乘法(OLS)對生物量樣木數據進行多元非線性回歸計算,結果見表2。

表2 生物量建模結果
按此分析方法,確定的異常樣木雖然只有1株,剔除這株樣木以后,可以看出,模型參數趨向穩定,確定系數從0.9586到0.9697,有明顯的提高;復相關系數從98.50到98.86,也有所改善;因樣木建模數據本身的復相關系數較高,所以預估精度沒有變化。由附表二可以看出,按此方法,對建模數據進行分析,剔除擾動數據后,明顯提高了模型的質量。
[1] 國家林業局.國家森林資源連續清查技術規定. 2004.
[2] 張會儒,唐守正,胥輝. 關于生物量模型中異方差問題. 林業資源管理,1999,01.
2012-01-21