王海洋 陳杰 韓杏杏
摘要 [目的]借用機器學習算法——判別分析算法來簡化耕地地力評價工作,探索區域尺度上機器學習方法在地力評價應用的新途徑。[方法]基于輝縣市測土配方施肥財政補貼項目耕地地力評價工作獲取的基礎數據,依據我國農業部標準《耕地地力調查與質量評價技術規程》(NY/T 1634—2008)和該市耕地地力評價實踐經驗,選取研究區表層土壤質地、土壤剖面特征、地表礫石度、速效鉀、有效磷、有機質含量、灌溉保證率、排澇能力、地貌類型、坡度等10個土壤和立地條件因素作為耕地地力水平的判別變量,構建Fisher典則判別函數模型,對5 922個評價單元的耕地地力狀況進行判斷分析和歸類分級。[結果]經對判別結果進行統計驗證和回代驗證,顯示預測判別正確率高達91.4%。[結論]在耕地地力評價與分級標準確定的前提下,判別分析算法在區域尺度上對分析耕地地力狀況、預測耕地地力等級方面具有獨特優勢。
關鍵詞 耕地地力;耕地地力評價;判別分析;典則判別函數
中圖分類號 S158 文獻標識碼 A 文章編號 0517-6611(2017)25-0199-04
Abstract [Objective]To simplify the evaluation of cultivated land fertility by applying the machine learning algorithm, which aims to explore a new approach to the application of machine learning method in the evaluation work of cultivated land fertility at regional scale.[Method] Based on Technical Specification for Investigation and Quality Evaluation of Cultivated Land Fertility (NY/T 1634—2008) and the local practices of cultivated land evaluation, the methods applied by this study generally are supposed to use the based data obtained by the financial subsidy project for soil testing and formulated fertilization conducted in Huixian City, Henan Province, to establish canonical discriminate functions. 10 soil and site condition factors including surface soil texture, soil profile characteristics, surface gravel degree, rapidly available potassium in soil, available phosphorous in soil, organic matter content in soil, irrigation guarantee rate, capacity for drainage, geomorphic types, and surface slope are selected as the discriminant variables of cultivated land fertility level. By constructing the model of Fisher discriminant functions, Fisher discriminant analysis (FDA) was employed to determine, analyzed and classified land fertility in 5 922 sampled sites of the studied region using that Fisher discriminate functions. [Result]The results of the methods demonstrate a prediction accuracy reaching up 91.4% after mathematical statistics verification and back substitution verification which means the original data being returned back to the Fisher discriminant functions. [Conclusion]Under the premise of identifying the standard of evaluation and classification of cultivated land, the discriminant analysis algorithm has a unique advantage in analyzing and classifying the fertility situation of cultivated land and predicting the grade of cultivated land.
Key words Cultivated land fertility;Evaluation of cultivated land fertility;Discriminant analysis;Canonical discriminate functions
耕地是農業生產活動中最重要的生產資料,是農業生產可持續的基礎[1],耕地地力是評價耕地質量的一個綜合指標[2],是耕地內在自然屬性和人類干預活動交互作用下的現實生產能力表現,耕地地力水平直接影響著作物生長發育、農產品產量和質量[3]。河南省是傳統的農業大省,是我國最重要的糧食主產區之一,肩負著保障國家糧食安全的重要使命。為實現《國家糧食核心區建設規劃》《河南省高標準糧田“百千萬”工程建設規劃》提出的戰略目標,全省正堅持以耕地質量建設為核心,依靠科技進步,全面實施耕地質量提升綜合技術措施,改善耕地土壤理化性狀,提高耕地綜合生產能力,強化抗御自然災害的能力,保護農業生態環境。各項耕地質量培育、綜合地力提升技術措施的順利、高效實施,離不開對耕地生產力現狀的全面了解、準確評價以及對耕地地力等級的科學劃分和空間分布格局的全面掌握。
判別分析(Discriminate Analysis,DA)是在分類確定的條件下,根據某一研究對象的各種特征值判別其類型歸屬問題的一種多變量統計分析方法,其基本原理是按照一定的判別準則,建立一個或多個判別函數,用研究對象的大樣本數據確定判別函數中的待定系數,并計算判別指標,據此確定特定樣本的類型歸屬[4-6]。判別分析是一種在實踐中應用較為廣泛的機器學習算法[7]。實際應用中,判別分析有多種形式:根據判別式處理變量的方法不同,可以分為逐步判別、序貫判別等;根據判別標準不同,可以分為距離判別、Bayes判別、Fisher判別法等[8]。
Fisher判別分析(Fisher Discriminant Analysis,FDA)亦稱典則判別,是根據線性Fisher函數值進行判別,其基本思路就是投影,針對P維空間中的某點x=(x1,x2,…,xp),尋找一個能使它降為一維數值的線性函數y(x)=Cjxj,然后應用這個線性函數把P維空間中的已知類別總體以及求知類別歸屬的樣本都變換為一維數據,再根據其間的親疏程度把未知歸屬的樣本點判定其歸屬。投影的原則是使得每一類的差異盡可能小,而不同類間投影的離差盡可能大。判別函數主要有兩種,即線性判別函數(Linear Discriminant Function)和典則判別函數(Canonical Discriminate Function)。其中,構建線性判別函數的基本前提是各類樣本相互對立、且符合正態分布;而典則判別函數是建立在方差分析思想上,可較好地區分出各個總體,而不對總體分布做任何要求[9-10]。我國農業行業標準(NY/T 1634—2008)中規定的耕地地力評價方法——綜合指數法在我國耕地地力評價與分級實踐中的應用最為廣泛,根據計算出的每一評價單元的耕地地力指數,采用耕地地力指數累積曲線法劃分耕地地力等級。該方法對軟件要求較高,且步驟復雜繁瑣。在國內一些案例研究中,支持向量機(Support Vector Machine,SVM)算法、模糊支持決策算法以及分類與回歸樹算法等機器學習、決策分析等領域內的新技術被用于耕地地力評價,而判別分析算法自問世以來,在國內礦藏評估、風險預警、財務分析、交通規劃、疾病診斷、智能識別等領域應用廣泛,但鮮有學者將其應用于耕地地力等級劃分。筆者將Fisher判別分析算法引入耕地地力分級實踐中,通過縣域案例研究,探索區域尺度上機器學習技術在耕地質量評價、耕地地力分級以及中低產田劃分應用的新途徑。
1 數據來源與研究方法
1.1 研究區概況
河南省輝縣市(新鄉市代管的縣級市)地處河南省西北部,地理坐標為35°17′~35°50′E、113°20′~113°57′N。輝縣市屬暖溫帶大陸性季風氣候,總面積2 007 km2,區域內西部為太行山脈,山地面積1 007 km2,平原面積783 km2,丘陵217 km2。截至2005年末,全市耕地面積5.34萬hm2。根據第二次全國土壤普查結果,全市共分布潮土、風沙土、褐土、砂姜黑土、水稻土、沼澤土和棕壤等7個土類、13個亞類的土壤[11]。
2.2 數據來源
研究區主要數據源為河南省輝縣市測土配方施肥補貼項目及其耕地地力評價專項獲取的表層土壤屬性數據以及相關立地環境數據、二調土地利用現狀數據庫、最新修訂的土壤圖、地形圖等相關圖件資料等。在已經完成的輝縣市耕地地力評價實踐中,選取表層土壤質地(x1)、土壤剖面特征(x2)、地表礫石度(x3)、速效鉀(x4)、有效磷(x5)、有機質含量(x6)、灌溉保證率(x7)、排澇能力(x8)、地貌類型(x9)、坡度(x10)等10個對案例地區耕地生產性能影響較大、區域內的變異明顯、且在時間序列上具有相對穩定性、與農業生產關系密切的因素作為耕地地力評價因素,據此將案例地區耕地從高到低劃分為4個等級(表1)[12-14]。
2.3 研究方法
判別分析的基本原理是按照一定的判別準則,建立一個或多個判別函數,Fisher判別法的優勢在于對分布、方差等都沒有任何限制,應用范圍比較廣。其判別的核心思想是投影,需要選擇一個投影方向,使得同一類的樣點沿這個方向能最大程度地集中,不同類的樣點能較好地區分出來,同時保證組間均方差與組內均方差之比最大[15-16]。這就需要建立一個判別函數,其線性表達式可寫為:
3 判別分析結果與檢驗
3.1 研究區耕地判別分析結果
根據農業部標準《耕地地力調查與質量評價技術規程》(NY/T 1634—2008)和輝縣市測土配方施肥財政補貼項目耕地地力評價實踐,采用表層土壤質地、土壤剖面特征等10個土壤和立地條件因素作為耕地地力狀態的判別變量,通過構建Fisher判別函數,對輝縣市5 922個樣點的耕地地力狀況進行判斷分析和歸類分級。
按照組內離差小、組間離差大的原則分析樣點數據,建立判別函數,判別函數是在已知觀測樣本的分類和特征變量值的前提下,基于那些蘊涵信息豐富、最大程度描述各類間關系的變量構建的判別函數,參與分析的觀測量共分為m個總體,則建立n(n
Fisher判別函數的系數反映出不同的預測變量對各個判別函數的貢獻率,表2反映出:土壤剖面特征與第1判別函數相關性最強,地表礫石度與第2判別函數相關性最強,與第3判別函數相關的是其余的土壤及地表屬性變量。表3是對3個函數的WilksLamdba檢驗:
表3中,檢驗的原假設為各組變量均值相等,WilksLambda是組內平方和與總平方和的比,檢驗判別函數的顯著性水平,值域在0~1,值越小表示組間有很大的差異,值接近1表示沒有組間差異;卡方是Lambda的卡方轉換,用于確定其顯著性;Sig.小于0.05,表明3個判別函數均具有統計學上的意義。
從表4可以看出,第1判別函數方差所占比例為96.6%,說明其可以解釋樣品96.6%信息,僅利用此函數即可完成對絕大部分樣點的判別,當利用第1判別函數無法對樣點所屬類別做出明確判斷時,輔以第2甚至第3判別函數來解釋所有樣本的信息。以第1、第2典則判別函數為坐標軸建立聯合分布圖(圖1)。
圖1是根據第1和第2典則判別函數做出的散點圖,圖上顯示,4個類別很顯著地彼此區別開。研究區樣點各變量數據代入第1和第2典則判別函數中,以第1判別函數值為橫坐標,第2判別函數值為縱坐標,觀察樣本點落入的區域,即為預測出的耕地地力等級。經統計計算,這些事先已知等級類別的訓練數據按照以上分類函數進行判別,既使分類函數是由訓練數據推導出的,也不一定能全部正確分類。由表5可知,原始樣點中769個一等地樣點有7個被誤判為二等地,其余762個樣點仍為一等地;1 827個二等地樣點有155個被誤判為一等地,118個誤判為三等地,其余1 554個樣點仍為二等地;三等、四等地亦然。得到的輝縣市耕地地力等級見圖2。
3.2 地力等級判別結果檢驗
對研究區耕地地力等級Fisher判別結果的檢驗采用卡方檢驗和回代法兩種方法,判別分析技術能否正確、有效地對樣本進行分類歸屬,通過統計結果的顯著性分析進行評估。假設樣本通過判別分析函數得到的分類結果同主觀猜測的結果沒有差別,那么構造統計量:
式中,N為樣本總數;g為組數;o為正確分類的觀測值。因其服從自由度為1的卡方分布,所以其值若大于3.84(α=0.05)或6.64(α=0.01),表示基于判別分析技術獲取的結果和隨機臆測的結果有顯著不同。研究區樣點總數N=5 922,耕地地力等級數g=4,基于判別函數獲得正確分類的樣點數o=5 410,構造的統計量遠大于6.64,所以可以肯定地說基于判別函數獲得的樣本分類結果與隨機臆測的結果有顯著不同(表6)。
在實際應用中,還可以采用回代法計算判別模型的回判率η來進行模型檢驗:
η=判對樣本數n(13)
一般η>75%即認為判別模型有效。將樣點數據回代判別模型,得回判率η=5 410/5 922= 91.35%,錯判率較低,說明此模型能很好地應用于耕地地力狀況的判斷分析和歸類分級。
4 結論
(1)河南省輝縣市的案例研究表明,Fisher判別分析算法在確定研究區樣點地塊地力等級歸屬方面具有較好的應用前景,其簡捷、高效、精準的特點使判別分析法在多指標、多因素分類系統的樣本歸屬判斷領域具有巨大的應用潛力。
(2)判別分析算法是在分類確定的條件下,根據樣本的各特征值判別其分類歸屬的一種多變量統計分析方法。因此,其主要劣勢在于在判別分析之前,需從研究區大量樣本的屬性特征中遴選分類因素、建立分類系統;分類系統直接決定判別分析結果質量的高低,這也是機器學習算法的共同特征。
(3)Fisher判別函數只適用于與已知分類樣本相同屬性變量的未分類樣本的類型歸屬。在該案例研究中,如果研究區未分類樣點的屬性變量少于、或者包括但不限于表層土壤質地、土壤剖面特征、地表礫石度、速效鉀、有效磷、有機質含量、灌溉保證率、排澇能力、地貌類型、地面坡度等10個屬性變量,則判別分析結果的準確度將受到顯著影響;同時,該案例研究區為范圍較小的縣域,氣候特征基本波動不大,若推廣應用于大區域范圍,則需對評價指標做增刪改,評價精度低于小地域,Fisher判別分析需根據實際情況加以改進。
參考文獻
[1] 陳艷春.興安縣耕地地力等級劃分與評價[J].南方農業學報,2011,42(7):768-770.
[2] 王瑞燕,趙庚星,李濤,等.GIS支持下的耕地地力等級評價[J].農業工程學報,2004,20(1):308-310.
[3] 吳克寧,鄭義,康鴛鴦,等.河南省耕地地力調查與評價[J].河南農業科學,2004,33(9):49-52.
[4] 楊華容,王懷英,彭文甫,等.區域土地利用/覆被時空動態變化研究:以四川省金堂縣為例[J].中國農業資源與區劃,2016,37(8):37-46.
[5] DULAM J.Discriminate analysis for dust storm prediction in the gobi and steppe regions in Mongolia[J].Water,air & soil pollution:focus,2005,5(3/4/5/6):37-49.
[6] CHEN L,ZOU L J,TU L.Stream data classification using improved fisher discriminate analysis[J].Journal of computers,2009,4(3):208-214.
[7] 張學雷.計算機判別分析在土壤分類中的應用:以山東省褐土分類為例[J].山東師大學報(自然科學版),1991,6(4):74-81.
[8] FU L.The discriminate analysis and dimension reduction methods of high dimension[J].Open journal of social sciences,2015,3(3):7-13.
[9] 邱琳,張富,李安波.應用Fisher判別分析和案例推理兩種方法的土壤類型預測及制圖比較[J].江蘇農業學報,2012,28(6):1459-1465.
[10] BELHUMEUR P N,HESPANHA J P,KRIEGMAN D J.Eigenfaces vs.fisherfaces:Recognition using class specific linear projection[J].IEEE transaction on pattern analysis and machine intelligence,1997,19(7):711-720.
[11] 聶長明,袁長嶺,梅俊杰,等.河南省輝縣市耕地地力評價工作報告[R].河南:輝縣市土壤肥料管理站,2012.
[12] 周穎,張俠,周峰.江蘇省耕地地力等級劃分[J].南京大學學報(自然科學),2003,39(4):580-586.
[13] 盛艷,姚云峰,秦富倉,等.基于GIS的耕地地力等級劃分研究[J].干旱區資源與環境,2014,28(6):27-32.
[14] 劉占朝.豫北太行山區土壤有機質含量分布規律[J].河南林業科技,1992,3(1):18-19.
[15] 周俊,楊子凡,孫成勝.基于GIS的市級耕地地力評價:以張掖市為例[J].中國農業資源與區劃,2014,35(6):39-44.
[16] 余頌,陳善雄,余飛,等.膨脹土判別與分類的Fisher判別分析方法[J].巖土力學,2007,28(3):499-504.