梁本哲,王占岐
(中國地質大學(武漢)土地資源管理系,湖北武漢 430074)
長期以來,決策主要是依靠人的經驗,隨著科學技術的進步與發展,經驗決策逐步被科學決策所取代[1]。過去30年我國各個領域積累了大量生產、科研數據,如何從這些海量的數據中發現潛在有用的知識一直是科技工作者關注和研究的課題。在土地利用領域,主要通過引入地理信息系統技術、計算機技術和數學模型方法來解決實際問題并提供決策支持。農業土地利用領域的數據繁多復雜,容易受時空差異、數據采集技術及設備精度和人為等因素影響,導致數據不可避免地存在一定的誤差或不完整、不精確或具有噪音。文章從排除數據噪音干擾、提高決策支持的角度,引入具有知識發現功能的數據挖掘技術,以此強化對農業土地利用規劃數據的定量分析研究,從而給農業土地利用規劃提供更多的涉及數據問題的決策幫助。而在數據挖掘的各類方法中,粗糙集理論擅長從數據中發現異常,排除噪音干擾,而且該理論具有較強的客觀性。
目前,粗糙集理論已經被證實在實踐中是非常有用的,國際上基于粗糙集理論開發了許多學習或應用系統,并已取得了良好的收益。粗糙集理論作為一種數據分析處理理論,在機器學習、知識發現、數據挖掘、決策支持與分析、信息安全、物聯網、云計算、生物信息處理等領域得到了廣泛應用[2]。在土地利用和農業科學領域,國內不少學者也運用粗糙集開展了一些研究和應用,比如葉回春等[3]研究了粗糙集理論在土壤肥力評價指標權重確定的應用,結果表明粗糙集理論比特爾斐法確定出的各指標權重更為合理、準確; 歐陽浩等[4]運用粗糙集方法對廣東省的糧食產量影響因素進行分析,通過知識發現,表明化肥用量、水庫總容量以及人均經營耕地面積等對廣東省糧食產量影響較為顯著; 王丹丹[5]利用粗糙集理論對河南省糧食產量各類影響因素的重要程度進行計算,并以此對河南省糧食產量的變化趨勢進行了預測。通過對文獻的分析發現,粗糙集理論在廣泛的應用實踐中已經被學者們證明具有較好的應用價值,而且在規劃決策上也能提供基于客觀事實的輔助決策支持。同時,張政超[6]、王學恩[7]等學者通過研究發現,粗糙集理論還有一些理論上的問題需要進一步優化,比如在數據庫中如何降低算法的執行效率,在數據缺失及不協調情況下有效實現屬性值離散化以及尋找快速約簡算法等粗糙集理論均是需要進一步研究的重點。
粗糙集(Rough Set,RS)理論由波蘭學者Z.Pawlak[8]于1982年提出,主要具有特點和優點:擅長處理和分析不精確、不一致、不完整等各種不完備信息; 能夠分析隱藏在數據中的事實,并能從中揭示潛在的規律; 不需要任何先驗知識的介入,對數據分析具有很強的客觀性和真實性; 通過等價關系對事物進行分類來認知知識,并且可用數學方法來分析和處理。這些特性和功能比較適合用來處理土地利用規劃方面的相關數據。
(1)建立信息系統。粗糙集理論研究的對象是信息系統(也可稱為決策表或決策系統),可用一個四元組[9]表示:S=。其中,U表示對象的有限集合,U={x1,x2,…,xn};A表示屬性的有限集合,A={A1,A2,…,An};V是屬性值組成的集合,V={V1,V2,…,Vn},其中,Vi是屬性Ai的值域;f是屬性和對象的函數,f(xi,Ai)∈Vi。將信息系統S的屬性集合A分為條件屬性集合C與決策屬性集合D兩部分,即A=C∪D且C∩D=Φ。
(2)對屬性進行約簡。將信息系統S的任意屬性子集B?A所對應的不分明關系IND(B)定義為:
IND(B)={(x,y)∈U2|?a∈B[a(x)=a(y)]}
(1)
令屬性集合B?A,對任意屬性a∈B,如果有IND(B)=IND(B-{a}),那么稱a是B中不必要的,否則就稱a是B中必要的。如果屬性集合B?A滿足IND(B)=IND(A),?a∈B,IND(B)≠IND(B-{a}),那么,B就是A的一個約簡。通過分明矩陣來計算屬性集合A中屬性約簡的核,記為CORE(A):
CORE(A)={a:存在分明矩陣的某一項cij,有cij={a}},其中,
cij={a∈A|a(xi)≠a(yj)}
(2)
(3)可信度分析。粗糙集理論用粗糙隸屬函數來描述某一對象屬于某一概念的程度,稱作規則可信度,定義為:
(3)

(4)生成決策規則。保留決策表中最優屬性集合C′或最小約簡a′,刪除多余的屬性列,并對屬性列中相同項進行合并,最后將決策表的每一個對象轉化為固定的規則形式,即得到最終的決策規則。
為了實證研究及分析其粗糙集理論的應用價值,選取了2001~2014年湖北省武漢市土地利用方面的農業基礎數據進行實例研究(表1)。
表1 武漢市農業土地利用基礎數據

年份單位面積從業人口(千人/km2)人均用電量(千kW·h)單位面積農業機械總動力(10kW/hm2)單位面積化肥施用量(t/hm2)灌溉率(%)人均糧食產量(t)abcdef20010557034507440726077809992002057603640783074907680983200306220351083807800778089020040621040908430781076810272005062304330862078107761062200606240443088407550773103320070661042609210768077309892008065504300943078107670942200906540460099307780761099420100668045810360794075909882011067004611130075207700873201206930457123807600795089120130729045413220746081308732014073505481380072107650872 注:數據根據2002~2015年武漢市統計年鑒相關數據計算得到;單位面積從業人口=農村從業人口/耕地面積,人均用電量=農村用電量/農業人口,單位面積農業機械總動力=農業機械總動力/耕地面積,單位面積化肥施用量=農用化肥施用量/耕地面積,灌溉率=有效灌溉面積/耕地面積,人均糧食產量=糧食產量/農村從業人口

圖1 2001~2014年武漢市農業土地利用基礎數據變化趨勢
從數據的變化趨勢上看(圖1),屬性d、e、f呈現不規律的變化趨勢,而屬性f的變化趨勢更為復雜。根據粗糙集理論的屬性分類規則,均可以將屬性d、e、f設定為決策屬性,但是考慮到屬性f的變化趨勢更為復雜,又對研究糧食安全問題具有更大的實際意義。因此,為了分析土地投入各項指標對人均糧食產量的影響,選擇將a~e項土地投入類指標設為條件屬性,將指標人均糧食產量f設為決策屬性。
首先對以上數據表進行數據離散化處理,建立信息系統(即決策表,表2)。離散化過程即是利用選取斷點來對條件屬性的值域進行劃分的過程,常用的離散化方法包括等距法、基于統計的方法、基于信息商的方法、基于遺傳算法的方法等,通常,學者們采用模糊C均值聚類方法對條件屬性進行離散化處理[10]。模糊C均值聚類方法進行分類時一般把相鄰兩類的邊界屬性值的算術平均值作為兩分類的分界閾值。用分界閾值把連續屬性的值域分為兩個子區間,分別形成連續屬性的兩個離散值,標以不同的符號。如表2。
通過閾值劃分,所有數據被分為兩類,并用區間值表示。對決策屬性進行分類,如人均糧食產量通過模糊C均值聚類方法的離散化處理,計算得到兩分類的分界閾值為0.937,對其人均糧食產量高低水平進行定性描述,即可用分界閾值作為劃分高低產量水平的標準。設定“>0.937”為高產(用H表示),“≤0.937”為低產(用L表示); 對所有條件屬性進一步簡化處理,得到簡化決策表3。
表2 閾值劃分后的決策

Uabcdef2001≤0640≤0429≤0990≤0761≤07800>09372002≤0640≤0429≤0990≤0761≤07800>09372003≤0640≤0429≤0990>0761≤07800≤09372004≤0640≤0429≤0990>0761≤07800>09372005≤0640>4292≤0990>0761≤07800>09372006≤0640>4292≤0990≤0761≤07800>09372007>0640≤0429≤0990>0761≤07800>09372008>0640>0429≤0990>0761≤07800>09372009>0640>0429>0990>0761≤07800>09372010>0640>0429>0990>0761≤07800>09372011>0640>0429>0990≤0761≤07800≤09372012>0640>0429>0990≤0761>07800≤09372013>0640>0429>0990≤0761>07800≤09372014>0640>0429>0990≤0761≤07800≤0937

表3 簡化處理后的決策
將決策表3表示成信息系統S=,令C={a,b,c,d,e},D={f},并對屬性進行約簡。該信息系統的等價類為:U/C={{x1,x2},{x3,x4},{x5},{x6},{x7},{x8},{x9,x10},{x11,x14},{x12,x13}},U/D={{x1,x2,x4,x5,x6,x7,x8,x9,x10},{x3,x11,x12,x13,x14}}。
C的D正域為:POSC(D)=∪{C(X):X∈U/D}={x1,x2,x5,x6,x7,x8,x9,x10,x11,x12,x13,x14},同理其他各正域為:POSC-{a}(D)=POSC-{c}(D)=POSC-{e}(D)={x1,x2,x5,x6,x7,x8,x9,x10,x11,x12,x13,x14},POSC-{b}(D)={x1,x2,x6,x7,x8,x9,x10,x11,x12,x13,x14},POSC-g0gggggg(D)={x5,x6,x7,x8,x12,x13}。
由于POSC-{b}(D)≠POSC(D),POSC-g0gggggg(D)≠POSC(D)。所以b,d是D必要的,并且C相對于D約簡的核為CORED(C)={b,d}。以相對約簡的核{b,d}為起點,可以計算出所有的C相對于D的屬性約簡,POS{a,b,d}(D)={x1,x2,x5,x6,x7,x8,x9,x10,x11,x12,x13,x14},POS{b,c,d}(D)= {x1,x2,x5,x6,x8,x9,x10,x11,x12,x13,x14},POS{b,d,e}(D)= {x1,x2,x5,x8,x9,x10,x12,x13}。
由于POS{a,b,d}(D)=POSC(D),由此可以得到決策表的重要屬性集為{b,d},最優約簡屬性集為{a,b,d}。根據以上約簡屬性,即可得到約簡后的決策表,見表4。
表4 屬性約簡后的決策

記錄號abdfx1000Hx2000Hx3001Lx4001Hx5011Hx6010Hx7101Hx8111Hx9111Hx10111Hx11110Lx12110Lx13110Lx14110L
為了更好地反映各條件屬性對決策屬性的定量化影響關系,通過提取決策規則來體現。根據粗糙集理論決策規則的形成方法,最終得到決策表的決策規則,從規則表(表5)可以看出,規則2與規則3在同樣條件下出現了不一致的結果。因此,對于決策者而言,在利用規則之前,必須了解規則的可信程度,以便更科學、合理地輔助決策。
表5 決策規則

規則編號記錄號規則描述結果可信度綜合可信度1x1,x2a≤0640∧b≤0429∧d≤0761H1000142x3a≤0640∧b≤0429∧d>0761L0500043x4a≤0640∧b≤0429∧d>0761H0500044x5a≤0640∧b>0429∧d>0761H1000075x6a≤0640∧b>0429∧d≤0761H1000076x7a>0640∧b≤0429∧d>0761H1000077x8,x9,x10a>0640∧b>0429∧d>0761H1000218x11,x12,x13,x14a>0640∧b>0429∧d≤0761L100029 注:某項規則的綜合可信度=(可信度×記錄數)/總記錄數,以規則1為例,其綜合可信度=100×2/14=014
根據分析,可以得出結論。
(1)決策規則集給出了8條確定性規則,可將其轉化為語言進行描述,以規則7、8為例,得到的武漢市人均糧食產量水平變化的定量化表達為:當某一年武漢市單位面積從業人口大于640人,人均用電量大于429 kW·h,單位面積化肥施用量大于0.761t/hm2時,則當年的人均糧食產量將高于0.937t,屬于高產水平; 當某一年武漢市單位面積從業人口大于640人,人均用電量大于429 kW·h,單位面積化肥施用量小于0.761t/hm2時,則當年的人均糧食產量將低于0.937t,屬于低產水平。
(2)規則7、8的綜合可信度最高,可將其分別作為人均糧食產量高、低產水平的代表性規則。從圖1顯示的基礎數據的變化上看,單位面積從業人口(a)和人均用電量(b)均呈逐年上升趨勢,結合規則7、8的表達式可以得出,若進一步研究武漢市人均糧食產量的變化趨勢,單位面積化肥施用量(d)將是唯一的影響因素,當單位面積化肥施用量小于0.761t/hm2時,人均糧食產量處于低產水平,大于0.761 t/hm2時,人均糧食產量將處于高產水平。
(3)從規則分析來看,武漢市的人均糧食產量變化與單位面積從業人口(a)、人均用電量(b)和單位面積化肥施用量(d)等3者有密切的聯系,且單位面積化肥施用量的影響最為顯著。歐陽浩[4]、王丹丹[5]等對廣東省糧食產量影響因素分析中,也驗證了化肥用量對糧食產量有著顯著影響。王奇等[11]基于糧食產量與化肥施用的定量關系對我國糧食安全與水環境安全之間的關系進行了分析,結果表明,化肥施用量不僅關系著糧食安全,同時也對水環境產生一定影響,對水環境安全構成一定威脅。
運用前文分析的結論,可以對武漢市未來人均糧食產量情況進行預測分析。粗糙集理論最大的優點就是挖掘出來的規則具有較強的客觀性,為了使預測結果也更具有客觀性,這里不直接對單位面積化肥施用量按照其變化規律進行預測,而是分別對耕地面積和化肥施用量的變化趨勢預測后再計算出單位面積化肥施用量的變化情況。因此,通過建立線性回歸模型進行計算,得到未來10年兩者的預測值,再結合預測值計算出單位面積化肥施用量(表6)。對照決策規則7、8,如果按照目前武漢市耕地糧食生產的投入條件趨勢發展,可推斷出今后10年武漢市人均糧食產量的水平將一直處于小于0.937t的低產水平。
表6 2015~2024年武漢市人均糧食產量水平趨勢預測

屬性2015201620172018201920202021202220232024耕地面積(萬hm2)19960198341970819582194561933019204190781895218826化肥施用量(萬t)14180138421350413166128281249012152118141147611138單位面積化肥施用量(t/hm2)0710069806850672065906460633061906060592人均糧食產量水平預測(t)≤0937≤0937≤0937≤0937≤0937≤0937≤0937≤0937≤0937≤0937
(1)未來10年武漢市人均糧食產量可能將一直處于低于0.937t的水平。武漢市農村從業人口近年來總體上呈逐年增加趨勢,年均變化率為1.51%,而糧食總產量雖呈現不規律的變化,總體仍呈上升趨勢,年均變化率為0.63%,但遠低于農村從業人口的變化率,如果當前的趨勢不發生異常變化,未來10年武漢市人均糧食產量將一直處于低產水平。隨著新型城鎮化的不斷推進,大量的農業人口開始向非農化和城鎮轉移,未來農村從業人口結構勢必會發生變化,人均糧食產量的水平也將會發生反轉。同時,不斷提高農業生產力水平以提高糧食產量,也將是提升人均糧食產量的重要途徑。
(2)應重點加強對化肥施用量與糧食產量的定量化研究。隨著農業生產力水平的不斷提高,糧食單產水平不斷提升,公眾對于中國糧食安全的關注度在下降,但對于中國這樣一個近14億人口的超級大國來說,糧食安全問題將是恒久不變需要持續加強研究的課題。結合該文的分析結論,在研究武漢市糧食產量的變化趨勢時,應重點考慮單位面積化肥施用量對糧食產量的影響。而且在當前推進生態文明建設過程中,還應注意分析區域糧食安全與其水環境安全之間的關系。
(3)將粗糙集理論嵌入GIS系統中,提升數據分析與決策能力,應成為未來研究的一個重要方向。由于采集的數據量有限,分析的結論可能存在一定的誤差,但是分析得出的結論應該具有一定的參考借鑒價值,特別是挖掘的規則對于武漢市人均糧食產量水平的變化規律給予了定量化的描述,對于武漢市農業生產以及土地利用等方面能夠提供一定的決策支持。當前,國內關于粗糙集理論的相關研究大多為方法的實證研究階段。該文認為,如何將粗糙集理論及方法嵌入到GIS系統中,充分運用其數據挖掘功能,從海量數據中提取隱含的客觀規律,有效提升系統的數據分析和科學決策能力,將是今后研究的重點。
[1] 唐華俊. 專家系統和決策支持系統的異同及其應用.中國農業資源與區劃, 1995, 16(3): 56~60
[2] 于洪, 王國胤,姚一豫.決策粗糙集理論研究現狀與展望.計算機學報, 2015, 38(8): 1628~1639
[3] 葉回春, 張世文,黃元仿,等.粗糙集理論在土壤肥力評價指標權重確定中的應用.中國農業科學, 2014, 47(4): 710~717
[4] 歐陽浩, 戎陸慶,黃鎮謹,等.基于粗糙集方法的廣東省糧食產量影響因素分析.中國農業資源與區劃, 2014, 35(6): 100~107
[5] 王丹丹. 基于粗糙集理論的河南省糧食產量預測研究.河南農業大學學報, 2015,49(6): 876~880
[6] 張政超, 關欣,何友,等.粗糙集理論研究的新進展.計算機與現代化, 2009,(11): 16-21+25
[7] 王學恩, 韓崇昭,韓德強,等.粗糙集研究綜述.控制工程, 2013, 20(1): 1~8
[8] Pawlak Z.Rough Set.International Journal of Computer and Information Sciences, 1982, 11: 341~356
[9] 王國胤.Rough集理論與知識獲取.西安:西安交通大學出版社, 2001
[10]孫英娟. 基于粗糙集的分類方法研究.長春:吉林大學, 2011
[11]王奇, 詹賢達,王會.我國糧食安全與水環境安全之間的關系初探——基于糧食產量與化肥施用的定量關系.中國農業資源與區劃, 2013, 34(1): 81~86