郭誰瓊,金雨澤,張 嘉,白曉飛,李 煥,黃賢金,鐘太洋
(1.南京大學地理與海洋科學學院,江蘇 南京 210046;2.中國土地勘測規劃院,北京 100035)
基于數據挖掘的第二次土地調查成果應用現狀分析
郭誰瓊1,金雨澤1,張 嘉2,白曉飛2,李 煥1,黃賢金1,鐘太洋1
(1.南京大學地理與海洋科學學院,江蘇 南京 210046;2.中國土地勘測規劃院,北京 100035)
研究目的:對二調成果在全國范圍內的應用深度和廣度進行量化分析。研究方法:數據抓取、數據挖掘和半自動分類技術。研究結果:(1)二調數據在國土部門應用頻率遠高于其他部門,但從趨勢看正逐步向其他部門滲透;(2)土地權屬類信息得到最廣泛應用,其中規劃、確權、基本農田保護為主要的利用形式;(3)圍繞山西、山東、江蘇、江西4省出現魯蘇皖贛、晉陜兩個應用頻次較高的組團,應用方式基本與其主要職能相對應。研究結論:二調成果尤其是土地權屬類信息在部門間應用范圍正逐漸擴大,區域之間在應用深度廣度上存在差異。
土地調查;成果應用;行政部門;大數據
土地調查是開展土地利用及社會經濟發展決策的基本依據。《土地管理法實施條例》第14條規定“土地調查應當包括下列內容:(一)土地權屬;(二)土地利用現狀;(三)土地條件”。全國第二次土地調查(以下簡稱為“二調”)將這些信息以文本和空間數據的形式進行表達,使其具備了易復制、易更新的特征,成為了政府和相關部門、科研機構開展工作的基礎數據[1]。
二調成果具有詳實性和空間性特點,在土地利用規劃實施評價[2]、農村居民點整理成效[3]、農村居民點的空間優化[4]等方面已見研究和應用。關于二調數據的研究性應用現狀的綜述,郭誰瓊等對此做了定量化描述[5]。同時,二調成果作為全國政務信息化建設的重要基礎,在規劃修編、數字化建設、業務管理、土地管理和耕地保護中的應用研究得到證實[6],在地稅、數字城市建設、農業管理中也有所體現[7]。馬龍泉等由此探討了二調成果分級共享機制,按照信息公開級別分為國土系統、其他行政部門及企事業單位、社會公眾三級[9]。
二調成果主要在哪些部門得到應用?不同地區的應用是否有顯著差異?應用現狀是否對其公開機制提出要求?這些具體問題卻因數據統計困難等原因鮮見回答。定量研究的缺乏使得二調成果應用研究停留在可能性分析的層面,難以反映其應用強度和廣度。對二調成果應用現狀進行量化分析,不僅能補充研究領域的空缺,也能根據應用的差異化特征來優化其公開形式,使其能夠得到更廣泛和充分的應用。
本文旨在從不同部門應用和不同區域應用兩個角度對二調成果的應用現狀進行分析,在定性分析的基礎上,通過關鍵詞檢索的方式進一步挖掘這些成果在不同部門和不同地域間的應用差異,以期為二調成果的應用現狀提供更有力的量化支持。
二調信息根據其公開的級別可分為國土部門、其他政府部門、社會公眾三個層次[9]。目前二調成果還未對社會公眾公開,主要的社會應用集中于國土部門和其他政府部門,為了了解二調成果在不同部門和不同地區應用程度的差異,需要對應用的形式和次數進行分類統計,但由于這類數據意義特殊,缺乏相應的統計指標,而且數據總量大、來源分散,因此在全國層面精確統計存在困難。
“大數據”的來臨意味著能夠在更多的領域和更深的層次上獲得和使用全面、完整和系統的數據[10]。這一概念一經提出就已在經濟學、社會學、醫學等多個研究領域得到了廣泛應用,但是在地理學研究中依舊局限于遙感、地理信息系統等方面[11-13],反映地理事件發生頻率的數據則較少得到挖掘。目前,政務信息公開已經成為中國大多數政府網站的“第一功能”[14],二調成果的應用作為政府工作內容之一在其官方網絡平臺通常會有相關信息發布。政府網絡政務公開實際構成了二調信息的“大數據”,充分利用這一載體并結合相應數據挖掘技術為突破目前研究的制約提供了可能。本文受到“大數據”的啟發,考慮采用關鍵詞檢索方法結合數據挖掘技術,以二調信息發布頻率來替代二調實際得到應用的頻率對目標問題進行探索。
研究主要流程分為數據挖掘和數據分析兩大塊,數據挖掘主要包括數據抓取、自動分類、手動分類三步,數據分析包括總體應用分析、應用類別分析和區域差異分析(圖1)。
數據挖掘和數據過濾分別通過編寫網絡數據采集軟件UindexWeb和半自動分類軟件Filter實現。由于網絡信息存在重復發布的情況,因此在一次抓取的結果基礎上進行手工篩選,對標題重復和目錄級別的信息進行刪除,最終篩選得到的數據包括了信息公開級別、部門以及地區三個屬性值。不同的屬性值相互重疊交叉,分析時無法兼顧每個方面,鑒于本研究主要目的是揭示二調數據在應用類別和區域層面的差異,下文立足于這兩個角度重點展開分析。本文中所列數據如未經特殊標注,均為Filter軟件篩選計數結果。

圖1 研究技術路線Fig.1 Technology roadmap

表1 篩選關鍵詞及約束條件Tab.1 Classification keywords and basic rules
第一輪數據抓取和數據自動分類共檢索到1708條有效記錄,手動分類后最終得到有效信息為754條,信息有效率為44.1%。其中國家層面100條,主要集中在國土部門;省級層面654條,廣泛分布在住建、水利、農業、地稅、統計和旅游等政府官方網絡信息平臺。從部門間分布來看,除了國土部門之外,農業部門二調信息公布量最高,占總信息量的7.4%,這與農業和土地關系的緊密性密不可分。住建部門在房地產管理和規劃編制等過程中應當也會較多地涉及土地權屬利用類的數據,但是統計結果卻顯示旅游和統計部門的信息發布量更大。一方面數據在抓取和分類時存在絕對誤差,但是也可以初步推斷二調數據的應用不僅僅局限于與土地利用直接相關的部門,而是逐步向旅游、統計等其他政府部門延伸。
在實際結果驗證中,研究發現由于部門間信息轉載等情況的存在,僅以不同部門包含“二調”相關關鍵詞的信息數量并不一定能反映這些部門對二調成果的應用水平。為了更精確地統計此類信息的部門歸屬,進一步采取了職能關鍵詞進行詳細統計。職能關鍵詞指的是能反映不同部門主要職責的關鍵詞,分別對應《土地管理法實施條例》中規定的土地調查三大內容,即土地權屬、土地利用、土地條件。
土地權屬是土地制度的核心問題[15],所有施加在土地上的行為都會涉及土地權屬,因此本研究認為9個關鍵詞的出現頻率均能反應土地權屬信息的利用程度。土地條件包括土地的自然條件和社會經濟條件,是土地區位的基礎。對土地區位的研究顯示,區位在決定城市規劃[16-17]、地價[18]等方面起到了關鍵作用,此處將“規劃”、“以地控稅”、“房地產市場”、“土地市場”和“災害”5個關鍵詞作為土地條件信息利用的代表。在明確土地權屬、探明土地條件的基礎上進行的具體人類活動即為土地利用。隨著“數字城市”的建設,土地利用的數字化表達也日益成為實踐研究的重點[19-20],因此最后在土地條件相關關鍵詞基礎上調整選取“數字化”、“督查”、“規劃”、“以地控稅”、“房地產市場”和“土地市場”6個關鍵詞來描述。因為此處一個關鍵詞可能對應多個職能,同時一條網頁信息中可能同時涉及多個關鍵詞,因此二次篩選得到的計數總量會高于一次篩選。

圖2 職能關鍵詞與調查內容、應用部門的對應關系示意圖Fig.2 Correspondences of function key words to land survey contents and application departments
4.1 土地調查三大內容分布情況
以二次搜索結果和職能關鍵詞分類為依據,統計得到土地權屬、土地條件和土地利用相關信息出現次數分別為1370、710和776條。出現這一結果一方面是由于在歸類時不同內容下關鍵詞數量存在差異,另一方面這三個概念之間的相互關系影響了這三類信息數量的分布。對于任何一宗土地而言,包括土地的邊界、各項權益的歸屬在內的土地權屬是最為基礎的信息。只有明確了土地的權屬,才能進一步探討施加在其上的各種行為[21]。土地權屬也是探討具體地塊土地條件和土地利用方式的基礎,因此其出現于任何一項涉及土地這一客體的事件和行為中,相關信息量最高。土地利用是在土地權屬基礎上結合土地條件進行的,其既反映了特定土地的條件狀況又體現了土地現狀和人類的活動,信息要比土地條件豐富,因此在數量上也略高于土地條件的信息總量。
4.2 職能關鍵詞分布情況
在不同的信息公開級別[9],主要信息均集中在“規劃”、“基本農田保護”、“災害”、“確權”這4個關鍵詞上,從不同部門來看,各自發布的信息重點多有不同(表2)。

表2 職能關鍵詞檢索量的部門分布情況Tab.2 Distribution of function key words
從不同關鍵詞在國土部門和其他部門所占比重差異來看,國土部門(一級公開層面)發布信息中“基本農田保護”占比要高于其他部門,可以推斷在基本農田保護工作上國土部門顯示出更高的關注度。其他部門(二級公開層面)中,農業部門相關信息的發布量要明顯高于其他部門,總計69條,占二級公開信息總量的53.1%,其中,提及次數最多的為確權。農村集體土地確權登記發證工作是推進農業、農村改革發展的基礎性工作,對維護農民土地合法權益,推進工業化、城鎮化和農業現代化,加強農村社會管理,促進城鄉統籌發展具有重要意義[22],以二調信息中土地權屬信息為基礎的確權工作也日益成為農業部門工作的重要內容。其次是旅游部門,共計發布信息31條,占二級公開信息總量的23.8%。旅游部門網頁中“規劃”這一關鍵詞出現頻率最高,可以推斷在旅游部門,二調數據主要用于旅游規劃的編制。統計部門發布的相關信息總量居第三位,共13條,占二級公開總量的10.0%,以“規劃”為主要關鍵詞。從具體網頁發布的信息來看,在普查類統計工作中,利用二調數據進行統計單元和統計區域的劃分是主要的利用形式。除了以上三個單位之外,住建、水利和地稅信息發布量都不足10條,反映的信息較為局限,無法深入分析。
二調數據是中國開展土地利用與社會經濟發展決策的基礎[23],無論是對政府的宏觀調控決策還是市場的土地利用決策都具有重要價值[24],尤其是近年來新型城鎮化、沿海產業帶等重大決策不斷推出,對土地整治、土地規劃、城鎮化發展規劃和產業布局都提出了新要求[25-26],當前二調數據應用不夠廣泛,與公開不夠甚至一些地區尚未公開有關,影響了相關部門特別是學術研究的應用。

圖3 全國各省、自治區、直轄市應用二調成果的頻次分布Fig.3 Application frequencies of the second land use survey data in different provinces
5.1 全國層面分析
對二調在全國(不包括港、澳、臺地區)31個省、直轄市和自治區部門信息公開中的出現頻率進行了統計,其中共有22個地區在相關政府部門網站上有二調相關信息發布(圖3)。
從圖3中可以看出,中國東部和中部二調相關信息發布量較高,并在東部沿海地區的山東、江蘇、安徽出現了小范圍的集中現象,西南大部分省份二調信息的公開力度不夠。山西、山東、江西和江蘇4省信息發布的總量最高,分別為135、122、89和73條,占到總信息量的20.6%、18.7%、13.6%和11.2%。沿海地區是中國經濟發展的重要陣地,突出的人地矛盾是沿海地區土地管理中最嚴峻的問題之一[27],而中北部則是主要的糧食產地,因此這兩部分地區對于土地問題的關注度要明顯高于其他地區。
除了應用的強度之外,二調數據在不同省市部門間應用的廣度也存在差異,此處以二調數據得到應用的部門數來反映。根據統計結果,全國各個省(直轄市、自治區)應用二調數據部門的數量在0—4個,有9個省(直轄市)沒有公開對二調數據的應用,因此其計數結果為0,大部分省(直轄市、自治區)僅在一個部門發布了信息。根據初步推斷僅在一個部門發布信息的情況下應該集中在國土部門,但是實際其中有7個省(直轄市、自治區)的信息發布在非國土部門,占發布信息省總數的一半以上。結合上兩節的分析也可以發現,到了省(直轄市、自治區)層面,非國土部門已經成為了信息發布的主要平臺之一,同時二調數據應用的廣度也進一步擴大。
5.2 省際差異分析
對信息發布量最大的4個省份——山西、山東、江西和江蘇進行初步分析顯示,主要信息依舊集中在一級公開的國土部門。從省的個案來說,山西省信息發布通過國土和統計部門,江蘇省通過國土、統計、水利和農業部門,山東省通過國土、農業、地稅和統計4個部門,江西省則集中在國土部門。
以上4個省份發布的二調信息中包括了已選取的職能關鍵詞,不同于全國層面的分析結果是,關鍵詞除了集中在“確權”、“基本農田”等與農用地利用相關的內容上,針對“災害”這一關鍵詞的信息發布要明顯多于其他地區。從發布的具體信息內容來看,災害相關信息主要集中在二調成果數據在地質災害調查上的應用。如需進一步深入研究二調成果的應用情況,可以著重選擇山西、山東、江西、江蘇4省及代表性地市的相關信息做典型分析。
在應用內容方面選取了出現頻率最高的幾個職能關鍵詞進行進一步分析。從出現頻率最高的關鍵詞“規劃”的分布來看,空間上呈三組團分布,即東部沿海山東、江蘇,中部地區山西、陜西,西南地區云南、貴州三組團。這些省份或土地利用強度大,或省域內多為山地等特殊的地形,或受氣候等多方面影響,實際可以利用的土地面積并不多,因此對這些省份來說二調的數據在規劃制定方面起到了重要的支撐作用。“確權”一詞主要在山東、江蘇等省份出現。山東作為糧食產地之一,為了便于生產對確定土地權屬要求較高,江蘇省作為沿海經濟大省,農地保護與城市發展的沖突使得土地權屬問題尤其突出。與農田保護相關的關鍵詞如“基本農田”、“督查”呈現與“確權”基本一致的分布趨勢,在山西、山東、江蘇、江西4省出現頻次最高,與二調成果應用總量頻率分布一致。這幾個關鍵詞的總量也占據了信息總量的較大比例,達36.5%,可以推斷農田保護是二調數據得以應用的主要內容之一。“災害”關鍵詞的分布符合總體分布特征,值得一提的是,云南、貴州地處于西南地區,地質災害發生幾率較高,“災害”作為關鍵詞出現的頻率相對較高。
(1)目前二調成果的應用主要集中于國土部門,農業部門其次,且存在二調數據在其他行政部門中應用的延伸趨勢。
(2)從應用的類別來看,根據所定義的職能關鍵詞劃分情況,土地權屬、土地利用、土地條件三大類信息發布量依次遞減,土地權屬作為土地制度的核心在應用頻率上得到了體現。職能關鍵詞的分析顯示多數部門將二調數據用于編制各項規劃,在二調數據呈現的方式上對三大類信息的整合、處理、變更、保存提出了更高的要求。因此,在今后的工作中應著力推動以二調數據為基礎的“一張圖”工程。與農業生產活動相關的“基本農田保護”、“確權”也占據相當大的比重,體現相關部門對于“三農”問題的重視度日益提高。二調數據在災情排查和災后建設的應用比例也相對較高。
(3)從空間上看,各省應用二調成果的深度(應用頻率)有較大差別,總體上呈現東部沿海多、中西部少的格局。山西、山東、江蘇、江西是應用二調成果最多的省份,圍繞這4個省份也出現魯蘇皖贛、晉陜兩個應用頻次較高的組團。二調數據部門應用廣度的地區差異與深度差異基本一致,整體來看較好地實現了從一級公開層面向二級公開的滲透和對接。應用類型上規劃編制方面的應用多出現在山東、山西;確權方面應用主要出現在山東、江蘇;督察和基本農田保護方面應用集中于山東、山西、江蘇、江西;數字化、一張圖和金土工程方面應用主要在江蘇、山東;災害方面應用主要在云南、山西;土地市場和房地產市場方面應用主要在江蘇、江西和山西。
(4)本文也存在一些不足:①出于數據可得性和工作量的考慮,采用軟件對網頁數據抓取篩選來進行量化分析,雖然提高了工作效率,但不可避免存在冗余信息或算法漏洞的情況,所以得到的統計數據在數量上的精確度依然有待提升;②對國家級和省級政府部門的網站信息進行采樣分析,僅能反映公開信息中行政部門對二調成果的應用狀況,還有部分未公開的應用未參與計數,故采樣分析結果與現實情況仍存在不可避免的誤差;③本文的研究僅對二調數據的應用現狀作定量分析,對于這種現狀形成的原因未作深入系統分析,這部分研究可以通過選取典型省份作應用原因分析進行補充。
(References):
[1]楊波,范金梅,曲欣.“二調”給力土地整治——“二調”成果在土地整治潛力評價中的應用[J].中國土地,2012,(3):50-52.
[2]王婉晶,揣小偉,黃賢金,等.基于空間吻合性的土地利用總體規劃實施評價方法及應用[J].農業工程學報,2013,(4):1 -14,296.
[3]張曉平,朱道林.城鄉建設用地增減掛鉤政策下的農村居民點斑塊整理模式評價[J].農業工程學報,2012,(1):244-249,297.
[4]楊立,郝晉珉,王紹磊,等.基于空間相互作用的農村居民點用地空間結構優化[J].農業工程學報,2011,(10):308-315.
[5]郭誰瓊,黃賢金,白曉飛,等.土地利用變更數據的應用研究現狀與前景[J].中國土地科學,2013,27(12):18-24.
[6]徐兵.第二次土地調查成果多元化應用[J].淮海工學院學報(自然科學版),2009,18:134-136.
[7]徐勇,李健,江韋希,等.第二次土地調查成果在日常土地管理中的應用[J].地理空間信息,2011,9(3):159-161.
[8]王麗娟,王勇,丁圓婷.土地變更調查成果在耕地保護中的應用研究[J].安徽農業科學,2012,40(5):3048-3049.
[9]馬龍泉,陳建龍,李勇,等.第二次土地調查數據成果分級共享機制研究[J].國土與自然資源研究,2012,(6):20-21.
[10]Viktor Mayer-Sch?nberger,Kenneth Cukier.大數據時代:生活、工作與思維的大變革[M].杭州:浙江人民出版社,2012.
[11]張曉祥.大數據時代的空間分析[J].武漢大學學報(信息科學版),2014,39(6):655-659.
[12]劉瑜,康朝貴,王法輝.大數據驅動的人類移動模式和模型研究[J].武漢大學學報(信息科學版),2014,39(6):660-666.
[13]吳立新,余接情,楊宜舟,等.基于地球系統空間格網的全球大數據空間關聯與共享服務[J].測繪科學技術學報,2013,30(4):409-415,438.
[14]鄭文暉.我國政府網站政務信息公開的現狀及對策分析——基于55個省(市)級政府網站的調查[J].現代情報,2007,(12):19-22.
[15]劉長安.論土地權屬調查與地籍測量[J].浙江國土資源,2003,(1):30-33.
[16]楊吾揚.區位論與產業、城市和區域規劃[J].經濟地理,1988,(1):3-7.
[17]管馳明,姚士謀,陸樹建,等.基于全球區位論的城市發展研究:以江蘇省南通市為例[J].人文地理,2003,18(4):69-74.
[18]李華忠,劉軼,艾南山.地價杠桿與土地區位配置[J].經濟地理,1995,15(2):24-30.
[19]鄭曉華,楊純順,陶德凱.基于數字城市的城市土地利用現狀調查數字化實踐——以南京市城市總體規劃為例[J].國際城市規劃,2010,25(2):43-47.
[20]羅敏.基于數字化地圖的土地信息系統中土地利用分類的探討[J].國土與自然資源研究,1999,(4):29-31.
[21]粟敏,宋金平,方琳娜,等.城市邊緣區土地權屬變化分析——以北京市大興區為例[J].中國農業資源與區劃,2010,31(6):52-57.
[22]于建嶸,石鳳友.關于當前我國農村土地確權的幾個重要問題[J].東南學術,2012,(4):4-11.
[23]譚術魁,宋祥波,張路.城市土地利用與經濟發展的和諧度研究[J].土地經濟研究,2014,(1):33-48.
[24]黃凌翔,范曉莉,盧靜,等.基于SVAB模型的土地供給調控政策與宏觀經濟的關系分析[J].土地經濟研究,2014,(1):79-90.
[25]Xianjin Huang,Yi Li, Ran Yu, et al. Reconsidering the controversial land use policy of linking the decrease in rural construction land with the increase in urban construction land: a local government perspective[J]. The China. Review, 2014, 14(1): 183-206.
[26]嚴金明,夏方舟,楊丹鳳.新型城鎮化背景下中國土地整治的轉型發展研究[J].土地經濟研究,2014,(1):21-32.
[27]王長征,劉毅.沿海地區人地關系演化及優化分析[J].中國人口·資源與環境,2003,13(6):91-96.
(本文責編:仲濟香)
Application of the Second National Land Use Survey Data: An Analysis Based on Data Mining
GUO Shui-qiong1, JIN Yu-ze1, ZHANG Jia2, BAI Xiao-fei2, LI Huan1, HUANG Xian-jin1, ZHONG Tai-yang1
(1. Department of Geographic and Oceanographic Science, Nanjing University, Nanjing 210046,China; 2. China Land Surveying and Planning Institute, Beijing 100035, China)
The purpose of this study is to know the depth and width of the application of the second national land use survey data. The methods used in this study include data crawling, data mining and semi-automatic classification technology. The study shows the application frequency of the second land use survey data is higher in the Department of Land Resource than in other Ministries on the second-disclosure level but there is a trend of increasing application frequency and realizing cooperation on different levels. Information concerning land rights is most wildly applied. Planning, confirmation of land rights and protection of basic farmland are areas where those data shows the highest occurrence. The distribution manifests a spatial agglomeration around Shanxi, Shandong, Jiangsu, Jiangxi Provinces and the specific uses are in line with their functions respectively. The conclusion is that the application of the second national land use survey data, especially land rights data is widening and there are difference in the depth and width of the application among different regions.
land survey; application of the second national land use survey data; administrative departments; big data
K909
A
1001-8158(2014)09-0060-08
2014-04-15
2014-06-10
國家自然科學基金(41271190,40801063,40971104);土地變更調查數據應用分析研究(0904151021);國家科技支撐項目(2013BAJ13B02)。
郭誰瓊(1990- ),女,江蘇東臺人,在讀碩士。主要研究方向為土地利用與政策。E-mail: gsq0223@126.com