袁少雄,陳 軍,宮清華,尹小玲,劉 通,王 鈞,黃光慶,*,羅新權
1 廣州地理研究所,廣東省地理空間信息技術與應用公共實驗室,廣州 510070 2 廣東省生態環境技術研究所,廣東省農業環境綜合治理重點實驗室, 廣州 510650
區域生態安全格局的構建涉及了重要閾值設定、有效性評價、多尺度關聯、生態過程耦合等系列復雜的分析研究[1- 2],通過對關鍵性的點、線、局部(面)或其他空間組合規劃設計,從而保護和恢復生物多樣性、維持生態系統結構和過程的完整性、實現對區域生態環境問題有效控制和持續改善[3- 4]。生態安全格局的構建主要有基于源地識別和生態阻力面分析構建法[5- 7]、基于生態系統服務供需分析構建法[8- 12]、基于景觀結構優化和風險分析規劃法[13- 14]和基于人類生存安全和理想人居環境目標的多因素疊加分析規劃法[15]等。不管采用哪一種方法,其前提均是假設生態安全格局與該區域生境中的各個環境因子是相互關聯的,通過對環境因子不同層次、不同深度的分析,進一步對其生態安全格局進行規劃,然而卻少有學者直接對生態安全格局與環境因子之間的關系進行分析研究。
大數據是大量、高速、多變的信息資產,它需要新型的處理方式去促成更強的決策能力、洞察力與最優化處理[16]。Apache Spark是一個圍繞速度、易用性和復雜分析構建的大數據處理框架,支持機器學習[17]。機器學習使用統計技術為計算機系統提供利用數據“學習”的能力,而不需要明確編程[18- 19]。在城市規劃方面,機器學習被用以檢測城市環境變化的本質[20]、城市建筑的識別[21- 22]、城市用地分類[23- 25]、模擬城市擴張[26- 29]等。但目前利用機器學習算法構建生態安全格局的嘗試還相對較少。
基于大數據的機器學習,通常是不問為什么,而只是檢測模式模型[30]。本文擬利用大數據處理框架SPARK機器學習對生態安全格局與環境因子之間的關系進行模擬分析,構建通用模型用以預測生態安全格局的分布情況,從而簡化繁瑣的分析過程、減少閾值設定中主觀因素的影響、提升生態安全格局規劃的效率、拓展生態安全格局研究途徑。本文假設已實施的廣東省佛山市高明區、三水區和順德區的生態安全格局規劃是符合當地實際情況的科學合理的方案。通過搭建Apache Spark處理框架,利用其機器學習庫中的邏輯斯蒂回歸對已有方案中的生態安全格局數據與其環境因子(巖性、土壤質地、土壤類型、用地類型、植被歸一化指數、海拔、坡度、陰陽坡向、曲率、斷層距離、道路距離、河流距離、建設用地距離、年均降雨量、年均氣溫、年均風速、人口密度)之間相互關系進行學習與訓練,檢測兩者的關系模型,進而利用該模型預測其他區域的生態安全格局。
1.1.1邏輯回歸模型
邏輯回歸(Logistic Regression,下稱LR),在機器學習中既可以用來回歸,亦可以用來分類,由于算法的簡單和高效,在實際中應用非常廣泛。其作為二分類模型,對因變量數據假設要求不高[31],是統計學習中的經典分類方法。本文中利用Apache Spark的機器學習庫(MLlib)中的Logistic Regression模型(下稱Spark-LR),計算生態安全格局構建中各環境變量的權值向量,以構建生態安全格局通用模型。
對于環境變量中的分類變量,如巖性、土壤質地、土壤類型、土地利用、坡向、陰陽坡和曲率分類后的離散變量等,需要使用啞變量(dummy variable)[32]。因為分類變量的各類之間不存在大小等級關系,它們之間的差距無法準確衡量,需要將原來的多分類變量轉化為多個啞變量,每個啞變量只代表某兩個級別或若干級別之間的差別,才能使回歸的結果有明確而合理的意義,啞變量代表的是等級間的比較結果[32]。
1.1.2模型的參數設置
在Apache Spark機器學習庫中,邏輯回歸模型的主要參數包括數據(本文為含生態安全格局樣點及建設用地點的SVM格式數據)、訓練數據與測試數據比例(部分用以模型訓練,部分用以模型精度測試)、邏輯回歸最大迭代次數(較小的值將導致更高的精度與更多的迭代的成本)、正則化參數(值>=0,應設置合適的值以防止過度擬合或欠擬合)、Elastic Net混合參數(設置0,懲罰為L2范數;設置1,為L1范數;設置0—1之間,懲罰為L1和L2組合)。本文設置訓練數據與測試數據比例為0.75∶0.25,其他參數經過多次反復模擬后選擇最佳擬合精度參數組合(更理想的狀態下可做蒙特卡洛模擬,以測試模型的穩健性)。
1.1.3生態安全格局分布圖計算
在沒有分類變量的情況下,邏輯回歸模型計算的權值向量,可以直接用在arcgis柵格計算工具中,公式如下:
(1)
式中,R為目標柵格,Vi為第i個變量,Ci為第i個變量對應的權值向量。
本文采用了多個分類變量,LR模型對各分類變量的啞變量進行權值向量計算,在GIS中對單個分類變量柵格計算需要按各亞變量分別進行權值向量計算賦值,方法是按柵格值與對應的權值向量相乘,得到相應柵格的新值,利用柵格計算的Con語句對分類變量柵格進行賦值運算,公式如下:
vR=Con(iR=v1,nv1,Con(iR=v2,nv2,Con(…)))
(2)
式中,vR為分類變量目標柵格,iR為分類變量柵格,v1、v2為分類變量柵格值,nv1、nv2為新的變量柵格值,新的變量柵格值是該分類變量原柵格值與權值向量的積。所有的分類變量目標柵格計算出來后,利用公式1計算目標柵格R。按以下公式計算生態安全格局可能性分布圖:
(3)
式中,P為生態安全格局可能性分布圖,b為LR模型截距。
1.1.4模型精度
應用受試者工作特征曲線(Receiver operating characteristic curve,ROC)分析法對預測的結果進行精度檢驗。Spark-LR模型運行后自動計算出AUC值(即ROC曲線下面的面積)。AUC值取值范圍為0.5—1,越接近1說明預測的結果越好,其模型預測的結果就越準確。AUC值為0.50—0.60(失敗),0.60—0.70(較差),0.70—0.80(一般),0.80—0.90(好),0.90—1.00(非常好)[33]。
1.2.1模型構建
采用佛山市高明區、三水區和順德區作為模型構建的基礎數據。數據主要為2009年廣東省佛山市高明區生態安全格局[15]、2011年佛山市三水區生態安全格局、2014年佛山市順德區生態安全格局(圖1A,下稱“三區生態安全格局”)等規劃的成果。
在GIS中根據三區生態安全格局的范圍隨機生成2923個數據點,提取每個數據點所在位置的生態安全格局屬性(圖1B),以保障生態安全格局(Guaranteed security pattern, GSP)、緩沖生態安全格局(Buffered security pattern, BSP)和最優生態安全格局(Optimal security pattern, OSP)等3個等級安全格局數據作為事件(即需要保護的生態資源)發生值(取值1),以建設用地作為事件不發生值(取值0)。每類再分別提取環境變量屬性,形成GSP、BSP和OSP 3個二維數值矩陣。將數值矩陣轉換為SVM格式數據,在Apache Spark平臺中分別利用三類數據構建相應模型GSPM、BSPM和OSPM。

圖1 廣東省佛山市高明區、三水區、順德區生態安全格局規劃(A)及樣點分布圖(B)Fig.1 Ecological security pattern plans (A) and sample distribution (B) of Gaoming district, Sanshui district and Shunde district, Foshan, Guangdong
1.2.2模型應用
模型應用以廣東省作為研究區域,分別利用GSPM、BSPM和OSPM預測廣東省全省生態安全格局,分析3個模型之間、預測結果與已有規劃之間以及預測結果與常規GIS疊加方法的結果之間的差異。
1.3.1變量選擇
目前關于利用機器學習的方式探討生態安全格局構建的研究較少,可參考的文獻不多,本文的變量選擇以地質災害安全格局[15]、生物保護安全格局等相關環境變量作為參考,采用巖性(E01)、土壤質地(E02)、土壤類型(E03)、用地類型(E04)、植被歸一化指數(E05)、海拔(E06)、坡度(E07)、陰陽坡向(E08)、曲率(E09)、斷層距離(E10)、道路距離(E11)、河流距離(E12)、建設用地距離(E13)、年均降雨量(E14)、年均氣溫(E15)、年均風速(E16)、人口密度(E17)等17個變量作為生態安全格局預測的環境變量,所有變量均處理成120米分辨率柵格數據。
1.3.2數據來源及分類變量處理
巖性數據來源于中國國家地質資料數據中心(http://geodata.ngac.cn/)廣東省1∶50萬地質圖。該變量為分類變量,以各地層的終止年代作為分類依據,各分類的屬性如表1。
土壤質地與土壤類型數據來源于中國廣東省生態環境與土壤研究所廣東省數字土壤V2.0(http://digital.soil.cn/),數據精度為1∶100萬。兩者都為分類變量,土壤質地分類見表2,土壤類型分類見表3。
用地類型數據是利用GIS對Landsat7數據(2015—2016年度,原始精度為30 m,數據來源于中國科學院計算機網絡信息中心地理空間數據云平臺http://www.gscloud.cn)進行監督分類,將土地利用類型分為林地、園地、草地、耕地、濕地、建設用地、其他用地和水域(表4)。
NDVI數據來源于中國科學院計算機網絡信息中心地理空間數據云平臺(http://www.gscloud.cn)250 m植被指數16天合成產品。
海拔數據為數據來源于中國科學院計算機網絡信息中心地理空間數據云平臺(http://www.gscloud.cn)30 m分辨率數字高程數據,坡度、坡向、平面曲率數據由DEM經過空間分析獲得。陰陽坡向由坡向按平面、陽坡、陰坡進行重分類后獲得(表5)。平面曲率分為凹、平、凸三類(表6)。

表1 巖性分類及屬性
E,環境變量 Environmental variables

表2 土壤質地分類及屬性

表3 土壤類型及屬性
斷層數據來源于中國國家地質資料數據中心(如前地質數據源,1∶50萬),廣東省道路及河流數據來源于自有數據(精度1∶100萬),建設用地數據為用地類型數據中的一類。利用GIS歐氏距離工具計算各距離因子,獲得斷層距離、道路距離、河流距離和建設用地距離。

表4 用地類型及屬性
年均降雨量、年均氣溫、年均風速由廣東省氣象局多年氣象數據通過GIS的Kriging插值生成(分辨率:120 m)。人口密度來源于歐洲人類居住區任務(http://ghsl.jrc.ec.europa.eu/,分辨率:250 m)。
Spark-LR模型生態安全格局構建流程見圖2。
本研究中GSPM的平均AUC值達到90.58%,模型精度非常好;BSPM的平均AUC值為86.49%,模型精度較好;而OSPM平均AUC值71.11%,模型精度一般。由于GSP、BSP和OSP在本質都是“生態資源(生態用地)”,三者之間只是景觀破碎化程度的高低,資源集中程度高低的區別,因此本文僅給出模型精度高的GSPM結果供參考。

表5 陰陽坡向屬性

表6 平面曲率屬性
Spark-LR的結果顯示,基于GSP數值矩陣的訓練模型,偏置向量b為0.5235±0.0079,各變量對應的分類及其權值向量見表7。

表7 GSPM變量、亞變量及相應權值向量

圖2 Spark-LR模型生態安全格局構建流程Fig.2 Spark-LR model ecological security pattern construction processE:環境變量 Environmental variables;SVM:支持向量機 Support vector machine;LR:邏輯斯蒂回歸 Logistic regression;ROC:受試者工作特征曲線 Receiver operating characteristic curve

圖3 GSPM預測精度Fig.3 GSPM prediction accuracyAUC:ROC曲線下面的面積Area under the curve of ROC
GSPM的平均AUC值為0.9058(圖3),說明模型擬合的精度非常好,預測準確性高。
利用公式1、2、3對GSPM的主要變量及相應權值在GIS里進行計算,得到GSPM預測的廣東省生態安全格局概率分布圖4。結果顯示珠江三角洲地區、韓江流域下游地區是基本保障生態安全格局可能性最低的區域,亦是廣東省人類活動最活躍、城市建設最強烈的區域。而南嶺的各向余脈、青云山脈、蓮花山脈及云霧山脈是基本保障安全格局可能性最高的區域,是廣東省生態系統最重要的源和關鍵點,是廣東省生態安全格局的“核心區”,保障這些區域的生態系統的完整性,是維護廣東省生態安全的基本低線。

圖4 GSPM廣東省生態安全格局概率分布圖Fig.4 Probability distribution of ecological security pattern of GSPM in Guangdong Province
GSP、BSP和OSP本質上都包含有生態系統中較重要的生態斑塊,在景觀水平生態過程中起著關鍵性的作用,是物種擴散和維持的主要區域,是同一個類型中不同的3個層次。三者的區別在于,GSP是生態系統功能維持、生物多樣性保護的關鍵區域,是生態系統服務功能最強的區域;而BSP則次之;OSP內的景觀破碎化程度較高,區域內物種的擴散有較高的阻力,是社會與自然交融度較高的區域。景觀一致性高的GSP,其數據的一致性高,相應模型預測的精度也高,而BSP和OSP數據的離散度逐漸增高,模型的精度也因此而降低。
3個模型都可預測類似的廣東省生態安全格局,但分布范圍不一樣的。將預測結果分別利用Nature breaks(jenks)[34]方式重新分類進行對比,可以發現:GSPM預測結果中保障安全格局占比達50.56%(圖5),而BSPM和OSPM中該類分別占42.40%和34.63%;GSPM預測結果中緩沖安全格局占比為25.21%,而BSPM和OSPM中該類分別占了31.64%和35.61%。

圖5 GSPM、BSPM和OSPM預測結果概率區分布對比 Fig.5 Comparison of probability distributions of GSPM, BSPM, and OSPM predictionsGSPM:保障生態安全格局模型 Guaranteed security pattern model;BSPM:緩沖生態安全格局Buffered security pattern model;OSPM:最優生態安全格局 Optimal security pattern model
Spark-LR模型的主要數據來源是佛山市高明區、三水區和順德區三區的生態安全格局已有規劃。GSPM預測的高明區生態安全格局總體上與已有規劃同區域的情況類似(圖6)。在已有規劃中,高明區東部區域緩沖安全格局占有較大比例,但在預測結果中,則是最優安全格局占了較大比例。預測結果中,三水區的保障生態安全格局僅少量分布在北部山區較小的范圍內,與已有規劃差距較大,而順德區的預測結果沒有保障生態安全格局分布,亦跟已有規劃不一致。
但與佛山市三區的生態安全格局對比,模型預測的廣東省生態安全格局區域尺度更大,其柵格數據在三級格局的區分中將以最優的自然斷點作為依據,因此預測結果中基本特征與全省特征相似的高明區與已有規劃會更接近。而如果將預測結果中三水區或順德區的數據單獨切分出來,利用自然斷點法進行分類,其結果與已有規劃也會更加接近(圖7)。因此,在不同區域尺度上,生態安全格局的分布是不同的。將模型預測的結果縮小到區縣尺度,其與已有規劃亦同樣是類似的。
圖7B箭頭指向處實際為水域,已有規劃非常注意水域的保護,將其劃為保障生態安全格局(圖7A),但是在模型預測中水域的重要性并沒有體現出來(圖7C),圖8已有規劃中高明河兩邊的保障型生態用地,在預測結果中同樣沒有體現出來,這說明水域的重要性被模型忽略了。原因可能是隨機生成的樣點中,位于水域部分的保障生態安全格局樣點太少,以至于模型認為河流在生態安全格局中的比重較低。
在已有規劃中,規劃者有意保護高明河兩岸一定范圍內的區域,但是GSPM預測的該區域則是建設用地,與城市擴張的實際情況相比,城市建設用地似乎是與模型預測結果更加切合(圖8箭頭指示位置)。考慮已有規劃的時限問題,我們不能就此說明GSPM比已有規劃能更準確地表達某一區域的生態安全格局,但是由此可以看到模型對城市擴張的分布區域預測具有一定優勢。

圖6 已有規劃與Spark-LR模型預測生態安全格局對比Fig.6 ESP Comparison of existing plans and Spark-LR model prediction results

圖7 三水區已有規劃與Spark-LR模型預測生態安全格局對比Fig.7 ESP comparison of existing plan and Spark-LR model prediction results in Sanshui districtA. 佛山三水區安全格局已有規劃;B. 2016年遙感影像;C. Spark-LR模型預測結果,Nature breaks(jenks)分類
將Spark-LR預測結果與GIS疊加分析法進行對比(結果均采用Nature breaks(jenks)分類),可以發現兩個結果中的生態安全格局有一定的相似性(圖9),各類安全格局的分布都與廣東省地形比較切合,廣東省各大主要山脈是保障安全格局分布區,而珠江三角洲、韓江下游和雷州半島等沿海地區是最優安全格局分布區。然而兩種結果中保障、緩沖、最優安全格局的分布面積卻明顯不同,常規方法的結果中廣東省保障及緩沖生態安全格局比例分別為27.09%和34.03%,而Spark-LR預測的結果中相應的比例分別為50.56%和25.21%。盡管我們不能因此斷定Spark-LR模型預測結果在規劃上的準確性,但不難發現機器學習預測的結果可能更加切合生態資源保護和人類社會長期發展需求,而GIS疊加結果或許需要進一步優化才能作為規劃結果。

圖8 已有規劃及預測生態安全格局在高明河兩岸與城市擴張實際情況對比Fig.8 ESP comparison of existing plan, Spark-LR prediction results and actual urban expansion on the two sides of Gaoming RiverA.已有規劃;B.2016年遙感影像;C.預測結果

圖9 GIS疊加分析與Spark-LR預測生態安全格局對比Fig.9 Comparison of GIS overlay Analysis and Spark-LR prediction ESP
1)利用大數據處理框架Apache Spark中的Logistic Regression機器學習模型,通過對現有規劃中生態安全格局里保障生態安全格局(GSP)、緩沖生態安全格局(BSP)和最優生態安全格局(OSP)數據與巖性、土壤質地、土壤類型、用地類型、植被歸一化指數、海拔、坡度、陰陽坡向、曲率、斷層距離、道路距離、河流距離、建設用地距離、年均降雨量、年均氣溫、年均風速、人口密度等環境變量之間關系的訓練學習,可以得到相應的回歸模型,利用該模型在GIS中對環境變量的回歸重構,可以預測出其他區域的生態安全格局分布情況。
2)保障生態安全格局模型(GSPM)預測精度達到90.58%,模型擬合的精度非常好,對生態安全格局的預測準確性高;以Nature breaks (jenks)方式重新分類之后,得到的保障安全格局高概率區比例高達50.56%,在實際應用中,有一定的參考價值。而緩沖安全格局模型和最優安全格局模型的預測精度分別只有86.49%和71.11%,前者的保障安全格局高概率區比例為42.40%,后者的只有34.36%。
3)對區域尺度進行劃分后,Spark-LR對生態安全格局的預測結果與已有規劃成果非常接近,但是模型容易受到樣點分布均衡性的影響;模型預測與GIS疊加分析的生態安全格局有一定的相似性,但預測的結果更加切合生態資源保護和人類社會長期發展需求,而GIS疊加結果則需要進一步優化才能作為規劃結果。
4)Spark-LR機器學習模型對生態安全格局中城市擴張的分布區域預測具有一定的客觀優勢。
機器學習的研究不僅是人工智能研究的重要問題,而且已成為計算機科學與技術的核心問題之一[35]。我們嘗試利用大數據計算框架Apache Spark下的機器學習對生態安全格局進行了模擬分析,向地理人工智能(GEOAI)探出了一小步,同時也遇到許多值得我們進一步探討的問題。GIS本身與大數據是密不可分的,國內外都有學者在研究空間大數據的分析處理[36],但如何用大數據平臺的機器學習自動構建生態安全格局仍需要進一步探索。機器學習在生態安全格局構建過程中環境變量選擇,是模型是否準確的關鍵問題之一,模型中到底該選擇哪些變量值得深入探討。雖然Logistic Regression模型是較常用的模型,但是在Spark-LR中,正則化參數和ElasticNet混合參數的設置都會影響到模型的精度,如何設置調優模型亦有一定的探討空間。關于大數據機器學習與生態安全格局構建及其相關領域的結合,仍有較多的未知領域,隨著大數據的發展及我國對生態環境更進一步的重視,機器學習與生態系統服務、生物多樣性保護、生態環境規劃、城市空間優化等領域的結合將會有更多契機。
致謝:廣東省氣象局災害中心劉尉博士幫助氣象數據分析,華南理工大學建筑學院袁奇峰老師對研究提供幫助,特此致謝。