劉 鈺,余卓芮,劉岱寧
(河南大學 1.土木建筑學院;2.中原發展研究院,河南 開封 475003;3.中國建設銀行股份有限公司開封分行,河南 開封 475000)
空間統計是《地理信息系統》課程的核心內容。具體來看,地理信息系統使用的數據分為柵格和矢量兩種格式,其中矢量數據分析的主體內容就是空間統計[1]。可見,空間統計是地理信息系統課程中不可或缺的支柱性內容。但是與空間統計在課程中的核心地位極不相稱的是其教學效果往往較差。具體表現為:一方面,學生對空間統計的原理沒有清晰的理解,轉而過度依賴空間統計分析軟件工具,這直接導致了學生難以正確解讀軟件工具的統計結果,使得最終的分析結論往往難以自圓其說。另一方面,學生對空間統計知識和技能的掌握程度與用人單位的實際需求不匹配。從用人單位的反饋來看,對學生地理信息系統技術能力的認可度普遍不高,其中代表性的問題就是學生對地理信息系統的使用大多局限在地圖作圖上,難以勝任以空間統計為主要技術手段的定量分析工作[2]。
為探究空間統計教學的癥結所在,筆者梳理了本人空間統計教學的多年經驗并與其他院校相關課程的主講教師進行了深入的探討之后,發現空間統計教學效果較差的主要癥結為以公式為主體的教學方式上。相對于其他地理信息系統教學內容,空間統計涉及數量多而且形式復雜的數學公式。這些公式的推導過程冗長繁瑣,對教師來說講授難度很大;而建立在這些公式基礎上的空間統計原理,對學生來說過于抽象、理解難度也非常高。這種以繁瑣和抽象的公式為主體的空間統計授課方式,無法有效開拓學生的思考空間,更無法讓學生產生代入感。面對眾多的公式,學生往往望而卻步、不求甚解,最后導致學習動力和興趣的喪失,使學習變得乏味和無聊,教學效果也可想而知。
可視化技術可將空間數據中復雜、抽象、枯燥和難以理解的數量關系以簡潔、直觀、生動和便于領會的圖形形式呈現給學生[2],可有效解決以公式為主體的教學方式帶來的諸多弊端,是提升空間統計教學效果的有效手段。因此,引入新的可視化軟件工具,用以支持空間統計的可視化教學,就成為教學實踐亟需解決的現實問題。
R語言是一門用于統計計算和可視化的編程語言。經過開發者長期的不斷努力,已經擴展成為使用便利和功能完備的開發環境,能夠支持包括數據存儲、清洗、建模和可視化在內的完整工作流程。
相對于現階段教學中使用的常規地理信息系統軟件,R語言可視化具有諸多優勢。(1)R語言的ggplot2擴展包可以方便繪制空間統計可視化所需的各種圖形[3]。ggplot2是基于圖形語法構建的,因此其使用非常簡便,通過簡短的代碼就可以實現復雜的圖形繪制。ggplot2提供了豐富的繪圖組件,包括點、線和多邊形等各種圖形的繪圖函數以及參考線、回歸曲線等各類圖形標注的繪圖函數,可方便地對空間數據進行多種形式的可視化。ggplot2還支持笛卡爾坐標系、極坐標系和地理坐標系等多種繪圖坐標系,可快捷地在空間維度的地圖和數據維度的統計圖形之間轉換。總體來看,相對于專注繪制地圖的地理信息系統軟件,ggplot2提供了豐富的繪圖功能和可視化表達形式,并支持地圖和統計圖形間的靈活轉換,從而可以便捷地演示空間統計原理,為空間統計教學提供有力的可視化支持。(2)R語言可視化開發簡便。R語言的S3系統是一種標簽式的面向對象系統,相對于地理信息系統軟件平臺使用的傳統面向對象系統,具有層次結構簡單、開發難度低的特點。這為授課教師自定義和封裝教學所需的可視化組件提供了極大便利。(3)R語言及其擴展包是開源軟件,在使用上完全免費;而且R語言擁有完善的社區,有數量龐大的志愿者對使用者提出的各種問題進行答疑解惑。
鑒于R語言的突出優勢,將R語言的可視化功能推廣到空間統計教學實踐中,會在很大程度上解決以抽象公式為主體的教學方式導致的諸多問題,輔助學生深入理解空間統計的基本原理,激發學生學習興趣,促進學生定量分析能力的提升。接下來,筆者以福建省建設用地的空間可視化為案例,進一步闡述R語言可視化在空間統計教學中的應用潛力。
空間統計具有突出的多維度特征,同一套空間數據,可從多個維度進行分析,其中代表性的統計維度包括空間差異、空間中心性和空間自相關。下面,筆者使用福建省67個縣級行政單元(包括縣、縣級市和地級市轄區)的建設用地規模數據,以R語言可視化為技術手段,揭示建設用地在這三個代表性維度的空間統計特征。建設用地的數據由中國科學院資源環境科學數據中心提供,該數據每5年更新一次,筆者使用的是2015年的建設用地數據,是截至目前的最新數據。
空間差異是指研究對象在空間分布上的非均衡特征。當研究對象在空間各單元均等分布時,表明其不存在空間差異;當其向特定空間單元集中時,空間差異開始變大;而當其全部集中于單一空間單元時,空間差異達到最大。大量研究表明,土地等城市發展要素普遍集中在一個或者極少數幾個大城市中,因此空間差異是區域發展資源空間格局中的突出特征[4]。
福建省建設用地的空間差異特征可使用圖1的形式進行可視化:(1)繪制柱狀圖:對各縣級單元的建設用地規模由小到大進行排序,將其位序作為柱狀圖的X軸變量、建設用地規模作為Y軸變量。柱狀圖可直觀地展示福建省建設用地的總體差異特征。圖中可見,位序在末位的幾個大城市的建設用地規模遠大于位序排在前列的縣級單元,說明福建省建設用地在整體上呈現明顯的空間差異特征。(2)向圖中添加兩條橫向的標注線,一條標注線的Y軸截距為建設用地規模的最大值,另外一條的截距為建設用地的省域平均值。這兩條標注線可以定量地表征建設用地的空間差異程度。由圖可見,建設用地規模最大的縣級單元在城市規模上具有突出的優勢地位,其規模比省域均值的6倍還高,這可定量說明福建省建設用地的空間差異程度。

圖1 福建省建設用地空間差異的可視化
圖1可視化形式的關鍵在于:(1)基于位序的柱狀圖,將建設用地規模較小的行政單元集中在圖的左側,將規模較大的單元集中在圖的右側,通過兩者之間直觀的對比,在宏觀上向學生直觀地展示空間差異的本質在于要素在不同空間單元分布的非均衡性。(2)通過兩條橫向標注線,將建設用地規模的最大值與省域均值進行對比,展現建設用地在用地規模最大城市的空間集中度,從而定量地表征建設用地的空間差異程度。
空間中心性是指研究對象在特定區域具有高值,并以之為起點,隨著距離的增加呈現衰減的特征。大量的實證研究發現,受中心城市的帶動和輻射作用,其周邊城市相對于偏遠城市也往往用地規模較大,這說明空間中心性是城市發展的典型特征[5]。
福建省建設用地的空間中心性特征可采用圖2的形式進行可視化:(1)繪制散點圖:以福建省各縣級單元到中心城市廈門的距離為X軸變量,以其建設用地規模為Y軸變量。散點圖展示了以中心城市為起點,隨著距離的增長,建設用地規模的變化趨勢。圖中可見,以200公里為界,在臨近廈門市的一側,各行政單元的建設用地規模較大;而在遠離廈門市的另一側,各單元的建設用地規模較小,都在30平方公里以下。這說明通過散點圖可以表征建設用地圍繞廈門市向外依次遞減的中心性特征。(2)其次,對數據點進行基于loess模型的局域回歸模型擬合,通過擬合曲線的走向來解讀建設用地空間分布的中心性的變化趨勢。如圖2所示,在距離廈門市100公里的范圍內,相關行政單元的建設用地規模隨著遠離廈門市而急劇降低,其空間中心性特征明顯。距離超出100公里后,建設用地規模下降的態勢趨緩,說明廈門市的空間中心性效應在間隔較遠的地區有所降低。

圖2 福建省建設用地空間中心性的可視化
圖2可視化形式的關鍵在于:將二維的空間關系轉化為一維的到中心城市的距離,通過散點圖展示該距離對建設用地規模的影響,使得學生理解空間中心性的核心在于中心城市對其周邊地區具有輻射作用,而且空間距離是其中的主導因素。局域回歸模型可以針對特定范圍內的數據進行擬合分析,其擬合曲線可反映不同距離區間的中心性效應的差異,可使學生明晰空間中心效應是存在距離閾值的,超出閾值后,其效應就開始衰退了。
空間自相關是指空間臨近的研究對象之間具有相似性,具體表現為高值區位周邊往往也是高值,而低值區位周邊大多是低值。一般來說,空間臨近地區間的人流、物流和信息流溝通密切頻繁,從而互相影響,形成了相互之間的相似性,而且距離越近其相似性越高。這是具有普適性的規律,被學界稱為地理學第一定律[6]。
福建省建設用地的空間自相關特征可用圖3所示的形式進行可視化:(1)繪制散點圖,X軸變量為各縣級行政單元的建設用地規模與省域均值的差值,Y軸變量為各縣級單元的相鄰單元的建設用地規模與省域均值的差值。由于各縣級單元大多具有多個相鄰單元,所以散點圖中的點位數量多于福建省縣級單元的數量。X和Y軸將其分成了四個象限,其中位于第一和第三象限的點位表明空間相鄰的兩個單元都高于省域均值或都低于省域均值,呈現正相關特征。而位于第二和第四象限的點位表明空間相鄰的兩個單元中的一個高于省域均值,而另一個低于省域均值,呈現負相關特征。圖3中,絕大多數點位位于第三象限,說明對于福建省大部分的相鄰縣域單元配對呈現正相關特征,表現為空間相鄰的兩個單元的建設用地規模都低于省域均值,從而可判斷福建省建設用地在整體上呈現正向的空間自相關。(2)分別繪制與X軸成45度和135度的直線標注線,作為建設用地空間自相關程度的定量參考。具體來看,如果點位落在與X軸成45度的標注線上,則其在X和Y軸上的取值相等,說明該點位對應的空間上相鄰的兩個行政單元相對于省域均值具有相同的偏移,從而呈現完全的空間自相關特征。對于沒有落在上述標注線上的點位來說,點位與標注線越臨近,其代表的空間相鄰配對的自相關程度也就越高。反之,落在與X軸成135度的直線標注線上的點位,就呈現完全的空間負相關;而且越臨近該標注線的點位,其代表的空間相鄰配對的負相關特征就越明顯。圖3中的點位總體上來說和45度方向的標注線更為接近,但是落在該標注線上的點位較少,有大量點位與標注線存在一定偏移。由此判斷福建省建設用地應為正向空間自相關,但其相關性程度較低。計算結果表明,福建省建設用地的Moran's I系數為0.25,而且在0.01的置信水平顯著,說明其呈現顯著的正向空間自相關,但相關度較低,與圖3呈現的特征相吻合。

圖3 福建省建設用地空間自相關的可視化
圖3可視化形式的關鍵在于:(1)將各行政單元及其相鄰單元與省域均值的差異分別表示在X軸和Y軸上,進而通過散點圖展示空間相鄰單元在相對于省域均值的偏移上的關聯特征,從而使學生明晰空間自相關在本質上分析的是空間相鄰單元之間的關聯性。(2)X軸和Y軸可將圖3分割為四個象限,四個象限結合兩條相互垂直的標注線可以定性地判斷空間自相關是正相關還是負相關以及定量的展示相關程度的高低。
綜上所述,R語言可視化具有使用靈活、開發簡便、開源免費等突出優點,可將繁瑣而抽象的空間統計教學內容進行簡潔和直觀的可視化表達,輔助學生深入理解空間統計原理,進而科學解讀空間統計分析的結果,從而可作為提升空間統計教學效果的有效途徑。除了空間統計教學的理論內容,R語言可視化在空間統計應用以及其他課程的教學中也具有較大的潛力。舉例來看,在本文展示的土地利用之外,R語言可視化還可以廣泛應用于經濟發展、人口增長和產業結構等諸多空間統計的應用領域,可以形象地揭示這些城市和區域發展要素的空間格局以及演化過程,進而可以輔助城市地理學、區域經濟學等課程的教學。此外,教師還可以基于R語言可視化技術開設地圖的計算機輔助制圖實踐課程,完善地理信息系統教學體系,提升學生的專業素養。隨著大數據時代的到來,通過數據分析來解決現實問題的需求會越來越迫切,教師應當積極采用以R語言為代表的新型可視化技術手段,推進一線教學改革,提高數據分析教學水平,引導學生成為新的數據時代的棟梁之才。