時會省 朱文軍
(河南測繪職業學院,河南 鄭州 450015)
地圖可以用來表示任何類型的數據,比表格和文字更能有效地表現地理特征。很多制圖工作都是統計性的,利用公開發表的各種統計數據,編制的有關經濟、人口、社會等方面的專題地圖是最明顯的“統計”地圖,在編制此類地圖時要遵循統計原則來處理制圖數據[1]。其中,對數據進行分級處理是地圖數據處理特別是專題地圖數據表達和分析的一種重要方法。
數據的分級處理包括對數據的排序和分析,其中確定分級數和分級界限是統計數據分級處理的重心。統計數據資料分級,是將數據通過列表、繪頻率直方圖以及計算分析以后,對分析結果作出地理解釋,為所編地圖尋求合理的分級,以求充分地反映其分布的地理規律性。
分級算法的研究,一直在不斷改進發展。20世紀50年代以來,地學研究方法從定性分析發展到定量分析;60年代,多元統計分析應用于地學領域,推動了地圖制圖數據處理模型的發展;70年代,不少地圖制圖學者應用統計分析學和信息論分析地圖內容,形成了比較系統的地圖制圖數據處理模型的理論與方法;80年代,模糊數學、最優化方法等現代數學被引入專題地圖制圖領域,取得了不少成果;90年代以來,許多地圖制圖學者利用數學形態學、分型理論和小波理論等現代數學對空間數據多尺度處理與表示進行深入探討,取得了許多研究成果,使地圖數據處理模型得到進一步發展[2]。
長期以來,制圖要素的分級算法一直備受關注。20世紀70年代以前,制圖員從制圖學的要求出發,根據經驗選擇某種數列或級數來分級,分級界限的確定僅取決于分級數據的最大值、最小值和分級數。70年代以后,人們開始用統計學尋找數據分布的自然裂點作為分級界限。我們把用數列和級數分級的方法稱為傳統分級方法,把從統計學角度研究確定分級界限的方法稱為統計分級方法。
用傳統方法產生的分級界限有規則變化,易于被讀者理解,能增強地圖的易讀性,提高信息傳輸的效果。常用的傳統分級算法主要有:
(1)數列分級:數列分級的分級界限是某種數列中的一些點,一旦選定了某種數列,則分級界限就完全取決于數據的最大值、最小值和分級數。數列分級的優點是分級界限嚴格按照數學法則確定,有規律可循,便于對比分析,但它不能很好地顧及數據本身的隨機分布特征。數列分級包括等差數列分級和等比數列分級。
(2)級數分級:當人們關注分級間隔的變化時,就要考慮使用級數分級法,直接求得分級間隔。目前,級數分級方法主要有算術級數分級和幾何級數分級。
用傳統分級方法確定分級界限沒有充分利用數據本身提供的大量信息,因而產生的分級方式往往不符合數據的分布特點。在這種情況下,統計分級方法應運而生。這種方法在確定分級界限時,要對數據進行統計分析。確定的分級界限有一定的數學規則,分級結果能反映數據分布特征。
(1)平均值 —標準差分級法:標準差是反映各數據間離散程度的一種方法。按標準差進行分級,需要?


合理的分級是專題地圖表現的基礎和關鍵,因此,分級算法模型的實現是專題地圖模塊的關鍵技術。一些非專業制圖人員對一些分級算法并不了解,只有通過制作專題地圖實驗來選用合理的分級算法。在進入系統界面后,用戶可以根據需求選擇制作專題地圖的圖層和屬性字段。由于符號法中的符號均有定位意義,所以用戶需要選擇記錄地理坐標的屬性字段輸入系統,同時選擇自動分級方式或者手動分級方式。
對于用戶來講,友好的交互界面是衡量系統是否實用的重要指標,為此,在充分分析用戶需求的基礎上,兼顧開發的方式與平臺,定制了自動分級模型交互界面。
(1)數據分布直方圖的顯示
為了選擇適合的專題數據分級模型,以制作出符合數據分布特征的專題地圖,用戶必須對數據的分布情況有一個明確而直觀的概念。在自動分級模式界面,首先根據用戶選取的需分級的屬性字段,讀入相應的屬性數據,經過排序等預處理后,由開源的Zedgraph.dll繪制出數據分布直方圖。數據分布直方圖可以讓用戶直觀地認識數據的整體分布特征,并通過鼠標獲取每一個柱形所代表的屬性數據,從而讓用戶結合所掌握的數據分級算法的適用范圍特征,選擇合適的分級方式。
(2)數學分級模型的實現
在系統界面中,為用戶提供了分級數、分級方式、取舍精度的選擇。
①分級數設置:結合制圖數據的分級原則和幾何符號的定點符號法特點,為用戶提供了3~7的分級數,以供選擇。
②分級方式設置:通過對現有數學分級模型的研究和實驗,分析其所適應的數據特征、分級誤差等,選擇一些常用的各有特點的分級算法進行實現。最終為用戶提供了等差分級、等比分級、倒數數列分級、等分位數分級、平均值—標準差分級、最優分割分級六種考慮數據類型及其分布特征的分級方法。
③取舍精度設置:計算得到的分級界限有一個共同的缺點,即分級界限是零碎的,不方便地圖使用者的記憶和分析,需要將分級界限湊整。分級界限的湊整就是把分級界限的零碎值轉換到湊整值,通常湊整值是某個十進制數的倍數。分級界限的起點和終點分別向較小和較大的數據湊整,使分級界限包含整個數據范圍。中間的分級間隔按照“四舍六入五成雙”的方式就近取整。系統中湊整過程是根據用戶的選擇進行的,在程序中為用戶提供了0.1、1、10和100四種湊整值。
在系統使用過程中,用戶無需了解具體的分級計算過程,只需要選擇分級的屬性字段,根據系統獲取其屬性值后自動生成的數據分布直方圖選擇分級數、分級方式和界限湊整值,以此作為參數傳給分級模型,然后按用戶選擇的算法進行相應計算,返回分級界限。分級處理后通過輸出接口獲取分級界限值和相關的統計結果。每一種分級情況計算出來后,分級界面上通過在原數據分布直方圖上繪制折線圖和表格(Datagridview控件)顯示數據的分級情況。用戶可以進行多次實驗,選取最合適的分級方式。另外,如果用戶需要調整某些分級界限,也可以在分級間隔表格上手動修改分級間隔數據。
數據手動分級模塊為用戶提供了另外一種分級方式,與自動分級模塊的界面相似,也是結合圖表(Zedgraph.dll)和表格(Datagridview控件)以分級數據的數據頻率直方圖為基礎。一般數據頻率直方圖的“谷點”被認為是最有用的分級界限。用戶可以選擇分類數,系統以該分類數計算等差分級的分級界限,從而顯示該組數據的頻率直方圖。用戶可以從直方圖上找出數據的分布特征,并確定分級數,用鼠標點擊獲取較適宜的分割點的數值,并在分級間隔列表中輸入相應數據,以便系統獲取并確定分級界限。
專題數據中的定量數據多呈離散分布,難以直觀反映現象在空間分布上的規律性、由于數量差異而產生的質量差異感、特殊的水平或集群性等,因此對原始數據進行統計分級后建立分級模型是十分必要的。專題數據的合理分級是提高專題地圖質量的根本。如何用恰當的方法使分級后的數據客觀地反映現象的地理規律性并滿足專題制圖的要求,是數據分級處理的主要任務。制圖者把空間分布的專題數據轉換成專題地圖時,必須先對數據進行分級處理,將這些數據劃入一些等級中,然后將分級后的數據進行符號化,這樣制作的專題地圖才能達到較好的信息傳輸效果。
[1]祝國瑞,郭禮珍,尹貢白,等.地圖設計與編繪[M].武漢:武漢大學出版社,2001:34-46,67-80,102-123.
[2]孫娟娟.專題地圖數據分級模型的研究:現代數學在地圖數據分級中的應用[D].鄭州: 解放軍信息工程大學理學院,2007.
[3]王艷.最優分割算法的計算機程序實現與武漢市洪澇災害預測[D].武漢: 華中師范大學,2007.