趙文博 王曙燕
摘 要:文章主要圍繞可視化交互空間數據挖掘技術,闡述了可視化與空間數據挖掘之間的關系、交互可視化的關鍵方式。進而對數據挖掘中的兩種常用技術做出了進一步探究,以供相關人員參考。
關鍵詞:可視化;交互;空間數據挖掘
目前,在地理信息獲取技術的快速發展中,存儲在空間數據庫中空間數據的深度與廣度也獲得了進一步發展,傳統的空間統計與分析方式已很難對此進行快速且有效的處理與分析。因此,為了讓這些數據能夠得到更為有效的處理與分析,空間數據挖掘技術便隨之產生。
1 可視化與空間數據挖掘之間的關系
空間數據挖掘的知識發現,主要是針對有一定可視化需求的地理空間數據,對于廣大用戶來講,地理可視化可以為其提供符合空間目標心理認知過程的相關信息呈現與實際分析環境,因此可考慮把空間數據挖掘過程放置在地理可視化的環境下實行。針對知識發現與構造而言,可視化具有以下比較突出的兩點優勢:(1)提供較強的交互功能,使用戶可以將自身的能動性自由發揮出來,并對數據挖掘過程進行較好的控制。(2)提供較為豐富的可視化表現能力,根據空間數據的各個維度與角度一起進行分析,這對于用戶進一步理解問題與選擇更加適宜的數據挖掘模型算法非常有利。根據空間數據知識發現的整個過程來講,差不多所有過程均能與可視化相結合,其中包含數據選擇過程與數據預處理階段等,可視化方式對知識的整合、提取與傳輸具有非常重要的作用[1]。總而言之,針對空間知識發現來講,其必須經歷一個循環過程,即數據挖掘算法運用、結果檢測與可視化、將挖掘方式加以改善。在此整個過程當中,針對有關用戶將自身視覺觀察能力與專家知識的合理融入,可視化環境對此具有重大意義。
2 交互可視化的關鍵方式
經常使用的可視化技術主要有以下幾個方面。
2.1 基本查詢觀察技術
包含地圖平移、放縮、視點選取與其他不同圖形,比如,空間查詢與選取技術等。
2.2 色彩的運用
人們對于色彩非常敏感,因而在可視化中,色彩有著很關鍵的地位,通常情況下,可利用色彩將數據的實際變化趨勢、部分分布規律等方面清楚表示出來。在交互可視化中,應當讓用戶自由對不同色彩形式的數據描述進行選擇,色相、亮度與飽和度等,用戶可任意將此加以調整,同時系統環境也應當為其提供部分較為有效的色彩形式,從而讓用戶有更多選擇。
2.3 自動專題制圖技術
在時空數據分析與數據挖掘過程中,會有很多不同的專題地圖。不過,怎樣才能將一些專題信息更好地體現出來,也變成了用戶對數據進行深入分析的一種負擔。而自動專題制圖技術,則能夠利用系統內置的地圖制圖知識,將數據信息在地圖上自動體現出來。這種方式不僅能夠使用戶對于這一方面的負擔得到有效降低,并且還能較好地防止因為沒有足夠的地圖知識而致使不適宜的表示,從而讓用戶可以投入更多精力對數據做出進一步分析。
2.4 不確定數據與缺失數據可視化
在空間數據庫當中,數據的不確定與缺失現象普遍存在,怎樣利用可視化方式讓用戶真正意識到數據的質量問題,同時在之后的數據分析中采用與之對應的方法進行有效處理,這也變成需要進行深入探究的關鍵問題。針對數據的不確定性,在一般情況下,都會通過色彩尤其是飽和度與色調之間的調配,同時與其他數據視圖并列或是疊置進行表達,也可利用符號的模糊化將此類信息呈現出來。而針對數據的缺失現象,通常可使用固定值代替同時在圖形中體現出來,這種方式能夠較好地發現缺失數據的實際分布情況[2]。
3 數據挖掘中的兩種常用技術
3.1 貝葉斯網絡和決策樹
貝葉斯網絡主要是對一組數據變量之間概率的有關關系進行表示的圖形模型,如圖1所示是一個典型的貝葉斯網絡結構,主要體現了4個變量之間的相互關系。其來源于人工智能領域,最初是在專家系統當中加以應用,關鍵是對不確定信息進行有效處理。其呈現出的形式屬于一個網狀模型,而在這之中的概率模型則是根據貝葉斯理論而獲得。貝葉斯網絡在可視化空間數據挖掘中的應用,主要可以從用戶界面交互、地理信息學當中的空間決策支持與環境制圖方面體現出來[3]。
決策樹主要是一種樹狀結構,通常是對一組數據訓練以后所獲得的結果,依照某一屬性將數據集合進行的實際測試便是其內結點,進而根據各個數據記錄,將此不一樣的屬性值分成較多分支,而針對最后的葉結點而言,則是將最終類型或類型的分布體現出來。決策樹圖形很容易可視化,并且對于其原理與實際形式的理解也并不是非常困難,因此在空間數據挖掘中經過把決策樹可視化,同時和地圖進行動態連接,便能夠將空間數據結構更好地體現出來。這對于用戶進一步分析空間數據有很大幫助,并且還能夠使人們的分析決策能力得到一定提升。
3.2 在數據挖掘應用中,決策樹與貝葉斯網絡的有機結合
針對兩者的有機結合,根據緊密程度可將此分為以下幾個層次
3.2.1 結果校驗比較
其主要是指針對某項實際任務(通常為監督分類),可各自經過決策樹方式與貝葉斯網絡分析數據,進而比較兩者所獲得的最終結果,以此使結果校驗的根本目的得以實現,并且還能夠讓某種模型對于目前也許會出現問題的情況得到避免。
3.2.2 線性結合
主要是指先利用某種方式的預處理,之后再把中間結果導入另外一種方式,從而獲得最終結果。因為決策樹計算相對較為簡單,已有的決策樹算法通常具備了對數據“噪聲”或者缺失數據進行有效處理的能力。而貝葉斯網絡則相反,其學習非常繁雜,特別是在數據量比較大等有關狀態下更加顯著。因此,可先采用決策樹方式將一些數據加以處理,之后再對運用貝葉斯網絡開展進一步數據挖掘工作進行考慮。此外,因為決策樹方式能夠獲得相應規則,所以此類規則便可當作用戶的先驗知識,進而將其引進貝葉斯網絡的學習當中。反之,貝葉斯網絡因為自身能夠較好地考慮到先驗知識的優勢,所以可先將其當作一種知識表達的圖形模型,以此在一定程度上制約決策樹方式的假設空間,讓計算量得到大幅降低。此外,貝葉斯網絡還能夠將多源數據融入統一的模型當中,從而在統一的圖形模型中,更好地采用其他數據挖掘方式,將多源數據的可靠性問題加以處理[4]。
3.2.3 完全結合
兩者的完全結合必須具有高度交互可視化的界面,用戶可在任意時間對知識發現的整個過程進行干預或監控,可在任意時間通過某種方式分析與處理中間結果,同時也可將目前的分析進程中止,實行回溯分析。此種方式是最為理想且很難實現的知識發現形式,用戶在處理有關問題時,可根據多個模型與不同角度做出深入分析,進而使結果更加可靠,并讓用戶參與度得到進一步提升。用戶的先驗知識不單只是在數據挖掘的初期才會將其作用發揮出來,同時還能在后期幫助用戶將處理進程進行有效調整,并及時發現也許會產生的錯誤。這樣不但能夠獲得新知識,而且又能將此當作新的先驗知識而融入以后的知識發現當中。實際上就是把整個數據挖掘過程轉換成一個循環交替、逐漸上升的過程,進而使其可靠性與透明度得到一定提升[5]。
具體而言,先經過決策樹方式對數據進行預處理,使某種數據減量目的得以實現,其次則可利用貝葉斯網路分析變量之間的關系,把有關變量經過決策樹算法獲得多個決策樹模型,因為貝葉斯網絡與貝葉斯統計方式能夠較好地防止數據過配,而針對此類多個決策樹模型,則需要重新經過貝葉斯網絡驗證,此外還可利用不一樣的決策樹剪裁算法進行比較,這樣不但在選擇決策樹模型時更加方便,并且也能夠將不同剪裁方式的性能做出進一步分析與比較。反之,決策樹模型同樣也可對貝葉斯網絡中學習獲得的因果關系與局部概率的具體分布進行驗證。整個過程不管是貝葉斯網絡,或者決策樹,均是以可視化方式來表現出來,不同視圖之間可進行連接,這樣在做比較與分析時則會更加容易。
4 結語
在空間數據探究分析過程中,把可視化技術與空間數據挖掘這兩種方式進行有機結合,使其成為一種可視化交互空間數據挖掘技術,這對于大量空間分析與空間決策具有很大幫助。針對可視化交互空間數據挖掘技術而言,應當將地圖的優勢充分發揮出來,尤其是動態交互地圖,其對空間信息傳輸與引導用戶思維具有重大意義。
[參考文獻]
[1]王玲.基于GIS空間數據挖掘技術的應用研究[J].測繪與空間地理信息,2013(6):121-123.
[2]南麗麗.基于云模型的數據挖掘技術研究[J].數字技術與應用,2013(7):65.
[3]朱亞瓊.可視化驅動的交互式數據挖掘方法研究[J].電腦知識與技術,2016(36):4-5.
[4]賈澤露,張彤.基于GIS與SDM技術的可視化空間數據分類研究[J].測繪科學,2012(1):115-118,165.
[5]劉耀林,張彤.可視化交互空間數據挖掘原型系統設計與實現[J].武漢大學學報(信息科學版),2016(10):916-919.