摘要:研究探討了基于支持向量機的空間數據挖掘工作流程與工作框架,以及基于分類或回歸功能的空間數據挖掘實現方法和基于核函數工具實現空間數據結構拓撲關系挖掘的方法。闡述了挖掘工作的重點和關鍵步驟。
關鍵詞:支持向量機SVM 空間數據挖掘 挖掘流程 工作框架 實現方法
中圖分類號:TP391 文獻標識碼:A 文章編號:1674-098X(2011)
SVM(Support Vector Machine)是數據挖掘中的一項新技術。SVM采用了結構風險最小化原則來代替了經驗風險最小化,能較好地解決小樣本學習的問題;還采用核函數思想,把非線性空間的問題轉換到線性空間,降低了算法的復雜度。因為SVM有較完備的理論基礎和較好的學習性能,在解決有限樣本、非線性及高維模式識別問題中表現出許多特有的優(yōu)勢,成為當前機器學習領域的研究熱點問題之一[1]。目前在空間數據挖掘、空間信息處理領域也得到了成功的應用[2-5]。
基于支持向量機的空間數據挖掘理論框架可大致分為以下七層:(1)概念層;(2)數據庫技術層;(3)挖掘規(guī)則與挖掘方法層;(4)挖掘工具技術層;(5)挖掘過程實現層;(6)挖掘過程控制及可視化表達層;(7)挖掘結果分析及應用層。
下面主要探討基于支持向量機的空間數據挖掘工作流程與工作框架以及實現方法。
1 挖掘工作流程
挖掘工作的重點和關鍵步驟是:空間數據準備與特征提取,并以此構建空間數據庫;建立或篩選用于分類或回歸的數學模型;數學模型的編碼實現;實證分析。應用支持向量機進行空間數據挖掘工作流程,如圖1所示。
其中,空間數據準備與特征提取是非常重要關鍵的工作內容之一,目的是為后續(xù)工作奠定好基礎。在空間數據準備即預處理階段,根據研究課題目標需要和空間數據具有的特征屬性,要從宏觀層面、中觀層面、微觀層面把握研究對象的空間數據,要進行空間數據搜集整理、篩選、去噪、清洗,以及數據特征分析選擇、數據模式構造、數據特征關聯分析等工作;當空間數據特征屬性比較多且比較復雜,人工進行特征選擇與提取不方便時,還可以利用支持向量機在特征選擇方面具有自動選擇的功能,進行特征選擇與提取,甚至有時還利用核函數的方法幫助選擇提取[1,6-8],這就是空間數據挖掘數據準備與數據預處理階段有大量基礎性工作的原因。
2 挖掘工作框架
應用支持向量機理論與方法,進行空間數據挖掘,需要確定空間數據源,提取空間數據特征,以此構建空間數據庫;需要從挖掘方法的技術層面深入分析探討技術工具,需要依據挖掘規(guī)則建立相應的數學模型,根據模型編碼實現算法,挖掘工作整體框架如圖2所示。
其中,空間數據挖掘分析部分是一個動態(tài)過程,應用建立的數據挖掘規(guī)則與算法,從空間數據庫中提取特征數據并進行挖掘分析,再將挖掘分析的結果存入空間數據庫,以供用戶分析使用。
在圖2中,對于特定問題對應的具體支持向量機SVM或回歸機SVR挖掘算法,進行特定空間數據挖掘分析的實現過程如圖3所示。其中X1,X2,……,Xl-1,Xl 表示有l(wèi)個挖掘數據樣本點,經數據特征分析提取,每個樣本點有n個特征數據(經特征選擇后,剩余的特征向量的分量),即:xij(i=1,2,...,l , j=1,2,...,n)。對挖掘的結果就具體的研究領域特性進行實證分析,發(fā)現其中的知識與規(guī)律。
3 實現方法
基于支持向量機實現空間數據挖掘的方法,主要表現為:基于分類或回歸功能的實現方法和基于核函數工具實現空間數據結構拓撲關系挖掘的方法。
(1)基于分類或回歸功能的實現方法
應用支持向量機的分類算法,對空間數據進行分類分析;應用支持向量機的回歸算法,構建空間數據回歸模型。空間數據分類分析或回歸預測的實現方法如下:
第一,分析空間數據,探討空間數據的有關特性,構建空間特征數據庫,為支持向量機的輸入特征選擇奠定基礎。
第二,針對具體的特征數量、特征名稱以及數據結構,具體化分類算法或回歸算法。
第三,將具體化的分類算法或回歸算法,進行算法編碼實現。
第四,運行算法編碼程序,提取空間數據,進行挖掘分析。
第五,得出挖掘結論。
(2)基于核函數工具的實現方法
在支持向量機理論中,核函數反映了數據空間的映射關系,它能夠將低維空間線性不可分的問題,映射到高維空間實現線性可分。由于空間數據挖掘中,有些數據特征屬性反映的是研究對象的空間結構關系,可以將該空間結構關系特征屬性抽象為空間結構的拓撲關系,并利用核函數特殊映射關系的特點,將得到的拓撲關系建立聯系,從中發(fā)現空間數據表達的有用的信息與知識,以此實現空間數據的空間結構屬性的挖掘與知識發(fā)現?;诤撕瘮低诰蚩臻g數據結構拓撲關系的實現方法如下:
第一,分析空間數據結構屬性特征,抽象其拓撲關系,建立基于空間數據結構拓撲關系的訓練樣本集。
第二,構建能夠與訓練樣本集的拓撲關系建立聯系的核函數。
第三,篩選合適的支持向量分類或回歸算法,并將算法編碼實現。
第四,運行算法編碼程序,提取空間數據結構拓撲關系,進行挖掘分析。
第五,得出挖掘結論。
基于核函數挖掘空間數據結構拓撲關系的理論與應用研究文獻報道還比較少,基于核函數的空間數據挖掘實現方法還需要深入系統(tǒng)研究。
4 結論
研究探討了基于支持向量機的空間數據挖掘工作流程與工作框架,以及基于分類或回歸功能的空間數據挖掘實現方法和基于核函數工具實現空間數據結構拓撲關系挖掘的方法。闡述了挖掘工作的重點和關鍵步驟。
參考文獻
[1] 鄧乃揚,田英杰. 數據挖掘中的新方法——支持向量機[M].北京:科學出版社,2004.
[2] 李德仁,王樹良,李德毅. 空間數據挖掘理論與應用[M].北京:科學出版社,2006.
[3] 楊敏,汪云甲.面向數據挖掘的礦山數據倉庫技術研究[A].周光召.全面建設小康社會:中國科技工作者的歷史責任——中國科協2003年學術年會論文集(上)[C].中國遼寧沈陽:中國科學技術出版社,2003.
[4] 閆志剛. SVM及其在礦井突水信息處理中的應用研究[J]. 巖石力學與工程學報,2008,(1).
[5] 譚琨,杜培軍,鄭輝.支持向量機在空間信息處理領域的應用研究[J].測繪科學,2007,(02).
[6] Yves Grandvalet, Stephane Canu. Adaptive Scaling for Feature Selection in SVMs[J]. In: Advances in Neural Information Proceedings Systems 15, MIT Press, 2003.
[7] Weston J,Mukherjee S,Chapelle O,et al. Feature selection for SVMs .Advances in Neural Information Processing system13. MIT Press, 2000.
[8] Chapelle O,Vapnik V,Bousquet O,et al. Choosing multiple para-meters for support vector machines .Machine Learning, 2002,461, 46(1): 131-159.
基金項目:山東省泰安科技計劃項目(20082025),山東科技大學科研項目(qx102146, qx101009),“521”創(chuàng)新工程項目(CXJ1124)。
作者簡介:劉太安(1963-),男,山東科技大學信息工程系副教授,碩導,中國計算機學會高級會員,主要從事:數據挖掘、軟件工程、計算機技術的教學和研究工作。