楊健章 關婷婷 曲婷婷 王璐

摘 要:針對當前數據可視化工具的種類、質量和靈活性上存在的不足,構建一個數據挖掘可視化平臺。將獲取的數據集上傳到系統分布式數據庫中,對數據集進行預處理,利用Mahout提供的分類、聚類等挖掘算法對數據集進行挖掘,使用ECharts將挖掘產生的結果進行可視化展示。
關鍵詞:數據挖掘;可視化展示;數據預處理;挖掘算法
引言
在大數據時代,通過數據挖掘可以對數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從而提取輔助商業決策的關鍵性信息,幫助企業做出決策。豐富而靈活的數據挖掘結果可視化技術使抽象的信息以簡明的形式呈現出來,加深用戶對數據含義的理解,更好地了解數據之間的相互關系和發展趨勢。然而當前數據可視化工具的種類、質量和靈活性較大的影響數據挖掘系統的使用、解釋能力和吸引力。
這就需要使用分布式大數據處理技術進行數據的存儲和計算,構建一個數據挖掘可視化平臺,通過多種挖掘算法實現對原始數據集進行挖掘,從而發現數據中有用的信息。
1 關鍵技術
1.1 MapReduce離線計算框架
一種在YARN系統之上的大數集離線計算框架,使用MapReduce可以并行的對原始數據集進行計算處理,從而高效的得出結果。
1.2 HBase分布式數據庫
一個構建在Hadoop之上分布式的、面向列的開源數據庫。HBase不同于一般的關系數據庫,它是一個適合于非結構化數據存儲的數據庫。
1.3 Mahout
Apache Software Foundation旗下的一個開源項目,提供一些可擴展的機器學習領域經典算法的實現,包括聚類、分類、推薦過濾、頻繁子項挖掘等。
1.4 ECharts
一種商業級報表,創建了坐標系,圖例,提示,工具箱等基礎組件,并在此上構建出折線圖、柱狀圖、散點圖、K線圖、餅圖、雷達圖、地圖、和弦圖、力導向布局圖、儀表盤以及漏斗圖,同時支持任意緯度的堆積和多圖表混合實現。
2 系統設計
數據挖掘可視化系統包括數據預處理、挖掘算法、可視化顯示三大核心模塊。
2.1 數據預處理
通過上傳接口將數據集上傳到分布式數據庫HBase中,對數據進行預處理后,將處理后的的數據集存儲留待挖掘時使用。
2.2 挖掘算法
使用開源的數據挖掘框架Mahout,對所需挖掘的算法進行相關的參數設定,完成相關算法的挖掘。
2.3 可視化顯示
挖掘之后的相關結果存放到MySql數據庫中,前臺從數據庫中獲取挖掘結果,并且使用ECharts進行可視化顯示,用戶通過前臺提供的可視化結果進行數據分析,從而獲取所需要的信息。
3 系統實現
本系統在操作系統之上構造了HDFS分布式文件系統,本地文件系統與分布式文件系統共同存在。在本地文件系統之上組織了關系型數據庫MySql和分布式數據庫HBase集群,其中MySql用來存儲管理員賬戶信息和少量的數據信息,HBase用來存儲用戶上傳的數據集。文件系統和數據庫之上使用分布式計算框架MapReduce和Mahout數據挖掘包,對用戶的數據集進行分類、聚類、關聯規則等挖掘。后臺管理員界面選擇數據集以及挖掘參數的設定,前臺用戶界面通過圖表形式展示挖掘結果,幫助用戶進行數據分析。系統中用到的開發工具如表1所示。
4 結束語
現有的數據挖掘可視化工具種類在國內相對較少,在質量上對用戶的展示缺乏交互性,且對于數據集的挖掘靈活性上比較欠缺。采用了當前在數據挖掘及其可視化領域相對比較成熟的技術,用戶可以對挖掘結果的展示進行交互、下載、打印等操作。用戶只需將數據集上傳到系統中,設置相關挖掘參數即可實現對數據集的挖掘,提取有用的數據,通過直觀的圖表進行分析。
參考文獻
[1]胡俊.數據挖掘可視化模型機器應用[D].北京交通大學,2009.
[2]施惠娟,孫蕾,李由.關聯規則下數據挖掘可視化技術的探討與實現[D].華東師范大學,2010.
[3]李淵.基于K-means算法的數據挖掘可視化技術的應用研究[D].北京交通大學,2008.
作者簡介:楊健章(1991-),男,大四學生,專業:計算機科學與技術。
*通訊作者:王璐(1980-),女,碩士,講師,主要研究方向:計算機應用。