引言:為了使數(shù)據(jù)挖掘技術(shù)能滿足不同層次的用戶需要,可視化數(shù)據(jù)挖掘技術(shù)被提出,通過可視化的手段將數(shù)據(jù)挖掘過程的各個(gè)階段展示給用戶,使用戶能更好的理解數(shù)據(jù)挖掘過程,對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行有效評(píng)估。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展、IPV6和html5等擴(kuò)展和重新定義現(xiàn)有web應(yīng)用的新標(biāo)準(zhǔn)的逐漸成為主流,以及B/S系統(tǒng)天生的優(yōu)越性,基于web的可視化數(shù)據(jù)挖掘的研究成為了熱點(diǎn)。
本研究是在現(xiàn)有算法的基礎(chǔ)上著重研究算法的可視化效果,并借助HTML5載體來(lái)實(shí)現(xiàn)可視化,探索HTML5的典型應(yīng)用的交叉性研究,主要研究數(shù)據(jù)挖掘過程的可視化——數(shù)據(jù)挖掘過程在基于HTML5的Web界面上的顯示;研究了C4.5分類決策樹算法實(shí)現(xiàn)數(shù)據(jù)挖掘模型的可視化;設(shè)計(jì)這種算法的過程和結(jié)果的可視化方法,實(shí)現(xiàn)了挖掘過程和挖掘結(jié)果的可視化。
一、C4.5分類決策樹算法簡(jiǎn)介
C4.5算法是CLS和ID3發(fā)展而來(lái)的決策樹算法,生成決策樹形式的分類器,同時(shí)也可以生成規(guī)則集。該算法的屬性選擇是基于一個(gè)假設(shè),即:決策樹的復(fù)雜度和所給屬性值表達(dá)的信息量是密切相關(guān)的。C4. 5把分類范圍擴(kuò)展到了數(shù)字屬性,這個(gè)度量標(biāo)準(zhǔn)傾向于能把數(shù)據(jù)分區(qū)成有低類熵的子集的屬性,即大部分樣本都屬于一個(gè)單獨(dú)的類。C4.5算法利用熵原理,采用分而治之的方法來(lái)構(gòu)造決策樹, 判斷樹的生長(zhǎng)方向,通常基于信息增益或者增益率,即選擇信息增益率最大的屬性作為分類屬性。信息增益率等于信息增益對(duì)分割信息量的比值。
對(duì)樣本集T,假設(shè)A有s個(gè)不同取值的離散屬性,劃分為s1,s2,sn共n個(gè)子集,用A分割樣本集所得的信息增益的ID3算法相同,分割信息量由
C4.5算法作為ID3的改進(jìn)算法,它簡(jiǎn)單直接、易于理解和應(yīng)用,能有效的生成決策樹,較好的解決了ID3算法多值屬性偏向問題。
二、可視化數(shù)據(jù)挖掘技術(shù)
可視化數(shù)據(jù)挖掘技術(shù)以數(shù)據(jù)挖掘技術(shù)和可視化技術(shù)為基礎(chǔ),通過運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)挖掘過程中涉及的源數(shù)據(jù)、中間結(jié)果、最終挖掘結(jié)果模型以及整個(gè)數(shù)據(jù)挖掘過程以直觀化的方式呈現(xiàn)給用戶??梢暬瘮?shù)據(jù)挖掘技術(shù)具有以下優(yōu)點(diǎn):在進(jìn)行數(shù)據(jù)挖掘之前,通過人們?nèi)菀桌斫獾膱D形、圖表等直觀的方式來(lái)表現(xiàn)復(fù)雜的數(shù)據(jù)信息,能夠加深用戶對(duì)復(fù)雜數(shù)據(jù)信息的理解,為較好的選取數(shù)據(jù)和確定數(shù)據(jù)挖掘任務(wù)打下基礎(chǔ);在數(shù)據(jù)挖掘執(zhí)行過程中,通過界面交互的方式,使用戶能夠觀察并管理數(shù)據(jù)挖掘過程,從而指導(dǎo)數(shù)據(jù)挖掘進(jìn)度,保證數(shù)據(jù)挖掘的質(zhì)量;最后,以特定的可視化圖形顯示數(shù)據(jù)挖掘生成的結(jié)果模型,使用戶能夠清晰、明了地理解所獲取的知識(shí),做出有效的評(píng)估和反饋。
三、HTML5
HTML5標(biāo)準(zhǔn)將賦予瀏覽器更多的功能,使得瀏覽器能夠不通過插件就能夠?qū)崿F(xiàn)位置跟蹤、本地存儲(chǔ)、離線應(yīng)用、視頻音頻的播放以及通信功能。它將把互聯(lián)網(wǎng)帶向一個(gè)新的時(shí)代,使得基于互聯(lián)網(wǎng)的應(yīng)用更加方便、高效和安全。它與HTML4最大的區(qū)別主要有兩個(gè)方面,第一個(gè)就是強(qiáng)化了Web頁(yè)面的表現(xiàn)能力,以往要使用Web頁(yè)面來(lái)播放視頻、音頻和動(dòng)畫,瀏覽器需要安裝各13種各樣的瀏覽器插件,但是HTML5標(biāo)準(zhǔn)中,瀏覽器原生的對(duì)這些多媒體表現(xiàn)進(jìn)行了支持。第二個(gè)就是豐富的API可供調(diào)用,包括本地緩存、離線應(yīng)用、地理信息和通信等等。
四、C4.5實(shí)驗(yàn)
在本算法中使用經(jīng)典的根據(jù)天氣決定是否打壘球的例子。搜集14天的數(shù)據(jù)幫助建立決策樹:
根據(jù)前面的介紹可知,該算法最關(guān)鍵的是根據(jù)屬性的信息增益構(gòu)造決策樹,主要代碼如下:
(1)決策屬性的熵,決策屬性的熵在本例中為“活動(dòng)”屬性。主要用entropyResult(resultAttr)方法和ratio函數(shù)。(2)條件屬性的熵,用entropyAttr(attribute,resultAttr)計(jì)算條件屬性數(shù)目,然后用if方法根據(jù)條件屬性對(duì)結(jié)果屬性分組,最后用函數(shù)計(jì)算條件屬性的熵。(3)信息增益的計(jì)算,用gain(attribute,result)來(lái)計(jì)算。(4)排序,對(duì)所有條件屬性的信息增益進(jìn)行排序選取決策樹每一步生成的樹節(jié)點(diǎn)使用javascript中Array對(duì)象的slice方法。
經(jīng)過計(jì)算,條件屬性“戶外”有最大的增益,它用于決策樹的根節(jié)點(diǎn),因?yàn)閼敉庥?種類型,根節(jié)點(diǎn)就有3個(gè)分支(晴天、陰天、雨天)。由于陰天的熵為0,直接生成葉子節(jié)點(diǎn),其余2個(gè)屬性生成中間節(jié)點(diǎn)。在晴天和陰天分支中,分別根據(jù)根節(jié)點(diǎn)生成子樹的計(jì)算步驟遞歸生成子樹,在canvas中生成決策樹的過程,至此完整的決策樹生成成功。設(shè)定一組條件[晴天,炎熱,正常,弱],通過決策樹得到的決策過程為圖1所示。
總結(jié)
html5在繪圖方面具有強(qiáng)大的表現(xiàn)能力與良好的效率,通過與數(shù)據(jù)挖掘技術(shù)的結(jié)合以及與其他多種領(lǐng)域知識(shí)的結(jié)合,從而讓各類用戶能夠更好地共享可視化數(shù)據(jù)挖掘技術(shù)的成果,必將在互聯(lián)網(wǎng)與移動(dòng)計(jì)算的發(fā)展過程中扮演越來(lái)越重要的角色。
參考文獻(xiàn)
[1]Hillol KarguPta,Jiawei Han.Next Generation of Data Mining. ChaPman Hall/CRC.2008.
[2]施惠娟,可視化數(shù)據(jù)挖掘技術(shù)的研究與實(shí)現(xiàn),[D].上海,華東師范大學(xué),2010,10-11.
[3]毛國(guó)君,段立娟等編著.數(shù)據(jù)挖掘原理與算法.北京:清華大學(xué)出版社.2007.
(作者單位:湖北工業(yè)職業(yè)技術(shù)學(xué)院)