999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘技術決策樹分類算法(ID3算法)研究

2018-02-26 04:46:44李莉
電子技術與軟件工程 2018年14期
關鍵詞:數據挖掘

李莉

摘要 近些年來,互聯網迅速發展,數據量每年都以驚人的幅度提升,人們的生活、政府的管理都和電子信息設備息息相關,特別是電子商務和科學實驗數據庫的迅速壯大,為我們帶來了海量的數據。這些海量的數據中,往往蘊藏非常多有價值的記錄和信息,等待著人們去挖掘,人們希望將這些信息分離提取出來進行更高程度的分析和統計,以便為我們所取用。而目前大部分數據庫系統僅僅可以實現數據的增、刪、改、查,很難找到大數據之間所蘊含的規則和關系,比較缺乏挖掘數據內部價值的有效方法,較難通過數據的維度去探索和發現、預測未來的趨勢。本文通過對數據挖掘技術中決策樹的分類算法做出實驗分析,進行比較,給出合理的分析建議。

【關鍵詞】數據挖掘 決策樹 ID3 算法

1 緒論

1.1 數據挖掘

在海量數據中提取有價值的信息和知識我們稱之為數據挖掘技術。在海量數據庫、云端服務器、數據倉儲等存儲媒介里面都存放著大量的數據信息,我們可以在這些存儲媒介當中去探尋有價值的數據,深入分析和挖掘數據中的內在價值。幫助決策者找尋數據與數據之間可能存在的潛在關聯結構,及時有效的發現可能被忽略和遺忘的要點。通常來說,這些數據信息對未來趨勢的行為判斷有著重要的作用,從而引導決策者做出正確的判斷和最優的決策。因此,人們發明的決策樹分類算法,來幫助人們更好的挖掘數據中有價值的信息。決策樹分類算法的挖掘過程可能要多次循環往復螺旋遞進,直至達到我們想要的結果。

1.2 數據挖掘分類算法的意義

目前來看,數據挖掘在實際應用中有著重要的作用和意義,數據挖掘技術可以運用于很多場合。比如:在股票金融市場中,可以對股票的歷史交易信息數據進行分析和預測,并多其漲跌走勢做出比較準確的判斷;再比如在天氣預報的過程中,對空氣各類成分以及近半個月的數據進行收集、處理和分析,可以對天氣預報做出比較準確的合理預測;在產品的銷售系統中,己存原始數據庫信息,現在假定有新的客戶添加進數據庫中,我們想講廣告促銷信息分發給顧客。如果每一位顧客都通知,這勢必成本較大,耗費較多,此時通過數據挖掘技術,找到那些比較有意向購買的顧客,向他們推送廣告,可以大大節約了時間和金錢費用,促進的成交量,為商家帶來更大的經濟效益。數據挖掘技術其實就是一種決策支持的過程,是對數據進行深層次的數據分析方法。在平常生活中,可以將數據挖掘技術應用于方方面面,對促進社會的進步和發展有著很大的幫助。因此,對決策樹分類算法的相關研究有著較高的實用價值和研究價值。

2 決策樹分類算法相關知識

2.1 決策樹的介紹

決策樹(Decision Tree,DT)是一種常用的分類方法,適用于解決各種的分類問題。它通過將數據集進行分類、聚類和預測建模,將一個整體的大問題逐個逐個分解成每個子集小問題,再逐個一已解決子集問題,提高解決問題的效率。通常我們需要構建一個決策樹來對分類過程進行建模比較。

2.2 決策樹基本原理

1948年,美國數學家克勞德.艾而德伍.香農( Claude Elwood Shannon)創建了信息論,用來解決在信息傳遞過程中的不確定性等問題。在信息論的基礎上,決策樹運用技術發展壯大。它通過數學的方法度量分析信息數據,通過自定義不同的符號情況,來描繪信息量的大小。其中包括一系列相關概念描述,以下為具體展示:

(1)自信息量。設連續發出的信號為Xl、X2…Xn為發出的信號,直到接收Xi信號,把不確定性的信號標識為I(Xi),即式(1):

I(Xi)=-log1P(Xi)

(1)

其中P(Xi)表示信源發出Xi的概率。

(2)信息熵。再通過信息熵來度量信號源X的不確定性,即式(2):

H(X)=∑P(Xi)Iog2p(xi)

(2)

其中X為信號源,i為任意可能的符號數。

(3)條件熵。設信號源X和Y不是相互獨立的,則用條件熵H(X/Y)來度量整體的不確定性。設X對應的信號源為Xi,Y對應的信號源為Yj,則有: H(X/Y)=-∑∑P(XiYi)10g2P(Xi/Yj)(3)

(4)平均互信息量。信號源X和Y之間的相互關系:

I(X,Y)=H(X)-H(X/Y)

(4)

依據信息論,設S為整個樣本數據整體集合,其中包含n類訓練數據集,每類有Si個實例,則把它們分類所需要的信息量I用如下公式(5)表示為:

I(S1,S2,……,Sn)=一∑Pil0g2(Pi)(5)

由此,我們可以得到數據樣本為S的包含N類的數據集,為了使下一步的工作盡可能盡量的減小,要求每一次都選擇信息增益最大的屬性作為決策樹的節點,并對屬性進行劃分建立分枝,依據此思想劃分數據樣本集。

3 決策樹ID3算法分析

3.1 決策樹模型的建立

以下我們通過一個具體示例來演示經典ID3算法的整個構建過程。我們采用來自AllElectronics顧客數據庫數據元組訓練集。

利用ID3算法對對數據集合進行決策樹模型的建立,對顧客進行分類,整個計算過程如下:

1計算給定樣本集的信息熵,我們使用以下公式進行計算:

2.計算每個屬性的信息增益

(1)需要確定屬性age的每個樣本值yes和no的分布。

*如果age=“<=30”,則p1=2(有2個yes),n1=3(有3個no),

由公式計算可知:

*如果age=“31……40”,則p2=4(有4個yes),n2=0(O個no),由公式計算知:I(p2,n2)=O:

*如果age=“>40”,則p3=3(有3個yes),n3=2(2個no),由公式計算可知:I(p3,n3) =0.971;

(2)對于屬性1ncome,需要知道mcome的每個樣本值Yes和no的分布。

*如果mcome=“high”,則p1=2(此時類別為yes的個數),n1=2(此時類別為no的個數),由公式計算可知:

*如果mcome-“medium”,則p2=4(有4個yes),n2=2(有2個no),由公式計算可知:I(p2,n2) =0.148;

*如果income=“low”,則p3=3(有3個yes),n3=1(有1個no),由公式計算可知:I(p3,n3) =0.279;

(3)生成決策樹的根和分枝。如圖1所示,我們可以從圖中看出當age為31-40時,節點所對應的類別均為yes值,所以此時該節點的I(P2,n2)節點的信息熵為0,而<=30的屬性和>40的屬性都還有兩個類別,所以要對它們進一步劃分。

(4)依照上文所述的算法原理過程,對整體訓練數據集進行遞歸分解,按照數據信息不同屬性分為不同類別,最終建成決策樹的分類模型,得到決策樹的理想化模型。

4 總結

在這個信息化的時代,處理大量混亂而又復雜的數據的一個很好的方法是分類,在分類技術的發展過程中,幾個流行的技術分別是神經網絡、遺傳算法、貝葉斯分類、決策樹等。決策樹算法理論清晰,效果直觀,更易被讀者所理解,能夠較好的顯示出數據之間的關聯和內在聯系,具有不錯的分類預測能力。因此,對決策樹算法的研究有著重要的研究價值和實際意義。

參考文獻

[1]毛國君,段立娟,王實,石云.數據挖掘原理與算法[M],北京:清華大學出版社,2005.

[2] Jiawei Han,Micheline Kamber著,范明,孟小峰等譯.數據挖掘概念與技術[M].北京:機械工業出版社,2001.

[3]閃四清,陳茵,程雁等譯,美MehmedKantardzic著,數據挖掘——概念、模型、方法和算法[M].北京:清華大學出版社,2003.

[4]張維東等.利用決策樹進行數據挖掘中的信息熵計算[J].計算機工程,2001(03):66-68.

[5]王大玲等.基于概念層次樹的數據挖掘算法的研究與實現[J].計算機科學,2001,2(02): 63-66.

[6]唐華松等.數據挖掘中決策樹算法的探討[J].計算機應用研究,2001(08): 36-40.

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 日韩在线欧美在线| 69精品在线观看| 中文字幕在线欧美| 国产欧美日韩18| 试看120秒男女啪啪免费| 国产精品白浆在线播放| 久久精品66| 一级看片免费视频| 国产97公开成人免费视频| 欧美福利在线观看| 久久久久久国产精品mv| aⅴ免费在线观看| 中文字幕无码av专区久久| 亚洲第一极品精品无码| 超碰aⅴ人人做人人爽欧美| 亚洲男人天堂网址| 免费福利视频网站| 97视频精品全国免费观看| 国产亚洲欧美在线人成aaaa| 国产精品自在线天天看片| 免费va国产在线观看| 无码专区在线观看| 91久久国产综合精品| 亚洲国产日韩欧美在线| 又大又硬又爽免费视频| 激情無極限的亚洲一区免费| 丝袜国产一区| 国产凹凸一区在线观看视频| 91成人在线观看视频| 四虎成人精品在永久免费| 色成人亚洲| 国产一区二区在线视频观看| 91久久精品日日躁夜夜躁欧美| 久草性视频| 97在线观看视频免费| 69av在线| 日韩国产综合精选| 老汉色老汉首页a亚洲| 免费a级毛片18以上观看精品| 免费观看三级毛片| 久久婷婷六月| 青青久视频| 久久精品国产亚洲麻豆| 国产一级妓女av网站| 无码丝袜人妻| 久久久成年黄色视频| 久久精品无码中文字幕| 亚洲国产成人综合精品2020| 免费国产高清精品一区在线| 又猛又黄又爽无遮挡的视频网站| 婷婷六月天激情| 精品一区二区三区波多野结衣| 国产特级毛片| 亚洲精品少妇熟女| 亚洲无码高清视频在线观看| 六月婷婷激情综合| 免费观看男人免费桶女人视频| 毛片久久网站小视频| 色噜噜综合网| 亚洲AV无码一区二区三区牲色| 99久久精品国产精品亚洲| 国产91麻豆视频| 男人天堂伊人网| 欧美乱妇高清无乱码免费| 日韩麻豆小视频| 欧美日韩成人在线观看| 国产精品久久精品| 91精品在线视频观看| 免费AV在线播放观看18禁强制| 亚洲欧美精品日韩欧美| 久久香蕉国产线看观看式| 蜜桃臀无码内射一区二区三区| 国产69精品久久久久妇女| 亚洲av日韩av制服丝袜| 欧美α片免费观看| 中文字幕亚洲精品2页| 99热这里只有精品免费国产| 色婷婷在线影院| 人人91人人澡人人妻人人爽 | www中文字幕在线观看| 亚洲精品片911| 黄色片中文字幕|