999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘的實踐及應用

2021-10-30 02:35:52雷湘琦
科學與生活 2021年19期
關鍵詞:數據挖掘

雷湘琦

摘要:過去數十年中,數據挖掘得到廣泛的應用,作用的領域包括人工智能、統計學、數據庫等等。于當下的學生來說,數據挖掘是一門經久不衰的學科,而對于從事數據挖掘的工作者來說,更是深刻地體會到了數據挖掘強有力的發展前景。對數據挖掘這個領域應用最多的就是算法,掌握算法的意義就抓住了數據挖掘的核心。如今,雖然數據挖掘技術的應用相當廣泛,但是就算法而言其本質并未發生改變。現今運用的都是一些比較經典的算法,如傳統的決策樹算法等,同時這些算法也是學習數據挖掘算法的根基。文中主要列舉相關算法并應用相應的實例加以佐證,指出其中的不足和需要改進的地方。

關鍵詞:數據挖掘;決策樹;鳶尾花數據

引言

決策樹(Decision Tree)是在已知各種情況發生概率的基礎上,通過構成決策樹來求取凈現值的期望值大于等于零的概率,評價項目風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。決策樹模式呈樹形結構,其中每個內部節點表示一個屬性上的測試,每個分支代表一個測試輸出,每個葉節點代表一個類別。學習時利用訓練數據,根據損失函數最小化的原則建立決策樹模型;預測時,對新的數據,利用決策樹模型進行分類。在機器學習中,決策樹是一個預測模型,它代表的是對象屬性與對象值之間的一種映射關系決策樹是一種基本的分類與回歸方法,本文應用的是用于分類的決策樹。

1 基本原理

決策樹學習通常包括三個步驟:特征選擇,決策樹的生成和決策樹的剪枝。

1.1 特征選擇

特征選擇在于選取對訓練數據具有分類能力的特征,這樣可以提高決策樹學習的效率。通常特征選擇的準則是信息增益(或信息增益比、基尼指數等),每次計算每個特征的信息增益,并比較它們的大小,選擇信息增益最大(信息增益比最大、基尼指數最小)的特征。

下面重點介紹一下本文特征選擇的準則:信息增益。首先定義信息論中廣泛使用的一個度量標準——熵(Entropy),它是表示隨機變量不確定性的度量。熵越大,隨機變量的不確定性就越大。而信息增益(Informational Entropy)表示得知某一特征后使得信息的不確定性減少的程度。簡單的說,一個屬性的信息增益就是由于使用這個屬性分割樣例而導致的期望熵降低。信息增益、信息增益比和基尼指數的具體定義如下:信息增益:特征A對訓練數據集D的信息增益,定義為集合D的經驗熵與特征A給定條件下D的經驗條件熵之差,即信息增益比:特征A對訓練數據集D的信息增益比定義為其信息增益與訓練數據集D關于特征A的值的熵之比,即其中n是特征A取值的個數。

1.2 決策樹的生成

? 從根結點開始,對結點計算所有可能的特征的信息增益,選擇信息增益最大的特征作為結點的特征,由該特征的不同取值建立子結點,再對子結點遞歸地調用以上方法,構建決策樹;直到所有特征的信息增均很小或沒有特征可以選擇為止,最后得到一個決策樹。決策樹需要有停止條件來終止其生長的過程。一般來說最低的條件是:當該節點下面的所有記錄都屬于同一類,或者當所有的記錄屬性都具有相同的值時。這兩種條件是停止決策樹的必要條件,也是最低的條件。在實際運用中一般希望決策樹提前停止生長,限定葉節點包含的最低數據量,以防止由于過度生長造成的過擬合問題。

1.3 決策樹的剪枝

? 決策樹生成算法遞歸地產生決策樹,直到不能繼續下去為止。這樣產生的樹往往對訓練數據的分類很準確,但對未知的測試數據的分類卻沒有那么準確,即出現過擬合現象。解決這個問題的辦法是考慮決策樹的復雜度,對已生成的決策樹進行簡化,這個過程稱為剪枝。

本文將應用鳶尾花數據進行決策樹分析。

2 決策樹的剪枝

Iris 鳶尾花數據集是一個經典數據集。數據集內包含 3 類共 150 條記錄,每類各 50 個數據,每條記錄都有 4 項特征:花萼長度、花萼寬度、花瓣長度、花瓣寬度,可以通過這4個特征預測鳶尾花卉屬于(Iris-setosa,Iris-versicolour,Iris-virginica)中的哪一品種。

2.1 利用Decision Tree分類器對Iris data進行分類

2.1.1 Decision Tree分類過程

如圖1-1。

2.1.2 Decision Tree分類結果

如圖1-2。

3 結束語

經上述分析,決策樹分類算法與統計方法和神經網絡分類算法相比較具備以下優點:首先,通過決策樹分類算法進行分類,出現的分類規則相對較容易理解,并且在決策樹中由于每一個分支都對應不同的分類規則,所以在最終進行分類的過程中,能夠說出一個更加便于了解的規則集。其次,在使用決策樹分類算法對數據挖掘中的數據進行相應的分類過程中,與其他分類方法相比,速率更快,效率更高。最后,決策樹分類算法還具有較高的準確度,從而確保在分類的過程中能夠提高工作效率和工作質量。決策樹分類算法與其他分類算法相比,雖然具備很多優點,但是也存在一定的缺點,其缺點主要體現在以下幾個方面:首先,在進行決策樹的構造過程中,由于需要對數據集進行多次的排序和掃描,因此導致在實際工作過程中工作量相對較大,從而可能會使分類算法出現較低能效的問題。

參考文獻:

[1]程一芳.數據挖掘中的數據分類算法綜述[J].數字通信世界,2021(02):136-137+140.

[2]韓成成,增思濤,林強,曹永春,滿正行.基于決策樹的流數據分類算法綜述[J].西北民族大學學報(自然科學版),2020,41(02):20-30.

[3]姚奇峰,楊連賀.數據挖掘經典分類聚類算法的研究綜述[J].現代信息科技,2019,3(24):86-88.

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 欧美午夜在线视频| 都市激情亚洲综合久久| 99无码中文字幕视频| 国产成人精品高清不卡在线| 久久久久久尹人网香蕉| 国产无遮挡猛进猛出免费软件| 国产精品成人不卡在线观看| 四虎国产精品永久一区| 亚洲精品第一在线观看视频| 欧美亚洲一二三区| 亚洲天堂777| 久久综合结合久久狠狠狠97色| 天堂久久久久久中文字幕| 国产精品无码一二三视频| 日本午夜三级| 国产丝袜91| 人人爽人人爽人人片| 毛片网站免费在线观看| 97久久人人超碰国产精品| 3p叠罗汉国产精品久久| 青青极品在线| 国产成人综合日韩精品无码不卡 | 高清码无在线看| 18禁黄无遮挡免费动漫网站| 国产亚洲精品97AA片在线播放| 欧美亚洲激情| 欧美不卡视频在线观看| 她的性爱视频| 国产成人在线无码免费视频| 欧洲亚洲欧美国产日本高清| 无遮挡国产高潮视频免费观看| 日本免费精品| 婷婷开心中文字幕| 免费在线色| 动漫精品啪啪一区二区三区| 亚洲最大综合网| 久久频这里精品99香蕉久网址| 久久永久免费人妻精品| 2024av在线无码中文最新| 国产网友愉拍精品视频| 四虎永久在线视频| 青青草国产在线视频| 2021国产v亚洲v天堂无码| 99热最新网址| 中文成人在线| 久久综合婷婷| 国产极品粉嫩小泬免费看| 国产黄色免费看| 日韩天堂在线观看| 国产精品yjizz视频网一二区| 国产区成人精品视频| 色综合网址| 韩日免费小视频| 久久人人97超碰人人澡爱香蕉| 成人夜夜嗨| 国产亚洲精久久久久久久91| 国内精品一区二区在线观看| 成人在线第一页| 少妇被粗大的猛烈进出免费视频| 第一页亚洲| 国产高颜值露脸在线观看| 久久精品国产999大香线焦| 97国产精品视频自在拍| 情侣午夜国产在线一区无码| 在线观看无码av免费不卡网站| aⅴ免费在线观看| 2022精品国偷自产免费观看| 爆乳熟妇一区二区三区| 国产精品v欧美| 日韩经典精品无码一区二区| 波多野结衣一区二区三区四区| 日韩欧美色综合| 亚洲日韩AV无码精品| 亚洲人网站| 国产成人精品亚洲77美色| 一级毛片视频免费| 99人妻碰碰碰久久久久禁片| 国产成人亚洲精品无码电影| 欧美日韩国产在线观看一区二区三区| 国产亚洲精品97在线观看| 伊人色天堂| 国产成人午夜福利免费无码r|