999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘中的決策樹分類

2017-03-09 18:22:51于笑笑
時代金融 2017年3期
關鍵詞:數據挖掘

【摘要】數據挖掘技術混合了以往傳統的數據分析處理方法和處理大量數據的復雜算法,為探尋和分析新的數據類型以及用新方法分析舊有數據類型開辟了寶貴的新天地。數據挖掘被廣泛應用于商務、金融、軟件、醫學、科學與工程等領域。本文對數據挖掘進行介紹,同時對決策樹的定義、思想、工作原理及其算法進行介紹。

【關鍵詞】數據挖掘 決策樹算法 分類技術 信息熵

一、引言

隨著社會的發展和人類科技的進步,各行各業都需要數據信息的存在,現如今的數據時代已經不同于以往的數據時代,隨著數據收集和數據存儲技術的快速發展,各組織各機構各地方都可以收集到大量的數據信息。然而,提取有價值的信息目前已經成為一項有挑戰性的工作。

二、數據挖掘

數據挖掘是在大量的數據存儲庫中,發現潛在的有價值的信息的過程。數據挖掘與其他好多學科如統計學、人工智能、知識發現、數據庫等都有交叉。數據挖掘利用了來自統計學的抽樣、估計和假設檢驗的思想,來自人工智能、模式識別和機器學習的建模技術、搜索算法和學習理論,還有一些來自于最優化、信息論、信息檢索。

數據挖掘的產生與和發展是分析和理解數據的實際需求推動的,數據挖掘涉及到好多學科,數據挖掘從工、農、商業、醫療衛生的需求中取得動力,從統計學、人工智能、科技等領域的長期研究與發展中獲得養分。我國國內對數據挖掘的研究比較晚,還沒有形成整體力量,而國外早就開展了對數據挖掘的研究。

(一)數據挖掘的步驟

數據挖掘的跨行業標準過程強調完整的數據挖掘過程,分為六個步驟:

1.商業理解。本階段的主要工作主要包括制定目標,確定范圍,選擇方案,項目預算,估算樣本。了解并確認企業需求,針對不同的問題和需求,并將其轉換成數據挖掘的問題。

2.數據理解。數據理解階段包括建立數據庫與分析數據。先收集數據,觀察數據的含義和特性,并找出所有可能有用或有價值的數據信息。數據的獲取依賴于眾多因素:數據對象;已有數據庫;數據結構;可用數據源;成本與效益。同時,數據的收集還要注意以下問題:數據越多產生的信息不一定越多,有些屬性不是用戶想象的那樣高度關聯;選取的屬性越多可能導致建模的準備時間越長;選取的屬性越多說明我們將需要更大容量的數據集或數據庫來支持。

3.數據準備。數據準備階段和數據理解階段都是數據處理階段的核心,這是進行數據挖掘的核心階段建立模型前的最后一步數據準備工作。主要內容包括:建立元數據;檢查數據質量;填補缺損數據;對數據進行變換。缺失值,不合理值,數據不一致,異常值是影響數據質量的幾個主要問題。填補缺損數據可以通過查詢原始數據,跟進法,直接平均法,間接平均法來填補。對數據進行預處理的任務要反復執行多次,其目的是讓數據更適合數據挖掘技術的使用。

4.建立模型。建立模型階段是關鍵性的一個階段,對預處理過的數據應用各種數據挖掘技術,建立分析模型。對于同一個問題,可采用許多種分析技術,各種技術的要求也不相同。數據挖掘中常使用的模型有決策樹,神經網絡,貝葉斯分類器。數據挖掘的模型分為三大類:監督模型,無監督模型和數據維規約。屬于監督模型的有神經網絡、C5.0、CART、回歸以及Logistic回歸,這些模型都是屬于預測模型。聚類分析和關聯分析屬于無監督模型。第三類數據維歸約主要包括主成分分析法、因子分析法等。

5.模型評估。模型評估包括數據檢驗、準確性檢驗、方法比較、商業檢驗。數據挖掘過程能進入這個階段時說明已經建立了被認為是高質量的模型,但在實際應用中,情況卻不一定。還需注意是否還有重要的問題沒有全面地考慮到或一些問題缺乏充分地考慮,導致使模型的預測精度發生顯著變化。一般來說,常使用準確度來評估分類預測模型的情況,評估模型分類是否正確。顯然,準確度越高則就說明模型越好。但事實上,這樣評估出來的模型并不是最好的。這就是數據挖掘模型評估中常常存在的錯誤觀念。

6.模型發布。模型發布需要區分用戶普通用戶、決策者;發布頻率即席、定期;發布方式門戶、報告、郵件;模型建立成功并經過評估驗證后可以將建立的模型提供給專門的人員,由專門人員查看和研究這個模型,提出行動方案策略建議;也可以把模型應用到不同的未知分類情況的數據集上,并不停監測模型的使用效果,收集用戶反饋的信息。

(二)數據挖掘的任務

描述和預測是數據挖掘的主要任務。描述性挖掘任務以簡潔的方式描述數據,通常是探查性的,并且通常需要后處理技術驗證和解釋結果。預測性挖掘任務對當前數據進行分析,建立一個或一組模型,并利用所得結果預測新數據集的行為,即是根據原有已知其他屬性的值來預測另一種特定屬性的值。

三、決策樹

決策樹是用于分類和預測的主要技術,是能夠被看成一棵樹的預測模型,其本質是通過一系列規則對數據進行分類的過程。采用自頂向下的遞歸方式,樹的每一個分支都是一個分類問題,樹上的每個節點表示在一個屬性上的測試,并且該節點的每個分支對應于該屬性的一個可能值。在決策樹的內部節點進行屬性值之間的比較,并根據不同屬性值來判斷從此節點該如何向下分支,最終會在決策樹的葉節點得到結論。決策樹算法是目前應用最廣泛的分類方法之一,以實例為基礎的歸納學習算法,是一種逼近離散值函數的方法,對海量數據集進行分類十分有效。

(一)決策樹的思想

決策樹的思想就是對不確定性進行分類,應用決策樹算法的一個最大的優點是其原理容易理解,只要訓練事例能夠用屬性的方式表達出來,不需要使用者了解太多的背景知識。與其他分類方法相比,決策樹方法有很多優點:計算量相對較小,效率較高,且容易轉化成分類規則;所得到的分類規則準確性較高,可更好的進行預測,從而指導人們的決策;分類模型的結果是用樹狀結構表示的,簡單直觀,使用方便;決策樹算法既可用于小數據集,也可用于大的海量數據集;既適用于連續數據,也適用于離散數據。

(二)決策樹算法

最早的決策樹算法是CLS。隨后是ID3算法和C4.5算法,這兩種決策樹算法是最具有影響力的算法。后來,又出現了改進版C5.0算法。

1.ID3算法。ID3算法是Quinlan于1986年提出的,是機器學習中著名的一個算法,是國際上最早最有影響力的決策樹方法。其在決策樹的學習算法中第一次引入了信息論中的信息增益作為選擇分裂屬性的標準,即引入了信息論中信息熵的概念,通過計算根據各屬性分割數據集前后的熵來計算信息增益,作為判斷標準。ID3算法的優點在于構建決策樹的速度快,ID3算法的不足是其前提假設條件為屬性值是離散值,但有很多屬性是連續的,不能找到一個合適確切的標準來對連續屬性進行劃分。該算法生成決策樹分支的數量取決于屬性值的個數多少,對于屬性值取值較多情況的處理有一定的復雜度。

2.C4.5算法。C4.5算法繼承了ID3算法的所有優點并對ID3算法進行了改進和補充,但兩者核心思想相同。C4.5算法是基于信息論概念和思想的方法,以信息論為基礎,利用信息熵和信息增益度作為衡量標準,實現對數據的歸納分類。C4.5可以將連續型的屬性劃分成離散型的屬性,從而能夠建立合適的決策樹模型。C4.5算法與ID3算法不同的是采用信息增益率作為選擇分裂數據集屬性的標準,克服了ID3算法中利用信息增益選擇分裂屬性時的缺點。

3.CART算法。CART算法也稱二叉遞歸分類樹。與前面ID系列算法和C4.5算法不同在于使用的選擇分裂屬性度量標準是Gini系數指標。CART算法與C4.5算法的最大不同之處在于其在每個節點上都是使用二分法,一次只能有兩個子節點,而C4.5算法在每個節點上可以產生不同數量的子節點。

四、總結

決策樹C4.5算法雖然對ID3算法進行了改進,但也存在一些不足,如對連續性屬性的處理比較耗時,計算速度慢等。因此,還需要不斷地學習與改進。

決策樹雖然應用廣泛,但決策樹也存在不足之處:對連續性的字段預測較難;當屬性類別較多時,錯誤可能會增加得比較快;基于分類的決策樹算法沒有考慮噪聲問題,但在實際應用過程中,可能存在缺失值或某些必須數據造成了數據的不完整;一般的算法分類的時候只是根據一個屬性分類,不能保證全局的最優。

參考文獻

[1]黃文. 決策樹的經典算法[J].自然科學.2007.

[2]朱建平,張潤楚.數據挖掘的發展及其特點[J].統計與決策,2002.

[3]毛國君,段立娟,王實.數據挖掘原理與算法[M].北京:清華大學出版社.2005.

[4]Quinlan J R.Induction of decision tree[J].Machine Learning1986.

[5]黃愛輝.決策樹C4.5算法的改進及應用[J].科學技術與工程.2009.

作者簡介:于笑笑(1995-),女,安徽亳州人,安徽大學經濟學院碩士研究生,研究方向:經濟統計。

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 亚洲日本韩在线观看| 午夜在线不卡| 91无码人妻精品一区| 99九九成人免费视频精品 | 日韩精品一区二区三区免费在线观看| 试看120秒男女啪啪免费| 国产你懂得| 亚洲乱码在线播放| 伊人成人在线| 露脸一二三区国语对白| 亚洲色欲色欲www网| 久久一本日韩精品中文字幕屁孩| 亚洲色欲色欲www网| 四虎永久在线视频| 黄色网在线免费观看| 伊人久久影视| 久久综合五月| 国语少妇高潮| 亚洲欧美日韩久久精品| 97国产在线观看| 精品免费在线视频| 永久免费无码成人网站| 国产九九精品视频| 亚洲三级片在线看| 国产成人精品一区二区不卡| 亚洲人免费视频| 成年女人a毛片免费视频| 在线高清亚洲精品二区| 午夜国产大片免费观看| 无码日韩视频| 亚洲国产理论片在线播放| 天堂在线亚洲| 欧美在线伊人| 亚洲天堂日韩在线| 亚洲经典在线中文字幕| 在线不卡免费视频| 国产成人精品高清在线| 无码电影在线观看| 亚洲一区毛片| 香蕉eeww99国产在线观看| 蜜桃视频一区二区| 欧美综合在线观看| 亚洲成人一区二区| 亚洲国产成人精品一二区| 欧美精品黑人粗大| 国产呦精品一区二区三区网站| 国产成人狂喷潮在线观看2345| 人妻出轨无码中文一区二区| 中文无码精品a∨在线观看| 欧美色视频网站| 欧美精品伊人久久| 国产一区成人| 自拍偷拍欧美日韩| 一级毛片在线免费视频| 国产一级毛片yw| 亚洲国产一成久久精品国产成人综合| 欧美性精品| 亚洲日韩精品无码专区97| 亚洲av无码久久无遮挡| 欧美午夜一区| 日本午夜三级| 亚洲性视频网站| 国产成年女人特黄特色大片免费| 一区二区三区四区精品视频 | 国产中文在线亚洲精品官网| 日本在线亚洲| 58av国产精品| 久久精品中文字幕免费| 亚洲人妖在线| 在线观看国产精美视频| www.99精品视频在线播放| 亚洲日韩久久综合中文字幕| 成人一区专区在线观看| 日韩欧美视频第一区在线观看| 青青草原国产免费av观看| 激情影院内射美女| 国模视频一区二区| 久久人妻系列无码一区| 欧美久久网| 国产女人爽到高潮的免费视频| 精品无码一区二区三区电影| 少妇极品熟妇人妻专区视频|