999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種用于大規模數據集的決策樹采樣策略

2010-05-18 07:28:30趙國強王會進
網絡安全與數據管理 2010年21期
關鍵詞:數據挖掘分類方法

趙國強,王會進

(暨南大學 信息科學技術學院,廣東 廣州 510632)

隨著信息爆炸時代的到來,人們常常要面對海量的數據分析和處理任務,而且這些數據還在以幾何級數的速度增加。同時,在現實中這些海量數據往往是高維而稀疏的,且存在著大量的冗余。因而能對數據進行有效地采樣,且保持其準確率的處理方法成為人工智能、機器學習、數據挖掘等領域的重要研究課題之一。

決策樹[1]算法由于其易于理解等特點被廣泛應用于機器學習和數據挖掘中。然而由于決策樹算法采用的是貪心策略,這就決定了其生成的決策樹只是局部最優而非全局最優。同時一個決策樹算法的成功在于生成基于給定的數據集下最高準確率的生成樹。但是由于面對的數據集是海量的,所以如果簡單地運用決策樹生成算法,不僅需要大量的計算,而且無法保證低錯誤率和低偏差。所以有必要在真正進行挖掘前進行數據采樣,以期有效地提高準確率。

本文提出一種結構化的采樣技術,運用現有決策樹算法對整個數據集生成決策樹,然后對生成的決策樹進行后加工,再基于生成的多個數據集進行隨機取樣,最后,整合取樣后的樣本生成目標樣本集。

1 決策樹算法

決策樹技術(Decision tree)是用于分類和決策的主要技術,決策樹學習是以實例為基礎的歸納學習方法,通過一組無序、無規則的實例推理出決策樹表示形式的分類規則。決策樹是運用于分類的一種類似于流程圖的樹結構,其頂層節點是樹的根節點,每個分枝代表一個測試輸出,每個非葉子節點表示一個屬性的測試,每個葉節點代表一個類或一個類的分布。決策樹進行分類主要有兩步:第一步是利用訓練集建立一棵決策樹,建立決策樹模型;第二步是利用生成完畢的決策樹模型對未知數據進行分類。

由于決策樹算法具有良好的預測性和易理解性,所以被廣泛研究和應用。目前,有許多好的決策樹算法,如ID3、C4.5[2]、CART[3]等。 ID3 算法 采用 貪心(即 非 回 溯 的)方法,決策樹以自頂向下遞歸的分治方法構造。通過對一個訓練集進行學習,生成一棵決策樹,訓練集中的每一個例子都組織成屬性-屬性值對的形式,例子的所有屬性都為離散屬性。而C4.5是由ID3演變來的,其核心思想是利用信息熵原理,使用信息增益率(Gain Ratio)的信息增益擴充,使用分裂信息(Split Information)值將信息增益規范化,遞歸地構造決策樹分支,完成決策樹。本文的實驗中生成預決策樹時將用該算法。CART(Classification And Regression Tree)算法采用一種二分遞歸分割的技術,將當前的樣本集分為兩個子樣本集,使得生成的決策樹的每個非葉子節點都有兩個分支。因此,CART算法生成的決策樹是結構簡潔的二叉樹。同時,CART算法考慮到每個節點都有成為葉子節點的可能,對每個節點都分配類別。分配類別的方法可以用當前節點中出現最多的類別,也可以參考當前節點的分類錯誤或者其他更復雜的方法。

當然也有一些非常好的針對大數據集的決策樹算法,如SPRINT、SLIQ等,然而由于生成的樹過于龐大,給理解它帶來了一定困難。雖然還有一些相關的剪枝技術,但其中也伴隨著由于過度剪枝而降低精確度的問題,使得其無法接近最優。

2 采樣方法

本文提出一種基于預生成決策樹的機構化的采樣方法。首先通過現有的任意一種快速的決策樹生成算法生成一棵決策樹;之后對生成的決策樹進行后加工,再基于生成的數據集進行隨機取樣;最后,整合取樣后的樣本集生成目標樣本。

具體算法是:首先對整個數據集采用一種快速的決策樹生成算法生成決策樹。然后采用廣度優先遍歷該生成樹,當遍歷的節點所包含的樣本量等于預定義的限制時終止,將遍歷過的節點所包含的樣本存于數據集Si(i=1~n)。如此反復,直到遍歷過所有節點為止。由此便產生了n個數據集,然后再隨機地從這n個數據集中隨機取樣本,其中每個集內所取樣本的數量K由以下公式決定:K=M×|Si|/|∑iSi|。其中 M表示目標樣本大小,|Si|表示數據集 Si中樣本的個數,|∑iSi|表示樣本總個數。最后再將隨機取得的所有樣本整合為目標樣本集。該算法采樣的過程如下所示:

(1)用現有決策樹算法對整個數據集建立決策樹。

(2)Do

Do

廣度優先算法遍歷生成樹;

從左到右整合兄弟節點;

While節點包含樣本的個數<預定義限制;

將整合好的樣本存于集合Si;

i++;

While遍歷完所有節點;

(3)對每一個集合Si(i=1~n)進行大小為K的隨機采樣,其中 K=M×|Si|/|∑iSi|;

(4)整合(3)中采集得到的所有樣本生成目標樣本集。

3 實驗

選取UCI數據集[4]中的大型數據集“census-income”作為實驗對象。該數據集包括199 523個樣本,共包括41個屬性,其中8個是連續性的。同時對于連續屬性的樣本先做了離散化,以節省計算時間。

選用C4.5算法作為預先生成樹的算法,產生的樹共有1 821個節點,其中葉子節點為1 661個,錯誤率為0.042 8。其中在進行樹的廣度優先遍歷時的預定義的集合大小為30 000。得到的生成樹如下:

采用常用的隨機采樣方法對數據集“census-income”進行大小為10 000的采樣5次,之后采用經典的決策樹算法C4.5、CART進行決策樹的生成,其樹的規模及準確率如表1所示。同時對該數據集合采用文中所提出的采樣方法進行大小為10 000的采樣5次,并用決策樹算法C4.5、CART進行決策樹的生成,其樹的規模及準確率如表2所示。

表1 隨機取樣10 000個的結果

由表1、表2比較可知,新的采樣方法在生成樹的準確率方面比C4.5算法和CART算法都有所提高,特別是對CART算法有較大的提高。

隨機采樣的方法是在對較大規模的數據庫進行數據挖掘時常用的方法,然而由于決策樹生成算法是貪婪算法,其只能找出局部最優解,所以簡單的隨機采樣方法不能對準確率的提高起到作用。本文提供的新的采樣方法通過用現有決策樹快速生成預決策樹的方法,有效利用已生成的知識結構,再對預決策樹進行更加具有平衡性的采樣進而形成目標數據集。實驗證明,該采樣方法與隨機采樣方法相比,準確率有一定提高。

[1]QUINLAN,J R.Induction of decision tree[J].Machine Learning, 1986,1(1):81-106.

[2]QUINLAN, J R.C4.5: Programs for machine learning[R].Morgan Kaufmann Publishers, Inc., 1993.

[3]MACHOVA, K.BARCAK, F.BEDNAR, P.A bagging method using decision trees in the role of base classifiers[J].Acta Polytechnica Hungarica, 2006,3(2): 121-132.

[4]NEWMAN D.UCI KDD Archive.[http://kdd.ics.uci.edu].Irvine, CA: University of California, Department of Information and Computer Science,2005.

猜你喜歡
數據挖掘分類方法
分類算一算
探討人工智能與數據挖掘發展趨勢
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
一種基于Hadoop的大數據挖掘云服務及應用
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产一级无码不卡视频| 日韩在线永久免费播放| 国产亚洲精久久久久久久91| 亚洲一区二区约美女探花| 国产va免费精品观看| 日韩毛片免费观看| 国内熟女少妇一线天| 伊人成人在线| 国产精品永久在线| 国产精品hd在线播放| 成人综合久久综合| 国产电话自拍伊人| 99热这里只有免费国产精品 | 国内精品久久久久久久久久影视 | 国产精品观看视频免费完整版| 72种姿势欧美久久久大黄蕉| 在线观看免费人成视频色快速| 国产99在线| 亚洲va在线观看| 香蕉久人久人青草青草| 国产精品成人不卡在线观看| 无码国产伊人| 国产精品不卡片视频免费观看| 人妻无码中文字幕第一区| 一本大道无码日韩精品影视| 婷婷综合在线观看丁香| 久久中文字幕2021精品| 国产精品亚洲日韩AⅤ在线观看| 日韩亚洲综合在线| 91精品aⅴ无码中文字字幕蜜桃| 综合社区亚洲熟妇p| 91人妻日韩人妻无码专区精品| 欧美在线精品怡红院| 成人一级黄色毛片| 亚洲国产欧美国产综合久久 | 国产精品伦视频观看免费| 热伊人99re久久精品最新地| 精品视频一区二区三区在线播| 亚洲日本中文字幕乱码中文| 成人va亚洲va欧美天堂| 亚洲香蕉在线| 久久精品国产亚洲麻豆| 日本不卡视频在线| 精品国产美女福到在线直播| 黄色网页在线播放| 欧美激情福利| 蜜芽国产尤物av尤物在线看| 精品国产自| 中文精品久久久久国产网址| 奇米精品一区二区三区在线观看| 毛片免费视频| 999国产精品| 成人免费网站久久久| 中国国产高清免费AV片| 午夜啪啪福利| 亚洲无码精品在线播放| 国产www网站| 日韩人妻精品一区| 亚洲成人网在线观看| 999在线免费视频| 呦女精品网站| 热99re99首页精品亚洲五月天| 天堂成人在线视频| 狠狠综合久久| 国产激情无码一区二区三区免费| 99在线视频精品| 丝袜亚洲综合| 国产精品自在在线午夜| 国产人成午夜免费看| 精品一区二区三区视频免费观看| 97视频精品全国在线观看| 好紧太爽了视频免费无码| 白浆免费视频国产精品视频| 99热这里只有精品免费| 国产福利微拍精品一区二区| 久久香蕉国产线看观| 91精品啪在线观看国产| 日韩一区二区三免费高清| 久久中文电影| 亚洲色图欧美激情| 久久国产精品电影| 凹凸精品免费精品视频|