999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

樣本-屬性加權的樸素貝葉斯改進算法

2014-07-25 07:43:54曾文賦福建省福州第一中學福建福州350001
網絡安全與數據管理 2014年6期
關鍵詞:分類

曾文賦(福建省福州第一中學,福建 福州350001)

分類是通過分析訓練數據樣本,生成分類函數或模型,通過模型將數據庫中的數據映射到某一類別中,產生數據關于類別的精確描述。

樸素貝葉斯算法作為一種最簡單、有效且在實際使用中很成功的分類算法,其性能可與神經網絡、決策樹相媲美[1]。它發源于古典數學理論,具有堅實的理論基礎,與其他方法相比有較小的誤差率,并廣泛應用于數據挖掘、自然語言處理、醫療研究等眾多領域。例如,潘志方提出一種可根據用戶的網頁訪問記錄和網上交易記錄來動態地對顧客進行分類的方法[2];劉青[3]等通過不斷改變EM算法的收斂初始條件以提高收斂效果,并結合樸素貝葉斯分類方法對未標記的中文網頁進行分類;張麗偉[4]等用遺傳算法對樸素貝葉斯分類算法進行改進,使之能夠較好地鑒別診斷病患所屬的癥候,比較分析改進前后的識別效率。

樸素貝葉斯算法主要通過假設待考查的變量遵循某種概率分布,根據這些概率和已觀測到的數據進行推理,作出最優決策。算法基于條件獨立性假設,即假定特征向量的各分量間相對于決策變量相對獨立,然而在實際應用中該假設并不現實,從而影響其分類性能。

1 樸素貝葉斯算法描述

設每個數據具有k個屬性,用向量a=[a1,a2,…,ak]描述, 其中a1,a2,…,ak分別表示樣本在屬性A1,A2,…,Ak上的值。假設數據有m個類,分別用V1,V2,…,Vm來表示。給定一個樣本,可得到最可能的目標值如下:

對一個未知數據樣本x=[x1,x2,…,xk],由貝葉斯定理得:

結合貝葉斯定理、條件獨立假設和P(x)對所有類均為常數,可判斷x的類別如下:

綜上,根據樸素貝葉斯算法,對于一個未分類的樣本x,只需分別計算出P(Vj)和 x屬于類別Vj的先驗概率P(x|Vj),再選出式(3)中概率最大的那個類即為x的類別。

2 改進策略及算法描述

由于樸素貝葉斯算法假設數據遵循某種概率分布,認為條件屬性對決策屬性的重要程度均相同且須滿足條件獨立性假設等,這些都會影響其在實際應用中的分類性能。在實際應用中,不同屬性對分類影響的效果是不同的,故改進算法中考慮對不同的屬性給予不同的權值,定義屬性權刻畫條件屬性對決策屬性的重要性,以克服條件獨立性假設的缺陷,從而擴展樸素貝葉斯算法;同時,通過屬性權結合信息熵獲得樣本熵權,對原始數據樣本進行修正,提高算法的泛化能力。

2.1 屬性權計算

訓練數據集由條件屬性和決策屬性來描述[5],對不同的條件屬性進行加權,通過計算條件屬性和決策屬性間的相關系數表示兩者間的相關度,得到屬性權WA。

假設X=(X1,X2,…,Xk)表示k個條件屬性,Y表示決策屬性。計算Xi和Y的相關系數如下:

其中 Cov(Xi,Y)為Xi和Y的協方差,D(Xi)、D(Y)分別為Xi和Y的方差。可知,屬性權WAi的值越大,表示第i個條件屬性對分類的影響越大。

2.2 樣本熵權計算

信息熵由香農所提出[6],用來度量不確定的信息量(隨機性)的大小,故計算信息熵等價于確定隨機變量的分布。假設一個數據樣本x=(x1,x2,…,xk),結合信息熵和2.1節中所定義的屬性權計算樣本熵權如下:

通過結合屬性權和信息熵定義樣本熵權WS(x),融合屬性信息修正原始數據樣本以提高泛化能力。

2.3 樣本-屬性加權的樸素貝葉斯算法描述

設數據集X中包含n個數據樣本,每個數據樣本具有k個屬性,第i個樣本可表示為Xi=(Xi1,Xi2,…,Xik),i=1,2,…,n。X中含有m個類,用V1,V2,…,Vm來表示。樣本-屬性加權的樸素貝葉斯算法步驟描述如下:

(1)對原始數據集X中的屬性,由 2.1節計算出屬性權 WA;

(2)對原始數據集X中的每個樣本,由2.2節計算出樣本熵權,記為WS;

(3)利用步驟(2)中計算獲得的已融合屬性信息的樣本熵權WS,對數據集X進行加權,得到修正后的數據集X′,使得X′相比于X具有更好的泛化能力;

(4)對修正后的數據集X′,使用式(6)的加權樸素貝葉斯分類模型進行分類,得到分類結果:

其中P(Vj)和P(xi|Vj)可由修正后數據集X′中獲得,加權樸素貝葉斯分類模型的加權因子WAi即為步驟(1)中計算獲得的屬性權。

3 實驗結果與分析

實驗數據采用UCI機器學習數據庫中的16個數據集,在Matlab開發環境中完成調試,對各個數據集分別使用樸素貝葉斯算法和樣本-屬性加權的樸素貝葉斯算法采用十折交叉驗證方式比較其分類性能。

表1列出了實驗所使用的各個數據集名、樣本數、屬性數和兩種算法分類的準確率。

表1 數據集信息及兩種算法比較

由上表可知,改進算法在實驗中所使用的12個數據集分類準確率與樸素貝葉斯算法相比均有不同程度的提高;且在兩個數據集上準確率相同;另外,有兩個數據集的準確率低于樸素貝葉斯算法??傮w上看,樣本-屬性加權的樸素貝葉斯算法與樸素貝葉斯算法相比具有更好的分類性能。

本文對樸素貝葉斯算法進行改進,給出了樣本-屬性加權的樸素貝葉斯算法,在UCI數據集上進行實驗,驗證了改進算法相比于原算法具有更好的分類性能。

[1]LANGLEY P,IBA W,THOMPSON K.An analysis of Bayesian classifiers[C].In:Proc of the 10th National Conference on Artificial Intelligence.MenloPark:AAA I Press,1992:223-228.

[2]潘志方.基于樸素貝葉斯學習的電子商務網站客戶興趣分類的應用研究[J].計算機科學,2007,34(6):214-215,222.

[3]劉青,何政.結合EM算法的樸素貝葉斯方法在中文網頁分類上的應用[J].計算機工程與科學,2005,27(7):65-66,90.

[4]張麗偉,段禪倫,熊志偉,等.樸素貝葉斯方法在中醫證候分類識別中的應用研究[J].內蒙古大學學報,2007,38(5):568-571.

[5]宮秀軍,劉少輝,史忠植.一種增量貝葉斯分類模型[J].計算機學報,2002,25(6):645-650.

[6]Zhang Jiguo,Zhu Yongzhong.Information entropy measures for fuzziness[J].Journal of Hohai University Changzhou,2001,15(4):16-21.

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 久久这里只有精品国产99| AV在线麻免费观看网站 | 欧美无专区| 激情综合网激情综合| 亚洲性影院| av手机版在线播放| 色屁屁一区二区三区视频国产| 欧美国产精品不卡在线观看| 日韩视频免费| 亚欧美国产综合| 天天干天天色综合网| 四虎国产永久在线观看| 亚洲精品无码不卡在线播放| 国产欧美高清| 狠狠v日韩v欧美v| 国产亚洲精品无码专| 日本免费福利视频| 免费在线不卡视频| 成人免费网站久久久| 91麻豆精品视频| 最新亚洲人成网站在线观看| 亚洲精品成人福利在线电影| 无码国产伊人| 无码在线激情片| 国产精品内射视频| 国产精品3p视频| 亚洲成人免费在线| 免费一级毛片在线播放傲雪网 | 午夜精品区| 成人一级黄色毛片| 中文字幕佐山爱一区二区免费| 久久久精品无码一二三区| 欧美中文字幕在线二区| 亚洲电影天堂在线国语对白| 国产视频入口| 日本草草视频在线观看| 国产乱子伦视频在线播放| 天堂av综合网| 欧美亚洲网| 毛片免费在线视频| 国产精品刺激对白在线| 国产精品无码影视久久久久久久 | 色婷婷亚洲综合五月| 中文字幕欧美日韩| 久久男人视频| 久久久久国产一级毛片高清板| 国产特一级毛片| 国产在线无码av完整版在线观看| 国产91丝袜| 九色最新网址| 国产特一级毛片| 91麻豆国产视频| 91精品在线视频观看| a免费毛片在线播放| 日本免费a视频| 欧美日韩国产精品综合| 人人91人人澡人人妻人人爽| 欧美亚洲欧美区| 欧美视频免费一区二区三区| 亚洲精品人成网线在线| 香蕉eeww99国产在线观看| 综合色区亚洲熟妇在线| 久视频免费精品6| 精品超清无码视频在线观看| 乱人伦视频中文字幕在线| 国产精品久线在线观看| 精品国产一区二区三区在线观看 | 高清欧美性猛交XXXX黑人猛交| 一级毛片基地| 99这里精品| 香蕉99国内自产自拍视频| 18禁不卡免费网站| 另类欧美日韩| 国产精品浪潮Av| 中文字幕在线播放不卡| 中文字幕免费在线视频| 精品国产欧美精品v| 99热线精品大全在线观看| 国产精品女主播| 久久久91人妻无码精品蜜桃HD| 亚洲swag精品自拍一区| 亚洲日韩Av中文字幕无码|