999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析Bayesian分類的應(yīng)用

2008-12-31 00:00:00鐘代軍
電腦知識與技術(shù) 2008年23期

摘要:該文闡述了貝葉斯分類在利用人工智能技術(shù)設(shè)計時的必要性和重要性,介紹了貝葉斯分類中的基本技術(shù),給出了貝葉斯分類的優(yōu)缺點和有關(guān)發(fā)展方向。舉了相關(guān)的使用貝葉斯分類的例子。

關(guān)鍵詞:數(shù)據(jù)挖掘;貝葉斯;分類

中圖分類號:TP311文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2008)23-1024-02

The Application of Bayesian Classification

ZHONG Dai-jun

(Chongqing University of Arts and Sciences, Chongqing 402160, China)

Abstract: This paper elaborates the necessity and importance of Bayesian classification when designing system using the technique of artiffisal intelligence,introduced the basic technique ofBayesian classification, given the advantage and disadvantage and future of it. Explained with some sample of theapplicationg of Bayesian classification.

Key words: data mining; bayes; classification

1 引言

數(shù)據(jù)的豐富帶來了對強(qiáng)有力的數(shù)據(jù)分析工具的需求,大量的數(shù)據(jù)被描述為“數(shù)據(jù)豐富,但信息貧乏”。快速增長的海量數(shù)據(jù)收集、存放在大型和大量的數(shù)據(jù)庫中,沒有強(qiáng)有力的工具,理解它們已經(jīng)遠(yuǎn)遠(yuǎn)超出了人的能力。

分類作為數(shù)據(jù)挖掘的一種模式,可以用于提取描述重要數(shù)據(jù)的模型,通常是預(yù)測分類標(biāo)號(或離散值)。例如,可以建立一個分類模型,對銀行貸款的安全或風(fēng)險進(jìn)行分類。許多分類的方法已被機(jī)器學(xué)習(xí)、專家系統(tǒng)、統(tǒng)計學(xué)和神經(jīng)生物學(xué)方面的研究者提出。

貝葉斯分類是數(shù)據(jù)分類中的一個基本技術(shù)。在大型數(shù)據(jù)庫,貝葉斯分類已表現(xiàn)出高準(zhǔn)確率和高速度。貝葉斯分類中又有樸素貝葉斯分類和貝葉斯信念網(wǎng)絡(luò)。

2 什么是分類

數(shù)據(jù)分類(data classification)是一個兩步過程。第一步,建立一個模型,描述預(yù)定的數(shù)據(jù)類集。通過分析有屬性描述的數(shù)據(jù)庫元組來構(gòu)造模型。假定每個元組屬于一個預(yù)定義的類,由一個稱作類標(biāo)號屬性(class label attribute)的屬性確定。對于分類,數(shù)據(jù)元組也稱作樣本、實例或?qū)ο蟆榻⒛P投环治龅臄?shù)據(jù)元組形成訓(xùn)練數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)集中的單個元組稱作訓(xùn)練樣本,并隨機(jī)地由樣本群選取。由于提供了每個訓(xùn)練樣本的類標(biāo)號,該步也稱作有指導(dǎo)的學(xué)習(xí)(即模型的學(xué)習(xí)在被告知每個訓(xùn)練樣本屬于哪個類的“指導(dǎo)”下進(jìn)行)。它不同于無指導(dǎo)的學(xué)習(xí)(或聚類),那里每個訓(xùn)練樣本的類標(biāo)號是未知的,要學(xué)習(xí)的類集合或數(shù)量也可能事先不知道。

通常,學(xué)習(xí)模型用分類規(guī)則、判定樹或數(shù)學(xué)公式的形式提供。例如,給定一個顧客信用信息的數(shù)據(jù)庫,可以學(xué)習(xí)分類規(guī)則,根據(jù)他們的信譽(yù)度優(yōu)良或相當(dāng)好來識別顧客。這些規(guī)則可以用來為以后的數(shù)據(jù)樣本分類,也能對數(shù)據(jù)庫的內(nèi)容提供更好的理解。

第二步,使用模型進(jìn)行分類。首先評估模型(分類法)的預(yù)測準(zhǔn)確率。模型在給定測試集上準(zhǔn)確率是正確被模型分類的測試樣本的百分比。對于每個測試樣本,將已知的類標(biāo)號與該樣本的學(xué)習(xí)模型類預(yù)測比較。如果模型的準(zhǔn)確率根據(jù)訓(xùn)練集評估,評估可能是樂觀的,因為學(xué)習(xí)模型傾向于過分適合數(shù)據(jù)。

如果認(rèn)為模型的準(zhǔn)確率可以接受,就可以用它對類標(biāo)號未知的數(shù)據(jù)元組或?qū)ο筮M(jìn)行分類。(這種數(shù)據(jù)在機(jī)器學(xué)習(xí)文獻(xiàn)中也稱為“未知的”或“先前未見到的”數(shù)據(jù))。

分類具有廣泛的應(yīng)用,包括信譽(yù)證實、醫(yī)療診斷、性能預(yù)測和選擇購物。

3 Bayesian 分類技術(shù)介紹

3.1 Bayesian分類與其他分類技術(shù)的比較

基于統(tǒng)計的分類算法主要包括:相似度模型(Rocchio,K一近鄰)、概率模型(貝葉斯)、線性模型(LLSF,SVM)、非線性模型(決策樹、神經(jīng)網(wǎng)絡(luò))和組合模型.對于這些分類算法,國內(nèi)外很多研究者進(jìn)行了客觀評測。

分類方法可以根據(jù)下列標(biāo)準(zhǔn)進(jìn)行比較和評估:

預(yù)測的準(zhǔn)確率:這涉及模型正確地預(yù)測新的或先前未見過的數(shù)據(jù)的類標(biāo)號的能力。

速度:這涉及產(chǎn)生和使用模型的計算花費。

強(qiáng)壯性:這涉及給定噪聲數(shù)據(jù)或具有空缺值的數(shù)據(jù),模型真切預(yù)測的能力。

可伸縮性:這涉及給定大量數(shù)據(jù),有效地構(gòu)造模型的能力。

可解釋性:上涉及學(xué)習(xí)模型提供的理解和洞察的層次。

數(shù)據(jù)庫研究界對數(shù)據(jù)挖掘的分類一直強(qiáng)調(diào)可伸縮性。

“貝葉斯分類的效率如何?”理論上講,與其他所有分類算法相比,貝葉斯分類具有最小的出錯率。然而,實踐中并非總是如此。這是由于對其應(yīng)用的假定(如類條件獨立性)的不準(zhǔn)確性,以及缺乏可用的概率數(shù)據(jù)造成的。然而,種種實驗研究表明,與判定樹和神經(jīng)網(wǎng)絡(luò)分類算法相比,在某些領(lǐng)域,該分類算法可以與之媲美。

貝葉斯分類還可用用來為不直接使用貝葉斯定理的其他分類算法提供理論判定。例如,在某種假定下,可用證明正如樸素貝葉斯分類一樣,許多神經(jīng)網(wǎng)絡(luò)和曲線擬合算法輸出最大的后驗假定。

3.2 貝葉斯分類

3.2.1 貝葉斯定理

設(shè)X為一個類別未知的數(shù)據(jù)樣本,H為某個假設(shè),若數(shù)據(jù)樣本X屬于一個特定的類別C,那么分類問題就是決定P(H/X),即在獲得數(shù)據(jù)樣本X時,H假設(shè)成立的概率P(X)是建立在H基礎(chǔ)之上的x成立的概率。具體公式描述如下:

3.2.2樸素貝葉斯分類(簡單貝葉斯分類)

樸素貝葉斯分類方法[3]是機(jī)器學(xué)習(xí)中常用的方法之一。樸素貝葉斯分類法將訓(xùn)練實例I分解成特征向量W和決策類別變量C。樸素貝葉斯分類法假定特征向量的各分向量間相對于決策變量是相對獨立的。對文本分類來說,假設(shè)各個單詞wi和wj之間兩兩獨立。

設(shè)訓(xùn)練樣本集分為k類,記為C={C1,C2,…,Ck},則每個類Ci的先驗概率為P(Ci), I=1,2, …,k,其值為Ci類的樣本數(shù)除以訓(xùn)練集總樣本數(shù)N。對于樣本d,其屬于Ci類的條件概率是P(d|Ci)。文本d有其包含的特征詞表示,即d= (w1, …,wi, …,wm),m是d的特征詞個數(shù)|d|,wj是第j個特征詞。根據(jù)貝葉斯定理,Ci類的后驗概率為P(Ci|d)

因為P(d)對于所以類均為常數(shù),樸素貝葉斯分類器將未知樣本歸于類的依據(jù),如下

文檔d由其包含的特征詞表示,即d=(w1, …,wi, …,wm) ,m是d的特征詞個數(shù)|d|,wj是第j個特征詞,由特征獨立性假設(shè),則得

式中P(wj|Ci)表示分類器預(yù)測單詞wj在類Ci的文檔中發(fā)生的概率。

3.3 改進(jìn)的貝葉斯分類在文本分類中的應(yīng)用

關(guān)鍵的一個技術(shù)是特征提取。文本分類中特征提取的步驟包括:詞語切分,詞頻統(tǒng)計,加權(quán)計算和特征選擇(二者通常結(jié)合在一起進(jìn)行)。

在文本分類中有很多權(quán)重計算和特征選擇的公式,如信息增益、期望交叉嫡、文本證據(jù)權(quán)、zx統(tǒng)計量等,其中最著名的是TFIDF公式.那么,權(quán)重計算和特征選擇的公式究竟哪個為優(yōu)呢?其實在這些公式中,關(guān)鍵在于特征選擇時的傾向:高頻詞或稀有詞,也就是公式中的P(w)因子起很大作用。因此,在特征選擇時,理想的做法應(yīng)該是充分考慮P(w)因子的作用,最好能兼顧到高權(quán)高頻詞和低頻高權(quán)詞。

有學(xué)者對TF*F和TF*IWF*IWFF公式進(jìn)行了分析并作了一些改進(jìn),認(rèn)為關(guān)鍵詞在某類的權(quán)重受3個因素的影響:該詞在當(dāng)前類中的出現(xiàn)頻率;該詞在總語料中的出現(xiàn)頻率;該詞在不同類別之間出現(xiàn)頻率的差異。最終得到關(guān)鍵詞在類中的權(quán)重計算公式:

類別區(qū)別度用來表示某一個詞語對于文本分類的貢獻(xiàn)程度,即詞語的領(lǐng)域區(qū)別程度。直觀地看,如果一個詞語在每一類中都比較均勻地出現(xiàn),那么它對于分類的貢獻(xiàn)幾乎為零,類別區(qū)別度很低;如果某一詞語只在某一類中出現(xiàn),那么它對于分類的貢獻(xiàn)很高,有的幾乎可以一詞定類,類別區(qū)別度也就很高了。比如,虛詞“的、我、在”的類別區(qū)別度很低,而“魔獸爭霸、重倉股、手機(jī)操作系統(tǒng)”這樣的詞語其類別區(qū)別度就很高。

3.4 貝葉斯信念網(wǎng)絡(luò)

樸素貝葉斯分類假定類條件獨立,即給定樣本的類標(biāo)號,屬性的值相互條件獨立。這一假定簡化了計算。當(dāng)假定成立時,與其他所有分類算法相比,樸素貝葉斯分類是最精確的。然而,在實踐中,變量之間的依賴可能存在。貝葉斯信念網(wǎng)絡(luò)(Bayesian belief network)說明聯(lián)合條件概率分布。它允許在變量的子集間定義類條件獨立性。它提供一種因果關(guān)系的圖形,可用在其上進(jìn)行學(xué)習(xí)。這種網(wǎng)絡(luò)也被稱為信念網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)和概率網(wǎng)絡(luò)。

信念網(wǎng)絡(luò)有兩部分定義。第一部分是有向無環(huán)圖,其每個節(jié)點代表一個隨機(jī)變量,而每條弧代表一個概率依賴。如果一條弧有節(jié)點Y到Z,則Y是Z的雙親或直接前驅(qū),而Z是Y的后繼。給定雙親,每個變量條件獨立于圖中的非后繼。變量可以是離散的或連續(xù)值的。它們可以對應(yīng)于數(shù)據(jù)中給定的實際屬性,或?qū)?yīng)于一個相信形成聯(lián)系的“隱藏變量”。

“貝葉斯信念網(wǎng)絡(luò)如何學(xué)習(xí)?”在學(xué)習(xí)或訓(xùn)練信念網(wǎng)絡(luò)時,許多情況都是可能的。網(wǎng)絡(luò)結(jié)構(gòu)可能預(yù)先給定,或由數(shù)據(jù)導(dǎo)出。網(wǎng)絡(luò)變量可能是可見的,或隱藏在所有或某些訓(xùn)練樣本中。隱藏素凈的情況也稱為空缺值或不完全數(shù)據(jù)。

如果網(wǎng)絡(luò)結(jié)構(gòu)已知并且變量是可見的,訓(xùn)練網(wǎng)絡(luò)是直截了當(dāng)?shù)摹T撨^程由計算CPT(條件概率表)組成,與樸素貝葉斯分類涉及的計算概率類似。

當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)給定,而某些變量是隱藏的時,則可使用梯度下降方法訓(xùn)練信念網(wǎng)絡(luò)。目標(biāo)是學(xué)習(xí)CPT項的值。設(shè)S是s個訓(xùn)練樣本X1,X2,…,Xs的集合,Wijk是具有雙親Ui=uik的變量Y=yij的CPT項。Wijk可以看作權(quán),類似于神經(jīng)網(wǎng)絡(luò)中隱藏單元的權(quán)。權(quán)的集合總稱為w。這些權(quán)被初始化為隨機(jī)概率值。梯度下降策略采用貪心爬山法。在每次迭代中,修改這些權(quán),并最終收斂到一個局部最優(yōu)解。

4 結(jié)束語

簡要闡述了分類在數(shù)據(jù)挖掘中的位置,著重介紹了貝葉斯分類的基本技術(shù)和它的相關(guān)應(yīng)用。

參考文獻(xiàn)

[1] 史忠植.知識發(fā)現(xiàn)[M].北京:清華大學(xué)出版社,2002.

[2] HAN Jia-wei,Kamber M.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2007.

[3] 成穎,史九林.自動分類研究現(xiàn)狀和展望[J].情報學(xué)報,1999,18(2):20-26.

主站蜘蛛池模板: 欧美视频在线第一页| 中文字幕亚洲专区第19页| 在线国产三级| 国产成人精品免费av| 久草青青在线视频| 欧美性天天| 无码丝袜人妻| 特级欧美视频aaaaaa| 国产美女自慰在线观看| 免费激情网站| 色AV色 综合网站| 国产亚洲第一页| 99国产在线视频| 亚洲一区二区三区中文字幕5566| 亚洲第一成年免费网站| 亚洲乱码精品久久久久..| 欧美日韩在线成人| 亚洲永久色| 久久香蕉国产线| 啪啪永久免费av| 欧美日本激情| 日韩精品无码免费专网站| 亚洲三级电影在线播放| 综合社区亚洲熟妇p| 亚洲V日韩V无码一区二区| 成人精品亚洲| 在线五月婷婷| 国产成人一区二区| 色婷婷综合在线| 91外围女在线观看| 亚洲一区毛片| 国产欧美高清| 无码丝袜人妻| 亚国产欧美在线人成| 伊人天堂网| 国产精品13页| 免费观看无遮挡www的小视频| 亚洲精品无码av中文字幕| 特级aaaaaaaaa毛片免费视频| 亚洲视频免费播放| 国产99免费视频| 婷婷成人综合| 99热最新网址| 欧美午夜视频在线| 国产成人AV大片大片在线播放 | 97人人做人人爽香蕉精品| 精品国产网站| 午夜一级做a爰片久久毛片| 91午夜福利在线观看| 2048国产精品原创综合在线| 最新国产在线| 日本日韩欧美| 久久99热66这里只有精品一| 国产精品妖精视频| 国产成年女人特黄特色大片免费| 亚洲69视频| 亚洲第一页在线观看| 天天操精品| 日日噜噜夜夜狠狠视频| 国产精品99久久久久久董美香 | 四虎影视8848永久精品| 亚洲精品卡2卡3卡4卡5卡区| 91福利在线观看视频| 亚洲欧美不卡视频| 久久国产精品无码hdav| 97一区二区在线播放| 国产99热| 成年人国产网站| 亚洲男人的天堂在线观看| 日韩第一页在线| 国产成+人+综合+亚洲欧美| 99re在线观看视频| 熟女视频91| 亚洲视频在线网| 亚洲人免费视频| 亚洲无线国产观看| 精品国产一区91在线| 嫩草在线视频| 91精品在线视频观看| 在线播放精品一区二区啪视频| 欧类av怡春院| 亚洲天堂自拍|