999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

樸素貝葉斯模型及樸素貝葉斯假設改進

2017-07-25 09:25:12李文超王彥焱吉林大學軟件學院
數碼世界 2017年7期
關鍵詞:分類體育模型

李文超 王彥焱 吉林大學軟件學院

樸素貝葉斯模型及樸素貝葉斯假設改進

李文超 王彥焱 吉林大學軟件學院

分類問題是數據挖掘領域內的重要研究課題,而樸素貝葉斯分類是最常見的分類算法之一。本文系統的探討了對NB模型中的樸素貝葉斯假設進行改進的多種方法,介紹了樸素貝葉斯模型及多種擴展模型,并對模型的優劣進行了簡單分析。

樸素貝葉斯 分類模型 數據挖掘

1 引言

樸素貝葉斯(Naive Bayes)分類器是一種簡單而高效的分類器,它可以與決策樹和經過挑選的神經網絡分類器等算法相媲美。但是樸素貝葉斯算法對各屬性相互獨立的要求過于苛刻,于是人們采用不同的辦法進行改進。本文對其進行系統的整理。

2 樸素貝葉斯模型

2.1 模型描述

樸素貝葉斯分類器(Naive Bayes Classifier,NBC)是最基本的貝葉斯模型。模型結構如圖1所示:

圖1 樸素貝葉斯模型結構圖

給定的數據集屬性過多時,計算開銷可能過大。此時可以做類條件獨立的樸素假定,假設各屬性值獨立于類別變量C,此時,=1

k。若ak是分類屬性,則是屬性為ak的值為 xk的Ci類的元組數除以Ci類的總元組數;若ak是連續值屬性,則可按照高斯分布計算。

分類器訓練完畢后,為了預測元組x的類標號,對每個類Ci,計算上述步驟(2)中分子的值,使該值最大化的即為被預測的類別。

2.2 模型主要優缺點

優點:公式形式簡單,均為數學中的基本公式,可擴展性強;模型時間和空間復雜性小,易于實現;算法的性能穩定,模型的健壯性較好。

缺點:實際問題中元組各屬性的相互獨立性很難實現,所以該模型無法處理組合特征產生的變化結果;算法依賴于所選的訓練集的質量,如果訓練集含有較多噪聲,則分類結果的準確性將受明顯影響。

3 半樸素貝葉斯分類模型

3.1 模型描述

SNBC的基本想法是適當考慮一部分屬性間的相互依賴信息,從而既不需要進行完全聯合概率計算,又不至于徹底忽略了比較強的屬性依賴關系。實際上,SNBC將屬性劃分為幾個沒有交集的屬性組,使得屬性組以獨立的方式存在,這樣就實現了屬性組間的獨立性,放低了對屬性間完全獨立的要求。SNBC的模型圖如圖2所示:

圖2 半樸素貝葉斯模型結構圖

在實際問題中應用SNBC時,最常用的一種策略是“獨依賴估計”(One-Dependent Estimator),即每個屬性在類別之外最多僅依賴于一個其他屬性。而最直接的實現ODE的做法是令所有屬性都指向同一個父節點“超父”(super-parent),然后通過模型選擇的相關算法確定超父屬性。

3.2 模型主要優缺點

由于體育旅游專業的復合屬性,現有基礎師資構成主要是以體育專業出身和旅游專業出身的師資為主。體育院校類和綜合高校的體育院系開設體育旅游方向的專業,師資力量的構成主要是體育學教師,旅游院系則主要是旅游管理類教師,缺乏復合型的師資體系和教學隊伍。進一步完善教學師資力量結構體系是體育旅游專業人才培養首先需要解決的問題。應加強體育旅游專業人才師資隊伍的建設,建立專門的培養機構或者在相關高等院校開設長短期的進修班,培養復合應用型的師資隊伍。

優點:通過建立屬性組,減少了過于嚴苛的獨立性假設對分類性能的負面影響。

缺點:如果目標數據集太大,或者數據集中的屬性太多,那么條件互信息的計算效率將非常高,對運行環境有較高的要求。不過,采用ODE策略可以在一定程度上緩解該問題。

4 提升的樸素貝葉斯分類模型

4.1 模型描述

Freund等提出了提升的樸素貝葉斯分類模型。這種算法可以把“弱學習算法”提升為“強學習算法”,且并未改變獨立性假設。AdaBoost算法的大概流程如下:

①設總樣本數為Nm,將所有樣本的初始權重設為1/N。

②做T次循環,T是趟數。A)訓練弱分類器ym,直到權重誤差函數取最小值。B)計算話語權α。C)更新權重。D)得到最后的分類器

優點:較大的提高了分類準確性,提高了分類性能。

缺點:仍然沒有解決獨立性假設的限制;當訓練集中存在噪音數據時,boosting過程會把噪音數據也當成有用的信息而放大。

5 基于屬性相關性分析的貝葉斯分類模型

5.1 模型描述

文獻[3]提出了基于屬性相關性分析的貝葉斯分類模型CB(Correlated Bayes),改進了NB模型在屬性獨立性假設方面的問題。CB模型中事件 x屬于類Ci的概率計算公式為為向量相關度的估計公式:特征向量X共有n個屬性,連乘的個數,β是控制參數,可設置為0.1~0.3。

要構建CB分類模型,首先要求出屬性類條件概率及相關度,然后確定控制參數。該算法通過估算向量相關度的方法,從另一個角度改進了對屬性獨立性的依賴。

5.2 模型主要優缺點

優點:拋棄了樸素貝葉斯假設,改進了NBC。

缺點:控制參數的最優值不易求出,增加了算法的計算量和成本。對連續型數據的處理不夠便利。

6 結束語

NBC在數據挖掘領域被人們廣泛利用,具有良好的效率和準確性。但其條件獨立假設過于嚴苛,在實際應用時存在一定的偏差。對于如何改進樸素貝葉斯假設帶來的準確性問題仍將是一個研究焦點。

[1]Stern M, Beck J, Woolf B. Naive Bayes classifiers for user modeling[J]. Center for Knowledge Communication, Computer Science Department, University of Massachusetts, 1999

[2]HanJiaWei,KamberM. 數據挖掘概念與技術[M].范明,孟小峰等譯.北京:機械工業出版社

[3]章舜仲,王樹梅,黃河燕等.基于屬性相關性分析的貝葉斯分類模型[J].情報學報,2007,(2):271-274

猜你喜歡
分類體育模型
一半模型
分類算一算
重要模型『一線三等角』
提倡體育100分 也需未雨綢繆
甘肅教育(2020年2期)2020-11-25 00:50:04
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
2016體育年
3D打印中的模型分割與打包
主站蜘蛛池模板: 日本三级欧美三级| 国产另类乱子伦精品免费女| 欧美日韩午夜视频在线观看| 国产视频入口| 99久久无色码中文字幕| P尤物久久99国产综合精品| 亚洲日韩久久综合中文字幕| 二级特黄绝大片免费视频大片| 999精品免费视频| 毛片网站在线看| 精品少妇人妻一区二区| 日本在线欧美在线| 呦女亚洲一区精品| 国产尤物jk自慰制服喷水| 亚洲精品第1页| 亚洲精品成人7777在线观看| 亚洲国产精品日韩专区AV| 2020国产精品视频| 国产一区在线观看无码| 在线无码av一区二区三区| 先锋资源久久| 亚洲一区二区在线无码| 成人国产精品一级毛片天堂 | 无码日韩视频| 国产噜噜噜视频在线观看| 国产伦精品一区二区三区视频优播 | 欧美国产日韩在线| 伊人久热这里只有精品视频99| 国产SUV精品一区二区6| 亚洲欧美成人综合| 伊人无码视屏| 久热re国产手机在线观看| 亚洲永久视频| 日韩毛片免费| 国内精品免费| 九色91在线视频| 综合色婷婷| 亚洲Av综合日韩精品久久久| 在线看国产精品| 无码人妻免费| 女人18毛片久久| 一级做a爰片久久毛片毛片| 97国产在线观看| AV不卡在线永久免费观看| 精品一区国产精品| 四虎影视无码永久免费观看| 国产毛片网站| 精品国产美女福到在线不卡f| 亚洲综合专区| 成AV人片一区二区三区久久| 国产成人无码AV在线播放动漫| 中文字幕人妻av一区二区| 亚洲国产精品不卡在线| 狠狠操夜夜爽| 国产香蕉国产精品偷在线观看| 东京热一区二区三区无码视频| 亚洲高清国产拍精品26u| 欧美精品亚洲精品日韩专区| 亚洲欧美激情小说另类| 精品综合久久久久久97| 亚洲男人在线天堂| 精品无码一区二区三区在线视频| 亚洲天堂精品视频| 国产亚洲精品自在久久不卡| 国产熟女一级毛片| 91精品综合| 婷婷久久综合九色综合88| 精品自拍视频在线观看| 国产女人在线| 狠狠躁天天躁夜夜躁婷婷| 国产主播喷水| 国产一二三区在线| 色婷婷亚洲综合五月| 国产国语一级毛片在线视频| 制服丝袜一区二区三区在线| 亚洲毛片在线看| 欧美 亚洲 日韩 国产| 丝袜国产一区| 青青国产视频| 欧美激情网址| 夜夜操国产| 亚洲热线99精品视频|