999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

樸素貝葉斯模型及樸素貝葉斯假設改進

2017-07-25 09:25:12李文超王彥焱吉林大學軟件學院
數碼世界 2017年7期
關鍵詞:分類體育模型

李文超 王彥焱 吉林大學軟件學院

樸素貝葉斯模型及樸素貝葉斯假設改進

李文超 王彥焱 吉林大學軟件學院

分類問題是數據挖掘領域內的重要研究課題,而樸素貝葉斯分類是最常見的分類算法之一。本文系統的探討了對NB模型中的樸素貝葉斯假設進行改進的多種方法,介紹了樸素貝葉斯模型及多種擴展模型,并對模型的優劣進行了簡單分析。

樸素貝葉斯 分類模型 數據挖掘

1 引言

樸素貝葉斯(Naive Bayes)分類器是一種簡單而高效的分類器,它可以與決策樹和經過挑選的神經網絡分類器等算法相媲美。但是樸素貝葉斯算法對各屬性相互獨立的要求過于苛刻,于是人們采用不同的辦法進行改進。本文對其進行系統的整理。

2 樸素貝葉斯模型

2.1 模型描述

樸素貝葉斯分類器(Naive Bayes Classifier,NBC)是最基本的貝葉斯模型。模型結構如圖1所示:

圖1 樸素貝葉斯模型結構圖

給定的數據集屬性過多時,計算開銷可能過大。此時可以做類條件獨立的樸素假定,假設各屬性值獨立于類別變量C,此時,=1

k。若ak是分類屬性,則是屬性為ak的值為 xk的Ci類的元組數除以Ci類的總元組數;若ak是連續值屬性,則可按照高斯分布計算。

分類器訓練完畢后,為了預測元組x的類標號,對每個類Ci,計算上述步驟(2)中分子的值,使該值最大化的即為被預測的類別。

2.2 模型主要優缺點

優點:公式形式簡單,均為數學中的基本公式,可擴展性強;模型時間和空間復雜性小,易于實現;算法的性能穩定,模型的健壯性較好。

缺點:實際問題中元組各屬性的相互獨立性很難實現,所以該模型無法處理組合特征產生的變化結果;算法依賴于所選的訓練集的質量,如果訓練集含有較多噪聲,則分類結果的準確性將受明顯影響。

3 半樸素貝葉斯分類模型

3.1 模型描述

SNBC的基本想法是適當考慮一部分屬性間的相互依賴信息,從而既不需要進行完全聯合概率計算,又不至于徹底忽略了比較強的屬性依賴關系。實際上,SNBC將屬性劃分為幾個沒有交集的屬性組,使得屬性組以獨立的方式存在,這樣就實現了屬性組間的獨立性,放低了對屬性間完全獨立的要求。SNBC的模型圖如圖2所示:

圖2 半樸素貝葉斯模型結構圖

在實際問題中應用SNBC時,最常用的一種策略是“獨依賴估計”(One-Dependent Estimator),即每個屬性在類別之外最多僅依賴于一個其他屬性。而最直接的實現ODE的做法是令所有屬性都指向同一個父節點“超父”(super-parent),然后通過模型選擇的相關算法確定超父屬性。

3.2 模型主要優缺點

由于體育旅游專業的復合屬性,現有基礎師資構成主要是以體育專業出身和旅游專業出身的師資為主。體育院校類和綜合高校的體育院系開設體育旅游方向的專業,師資力量的構成主要是體育學教師,旅游院系則主要是旅游管理類教師,缺乏復合型的師資體系和教學隊伍。進一步完善教學師資力量結構體系是體育旅游專業人才培養首先需要解決的問題。應加強體育旅游專業人才師資隊伍的建設,建立專門的培養機構或者在相關高等院校開設長短期的進修班,培養復合應用型的師資隊伍。

優點:通過建立屬性組,減少了過于嚴苛的獨立性假設對分類性能的負面影響。

缺點:如果目標數據集太大,或者數據集中的屬性太多,那么條件互信息的計算效率將非常高,對運行環境有較高的要求。不過,采用ODE策略可以在一定程度上緩解該問題。

4 提升的樸素貝葉斯分類模型

4.1 模型描述

Freund等提出了提升的樸素貝葉斯分類模型。這種算法可以把“弱學習算法”提升為“強學習算法”,且并未改變獨立性假設。AdaBoost算法的大概流程如下:

①設總樣本數為Nm,將所有樣本的初始權重設為1/N。

②做T次循環,T是趟數。A)訓練弱分類器ym,直到權重誤差函數取最小值。B)計算話語權α。C)更新權重。D)得到最后的分類器

優點:較大的提高了分類準確性,提高了分類性能。

缺點:仍然沒有解決獨立性假設的限制;當訓練集中存在噪音數據時,boosting過程會把噪音數據也當成有用的信息而放大。

5 基于屬性相關性分析的貝葉斯分類模型

5.1 模型描述

文獻[3]提出了基于屬性相關性分析的貝葉斯分類模型CB(Correlated Bayes),改進了NB模型在屬性獨立性假設方面的問題。CB模型中事件 x屬于類Ci的概率計算公式為為向量相關度的估計公式:特征向量X共有n個屬性,連乘的個數,β是控制參數,可設置為0.1~0.3。

要構建CB分類模型,首先要求出屬性類條件概率及相關度,然后確定控制參數。該算法通過估算向量相關度的方法,從另一個角度改進了對屬性獨立性的依賴。

5.2 模型主要優缺點

優點:拋棄了樸素貝葉斯假設,改進了NBC。

缺點:控制參數的最優值不易求出,增加了算法的計算量和成本。對連續型數據的處理不夠便利。

6 結束語

NBC在數據挖掘領域被人們廣泛利用,具有良好的效率和準確性。但其條件獨立假設過于嚴苛,在實際應用時存在一定的偏差。對于如何改進樸素貝葉斯假設帶來的準確性問題仍將是一個研究焦點。

[1]Stern M, Beck J, Woolf B. Naive Bayes classifiers for user modeling[J]. Center for Knowledge Communication, Computer Science Department, University of Massachusetts, 1999

[2]HanJiaWei,KamberM. 數據挖掘概念與技術[M].范明,孟小峰等譯.北京:機械工業出版社

[3]章舜仲,王樹梅,黃河燕等.基于屬性相關性分析的貝葉斯分類模型[J].情報學報,2007,(2):271-274

猜你喜歡
分類體育模型
一半模型
分類算一算
重要模型『一線三等角』
提倡體育100分 也需未雨綢繆
甘肅教育(2020年2期)2020-11-25 00:50:04
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
2016體育年
3D打印中的模型分割與打包
主站蜘蛛池模板: 97成人在线视频| 亚洲综合九九| 色欲色欲久久综合网| 福利国产在线| 欧美在线视频不卡第一页| 激情综合网激情综合| 免费一级毛片完整版在线看| 日本午夜在线视频| 亚洲人视频在线观看| 日韩欧美国产另类| 无码'专区第一页| 日韩在线视频网| 亚洲人成人无码www| 亚洲不卡影院| 日韩成人在线一区二区| 免费无码又爽又黄又刺激网站| 成人夜夜嗨| 国产成人超碰无码| 凹凸国产分类在线观看| 操国产美女| 欧美在线网| 国产中文在线亚洲精品官网| 91无码国产视频| 成人综合久久综合| 大陆精大陆国产国语精品1024| 亚洲色图综合在线| 亚洲精品制服丝袜二区| 久久这里只有精品免费| 日本黄色a视频| 国产精品福利在线观看无码卡| 伊人成色综合网| 看国产毛片| 99国产在线视频| 欧美成人A视频| 国产精品yjizz视频网一二区| 亚洲黄色网站视频| 精品久久人人爽人人玩人人妻| а∨天堂一区中文字幕| av尤物免费在线观看| 国产欧美日韩精品综合在线| www.国产福利| 国产欧美在线视频免费| 中文字幕调教一区二区视频| 欧美高清三区| 尤物亚洲最大AV无码网站| 91成人精品视频| 欧美成a人片在线观看| 亚洲精品综合一二三区在线| 男女猛烈无遮挡午夜视频| 国产玖玖玖精品视频| 91精品日韩人妻无码久久| 成人午夜视频免费看欧美| 99久久精品国产麻豆婷婷| 欧美a在线看| 中国国产A一级毛片| 免费毛片全部不收费的| 中文字幕在线看视频一区二区三区| 欧美爱爱网| 欧美a在线视频| 国产成人亚洲无吗淙合青草| 欧美激情成人网| 四虎国产永久在线观看| 欧美一区精品| 亚洲综合精品第一页| 少妇人妻无码首页| 四虎永久免费地址| 国产AV无码专区亚洲精品网站| 久草视频福利在线观看 | 999国产精品| 无码精油按摩潮喷在线播放| 国产办公室秘书无码精品| 九色国产在线| 久久无码免费束人妻| 亚洲欧洲日韩久久狠狠爱| 在线无码av一区二区三区| 日韩黄色在线| 日韩美女福利视频| 中文字幕在线播放不卡| 亚洲第一成人在线| 99热这里只有成人精品国产| 国产人前露出系列视频| 国产成人综合亚洲网址|