樸素貝葉斯模型及樸素貝葉斯假設改進

2017-07-25 09:25:12李文超王彥焱吉林大學軟件學院

數碼世界 2017年7期

關鍵詞：分類體育模型

李文超王彥焱吉林大學軟件學院

樸素貝葉斯模型及樸素貝葉斯假設改進

李文超王彥焱吉林大學軟件學院

分類問題是數據挖掘領域內的重要研究課題，而樸素貝葉斯分類是最常見的分類算法之一。本文系統的探討了對NB模型中的樸素貝葉斯假設進行改進的多種方法，介紹了樸素貝葉斯模型及多種擴展模型，并對模型的優劣進行了簡單分析。

樸素貝葉斯分類模型數據挖掘

1 引言

樸素貝葉斯（Naive Bayes）分類器是一種簡單而高效的分類器，它可以與決策樹和經過挑選的神經網絡分類器等算法相媲美。但是樸素貝葉斯算法對各屬性相互獨立的要求過于苛刻，于是人們采用不同的辦法進行改進。本文對其進行系統的整理。

2 樸素貝葉斯模型

2.1 模型描述

樸素貝葉斯分類器（Naive Bayes Classifier，NBC）是最基本的貝葉斯模型。模型結構如圖1所示：

圖1 樸素貝葉斯模型結構圖

給定的數據集屬性過多時，計算開銷可能過大。此時可以做類條件獨立的樸素假定，假設各屬性值獨立于類別變量C，此時，=1

k。若ak是分類屬性，則是屬性為ak的值為 xk的Ci類的元組數除以Ci類的總元組數；若ak是連續值屬性，則可按照高斯分布計算。

分類器訓練完畢后，為了預測元組x的類標號，對每個類Ci，計算上述步驟（2）中分子的值，使該值最大化的即為被預測的類別。

2.2 模型主要優缺點

優點：公式形式簡單，均為數學中的基本公式，可擴展性強；模型時間和空間復雜性小，易于實現；算法的性能穩定，模型的健壯性較好。

缺點：實際問題中元組各屬性的相互獨立性很難實現，所以該模型無法處理組合特征產生的變化結果；算法依賴于所選的訓練集的質量，如果訓練集含有較多噪聲，則分類結果的準確性將受明顯影響。

3 半樸素貝葉斯分類模型

3.1 模型描述

SNBC的基本想法是適當考慮一部分屬性間的相互依賴信息，從而既不需要進行完全聯合概率計算，又不至于徹底忽略了比較強的屬性依賴關系。實際上，SNBC將屬性劃分為幾個沒有交集的屬性組，使得屬性組以獨立的方式存在，這樣就實現了屬性組間的獨立性，放低了對屬性間完全獨立的要求。SNBC的模型圖如圖2所示：

圖2 半樸素貝葉斯模型結構圖

在實際問題中應用SNBC時，最常用的一種策略是“獨依賴估計”（One-Dependent Estimator），即每個屬性在類別之外最多僅依賴于一個其他屬性。而最直接的實現ODE的做法是令所有屬性都指向同一個父節點“超父”（super-parent），然后通過模型選擇的相關算法確定超父屬性。

3.2 模型主要優缺點

由于體育旅游專業的復合屬性，現有基礎師資構成主要是以體育專業出身和旅游專業出身的師資為主。體育院校類和綜合高校的體育院系開設體育旅游方向的專業，師資力量的構成主要是體育學教師，旅游院系則主要是旅游管理類教師，缺乏復合型的師資體系和教學隊伍。進一步完善教學師資力量結構體系是體育旅游專業人才培養首先需要解決的問題。應加強體育旅游專業人才師資隊伍的建設，建立專門的培養機構或者在相關高等院校開設長短期的進修班，培養復合應用型的師資隊伍。

優點：通過建立屬性組，減少了過于嚴苛的獨立性假設對分類性能的負面影響。

缺點：如果目標數據集太大，或者數據集中的屬性太多，那么條件互信息的計算效率將非常高，對運行環境有較高的要求。不過，采用ODE策略可以在一定程度上緩解該問題。

4 提升的樸素貝葉斯分類模型

4.1 模型描述

Freund等提出了提升的樸素貝葉斯分類模型。這種算法可以把“弱學習算法”提升為“強學習算法”，且并未改變獨立性假設。AdaBoost算法的大概流程如下：

①設總樣本數為Nm，將所有樣本的初始權重設為1/N。

②做T次循環，T是趟數。A)訓練弱分類器ym，直到權重誤差函數取最小值。B)計算話語權α。C）更新權重。D）得到最后的分類器

優點：較大的提高了分類準確性，提高了分類性能。

缺點：仍然沒有解決獨立性假設的限制；當訓練集中存在噪音數據時，boosting過程會把噪音數據也當成有用的信息而放大。

5 基于屬性相關性分析的貝葉斯分類模型

5.1 模型描述

文獻[3]提出了基于屬性相關性分析的貝葉斯分類模型CB（Correlated Bayes），改進了NB模型在屬性獨立性假設方面的問題。CB模型中事件 x屬于類Ci的概率計算公式為為向量相關度的估計公式：特征向量X共有n個屬性，連乘的個數，β是控制參數，可設置為0．1～0．3。

要構建CB分類模型，首先要求出屬性類條件概率及相關度，然后確定控制參數。該算法通過估算向量相關度的方法，從另一個角度改進了對屬性獨立性的依賴。

5.2 模型主要優缺點

優點：拋棄了樸素貝葉斯假設，改進了NBC。

缺點：控制參數的最優值不易求出，增加了算法的計算量和成本。對連續型數據的處理不夠便利。

6 結束語

NBC在數據挖掘領域被人們廣泛利用，具有良好的效率和準確性。但其條件獨立假設過于嚴苛，在實際應用時存在一定的偏差。對于如何改進樸素貝葉斯假設帶來的準確性問題仍將是一個研究焦點。

[1]Stern M, Beck J, Woolf B. Naive Bayes classifiers for user modeling[J]. Center for Knowledge Communication, Computer Science Department, University of Massachusetts, 1999

[2]HanJiaWei,KamberM. 數據挖掘概念與技術[M].范明，孟小峰等譯.北京：機械工業出版社

[3]章舜仲,王樹梅,黃河燕等.基于屬性相關性分析的貝葉斯分類模型[J].情報學報,2007,(2):271-274