基于模糊貝葉斯的改進決策方法在企業評價中的應用

2017-10-28 21:46:14馮思捷管建和

軟件工程 2017年9期

馮思捷　管建和

摘要：樸素貝葉斯算法是數據挖掘領域最簡單的分類算法之一。為了讓樸素貝葉斯能夠靈活地處理連續型數據，分類過程就需要對數據進行離散化處理。而使用模糊數學理論來解決離散化問題是一個不錯的選擇。因此本文考慮將這兩種方法結合，同時在去模糊化過程中引用了一種新型去模糊化方法（“內心法”），從而生成一種新的模糊貝葉斯混合模型。并通過一個企業評價實例簡單地驗證了模糊貝葉斯算法在應對連續性數據時具有良好、可靠的分類效果。

關鍵詞：樸素貝葉斯；模糊數學；三角模糊數；去模糊化

中圖分類號：TP391 文獻標識碼：A

Abstract：The Naive Bayes algorithm is a simple and lucid classification way in the field of data mining.When meeting with continuous data，the algorithm usually needs to make discretization in its classifying process.Luckily，the application of relevant theories about fuzzy mathematics is a good choice to solve the discretization problem.Thus，this study decides to make a combination of the Naive Bayesian algorithm and fuzzy mathematics to generate a hybrid model and，in the meanwhile，introduces a new defuzzification method （named as The incenter of area） in the classification process.Through an application case of enterprise evaluation，the fuzzy Bayesian hybrid algorithm has been proved to be effective and reliable in the process of classification for continuous data.

Keywords：Naive Bayes；fuzzy math；triangular fuzzy number；defuzzification

1 引言（Introduction）

在實際生活中，某些決策型問題的處理過程通常會伴隨著一定的復雜性。為了能夠更好地解決這類問題，系統可以利用某些數據挖掘領域中的分類方法來得到良好且高效的決策結果。其中，樸素貝葉斯（Naive Bayes，NB）算法正是用于分類樣本實例的一種簡單又有效的方法。然而當它處理連續型數據時，通常的做法是利用高斯分布和極大似然估計來得到樣本對應的后驗概率，其計算過程往往顯得較為煩瑣。而由扎德提出的模糊數學理論也可以解決“連續型數據離散化”的問題。本文特將模糊數學中的三角模糊數和NB算法融合在一起，并在去模糊化過程中引入了一種新型方法。通過將構建的混合分類模型運用到企業評價應用中，體現了該模型能夠具有有效且良好的分類效果。

2 樸素貝葉斯算法（Fundamentals of Naive Bayes

algorithm）

樸素貝葉斯算法是最簡單的一種貝葉斯分類方法，它作為一種有監督型學習方法來解決多屬性分類問題。與貝葉斯信念網絡相比，有研究指出樸素貝葉斯方法因其獨特的“各屬性間相互獨立”的條件性假設而簡化了整個計算過程、避免了計算帶來的復雜性[1]。基于條件獨立性假設和已有的先驗知識，人們可以根據統計學中的貝葉斯定理學習到有用的概率信息，并最終通過計算獲得的最大后驗概率來獲得測試樣本的所屬類別。

盡管獨立性假設在現實生活中會顯得不切實際，但是NB算法依靠它可以在很多領域根據提供的訓練數據來預測出測試樣本的所屬類別，它通常應用于文本分類、決策預測、情感分析等分類問題中。有研究者對樸素貝葉斯在文本分類中的應用做出了相關研究，并通過相關實驗數據證實了NB算法針對小型實例數據樣本集有著高精確率[2]。

定義1：（樸素貝葉斯算法）

假設給出一個樣本數據集的類標號集合，還有一個描述樣本屬性的集合，假定用來描述樣本的各屬性值的每個事件之間相互獨立。那么根據貝葉斯公式，類別關于樣本X的后驗概率可以表示為

樸素貝葉斯分類器在決策時遵循了“最大后驗法則”（the Maximum A Posterior，MAP）[3]。因此樣本X的類別可以由此而得出（需要注意的是，由于是不依賴于的常量，因此在下列公式中省略它）

根據上面的公式可以看出，樣本X的類別實際上是根據最大后驗概率來得到的。需要注意的是，為了提升最終分類效果，如果在計算過程中當遇到的情況時，此時就需要引入“拉普拉斯標準化”（Laplace calibration）方法。也就是說，在計算的過程中對每個樣本元組計數都加上1——如果對z個計數加上1的話，就必須在用于計算概率的分母上對應地加上z。關于條件概率的拉普拉斯校準公式即為

其中，：在類別下，事件發生的樣本數量；n：在所有樣本實例中，類別的數量；z：平滑參數，常將其設為事件發生的可能取值總數（屬性值的種類總數）；ε：是一個值大于零的常數變量，在計算中常使其取值為1。

3 關于模糊貝葉斯的改進型決策方法（An improved

decision-making model of fuzzy Naive Bayes）endprint

人類通常在使用語言來描述描述某個事件時會伴隨一些模糊現象。例如我們會用“很瘦”“比較瘦”“有點胖”或“很胖”等詞語來形容一個人的體型。其中“很”“比較”和“有點”都是具有模糊性或不明確界定的詞。那么模糊現象的發生也就意味著該事件存在著一定的不確定性和模糊性。

為了解決實際中遇到的模糊事件，人們嘗試通過構建相關的數學模型來將不確定型變量轉換成精確型變量。在1965年，Zadeh提出了一種新的數學理論——模糊數學，這種理論可以用來描述一些由人類認知或主觀意識而產生的模糊事件。根據扎德提出的思想，他利用“隸屬度”的概念來表示事件屬于其對應模糊集合的程度，從而創建出模糊事件對應的模糊集合，并將該集合用一個特殊函數來表示[4]。其中，這個函數是由一組值域為[0，1]的隸屬度組合而成的。Zadeh在他的模糊數學理論中將這個特殊函數定義為模糊事件所在域對應的隸屬度函數。

定義2：（模糊集合）

上述映射關系說明了在論域U中，模糊集S可以由一個函數來表征，而U內的每一個點都對應區間[0，1]內的某一個實數。這個函數通常被稱作“隸屬度函數”。在這個函數中，每一個函數值被看作是的隸屬度值。因此一個模糊集S可以按照下列公式定義：

需要特別注意的是，的分號代表的并不是除法運算，它僅僅指出了在論域U內點對應的隸屬度是。

在多數情況下，數據或者文本樣本有時因其具有主觀性和不確定性而不能精確的表達內在信息。上面已經提到，隸屬度是模糊數學中最基本的一個核心概念，可以通過創建一個適合的隸屬度函數來表達模糊的不確定性信息。經研究者發現，通常有兩種方法用來獲取隸屬度函數：（1）利用概率統計學和模糊數學方面的相關理論，找到一個模糊概率統計模型來表述隸屬度函數；（2）可以通過模糊概率分布函數來定義一個模糊隸屬度函數，比如說梯形分布、三角形分布、高斯分布等。

模糊數是模糊數學中用來表述模糊性信息的一種定量方法，它可以基于相關理論和運算方法將不確定性變量轉換成精確型數值。模糊數中最常見的概念就是三角模糊數（Triangle Fuzzy Number，TFN）。三角模糊數是一種可以用來解釋模糊現象、表述模糊集合的簡單而高效的數學方法。它作為一種表征數據集中每個樣本屬性的隸屬度分布的數學模型，可以應用于多個領域用來反映出某個事件、人類語言描述或主觀思想中存在的不確定性及模糊性，例如，模糊控制、模糊識別等方面。近幾年有一些學者認為在一些決策系統或是評價系統中，三角模糊數可以用來表示評價權重，或是在分類問題中將其作為數學模型來用于解決決策分類問題。

實際上，三角模糊數可以看作是一個確定性和不確定性的集合體。假設一個女人測定的身高記錄為160cm；這個數值可能并不是她的精確身高數值，其真實身高可能僅僅接近于、而不完全等于160cm。那么在用一個三角模糊數表征身高值時，可以用（160-x，160，160+y）來表示，其中，x和y分別是160的左、右確界。下面介紹了三角模糊數的定義。

定義3：（三角模糊數）

如果一個三角模糊數，那么我們就可以從下列公式中獲得對應的隸屬度函數：

根據公式（5），我們可以稱l、m和u分別是三角模糊數A的下界、中值和上界。由于中值m對應的隸屬度為1，所以它對應的值是一個確定值。而除m外的位于l和u之間的值對應的隸屬度值存在于區間[0，1]內。

數據挖掘領域通常會把數據分為連續型數據和離散型數據。一般情況下有以下兩種形式可能會產生不確定性[5]：（1）訓練數據集的類標簽是由一個分布函數表示而成，這種情況可能會產生不確定性；（2）當連續型屬性值以區間的形式出現時也會產生不確定性。因此在分類過程中對連續型變量進行離散化處理就顯得很有必要。樸素貝葉斯算法處理的數據類型一般是離散型數據。因此當樸素貝葉斯處理的連續型數據時，就需要對其進行離散化。以往研究者們大多采用高斯分布來解決，但其計算過程一般較為煩瑣，且并不能完整地解釋一些由模糊現象產生的模糊性問題。因此，可以考慮將模糊數學相關理論與樸素貝葉斯算法融合在一起，可以使得生成的模糊貝葉斯混合分類器模型能夠靈活地應對多種類型的數據來有效地解決分類問題。很多研究者對模糊貝葉斯問題進行了相關研究。根據Hsien-Chang Wu的研究[6]，在一些模糊環境下，貝葉斯可靠性評價系統為了簡化計算過程選擇將一個原始問題轉換成四個子問題。之后Vibhor Kant和Kamal K.Bharadwaj[3]提出了一種基于內容的過濾方法的模糊樸素貝葉斯分類器用來解決基于相關內容的相似性問題。Kayaalp等研究學者提出了一個改進的模糊貝葉斯混合分類器用來解基于數字型數據的決策分類問題[7]。

模糊貝葉斯算法是一種融合了模糊數學相關理論和樸素貝葉斯算法的混合模型，它在處理一些分類型問題時，可以靈活、有效地應對連續型數據。本文選擇將三角模糊數和樸素貝葉斯算法進行混合，使得到的模糊貝葉斯混合分類器作為分類算法模型。這樣不僅使分類過程應對不同類型的數據時的處理能力不再單一，并且還能有效地提升該過濾器的篩選能力和過濾效率。圖2展示了模糊貝葉斯混合模型的搭建思路。下面介紹其操作過程：

第一步：數據準備工作。

在進入分類操作前，數據標準化過程是最主要的數據準備工作。因為不同的屬性通常會存在不同的維度或具有不同的計量單位，因此有可能會影響到多屬性分類問題的最終數據分析結果。那么為了消除這種潛在的不良影響，在數據準備前期對數據進行標準化處理就顯得很有必要，該操作可以用來解決不同屬性間的兼容性問題，從而使得他們可以存在于同一個維度解決問題。

通常情況下大多使用“最小—最大標準化方法”來對原始數據進行標準化處理。即，假設x是實數區間域內的某一個值，則經過標準化后可以得到：

在完成數據標準化操作后，就可以開始準備創建分類模型了。假設存在一個類別集合和一個樣本數據集，其中：每一組樣本都對應著某一個類別；而所有的都可以由一個屬性集合表示。如果代表了第i個樣本的屬性集，那么根據定義4中的標準化方法，標準化后即被轉換為且該新值可以參與到接下來的分類過程中。endprint

第二步：模糊化處理。

基于模糊集理論，這一步驟主要將屬性值（經過標準化處理的）轉換成它們所對應的隸屬度函數。前面的內容已經提到，模糊數學的關鍵就是計算出數值在所處實數域內的隸屬度值。因此，人們可以根據原始數據的相關特征來描述不確定型模糊信息。上面已經介紹過，通常有兩種方法可以獲得隸屬度函數：（1）第一種方法就是利用模糊概率統計方法來解決問題；（2）第二種方法就是根據某一分布函數而專門定義一個特殊函數來描述模糊事件。有很多人嘗試通過定義一個分布函數來得到隸屬度函數（例如：高斯分布）或者是將不確定型變量轉換成某一個特定的模糊數（例如：梯形模糊數、三角模糊數等）。那么根據人們自身定義、主觀思維或者是樣本數據本身的特征，就可以把語言型或者數字型數據轉換成一個三角模糊數（）。

第三步：去模糊化處理。

在一些理論型或者現實生活中的控制系統中，去模糊化處理是重要的一步操作，它可以將模糊數或模糊變量轉換成精確的輸出數據。在此之前，研究者們大多使用三角形重心或最大均值來進行去模糊化操作。但是，有研究者利用了三角形的內心提出了一種新型去模糊化方法——“內心法”（the Incentre Of Area，IOA）（注：三角形的內心就是三角形角平分線交點）[8]。那么根據定義（內心法定義），就可以將三角模糊數（）去模糊化處理后得到。關于“內心法”的定義如下：

定義5：（“內心法”去模糊化方法）

第五步：最大后驗概率。

依據提供的訓練數據樣本的相關數據值，由公式（9）、公式（10）求得的先驗概率和條件概率。然后參考最大后驗概率法則，見式（2），就可以對測試樣本數據計算、分析出測試用例的最終分類結果。

4 關于企業評價的簡單實例應用（An example of the

application on commercial enterprise evaluation）

通常專家會設定出專門的評價標準來對不同的企業進行評估，以此將企業劃分為不同的類型。然而，不管所用的評價打分是數值型還是文本型，專家給出的評價值有時仍可能會存在著模糊性。在語言評價系統中可以通過將語言評價值轉換成模糊數這個方法來進行分類[9]。根據這種思路，本文將構建的模糊貝葉斯混合模型應用到企業評價中，具體過程如下。

4.1 數據準備

在對企業評估的過程中，專家會根據相關專業知識或者自己的經驗而專門設定評分規則來對企業進行打分，并最終將企業劃分成三種類別（分別為Ⅰ、Ⅱ和Ⅲ）。在給出的企業評價樣本集中，一共考察了四種屬性，如表1所示。

根據表1提供的數據，可以將每一個屬性的值域區間依次劃分成三個子區間。為了使專家能夠對每個企業的屬性指標做出評價，特設定兩個人工語言評價集：（1）有關“財產效益”和“償債能力”的語言評價集合：A={L，M，H}（其中，L、M和H分別代表低、中等和高）；（2）有關“資產營運”和“發展能力”的語言評價集：B={W，M，S}（其中，W、M和S分別代表弱、中等和強）。這樣，評價集A、B中的每一個元素（即人工語言評價值）就可以分別被用來定義經過劃分得到的屬性值域子區間。圖3展示了四個屬性的值域劃分結果，以及每個子區間對應的評價值。

企業評價原始數據集描述了每個訓練樣本的相關數據及對應的專家評價值，詳見表2，即每一個屬性由兩個子屬性表示：獲得的專家打分（表2中的“d”列）和相對應的語言評價（表2中的“v”）列。

4.2 數據標準化

準備好分類所需的訓練樣本數據后，接下來還需要對這些數據進行預處理操作。雖然根據一些已設定好的打分規則，就可以獲得專家對企業樣本的打分及其對應的語言評價值。但考慮到不同專家存在不同的主觀思想來進行打分，且不同的屬性存在有不同的取值區間（表1），因此需要根據公式（6）來將表2中的原始數據進行標準化處理。經過標準化處理后所得的數據詳見表3。

4.3 使用模糊化得到的評價值分隔經過標準化處理的數據

在完成數據標準化操作后，可以考慮將專家打分對應的語言評價值（即語言評價集合A和集合B中的每個元素）轉換成不同的三角模糊數。假定存在一個語言變量集合，該集合由一組有序的語言值組合而成，其中是集合I中的某一個語言評價值。那么可以將變量i_m定義成一個三角模糊數。有關評價集合元素L、M、H、W和S的三角模糊數如圖4所示。

接下來參考“內心法”，對人工語言評價值（L、M、H、W和S）對應的三角模糊數（）進行去模糊化處理，這樣就可以求出其對應的精確值（也就是下面計算過程中的、和）。具體的計算過程如下：

4.4 用例測試

將表3里每個標準化后得到的取值按照表4中的對應區間找到對應的新屬性值，如表5所示，就可以實現“將連續型數據離散化”的目的。

要想獲得T1的所屬類別，需要計算出條件概率和最大后驗概率。

為了保證分類時的計算精準率，在計算條件概率的過程中需要對其進行拉普拉斯校準（公式（10））。

（2）T2用例：

在經過標準化處理后，T2可以被定義為。

綜上所述可知，可以看出樣例T2屬于類別Ⅱ。

在上述應用模糊貝葉斯混合模型的簡單實例中，通過提供一些企業樣本用例可以測試出該混合算法模型的分類性能。可以看出：結合了“內心法”創建的混合模型實現了將連續型數據實例離散化的目標，使樸素貝葉斯分類算法在處理連續型數據時的計算過程變得更為靈活，從而使得該模型能夠有效地獲得實例的所屬類別。

5 結論（Conclusion）

在數據挖掘領域，研究者們常常會將模糊數學和分類算法進行結合，在分類過程中按照“模糊化—去模糊化”的模式來對數據進行處理。在以往的研究中，人們大多采用COA方法和MOM方法進行去模糊化操作。為了改善模糊貝葉斯混合算法，本文嘗試將一種新型去模糊化方法（“內心法”）融入樸素貝葉斯算法中得到一個混合分類模型。在企業評價簡單實例應用中，可以看到模糊貝葉斯混合分類模型不僅實現了對連續型數據離散化的目標，而且使得數據能夠更好地參與樸素貝葉斯算法的分類過程中。然而本次試驗中用于測試的實驗用例數量并不十分充足，因此在今后的研究學習中需要繼續增加測試樣本數量，以進一步提升該模糊貝葉斯混合分類器的分類性能。endprint

參考文獻（References）

[1] Jiang L，et al.Structure extended multinomial Naive Bayes[J].Information Sciences，2016，329（C）：346-356.

[2] Lei L I，Huang Y G，Liu Z W.Chinese text classification for small sample set[J].Journal of China Universities of Posts & Telecommunications，2011，18：83-89.

[3] Kant V，Bharadwaj K K.Integrating Collaborative and Reclusive Methods for Effective Recommendations：A Fuzzy Bayesian Approach[J].International Journal of Intelligent Systems，2013，28（11）：1099-1123.

[4] Zadeh L A.Fuzzy sets[C].Fuzzy Sets，Fuzzy Logic & Fuzzy Systems.World Scientific Publishing Co.Inc.1996：394-432.

[5] Bounhas M，et al.Naive possibilistic classifiers for imprecise or uncertain numerical data[J].Fuzzy Sets & Systems，2014，239（1）：137-156.

[6] Wu H C.Bayesian system reliability assessment under fuzzy environments[J]. Reliability Engineering & System Safety，2004，83（3）：277-286.

[7] Kayaalp N.An Aggregated Fuzzy Naive Bayes Data Classifier[M].Elsevier Science Publishers B.V.2015.

[8] Rouhparvar H，Panahi A.A new definition for defuzzification of generalized fuzzy numbers and its application[M].Elsevier Science Publishers B.V.2015.

[9] Wang J，et al.A synthetic method for knowledge management performance evaluation based on triangular fuzzy number and group support systems[J].Applied Soft Computing，2016，

39（C）：11-20.

作者簡介：

馮思捷（1992-），女，碩士，技術員.研究領域：數據挖掘.

管建和（1962-），男，博士，教授.研究領域：數據挖掘.endprint

軟件工程2017年9期

軟件工程的其它文章: 生命周期最大化的無線水質監測網絡路由優化研究; 基于FTP協議棧的OpenAt應用軟件遠程DOTA系統; Windows棧緩沖區溢出攻擊原理及其防范; 基于OFDMA的同步算法研究; 云計算路由平臺入侵風險評估方法研究; 弱關聯冗余環境下的挖掘算法研究