引言:貝葉斯算法是以著名數學家托馬斯.貝葉斯(Thomas 貝葉斯)(1702-1761)命名的一種基于概率分析的可能性推理理論,通過分析過去事件的知識,來預測未來的事件。貝葉斯算法在實際生活中也有著廣泛的應用。
貝葉斯公式是概率論中很重要的公式,在概率論的計算中起著很重要的作用,在實際生活中也有廣泛的應用。本文對全概率公式和貝葉斯公式進行了仔細的分析,舉例說明了它們的用法及它們所適用的概型.為了解決實際問題的需要,我們將全概率公式和貝葉斯公式進行了推廣,這樣使得貝葉斯公式的應用更為廣泛,同樣我也舉例加以了說明。
1貝葉斯算法原理分析
Bayes法是一種在已知先驗概率與條件概率的情況下的模式分類方法,待分樣本的分類結果取決于各類域中樣本的全體。
Bayes方法的薄弱環節在于實際情況下,類別總體的概率分布和各類樣本的概率分布函數(或密度函數)常常是不知道的。為了獲得它們,就要求樣本足夠大。另外,Bayes法要求表達文本的主題詞相互獨立,這樣的條件在實際文本中一般很難滿足,因此該方法往往在效果上難以達到理論上的最大值。
2貝葉斯法則
機器學習的任務:在給定訓練數據D時,確定假設空間H中的最佳假設。
最佳假設:一種方法是把它定義為在給定數據D以及H中不同假設的先驗概率的有關知識下的最可能假設。貝葉斯理論提供了一種計算假設概率的方法,基于假設的先驗概率、給定假設下觀察到不同數據的概率以及觀察到的數據本身。
3先驗概率和后驗概率
用P(h)表示在沒有訓練數據前假設h擁有的初始概率。P(h)被稱為h的先驗概率。先驗概率反映了關于h是一正確假設的機會的背景知識,如果沒有這一先驗知識,可以簡單地將每一候選假設賦予相同的先驗概率。類似地,P(D)表示訓練數據D的先驗概率,P(D|h)表示假設h成立時D的概率。機器學習中,我們關心的是P(h|D),即給定D時h的成立的概率,稱為h的后驗概率。
4貝葉斯公式
貝葉斯公式提供了從先驗概率P(h)、P(D)和P(D|h)計算后驗概率P(h|D)的方法:p(h|D)=P(D|H)*P(H)/P(D) ,P(h|D)隨著P(h)和P(D|h)的增長而增長,隨著P(D)的增長而減少,即如果D獨立于h時被觀察到的可能性越大,那么D對h的支持度越小。
5極大后驗假設
學習器在候選假設集合H中尋找給定數據D時可能性最大的假設h,h被稱為極大后驗假設(MAP),確定MAP的方法是用貝葉斯公式計算每個候選假設的后驗概率,計算式如下:
h_map=argmax P(h|D)=argmax (P(D|h)*P(h))/P(D)=argmax P(D|h)*p(h) (h屬于集合H)
最后一步,去掉了P(D),因為它是不依賴于h的常量。
6極大似然假設
在某些情況下,可假定H中每個假設有相同的先驗概率,這樣式子可以進一步簡化,只需考慮P(D|h)來尋找極大可能假設。
h_ml = argmax p(D|h) h屬于集合H, P(D|h)常被稱為給定h時數據D的似然度,而使P(D|h)最大的假設被稱為極大似然假設。
7現實應用舉例
一個醫療診斷問題,有兩個可選的假設:病人有癌癥、病人無癌癥,[p(h1)=p(cancer),p(h2)=p(uncancer)]可用數據來自化驗結果:正+和負-, [p(D1)= p(+),p(D2)=p(-),一般假設p(D1)=p(D2)],有先驗知識:在所有人口中,患病率是0.008,對確實有病的患者的化驗準確率為98%,對確實無病的患者的化驗準確率為97%,總結如下:
P(cancer)=0.008, P(uncancer)=0.992
P(+|cancer)=0.98, P(-|cancer)=0.02
P(+|uncancer)=0.03, P(-|uncancer)=0.97
問題:假定有一個新病人,化驗結果為正,是否應將病人斷定為有癌癥?求后驗概率P(cancer|+)和P(uncancer|+)
因此極大后驗假設計算如下:
P(cancer, +) = P(+|cancer)P(cancer)=0.008*0.98=0.0078
P(uncancer, +) = P(+|uncancer)P(uncancer)=0.992*0.03=0.0298
hMAP=uncancer
確切的后驗概率可將上面的結果歸一化以使它們的和為1
P(canner|+)=0.0078/(0.0078+0.0298)=0.21
P(cancer|-)=0.79
貝葉斯推理的結果很大程度上依賴于先驗概率,另外不是完全接受或拒絕假設,只是在觀察到較多的數據后增大或減小了假設的可能性。
注意:當訓練數據的值是缺失時,即先驗概率為0%,預測值不穩定。一般會給每個數據加1,使概率不會為0%。
8結束語
可以看到貝葉斯公式在解決實際問題時給我們帶來很大的方便,而貝葉斯公式的推廣形式也進一步拓展它的使用范圍, 成為我們解決更為復雜問題的有效工具。但由于研究周期較短,本文只是舉了一個例子來說明它的應用。事實上它的應用遠不止這些,還可以用來解決投資、保險、工程等一系列不確定的問題。總之貝葉斯公式的應用及其推廣形式的正確應用有助于進一步研究多個隨機過程的試驗中目標事件及其條件下各誘發事件的概率,有助于把握隨機事件間的相互影響關系,為生產實踐提供更有價值的決策信息。成為我們解決問題的有效工具。
參考文獻
[1]夏克儉 張濤,基于貝葉斯算法的垃圾郵件過濾的研究[J],微計算機信息;2008年09期。
[2]胡學鋼 郭亞光,一種基于粗糙集的樸素貝葉斯分類算法[J],合肥工業大學學報(自然科學版),2006年02期。
[3]Jonathan B.Postel, Simple Mail Transfer Protocol,RFC821,Aug 1982。
[4]Myers J.Post Office Protocol-version 3。RFC1725,Dover Bench Consulting,
Inc,1994,1。
(作者單位:黑龍江省政法管理干部學院 )