廖辰益
摘要:兩百多年前英國數學家貝葉斯提出的貝葉斯定理,經過不斷地發展,現在已經成為現代社會某些重要領域的基礎。貝葉斯定理廣泛運用于人工智能、機器學習、金融、醫療等領域,為這些領域提供了發展的基礎。本文從貝葉斯定理的起源開始,緊接著對有關貝葉斯定理的基本概念進行闡述和對相關公式進行解釋與推導,再對貝葉斯定理在醫療與過濾信息的應用進行簡單分析,最后根據貝葉斯定理的優缺點對貝葉斯定理進行評價。
關鍵詞:貝葉斯定理 ? 全概率公式 ? 聯合概率 ? 假陽性問題 ? 過濾垃圾短信
一、貝葉斯定理的提出
貝葉斯定理最早是由英國的學者托馬斯·貝葉斯(1702~1763)提出來的。他在生前主要研究概率論方面的知識,成功歸納出了概率統計的基本理論。他死后,他的朋友理查德·普萊斯將他的著作《幾率性問題得到解決》發表了出去,但因為貝葉斯定理的應用不夠完善,幾個世紀以來都沒有被廣泛接受[1]。但是,隨著科學技術的發展,計算機的出現和發展,社會的進步與發展,貝葉斯定理的重要性日益增加,現在已經廣泛應用于金融、人工智能等方面。
貝葉斯定理的提出最早是用來解決逆向概率問題的。概率問題分為正向概率問題和逆向概率問題,正向概率問題就是像“箱子里有5個大小相同,質量相等的小球,2個黃球,3個紅球,隨機摸出一個,得到紅球的概率為多少”這樣的問題,而逆向概率問題相反,就變為了“從箱子隨機摸出一個得到紅球的概率為40%,問箱子里有多少球”,很明顯,后者的難度遠遠大于前者。
二、貝葉斯定理
(一)貝葉斯公式
貝葉斯公式又稱貝葉斯定理、貝葉斯規則,是概率統計中的應用所觀察到的現象對有關概率分布的主觀判斷進行修正的標準方法,如下所示為貝葉斯公式[2]:
先驗概率,人們在對事件進行主觀判斷中得到的概率,用P(A)表示。后驗概率,即在客觀調查的基礎上所修正的概率,也稱為條件概率。B事件發生情況下A事件發生的概率,A在B的條件下的概率,用P(A|B)表示。調整因子,是從先驗概率到后驗概率的修正,若先驗概率為P(A),后驗概率為P(A|B),則調整因子為P(B|A)/P(B)。當調整因子=1時,事件A發生的概率與不受事件B影響,當調整因子<1時,先驗概率被削弱,當調整因子>1時,先驗概率得到增強。聯合概率,是指多個事件發生的情況下,另外一件事發生的概率[3]。聯合概率的計算公式為:
(二)貝葉斯公式的推導
設有事件A、B,且P(B)>0,則由條件概率公式可得:
由全概率公式可得:
將兩式聯立,即可得到貝葉斯公式
三、貝葉斯公式的應用
(一)假陽性問題
醫療檢測是我們生活中常見的一個問題,醫療正確檢測率關乎到每個人的生命安全。運用貝葉斯公式可以解決醫療檢測的概率問題。現假設某種醫療設備的報錯率為1%,而被檢測人員只能檢測出陰性和陽性兩種情況。在被檢測人員中,有90%的人呈陰性,還有10%的人呈陽性,判斷假陽性的概率。
我們先假設事件A為呈陽性,事件B為呈陰性,則事件A的先驗概率P(A)=10%,事件B的先驗概率P(B)=90%。
設事件S為陽性檢出事件。可得
在檢測人員呈陰性的條件下陽性檢出的概率P(S|B)=1%
在檢測人員呈陽性的條件下陽性檢出的概率P(S|A)=99%
由全概率公式可得
陽性檢出的先驗概率P(S)=P(S|B)P(B)+P(S|A)P(A)=1%×90%+99%×10%=10.8%
最后由貝葉斯公式可得
P(B|S)=P(B)P(S|B)/P(S)=90%×1%/10.8%=8.333333%
P(B|S)是檢測出陽性的條件下被檢測人員為陰性的發生概率,即為假陽性的概率。
由此可見,我們直覺判斷的概率與實際的概率相差甚遠,貝葉斯公式對于醫療檢測具有重要意義[4]。
(二)過濾垃圾短信
隨著手機的使用越來越普及與廣泛,手機短信成為了我們獲取信息的一種重要方式。可是在日常的生活中,我們卻時常碰到這樣的問題:手機信息一大堆,有許多還是垃圾短信,而對自己有用的信息卻不知怎么找,那我們該如何解決這樣的問題呢?
現在的手機很多都有過濾垃圾短信的功能。只要設置了這個功能,垃圾短信問題就能迎刃而解。而這個功能實質上就是用貝葉斯公式為基礎來實現的。通過對垃圾短信特定的詞眼的分析,找到垃圾短信的標志,從而過濾垃圾短信。再加上不斷地修正,使過濾垃圾短信的準確率不斷提高。
假設現在有一條短信,含有“ox”詞,它為垃圾短信或正常短信,由手機的數據庫可得,在不知道有無“ox”一詞的情況下短信為垃圾短信的概率為90%,短信為垃圾短信時出現“ox”這個詞的概率為90%,短信為正常短信時出現“ox”這個詞的概率為90%,要計算出這條短信是垃圾短信的概率,就先設垃圾短信為S,正常短信為H,而用A表示出現“ox”這個詞的事件。
可得正常短信的先驗概率P(H)=1-90%=10%
垃圾短信的先驗概率P(S)=90%
在短信為垃圾短信時出現“ox”這個詞的概率P(A|S)=90%
短信為正常短信時出現“ox”這個詞的概率P(A|H)=90%
由全概率公式可得,出現“ox”這個詞的概率為P(A)=P(A|S)P(S)+P(A|H)P(H)=90%
由貝葉斯公式可得,在出現“ox”這個詞時短信為垃圾短信的概率,即這條短信是垃圾短信的概率為
P(S|A)=P(S)P(A|S)/P(A)=90%×90%/90%=90%
再結合其他詞出現的概率,通過聯合概率進行再計算,手機短信正確判定率會有所提高。
假設有另外一個詞“leap”,其中,短信為垃圾短信時出現“leap”這個詞的概率為50%,短信為正常短信時出現“leap”這個詞的概率為30%。
我們可以設出現“leap”這個詞的事件P(B).
那么短信為垃圾短信時出現“leap”這個詞的概率P(B|S)=50%,短信為正常短信時出現“leap”這個詞的概率P(B|H)=30%
由全概率公式可得P(B)=P(B|S)P(S)+P(B|H)P(H)=50%×90%+30%×10%=48%
再由聯合概率公式可得,短信為垃圾短信的概率
P=P(A)P(B)/{P(A)P(B)+[1-P(A)][1-P(B)]}=90%×48%/[90%×48%+(1-90%)×(1-48%)]=89.2562%
通過計算聯合概率,修正了短信為垃圾短信的概率。以此類推,再結合其他詞在垃圾短信和正常短信中出現的概率,利用全概率公式算出這些詞的先驗概率,再用聯合概率公式求出短信為垃圾短信的概率,對概率進行不斷修正,提高手機過濾垃圾短信的準確率。
四、貝葉斯定理的優劣
貝葉斯定理相比于傳統的經典估計,以主觀性為切入點,有著很大優勢。能重復估計概率并不斷修正概率,從而使概率的準確率提高。貝葉斯公式的創造,推動了概率統計學的發展,并廣泛運用于現代社會,在以后的社會還會有更大的用途。
但貝葉斯定理也存在著一定的局限性,因為是以主觀判斷為前提,帶有較強的主觀性[5]。由于每個人對先驗信息的解讀不同,得出來的先驗概率不同,從而得出的后驗概率也是千差萬別,這種估計的概率缺乏科學的客觀性。
五、結語
貝葉斯定理的發現,大大推動了概率統計學的發展,由原本的無法修正概率的傳統概率估計到可對概率進行不斷修正的貝葉斯定理,提高了概率統計的實用性與可更新性。貝葉斯定理相對于傳統概率估計是概率統計學中一扇新的大門。貝葉斯定理從提出開始就在不斷的發展中,特別是到了我們今天日新月異的現代社會,它的用途越來越廣泛。貝葉斯定理廣泛運用于金融、醫療、人工智能等領域,像貝葉斯網絡、貝葉斯機器學習等都得益于貝葉斯定理才能迅速發展并運用人工智能領域中,為我們的生活帶來了諸多新奇與便利。隨著社會的發展,貝葉斯定理也會不斷地發展,從而貝葉斯定理也將會更好的運用于其他領域和更多的新領域。
參考文獻:
[1]王麗.淺析貝葉斯公式及其在概率推理中的應用[J].科技創新導報,2010,(24):136-136.
[2]陶永祥.淺談全概率公式和貝葉斯公式的應用[J].牡丹江大學學報,2009,(04):132+135.
[3]謝宏斌.貝葉斯公式的應用和推廣[J].數學學習與研究,2017,(10):8-8.
[4]張秀英,陳梅華.貝葉斯(Bayes)公式及其在統計決策中的應用[J].河南廣播電視大學學報,2000,(01):44-46.
[5]楊靜,陳冬,程小紅.貝葉斯公式的幾個應用[J].大學數學,2011,27(02):166-169.
(作者單位:廣東梅縣東山中學)