孫焱

【摘要】本文簡述了貝葉斯公式的內(nèi)容,并討論了貝葉斯公式及其思想在實際中的強大作用與廣泛的運用空間。
【關(guān)鍵詞】概率論? 貝葉斯定理
隨著科學(xué)技術(shù)的發(fā)展,為數(shù)眾多的科技成果與科技產(chǎn)品正在影響并逐漸融入我們的生活。而這些科技成果與科技產(chǎn)品的誕生都是離不開人類數(shù)學(xué)水平的發(fā)展的,尤其在信息化愈發(fā)全面,并且人工智能與機器學(xué)習(xí)越來越成為時代焦點的今天,概率論及其背后的廣博的數(shù)學(xué)思想,在源源不斷地滋養(yǎng)著人類科技的進步。本文將從貝葉斯定理的基礎(chǔ)理論出發(fā),簡述其在日常生活中的強大之處。
一、貝葉斯定理
貝葉斯定理由英國數(shù)學(xué)家貝葉斯(Thomas Bayes 1702-1761)提出并發(fā)展,用來描述兩個條件概率之間的關(guān)系,可用數(shù)學(xué)語言描述如下:
其中,對(Bj)P(A|Bj)使用全概率公式,知其等于P(A),分子由條件概率的定義知其等于P(A|Bi)。將其代入條件概率的定義即知貝葉斯定理正確性。另外,再引入幾個概念:
條件概率(又稱后驗概率):就是事件A 在另外一個事件B已經(jīng)發(fā)生條件下的發(fā)生概率,這里指在事件A發(fā)生后,對事件Bi的發(fā)生概率進行重新評估,稱為A的后驗概率,這里記作P(Bi|A);
聯(lián)合概率:表示兩個事件共同發(fā)生的概率。A與B的聯(lián)合概率表示P(AB);
邊緣概率(又稱先驗概率):邊緣概率是某個事件發(fā)生的概率,在這里指事件A發(fā)生之前,我們對事件Bi的發(fā)生與否有一個基本的概率判斷,稱為Bi的先驗概率,記作P(Bi)。
貝葉斯公式中,若稱P(Bi)為Bi的先驗概率,稱P(Bi|A)為Bi的后驗概率,則貝葉斯公式是專門用于計算后驗概率的。
二、貝葉斯定理在實際問題中的應(yīng)用
貝葉斯公式在數(shù)學(xué)問題中的用途十分廣泛,其通常用于在新的事件發(fā)生后對于原有事件發(fā)生概率的更新。比如,人的信用問題,若一個人在多次撒謊的情況下,其信用度會大幅下降,這一點常被用于銀行貸款。如果一個人的信用記錄有污點,其向商業(yè)銀行申請貸款時將會遇到更多的麻煩,甚至被直接拒絕。下面通過簡單計算說明:
設(shè)事件A表示此人不遵守承諾(事實上的行為),事件B表示此人可信(他人或機構(gòu)對其信用評定),再設(shè)
P(B)=0.8, P(B)=0.2, P(A|B)=0.1, P(A|B)=0.7
另外,貝葉斯公式還可以用于疾病篩查中。如果對于疾病篩查僅僅初篩,很容易出現(xiàn)“假陽性”現(xiàn)象,而對于初篩的陽性再進行一次復(fù)查,“假陽性”出現(xiàn)的概率將大幅下降,結(jié)果將會非常準(zhǔn)確。
另外,在法庭庭審中的辯護與審判,也可以用貝葉斯公式解釋。律師要盡力降低當(dāng)事人是罪犯(事件B)的先驗概率P(B),并且要舉出對當(dāng)事人有利的證據(jù)(事件A),使得當(dāng)事人是罪犯的情況下做出如此事件的概率P(A|B)盡可能小。最后法官也會綜合證據(jù),得出P(B|A),做出盡可能公正的判決。
三、貝葉斯定理在人工智能中的應(yīng)用
(一)貝葉斯定理在漢字識別后處理中的應(yīng)用
每一種語言都是一種基于上下文的信息表達(dá)和傳遞的方式,而讓計算機處理自然語言,一個基本的問題就是基于這種上下文相關(guān)的特性建立數(shù)學(xué)模型。這樣的模型中,一個很重要的思想便是貝葉斯定理。
我們在在這里以漢字的手寫識別轉(zhuǎn)換為文字為例子:設(shè)當(dāng)前識別的結(jié)果是A為事件A,計算機接收到的信號為S為事件S,則我們需要找到使得P(A|S)最大的A。使用貝葉斯公式得
其中P(S|A)為信息A經(jīng)傳輸后變?yōu)樾盘朣的概率,在實際處理中,我們可以將其處理為識別信度,更簡單地,甚至可以將其作為常數(shù),而P(S)表示接收到信號為S的概率,也是常數(shù),故問題可以簡化為求P(A)的最大值。而在漢字到句子的例子中,我們可以認(rèn)為
可以更進一步簡化問題假設(shè),每一個字只與其前一個字有關(guān),這種假設(shè)被稱為馬爾科夫假設(shè),問題退化為馬爾科夫過程。至此,問題簡化為求的最大值。
(二)樸素貝葉斯算法
目前,隨著基于網(wǎng)絡(luò)的服務(wù)的發(fā)展,網(wǎng)絡(luò)中存在的機密與隱私信息數(shù)量的大幅度增長,網(wǎng)絡(luò)安全技術(shù)的重要性日益顯得重要。如何有效地去檢測并且有效地防范網(wǎng)絡(luò)入侵來起到保障網(wǎng)絡(luò)數(shù)據(jù)的安全性的作用也開始受到社會各界的關(guān)注和重視。樸素貝葉斯算法因其堅實的貝葉斯理論基礎(chǔ),被廣泛地應(yīng)用于文本分類領(lǐng)域。我們在這里討論一種基于樸素貝葉斯算法的文本分類系統(tǒng)。我們設(shè)文章的輸入為n維向量X(其每個分量可以為文章中提取出的特征詞,如中國,恒大,美元等等),文章類型為ck(如政治,體育,經(jīng)濟等等),則有
另外,記為文章庫中該類文章的頻率,是常數(shù),這樣求出概率最大的值,即可以將文章分類。
樸素貝葉斯算法有很多改進的方法,比如平滑,或者引入其他概率分布模型,都可以提高算法的魯棒性和準(zhǔn)確性。