王文相


【摘要】簡單介紹了貝葉斯公式和數(shù)據(jù)挖掘的相關(guān)概念,并舉例說明了貝葉斯公式在數(shù)據(jù)挖掘中的應(yīng)用.
【關(guān)鍵詞】貝葉斯公式;數(shù)據(jù)挖掘;條件概率;先驗概率
數(shù)據(jù)挖掘是從現(xiàn)實生活中收集數(shù)據(jù),對實際問題進行科學分析研究進而解決,共分為三個部分,分別是數(shù)據(jù)收集部分、模型設(shè)計部分和問題解決部分.數(shù)據(jù)收集是通過查閱文獻資料、網(wǎng)絡(luò)搜索等途徑尋找解決問題所需要的各種原始數(shù)據(jù),進而通過對原始數(shù)據(jù)內(nèi)容的甄別、過濾,獲取有效信息并最終運用到自己設(shè)計的模型中.模型設(shè)計需要針對實際問題進行建模,并利用已收集的數(shù)據(jù)進行問題求解.可以利用已有的數(shù)學算法、數(shù)據(jù)挖掘技術(shù)或者設(shè)計新的方法來解決問題,其中可能需要一定程度的數(shù)學推導和計算機編程.數(shù)據(jù)挖掘通常通過數(shù)學、統(tǒng)計、在線分析處理、情報檢索分類等諸多方法來實現(xiàn)上述目標.
在貝葉斯法則中,每個名詞都有約定俗成的名稱:P(A)是A的先驗概率或邊緣概率.P(A|B)是已知B發(fā)生后A的條件概率,也由于得自B的取值而被稱作A的后驗概率.P(B|A)是已知A發(fā)生后B的條件概率,也由于得自A的取值而被稱作B的后驗概率.P(B)是B的先驗概率或邊緣概率,也作標準化常量.按這些術(shù)語,貝葉斯法則可表述為:后驗概率=似然度×先驗概率標準化常量.P(B|A)P(B)稱為可能性函數(shù),這是一個調(diào)整因子,使得預(yù)估概率更接近真實概率.所以,條件概率可以理解成這樣的式子:后驗概率=先驗概率×調(diào)整因子.
這就是貝葉斯推斷的含義.我們先預(yù)估一個“先驗概率”,然后加入實驗結(jié)果,看這個實驗到底是增強還是削弱了“先驗概率”,由此得到更接近事實的“后驗概率”.在這里,如果“可能性函數(shù)”P(B|A)P(B)>1,意味著“先驗概率”被增強,事件A的發(fā)生的可能性變大;如果“可能性函數(shù)”=1,意味著B事件無助于判斷事件A的可能性;如果“可能性函數(shù)”<1,意味著“先驗概率”被削弱,事件A的可能性變小.
貝葉斯公式看起來很簡單,但是在自然科學領(lǐng)域應(yīng)用范圍極其廣泛.同時理論本身蘊含了深刻的思想.在大數(shù)據(jù)時代,從海量的數(shù)據(jù)中進行數(shù)據(jù)挖掘進而解決相關(guān)問題,貝葉斯公式也有著廣泛的應(yīng)用.比如,要設(shè)計一款疾病自我預(yù)診斷系統(tǒng),從自己身體的各種不舒適體征來判斷是否患有某種疾病,那么要從面對龐大的各種疾病數(shù)據(jù)中,尋找自己需要的數(shù)據(jù)并設(shè)計模型進行判斷.下面我們以發(fā)燒為例,用貝葉斯公式建立簡單自我肺炎自我預(yù)診斷判斷系統(tǒng).
數(shù)據(jù)挖掘主要有數(shù)據(jù)準備、規(guī)律尋找和規(guī)律表示3個步驟.首先,是數(shù)據(jù)準備階段.數(shù)據(jù)準備是從相關(guān)的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;規(guī)律尋找是用某種方法將數(shù)據(jù)集所含的規(guī)律找出來;規(guī)律表示是盡可能以大眾可理解的方式將找出的規(guī)律表示出來.數(shù)據(jù)挖掘牽涉了大量的準備工作與規(guī)劃工作,事實上許多專家都認為整套數(shù)據(jù)挖掘的過程中,有80%的時間和精力是花費在數(shù)據(jù)預(yù)處理階段,其中包括數(shù)據(jù)的凈化、數(shù)據(jù)格式轉(zhuǎn)換、變量整合,以及數(shù)據(jù)表的鏈接.可見,在進行數(shù)據(jù)挖掘技術(shù)的分析之前,還有許多準備工作要完成.
首先,要盡可能找到所有會引起發(fā)燒的疾病,這個難度比較大,不過現(xiàn)在計算機網(wǎng)絡(luò)發(fā)達,使得大數(shù)據(jù)的處理成為可能.為了方便敘述,我們不妨把從網(wǎng)上查找到的有關(guān)發(fā)燒的資料以模型的方式簡單化處理,設(shè)所有引起發(fā)燒的疾病有A1,A2,A3,…,An種,并且這n種病相互之間是獨立的互不影響的.通過數(shù)據(jù)挖掘得知,n種疾病的發(fā)病率分別為P(A1),P(A2),P(A3),…,P(An),發(fā)燒表示為事件S,n種疾病發(fā)病時發(fā)燒的概率分別為P(S|A1),P(S|A2),P(S|A3),…,P(S|An),根據(jù)貝葉斯公式可知發(fā)燒是由A1疾病引起的概率為
同樣可以算出發(fā)燒是由其他疾病引起的概率,最可能的當然就是概率最大的那個.僅僅有一個癥狀判斷疾病是不準確的,對于其他癥狀,比如,咳嗽事件W,我們用同樣方法可以算出P(A1|W),根據(jù)P(S∪W)=P(S)+P(W)-P(SW)等相關(guān)公式,可以算出同時發(fā)燒咳嗽時患A1疾病的概率,當多個癥狀同時計算時,顯著性一定會增大,判斷當然也會更準確.最后,還可以對判斷結(jié)果給出置信區(qū)間,做相關(guān)的假設(shè)檢驗,這里就不再一一累述.
【參考文獻】
[1]茆詩松.貝葉斯統(tǒng)計[M].北京:中國統(tǒng)計出版社,2012:18-54.
[2]祝東進,郭大偉.概率論與數(shù)理統(tǒng)計[M].北京:國防工業(yè)出版社,1996:132-178.