周珍 貴州師范大學
面向苗藥藥性挖據的貝葉斯網絡參數學習方法研究
周珍 貴州師范大學
苗族文字的缺失造成苗藥藥性缺失,從而影響苗藥規范研制、科學用藥。苗藥大數據為苗藥藥性缺失問題提供了新的思路。本文針對苗藥藥性參數統計問題提出了貝葉斯網絡參數學習方法。
苗藥 藥性 貝葉斯網絡
苗藥作為一種民族醫藥,是苗族人民在其生存環境中,與疾病作斗爭所產生和形成的的醫藥,是苗族人民傳統用于預防、治療和保健的天然藥物。苗藥的藥性是苗藥的核心和基礎,是對苗藥在人體使用后所產生的各種醫療作用和效果的高度概括,是指導苗藥在臨床試驗中的重要依據。因此,對于研究苗藥的藥性問題是必不可少的,對于苗藥的藥性進行分析可以提高苗藥在臨床上的使用,可以減少苗藥在使用時的錯誤判斷。苗藥的藥性問題是先在研究苗藥的一個重要方向。
對于苗藥藥性分析,采用貝葉斯網絡的學習方法來得到苗藥的藥性,在給定苗藥的貝葉斯網絡結構的前提下,如何利用給定樣本數據去學習網絡的參數的概率分布,即更新網絡變量原有的先驗分布。獲得網絡結構的各節點的概率以及條件概率,從而得到貝葉斯網絡的參數。在完備數據集下,我們可以從樣本中直接學習出網絡的參數,并且現在已有成熟的解決方法了,如完整數據的網絡最大似然估計、貝葉斯估計等。然而在實際的貝葉斯網絡參數學習過程中,樣本常常發生數據丟失的現象,這使得現有的學習算法無法直接從樣本中學習出貝葉斯網絡的參數。研究者已經提出了一些解決方法,這些方法都是基于梯度優化或者EM算法去學習缺失數據的貝葉斯網絡參數。EM算法作為一種能夠處理缺失數據的貝葉斯網絡參數學習的經典算法,但是EM算法仍然有易于收斂到局部最優和收斂速度慢的缺點。特別對于樣本數據大的參數學習問題,EM算法巨大的計算復雜度使其很難運用到實際問題上。
本文主要針對有缺失的數據,改進EM算法,使得在進行參數學習時能夠避免EM算法所存在的缺點。因此提出了利用大數據進行的分布式EM算法,為我解決苗藥藥性貝葉斯網絡結構參數學習提供新的思路。


通過此參數學習算法,我們可以得到苗藥分析貝葉斯網絡的參數統計結果,為苗藥的參數統計提供了好的方法。
[1]李曉毅,徐兆棣,孫笑微.貝葉斯網絡的參數研究[J].沈陽農業大學學報,2007-02,38(1):125-128
[2]張連文,郭海鵬.貝葉斯網絡引論[M].科學出版社,2006
[3]Cooper G F,Herskovits E.A bayesian method for the induction of probabilistic networks from data[J]. Machine Learning,1992,9(4):300-347
[4]Heckerman D. A tutorial on learning bayesian networks[J]. In M.I.Jodan, Learning in Graphical Models,1998
[5]Binder J,Koller D,Russell S,et al.Kanazawa adaptive probabilistic networks with hidden variables[J]. Machine Learning ,1997,29(2-3):213-244
[6]Lauritzen S L. The EM algorithm for graphical association models with missing data[J]. Computational Statistics and Data Analysis, 1995,19(2):19-201
