趙聞平 陳旭 趙倩

【摘 ?要】目的:闡釋樸素貝葉斯在乳腺腫瘤診斷中的應用原理,同時分析其診斷性能的變化特征;方法:把已經確診的500個乳腺腫瘤病例分為訓練樣本集合與檢驗樣本,其中前400個樣本作為訓練樣本集合,后100個樣本作為測試樣本。實驗過程中,隨機從400個訓練樣本集合中選擇一定數量的子集作為一次實驗過程中的訓練樣本以用于訓練樸素貝葉斯診斷模型,然后用100個測試樣本來檢驗模型的診斷性能。結果:樸素貝葉斯診斷模型診斷正確率p與訓練樣本數量N之間滿足指數函數p=-0.7515*N-0.4936+1.034(判定系數R2=0.7791)的關系;模型的診斷性正確率與訓練樣本數量之間是正相關關系;當訓練樣本數量達到一定數量之后,樸素貝葉斯診斷模型的診斷性能趨于穩定,診斷正確率的均值為98.45%、標準差為0.88%。結論:基于樸素貝葉斯的診斷模型作為輔助醫生進行乳腺腫瘤診斷的工具具有很好的推廣應用潛力。
【關鍵詞】樸素貝葉斯;乳腺腫瘤;機器學習;醫學診斷模型
【中圖分類號】R18 ? ? ?【文獻標識碼】A ? ? ?【文章編號】1672-3783(2019)12-0019-02
乳腺腫瘤是女性健康的重要危害因子之一[1],早診斷、早發現是當前醫療水平下唯一能降低乳腺腫瘤致死率的唯一方法。機器學習是研究如何讓計算機程序來模仿人類學習與決策的一種新興交叉學科[2], 通過機器學習的方式對癌癥進行研究,可以通過對現有的癌癥病例樣本進行學習,使計算機具有一定的決策能力后對未知的癌癥病例進行智能判斷和評估,可以作出比醫生更為準確的智能決策的同時,還能降低因人為因素而造成的誤診、漏診[3-6],對乳腺腫瘤死亡率的降低有著極其重要的現實意義[6]。本文將以乳腺腫瘤診斷為例,系統性地闡釋樸素貝葉斯在醫學診斷中的應用原理,并測試其在不同樣本數量下診斷性能的變化特征,并對其診斷性能的變化特征進行深入探討,以期得到更普適、更具推廣性的結論。
1 方法與數據
1.1 樸素貝葉斯
樸素貝葉斯(Naive Bayes)發源于古典數學理論,是基于貝葉斯定理與特征條件獨立假設的方法,有著堅實的數學基礎[7]。樸素貝葉斯方法的輸出結果是概率性的,即它會計算出某個給定的樣本屬于每個類別的概率,然后以概率最高的類別作為分類或者診斷的結果。比如在乳腺腫瘤診斷中,樸素貝葉斯方法會計算出某個病例分別屬于良性和惡性的概率,并把概率最大的作為診斷結果。樸素貝葉斯獲得這些概率的方式是借助于貝葉斯理論[7],貝葉斯理論的核心思想是:根據一個已發生事件的概率,計算另一個事件的發生概率。貝葉斯理論從數學上可以表達成這樣:
1.2 數據與實驗設計
為了檢驗樸素貝葉斯診斷模型在訓練樣本數量不同的情況下其診斷性能的變化特征(也就是樸素貝葉斯診斷模型的穩定性),本研究設置了系列實驗。實驗過程中,我們不斷變化訓練樣本的數量,樣本數量從10個到400個依次變化,間隔大小為10個,即系列實驗中:第1輪實驗所用的訓練樣本的數量為10個,第2輪實驗所用的訓練樣本的數量為20個,依次類推,最后1輪實驗所用的訓練樣本的數量為400個。每輪實驗所用的訓練樣本都是從訓練樣本集合中隨機抽取出來的,而且每輪實驗都重復開展50次(注:這50次實驗中,每次實驗所用的訓練樣本數量是一樣的,但是每次實驗的訓練樣本是從前400個病例中隨機挑選的)以減小因訓練樣本的差異性所帶來的診斷模型的不確定性(即蒙特卡洛思想[8]),取這50次實驗所得到的50個診斷正確率值的均值當作本輪實驗的診斷正確率。同時,所有實驗中,測試樣本的數量固定在100個不變,以觀察訓練樣本數量變化的情況下診斷模型的診斷性能的變化特征。實驗平臺為Windows10操作系統,編程環境為Matlab2016a。
2 結果與分析
通過對樸素貝葉斯模型的診斷正確率與訓練樣本數量進行函數擬合,擬合結果表明兩者之間符合如下的指數函數關系:
3 討論與結論
樸素貝葉斯診斷模型是一種經典的醫學診斷模型,用于判別樣本屬于特定類的概率(比如在本文中用于診斷患者的乳腺腫瘤屬于良性或惡性的概率)。通過本研究我們發現樸素貝葉斯診斷模型的診斷正確率與模型訓練樣本數量之間存在很高的正相關關系,隨著模型訓練樣本數量的增加,樸素貝葉斯模型的診斷正確率也隨之得到提高。
此外,盡管樸素貝葉斯方法有一個根本的前提條件,即:假設特征條件獨立。這一假設盡管可以簡化計算,但是在實際應用中通常很難完全滿足,在這種情況下,模型的分類或診斷性能就有可能受到影響。然而,在本研究中我們發現,即便乳腺腫瘤的10個量化特征,即細胞核直徑、質地、周長、面積、光滑度、緊密度、凹陷度、凹陷點數、對稱度、斷裂度之間可能不會完全滿足樸素貝葉斯方法所需的條件獨立性假設,但是本研究中通過大訓練樣本所得到的樸素貝葉斯診斷模型依然展現出了非常高的診斷正確率(診斷正確率的均值達到了98.45%),而且表現出了穩定的診斷性能(標準差為0.88%)。
最后,鑒于在本研究中樸素貝葉斯診斷模型所表現出來的優秀的診斷性能,因此,在有大量訓練樣本的前提下,基于樸素貝葉斯方法的醫學診斷模型作為輔助醫生進行醫學診斷的一種智能高效的診斷工具,具有很好的推廣應用潛力。
參考文獻
[1] 左婷婷, 陳萬青. 中國乳腺癌全人群生存率分析研究進展[J]. 中國腫瘤臨床, 2016, 43(14):639-642.
[2] Ethem Alpaydin. Introduction to Machine Learning(3rd Edition)[M]. Prentice Hall of India,2014.
[3] 袁前飛. 基于支持向量機的癌癥診斷研究[D]. 重慶大學, 2007.
[4] 王瓊芳. B超圖像的乳腺腫瘤計算機輔助診斷系統研究[D]. 四川師范大學, 2009.
[5] 劉奕. 基于機器學習的癌癥診斷方法研究[D]. 湖北工業大學, 2017.
[6] 霍雙紅. 基于機器學習的乳腺腫瘤識別[D]. 中北大學, 2017.
[7] Horimoto K. Bayes Rule[M]. Springer New York, 2013.
[8] 尹增謙, 管景峰. 蒙特卡羅方法及應用[J].物理與工程,2002,12(3):45-49.