陳巧俊 葉輝
摘 要:本文主要研究數據挖掘在糖尿病中醫證候及方藥規律等方面的應用。利用醫案數據,對數據預處理之后,用頻數統計、關聯分析、貝葉斯分類等算法分析糖尿病在中醫中的臨床表現、常用藥物及組合、證候與治法等。并用貝葉斯分類器訓練模型,以預測相關臨床表現的糖尿病類型。
關鍵詞:糖尿病 數據挖掘 方藥 臨床決策
中圖分類號:R259 文獻標識碼:A 文章編號:1003-9082(2017)06-0214-01
一、引言
糖尿病是21世紀最具挑戰性的嚴重影響我國人民健康的慢性疾病之一。中醫學以其順應自然和具有整體觀的理念,卓越的治療效果而享譽全世界。
本論文以中醫治療糖尿病為背景,針對醫案中的方藥、臨床表現等用關聯規則、描述統計等相關挖掘算法對糖尿病進行分析,使得結論能夠展示糖尿病的中醫醫案的治療方法的大體情況,是全面整理總結糖尿病治療經驗的有益探索。
二、研究過程與結論
1.醫案數據預處理
首先對糖尿病臨床數據進行數據清洗,處理其中不一致的數據,填補空缺值。針對病歷中“癥狀”、“治法”、“方藥”信息描述存在的多詞一意、表述模糊、意義重疊等現象,通過癥狀藥材規范化去除同義詞,對數據進行規范化和數值化處理。
其次對數據進行深入處理,保留需要的字段,進行數據分組、人工合并同義詞、分詞統計等,完成數據清洗。
2.挖掘分析
2.1我們對患糖尿病的病人進行年齡分組后,對病人的年齡和性別分布情況進行分析,得出糖尿病高發人群在40-70歲之間,男女差異不大。
2.2常見臨床表現
乏力、口干、浮腫等是糖尿病患者常見的臨床表現,根據其常見臨床表現的綜合可以初步判斷是否患糖尿病。
可以利用樸素貝葉斯算法對不同臨床表現進行文本分類,找出各種類型糖尿病中具有代表性的一些癥狀。
根據臨床表現,預測糖尿病發生與類型:
①對臨床表現,采用jieba中文分詞工具,對癥狀分詞。
②使用TF-IDF對分詞的結果進行權重計算,人工打類型標簽
TFIDF的主要思想是:如果某個詞或短語在一篇文章中出現的頻率TF高,并且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來分類。它傾向于過濾常見詞語,保留重要詞語。
詞頻TF指某一個給定的詞語在該文件中出現的頻率。對于在某一特定文件里的詞語來說,它的重要性可表示為
逆向文件頻率IDF是一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數目除以包含該詞語之文件的數目,再將得到的商取對數得到
③使用貝葉斯模型訓練樣本,得到不同類型糖尿病的特征臨床表現
在很多情況下,臨床表現之間的特征之間沒辦法完全獨立,彼此不獨立的特征之間的關系沒法通過樸素貝葉斯分類器訓練。而貝葉斯網絡引入了一個有向無環圖和一個條件概率表集合,DAG的結點V包括隨機變量,有向連接E(A->B)表示結點A是結點B的parent,且B與A是有依賴關系的。同時引入了一個條件性獨立概念:即圖中任意結點v在給定v的parent結點的情況下,與圖中其它結點都是獨立的,也就是說P(v|par(v),x1,x2...,xn) = P(v|par(v))。這里par(v)表示v的parent結點集,x1,x2,...,xn表示圖中其它結點。
④用訓練好的模型進行預測,可以較好的根據臨床表現判斷是否患有糖尿病以及進行簡單的糖尿病類型判斷。
2.3方藥的分析挖掘
采用關聯規則算法,確定處方中各藥物和藥物間關聯規則、核心藥物組合等。結果顯示,高頻次藥物為茯苓:30%,黃芪:24%,山藥22%,丹參21.8%,可見這四種藥物是治療糖尿病的核心用藥。支持度和置信度總是伴隨關聯規則存在,是對關聯規則的必要補充。對某條關聯規則而言,支持度是指在所有的事務中同時出現A和B的概率。而置信度是說所有事務中在出現A的情況下出現B的概率,即條件概率。
2.4糖尿病證候和治法概述
根據分析,氣陰兩虛為早期糖尿病的主要證型,因此益氣養陰對于預防和治療早期糖尿病具有重要意義。
治法就是對中醫證候用相應措施來“對癥下藥”,益氣、活血、滋陰、清熱、健脾是最常用的方法。方劑六味地黃丸、消渴丸有良好的治療效果。除了藥物治療外,中醫還支持很多其他治療,尤其以針灸最為盛行。
三、結語
本文基于大量的糖尿病臨床診斷數據探討糖尿病的治療規律。能夠清晰的展示糖尿病的中醫治療方法的大體情況,了解糖尿病的現狀。
利用各種智能算法來對醫案或者醫療記錄進行挖掘已經成為一種趨勢,相信未來在深度學習和人工智能技術的不斷發展下,中醫藥將會迎來新的研究方向與機遇。
參考文獻
[1] 陳克龍, 樊永平. 數據挖掘中的分類算法及其在中醫證候學中的應用[J]. 中華中醫藥雜志, 2011(3):469-473.
[2] 吳嘉瑞, 王凱歡, 紀凱,等. 基于數據挖掘的中醫治療糖尿病處方用藥規律分析[J]. 中國實驗方劑學雜志, 2015(22):214-217.
作者簡介:陳巧俊,女,浙江金華人,本科在讀,研究方向:數據分析、機器學習
通訊作者:葉輝,,男,講師研究方向:醫學信息學、醫學自然語言處理