★ 朱彥陳 趙海梅 高健 劉端勇 胡慧明 葉青
(1.江西中醫藥大學 江西 南昌 330004;2.江西中醫藥大學科技學院 江西 南昌 330025)
數據挖掘[1](Data Mining,DM)是指從數據庫的大量數據中揭示出隱含的、先前未知的并有潛在價值的知識發現過程。主要基于人工智能、機器學習、模式識別、統計學、數據庫、可視化技術、高性能計算、圖像處理以及空間或時間數據分析等。數據挖掘技術在中醫藥研究領域也得到廣泛應用,為中醫藥現代化在醫案整理、證候分類、用藥規律、療效評價等方面的發展提供了強有力的證據,為中醫理論的進一步發展提供新的研究思路和參考,茲將近年來研究進展作一綜述。
1.1 神經網絡技術 此技術以數學模型為主,重點針對復雜數據,快速完成數據抽取。神經網絡技術通過模擬大腦的神經元結構,利用MP,實現非線性規劃,根據數據信息的特性,決定信息的存儲位置,實現自主處理。該技術在數據挖掘中,不僅可以實現數據的快速分類,還可以對數據進行模擬預測,促使數據挖掘處于優化狀態,完成難度聚類。
1.2 決策樹 此技術以模擬離散函數為主,借助樹木模型,對實際案例進行綜合分類處理。決策樹理論支持數據挖掘的分析和分類,對相同屬性的數據進行歸類存儲,進而挖掘數據分類中遵循的規則。
1.3 關聯規則 關聯規則挖掘過程必須先從資料集合中找出所有的高頻項目組,再由這些高頻項目組中產生關聯規則。它是通過關聯分析找出數據庫中隱藏的關聯網,是醫學文獻整理中最常用的數據挖掘技術之一。
1.4 粗糙集理論 該技術是利用粗糙集合中的屬性約簡和規則約簡理論來對數據進行客觀而有效的處理,從而更迅速地獲得知識。即將不精確或不確定的知識用已知的知識庫中的知識來(近似)刻畫。
2.1 醫案整理與名醫經驗傳承 中醫的繼承一直以來都是中醫發展的關鍵問題,然名醫名家學術思想往往都保留在大量的臨床醫案之中,不借助一定的工具很難加以總結和概括,其規律性往往難以把握。數據挖掘技術則是一種非常好的探索名醫名家學術思想和辨證規律的工具。如李艷等[2]運用數據統計和挖掘技術對臨床信息進行處理,采用深度訪談的定性研究對挖掘與統計的結果加以分析,以病歷數據作為客觀依據,以楊寶元老中醫的意見為主導,結合臨床實驗的療效驗證,總結出楊寶元老中醫防治冠心病的原則為補氣為先、溫陽為上,氣血兼治、貴在化瘀,善用蟲藥、化瘀通絡;臨床用藥體會總結四法為益氣化瘀法、溫陽化瘀法、溫陽通脈法、化瘀通絡法。凌穎茹等[3]通過收集黃春林教授治療腎病綜合征(NS)病例,錄入“中醫傳承輔助平臺”系統,采用系統中的關聯規則、改進互信息法、復雜系統熵聚類等無監督數據挖掘方法,發現其治療NS的基本方(黃芪、杜仲、菟絲子、女貞子、芡實、丹參、蒲公英、藿香)及8首相關新處方。李秀娟等[4]以《當代名老中醫典型醫案集》為數據源,通過對68則醫案77診次,采用頻數分析、關聯規則等數據挖掘方法進行分析,獲得195味中藥、1073頻次及核心藥物30種,獲得藥對關聯規則共25條。結果發現名老中醫治療胃脘痛喜用甘緩建中、疏肝氣、柔肝體、除濕運脾、苦寒清降、活血化瘀等藥物;白術、半夏、甘草組成的藥對在治療胃脘痛中通過巧妙配伍發揮多種療效。劉云濤等[5]以病毒性肝炎為例,通過數據的分類整理、數據庫的建立、產生關聯規則,結果發現名老中醫認為病毒性肝炎主要病因為熱邪和濕邪、寒邪,脾虛、陰虛、肝郁亦可為重要的致病因素;并以濕熱蘊結、肝郁氣滯為常見證候,確立了清熱利濕、疏肝解郁為核心治法,同時強調久病必虛、久病必瘀,故聯合健脾疏肝、涼血化瘀、芳香化濁為治。這些都提示數據挖掘不僅可探索名醫名家對疾病發病規律的認識,同時也可挖掘臨床實踐辨證用藥的規律,為中醫醫案及名醫經驗的傳承具有較好的幫助。
2.2 證候規律與標準化 證候是反映疾病本質規律的象征,是中醫的標準化的主要任務之一,然而中醫在癥狀、體征等臨床表述上、證候分型上往往都用各自語言,不同表述,甚至存在不同含義的差異,如何將中醫從癥狀、體征等證候的構成因素及證候分型的本身進行規范和統一,是數據挖掘技術探索證候研究的主要工具之一,唐啟盛等[6]通過調查共納入廣泛性焦慮癥的癥狀61項,運用貝葉斯網絡技術等數據挖掘技術建立61項癥狀的關系模型,提取了9個證候要素和5個證候靶位;并運用聚類分析提取了8個證候類型,結合專家經驗和中醫理論,確定廣泛性焦慮癥有肝郁化火、腎虛肝旺、痰熱擾心、心脾兩虛、肝郁脾虛、心腎不交等6個證候類型,并制訂了廣泛性焦慮癥的中醫證候診斷標準。方朝暉等[7]通過選取2型糖尿病患者813例、901次診次,采用多維檢索軟件頻數、構成比、Liquorice復雜網絡節點度、頻度及點式互信息分析方法,發現2型糖尿病中醫證候以氣陰兩虛夾瘀證為最多見,其中40歲以下以氣陰兩虛證居多,40歲以后年齡段的糖尿病人群以氣陰兩虛夾瘀證為主,為糖尿病中醫診斷提供了標準化參考。李建生等[8]使用Epidata軟件建立數據庫,采用MATLAB 6.5軟件,運用數據挖掘方法,分析719例患者慢性肺源性心臟病的常見證候及其特征,最終通過規則轉換及設定的證候主次癥標準,確立了痰熱壅肺證等6個常見證候,診斷標準檢驗結果符合率為72.2%。李亞等[9]則通過采用人工神經網絡、模糊系統,構建基于動態Kohonen網絡的自適應模糊推理系統模型,并用Fisher-iris數據檢驗模型可靠性。最后用該模型對臨床數據挖掘,依據中醫基礎理論,獲得彌漫性肺間質疾病常見證候診斷標準,其標準診斷符合率為73.8%。王學偉等[10]應用貝葉斯網絡方法分析474例血瘀證臨床診斷數據,并進行血瘀證定量診斷,發現了血瘀證的如疼痛程度等7個關鍵癥狀,且運用這一方法對血瘀證診斷的準確率達到96.6%。說明貝葉斯網絡方法在中醫定量診斷中具有良好的應用前景。通過這些數據挖掘技術對中醫臨床海量數據的整理,進一步規范中醫病名、癥狀、體征以及證候,使中醫辨證論治過程中也可以有相應標準化的診斷依據和參考。
2.3 用藥與配伍規律 作為藥物,中藥同樣具有的一定作用偏性,通過合理的組織,糾其偏性,制其毒性,增效減毒,消除不良影響,中醫謂之配伍。發現和掌握中藥配伍規律對于遣方用藥、減少臨床用藥的隨意性、保證臨床療效具有重要意義。然而鑒于疾病的復雜性和古今臨床醫生的個人用藥特點和習慣,中藥配伍規律湮沒在浩瀚的臨床病案之中,只有通過數據挖掘技術才能有機的將其挖掘出來,才能更好繼承傳統中醫的診療特色,進而創新中藥的配伍設計和優化。王潤林等[11]將《中華名醫名方薪傳》中收集的全125位名老中醫用中醫藥治療胃病的中醫處方錄入計算機,建立數據庫,采用數據挖掘技術從中藥的種類、四氣五味、歸經功效及核心藥物等角度發現治療胃病用藥規律。黃穎琦等[12]則運用相關置信度規則,并利用剪枝方法篩選關聯度最強的數據對中醫止嘔方劑藥物配伍的數據進行挖掘,結果發現最常用的單味藥物(生姜使用頻率高達61.23%)、關聯性最強的核心藥對(茯苓配伍姜半夏)、關聯度最強的藥組(生姜、姜半夏、茯苓)等,用數據挖掘語言證明了仲景創制的小半夏加茯苓湯被證實是中醫止嘔的核心藥組。李文濤等[13]通過建立血液病中藥方劑數據庫,采用矩陣比較法探討血液病驗方的復雜信息。結果發現治療血液病用藥大多以補氣健脾藥、補血養血藥、涼血藥為主,揭示了中醫治療血液病驗方中藥的組合規律。譚展鵬等[14]以治療痢疾的中藥為例,采用關聯規則與頻數分析方法分析四診信息、病因、證候分別與中藥之間有對應規律,論證了基本方與中醫證治痢疾理論切合,提示該研究方法能較好地挖掘名老中醫關于痢疾的中藥配伍及方證規律的經驗。同樣的方法陳裕等[15]運用于探索當代名中醫針刺治療痞滿的選穴與配穴規律也取得了理想的效果,可見數據挖掘技術對于中醫方劑(藥物和針灸)處方規律的挖掘具有良好的實用性和價值。
2.4 療效評價 療效是關鍵,中醫通過辨證論治和整體觀念調理陰陽平衡,促使陰平陽秘。中醫療效的評價體系并沒有建立,其評價往往通過癥狀體征的消失作為標準,評價體系不規范,不標準,與現代醫學嚴重脫鉤。有意思的是,王雪峰等[16]采用數據挖掘技術對177項小兒肺炎病證診斷有臨床意義的證候變量進行分析,觀察小兒肺炎各證的癥狀、體征隨病程等時間點變化的動態變化規律,在規范證候的同時,構建了小兒肺炎的中醫療效評價指標和方法體系。而印瑩等[17]設計交互式數據挖掘框架,采用數據挖掘、數理統計和邏輯分析相結合的方法,揭示小兒肺炎各證和所屬癥狀之間的關聯性,并建立了客觀的、人機交互可度量的病證結合的療效評價體系。沈亞誠等[18]采用基于相似性的多變量時間序列,通過距陣Frobenius范數,生成療效時間序列對絕經綜合征中醫藥臨床療效評價和中西醫療效評價比較進行了研究,發現中醫藥療效分析結果與生存質量分析的結果基本一致,可輔助臨床專家建立較完整的中醫藥臨床療效評價指標體系。
近年來,隨著數據挖掘技術的不斷應用與發展,新涌現了一種醫學數據挖掘技術-支持向量機,它對數據庫中模式分類的準確率一般要高于神經網絡,該技術可以面向整個醫學數據庫或醫學信息集合提供知識和決策。在當今大數據時代,已有大量中醫病例數據以各種不同形式存儲于數據庫中,數據挖掘技術作為一個在海量數據中獲取知識和信息的有效工具,不僅對中醫醫案、疾病的診斷和治療、醫著的學習和中醫學術思想的整理繼承會發揮巨大的作用,也將進一步加快中醫藥知識完善和更新的步伐,是中醫藥現代化發展的有力途徑。數據挖掘技術的應用,既提高了中醫病證診斷的客觀性和準確性,也有力地推動了中醫藥研究的規范化進程。
[1]M.S.B.PhridviRaj, C.V.GuruRao.Data mining-past, present and future-a typical survey on data streams[J].Procedia Technology, 2014, 12:255-263.
[2]李艷,房立峰,李曉東,等.數據挖掘方法在楊寶元老中醫經驗傳承中的應用[J].藥物臨床研究,2014,12(2):41-43.
[3]凌穎茹,趙龍,白莉,等.基于數據挖掘方法分析黃春林教授治療腎病綜合征用藥經驗[J].世界科學技術:中醫藥現代化,2013,15(5):958-964.
[4]李秀娟,張天蒿,張素,等.基于數據挖掘探索名老中醫治療胃脘痛的用藥規律[J].福建中醫藥,2012,43(3):1-2.
[5]劉云濤,鄭丹文,羅翌.數據挖掘技術在名老中醫防治傳染病經驗傳承中的應用體會[J].臨床醫學工程,2012,19(8):1 343-1 345.
[6]唐啟盛,孫文軍,曲淼,等.運用數據挖掘技術分析廣泛性焦慮癥的中醫證候學規律[J].中西醫結合學報,2012,10(9):975-982.
[7]方朝暉,羅云,李中南,等.基于數據挖掘技術的2型糖尿病中醫證候規律研究[J].中醫藥臨床雜志,2013,25(8):663-665+753.
[8]李建生,王明航,胡金亮,等.基于數據挖掘的慢性肺源性心臟病常見證候特征的臨床研究[J].遼寧中醫雜志,2011,38(1):9-11.
[9]李亞,胡金亮,李素云,等.基于數據挖掘的彌漫性肺間質疾病中醫證候診斷模型建立研究[J].遼寧中醫雜志,2010,37(12):2 333-2 335.
[10]王學偉,瞿海斌,王階.一種基于數據挖掘的中醫定量診斷方法[J].北京中醫藥大學學報,2005,28(1):4-7.
[11]王潤林,李廷保.基于數據挖掘對名老中醫治療胃病中藥配伍規律的文獻研究[J].新中醫,2013,45(4):132-134.
[12]黃穎琦,賈恒,何前松,等.關聯度最強藥物配伍的中醫止嘔類方數據挖掘[J].中國實驗方劑學雜志,2012,18(14):1-4.
[13]李文濤,劉昶,王增繪,等.基于中醫治療血液病方劑的中藥組合規律數據挖掘[J].中華中醫藥雜志,2012,27(12):3 096-3 099.
[14]譚展鵬,羅翌,李際強.當代名中醫痢疾醫案43則中藥配伍及方證規律的數據挖掘分析[J].臨床醫學工程,2011,18(3):412-414.
[15]陳裕.當代名中醫針灸治療偏頭痛用穴特點的數據挖掘[J].深圳中西醫結合雜志,2012,22(3):148-150.
[16]王雪峰,董丹,梁茂新,等.數據挖掘技術在小兒肺炎中醫臨床療效評價研究中應用的思路與方法[J].中國中西醫結合雜志,2007,27(10):949-951.
[17]印瑩,張斌,趙宇海,等.基于中醫療效評價的交互式數據挖掘框架[J].計算機工程,2008,34(23):34-35+46.
[18]沈亞誠,王小云,傅昊陽,等.基于數據挖掘的絕經綜合征中醫藥臨床療效評價研究[J].中國衛生統計,2008,25(4):387-390.