李鑫頡,賈振華,吳以嶺
(1.河北以嶺醫藥研究院,石家莊 050035;2.河北省絡病重點實驗室,石家莊 050035;3.國家中醫藥管理局重點研究室(心腦血管絡病/國家中醫藥管理局中醫絡病學重點學科),石家莊 050035)
中醫醫案是中醫學的重要內容和中醫經驗傳承的主要模式[1],是中醫理論之源泉。醫案,又稱脈案、方案、診籍,是中醫診治疾病臨床記錄所形成的第一手資料,為中醫學理論的發展、臨床經驗的傳承發揮了不可替代的作用。誠如當代中醫名家章次公先生所說:“醫案為古人積驗所在,近賢經驗之總結亦匯集于醫案。”
宋·許叔微《傷寒九十論》運用《傷寒論》的理法方藥治療并論述90種傷寒病證,先案后論,每案之后參以心得,開創了中醫個案專著之先河。明代出現了我國歷史上第一部醫案類書—江瓘《名醫類案》,匯集明代以前歷代醫家醫案及經史百家中所載醫案近3000例,以病證分為205門。清代出現了現存篇幅最大的醫案類書《續名醫類案》,是中醫學術發展史上對中醫醫案的第二次全面整理。此類巨著亦為醫案整理研究的專著。至近現代,醫案研究更是層出不窮。1988年,黃煌[2]已在《醫案助讀》一書中探討了醫案的類例、閱讀、評注、撰寫、整理等問題。而茅曉[3]則從方法學上探討了醫案研究的方法,列為分析與綜合、歸納與演繹、系統方法等8法。上述醫案的整理研究為數據挖掘技術在中醫醫案中的應用奠定了基礎。
對海量且無序的中醫醫案數據,僅靠傳統經驗分析和簡單統計學處理無法獲得數據中隱含的規律,數據挖掘技術為從海量數據中提取潛藏信息提供了方法學支持。數據挖掘(Data Mining,DM)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中、不為人知但又是潛在有用的信息和知識的過程[4]。目前數據挖掘已在多個領域中應用,醫學研究具有復雜性、模糊性及非規范化的特點。其在中醫學上應用的文獻最早見于2001年,以二妙散為例,論述了中醫方劑的數據挖掘方法[5]。當前在中醫領域,數據挖掘應用最廣泛的是在中藥(復方)的研究中,并已取得了一定的進展[6]。如馮雪松等[7]對中藥指紋圖譜的數據挖掘研究,完善了中藥質量標準,推動了中藥產業化。數據挖掘應用于中醫藥領域將會對中醫藥學術水平的提高、現代化研究的進程、生存空間的擴展產生巨大的促進作用。
目前常用于中醫學研究的數據挖掘方法有聚類分析、關聯規則分析、相關性分析和因子分析等。
2.2.1 聚類分析 直接比較樣本中各事物之間的性質,將性質相近的歸為一類,有助于對大量數據中的規則予以認識。聚類分析可將一些觀察對象依據某些特征加以歸類,在中醫醫案研究中,聚類分析能較好地避免分類過程中摻雜的主觀因素,客觀準確地反映研究對象,并從中可能發現其內在的客觀規律[8]。張世筠等[9]運用變量聚類分析的數理統計方法,將中醫肝證的多個主要證型分類為實證、風證和虛證等3類。而聚類分析亦有其局限性,在研究中醫證候時對癥狀的歸屬要求具有專一性,聚類結果的好壞也沒有評價的客觀標準,由結果的有用性來決定[10]。
2.2.2 關聯規則分析 關聯規則是數據挖掘領域中最為常用和成熟的方法之一,目的是從給定的事項中,挖掘出事物特征之間滿足一定支持度和置信度的關聯現象。因此,可應用關聯規則幫助分析證候,組成中醫癥狀體征的內在關系,更為客觀和準確地把握疾病的病機病理,并有助于辨證論治客觀化和規范化的研究。朱立成等[11]采用關聯規則分析名中醫哮喘醫案,得出中醫醫案中的用藥、四診信息、病因、病位、證候之間存在一定關聯性,并通過關聯規則分析獲取其中規律。關聯規則在應用過程中,可能會存在諸如支持度和置信度較高的規則,而實際并無應用意義,這就需要在運算時,保證高質量的數據進行規則驗證以及多次反饋修正[12]。
2.2.3 相關性分析 相關性分析法是研究隨機變量之間的統計相關關系的一種數理統計方法。近年來在一些中醫醫案研究中,利用了統計學中相關及回歸的原理,研究醫案中出現的要素之間相關關系的規律性。如丁素珍等[13]對45例使用四逆湯的醫案進行分析,發現附子與干姜有明顯的劑量相關關系,證實姜附同伍、走守相輔的相關關系。叢華等[14]總結了中醫歷史上著名醫家的醫案22459條,采用非條件Logistic多元逐步回歸法篩選出肺病的常見臨床證候。相關分析必須以定性分析為前提,在進行預測時選取的樣本要盡量分散,以減少預測誤差,在進行預測時只有在現有條件不變的情況下才能進行,如果條件發生了變化,原來的方程也就失去了效用。
2.2.4 因子分析 又稱因素分析,是一種用來尋找隱藏在可測變量中無法直接觀察到卻影響或支配可測變量的潛在因子,并估計潛在因子對可測變量的影響程度以及潛在因子之間的關聯性的一種多元統計分析方法[15、16]。利用此方法可以分析醫家的處方規律和常用藥物組合。彭麗坤等[17]收集明清兩代部分醫籍、醫案、醫話總共559例治疫處方,總結歸納出明清中醫疫病發病、治法及用藥方面的一些特點及規律。因子分析的目的是用少數幾個因子去描述許多因素之間的聯系,即將相關聯比較密切的幾個變量歸在同一類中,每一類變量就成為一個(公)因子,以少數的幾個因子反映原變量的大部分信息[18]。
伴隨著中醫醫案的系統整理研究,中醫醫案證候研究亦取得了一些進展,但仍沒有找到合適的方法和途徑。無監督數據分析方法的出現為中醫證候更為深入地規范化研究提供了方法學保障。與上述分析方法相比較,無監督數據挖掘方法更適合目前中醫證候研究的需求。已有很多學者將無監督數據分析方法運用到證候研究中,取得了一些可貴的經驗。如趙燕[19]運用無監督數據分析方法,通過理論探討、文獻挖掘、臨床調查、數據分析,提取了16個抑郁癥常見證候要素,初步摸索了應用無監督數據分析方法,以證候要素為核心進行證候規范化研究的新模式。李海霞等[20]以冠心病心絞痛的證候聚類為例,對擴展熵的無監督聚類進行分析。結果表明,通過該聚類方法得到的結果大多與臨床專家的經驗相吻合,為中醫證候要素的標準化制定提供了客觀依據。
那么,何為無監督數據挖掘方法呢?無監督方法是相對于監督方法而言,二者是機器學習方法研究的兩大策略。監督挖掘方法是通過對已知類別的訓練樣本的學習,實現對未知樣本的分類判斷。無監督挖掘方法是在無專家知識前期參與的情況下,從樣本(變量)的特征出發,研究通過某種算法將特征比較相似的樣本(變量)聚集在一起,從而達到區分具有不同特征樣本的目的[21]。其優點是可以發現樣本中隱含的共性和規律。在中醫證候研究中它更客觀,與中醫辨證思想更接近,更符合組方規律研究的需求。隨著研究的日益深入,無監督數據挖掘方法將成為證候研究的新方向。
綜上,數據挖掘技術是一把開啟數據寶庫的金鑰匙,十分適用于分析散在、龐雜的中醫醫案資料,揭示中醫理論的科學內涵,發現海量信息中的隱藏模式和內在規律。當然,探討醫案研究方法不是研究醫案的最終目的,更應引起關注的應該是對古代醫案的理論研究和現代闡釋,即從古代醫案中發掘醫家的臨床辨證思維和學術創新思維,因而更為適合研究醫家思想的無監督數據挖掘方法應運而生。
章太炎先生指出:“中醫之成績,醫案最著。欲求前人之經驗心得,醫案最有線索可尋,循此鉆研,事半功倍。”因此,有必要認真研究中醫醫案。數據挖掘是從海量數據中獲取知識的有力工具,而無監督數據挖掘方法更為適合繁雜的中醫醫案研究,必將在探索中醫理論和臨床規律中發揮不可估量的作用。
[1] 蔡林峰,傅冬綿,蒙 璐.案例推理技術在企業資信評估中的應用[J].微機發展,2004,14(7):118-121.
[2] 黃 煌.醫案助讀[M].北京:人民衛生出版社,2001:3.
[3] 茅曉.《名醫類案》研究的方法學探討[J].南京中醫藥大學學報(社會科學版),2002,3(1):34.
[4] Micheline Kamber.數據挖掘概念與技術[M].北京:機械工業出版社,2001:3-4.
[5] 蔣永光.試論中醫方劑信息的數據化[J].中國中醫藥信息雜志,2001,8(12):80-81.
[6] 田 琳,閻英杰,朱建貴,等.數據挖掘及其在中醫藥領域中的應用[J].中國中醫基礎醫學雜志,2005,1(19):710.
[7] 馮雪松,董鴻曄.中藥指紋圖譜中的數據挖掘技術[J].藥學進展,2002,26(4):198-201.
[8] 劉 稼.聚類分析在中醫藥研究中的應用及意義[J].中醫藥學刊,2004,22(5):927-928.
[9] 張世筠,沈明秀,王先春,等.中醫肝證的變量聚類分析[J].中國中西醫結合雜志,2004,24(1):75-76.
[10] 蘇曉宇.數據挖掘聚類分析方法在中醫臨床中的運用[J].實用中西醫結合臨床,2010,10(6):90-92.
[11] 朱立成,林色奇,薛漢榮,等.名中醫哮喘醫案445例關聯規則分析[J].江西中醫學院學報,2007,19(5):83-87.
[12] 童元元,趙英凱,于 靜,等.關聯規則在中醫藥領域的應用研究[J].中國中醫藥信息雜志,2009,16(7):95-96.
[13] 丁素珍,曹 毅.45例四逆湯病案藥物劑量的相關與回歸分析[J].河南中醫.1997,17(4):245-246.
[14] 叢 華,張啟明.肺病辨證用藥的Logistic回歸分析[J].山東中醫藥大學學報,2002,26(5):322-327.
[15] 毛國君,段立娟,王 實.數據挖掘原理與算法[M].北京:中國水利水電出版社,2005:64-108.
[16] 孫振球.醫學統計學[M].北京:人民衛生出版社,2002:330-331.342-343.
[17] 彭麗坤,陳仁壽,李文林,等.明清中醫疫病發病、癥狀及用藥的因子分析研究[J].中醫藥信息,2009,29(4):4-7.
[18] 王 兵.基于古今醫案數據分析的水氣病證治規律研究[D].哈爾濱:黑龍江中醫藥大學學位論文,2010,34-35.
[19] 趙 燕.基于多種無監督數據分析方法的抑郁癥證候要素研究[D].北京中醫藥大學學位論文,2007:6.
[20] 李海霞,孫占全,王 階,等.基于擴展熵的無監督聚類的中醫辨證[J].中國中醫基礎醫學雜志,2007,17(8):627-629.
[21] 邱德紅,陳傳波.融合無監督和監督學習策略生成的多分類決策樹[J].小型微型計算機系統,2004,25(4):555-559.