李曉玲
(海南醫學院信息技術部,海南 海口 571199)
數據挖掘分類方法在中醫證候研究中的運用探析
李曉玲
(海南醫學院信息技術部,海南 海口 571199)
中醫對疾病的診治是建立在證候辨證的基礎上,證候是指導臨床正確選方用藥、確定臨床療效的依據,是中醫學理論的核心問題;但中醫證候類型的復雜多樣卻在一定程度上制約著中醫藥科學的發展。文中對幾大數據挖掘分類方法在中醫證候研究中的運用進行探討,并就今后的研究重點和方向提出看法。
中醫證候學,數據挖掘,分類算法;分析
中醫對疾病的診治是建立在證候辨證的基礎上,證候是指導臨床正確選方用藥、確定臨床療效的依據,是中醫學理論的核心問題;但中醫證候類型的復雜多樣卻在一定程度上制約著中醫藥科學的發展。從近幾年的文獻資料來看,數據挖掘技術在中醫證候研究中的運用越來越廣泛和深入,筆者查閱并研究近3 a數據挖掘分類方法在中醫證候研究方面的文獻,總結了幾種常見的數據挖掘分類方法在中醫證候研究中的運用,報道如下。
大量醫學實踐證明:中醫藥對于一些慢性病的治療效果優于西醫治療。中醫對疾病的診治是建立在證候辨證基礎上的。證候是對疾病人群類特征的刻畫[1],是指導臨床正確選方用藥、確定臨床療效的依據,是中醫學理論的核心問題,也是中醫辨證治療的核心和基礎[2]。然而,目前不少疾病的中醫證候辨證還未規范,這在一定程度上制約著中醫、中藥的發展。因此,探討疾病的中醫辨證分型十分必要[3]。近年來的證候研究逐漸采用多學科融合、交叉的思路,借鑒應用數學的優勢,能夠從一定程度上體現中醫的思維方式,反映證候的特征[4]。
所謂數據挖掘,在不加區分的情況下也被叫做數據庫知識發現,就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際運用數據中提取出隱含在其中、可信、新穎、人們事先不知道但又是潛在有用的模式的高級處理過程。數據挖掘是由統計學、工智能、數據庫、可視化技術等多個領域相融合而形成的一個交叉學科[5],具有處理和分析海量數據的能力,強調與計算機技術的結合,目前在商業、社會、經濟、醫學、金融等各學科領域中都有著越來越廣泛的運用[6]。中醫數據具有數據維數大、信息量多的特點,由于分析難度大,使得大量數據沒有得到充分利用;而數據挖掘技術的運用可以在一定程度上解決這些問題。
3.1 決策樹
決策樹是一種由結點和有向邊組成的層次結構。它通過提出一系列精心構思的關于檢驗記錄屬性的問題來解決分類問題,每當一個問題得到答案,后續的問題將隨之而來,直到得到記錄的類標號。決策樹分類法是一種簡單但卻廣泛使用的分類技術[7]。
陳瀟雨等[8]運用Clementine 11.1軟件,結合特征篩選模塊、決策樹C 5.0等數據挖掘方法,構建了肝膽濕熱證與肝郁脾虛證的診斷模型,并發現部分西醫理化指標與中醫癥狀的組合具有一定的診斷意義;結合屬性篩選與C 5.0決策樹算法對慢性乙型肝炎的中西醫屬性進行的綜合分析達到了96.94%的分類準確率。辛喜艷等[9]利用決策樹分析探索缺血性中風早期各時段證候特征與近期預后的關系,分析結果顯示:缺血性中風發病第3~5日為內火證,第6~8日為內風證、痰濕證,診斷成立與否與發病第21日的日常生活能力樣表(BI)有關,并且缺血性中風病急性期發病第6~8日存在內風證、痰熱證的患者近期預后較差。史琦[10]采用CHAID決策樹和ADTree決策樹方法對冠心病不穩定型心絞痛患者中醫證候/證候要素與臨床常規指標及生物學指標之間的關聯關系進行挖掘,采用SPSS17.0 CHAID算法,對90個臨床檢測指標進行決策樹分析,分別構建了用于識別血瘀證、氣虛證、陽虛證、寒凝證、痰迚證、氣滯證、痰瘀互阻證、氣滯血瘀證、瘀熱互結證、氣陰兩虛證、心陽氣虛證、陰陽兩虛證、痰熱互結證的13個決策樹模型,經10倍交叉模型驗證,其總體正確率、敏感度及特異度均在70%以上,在一定程度上證明了臨床常規指標對于中醫辨證的指導意義。余學杰等[11]利用決策樹信息熵算法對中風病火毒的證候進行了分析研究,發現火毒主要的證候是熱勢不解和血壓驟變;并推斷在長期的高血壓慢性病變過程中,火毒證的前驅證已存在,在特定的條件誘發下,火毒證得以形成;火毒與急性腦梗死重癥、高血壓病重癥關系密切。
3.2 人工神經網絡
人工神經網絡的研究是由試圖模擬生物神經系統而激發的。類似于人腦的結構,人工神經網絡由一組相互連接的結點和有向鏈構成[7]。覃裕旺[12]根據154例高血壓患者臨床流調資料建立了基于共軛梯度算法的BP神經網絡模型,研究高血壓中醫證候與危險分層的關系,所建立的高血壓中醫證候危險分級模型的識別率達85.3%,但同時也存在低危組識別率較低(50%)的問題。胡金亮等[13]結合神經網絡技術和模糊理論建立了動態模糊分類模型,較好地用定性形式描述了神經網絡結構中蘊含的定量信息,并利用該模型對糖尿病、感冒、氣管炎等多個病種進行文獻數據及臨床數據挖掘學習,分別獲得相關病種的常見證候診斷標準,國際數據檢驗診斷符合率達到70%~94%。李建生等[14]利用動態kehonen網絡的神經模糊系統進行慢性肺源性心臟病常見證候特征的臨床研究,分析慢性肺源性心臟病的常見證候及其特征,獲取了6個常見證候,常見證候診斷標準檢驗結果符合率為72.2%。白云靜等[15-16]采用BP神經網絡對765例類風濕關節炎臨床證候資料進行研究,分析183種癥狀,診斷肝腎不足證、寒濕阻絡證、瘀血阻絡證、氣血兩虛證、痰瘀阻絡證、陰虛內熱證、熱毒蘊結證、寒熱錯雜證、脾腎陽虛證等10個證型,結果顯示:該BP神經網絡通過訓練后,3次測試的平均診斷準確率為90.72%。
3.3 貝葉斯分類
貝葉斯網是基于概率推理的圖形化網絡,帶有概率注釋的有向無環圖模型,用于解決不定性和不完整性問題。對于解決復雜設備不確定性和關聯性引起的故障有很大的優勢,已成功地用于醫療診斷、統計決策、專家系統等領域[17]。
孫文軍等[18]運用貝葉斯網絡研究廣泛性焦慮癥,研究了有向無環圖,確定了癥狀之間的關系,為后續的中醫證候研究提供了資料。朱詠華等[19,22]將貝葉斯網絡運用于中醫辨證系統的研究,建立中醫辨證貝葉斯網絡結構及概率表,利用建立的貝葉斯網絡中醫辨證系統,進行數據計量分析、推理驗證證候-證素-證名之間的關系,其結果與中醫專家經驗有較高的吻合性。吳榮[20-22]運用貝葉斯網絡等數據挖掘方法,對陳可冀等7名專家治療冠心病心絞痛的115例醫案的中醫證候要素及所屬癥狀進行定性和定量研究,并建立冠心病名醫診療數據庫,旨在發掘名老中醫冠心病心絞痛的辨證規律。
3.4 支持向量機
支持向量機(support vector machine, SVM)方法是近年來興起的基于統計學習理論的分類和預測算法,建立在統計學習理論的VC維理論和結構風險最小原理基礎上,根據有限的樣本信息在模型的復雜性和學習能力之間尋求最佳折衷,以期獲得最好的推廣能力[23],在小樣本和高維數據等分析中都有著很好的運用[7]。
楊小波等[24]將SVM算法模型運用在中醫證候分析中,在使用訓練之后的SVM對其他2000條測試數據進行識別后,發現其中大約有95%的測試數據能夠被準確識別和預測。如果能引入更多更全面的專業知識作為先驗知識, SVM模型的分類準確率會得到大幅度的提升。許朝霞等[25]研究基于徑向基核函數、多項式核函數2種算法的支持向量機和ACON、OCON 2種結構的人工神經網絡,進行心血管疾病的中醫證候類型識別,研究發現:對于心氣虛、心陽虛、心陰虛、痰濁、氣滯、血瘀6個證型的證候識別準確率,OCON 結構的人工神經網絡最高;對于心陰虛、血瘀、氣滯3個證型,多項式核函數的支持向量機識別率最低。
4.1 已取得的成果
通過以上對近3 a數據挖掘分類方法在中醫證候研究的運用分析發現:從研究方法上來說,常見、經典的分類算法在研究中都有被使用,其中以決策樹方法最為突出,這在一定程度上說明決策樹是一種簡單且有效的分類方法;從研究領域上來說,一是針對某一種疾病中醫證候分型模型的確定和檢驗,二是對于各類關系(例如疾病各證候之間、疾病中醫證候和西醫理化指標之間等)的探討,三是除了對單一病種和多病種中醫證候的橫向研究外,還有少量對于研究方法進行總結性的縱向研究。此對于確定各類疾病的中醫證候分型標準,以及疾病的預防、治療和預后恢復方案的制定,均有一定的指導意義。
筆者發現很多研究者也將數據挖掘的聚類分析、關聯分析等運用在了中醫證候的研究中,并取得了一定的成果。如:孫文軍等[4]運用聚類分析,研究廣泛性焦慮癥的中醫證候規律;司富春等[26]運用聚類分析、頻數分布分析等方法,對下肢靜脈曲張的中醫證型和方藥進行了臨床研究;趙凱等[27]利用數據挖掘技術,分析重癥肌無力醫案的處方用藥規律;鄧德強等[28]利用聚類分析、主成分分析,對糖尿病腎病中醫證型的分布規律進行了分析和歸納探索;胡綠慧等[29]利用時間序列挖掘,進行了慢性乙型肝炎中醫證候規律的研究。此進一步說明數據挖掘技術在中醫證候研究中的前景廣闊。
4.2 問題和展望
將來利用數據挖掘進行中醫證候研究,應著重于以下4個領域。①2種或多種算法的結合和改進。隨著研究的深入,很多研究者也發現單一利用某一種算法可能存在某一類或者某幾類識別率不高的問題。在未來的研究中,應著重考慮多種方法結合優化的方式提高和改進研究效果的可能性。②完整的疾病證候分類模型的建立。目前的研究雖然建立了某種疾病證候分型的模型,但仍然存在系統性和完整性不夠的問題。未來應研究如何建立完整的基本證候分型方法,并能將其指導臨床實踐。③對中醫各證候之間關系的研究。中醫學一直都秉承“事物是普遍聯系的”這一真理,也特別強調“治未病”的理念。研究中醫各證候之間的關系,對于指導人們在出現某一證候時的積極預防和治療,以及降低疾病發生率,具有重要意義。④對中醫學理論科學性的證明和研究。中醫學是一個通過長期的醫學實踐總結而來的醫學體系,雖然很多治療方法和手段經檢驗是行之有效的,但還具有經驗醫療的色彩。在未來可以利用數據挖掘技術從科學的角度證明中醫學理論的科學性、合理性。
從目前運用數據挖掘分類算法進行的中醫藥研究來看,分類算法在中醫證候中的運用尚處于起步階段;然而,這種多學科交叉研究、多領域合作的特點符合時代發展的要求,必將具有廣闊的發展空間[30]。
[1]袁世宏,王天芳,張連文.中醫證候的認知思路及其數據挖掘方法[J].中醫雜志,2011,52(4):284-288.
[2]王倩,生慧,金衛.中醫藥領域數據挖掘技術的研究與應用概況[J].湖南中醫雜志,2015,31(3):186-188.
[3]孔麗婭,柴可夫,牛永寧.數據挖掘方法在中醫證候學中的應用[J].浙江中醫藥大學學報,2014,38(6):825-827.
[4]孫文軍,曲淼,唐啟盛.廣泛性焦慮癥中醫證候的聚類研究[J].中華中醫藥雜志,2014,29(7):2298-2230.
[5]顧捷,白慧茹.數據挖掘技術在醫學領域中的應用[J].中外企業家,2013,30(34):202-204.
[6]薛薇,陳歡歌.基于Clementine的數據挖掘[M].北京:中國人民大學出版社,2012:1.
[7]Pang-Ning Tan,Michael Steinbach,Vipin Kumar.數據挖掘導論(完整版)[M].范明,范宏建,譯.北京:人民郵電出版社,2011.
[8]陳瀟雨,馬利莊,胡義揚.基于決策樹方法的慢性乙型肝炎中醫證候分類[J].上海中醫藥大學學報,2013,29(1): 40-44.
[9]辛喜艷,常靜玲,曹克剛,等.基于決策樹分析探索缺血性中風早期各時段證候特征與近期預后的關系[J].中華中醫藥雜志,2014, 29(8):2647-2650.
[10]史琦.基于數據挖掘的冠心病不穩定性心絞痛中醫證候識別規律的研究[D].北京:中醫藥大學博士學位論文,2012.
[11]余學杰,李書珍,李曉燕,等.中風病“火毒”證候分析[J].中醫學報,2015, 30(2):222-224.
[12]覃裕旺,張愛珍,岳桂華,等.基于BP神經網絡的高血壓中醫證候與危險分層關系研究[J].中國中醫基礎醫學雜志,2013, 19(4): 464-466.
[13]胡金亮,李建生,李素云.基于動態模糊神經網絡的中醫證候診斷標準建立方法應用研究[J].中醫學報,2012,27(9):1136-1138.
[14]李建生,王明航,胡金亮,等.基于數據挖掘的慢性肺源性心臟病常見證候特征的臨床研究[J].遼寧中醫雜志,2011,38(1):9-11.
[15]白云靜,申洪波,孟慶剛.基于共軛梯度下降算法的類風濕關節炎BP神經網絡證候模型研究[J].中國中醫藥信息雜志,2010,17(3):96-97.
[16]洪芳,何建成,曹雪濱.人工神經網絡在中醫證候研究中的應用現狀與趨勢[J].遼寧中醫雜志, 2013,40(1):13-15.
[17]藍鋆,王晶,尤圣富,等.貝葉斯網絡技術在中醫證候研究中的運用[J].中國中醫骨傷科雜志,2015,23(2):52-55.
[18]孫文軍,曲淼,唐啟盛.基于貝葉斯網絡的廣泛性焦慮癥中醫證候學規律研究[J].北京中醫藥,2014, 33(6): 403-405.
[19]朱詠華,朱文鋒.基于貝葉斯網絡的中醫辨證系統[J].湖南大學學報:自然科學版,2006,33(4):123-125.
[20]吳榮,王階,任廷革,等.基于數據挖掘的名老中醫冠心病診療規律研究[J].中華中醫藥學刊,2008,26(12):2581-2583.
[21]吳榮,聶曉燕,王階,等.基于貝葉斯網絡的名老中醫治療冠心病辨證規律研究[J].Chinese Journal of Information on TCM, 2010,17(5):98-99.
[22]李琳,胡志希,凌智.數據挖掘在冠心病中醫證治研究中的應用[J].遼寧中醫雜志,2014,41(12):2727-2729.
[23]黃粵,高穎,馬斌.中醫證候研究常用數據挖掘方法述評[J].中醫藥學報,2010,38(3):6-10.
[24]楊小波,梁兆暉,羅云堅,等.支持向量機算法在中醫證候信息分類中的應用[J].世界科學技術和中醫藥現代化,2007.9(2): 28-31.
[25]許朝霞,王憶勤,顏建軍,等.基于支持向量機和人工神經網絡的心血管疾病中醫證候分類識別研究[J].北京中醫藥大學學報,2011, 34(8): 539-543.
[26]司富春,宋雪杰.下肢靜脈曲張中醫證型和方藥臨床研究的數據挖掘[J].世界中西醫結合雜志,2015,10(4):449-455.
[27]趙凱,趙文光.基于關聯規則重癥肌無力醫案據挖掘分析[J].山西中醫,2014.30(12):40-43.
[28]鄧德強,趙進喜,李平,等.糖尿病腎病的中醫證候學研究[J].新疆中醫藥,2012, 30(3): 8-11.
[29]胡綠慧,何振林,溫川飆.時間序列挖掘在慢性乙肝中醫證候演變規律研究中的應用[J].信息與電腦,2013,25(11):117-118.
[30]陳克龍,樊永平.數據挖掘中的分類算法及其在中醫證候學中的應用[J].中華中醫藥雜志,2011,26(3):469-473.
(編輯 顏 冬)
1001-6910(2015)10-0001-04 ·學術探討·
R24
B
10.3969/j.issn.1001-6910.2015.10.01
國家自然科學基金(81460962)
2015-06-03