李 兵,王 忠,張瑩瑩,申春悌,張 雷,王永炎△
(1.中國中醫科學院中醫藥信息研究所,北京 100700;2.中國中醫科學院中醫臨床基礎醫學研究所,北京 100700;3.南京中醫藥大學常州附屬醫院,江蘇 常州 213003;4.國家食品藥品監督管理局,北京 100045)
證候分類是中醫證候研究中的重要方面,在中醫臨床診斷和治療中具有指導性作用。證候分類也是中醫臨床個體化診療的體現,是中醫臨床療效評價的基礎。中醫證候分類是在明確疾病診斷的基礎上,收集所有中醫證候表型信息,明確中醫證候表型信息之間的關聯,利用這些關聯信息對疾病進行證候分類[1]。但中醫證候是一個非線性、多維多階的復雜巨系統[2],用傳統的線性方法進行證候分類研究很難得到一致性、規范性的結果,因此在證候分類研究中逐步引入數理統計學、信息科學、系統科學及現代醫學等多種研究方法來處理具有多重共線性、非線性、模糊性和非正態分布的中醫證候數據變量,從而進行疾病的證候分類。本文對目前證候分類常用研究方法的特點及其應用情況進行簡要概述。
聚類分析(Clustering Analysis)又稱集群分析,是將隨機現象歸類的一種數理統計方法。聚類是指在不能明確如何分類的前提之下,試圖借助數理統計的方法,用已收集到的資料找出研究對象的適當歸類。按照分類的目的,可分為指標聚類和樣品聚類。指標聚類又稱R型聚類,可以將具有共線性關系的證候變量經聚類分析后歸到一類,達到對證候降維的目的,消除共線性對進一步回歸分析結果的影響。樣品聚類又稱為Q型聚類,按照樣品間的相似程度將整體分成多個類,找同類人群間的共同規律。聚類的主要指標有相關系數和距離[3]。
聚類分析是中醫證候分類研究中應用較多的方法。王階等[4]收集25l例經冠狀動脈造影證實的穩定型心絞痛患者的四診信息,運用聚類分析方法進行證候分類和證候要素組合規律研究,將25個常見癥狀聚成4類,分別為心氣虧虛、脾氣虛弱、氣陰兩虛、痰瘀互阻證。曹洪欣等[5]對201例病毒性心肌炎臨床病例進行聚類分析,得出病毒性心肌炎常見證型有邪毒侵心、大氣下陷、痰阻心絡、心脾兩虛、氣陰兩虛、心血瘀阻、陰虛火旺及陰陽兩虛證的結論。鄒演梅等[6]收集符合納入標準的冠心病心絞痛患者證候信息,并對其進行聚類分析。研究認為,冠心病心絞痛的證候聚類分為氣虛血瘀證、痰濁內阻證、陰虛痰瘀證、氣滯痰熱證、寒凝血瘀證、氣陰兩虛證幾類比較合理。邢雁偉等[7]對1069例冠心病心絞痛的69個癥狀進行聚類分析,將69個癥狀共聚成6類,經專家辨證為心腎陰陽俱虛、氣虛血瘀、肝氣郁結、脾氣虛弱、痰瘀互阻和氣虛證。張月等[8]記錄350例肺癌患者的臨床資料,并進行變量指標聚類分析,發現肺癌患者證候可分為痰濁阻肺、氣虛、肝郁化火和瘀血阻絡證4類。其他應用聚類分析方法進行證候分類的研究有很多,在此不一一贅述。
聚類分析方法的特點就是不要求預先分類,減少了預先分類的主觀性對結果的不良影響。聚類分析的局限性包括結果具有不確定性,無法根據數據內部特點自主地確定分為幾類;存在聚類的單分配問題,變量一旦被聚到某一類時就不能再被聚到其他類,而中醫認為1個癥狀可以由許多病因引起,見于不同的證候;聚類結果的好壞沒有評價的客觀標準[9]。
主成分分析(principal component analysis)是從多個數值變量(指標)之間的相互關系入手,利用降維的思想,將多個變量(指標)化為少數幾個互不相關的綜合變量(指標)的統計方法[10]。主成分分析是通過對證候變量的相關性分析,導出彼此不相關的主成分,亦即主要證型,并使其盡可能多地保留證候的原始信息。
王萬卷等[11]采用流行病學調查方法收集100例反流性食管炎患者的資料,運用主成分分析法得出反流性食管炎的主要癥狀、次要癥狀、舌和脈象等情況,將反流性食管炎證候歸類為類肝胃不和證、類肝郁脾虛證、類脾虛氣滯證3個證型。李先濤等[12]觀察了106例急性缺血性中風氣虛血瘀證患者,對其證候指標即舌、脈、癥狀進行了可靠性分析、主成分分析和聚類分析,對31個癥狀和體征進行主成分分析,得到22個變量以便進一步進行聚類分析。李宗信等[13]調查了237例慢性疲勞綜合癥患者的癥狀、體征等資料并進行主成分分析,分別提取氣虛證和血虛證的主成分,結果表明提取的主成分能夠基本準確地反映患者的實際證候。
主成分分析因其具有綜合主要信息量而使信息損失最少的優點在應用于證候的相關癥狀中具有較大價值,由于其能夠消除變量間的共線性,因此能夠對證候起到降維作用,在實際應用過程中亦可以作為其他方法的中間手段,如在主成分分析后進一步進行聚類分析[14]。
因子分析(factor analysis)是1種從分析多個原始指標的相關關系入手,找到支配這種相關關系的有限個不可觀測的潛在變量,并用這些潛在變量來解釋原始指標之間的相關性或協方差關系的多元統計分析方法[10],與主成分分析法類似,也是尋求少數的幾個變量(或因子)來綜合反映全部變量(因子)的大部分信息,因此也可以用于消除證候的多元共線性,對證候進行降維。
王階等[15]還運用因子分析方法對1069例冠心病心絞痛患者進行證候分類研究,共提取出6個公因子,經中醫辨證后分別是氣滯血瘀、氣陰兩虛、氣虛血瘀、氣虛痰濁、心腎陽虛、心脾兩虛證,其中氣虛血瘀證最多。申春悌等[16]采用因子分析法對1280例高血壓病人進行中醫證候分類研究,得出高血壓病主要的中醫證候可分為5類,主要的病位類證候要素為肝、脾、腎和心,病性類證候要素為內熱、陽亢、陰虛、氣虛和風、痰、濕。李毅等[17]對1036例消化性潰瘍患者的臨床資料進行因子分析,得出消化性潰瘍基本中醫證候為脾胃虛寒、肝胃氣滯、瘀阻胃絡、胃熱熾盛、胃陰虧虛證5類。
因子分析和主成分分析之間具有相通之處,但二者分析的重點不同,主成分分析重點在綜合原始變量的信息,而公因子分析則重在解釋原始變量之間的關系。作為一種非線性的多元分析方法,因子分析建立在數據的正態假設基礎上,因此應用因子分析進行證候研究時應注意樣本量不能太小,而且各變量之間要有相關性。同時,為保證結果的真實性和穩定性,可以以多中心、大樣本的前瞻性證候調查為基礎,必要時可以做重復性檢驗[14]。
判別分析(Discriminant Analysis)是根據判別對象若干個指標的觀測結果判定其應屬于哪一類統計學方法,其特點是根據已掌握的每個類別的若干樣本數據,總結出客觀事物分類的規律性,建立判別公式和判別準則。Logistic回歸分析(Logistic Regression)屬于概率型非線性回歸,它是研究二分類觀察結果與一些影響因素之間關系的一種多變量分析方法[10]。兩者都可以在證候研究中判別癥狀、舌、脈等變量屬于哪種證候或證型,達到篩選和確定證候相關癥狀的目的。Logistic回歸實際上屬于判別分析,其判別效果一般不如判別分析,多用于因素分析[18]。
郭嬌等[19]調查并收集符合納入標準的高血壓病患者的四診信息,用逐步Logistic回歸分析和判別分析方法對臨床上常見的高血壓病中醫證型及各證型下的四診信息進行分析,得出高血壓病的中醫證型主要為痰瘀阻絡、氣虛痰瘀、氣陰兩虛、肝陽上亢、肝腎陰虛型,這5類證型占所有病例的69.0%。陳澤奇等[20]運用因子分析、多類逐步判別分析法得出1973例抑郁癥患者中肝郁氣滯、肝郁脾虛、肝郁痰阻、心脾兩虛和肝腎陰虛證共1731例,并建立抑郁癥常見5類中醫證候的主癥辨證標準。杜彩鳳等[21]運用二分類Logistic回歸分析方法對780例絕經后期更年期綜合征門診患者進行常見證候要素和癥狀之間的相關性研究,結果表明其病位類證候要素為腎、肝、脾、心,病性類證候要素為氣滯、熱/火、血瘀、濕、陰虛、氣虛、陽虛、虛。
判別分析多建立在“歷史經驗”,也就是對證候的先驗判別之上,因此其判別結果亦夾雜著主觀和經驗的成分,在應用中最好要大樣本,要預留足夠的驗證樣品以考察判別函數的判別能力,同時可在判別應用中不斷積累新的資料,不斷進行修正并逐步完善[10]。Logistic回歸分析方法充分考慮每個變量和診斷樹每一枝杈對證的貢獻度,符合專家臨床邏輯思維過程,而且接近臨床實際,但模型本身有一定的不合理性,不適用于線性資料,同樣需要大樣本支持[18]。
支持向量機(Support vector machine,SVM)是基于統計學習理論、針對小樣本學習問題的一個理論框架[22]。SVM建立在統計學習理論的VC維理論和結構風險最小原理基礎上,根據有限的樣本信息在模型的復雜性和學習能力之間尋求最佳折中,以期獲得最好的推廣能力,在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢。
王階等[23]運用支持向量機方法對115例冠心病典型醫案進行了證候要素診斷及相關研究,提取到名醫診治冠心病血瘀、痰濁、氣虛、陽虛、陰虛、內熱、血虛、氣滯8個主要證候要素,并確定了其定量診斷,闡釋了證候要素應證組合規律。許朝霞等[24]采集2218例心血管疾病的病例信息,運用支持向量機和人工神經網絡方法對心血管疾病的中醫臨床信息和證候類別之間的關系進行分析,結果認為支持向量機和人工神經網絡能為心血管疾病的臨床中醫證候識別提供一定的客觀依據。楊小波等[25]用帶有先驗知識的支持向量機(P-SVM)的數據挖掘算法對證候數據訓練樣本進行分類,計算其分類置信度,實驗表明P-SVM算法能把先驗知識與訓練樣本中的信息量很好地結合起來,是對中醫證候信息進行正確分類的有效算法。
支持向量機的優勢在于其計算復雜性與數據的維數不成正比,只與樣本的數量有關。SVM對數據庫中模式分類的準確率一般要高于神經網絡,但對于維數非常大的數據需要很大的計算量,也許使用充足的基函數數據是可分的,但可能出現過分擬合[26]。
貝葉斯網絡(Bayes Network)是一種概率網絡,它是基于概率推理的圖形化網絡,表示事件之間復雜的因果或概率關系,是對不確定知識表達和推理領域有效的理論模型之一。高思華等[27]以2501例2型糖尿病的臨床數據為基礎,運用貝葉斯網絡的方法,分析2型糖尿病82個變量的網絡關系,得出2型糖尿病合并癥、中醫證候和血糖指標間的關系,并得出主要癥狀對并發癥的預測性。吳榮等[28]收集115例名老中醫診療冠心病心絞痛的信息,運用貝葉斯網絡提取證候要素和相關癥狀,以條件概率的形式表示癥狀的貢獻度,將名老中醫辨證經驗轉化成定量表示的知識,得出氣虛痰濁血瘀、陽虛血瘀、氣陰兩虛血瘀、陽虛血瘀痰阻、血瘀痰阻和氣虛血瘀是冠心病的常見證候。唐啟盛等[29]觀察611例抑郁癥患者的橫斷面證候,通過貝葉斯網絡方法分析抑郁癥中醫證候的分型,并擬定出6個證型,分別為腎虛肝郁、肝郁脾虛、心腎不交、心脾兩虛、肝膽濕熱和心膽氣虛證,認為基于貝葉斯網絡研究的中醫證候分型具有一定的客觀性和科學性,同樣貝葉斯網絡也存在一定局限,如頻率低,但診斷意義不小的癥狀、證候要素、證名可能不被納入計算,對癥狀等變量的描述只有是與否2種狀態,不能反映輕、中、重的程度,癥狀對證候的否定作用無法表達[30]。
無尺度網絡(Scale-Free Network)是基于關聯規則的1種數理分析模型與方法,是構成復雜系統各元素間關系的一種表達形式。對于組成復雜系統的多個元素,其內在可以因某一種潛在關系而相互連接并形成結點。大部分結點間只有少數幾個連接,而某些結點卻擁有與其他結點的大量連接。這些具有大量連接的結點稱為“集散結點”,具有大量連接的集散結點所組成的功能團,可以反映其整體、共性的部分或全部特征。根據這一原理,我們可以將無尺度網絡用于證候分類及病證方藥間關系的研究。倪青等[31]運用無尺度網絡等數據挖掘方法探討265例2型糖尿病合并代謝綜合征人群的中醫證候特征及分類,得出氣虛、陰虛是2型糖尿病合并代謝綜合征的基本證候及早、中、晚期證候特征和兼夾證情況。石潔等[32]對333例高血壓病例運用無尺度網絡等數據挖掘方法探討高血壓病中醫證候特征及分類,得出高血壓病以氣虛、血瘀證最多見,且二者經常同時存在。
信息熵(Information Entropy)是信息論中對不確定性的1種度量。熵方法是一種無監督的數據處理途徑,其優點在于對變量的分布類型沒有任何特殊要求,克服了聚類分析的單分配問題,以及可以用于非線性數據的分析等[33]。在證候研究領域,可以揭示眾多癥狀間以及癥狀與證候間的復雜關系,從中發現證候的主要癥狀和次要癥狀并定量確定其診斷價值。王階等[34]用復雜系統熵聚堆的方法從1069例冠心病心絞痛患者的癥狀中提取常見的癥狀組合形式有9種,推測氣虛、血瘀和痰濁是冠心病心絞痛的核心病機。王天芳等[35]運用信息熵關聯度系數法對臨床采集的601例慢性腎功能衰竭患者的108個癥狀數據進行分析,經對獲得的癥狀組合進行詮釋,發現存在心氣虛、脾氣虛、脾胃氣虛、腎陽虛、氣陰兩虛、肝氣郁結等常見中醫證候類型,認為通過運用信息熵關聯度系數分析方法可為提取該病的常見證候及證候要素的研究提供依據。
隱結構法(Latent Structure Models)的基本思想是運用隱結構模型對大樣本的臨床流行病學調查獲取的、未經過醫生事先辨證的癥狀數據,按照統計學原則進行分析并獲得統計學隱結構模型,其數據分析工具是隱樹模型,講述的是可以通過望聞問切而直接觀察到的癥狀等顯變量和無法直接觀察的證候等隱變量之間的關系,隱變量與隱變量之間以及隱變量與顯變量之間的關系構成了1個隱結構[36]。許朝霞等[37]采集3021例心血管疾病的臨床病例并建立問診數據庫,基于隱結構分析建立隱結構模型,分析心血管疾病的臨床中醫問診證候分類特征,結果心血管疾病中醫問診證候以心氣虛、心陽虛、氣陰兩虛、痰濕、血瘀、氣滯等證為主,認為隱結構分析方法能為中醫證候的分類提供定性、定量依據。杜彩鳳、徐雯潔等[38,39]分別通過多中心、大樣本的臨床流行病學調查,按照隱結構法的基本原則進行分析,構建隱結構模型,提取更年期綜合征及慢性阻塞性肺疾病的常見證候要素,認為隱結構法的模型構建與中醫理論有相似之處,且比有監督的數據分析有更好的客觀性。
在早期的證候研究中,中醫證候研究很多是通過專家問卷調查的方法,直接根據專家經驗進行評估,從而得到某一相關因素對相應證候的貢獻度,確定相關因素不同的分值,通過專家辨證確定疾病的相關證候分型,經結果反饋后進行論證修改。經過專家調查形成的證候分類,能夠較好地符合臨床實際,但結果具有經驗型和主觀性,證候的分型不易形成統一。專家調查法以及臨床流行病學調查是獲取臨床資料的重要手段,也是其他證候研究方法的數據來源和獲取方法之一。
以上可以看出,中醫證候分類研究所使用的方法較多,面對具有非線性、模糊性、多維性的復雜中醫證候數據,引入數據挖掘、數理統計學、數學和系統科學等多種現代方法,無疑會促進中醫證候的相關研究,各種方法又有其自身的“適應癥”,更適合處理某一類型數據。同時,各種方法自身又具有各自的優點和局限,如數據挖掘具有可以處理模糊性和非線性數據的特點,但有些算法仍在探索之中,其結果有時不易得到臨床的普遍認可與采納。針對具有模糊性、隱匿性、多維多階的復雜的中醫證候數據,應根據研究目的綜合考慮各種方法的優缺點和各自的技術優勢,取長補短、聯合使用,發揮其在中醫證候研究中的作用。
[1] 呂愛平,姜淼,丁曉蓉.基于疾病中醫證候分類的中醫臨床療效評價研究思路[J].中醫雜志,2009,50(11):968-969.
[2] 王永炎.完善中醫辨證方法體系的建議[J].中醫雜志,2004,45(10):729-731.
[3] 查青林,林色奇,呂愛平,等.多元統計分析在中醫證候研究中的應用探析[J].江西中醫學院學報,2004,16(6):79-80.
[4] 王階,何慶勇.基于聚類分析和對應分析的穩定型心絞痛證候要素組合規律的研究[J].中西醫結合學報,2008,6(7):690-694.
[5] 曹洪欣,劉寨華,張華敏,等.基于聚類分析的病毒性心肌炎證候分類及證候特征研究[J].中醫雜志,2007,48(7):629-632.
[6] 鄒演梅,張天奉.基于特征加權的冠心病心絞痛證候聚類研究[J].遼寧中醫學院學報,2011(4):149-151.
[7] 邢雁偉,王階,衷敬柏,等.采用聚類分析和對應相關方法研究1069例冠心病心絞痛證候應證組合規律[J].中華中醫藥雜志,2007,22(11):747-750.
[8] 張月,張培彤,趙冰,等.基于聚類分析的肺癌中醫證候分類及診斷的研究[J].北京中醫藥大學學報,2009,32(2):132-135.
[9] 張連文,周雪忠,陳瞍,等.論證候研究中變量聚類結果的詮釋[J].中國中醫藥信息雜志,2007,14(7):102-103.
[10] 孫振球,徐勇勇.醫學統計學[M].北京:人民衛生出版社,2002:26.
[11] 王萬卷,丁霞,文智英,等.反流性食管炎的中醫證候分類研究[J]. 中華中醫藥雜志,2011,26(7):1515-1518.
[12] 李先濤,賴世隆,梁偉雄,等.建立急性缺血性中風氣虛血瘀證診斷標準的方法學探討[J].廣州中醫藥大學學報,2000,17(3):218-221.
[13] 李宗信,黃小波,陳文強,等.慢性疲勞綜合征中醫證候主成分的相關分析[J].中國中醫藥信息雜志,2007,14(1):26-27.
[14] 王雪華,夏春明,顏建軍,等.中醫證候分類中常用多元統計分析方法及應用評析[J].世界科學技術·中醫藥現代化,2008,10(3):15-20.
[15] 王階,邢雁偉,陳建新,等.1069例冠心病心絞痛證候因子分析方法的分類研究[J].北京中醫藥大學學報,2008,31(5):344-346.
[16] 申春悌,陸巖,陳炳為,等.高血壓病中醫證候要素提取和命名的方法學研究[J].南京中醫藥大學學報,2010,26(5):335-338.
[17] 李毅,張小萍.消化性潰瘍中醫證候的因子分析[J].時珍國醫國藥,2010,21(12):3379-3380.
[18] 孫尚拱.醫學多變量統計與統計軟件[M].北京:北京醫科大學出版社,2000.
[19] 郭嬌.高血壓病中醫證候流行病學特征及證候統計模型研究[D].廣州:廣州中醫藥大學,2009.
[20] 陳澤奇,胡隨瑜,張海男,等.抑郁癥常見中醫證候標準的研究[J].中醫雜志,2005,46(01):47-49.
[21] 杜彩鳳,王天芳,辛意,等.絕經后期更年期綜合征常見證候要素的Logistic回歸分析[J].北京中醫藥大學學報,2009,32(4):238-243.
[22] 張學工.關于統計學習理論與支持向量機[J].自動化學報,2000,26(1):32.
[23] 王階,吳榮,周雪忠,等.基于支持向量機的名老中醫治療冠心病證候要素研究[J].北京中醫藥大學學報,2008,31(8):540-543,560.
[24] 許朝霞,王憶勤,顏建軍,等.基于支持向量機和人工神經網絡的心血管疾病中醫證候分類識別研究[J].北京中醫藥大學學報,2011,34(8):539-543.
[25] 楊小波,梁兆暉,羅云堅,等.支持向量機算法在中醫證候信息分類中的應用[J].世界科學技術-中醫藥現代化,2007,9(1):28-31.
[26] 龔燕冰,倪青,王永炎.中醫證候研究的現代方法學述評(一)中醫證候數據挖掘技術[J].北京中醫藥大學學報,2006,29(12):797-801.
[27] 龔燕冰,倪青,高思華,等.2型糖尿病不同并發癥中醫證候與血糖相關性的貝葉斯網絡分析[J].北京中醫藥大學學報,2009,32(12):815-818.
[28] 吳榮,聶曉燕,王階,等.基于貝葉斯網絡的名老中醫治療冠心病辨證規律研究[J].中國中醫藥信息雜志,2010,17(5):98-99.
[29] 唐啟盛,曲淼,包祖曉,等.抑郁癥中醫證候的貝葉斯網絡研究[J].中醫雜志,2008,49(11):1013-1015.
[30] 朱文鋒,晏峻峰,黃碧群.貝葉斯網絡在中醫證素辨證體系中的應用[J].中西醫結合學報,2006,4(6):567-571.
[31] 倪青,陳世波,周雪忠,等.基于無尺度網絡分析的2型糖尿病代謝綜合征方-藥-證關系[J].中國中醫藥信息雜志,2006,13(11):19-22.
[32] 石潔,胡元會,周雪忠,等.高血壓病中醫方-藥-證關系的無尺度網絡分析[C].第一屆全國中西醫結合心血管病中青年醫師論壇論文集,2008:287-290.
[33] 李志更,王天芳,任婕,等.中醫科研中幾種常用數據挖掘方法淺析[J].中醫藥學報,2008,36(2):29-32.
[34] 王階,邢雁偉,陳建新,等.復雜系統熵聚堆方法對1069例冠心病心絞痛證候要素提取和應證組合規律研究[J].中國中醫基礎醫學雜志,2008,138(03):211-213.
[35] 王天芳,李志更,吳秀艷,等.基于信息熵關聯度系數法的慢性腎功能衰竭中醫癥狀組合的探索[J].北京中醫藥大學學報,2010,33(7):493-495,499.
[36] 張連文,袁世宏.隱結構模型與中醫辨證研究(I)-基本思想以及隱結構分析工具[J].北京中醫藥大學學報,2006,29(6):365-369.
[37] 許朝霞,劉騰飛,王憶勤,等.基于隱結構模型分析的心血管疾病中醫問診證候分類研究[J].中國中醫藥信息雜志,2012,19(3):9-13.
[38] 杜彩鳳,王天芳,辛意,等.基于隱結構法的更年期綜合征常見證候要素的研究[J].北京中醫藥大學學報,2010,33(12):856-860.
[39] 徐雯潔,王天芳,王智瑜,等.基于隱結構法的慢性阻塞性肺疾病穩定期常見證候要素的研究[J].北京中醫藥大學學報,2011,34(2):82-86.