黃 粵,張 華,高 穎,鐘海珍
(1.首都醫科大學附屬北京朝陽醫院中醫科,北京 100020;2.北京中醫藥大學東直門醫院神經內科,北京 100700)
中醫證候是一個非線性的復雜巨系統[1]。數據挖掘是從大量數據中抽取有效的、新穎的、潛在有用的以及最終可被理解的模式的“非平凡過程”[2]。本研究利用數據挖掘技術的優勢,使用廣義規則歸納(Generalized Rule Induction,GRI)探討缺血性中風急性期中醫證候與牛津郡社區卒中研究分型(Oxfordshire Community Stroke Project,OCSP)的相關性。
證候判斷與OCSP分型分屬中醫和西醫兩個不同醫學系統,卻存在相似之處:中醫通過望聞問切四診,從不同角度收集臨床資料以辨別證候,其辨證結果難以借助于現代儀器檢測而獲得。作為證候診斷的重要工具,本研究使用的《缺血性中風證候要素診斷量表》是973計劃“缺血性中風病證結合的診斷標準與療效評價體系研究”課題組嚴格遵循量表編制和驗證程序,并針對《中風病辨證診斷標準》自1994年公布至今15年的臨床應用中反饋問題所研制出的新一代量表。
中醫辨證與OCSP分型均建立在對患者癥狀和體征的綜合評價之上,而不依賴于輔助檢查的結果,兩者的相似之處為尋找中醫和西醫對疾病分類的鏈接提供了可能。中醫學認為,中風病的病位在腦,OCSP分型對梗死灶部位的提示有利于進一步確定具體病變部位??梢?,發現中風病證候與OCSP分型的密切關聯,從而在不依賴輔助檢查的情況下建立證候與腦梗死大體病位之間的聯系,能夠在一定程度上反映疾病本質,有助于指導臨床治療和評估預后。
1.1.1 診斷標準 疾病診斷采用1995年中華醫學會第四次全國腦血管病學術會議通過的《各類腦血管疾病診斷要點》中的腦梗塞診斷標準和1996年國家中醫藥管理局腦病急癥協作組頒布的《中風病診斷與療效評定標準(試行)》的中風病病名診斷標準,及1991年John Bamford提出的牛津郡社區卒中研究分型(OCSP)。
證候診斷采用2008年973計劃“缺血性中風病證結合的診斷標準與療效評價體系研究”課題組制定的《缺血性中風證候要素診斷量表》。
1.1.2 納入標準 ①符合缺血性中風診斷;②經頭顱CT或頭顱MRI確診為腦梗塞;③發病在72h以內。
1.1.3 排除標準 ①短暫性腦缺血發作;②腦出血或蛛網膜下腔出血;③因血液病、腫瘤等原因所致的腦卒中;④合并有肝、腎、造血系統、內分泌系統等嚴重疾病及骨關節病;⑤精神障礙或嚴重癡呆;⑥發病超過72h;⑦有明顯的中風后遺癥。
本研究的數據來源于國家重點基礎研究發展計劃(973計劃)課題“缺血性中風病證結合的診斷標準與療效評價體系研究”(2003CB517102)。所有病例均為2005年3月至2007年6月北京中醫藥大學東直門醫院、北京中醫藥大學東方醫院、天津中醫藥大學第一附屬醫院、天津中醫藥大學第二附屬醫院、首都醫科大學附屬宣武醫院、廣州中醫藥大學第二附屬醫院的住院患者,共收集846例符合納入標準的缺血性中風急性期患者,其中男性557例,女性289例;年齡最小34歲,最大85歲,平均64.82±10.83歲。
1.3.1 數據采集方法 按照國家重點基礎研究發展計劃(973計劃)“缺血性中風病證結合的診斷標準與療效評價體系研究”課題組的科研設計方案,制定統一的標準和調查表。由各研究中心專門的神經內科醫師負責采集缺血性中風患者的臨床信息,其中包括:入組當天至發病第14天連續采集中醫四診信息、第28天和第90天隨訪;全面收集入院時神經系統檢查、影像學檢查(頭顱CT或MRI);多時點使用美國國立衛生研究院卒中量表(National Institutes of Health Stroke Scale,NIHSS)進行神經功能評分,使用格拉斯哥昏迷評分(Glasgow)進行意識評分。按統一要求填寫調查表,最后經過雙人雙機錄入將全部資料輸入電子計算機。
藝術家的“文化人”身份首先意味著藝術家是了解和掌握了哲學、宗教、科學、技術、文學、社會心理、民間風俗相關知識和信息的人。哲學、宗教、文學和民俗風情等啟迪藝術家的創作;藝術創作中又體現著哲學、宗教、文學和民俗風情。
1.3.2 數據預處理 經過嚴格的質量控制和數據清洗,共獲得研究病例846例11082例次。從中提取患者一般資料變量85個,合并后中醫四診信息變量196個,入院時神經系統檢查變量155個和影像學檢查變量12個。進一步按如下步驟處理:①通過計算機程序,以中醫四診信息數據為依據,采用《缺血性中風證候要素診斷量表》判斷內風、內火、痰濕、血瘀、氣虛、陰虛證候要素成立與否,獲得證候要素變量6個。②根據患者入院時神經系統檢查,參考影像學檢查(頭顱CT或MRI),判斷OCSP分型,獲得OCSP分型變量1個。846例病例中TACI 16例,PACI 520例,POCI 126例,LACI 184例。將以上數據庫鎖定為本研究所用數據庫。
1.3.3 研究數據提取 根據研究目標及數據分析方法,從鎖定數據庫中提取846例病例發病第3天至第14天共12個時間點,共計10152例次的臨床數據。
1.3.4 數據分析方法 使用SPSS 13.0軟件和clementine 12.0軟件,運用廣義規則歸納(GRI)的數據挖掘方法進行分析。在此基礎上,結合專業知識得出結果并進行討論。
關聯規則(Association Rule)挖掘,指從大量的數據中挖掘出有價值的描述數據項之間聯系的有關知識,同時滿足最小支持度閾值(min_sup)和最小可信度閾值(min_conf)的規則稱之為關聯規則。支持度(Support)是對關聯規則重要性的衡量,可信度(Confidence)是對關聯規則準確度的衡量,兩者的值越高越有意義。作用度(Lift)是可信度與期望可信度的比值,作用度越大,規則的實際意義就越好。常用的關聯規則挖掘方法包括Apriori算法、GRI和Sequence等。
廣義規則歸納(GRI),指從數據中提取1組規則,找出信息容量最高的規則。與目前常用的關聯規則算法Apriori算法對比,其優勢體現在Apriori只能處理字符型輸入字段,GRI既能處理字符型輸入字段又能處理數值型輸入字段。本研究不僅涉及中醫證候與OCSP分型的相關性,且欲同時將連續型變量“發病天數”作為輸入字段納入研究,故選用GRI更為適合。
關聯規則具有容易忽略稀有數據的缺點,為避免漏掉一些有意義的規則,本研究將最小的條件支持度(Minimum Antecedent Support)設置為0.5%,即將出現頻次達50例次以上的關聯規則納入研究范圍,最小的可信度(Minimum Rule Confidence)設置為60%。將“發病天數”作為輸入變量,6個證候要素和OCSP分型既作為輸入變量,又作為輸出變量。
并非所有的強關聯規則都有意義,關聯規則中可能包含隨機性或負向關聯性,故將GRI的建模結果,結合專業知識進行取舍,選擇支持度、可信度、作用度相對較高且符合中醫傳統理論的內容,得出包含證候要素和OCSP分型的關聯規則共9條,見表1。
第1條規則:TACI患者出現痰濕的情況下,同時出現內風的可能性較大,作用度達到2.671,提示內風與TACI和痰濕關系較密切。證是對致病因素與機體反應性兩方面情況的綜合,風屬陽邪,最易躥擾于上,且具致病迅疾之特點,與TACI導致大面積腦梗死起病急驟相吻合;風乃無形,其性輕揚,善動不居,如《素問·陰陽應象大論》:“風勝則動”,《素問·六元正紀大論》:“風勝乃搖”,體現了 TACI患者病情危重易于波動的臨床實際。風陽內動,易挾痰走竄經絡,上擾清竅,壅阻腦脈,遂致中風。

表1 GRI建模結果
第2條規則:TACI患者在痰濕和陰虛共存的狀態下,同時出現內火的可信度高達98.21%,與第1條規則比較,體現了陰虛和內火的緊密聯系,火乃陽邪,其性熾熱,為病最易灼傷津液陰血,而陰虛不能制陽,陽氣偏旺遂產生內火。
第3條規則:內風內火兼具的TACI患者,大多同時出現陰虛,作用度高達2.574,提示陰虛風動、陰虛火旺的實際意義,體現中風病患者本虛標實、上盛下虛的病性。
第4條規則:在 GRI的9條關聯規則中,Consequent為OCSP分型的僅有第4條,即“氣虛and痰濕”作為前提時,得出結果為“OCSP =PACI”的關聯規則,具有重要臨床意義,提示可以依據中醫證候對OCSP分型做出初步判斷。
第5條規則:存在痰濕的PACI患者,發病天數<7.5時,往往同時出現內火,體現了火性的疾速。
第6條規則:PACI患者在氣虛時伴血瘀的情況較為常見,支持度為27.31%,提示氣虛運血無力、血行不暢而瘀滯腦脈。
第7條規則:與第1條規則比較,第7條規則顯示POCI患者存在痰濕的情況下,更易同時出現內火,可信度為78.64%,火熱病邪具有亢烈的致病特征,如《素問玄機原病式·熱》說:“暴病暴死,火性疾速故也”,體現了POCI患者病情危重、進展迅速的情況,痰火易相互為患,如朱丹溪主張“濕痰生熱”,《重訂廣溫熱論》曰:“伏火薰蒸津液,液郁為痰”。
第8條規則:比第7條多一前提“發病天數<7.5”,則出現內火的可信度提高至80.97%,提示其意義與第5條規則類似,即火邪致病迅疾,與時間因素相關。
第9條規則:與第6條PACI患者在氣虛時常伴血瘀的規則不同。第9條規則提示LACI患者在陰虛時更易同時出現血瘀,可信度為83.3%,陰虛不潤,經脈不榮,血不暢行,此即陰虛血瘀。兩條規則共同提示了因虛致瘀的可能性,及在OCSP分型四者中,LACI和PACI因病情相對較輕,易表現出血瘀這類反映中風病疾病本質的證候要素,而內風內火等體現病勢急緩和病情輕重的證候要素退居相對次要地位。
GRI得出語句包含證候要素和OCSP分型的關聯規則共9條,在一定程度上提示了依據中醫證候對OCSP分型做出初步判斷的可能性,并有2條規則體現出證候、OCSP分型與發病天數的相關性。
概而言之,GRI是尋找 OCSP分型、證候要素、發病天數之間的關聯規則。這種數據挖掘方法體現了證候“動態時空”、“多維界面”的特征?!皠討B時空”是指證候的發展變化而言,時間在推移,狀態在變化,證候就有可能發生由此發展為彼的改變[1]。GRI可將連續型變量“發病天數”納入研究,提示證候、OCSP分型與發病天數的相關性,體現了證候的動態時空性?!岸嗑S界面”指通過不同的時間、角度、方法進行觀察時,證候系統常呈現給觀察者以不同的界面[1]。本研究通過多時點,從 OCSP分型、發病天數等不同維度,運用 GRI的數據挖掘方法,使證候從不同角度呈現多樣的界面,體現其多維的特征。
由上可見,GRI的關聯規則挖掘因其與中醫理論有內在的切合性,能夠在一定程度上反映證候的本質特征,故在證候與OCSP分型的相關性研究中已凸顯優勢,對于臨床醫師在不依賴輔助檢查的情況下建立證候與疾病之間的聯系,根據中風病患者的中醫證候把握疾病發展規律、預測病情提供了數據支持,其在中醫證候領域的應用值得進一步推廣和深入研究。
[1]郭 蕾,王永炎,張志斌.關于證候概念的詮釋[J].北京中醫藥大學學報,2003,26(2):5-8.
[2]Jiawei Han,Micheline Kamber.數據挖掘概念與技術[M].北京:機械工業出版社,2001.
[3]施詠梅.急性腦梗死OCSP分型與影像學分型及病因學分型之間關系的研究[J].中國全科醫學,2005,8(9):724-726.
[4]Wlodek A,Sarzynska-Dlugosz I,Sandercock PA,et al.Agreement between the clinicalOxfordshire Community Stroke Project classification and CT findings in Poland[J].Eur J Neurol,2004,11(2):91-96.