傅 斌,王曉維,楊偉吉,羅 杰
1浙江中醫(yī)藥大學(xué),杭州 310053;2杭州方回春堂國醫(yī)館,杭州 310000
基于Apriori算法的中藥復(fù)方配伍規(guī)律的數(shù)據(jù)挖掘研究
傅 斌1,王曉維2,楊偉吉1,羅 杰1
1浙江中醫(yī)藥大學(xué),杭州 310053;2杭州方回春堂國醫(yī)館,杭州 310000
關(guān)于中藥復(fù)方配伍規(guī)律認識在古今文獻中有或多或少的記載,但以往文獻多是作者的經(jīng)驗表述,而不是研究成果。以文獻研究和理論研究為基礎(chǔ),結(jié)合新興學(xué)科—數(shù)據(jù)挖掘技術(shù),主要運用關(guān)聯(lián)規(guī)則方法分析,開展配伍規(guī)律研究,既能為中醫(yī)新藥的臨床和實驗研究提供目標和思路,減少盲目性,縮短研究周期;同時又為大量古今驗方研究探索出一條有價值的研究途徑和方法。
Apriori算法;中藥復(fù)方;配伍規(guī)律
中華民族五千年的文化底蘊是中醫(yī)藥發(fā)生、發(fā)展的基礎(chǔ)。中醫(yī)藥領(lǐng)域的無數(shù)臨床實踐與理論研究積累了大量的科學(xué)知識,這些知識包含在中醫(yī)藥古籍文獻以及當(dāng)前的研究文獻中。中藥復(fù)方組成是在中醫(yī)藥理論指導(dǎo)下經(jīng)長期臨床實踐而總結(jié)出來的。一個好的中藥復(fù)方,絕不是簡單的藥物堆砌,它不僅包含著中醫(yī)學(xué)獨特的醫(yī)理和思辨,其藥物的選擇還蘊涵著一定的配伍規(guī)律[1]。
中醫(yī)藥學(xué)有其自身的思維模式,具有系統(tǒng)性、整體性、復(fù)雜性、不確定性等特點,不適宜運用傳統(tǒng)的還原論的方法研究。而數(shù)據(jù)挖掘是一門交叉學(xué)科,它匯聚了數(shù)據(jù)庫、人工智能、統(tǒng)計學(xué)、可視化、并行計算等不同學(xué)科和領(lǐng)域,能從大量的、不完全、有噪聲、模糊、隨機的數(shù)據(jù)中提取蘊含其中的、事先不得知但又潛在有用的信息和知識的過程[2]。它是在數(shù)據(jù)中正規(guī)地發(fā)現(xiàn)有效的、新穎的、潛在有用的,并且最終可以被讀懂的模式的過程。數(shù)據(jù)挖掘可以從海量的數(shù)據(jù)中尋找潛在的規(guī)律,完成普通人不能完成的任務(wù)。因此,利用數(shù)據(jù)挖掘進行中藥復(fù)方配伍規(guī)律的研究是一個有著非常美好前景但又充滿挑戰(zhàn)的研究方向。
從國家資助的相關(guān)研究來看,代表性的有2010年國家自然基金資助數(shù)據(jù)挖掘研究項目共66項。其中,資助西醫(yī)類一項:基于多模式序列超聲圖像識別系統(tǒng)診斷乳腺癌的方法學(xué)研究(哈爾濱醫(yī)科大學(xué));資助中醫(yī)類四項:應(yīng)用數(shù)據(jù)挖掘技術(shù)研究中醫(yī)藥治療再生障礙性貧血的組方規(guī)律(中國人民解放軍第210醫(yī)院);基于智能計算的中醫(yī)方劑基礎(chǔ)治法模型的構(gòu)建(北京中醫(yī)藥大學(xué));基于數(shù)據(jù)挖掘的針灸法效應(yīng)特異性基本規(guī)律及特點的研究(河北醫(yī)科大學(xué));中藥新藥有效核心處方發(fā)現(xiàn)的隨機對照盲法設(shè)計方法研究(中國中醫(yī)科學(xué)院中醫(yī)臨床基礎(chǔ)醫(yī)學(xué)研究所)。如何面對方劑理論體系的復(fù)雜性,尤其是海量的信息特點,以及方劑的效應(yīng)評價多靶點的特征,使得數(shù)據(jù)挖掘在方劑研究領(lǐng)域中越來越顯重要,也是國家自然基金重點資助的課題。提高挖掘技術(shù)針對性和適用性,對集成方劑文獻信息、評價方劑效應(yīng)以及中醫(yī)藥知識發(fā)現(xiàn)具有重要作用。
1.2.1 相關(guān)性分組或關(guān)聯(lián)規(guī)則挖掘 相關(guān)性分組或關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中的一個非常重要的研究領(lǐng)域,它通過幾組特定的搜索算法,發(fā)現(xiàn)大量數(shù)據(jù)之間的關(guān)聯(lián)或相關(guān)性。例如:在中藥領(lǐng)域采用基于關(guān)聯(lián)規(guī)則的算法,分析挖掘“癥狀—方藥”之間、“基本癥狀—證型”之間、“證型—方藥”之間以及中藥配伍之間的多重關(guān)聯(lián)關(guān)系,總結(jié)歸納名老中醫(yī)的辨證規(guī)律并模擬其診斷推理過程,還可以發(fā)現(xiàn)客觀有用的新知識以豐富專家經(jīng)驗和中醫(yī)理論。
1.2.2 決策樹 決策樹是用二叉樹形圖來表示處理邏輯的一種工具。可以直觀、清晰地表達加工的邏輯要求。數(shù)據(jù)挖掘中決策樹是一種經(jīng)常要用到的技術(shù),可以用于分析數(shù)據(jù),同樣也可以用來作預(yù)測。首先,通過名老中醫(yī)的臨證醫(yī)案實錄建立一棵決策樹;然后,利用建好的決策樹,建立一個模型;最后,對數(shù)據(jù)進行預(yù)測。決策樹的建立過程可以看成是數(shù)據(jù)模型的生成過程,因此在繼承名老中醫(yī)經(jīng)驗的基礎(chǔ)上,可根據(jù)決策樹的結(jié)果,參照后續(xù)病人的病兆、病癥、病理進行醫(yī)治。
1.2.3 人工神經(jīng)網(wǎng)絡(luò)技術(shù) 在數(shù)據(jù)挖掘技術(shù)中,人工神經(jīng)網(wǎng)絡(luò)是近年來頗受關(guān)注的一種技術(shù)。由于其本身良好的魯棒性、自組織適應(yīng)性、并行處理、分布存儲和高度容錯等特性,為解決復(fù)雜的問題提供了一種相對簡單且有效的方法。例如:李建生[3]等提出了用于中醫(yī)證候診斷的徑向基神經(jīng)網(wǎng)絡(luò),利用聚類分析確定RB神經(jīng)網(wǎng)絡(luò)隱層的參數(shù),運用最小二乘確定RBF神經(jīng)網(wǎng)絡(luò)輸出層的參數(shù),進行中醫(yī)中藥研究。
1.2.4 聚類分析技術(shù) 聚類是數(shù)據(jù)挖掘的前期工作之一,通過對有關(guān)數(shù)據(jù)的不同角度分類,為進一步分析提供證據(jù)。聚類是根據(jù)客體屬性對一系列未分類客體進行類別的識別,把一組個體按照相似性歸并成若干類別,即“物以類聚”。通過確定數(shù)據(jù)之間在預(yù)先制定的屬性上的相似性來完成聚類任務(wù),這樣最相似的數(shù)據(jù)就聚集成簇。例如:高峰[4]等用聚類分析技術(shù)研究腎陽虛證辨證因子客觀化、標準化的方法和思路,對出現(xiàn)率較高的癥狀進行聚類分析,尋找對腎陽虛證候診斷的貢獻度。
用數(shù)據(jù)挖掘技術(shù)對中醫(yī)復(fù)方配伍數(shù)據(jù)的智能分析剛剛起步:尚爾鑫的基于改進關(guān)聯(lián)規(guī)則算法的中藥對藥味間性味歸經(jīng)功效屬性關(guān)系的發(fā)現(xiàn)研究[5],主要采用標準關(guān)聯(lián)規(guī)則發(fā)現(xiàn)Apriori算法[6]以及改進多數(shù)據(jù)庫計算方法,對從歷代藥對文獻中收集整理得到的625個,藥對347味藥中包括性味、歸經(jīng)、功效等共49個屬性形成的數(shù)據(jù)庫進行挖掘研究,并對兩種方法得到的結(jié)果進行比較。
基于Apriori算法的中藥復(fù)方配伍規(guī)律的研究,其研究成果將在以下幾個方面存在明顯優(yōu)勢:對深入開展中藥復(fù)方配伍規(guī)律的客觀化和規(guī)范化研究打下良好基礎(chǔ);探討利用現(xiàn)代科技手段對名老中醫(yī)經(jīng)驗和學(xué)術(shù)思想研究、總結(jié)的新模式、新方法;得出方劑配伍的規(guī)律和單味藥或藥對的頻繁項集,為中醫(yī)新藥的臨床和實驗研究提供目標和思路,減少盲目性,縮短研究周期;同時又為大量古今驗方研究探索出一條有價值的研究途徑和方法。
數(shù)據(jù)來源:在《中醫(yī)方劑大辭典》、《中醫(yī)方劑數(shù)據(jù)庫》以及古今文獻中收集的方劑基礎(chǔ)上,構(gòu)建中藥復(fù)方數(shù)據(jù)庫和分層聚類與關(guān)聯(lián)的檢索形式。
標準化:中藥分類、藥性等內(nèi)容參照“新世紀教材《中藥學(xué)》”(高學(xué)敏主編,中國中醫(yī)藥出版社,2002年9月第1版)、“中醫(yī)藥高級叢書《中藥學(xué)》”(高學(xué)敏主編,人民衛(wèi)生出版社,2000年11月第1版)、《中藥大辭典》(趙國平主編,上海科學(xué)技術(shù)出版社,2006年第2版)、《現(xiàn)代臨床中藥學(xué)》(張民慶等主編,上海中醫(yī)藥大學(xué)出版社,2002年1月第1版)、《中華本草》(國家中醫(yī)藥管理局《中華本草》編委會主編,上海科學(xué)技術(shù)出版社,1999年9月第1版)等。
方法:以VC6.0為開發(fā)工具,Windows XP為操作系統(tǒng),SQL 2000為數(shù)據(jù)庫服務(wù)器環(huán)境,開發(fā)關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘平臺。
復(fù)方中藥數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)分為兩個部分。第一部分是數(shù)據(jù)的錄入、查詢、刪除部分,該部分為挖掘系統(tǒng)提供原始數(shù)據(jù);第二部分是該系統(tǒng)的核心部分,將第一部分的基礎(chǔ)數(shù)據(jù)經(jīng)過清洗、轉(zhuǎn)換、抽取、匯總,裝載到數(shù)據(jù)集市,然后以數(shù)據(jù)集市為基礎(chǔ),以數(shù)據(jù)挖掘技術(shù)為核心,進行基于功效的方劑高頻用藥的知識發(fā)現(xiàn)和比較,得出方劑配伍的規(guī)律和單味藥或藥對的頻繁項集,發(fā)現(xiàn)中藥單方之間的配伍規(guī)律,為中藥新藥開發(fā)提供決策信息,如圖1所示。

圖1 基于Apriori算法的中藥復(fù)方高頻項集體系結(jié)構(gòu)
Apriori算法中發(fā)現(xiàn)頻繁集的基本步驟如下:第一步,找到所有一階頻繁集:L1;
第二步,假設(shè)k為當(dāng)前迭代次數(shù),Lk-1為上一次迭代產(chǎn)生的頻繁集,循環(huán)迭代以下步驟直到Lk-1為空;
第三步,從Lk-1中得出包含Lk的候選集Ck,具體為:對Lk-1中所有前k-2個項目相同的項目集作連接操作,即Lk-1∞Lk-1={A∞B|A,B∈Lk-1,| A∩B|=k-2},再根據(jù)Apriori屬性從該集合中刪除其子集在Lk-1未出現(xiàn)的k階項目集,得到Ck;
第四步,從Ck中刪去支持度小于最小支持度的頻繁集,得到Lk,回到步驟二;
第五步,集合LS=L1∪L2∪…∪Ln為所有頻繁集的集合。
Apriori算法的示意如圖2所示。
采用Apriori高頻集算法,對數(shù)據(jù)庫當(dāng)中的方劑分別進行基于功效的方劑高頻用藥的知識發(fā)現(xiàn)和比較,得出方劑配伍的規(guī)律和單味藥或藥對的頻繁項集,技術(shù)路線流程圖(如圖3所示)。

圖2 Apriori核心算法示意圖

圖3 技術(shù)路線流程圖
復(fù)方中藥數(shù)據(jù)挖掘系統(tǒng)(如圖4所示)。

圖4 復(fù)方中藥數(shù)據(jù)挖掘系統(tǒng)界面
系統(tǒng)的開發(fā)實現(xiàn)和相關(guān)的核心代碼:


完全符合型:典型的藥對能夠得到中醫(yī)方藥合理解釋的,如(白術(shù),茯苓)→茯苓湯。驗證了古今文獻中作者的經(jīng)驗表述的記載,實現(xiàn)對脾胃病中藥復(fù)方配伍規(guī)律的客觀化和規(guī)范化研究;探討利用現(xiàn)代科技手段對名老中醫(yī)經(jīng)驗和學(xué)術(shù)思想研究、總結(jié)的新模式、新方法。
模棱兩可型:不能或較難用中醫(yī)方藥理論進行合理解釋,在臨床上也未作為藥對看待的組合,如(茯苓,木香)。這個是我們分析以后重點研究的。雖然這些藥物組合在臨床上不是以藥對配伍的形式來使用,但其關(guān)聯(lián)性是客觀存在的,如何利用這些相互關(guān)聯(lián)的藥物,為中醫(yī)新藥的臨床和實驗研究提供目標和思路,減少盲目性,縮短研究周期。
明顯不是型:雖然關(guān)聯(lián)性很強,但明顯不是藥對,如(人參,甘草)。因為按照中醫(yī)用藥理論,甘草和生姜等通常做輔藥,所以使用得比較普遍,但不應(yīng)該成為藥對、藥組的成分。因為藥對、藥組中的幾味藥是相互協(xié)同、相互促進,產(chǎn)生特殊的功效治療病癥。因此在做數(shù)據(jù)挖掘時要對這種明顯不是藥對的數(shù)據(jù)做二次篩選。
Apriori算法固有的缺陷還是無法克服:
當(dāng)長度為1的頻集有10 000個的時候,長度為2的候選集個數(shù)將會超過10 M。還有就是如果要生成一個很長的規(guī)則的時候,要產(chǎn)生的中間元素也是巨大量的。
由于頻集使用了參數(shù)minsup,所以就無法對小于minsup的事件進行分析;而如果將minsup設(shè)成一個很低的值,那么算法的效率就成了一個很難處理的問題。
在Apriori算法的基礎(chǔ)上,如果能改進計算方法,采用分步計算,減少大量候選集,則非常適用于藥對、藥組間關(guān)聯(lián)規(guī)則的發(fā)現(xiàn),也可用于不同方劑間關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)。
然而,關(guān)于中藥復(fù)方配伍規(guī)律認識在古今文獻中有或多或少的記載,但是以往文獻多是作者的經(jīng)驗表述,而不是研究成果。因此,以文獻研究和理論研究為基礎(chǔ),結(jié)合新興學(xué)科—數(shù)據(jù)挖掘技術(shù),主要運用關(guān)聯(lián)規(guī)則方法分析,開展配伍規(guī)律研究,既能為中醫(yī)新藥的臨床和實驗研究提供目標和思路,減少盲目性,縮短研究周期;同時又為大量古今驗方研究探索出一條有價值的研究途徑和方法。
[1]周忠眉.數(shù)據(jù)挖掘在方劑配伍規(guī)律研究應(yīng)用的探討[J].漳州師范學(xué)院學(xué)報,2003,16(4):1-3
[2]胡侃,夏紹瑋.基于大型數(shù)據(jù)倉庫的數(shù)據(jù)采掘[J].軟件學(xué)報,1998,9(1):43-45
[3]李建生,胡金亮,余學(xué)慶.基于聚類分析的徑向基神經(jīng)網(wǎng)絡(luò)用于證候診斷的研究[J].中國中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志,2005,11(9):50-53
[4]高峰,陸明,嚴石林,等.腎陽虛辨證因子的聚類分析探討[J].現(xiàn)代中西醫(yī)結(jié)合雜志,2006,15(15):2007
[5]尚爾鑫.基于改進關(guān)聯(lián)規(guī)則算法的中藥藥對藥味間性味歸經(jīng)功效屬性關(guān)系的發(fā)現(xiàn)研究[J].世界科學(xué)技術(shù)(中醫(yī)藥現(xiàn)代化),2010,12(3):377-381
[6]Agrawal R,Srikant R.Fast algorithms for mining associationrule[A].Proceeding soft the Twentieth International Conference on VeryLarge DataBase(VLDB.94)[C].Santiago,Chile:MorganKaufmann,1994:487-499
Apriori-based data m ining of compatibility regularity of Chinese traditionalmedicine
Fu Bin1,Wang Xiaowei2,Yang Weiji1,Luo Jie11Zhejiang Chinese Medical University,Hangzhou 310053;2Hangzhou Fang Hui Chun Tang,Hangzhou 310000
The compatibility regularity of Chinese traditionalmedicine has been documented in ancient literature,but previous literature is more of authors'experience accounts rather than research results.Based on literature-based research and theoretical study combined with datamining technology,a newly emerging discipline,we studied compatible regularity of Chinese traditional medicine with association rules analysismethod.Itwill provide target and thoughts for clinical and experimental studies of new traditional Chinesemedicine,reduce blindness,and shorten research cycle.At the same time,it will explore a valuable research approaches and methods for research on a large number of ancient and modern prescriptions.
apriori;traditional Chinesemedicine compound;regularity of compatibility
G40-057
:A
:1004-5287(2012)04-0434-04
2012年浙江省中醫(yī)藥科學(xué)研究基金計劃“基于Apriori算法的脾胃類中藥復(fù)方配伍規(guī)律的研究”(2012ZB026);浙江中醫(yī)藥大學(xué)校級科研基金項目“基于Apriori算法的復(fù)方中藥頻繁項集的發(fā)現(xiàn)研究”(2010ZY23)
2012-03-13
傅斌(1983-),男,浙江紹興人,軟件工程碩士,助理研究員,主要研究方向:數(shù)據(jù)挖掘。