梁 非,田景平,蔡 峰,鄭 光,4,郭洪濤,展俊平,6,張 弛,呂 誠,姜 淼,呂愛平※,喻長遠△
(1.北京化工大學,北京 100029;2.中國中醫科學院中醫臨床基礎醫學研究所,北京 100700;3.廣州中醫藥大學研究生院,廣州 510006;4.蘭州大學信息學院,蘭州 730000;5.河南中醫學院第一附屬醫院,鄭州 450000;6.上海中醫藥大學,上海 201203)
人參是我國傳統的名貴藥材,為多年生草本,是五加科人參屬植物人參的根,其性溫、味甘、微苦,有大補元氣、固脫、生津、安神之功效。人參富含人參皂苷、揮發油、脂肪酸、酚酸、黃酮類等化學成分。現代藥理學研究表明[1],人參具有調節中樞神經系統的生理功能、增強機體免疫功能、抗心律失常、延緩衰老等作用。人參對于治療心血管疾病、糖尿病、腫瘤、神經衰弱、腎病綜合征等疾病均有較好的療效,在臨床廣為應用。
近年來,我國就人參的化學成分、藥理機制及臨床應用等方面進行了廣泛的研究,所報道的相關文獻大量存在于現有數據庫中。本文借助課題組不斷成熟的文本挖掘技術[2,3],結合原文獻回溯、人工閱讀分析等方法,對現有人參中文文獻進行挖掘,以分析人參相關病證方藥相應規律。
方法概述如下:在中國生物醫學文獻數據庫(Chinese BioMedicalLiterature Database,CBM,http://sinomed.cintcm.ac.cn/index.jsp)中,“缺省(智能)”狀態下以“人參”為檢索詞進行檢索,共得到文獻22854篇(檢索日期:2012年7月3日),下載后作為文本數據挖掘的原始數據。
將收集來的數據按照下載的先后順序整合到一個平面文件(后綴txt)里面,以ANSI編碼格式保存。然后利用專有文本提取工具(軟件著作權,軟著登字第0261882號,登記號2010SR073409),對下載的非結構化txt文本數據進行信息提取,保存成格式化的、便于大型關系型數據庫(Microsoft SQL Server,以下簡稱SQL)處理的格式,然后導入SQL中進行下一步的挖掘分析。假設每一篇文獻的貢獻度是相同的,1篇文獻中重復出現的關鍵詞只需要計算1次,據此構建算法進行數據清洗工作[2]。清洗完畢后的數據,既可以提取挖掘對象的一維頻次,也可以得到挖掘對象的二維關系進行可視化呈現。抽出不同頻次的關鍵詞對,用Cytoscape 2.8軟件進行可視化處理,形成可視化的網絡圖,然后結合專業知識進行解析,一旦發現不合理的結果,即回溯原文獻數據集,如果是噪音仍按算法進行噪音清洗,直至噪音降到滿意為止。最后的結果可視化成圖,結合專業知識進行解析。
文本挖掘提取到人參在心腦血管疾病,胃腸道、肝臟疾病、呼吸系統疾病、糖尿病、神經系統疾病、皮膚疾病、婦科疾病、腫瘤等方面均有應用,其中在心力衰竭、糖尿病、心律失常、心肌梗死、心肌炎等疾病中最為常用。
提取到人參的適應證候有氣陰兩虛、氣血兩虛、腎陽虛、氣虛血瘀、寒熱錯雜等,其中氣陰兩虛文獻頻次最高。
以人參為核心,將人參與疾病相關性最高的前5種疾病,即心力衰竭、糖尿病、心律失常、心肌梗死、心肌炎,分別與證候關聯起來進行挖掘,提取到的疾病和證候關系文本結果構建網絡圖(圖1)。人參相關病證關系網絡中證候(圖中正方形)、疾病(圖中六邊形)的顯示度和 node的大小正相關,連線表示相關性。
圖中可見氣陰兩虛證與人參關聯程度最高,疾病中心力衰竭、糖尿病與人參關聯程度高,病證關系中心力衰竭相關的證候有腎陽虛,糖尿病涉及的證候有腎陽虛與氣陰兩虛,其中氣陰兩虛、腎陽虛證與相關疾病關聯程度最高。該網絡形象地反映了人參相關病證關系中同病異證、異病同證的2種表現形式。

圖1 人參相關病證關系網絡圖
文本挖掘提取到的人參常見方劑有人參湯(人參、甘草、干姜、白術)、人參養榮湯(人參、茯苓、甘草、五味子、黃芪等)、生脈散(人參、麥冬、五味子)、白虎加人參湯(知母、石膏、人參、甘草)、參附湯(人參、附子)等。人參湯有溫中祛寒、補氣健脾之功,適用于脾胃虛寒證;人參養榮湯可補益氣血,適用于氣血虧虛之證;生脈散能益氣養陰,主治氣陰兩傷;白虎加人參湯有清熱瀉火、益氣生津之功,主治氣分熱盛而津氣不足之證;參附湯可回陽、益氣、固脫,常用于元氣大虧、陽氣暴脫的危急重癥。可見人參常見方主治證中皆有氣傷因素存在,這些方劑還分別具有養血、溫陽、清熱等不同功效,與人參相關證候文本挖掘結果相符。
把人參常見方劑與其常見證候相關聯起來挖掘,提取到的結果構建方劑與證候關系網絡圖(圖2)。網絡中方劑(圖中六邊形)、證候(圖中正方形)的顯示度和node的大小正相關,連線表示相關性。
網絡中可見以人參湯為核心形成一小網絡,與寒熱錯雜證相關聯。回溯原文獻數據集發現,“人參湯”有單獨出現,也常見于白虎加人參湯、桂枝人參湯、四逆加人參湯等含人參湯的方名中,可見人參湯作為人參的常見方劑出現的文獻頻次應持保守態度;小網絡中的白虎湯等方中均無人參組成。回溯文獻發現,這幾味方劑名常常單獨或者包含在其他方劑名中,與人參湯或者包含有人參湯名的方劑同進出現于文獻中;如白虎湯主要為白虎湯與白虎加人參湯同時出現;桂枝湯常為桂枝湯、枳實薤白桂枝湯等含桂枝湯名的方劑與桂枝人參湯、人參湯等相伴出現;四逆湯為四逆湯、通脈四逆湯等與人參湯、四逆加人參湯等同時出現;這些方劑組成中雖無人參,但常常與人參配伍應用于寒熱錯雜等相關證的治療,如白虎加人參湯、干姜黃連黃芩人參湯、桂枝人參湯、四逆人參湯等。網絡中可見,人參養榮湯與氣血兩虛和氣陰兩虛證相關聯;生脈散與氣陰兩虛、腎陽虛及氣虛血瘀證相關聯;參附湯與腎陽虛證相關聯;應用于氣陰兩虛的方劑有生脈散、人參養榮湯、白虎加人參湯;應用于腎陽虛的方劑有生脈散、參附湯。人參相關方證關系網絡圖形象地表現了中醫同證異方、同方異證的另一特點。

圖2 人參相關方證關系網絡圖
把人參常見方與人參相關性最高的前5種疾病關聯起來挖掘,其結果構建人參相關方劑與疾病關系網絡圖(圖3)。網絡中方劑(圖中六邊形)、疾病(圖中菱形)的顯示度和 node的大小正相關,連線表示相關性。
方病關系中可見,生脈散、參附湯與相關疾病的關聯最密切;兩方在心力衰竭等疾病中均有應用;治療心力衰竭的方劑有生脈散、參附湯;治療糖尿病的有生脈散;該網絡形象地反映了方病關系中同方異病、異方同病的2種表現形式,體現了中醫同病異治、異病同治的辨證論治特點,也體現了中醫辨病論治的思維方式。

圖3 人參相關方病關系網絡圖
文本挖掘提取到的與人參常用配伍藥有麥冬、黃芩、甘草、三七、當歸、白術、大棗、生姜、茯苓、丹參、干姜、半夏、五味子、桂枝、柴胡、黃芪、陳皮等。這些中藥分別具有補氣、養陰、補血、活血、回陽、瀉火等功效,其中以補氣藥為多,與人參相關證候文本挖掘結果相應。
提取到的人參常見配合組合有:人參、麥冬;人參、黃芩;人參、三七;人參、甘草;人參、當歸;人參、茯苓;人參、丹參;人參、五味子;人參、桂枝;人參、柴胡、人參、黃芪;人參、陳皮;人參、白術、甘草、干姜;人參、甘草、生姜、半夏、大棗等。人參與不同的藥物配伍適用于不同病證,可見人參的功效與其配伍有著密切的聯系。
把與人參常用配伍藥與人參常見方劑關聯起來挖掘,提取到的結果構建人參相關方藥關系網絡圖(圖4)。網絡中方劑(圖中六邊形)、中藥(圖中圓形)的顯示度和node的大小正相關;連線表示相關性。
圖中可見瀉心湯中無當歸、甘草、白術卻與之直接相關聯,回溯原文獻,發現瀉心湯與這三味分別同時出現于文獻中,但彼此間并無配伍關系,因此相對于這三味藥,瀉心湯應視為噪音;圖中可見人參常與麥冬配伍應用;人參常見配伍藥是人參常見方劑的主要組成部分,如生脈散(人參、麥冬、五味子)、人參養榮湯(人參、當歸、白術、甘草、大棗、生姜、茯苓、陳皮、五味子)。
文本挖掘(Text Mining)技術是以計算語言學、統計數理分析為理論基礎,服務于生物、醫藥、文獻研究等學科的新興的交叉學科[4]。應用于中醫藥領域,文本挖掘能從海量的中醫藥文獻中發現知識以促進中醫臨床研究和中藥復方研發等多個方面。根據中醫理論和專業知識,利用數據挖掘技術對中醫藥文獻庫與生物醫學信息進行處理,為中西醫藥研究提供新的思路和途徑,并且結果更加客觀,可重復性強[5]。

圖4 人參相關方藥關系網絡圖
本研究對人參相關文獻進行文本挖掘,得到人參相關疾病、證候、方劑、中藥等挖掘結果,是對人參相關病證方藥規律比較全面的總結。挖掘結果顯示人參核心疾病是心力衰竭和糖尿病;核心證候是氣陰兩虛證;常見方有人參養榮湯、生脈散、參附湯等;人參常與麥冬、黃芩、三七等具有不同功效的藥物配伍使用于相應病證中,人參的功效與其配伍有著密切的聯系,實際應用中應對人參有著全面的認識,以便靈活應用于臨床。
文本挖掘的結果,利用Cytoscape 2.8軟件形成可視化的網絡圖,形象地展示了人參相關病證方藥規律。如圖1形象地反映了病證關系中同病異證、異病同證的2種表現形式。通過回溯原文獻、人工閱讀評價,使結果更為客觀,如方證關系圖中以人參湯為核心的小網絡中的方劑組成中均無人參,回溯文獻發現這些方劑常常與人參配伍應用于寒熱錯雜等相關證的治療。可見,通過這種文本挖掘技術能夠比較客觀地總結中西醫病證方藥規律,為臨床應用提供參考。不足之處是現有文本挖掘技術不能把具有包含關系的詞很好得區分開來,比如人參湯的結果,是人參湯、白虎加人參湯、桂枝人參湯、四逆人參湯等諸多含有人參湯詞條的綜合,需要回溯原文獻數據集加以綜合分析,從而增加人工工作量。因此,如何提高數據挖掘技術計算分析能力,以降低噪音、節省工作量是當前應該著眼解決的問題。
[1]南京中醫藥大學.中藥大辭典[M].上海:上海科學技術出版社,2006:38-45.
[2]ZHENG G,JIANG M,HE X J,et al.Discrete derivative:a data slicing algorithm for exploration of sharing biological networks between rheumatoid arthritis and coronary heart disease[J].BioData Min,2011,4:18.
[3]郭洪濤,鄭光,趙靜,等.基于文本挖掘分析甲型 H1N1流感的中醫藥治療特色[J].世界科學技術-中醫藥現代化,2011,13(5):772-776.
[4]薛為民,陸玉昌.文本挖掘技術研究[J].北京聯合大學學報(自然科學版),2005,19(4):59-63.
[5]LI S,ZHANG Z Q,WU L J,et al.Understanding ZHENG in traditional Chinese medicine in the contex of neuro-endocrineimmune network[J].IET Syst Biol,2007,1(1):51-60.