孟慶良,展俊平,郭會卿,郭洪濤,鄭 光,呂愛平,姜 淼△
(1.河南省中醫院,鄭州 450002;2.河南中醫學院第一附屬醫院,鄭州 450002; 3.蘭州大學數學院,蘭州 730000;4.中國中醫科學院中醫臨床基礎醫學研究所,北京 100700)
甲氨蝶呤(MTX)是抗代謝類藥物及葉酸拮抗劑,可阻止DNA合成,亦干擾RNA、蛋白質合成,屬細胞周期特異性藥物,臨床上主要用于惡性腫瘤諸如兒童急性白血病和絨毛膜上皮癌等治療[1]。近年來亦廣泛用于治療類風濕關節炎、強直性脊柱炎、異位妊娠、銀屑病等非惡性腫瘤疾病,均取得較為顯著的療效[2]。甲氨蝶呤在全國各中醫院均有應用,從中西醫結合治療角度,在臨床疾病治療的療效評價研究中已經取得了豐碩成果[3]。然而查閱資料發現,大量的文獻報道側重于甲氨蝶呤在西醫學中的應用,與中醫的聯合治療報道甚少或者缺乏總結。本文利用課題組的文本挖掘技術,對甲氨蝶呤和中醫的聯合應用規律進行淺析,以期更好地指導和服務于臨床。
文本挖掘是從非結構化的文本數據中抽取有意義的數據[4],具體說一般包括數據收集整理、選擇性挖掘、結構化分析、可視化以及評價[5]5個過程。
登錄中國生物醫學文獻數據庫(Chinese BioMedical Literature Data,CBM),在主題檢索下分別檢索關鍵詞“甲氨蝶呤”。經過檢索出現款目詞、主題詞、命中文獻數,合并檢索主題詞得到文獻7681篇(檢索日期:2013年9月15日)。為能看到每篇文獻的流水號、標題、摘要、主題詞等信息,在顯示格式中選擇“詳細”和“顯示全部”。
將收集來的數據按照下載的先后順序整合到一個平面文件(后綴txt)中,以ANSI編碼格式保存。利用專有的文本提取工具(軟件著作權,軟著登字第0261882號,登記號2010SR073409),對下載的非結構化txt文本數據進行信息提取,保存成格式化的、便于大型關系型數據庫(Microsoft SQL Server, SQL)處理的格式,隨后導入SQL中進行下一步的挖掘分析。假設每篇文獻的貢獻度是相同的,1篇文獻中重復出現的關鍵詞只需要計算1次,據此構建算法進行數據清洗工作[6]。
清洗完畢后的數據分別得到挖掘對象的一維和二維頻次數據,即相關挖掘要素在數據集中出現的文獻總的頻數以及兩兩之間的頻數關系,因為數據較多,為了網絡圖更直觀的展示,我們對數據采取切片分層的形式,統一只選取頻數的前15來進行圖形構建,用Cytoscape 2.8軟件進行可視化處理。
本文中形成可視化的網絡圖,筆者采用圖形大小和連線的寬度兩種方式同時進行客觀展示,圖形內為要素名稱,連線代表要素兩兩之間的關聯。圖形的面積越大,代表該要素與其他要素關聯的越多,越處于核心的位置;連線越寬,代表該要素與甲氨蝶呤的關系越密切;在文獻中出現的頻次越高,其權重越大。然后結合專業知識進行解析,一旦發現不合理的結果,即回溯原文獻數據集,如果是噪音,仍按算法進行噪音清洗,直至噪音降到滿意為止。最后的結果可視化成圖,結合專業知識進行解析。人工閱讀評價使得結果更加客觀,通過這種優化的文本挖掘組合,能夠比較客觀地總結各方面的規律。
圖1顯示,文本挖掘一維數據共提取到62個疾病58個癥狀。按照1.3中所述,數據切片選擇頻數前5的疾病(括號內為文獻篇數,以下同)分別為腫瘤(230)、類風濕關節炎(183)、白血病(147)、淋巴瘤(101)、異位妊娠(97);頻數前5的癥狀分別為腫脹(102)、晨僵(67)、腹痛(57)、壓痛(50)、強直(50),二維數據切片選擇頻次排前15組合構建網絡圖。

圖1 甲氨蝶呤相關疾病和癥狀網絡圖

圖2 甲氨蝶呤與中藥以及湯藥的聯合應用網絡圖
二維數據中,共提取到癥狀組合165項疾病668項。由圖可知,腫瘤、淋巴瘤、類風濕關節炎、異位妊娠這4種疾病與甲氨蝶呤的相關度較高,腫瘤與甲氨蝶呤的連線最寬,說明相關度最高,而淋巴瘤的圖形最大,表示與其他疾病的關聯最多。上圖右側癥狀結果中,黑色虛線方框內,如壓痛、晨僵、關節腫脹、疼痛等多屬于關節癥狀,這可能與甲氨蝶呤在類風濕關節炎中的治療應用有密切關聯。
圖2顯示,一維數據共提取到86項中藥33項方劑。頻數前5的方劑分別為獨活寄生湯(60)、蠲痹湯(55)、桂枝芍藥知母湯(46)、四物湯(41)、烏頭湯(36);頻數前5的中藥分別為雷公藤(76)、當歸(30)、白芍(26)、川芎(24)、甘草(19);二維數據切片選擇頻次排前15組合構建網絡圖。
中藥以及湯藥的組合分別為421項和28項。由圖可知,雷公藤、獨活、桃仁、川芎等與甲氨蝶呤的相關度較高,且從左側方框內可以看出,牛膝、防風、白芍、當歸、細辛等正是中醫方劑獨活寄生湯的組成,而方劑中獨活寄生湯相關度最高(圖形最大),其次是蠲痹湯。
中成藥一維數據62項,雷公藤多苷(34)、丹參注射液(5)、川芎嗪注射液(3)、姜黃素(2)、三七總皂苷(2)依次為頻數前5。
圖3顯示,二維數據組合357項,雷公藤多甙與甲氨蝶呤關系最密切。作為臨床風濕免疫科的常用藥,雷公藤多甙片在類風濕關節炎、白塞病、自身免疫性肝炎等疾病的治療中,常為首選中成藥,而鱉甲煎丸和甘草甜素的廣泛聯用,則可能是針對自身免疫性肝炎的治療;同時,由橢圓標注的川芎嗪注射液、當歸針、丹參注射液、三七總皂苷可以看出,甲氨蝶呤與活血化瘀之品的聯合較為廣泛。

圖3 甲氨蝶呤與中成藥的聯合應用網絡圖

圖4 甲氨蝶呤與中醫聯合治療應用網絡圖
圖4顯示,為進一步明晰甲氨蝶呤與中醫臨床的聯合應用規律,我們對所有數據結果進行了二次篩選綜合分析整理,仍然采用切片形式,各選二維結果中頻數前5的數據整合于一個文件中,通過Cytoscape軟件進行網絡圖的構建,選擇“疾病—癥狀—中藥—方劑—中成藥”的思路,以便更清晰地整體反映中西醫結合運用甲氨蝶呤時的臨床規律。
甲氨蝶呤作為臨床一線用藥,在相關疾病的中醫聯合治療策略中,一直被廣泛應用,而中醫學是祖國寶貴的傳統醫學,其療效確切。王永炎院士指出,中醫學的發展遠遠超越了學科和領域,呈現出多學科交叉融合的特點,必須革新技術,解釋新的規律[7],利用中醫藥科學思維,結合生物醫學朝向和新技術,當能推動生物醫學的創新性發展[8],以實效研究為準,最終提高臨床療效[9]。因此,本文采用課題組的文本挖掘技術,以臨床為出發點,總結淺析甲氨蝶呤聯合中醫治療的基本規律,為臨床醫生提供參考。
以“疾病—癥狀—中藥—方劑—中成藥”為基本思路,在同一個維度上,通過大量的文獻數據,總結其臨床規律。從圖4可以看出,甲氨蝶呤主要用于腫瘤、類風濕關節炎、白血病以及淋巴瘤的治療,相當于中醫學“癌”、“痹癥”、“血證”、“惡核”等;臨床癥狀包括壓痛、腫脹、晨僵以及強直等,主要為關節系統病變引發,這與風濕免疫科常見疾病如類風濕關節炎、強直性脊柱炎、銀屑病關節炎等較為吻合;與中藥聯合應用較多的是當歸、白芍、川芎等補血活血養陰之品,以及雷公藤、獨活、秦艽等祛風濕止痹痛藥,符合臨床上腫瘤和類風濕關節炎多虛多瘀多濕的疾病特性;中藥湯劑獨活寄生湯、桂枝芍藥知母湯、蠲痹湯則是中醫院風濕骨病科常用藥;中成藥中的雷公藤多苷片,更是甲氨蝶呤的常用聯合藥物之一。需要注意的是,我們挖掘的文獻數據,甲氨蝶呤與活血化瘀類中成藥的聯合亦較為廣泛,如丹參注射液、川芎嗪注射液等,考慮和疾病本身相關。
我們嘗試利用現有的數據庫平臺,通過在大量文獻中進行的信息抽取、語詞識別、發現知識間的關聯[10],有效地找到所需信息[11]進行整合分析,獲得的結果更具有代表性。本文以甲氨蝶呤為關鍵詞,對與其聯合應用的中醫中藥、湯藥、中成藥等分布規律的結果進行提煉,找出其要素與要素的基本組合,采用切片分層和多維度分析,結果更加客觀,可重復性強[12]。為廣大中醫醫務工作者提供更為直觀的參考,亦為中醫進一步臨床研究提供可能有益的基礎。
[1] 何澤民,王資媛,蔡曉虹.甲氨蝶呤的臨床應用[J].海峽藥學,2005,17(3):119-121.
[2] 刁永紅,劉英,馬華. 非惡性腫瘤的治療進展[J].山東醫藥,2010,50(50):118-120.
[3] 呂愛平,劉孟宇,張弛,等. 中西醫結合醫學研究30年回顧[J].中國中西醫結合雜志,2011,31(11):1445-1451.
[4] Zheng Guang, Guo Hongtao,Lu Aiping et al. Two dimensions data slicing algorithm, a new approach in mining rules of literature in traditional Chinese medicine. Communications in Computer and Information Science, v 237 CCIS, 161-174,
[5] Zheng Guang, Jiang Miao, Lu Aiping, Exploring the biological basis of deficiency pattern in rheumatoid arthritis through text mining. 2011 IEEE International Conference on Bioinfor matics and Biomedicine Workshops[J]. BIBMW, 2011,811-816.
[6] Guang Zheng, Miao Jiang, Aiping Lu. Discrete derivative: a data slicing algorithm for explo ration of sharing biological networks between rheumatoid arthritis and coronary heart disease. BioData Mining 2011,4:18. http://www.biodatamining.org/content/4/1/18.
[7] 王永炎.大科學時代中醫研究思路[J].中國中醫基礎醫學雜志,2012,18(8):813-817.
[8] 姜淼,查青林,呂愛平,等.基于中醫藥科學思維的生物醫學創新研究思路與方法[J].中國中醫基礎醫學雜志, 2010,16(5): 354-357.
[9] 謝雁鳴,魏戌,王永炎. 非惡性腫瘤的治療進展[J].中國中醫基礎醫學雜志,2013,19(2):139-142.
[10] JC Lamirels, Al Shehabi, C Francois, et al. Intelligent Patent Analysis Through the Use of a Neural Network:Experiment of Multi-viewpoint Analysis with the Multi SOM Model[C].Japan:The ACL 2003Workshop on Patent Corpus Processing,Sapporo,2003.
[11] Fayyad UM Piatetsky-Shapiro G Smith P. From data mining to knowledge discovery: an overview [A ]. In: Advances in knowledge discovery and data mining[C]. Cambridge :AAAT/MIT Press, 1996:1-34.
[12] Li, S., et al., Understanding ZHENG in traditional Chinese medicine in the context of neuro-endocrine-immune network[J]. IET Syst Biol, 2007,1(1):51-60.