郭洪濤,馮福海,李松偉,鄭 光,王濟華
(1.河南中醫學院第一附屬醫院,河南 鄭州 450000; 2.蘭州大學信息學院,甘肅 蘭州 730000)
·醫史文獻·
基于文本挖掘探討系統性紅斑狼瘡證治規律
郭洪濤1,馮福海1,李松偉1,鄭 光2,王濟華1
(1.河南中醫學院第一附屬醫院,河南 鄭州 450000; 2.蘭州大學信息學院,甘肅 蘭州 730000)
目的:探討系統性紅斑狼瘡的證治規律。方法:在中國生物醫學文獻服務系統中收集系統性紅斑狼瘡的文獻數據,采用基于敏感關鍵詞頻數統計的數據分層算法,挖掘整理系統性紅斑狼瘡的中醫證候、癥狀、中藥規律。這些結果通過一維頻次及構建網絡圖進行展示。結果:系統性紅斑狼瘡常見證候有熱毒熾盛、肝腎陰虛等;核心癥狀是發熱、關節疼痛、乏力等;中藥治療以黃芪、白芍、甘草、生地黃、白術、青蒿、茯苓、當歸等為核心用藥。結論:系統性紅斑狼瘡多熱、虛證,少寒證,癥狀中發熱最常見,清熱解毒為基本治法。
文本挖掘;數據分層算法;系統性紅斑狼瘡/分析;證候
系統性紅斑狼瘡 (systemic lupus erythematosus,SLE)是一種多因素參與、多系統和多臟器受損的慢性自身免疫性結締組織病。我國SLE的患病率約為40/10萬,患病人群總數超過百萬[1]。由于該病至今病因未明,因此仍無根治的方法,SLE患者一旦發病需終身維持治療。近年來,隨著疾病診斷和治療方法的不斷改進以及病因尋找的進展,SLE患者的生存率顯著提高。我國中、西臨床醫生及科研工作者報道關于系統性紅斑狼瘡的文獻量亦急劇增加,大量存在于現有數據庫中。本研究運用文本挖掘技術[2,3],結合文獻回溯,對現有中文文獻進行挖掘整理,探討系統性紅斑狼瘡的證治規律。
1.1 文本數據收集
在中國生物醫學文獻數據庫(Chinese BioMedical Literature Database,CBM,http://sinomed.cintcm.ac.cn/index.jsp)中以“缺省”狀態下檢索“系統性紅斑狼瘡”,共得到文獻16818篇(檢索日期:2014年6月10日),依次下載所有文獻并保存。
1.2 文本數據處理
將收集來的數據,按照下載的先后順序,整合到一個平面文件(后綴txt)里面,以ANSI編碼格式保存。然后,利用專有的文本提取工具(軟件著作權,軟著登字第0261882號,登記號:2010SR073409),對下載的非結構化的txt文本數據進行信息提取,保存成格式化的、便于大型關系型數據庫(Microsoft SQL Server,以下簡稱SQL)處理的格式,然后導入SQL中進行下一步挖掘分析。假設每1篇文獻的貢獻度是相同的,1篇文獻中重復出現的關鍵詞,只需要計算一次,據此構建基于敏感關鍵詞頻數統計的數據分層算法[2,3],進行數據清洗工作。
清洗完畢后的數據,既可以提取到挖掘對象的一維頻次,也可以得到挖掘對象的二維關系,進行可視化呈現,即抽出不同頻次的關鍵詞對,用Cytoscape 2.8軟件進行可視化處理,構建可視化的網絡圖。然后結合專業知識進行評析,一旦發現不合理的結果,即回溯原文獻數據集,如果是噪音,仍按算法進行噪音清洗,直至噪音降到滿意為止。最后的結果可視化成圖,結合專業知識進行解析。
2.1 證候文本挖掘結果
共提取到中醫證候43項,選取大于等于6的證候文獻頻次,按證候在文獻出現的頻次高低列出(括號內為文獻篇數,下同):腎陰虛(43)、肝腎陰虛(32)、陰虛內熱(30)、熱毒熾盛(30)、腎陽虛(26)、脾腎陽虛(26)、氣陰兩虛(15)、風濕熱痹(9)、血瘀證(7)、陰虛證(6)、陽虛證(6)、腎陽虛證(6)。
由上可見,腎陰虛、肝腎陰虛、陰虛內熱、熱毒熾盛頻次最高,均與系統性紅斑狼瘡相關,為其常見證型。而這些證型多為虛證、熱證,少見寒證,與其疾病發展特點相符。進而構建證候兩兩之間網絡圖(圖1):圖中圓圈內為證型名稱,連線代表證候兩兩之間的聯系。證候連線愈多,代表該證型與疾病的關聯程度越高,越處于核心的位置;圓圈越大,代表該證型在文獻中出現的頻次越高,其權重越大。

圖1 系統性紅斑狼瘡中醫證候網絡圖(PS≥2)
文本挖掘共提取到155組證候,圖1為系統性紅斑狼瘡文獻中相關證候大于等于2的網絡分布圖。圖中熱毒熾盛、肝腎陰虛、陰虛內熱與疾病關聯程度最高,權重也大,處于核心位置。歸納這些證候,系統性紅斑狼瘡以熱、虛證為其證候特點。
2.2 癥狀文本挖掘結果
癥狀共提取到140項,選取前10項按文獻頻次高低列出:發熱(479)、(口腔)潰瘍(192)、關節痛(189)、強直(117)、頭痛(102)、皰疹(100)、腹痛(97)、咳嗽(95)、關節疼(94)、乏力(94)。
以上癥狀是從數據集中抽提的,既包含西醫臨床,也包含中醫臨床報告的癥狀,因此頻次較高。由上可見,系統性紅斑狼瘡以發熱、(口腔)潰瘍、潰瘍關節疼痛為核心癥狀,其中發熱最高。頭痛、乏力、咳嗽、皰疹、腹痛等為常見癥狀。
進一步構建癥狀兩兩之間網絡圖(圖2):

圖2 系統性紅斑狼瘡癥狀網絡圖(PS≥12)
文本挖掘共提取到1323組癥狀,圖2為系統性紅斑狼瘡文獻中相關癥狀大于等于12的網絡分布圖。圖中發熱、關節疼痛、乏力為最核心癥狀,發熱-關節痛兩者的文獻頻次為102。由上可見,系統性紅斑狼瘡是一種以發熱、關節疼痛、乏力、(口腔)潰瘍為核心癥狀,涉及消化、循環、呼吸、皮膚等多系統癥狀的疾病。
2.3 中藥文本挖掘結果
中藥共提取到158項,按文獻頻次高低(選擇前15項):雷公藤(63)、黃芪(31)、白芍(29)、甘草(27)、生地黃(26)、白術(24)、青蒿(23)、茯苓(21)、當歸(20)、天冬(20)、柴胡(19)、人參(18)、黃芩(17)、大黃(15)、玄參(14)。回溯原文獻數據集,發現雷公藤均為雷公藤多苷、雷公藤多甙,因此,此處的雷公藤主要為中成藥制劑,應視為噪音;天冬回溯文獻均為為天冬氨酸氨基轉移酶,因此天冬為噪音,應予剔除。通過以上方法降噪后,發現黃芪、白芍、甘草、生地黃、白術、青蒿、茯苓等為治療系統性紅斑狼瘡的高頻中藥。
進而構建中藥兩兩之間網絡圖(圖3):
文本挖掘共提取到2 179組中藥,圖3為系統性紅斑狼瘡文獻中相關中藥頻次大于等于8的高頻網絡分布圖。圖中甘草、白術、茯苓、當歸、生地黃、玄參、知母、桔梗、犀角、黃芩、芍藥等為核心藥物。

圖3 系統性紅斑狼瘡中藥網絡圖(PS≥8)
文本挖掘(Text Mining)技術是以計算語言學、統計數理分析為理論基礎,服務于生物、醫藥、文獻研究等學科的新興的交叉學科[4]。應用于中醫藥領域,根據中醫理論或專業知識,計算機能夠文本挖掘中醫藥文獻庫與生物醫學信息庫的非關聯知識,為中西醫結合研究提供新的思路和途徑,并且結果更加客觀,可重復性強[5]。
通過對16 818篇“系統性紅斑狼瘡”文獻進行文本挖掘,得到系統性紅斑狼瘡證候、癥狀、中藥等挖掘結果,是對中醫治療系統性紅斑狼瘡比較全面的總結。中醫證候方面,挖掘到腎陰虛、肝腎陰虛、陰虛內熱、熱毒熾盛等證候頻次較高,歸納系統性紅斑狼瘡多熱證、虛證,寒證較少。癥狀方面,挖掘出系統性紅斑狼瘡核心癥狀是發熱、(口腔)潰瘍、關節疼痛,進而歸納得出系統性紅斑狼瘡是一種以發熱、(口腔)潰瘍為主要癥狀,涉及消化、呼吸、神經等多系統癥狀的疾病。然而皮疹、皮損等SLE的重要表現的癥狀沒有挖掘到,與挖掘詞表中沒有該癥狀有關,也說明挖掘仍需進一步完善。中藥治療,以甘草、白術、茯苓、當歸、生地黃、玄參、知母、桔梗、犀角、黃芩、芍藥等為核心藥物,這些藥物以清熱解毒為主。其中甘草出現的頻次較高,與文獻量大及用藥習慣有關。通過挖掘發現,系統性紅斑狼瘡證候與癥狀,證候與中藥,兩兩之間能夠相互呼應和印證。
文本挖掘的結果,一維頻次和二維網絡圖,從不同角度顯示挖掘對象在文獻數據集中的分布,均有不同的意義。同時,結合回溯原文獻數據集,人工閱讀評價,使得結果更加客觀。因此,通過這種優化的文本挖掘組合,能夠比較客觀地總結疾病的證治規律,也可以為中醫客觀化,以及中醫臨床提供有益的參考。
[1]葉冬青.紅斑狼瘡[M].北京:人民衛生出版社,2006:15-16.
[2]Zheng G,Jiang M,He XJ,et al.Discrete derivative: a data slicing algorithm for exploration of sharing biological networks between rheumatoid arthritis and coronary heart disease[J].Bio Data Min,2011,23(4):18.
[3]郭洪濤,鄭光,趙靜,等.基于文本挖掘分析甲型H1N1流感的中醫藥治療特色[J].世界科學技術-中醫藥現代化,2011,13(5):772-776.
[4]薛為民,陸玉昌.文本挖掘技術研究[J].北京聯合大學學報,2005,19(4):59-63.
[5]Li S,Zhang ZQ,Wu LJ,et al.Understanding ZHENG in traditional Chinese medicine in the context of neuro-endocrine-immune network[J].IET Syst Biol,2007,1(1):51-60.
(編輯 田晨輝)
1001-6910(2015)03-0047-03
R593.24+1
B
10.3969/j.issn.1001-6910.2015.03.25
2014-09-24