黃允瑜,巴 燕,鄭 光,郭洪濤,姜 淼△
(1.北京中醫藥大學東直門醫院,北京 100700;2.新疆維吾爾自治區中醫醫院,烏魯木齊 830000;3.中國中醫科學院中醫臨床基礎醫學研究所,北京 100700)
文本挖掘技術是在數據挖掘的基礎上針對文本開發的一種信息提取分析技術[1]。應用文本挖掘技術可以智能地從信息庫中檢索出符合用戶需求的信息,還可以從文本數據中梳理、發現和提取其中隱含的知識并形成用戶可理解的信息知識。
中醫治療疾病講究的是理法方藥,各種中醫理論提出的各式各樣的治療方法,選擇合適的方劑,配合一定的藥物劑量和藥味加減,再選擇相應的加工方式進行制作,最終才能應用于患者,發揮其治療疾病的作用。其中,中藥作為中醫治病的物質基礎,在文獻中被大量刊載。對其進行全面分析和整理,有助于發現疾病治療的核心規律,為進一步提高中醫臨床療效、深入開展中醫科研提供依據。
慢性腎臟疾病(chronic kidney diseases,CKD)因其起病隱匿,已成為嚴重威脅人類健康的隱形殺手之一,對人類生存質量及社會發展構成極大危害[2]。各處CKD因其纏綿難愈,易導致慢性腎功能衰竭的嚴重后果,一直受到醫學界的重視。中醫藥治療CKD已有數千年歷史,相關用藥經驗報道豐富[3-5]。基于現有大量的相關文獻,應用文本挖掘技術對中醫治療慢性腎臟疾病文獻報道所使用的中藥進行挖掘和分析,是全面整理總結慢性腎臟疾病治療經驗的有益探索[6、7]。
登錄中國生物醫學文獻數據庫(英文全稱Chinese BioMedical Literature Database,簡稱 CBM)在主題檢索下以“腎小球腎炎”、“腎病綜合征”、“腎功能不全”為關鍵詞進行檢索。經過檢索,出現款目詞、主題詞、命中文獻數,合并檢索主題詞共得到文獻50682篇,其中腎功能不全27017篇,腎病綜合征10018篇,腎小球腎炎13647篇(檢索日期為2010年6月4日)。顯示格式中選擇“詳細”和“顯示全部”,以顯示每篇文獻的流水號、標題、摘要、主題詞等信息。
將收集來的相關文獻數據,按照下載的先后順序,分別整合到一個平面文件(后綴 TXT)里,以ANSI編碼格式保存。然后,利用專有的文本提取工具(正申請軟件著作權),對1.1中下載的非結構化的TXT文本數據進行信息提取,所提取信息主要是機標關鍵詞(包括核心和非核心2種類型,以下簡稱關鍵詞)。提取出來的數據首先存入Access數據庫,作為下一步數據處理的基礎數據,然后導入SQL中進行下一步的挖掘分析。
根據1.2中生成的 Access數據庫,將基礎數據導入 SQL中,以“Table_Initial”為表名稱,將“序號”和“機標關鍵詞”2個字段分別用 PMID(類似于PubMed里面的字段名)和 DescriptorName(類似于PubMed里面的字段名)來表示,針對“序號”和“機標關鍵詞”進行處理。
首先,從初始數據表(Table_Initial)中運用“關鍵詞組合算法”,對同一篇文獻中出現的關鍵詞進行配對,然后去除冗余的關鍵詞對,構造針對每一篇文獻共同出現的關鍵詞對,最后輸出到“關鍵詞對數據表”(DN_pairs)中。
針對DN_pairs的數據表。通過構造“關鍵詞對頻數統計”的算法將其中相同的關鍵詞對進行合并處理,只保留它們出現的頻數。將結果輸出到名為DN_pairs_frqcy的數據表中。表中所有的關鍵詞對都只出現1次,并且都有 1個出現的頻數(Frequency)。
根據1.3中得到的數據表DN_pairs_frqcy,抽出不同頻數的關鍵詞對,根據中藥間相關頻次手工分類,用 Cytoscape 2.7軟件進行可視化處理,分別得到治療各個疾病的中藥用藥網絡圖,從中選出有代表性的兩層進行分析討論。
圖1A顯示,冬蟲夏草、丹參、川芎、黃芪、附子、紅花、牡蠣、蒲公英、大黃、茯苓是中醫治療腎功能不全的常用藥物。圖1B顯示,丹參、黃芪、大黃是治療腎功能不全的核心藥物。

圖1 A 治療腎功能不全常用中藥頻數關系圖(第三層)

圖1 B 治療腎功能不全常用中藥頻數關系圖(最高層)
圖2A顯示,當歸、白術、茯苓、益母草、雷公藤、黃芪、人參、三七、水蛭、地龍、丹參、川芎、紅花是中醫治療腎病綜合征的常用藥物。此外,人參和三七成對出現,也是中醫治療腎病綜合征的常用藥物組成。白花蛇舌草與蛇舌草的成對出現提示,現有文獻中的藥名使用尚欠規范,但2個名稱成對出現,說明文本挖掘工具對于同藥異名現象具有一定的識別能力。圖2B顯示,人參、三七、黃芪、當歸、丹參是治療腎病綜合征的核心藥物。
圖3A顯示,連翹、赤小豆、麻黃、澤瀉、雷公藤、大黃、丹參、白術、茯苓、白茅根、益母草、山藥、黨參、當歸、黃芪是中醫治療腎小球腎炎的常用藥物。此外,麻黃、連翹、赤小豆的成對出現,也是中醫治療腎小球腎炎的常用藥物組成。木通和關木通的成對出現說明,中醫對木通類藥物十分重視。圖3B顯示,黃芪、丹參、當歸和益母草是治療腎小球腎炎的核心藥物。

圖2 A 治療腎病綜合征常用中藥頻數關系圖(第三層)

圖2 B 治療腎病綜合征常用中藥頻數關系圖(最高層)

圖3 A 治療腎小球腎炎常用中藥頻數關系圖(第三層)

圖3 B 治療腎小球腎炎常用中藥頻數關系圖(最高層)
根據美國腎臟病學會指南的定義,CKD包括:(1)腎損害持續時間超過3個月,伴或不伴腎小球濾過率(GFR)下降,腎損害指腎臟結構異常(影像學檢查異常或者腎組織病理異常)或腎臟功能異常(血或尿組成成分異常);(2)GFR <60ml·min-1·(1.73m2)-1持續時間超過3個月,伴或不伴腎臟損害。同時,CKD的預后仍然很差。至今為止,我們仍不能完全控制CKD的進行性發展,相當多的CKD患者最終將進展為終末期腎臟病(ESRD)階段,即慢性腎衰,這些慢性腎衰患者大部分為中青年。進入慢性腎衰階段的患者將部分甚至完全喪失勞動能力,需要接受人工替代或生物替代治療。人工替代即透析,需要高昂的醫療費用維持,對患者本人以及社會帶來很大的經濟負擔。
中醫學對于CKD的認識與記載歷史悠久,治療也頗有心得,療效顯著的醫家也大有人在。然而,由于不同醫家對于CKD的病因、病機、辨證、論治均有獨特的認識與見解,在CKD的辨證論治方面難以形成標準化共識,這也為相關中醫知識的傳承帶來一定難度。通過現代文本挖掘工具的運用,我們希望能夠匯聚眾醫之長,探索CKD治療中應用頻率最高的中藥組合,從而了解中醫藥治療 CKD的用藥規律,并希望在此基礎上,進行更加深入的相關研究。
中醫傳承中,歷來重視文獻研究,而文獻研究的的方法亦有很多種。我們認為,在同一篇文章中出現的關鍵詞,在關鍵詞這一抽象層面上,部分反映整篇文章的信息。并且,就某一篇具體的文獻來說,相關的關鍵詞之間存在著“共同出現”這一基本事實。這種協同出現不是隨機的,而是蘊含有一定的意義[5],尤其是在以很高的頻率、協同出現的關鍵詞對,在一定的程度上,反映了全國乃至世界科研工作者對它們的重視程度。更重要的是,針對目前的文本挖掘技術來說[3-5],這些協同出現的關鍵詞,是很好的基礎素材。基于以上認識,我們開展了文本挖掘與分析技術在中醫藥臨床實踐中的用藥規律研究。
研究結果顯示,治療腎功能不全的常用藥物為冬蟲夏草、丹參、川芎、黃芪、附子、紅花、牡蠣、蒲公英、大黃、茯苓等;而其中丹參、黃芪、大黃是治療腎功能不全的核心藥物。可以看到,代表補益、活血、泄濁法的藥物占據主導地位,而其核心藥物則更加明確的提示了腎功能不全中醫治療中的“通補”思路。
治療腎病綜合征的最常用藥物為當歸、白術、茯苓、益母草、雷公藤、黃芪、人參、三七、水蛭、地龍、丹參、川芎、紅花;人參、三七、黃芪、當歸、丹參是治療腎病綜合征的核心藥物;人參與三七則為最常用藥對。同樣可以得出結論,補益脾腎、活血化瘀、益氣養血類藥物的使用為最多,與中醫藥治療腎病綜合征的傳統認識一致。
治療腎小球腎炎的最常用藥物為連翹、赤小豆、麻黃、澤瀉、雷公藤、大黃、丹參、白術、茯苓、白茅根、益母草、山藥、黨參、當歸、黃芪;黃芪、丹參、當歸和益母草是治療腎小球腎炎的核心藥物;麻黃、連翹、赤小豆則是中醫治療腎小球腎炎的最常用藥對。與以上2種疾病明顯區別之處在于,疏風解表利水藥物在其中占據主要位置,同樣泄濁解毒、補益氣血也是重要法則。以藥測證而知,腎小球腎炎的中醫病機與腎功能不全、腎病綜合征有明顯不同,因此治法也大相徑庭。但是在3種疾病中黃芪、丹參都是核心配伍,說明益氣活血是這3種腎臟疾病中的核心治則,值得加強這兩味藥物的研究。
本研究的目標僅僅集中于CKD類疾病的用藥規律研究,從這個研究中延伸至CKD的證候辨識規律、藥證對應規律、以及治療CKD新藥研發的研究,將是我們下一步的工作目標,也將是更有意義的工作。
總之,運用現代數據挖掘、文本挖掘技術,在海量文獻的基礎上探索規律,從中得到新的啟發或線索,從而獲得新的知識,將為中醫藥基礎研究、新藥開發研究、臨床實踐提供有益參考與嶄新思路[8]。
數據挖掘、文本挖掘及分析技術作為從海量數據中獲取知識的有力工具,在中醫藥基礎與臨床研究中具有廣闊的應用前景,其在中醫藥領域的應用將對提高中醫藥現代化水平、新藥研發能力產生良好的促進作用。不僅在藥物使用規律方面,將來在疾病的辨證規律、藥證關聯研究方面,文本挖掘及分析技術均將展示其獨特的作用,做出更多貢獻。
[1]Feldman R.and Dagan I.“Knowledge discovery in textual databases(KDT)”Proceedings ofthe FirstInternational Conference on Knowledge Discovery and Data Mining(KDD-95)Montreal:AAAI Press,1995:112-117.
[2]袁發煥,周劍鋒.慢性腎臟疾病的現狀及其防治[J].重慶醫學,2007,36:385,388.
[3]林啟展,馬育鵬,徐大基.張琪教授治療腎臟疾病經驗介紹[J].新中醫,2006,38:14-16.
[4]談 平,陳理霞,曾翠青,等.自擬黃龍紅蛭湯配合西藥治療糖尿病腎臟疾病的臨床研究[J].世界中西醫結合雜志,2010,5:505-507.
[5]李保華,單麗娟,何 芳.金洪元教授辨證論治腎臟疾病的經驗[J].北京中醫藥大學學報(中醫臨床版),2010,17:21-22.
[6]查青林,余俊英,余 飛,等.基于代謝相關MeSH詞文本挖掘分析治療咳嗽中藥五味分類的生物學特征[J].中國中醫基礎醫學雜志.2010,7:616-618.
[7]譚 勇,郭洪濤,鄭 光,等.利用文本挖掘技術探索中醫藥治療疾病的用藥規律[J].世界科學技術—中醫藥現代化.2010,5:823-827.
[8]姜 淼,查青林,郭玉明,等.基于中醫藥科學思維的生物醫學創新研究思路與方法[J].中國中醫基礎醫學雜志,2010,16:354-357.