佟旭等
1.北京中醫藥大學,北京 100029;2.中國中醫科學院中醫臨床基礎醫學研究所,北京 100700
摘要:近年來,中醫藥臨床和科研數據呈指數級增長趨勢,使中醫藥數據的集成分析變成目前中醫界亟需解決的重要問題。本研究從中醫藥數據集成的背景和意義、現狀分析、數據可視化及應用展望4個方面入手,分析在大數據背景下中醫藥數據集成分析的必要性及面臨的困難,并提出將數據可視化的方法用于數據集成分析,為深入探討中醫藥數據資源的合理利用提供新的視角。
關鍵詞:中醫藥;數據集成分析;可視化;診療模式
DOI:10.3969/j.issn.1005-5304.2015.08.001
中圖分類號:R2-05 文獻標識碼:A 文章編號:1005-5304(2015)08-0001-03
Scientific Value of TCM Integrative Data Analysis in Big Data Era TONG Xu1, XIE Qing-yu2, MENG Qing-gang1 (1.Beijing University of Chinese Medicine, Beijing 100029, China;2.Institute of Basic Research in Clinical Medicine, China Academy of Chinese Medicine Sciences, Beijing 100700, China)
Abstract:In recent years, TCM integrative data analysis has become an important issue requiring urgent solution because of the trend of exponential growth of clinical and scientific TCM research data. This article analyzed the necessity and problems of TCM integrative data analysis from the aspects of background and significance of TCM integrative data, status analysis, data visualization, and application prospect, and put forward the idea of applying data visualization method to data integrative analysis, with a purpose to provide new angles for the reasonable application of TCM data resources.
Key words:traditional Chinese medicine;integrative data analysis;visualization;mode of diagnosis and treatment
2008年9月,《自然》雜志出版專刊“Big Data:Science in the Petabyte Era”,使“大數據”一詞開始廣泛傳播[1]。如今大數據已引起各領域的廣泛關注。在探討大數據的科學價值時,有學者指出,高效處理非結構化和半結構化的數據、建立新的數據表示方法、不同機構間數據和信息的融合將是學界面臨的重要議題[2]。隨著中醫藥現代化研究的發展,中醫藥臨床和科研都取得了長足的發展,并隨之產生了大量類型復雜、種類繁多的醫療數據。茲從中醫藥數據集成分析這一角度切入,為中醫藥大數據的合理利用提供新的視角。
基金項目:國家科技支撐計劃(2013BAI02B10);國家自然科學基金(81273876);北京中醫藥大學科研創新團隊項目(2011-CXTD-03);北京中醫藥大學研究生自主課題(2014-JYBZZ-XS-003)
通訊作者:孟慶剛,E-mail:mqgangzy@126.com
1 中醫藥數據集成的背景和意義
醫學數據是醫療臨床和科研的重要資源。飛速發展的高通量技術和新一代測序技術產生了巨大規模的組學(Omics)數據,對醫療實踐和科研已產生了重大影響,如基因表達式的預測因子可以提高疾病早期診斷的準確率,識別癌癥基因生物標記物的基因組學研究已成功應用于癌癥分級。同時,由于基因譜和基因組特性與表型的相關性會受到環境影響,蛋白質和分子的結構及其功能的表達不完全受控于基因表達,蛋白質組學研究也因此逐漸發展起來,并受到越來越多的重視。細胞、組織數據包含很多重要的空間結構和形態信息,有文獻報道,包含空間結構和形態信息的數據與組學數據相結合,可以成功將癌癥細化分為不同的等級和亞型[3]。因此有學者認為,集成各層次、各水平的生物醫學數據,是提高疾病診斷和預后準確率的必要途徑,許多意想不到的發現和機遇就隱藏在大量數據資源集成的背后[4]。
隨著信息化技術的不斷進步,中醫藥現代化研究飛速發展,無論基礎研究或臨床研究都取得了長足的發展,并隨之產生了大量類型復雜、種類繁多的醫療數據。將這些多層次、多水平的中醫藥數據資源與組學研究數據整合到一起,利用各類數據本身的特點和數據之間的互補性,可以幫助研究者更全面深入地理解和把握對生命和人體的認識。然而,中醫藥數據本身的多元性和異構性造成數據相互之間很難直接匹配,不能實現共享和有效利用。多元性指數據類型復雜,包括圖譜、文本、結構和圖像等多元形式。數據異構性體現在醫學數據庫固有的系統性異構、技術性異構和語義性異構等方面。在實際情況中,中醫藥數據庫之間往往同時存在多種異構,這更造成了數據有效利用的困難與復雜程度。因此,數據集成就成為目前實現中醫藥數據資源有效整合的主要研究方向,它可以把不同來源和不同格式的數據在邏輯上或物理上有機地集中,從而實現全面的數據共享。數據集成的核心任務是將相互關聯的異構數據源集中到一起,以滿足用戶的訪問需求。
2 中醫藥數據的集成分析
在中醫藥理論中,方劑是在整體觀念和辨證論治原則指導下,依據藥性理論和功能主治,按君、臣、佐、使的配伍法則,將中藥組合而成的有結構、有層次的有機整體。方藥配伍效應不是某一特定成分或靶點的作用,而是由不同成分、靶點和環節組成的復雜系統在人體內有次序的整體調節效應。通過基因組學、蛋白質組學、代謝組學技術,可以構建人體復雜系統與方劑復雜化學體系之間相互作用的網絡模型,幫助研究者進一步解釋細胞的生物化學運作體系,揭示功能性細胞網絡與方劑干預的相互作用機制。
目前已有研究者利用組學數據深入探討中藥方劑多靶點的作用機制[5],以及利用基因芯片、基于雙向電泳-質譜鑒定的蛋白質組學等,高通量地分析、鑒別和鑒定中藥作用的差異蛋白或基因,并借助生物信息學技術,分析中藥作用的可能靶標(譜)[6]。組學研究與中醫藥研究數據集成分析的初步研究已取得一些成果,但多停留在方劑藥效作用機制探討的階段。將組學研究數據與診療過程中患者的四診信息和理化檢查結果建立關聯規則,是臨床數據與科研數據集成分析的關鍵環節,然而目前的研究還難以實現這一目標。
四診合參是中醫臨床獲得患者生理病理信息,進而綜合分析、探求疾病本質的重要手段,是中醫整體觀念在臨床診療中的體現,在千百年來的醫療實踐中不斷發展并傳承下來。不同于傳統的中醫診療模式,當代中醫師除了需要通過望、聞、問、切全面收集患者的四診信息,還需結合生化、物理、影像等多種檢查結果以獲得對患者病情的綜合認識和全面把握。中醫電子病歷系統包含患者四診信息、理化檢查、診斷及治療等全過程的記錄,它將中醫診療實踐活動真實地記錄并保存下來,是臨床診療記錄的重要組成部分,也是中醫臨床信息的主要數據來源。然而,現有的電子病例系統多為獨立架構,醫院之間難以實現數據共享和有效利用,形成一個個“信息孤島”,給海量數據采集和分析造成很大的障礙。因此,建立新的數據表示方法,深入探討中醫藥不同維度信息的關聯規則是目前亟需解決的問題。
3 中醫藥數據的可視化
可視化是指利用計算機圖形學和圖像處理分析技術,將各種數據依據其特點轉換為相應的圖形圖像,進而通過圖形的表現形式進行信息表達和傳遞的過程,包括科學可視化、信息可視化和可視分析3個主要分支。“大數據”時代帶來前所未有的海量醫學數據,而人處理和理解數據的能力卻非常有限。因此,利用數據可視化的視覺呈現方法將醫學數據映射為視覺符號,通過人類視覺系統的高帶寬,可以幫助研究者快速獲取和理解其中所蘊含的規律和知識。
醫學文獻作為醫學信息的主要載體,是醫學領域工作者獲取知識、交流、傳播信息的最基本方式。因此,基于文獻計量的可視化分析工具就成為幫助研究者快速準確掌握相關學科動態的有效方法。目前,國際應用較多的文獻可視化工具有Thomson Data Analyzer(TDA)、CiteSpace、Histcite、Vxinsight、DIVA等。其中,CiteSpace是近幾年來美國信息可視化領域最有特色和影響力的應用軟件。諸多學者利用CiteSpace進行相關研究并報道CiteSpace對于研究前沿和熱點問題的可視化表達的優越之處[7-8]。Histcite對引文數據庫中的文獻數據進行計量處理,進而生成引文編年圖和引文矩陣,幫助醫學研究者輕松直觀地追蹤學科發展的動向。除了專業的文獻可視化軟件,還有許多網站和平臺通過新穎的技術和思路為研究者們提供文獻可視化研究的新方法。SciTrend是一個提供文獻可視化服務的網站,它通過對研究者查找文獻的關鍵詞和Mesh詞隨年代變化的分析,來判斷重點醫學研究的演變和影響。有研究者基于文獻計量學,分別把有關細胞基因、動物、人體的文獻作為3個節點,投射到可視化圖譜上,通過3點之間的距離變化來判斷轉化醫學的發展動態[9]。
科學可視化對測量、實驗、模擬等獲得的數據進行繪制,并提供交互分析手段,方法涉及計算機圖形學、圖像處理、人機交互等眾多學科。醫學領域中,高通量技術帶來的組學數據大爆炸,使復雜生物網絡數據等空間數據的可視化表達和分析變得日益重要。BiNA是一個組學網絡數據的可視化工具,不僅可以直接導入組學數據的平面文件,還能分析組學網絡數據間的聯系,并將結果可視化表達。這種可視化工具和方法對于組學數據的集成研究是十分有利的。VisBricks是一個大規模異構數據的可視化表示工具,它可以將不同來源的數據以不同的形式進行可視化表達,并可以將超大規模的數據有機地分成數個小的可視化表達單元,根據用戶的需要,將數據按特點、維度、功能等進行不同層次的可視化表示。中藥數據、方劑功效機制研究數據,以及中醫藥臨床的患者四診數據、理化檢查數據,都具有規模巨大、類型復雜多樣的特點,通過科學可視化的方法將這些復雜的空間數據呈現為研究者們易于理解的視覺表達符號,可以為中醫藥數據的表示方法這一環節提供有效的幫助。
4 中醫藥數據集成分析的應用展望
中醫千百年來的醫療實踐,經歷了從“神農嘗百草”式的隨機治療,到馬王堆醫書《五十二病方》呈現的對癥治療,從《黃帝內經》提出“謹守病機,各司其屬”的審機論治,到《傷寒雜病論》“觀其脈證,知犯何逆,隨證治之”初步形成的辨證論治。在漫長的發展過程中,中醫診療模式逐漸被理解為醫生通過望、聞、問、切收集患者的四診信息,綜合分析以獲得對患者病情的全面認識和把握,進而選擇最佳治療方法的過程。在這種傳統診療模式中,望、聞、問、切是醫生獲得人體陰陽盛衰、正邪斗爭狀況等“精微信息”的主要手段。然而,隨著現代醫療手段的不斷進步,生化、物理、影像等多種檢查結果已成為當代中醫臨證必須考慮的重要因素,不僅是辨證論治的依據,也是中醫臨床療效的佐證,還可進一步充實和豐富傳統的“辨證論治”診療模式,使辨證論治得到不斷深化和完善。對于某些疾病,實驗室檢查結果甚至可以直接用于指導中醫臨床治療;同時,隨著微觀辨證學認識的不斷發展,醫生觀察的維度可以深入到細胞化學、神經遞質、免疫調節乃至基因水平,解釋病證傳變規律,進而闡明方劑干預的作用機制,為臨床決策提供依據。
在中醫藥數據集成分析的支持下,“四診合參”所獲得的診療信息將更加豐富,“辨證論治”的傳統診療模式也將得到不斷充實和完善。在未來科研和醫療實踐中,基于中醫藥的數據集成分析,通過全方位地將患者癥狀、實驗室檢查、基因、組學等多層次的數據和信息整合于臨證過程,醫生所獲得的診療信息將不再是診療瞬間的“時間快照”,而是記錄著患者遺傳特征、表型特性、免疫調節、發病傾向等生命過程的“全程錄像”;醫生對患者的了解將從疾病的發生、發展和預后等疾病信息,擴展到患者的出生、成長、易感病預防、健康保健等“個體信息”;中醫藥數據集成分析幫助醫生獲取并有效利用患者多方面的信息,中醫“整體觀”“治未病”“個體化”的醫療理念也會因此得到更長足的深化和發展。
5 結語
未來醫療領域的發展趨勢是科研數據與臨床數據的全方位結合,醫療信息資源的全面共享和有效利用,逐步實現醫療信息和醫療資源的優化配置。中醫藥數據的集成分析力求科研數據與臨床數據的全面整合,促進數據資源的合理有效利用,為中醫藥領域帶來新的發現和機遇。
參考文獻:
[1] 陶雪嬌,胡曉峰,劉洋.大數據研究綜述[J].系統仿真學報,2013,25(S):142-146.
[2] 李國杰,程學旗.大數據研究:未來科技及經濟社會發展的重大戰略領域——大數據的研究現狀與科學思考[J].中國科學院院刊,2012,27(6):647-657.
[3] Tanya B, Dennis BT, Stephen EW, et al. NCBI GEO:archive for functional genomics data sets - 10 years on[J]. Nucleic Acids Research,2011,39(1):D1001-D1005.
[4] John HP, Chang FQ, Cheng C, et al. Multiscale integration of Omic, imaging, and clinical data in biomedical informatics[J]. IEEE Reviews in Biomedical Engineering,2012,5:74-87.
[5] 王廣基,郝海平,阿基業.代謝組學在中藥方劑整體藥效作用及機制研究中的應用與展望[J].中國天然藥物,2009,7(2):82-89.
[6] 孫學剛.方劑組學:一種基于方劑提取物質控的中醫藥轉化醫學研究策略[J].中藥藥理與臨床,2011,27(3):120-122.
[7] Qi Y, Shao HF, He PF, et al. World scientific collaboration in coronary heart disease research[J]. International Journal of Cardiology,2013,167(3):631-639.
[8] Chen Chaomei, Hu Zhigang, Liu Shengbo, et al. Emerging trends in regenerative medicine:a scientometric analysis in CiteSpace[J]. Expert Opinion on Biological Therapy,2012,12(5):593-608.
[9] Griffin MW. Identifying translational science within the triangle of biomedicine[J]. Journal of Translational Medicine, 2013,11(1):126-136.
(收稿日期:2014-05-22;編輯:梅智勝)