熊 婕,雷 蕾,李海燕,黃滿婷,亢 力,楊 策
(中國中醫科學院中醫藥信息研究所 北京 100700)
針灸學源遠流長,具有獨特的理論體系和思維模式[1],幾千年來指導著臨床實踐,為了探求針刺治療疾病的機制和原理,針刺效應機制相關動物實驗不斷開展[2],成為針灸針灸學領域研究的重點和熱點問題[3,4]。目前,這些針刺效應研究數據散在于海量文獻之中,難以進行系統總結和分析挖掘,更無法快速地給研究者提供直觀清晰的知識,也不便于進行知識之間的關聯檢索。因此,本研究旨在構建基于文獻大數據的穴位刺激效應可視化平臺,為針刺生物學機制的深入研究提供規范化的數據支持及輔助展示和文獻檢索工具。
穴位刺激效應研究主要通過動物實驗的方法,研究針刺穴位作用于特定疾病模型所產生的效應機制,其利用生物信息學的理論、技術與方法,來闡述針刺穴位的作用機制及分子途徑。隨著現代科學技術的不斷進步與發展,世界各國針灸的學術交流日趨頻繁[5],以穴位刺激效應為核心的針刺效應作用機制研究成為大家關注的熱點,極大促使了現代針灸學的多學科發展[6]以及針灸作用機制的深入研究,同時產生了海量針刺實驗文獻數據。
在穴位刺激效應實驗研究中,融合了中西醫兩種不同的思維方式。穴位刺激效應研究通過動物實驗的方法來闡釋針刺的作用機制,其基于解剖學和生理病理學理論,在實驗研究的方法論上更注重還原論思維;而穴位刺激效應研究的實驗方案則是在針灸學和中醫理論的指導下進行,基于中國傳統哲學思想的中醫學則更注重系統觀和整體觀念。實驗研究從形態結構和分子生物角度認識生命過程,而中醫學從功能狀態入手闡述人體生命變化,從而形成獨特的醫學理論并指導醫療活動[7]。兩種不同的醫學體系,其認識生命的過程以及基于此認識的診斷、干預及療效評價過程雖然可以相互借鑒,但在實驗研究數據基礎上如何從整體觀角度出發,進行符合中醫自身規律和特點的針刺穴位效應研究是我們亟待思考的問題。由此,將目前現有的大量實驗數據進行規范及整合分析,顯得尤為重要。綜合以上考慮,本研究旨在對涉及不同實驗來源的數據集及其形成的包括機體器官(功能評分)、組織細胞(微觀機能)、分子網絡等各級水平的針刺效應數據進行抽取,依據數據及其內在關系,利用計算機生成的圖形和圖表來表示針刺效應錯綜復雜的過程,為針刺生物學機制的深入研究提供規范化的數據支持及多維度的可視化展示。
1.2.1 生物信息的復雜網絡研究
上個世紀90年代,隨著高通量實驗技術(如生物芯片、生物質譜[8]、酵母雙雜交系統[9]和蛋白質親和層析[10]等)的發展和人類基因組計劃的啟動,生命科學從基因組到蛋白質組的各個層次都積累了海量的生物數據[11]。作為生物信息的研究對象,生物體本身是一個具有高度復雜性的系統,其典型特征是非線性,即生物體部分功能的總和并不能完全代表和等同于整體功能,簡單來說就是“整體大于部分之和”[12]。這種非線性的分子基礎在于各種生物大分子、基因及蛋白質之間頻繁而復雜的相互作用以及其構成的生物網絡[13],生物體的所有生命活動都依賴于這些生物網絡的結構和功能[14,15]。根據目前所能獲得的局部、片面、零散的生物信息,我們無法全面了解生物體作為一個復雜系統應有的性質和功能。因此,有必要站在將生物體作為整體的高度,收集整合已掌握的生物信息,夯實其性質和功能研究的數據基礎,復雜網絡為生物體這一復雜系統的研究,提供了強有力的描述方式;反過來,生物信息復雜網絡的研究成果也能對探索人體復雜性產生啟發和借鑒。因此,構建穴位刺激效應可視化平臺,采用復雜網絡的方法進行數據分析,有助于整合規范海量文獻中的穴位刺激效應數據,為針刺作用機制研究提供參考依據。
1.2.2 基于標準化數據庫的復雜網絡可視化研究
可視化(Visualization)是利用計算機圖形學和圖像處理技術,將數據轉換成圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術,是研究數據表示、數據處理、決策分析等一系列問題的綜合技術[16]。復雜網絡的可視化尤適用于有相互作用關系的復雜系統和高維數據的分析,如生物分子的相互作用、代謝途徑、調控作用和基因表達等。目前常用的復雜網絡可視化工具有Cytoscape、R 中的igraph 包以及Perl中的GraphViz包等,可以將納入研究的蛋白質、DNA 和其他對人類和生物有重要作用的分子數據庫關聯起來,形成龐大的網絡結構,便于數據的系統分析。
目前,中醫藥領域中可視化研究主要集中于對學科研究熱點及趨勢的可視化分析展示,所用技術集中于可視化知識圖譜技術的應用[17],對于中醫藥學研究過程中產生的生物信息進行可視化研究的報道較少。因此,以針刺穴位刺激效應信息為切入點,引入生物信息可視化技術,對更深層次的組織、管理、挖掘隱藏于文獻中針刺實驗信息尤為必要。
基于大量穴位刺激效應文獻數據的系統分析和挖掘需求,該平臺可提供從文獻信息獲取至文獻數據分析的“一站式服務”。在平臺可進行文獻檢索、文獻下載以及全文查詢等功能,同時支持在線使用復雜網絡的方法,對數據進行多層次、多維度的動態展示,為研究者研究提供規范全面的數據支持及輔助挖掘、可視化工具(圖1)。本平臺實現的關鍵技術在于文獻數據的標準化及數據庫的構建。
以“針刺OR 針灸OR 電針”為檢索式,以“動物”為特征詞檢索中國生物醫學文獻數據庫(CBM)、中國知網(CNKI)和PubMed數據庫。針對不同類型的文獻調整檢索策略,收集文獻題錄基本信息、針刺治療相關信息、電針治療相關信息、基因蛋白通路相關信息、實驗效應相關信息。
文獻納入標準:①動物實驗研究文獻,②單純針刺療法相關(包括體針、頭針、皮膚針、電針等多種針刺方法)研究文獻。
文獻排除標準:①綜述、文獻計量學相關文獻,②以針刺和藥物同時作為干預方法的研究文獻,③以藥物注射作為干預方法的相關文獻。對文獻題錄信息進行篩選,得到最終符合研究的穴位刺激效應相關文獻。

圖1 穴位刺激效應可視化平臺整體設計
經以上步驟,篩選納入1956年-2019年60 余年的相關文獻共計14284 篇,其中近20年(2000年-2019年)文獻發表數量明顯增加(圖2),共計11366篇,占總文獻量的79.67%。文獻質量較高,文獻出處為北大核心期刊的文章6263 篇,科技論文統計源期刊文獻10592 篇,分別占總文獻量的43.85%和74.15%。可視化展示內容涉及針刺穴位459 個,針次穴位頻次累計19943 次,功能評分、微觀機能、分子水平等針刺效應頻次累計7565次。

圖2 穴位刺激效應文獻量年度分布情況
采用人工摘錄的方式,從文獻中收集針刺治療相關信息、電針治療相關信息、基因蛋白通路相關信息、實驗效應相關信息。為了保證數據質量,我們將采用雙人錄入,一人審校制度,即兩名加工人員進行相同文獻的數據摘錄工作,一名審校人員對數據進行對比審核,直接修改或刪除不全的數據條目,確保正確數據保留下來。
2.3.1 疾病模型名稱和病理狀態的規范
疾病模型名稱規范參考美國國立醫學圖書館發布的《醫學主題詞表》[18](Medical Subject Headings,MeSH),根據文獻原文中的描述在標準詞表中找到相應的標準疾病名或癥狀體征;標準詞表中找不到規范詞的數據,則參照原文規范為其上級疾病名,并做好相應標記。
2.3.2 穴位名稱的規范
穴位名稱規范參考中國中醫藥學主題詞表[19,20],根據文獻原文中的描述在標準詞表中找到規范的穴位名稱;標準詞表中找不到規范詞的數據,參照原文進行規范,并做好相應標記。
2.3.3 穴位刺激效應字段的規范
為了盡可能詳盡地采集數據,經專家咨詢和討論,針對針刺動物實驗產生的穴位刺激效應,設計出不同維度的采集指標,包括功能評分、微觀機能、組織細胞水平、分子水平和其他水平等5 類字段[21]。功能評分字段主要記錄針刺動物產生的宏觀癥狀、體征及行為學指標等,如體重變化、疼痛評分、學習記憶能力評分、神經行為學評分等。微觀機能字段主要記錄影像學指標、病理生理過程中的指標等,如心功能、膜電位、超微機構及血液流變。組織細胞水平字段主要記錄組織細胞病理學指標、血液生化指標等,如梗死面積、細胞凋亡數、白細胞計數等。分子水平字段主要記錄免疫遺傳學指標,包括基因、蛋白、核酸等,如轉化生長因子-β1(TGF-β1)水平、酪氨酸蛋白激酶A(tyrosine kinase A,TrkA)表達、熱休克蛋白70(Hsp70)表達。不屬于以上分類的指標記錄在其他水平字段,如一氧化氮含量等。微觀機能、組織細胞水平字段的規范以《醫學主題詞表》(MeSH)為標準,分子水平字段參照PubMed-Gene and Protein 和KEGG 數據庫進行規范,基因名稱的規范均以人類基因的名稱為準。若不能在相應的參照標準中找到規范描述,則以一個較為通用的字段為標準進行統一規范,并做好記錄工作。
基于針刺實驗文獻的內容分布,構建數據庫表結構及關聯關系,形成多張信息表,以規范收集文獻的基本信息、針刺治療信息、電針治療信息、基因蛋白通路相關信息、實驗效應相關信息等。不同的信息表通過原序號與文獻表相關聯。數據庫的表結構和關聯關系詳見圖3。
為了方便數據加工及數據標準化,本研究還開發相應的數據加工系統。經管理員分配任務后,數據加工人員可登錄平臺,在線打開原文進行不同表格、不同字段的填寫;數據填寫提交后轉入審核人員界面,供審核人員審核修改。
數據加工平臺具備多極化、多角色的數據管理功能,數據經過雙人錄入提交后,需要多個審查員進行初審、終審兩次審查規范,通過標記或修改錯誤,確保數據采集的真實性和準確性,同時便于回溯數據處理和標準化過程。
在完成以上數據標準化加工的基礎上,采用Browser-Server 方式的Web 應用程序,進一步使用java語言進行可視化平臺的開發,本平臺已獲得計算機軟件著作權1項(登記號:2017SR566940)[22]。
穴位刺激效應可視化平臺可以對用戶提供多角度文獻數據源篩選功能,用戶可以按照研究目的,選擇疾病、穴位、效應、療法、組織器官5種檢索入口(圖4)進行檢索,以便抽取出更加符合研究目標的數據納入復雜網絡,以提高納入數據的質量,得到較為理想的結果。如在“穴位”檢索入口檢索“足三里”,則得到針刺足三里產生穴位刺激效應的相關文獻;在“效應”檢索入口檢索“梗死面積”,則可以得到針刺穴位效應為改變心肌梗死面積的相關文獻;在“療法”檢索入口檢索“電針”,即可獲得電針作用于疾病模型的穴位刺激效應相關文獻。
穴位刺激效應研究涉及疾病模型、針刺穴位、多種穴位刺激效應等多方面數據,因此,如何方便快捷地多層次、多角度動態展示相關信息為可視化的重要目的。本平臺提供多種可視化展示模式,即用戶在檢索結果中選取若干文獻后,可以將文獻中所涉及的疾病、穴位、效應、療法、組織器官等5種知識元及其之間的關系,以樹形模式、圓形模式、網狀模式3種方式展示(圖5),并在表格模式中可查詢本次可視化展示所納入的數據。可視化圖形支持放大、縮小、位置移動等操作,以適應不同情況下的可視化顯示需求。在圖形顯示中,不同類型知識元以不同顏色的節點顯示,節點間連線用來表示知識元之間的關系。連線上的數字具有特殊的含義,它不但代表了知識元或者多個知識元所在文獻出現的次數,雙擊數字還可以進行查詢檢索,用戶能夠快速、直觀、準確地找到所需要的文獻,是不同于關鍵詞檢索、主題檢索等檢索模式的新檢索模式。

圖3 數據庫的表結構和關聯關系

圖4 多角度文獻檢索篩選界面

圖5 以帕金森病為例的可視化展示
3種可視化模式中,樹形模式和圓形模式便于研究者了解同一篇文章中的數據情況,以及不同文獻中數據的多角度對比。而網狀模式是將納入研究的數據進行系統分析,便于展示“疾病-穴位-穴位刺激效應-基因蛋白”間的多維度復雜關系。科研人員可以將多種可視化方式結合起來進行研究分析。
以“帕金森病”為檢索詞檢索文獻后,篩選研究相關文獻納入研究。為防止可視化展示因數據過多而產生混亂,本平臺限定最多納入10篇文獻中的數據為本次可視化的關系節點,但可視化圖片中展示的數字為整個數據庫中的數據,不限于檢索出的10 篇文獻。例如,本次檢索納入10 篇帕金森病相關文獻,其中涉及的針刺效應如神經行為學表現、RET、NEFL 等節點及針刺部位如風府、太沖、關元、足三里等節點,這些節點均來源于檢索出的10篇文獻;節點后的數字表明數據庫中出現該字段的文獻數量,如“神經行為學表現[171]”表示該字段在數據庫中出現171次,前面的箭頭“↓”則表明針刺可以減少神經行為學量表評分;節點間連線上的數字表示數據庫中描述兩者關系的文獻數量,并且雙擊該數字可以直接顯示文獻名稱列表,如“NEFL”與“風府”的連線上的數字2 表明有兩篇文獻研究結果顯示,針刺風府穴能夠上調NEFL水平。
可視化展示可綜合多篇文獻內容,了解針刺治療特定疾病相關的穴位刺激效應,如圖5 中的樹形結構表示對帕金森病模型進行針刺,產生的穴位效應指標主要有分子水平、組織細胞水平、功能評分等。分子水平分支中的“NEFL 指標”一支表示,可以通過針刺風府、太沖、關元等穴位而產生上調該指標的效應。點擊“NEFL”后面的數字,可以檢索到這個基因研究相關的6 篇文獻[23-28],點擊“NEFL”與“太沖”連線上的數字,可以檢索到針刺太沖穴調節NEFL水平的文獻[22]。
隨著針刺效應機制研究的深入和發展,產生的大量針刺實驗數據散在于海量文獻之中,難以進行系統地總結和分析挖掘。本研究首次建立穴位刺激效應可視化平臺,納入中國60 余年針刺效應實驗相關論文,對于涉及不同實驗來源的數據集及其形成的包括機體器官(功能評分)、組織細胞(微觀機能)、分子網絡等各級水平的穴位刺激效應數據進行抽取,依據數據及其內在關系,利用計算機生成的圖形和圖表來表示針刺效應錯綜復雜的過程,旨在整合穴位刺激效應信息資源,直接、便捷地展示相關研究成果,為針刺作用機制研究提供數據支持和輔助挖掘工具。目前,穴位刺激效應可視化平臺[29]已經投入使用2-3年,文獻數據庫每年保持更新,可提供7 天24 h 免費服務。由于該平臺尚未進行廣泛推廣,相關應用研究及其驗證實驗沒有大規模開展,還存在諸多有待改進的地方。未來將會在數據更新的同時逐步完善平臺功能,如增加文獻質量分類、發表年限等輔助檢索功能,以便增強可視化內容的精準性,同時也期待本平臺能被針刺機制研究領域人員廣泛使用,并提出寶貴的改進建議和臨床科研需求。