共詞分析國內外生物信息學領域研究態勢

2020-11-03 10:03:02劉亞文張紅燕陽靈燕

生物信息學 2020年3期

劉亞文，張紅燕，陽靈燕

(湖南農業大學信息與智能科學技術學院，長沙 410128)

生物信息學(Bioinformatics)是一門由生命科學、計算機科學、數學、物理學和化學等學科交叉而形成的前沿學科，其研究內容涵蓋了大規模的基因組、轉錄組、蛋白質組等多個組學層次的各自及整合性研究，應用領域也覆蓋了生物、醫學、藥學、農學、環境監測等多個領域[1]。生物信息學發展史可分為3個主要階段[2]：(1)前基因組時代(50～80年代)是基本生物信息學理論、方法、模型和軟件體系形成階段；(2)基因組時代(80年代末～2003年)，人類基因組計劃的實施進一步推動生物信息學的發展；(3)后基因組時代(2003年-至今)的核心內容之一是充分利用大量生物數據挖掘其生物信息和規律。作為一門新興學科，生物信息學領域的研究文獻逐年增加，這些文獻客觀記錄了該領域的發展概貌，開展相關文獻分析以了解生物信息學領域的研究現狀和研究熱點，對把握其未來的發展趨勢意義重大。目前，已有不少學者開展了文獻分析在生物信息學領域中的應用研究，如宋茂海等基于CNKI、中華醫學會數據庫采用共詞分析和可視化方法探討了生物信息學領域的學科分類和熱點內容[3]；王俊等基于大數據背景，從迅速發展、主要研究模塊、基礎背景等方面分析了生物信息學的研究現狀[4]；王蕊等基于Web of science數據庫分析了生物信息學數據庫研究的發展趨勢[5]。但利用文獻計量分析和關鍵詞共詞分析，同時基于CNKI中文數據庫和Web of science外文數據庫來對比分析國內外生物信息學領域研究的相關報道卻極其鮮見。

當兩個或兩個以上的關鍵詞同時出現在同一篇文獻中時，則稱之存在共現關系[6]。這種共現關系的緊密程度體現在關鍵詞共現的頻次上。關鍵詞共詞分析通過捕捉關鍵詞關系，分析它們所代表的學科和主題的結構變化，來跟蹤該研究領域的研究熱點，揭示其研究主題的演變過程[7]。本文以國內外生物信息學領域相關論文為研究對象，利用R語言編程工具，對文獻進行計量分析、關鍵詞共詞聚類分析，并以圖文展示了國內和國際生物信息領域的研究熱點與發展趨勢，以期為我國生物信息學領域科研人員的后續研究提供參考。

1 數據與方法

1.1 數據來源

采用的國內文獻來源于CNKI數據庫，以“生物信息學”為主題詞進行檢索，選擇全部期刊文獻，共檢索到1996～2018年共23年相關期刊論文6 893篇；國際文獻來源于Web of science數據庫，以“bioinformatics”為主題詞進行檢索，選擇核心合集論文，共檢索到2007～2018年共12年相關SCI收錄論文32 406篇。數據均于2019年1月采集。

1.2 研究方法

1.2.1 數據預處理

數據預處理主要通過利用R語言編程環境(RStudio Version 3.5.1)編寫R程序對原始數據進行數據清洗，數據清洗包括刪除作者為空的文獻記錄、刪除關鍵字為空的文獻記錄等操作，清洗處理后最終得到中文文獻6 717條記錄，外文文獻30 160條記錄。

1.2.2 高頻關鍵詞提取

預處理后的數據包含多個字段，CNKI文獻數據中包含的字段有Title(標題)、Author(作者)、Keyword(關鍵詞)、Summary(摘要)、Year(年份)等，Web of science文獻數據中包含的字段有AU(作者)、TI(標題)、PY(出版年)、AB(摘要)、DE(作者添加的關鍵詞)、ID(Web of science根據文章內容增加的關鍵詞)等。無論是中文文獻還是外文文獻，本文用于處理分析的主要是年份字段和關鍵詞字段。其中，國際文獻的關鍵詞字段有作者關鍵詞“DE”和WOS增加的關鍵詞“ID”，考慮到“ID”更具客觀性，故選用“ID”關鍵詞字段為后續分析所用。

年份字段主要應用于文獻的計量分析和熱點變遷的分段研究，關鍵詞字段則主要用于研究熱點和研究主題的提取。通常一個關鍵詞字段會包含多個以“，”或“；”分隔開的關鍵詞，我們先采用R語言擴展包tidytext中的unnest_tokens函數來提取關鍵詞；接著將其中的同義關鍵詞合并，如：關鍵詞“mirna”和“microrna”合并為“mirna”；最后，統計關鍵詞詞頻，并按頻次由高到低排序，得到關鍵詞詞頻表，并從中選取頻次較高的前n個關鍵詞作為高頻關鍵詞。

1.2.3 共詞分析

將高頻關鍵詞兩兩配對，構造高頻關鍵詞共現矩陣，矩陣中的元素為兩兩關鍵詞的共現次數。進一步，以共現矩陣為基礎，構建關鍵詞共現網絡。具體而言，共現網絡以n個高頻關鍵詞為網絡節點，當兩個關鍵詞之間的共現次數大于等于k次時，兩個關鍵詞節點間存在連線。

在共詞分析中，n和k的設置并無統一標準。高頻關鍵詞選取過多或是共現次數設置過小將導致所得研究熱點過于寬泛，而高頻關鍵詞選取過少或是共現次數設置過大將導致所得研究熱點缺乏代表性。綜合考慮文獻數量和關鍵詞詞頻情況，最終設置n=40、k=3，即選取前40個高頻關鍵詞用于構建共現矩陣，共現次數大于等于3次設置網絡連線。

1.2.4 聚類分析

基于關鍵詞共現網絡利用R中的cluster_louvain函數創建可視化聚類圖，并對其展開聚類分析。cluster_louvain函數采用的是Louvain聚類算法,即通過計算相鄰節點間的模塊度增量，實現節點間的動態聚合[8]。Louvain算法快速、準確，被公認為性能最好的社區發現算法之一。節點中心度是社會網絡分析的量化指標之一，中心度高的節點通常是較為關鍵的研究熱點[9]。特征向量中心度更是把相鄰節點的中心度也考慮在內[10]。通過分析聚類網絡圖和特征向量中心度，找出每類的核心關鍵詞及主要特征，進而挖掘出生物信息學領域的研究熱點及發展趨勢。

2國內生物信息學領域研究態勢分析

2.1 國內文獻量年變化趨勢分析

對1996～2018年CNKI數據庫中生物信息學相關的期刊論文量進行統計，利用R軟件中的plot函數繪制文獻量年變化趨勢圖，如圖1所示。從圖中可以看出相近年份間文獻量略微有些波動，但總體上文獻量呈增長趨勢。這也從一定程度上反映了我國生物信息學的發展處于持續上升的成長期。

圖1 1996～2018國內生物信息學文獻量變化趨勢圖Fig.1 Trend of domestic bioinformatics literature quantity between 1996 and 2018

2.2 國內研究熱點分析

關鍵詞是某一研究主題的提煉和對文章核心思想的高度概括[11]。通過對關鍵詞頻次和中心度的統計分析，得到40個高頻關鍵詞的相關結果(見表1)。其中，頻次排名靠前的關鍵詞有“克隆”、“基因克隆”、“序列分析”、“基因”、“數據庫”、“電子克隆”等，各關鍵詞前后的頻次差距不大，體現了生物信息學領域研究熱點的多方向發展。

進一步共詞分析和聚類分析，得到國內生物信息學文獻關鍵詞聚類圖(見圖2)，圖中關鍵詞節點的顏色不同表示所屬類別不同，40個關鍵詞被聚成了4類。整體分析時所得表1中中心度較高的關鍵詞有克隆、基因表達、基因克隆、序列分析等也基本上是各類別中的核心關鍵詞。

依據聚類結果及中心度情況，結合具體文獻和專業知識，可將國內生物信息學領域研究熱點歸納如下：

(1)基因克隆及生物信息學分析研究這一類的高頻詞有克隆、序列分析、基因克隆、表達分析、race、原核表達、rt-pcr等。傳統的基因克隆方法利用限制性內切酶和連接酶在體外連接的方法構建重組載體，步驟繁瑣且受限于酶切位點，隨著測序技術的發展，一些簡化組裝流程的DNA克隆及組裝新技術競相發展[12]。生物信息學分析包括了序列分析、基因分析和蛋白分析等多種方法。利用基因克隆技術結合生物信息學分析研究以達到對基因功能、結構預測的目的是國內生物信息學領域的研究熱點之一。

(2)生物信息學數據庫與基因挖掘研究分析這一類中包含的高頻關鍵詞有數據庫、基因表達、人類基因組計劃、數據挖掘、計算生物學、序列比對等。生物信息學的數據主要貯藏在數據庫中，而數據挖掘則從生物信息學數據庫中調用、提取數據[13]。生物信息學數據庫的主要特點有：數據庫種類的多樣性、數據庫數據量增長驚人、逐漸形成綜合性生物信息學數據庫平臺、數據庫高度網絡化等[14]。如何利用生物信息學數據庫并采用合適的數據挖掘算法進行有效的基因挖掘研究分析是國內生物信息學領域的研究熱點之一。

(3)miRNA研究分析這一類中包含的高頻關鍵詞有生物信息學、mirna、啟動子、靶基因、轉錄因子、基因芯片等。miRNA也就是MicroRNA，是基因表達的負調控因子，主要通過RNA干擾(RNAi)途徑進行調控[15]。隨著生物信息學技術的發展，新miRNA的發現及其相關調控機制的研究分析已成為國內生物信息學領域的研究熱點之一。

(4)電子克隆分析這一類的高頻詞有基因家族、水稻、擬南芥、玉米、電子克隆、表達序列標簽。電子克隆技術是近年來發展起來的基因克隆新方法，其應用是基于數據庫、計算機網絡和應用軟件這三部分生物信息學資源而展開的[16]。電子克隆技術是發現新基因和確定基因功能的重要手段，也是國內生物信息學領域的研究熱點之一。

表1 1996～2018生物信息學中文文獻高頻關鍵詞表Table 1 High frequency keywords in Chinese literature of bioinformatics between 1996 and 2018

圖2 1996～2018國內生物信息學文獻關鍵詞聚類圖Fig.2 Keywords cluster of domestic bioinformatics literature between 1996 and 2018

2.3 國內研究趨勢分析

前文對國內生物信息學領域研究熱點做了整體分析，此處對國內研究熱點隨時間變遷作進一步分析。以40個高頻關鍵詞為行，年份為列，分年度統計每個關鍵詞出現的頻次，構建國內文獻年份-關鍵詞統計表(見表2)。

為了便于國內外的對比分析，將1996～2006年的國內文獻高頻關鍵詞作為整體分析，結果表明國內早期生物信息學的研究熱點主要集中在基因數據庫研究，其代表高頻關鍵詞有“數據庫”、“人類基因組計劃”等；對2007～2018年的文獻，通過分析各高頻關鍵詞的頻數相對密集年份等特征可知：2007～2010年更側重于蛋白質數據庫研究以及本體和結構域研究，代表關鍵詞有“蛋白質組學”、“數據挖掘”、“結構”等；2011～2013年主要是電子克隆研究，代表關鍵詞有“電子克隆”、“水稻”、“序列分析”等；2014～2018年該領域研究熱點更加多樣，主要在miRNA分析、基因和蛋白質結構和功能預測分析等，代表關鍵詞有“亞細胞定位”、“基因芯片”、“miRNA”、“功能”、“計算生物學”等。

表2 國內文獻年份-關鍵詞統計表(部分)Table 2 Year-keyword statistics of domestic literature (partial)

3 國際生物信息學領域研究態勢分析

3.1 國際文獻年變化趨勢分析

2007～2018年SCI數據庫中生物信息學相關文獻量的年份變化趨勢(見圖3)。從圖中可以看出文獻量逐年增長，速度較快。總的來說，國際文獻的年份統計結果顯示了生物信息學領域的研究正處于發展中。

圖3 2007～2018國際生物信息學文獻量變化趨勢圖Fig.3 Trend of international bioinformatics literature quantity between 2007 and 2018

3.2 國際研究熱點分析

通過對國際文獻關鍵詞頻次的統計分析，得到40個高頻關鍵詞(見表3)。從表3中不難發現，關鍵詞expression、identification、protein、gene、gene-expression的頻次較高。而主題檢索詞“bioinformatics”并不是頻次最高的關鍵詞，這一現象也從側面說明了選取WOS的關鍵詞字段“ID”進行共詞分析是合理的。

表3 2007-2018生物信息學國際文獻高頻關鍵詞表Table 3 High frequency keywords in international literature of bioinformatics between 2007 and 2018

同上，通過共詞分析和聚類分析，得到的國際生物信息學文獻關鍵詞聚類圖，40個關鍵詞被聚成了2類(見圖4)。

同上，依據聚類結果及中心度情況，并結合具體文獻和專業知識，可將國際生物信息學領域研究熱點歸納如下：

(1)miRNA及與之相關的分子間相互作用研究這一類包含的高頻關鍵詞有cells(細胞)、proliferation(增殖)、apoptosis(細胞凋亡)、micrornas、pathway(神經通路)等。miRNA及其產物mRNAs形成復雜的調控網絡，參與細胞的生長、分化、增殖、死亡等一系列重要的生命過程，基因表達譜微陣列的生物信息學分析已被廣泛用于識別各種疾病中的重要分子機制和生物標志物[17]。利用生物信息學分析方法挖掘miRNA功能并得到與之相關的分子間相互作用成為了國際生物信息學領域的研究熱點之一。

(2)基因、蛋白質等功能預測與應用研究這一類包含的高頻關鍵詞有identification(識別)、expression(表達)、protein(蛋白質)、database(數據庫)、prediction(預測)、sequence(序列)。眾所周知，生物實驗的實施大都費用昂貴且費時，而生物信息學的產生就是為了攻破這些傳統的生物學難題。例如，蛋白質組學領域的一個重要研究方向就是利用有效的算法對DNA結合蛋白進行鑒定與預測[18]。因此，利用數據庫和有效的計算預測方法在基因、蛋白質等功能預測與應用方面的研究是國際生物信息學領域的研究熱點之一。

3.3 國際研究趨勢分析

分年度統計40個國際文獻高頻關鍵詞出現的頻次，構建國際文獻年份-關鍵詞統計表(見表4)。并參照國內文獻劃分時間段來進行研究趨勢分析，即分為2007～2010年、2011～2013年、2014～2018年三個時間段。結果表明，2007～2010年該領域在國際的研究熱點側重于數據庫分析以及實驗工具、算法的改進；2011～2013年的研究熱點集中在蛋白質分析及應用；2014～2018年的研究熱點較為偏向于miRNA分析及應用。

圖4 2007～2018國際生物信息學文獻關鍵詞聚類圖Fig.4 Keywords cluster of international bioinformatics literature between 2007 and 2018

表4 國際文獻年份-關鍵詞統計表(部分)Table 4 Year-keyword statistics of international literature (partial)

4 討論與總結

以國內外生物信息學領域期刊論文為研究對象，從年文獻量變化趨勢、研究熱點、分階段研究趨勢三個方面進行分析，得出結論如下：

1)國內外年文獻量變化趨勢分析國內外生物信息學研究均處于高速發展期，文獻量均呈逐年增長趨勢，不過國內文獻的增長速度小于國際文獻的增長速度。

2)研究熱點分析國內的研究熱點有基因克隆及生物信息學分析研究、生物信息學數據庫與基因挖掘研究分析、miRNA研究分析、電子克隆分析等；國際的研究熱點有基因、蛋白質等功能預測與應用研究和miRNA及與之相關的分子間相互作用研究等。國內外研究熱點均聚焦在基因挖掘、蛋白質結構與功能預測、miRNA分析等，但國內的生物信息學領域研究更側重于理論研究，而國際生物信息學領域研究則更加注重其在疾病(癌癥)治療、藥物設計等方面的實際應用。

3)分階段研究趨勢分析國內生物信息學領域研究熱點在不同階段內略有波動，呈現了較為明顯的熱點變遷狀況；而國際生物信息學領域研究熱點在不同階段內的變化很小，高頻關鍵詞的頻次幾乎都是逐年增加，而且關鍵詞之間的聯系較強，是較為均衡的發展。整體來看，國內外生物信息學的研究范圍均在不斷拓寬。