999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

共詞分析國內外生物信息學領域研究態勢

2020-11-03 10:03:02劉亞文張紅燕陽靈燕
生物信息學 2020年3期
關鍵詞:數據庫生物分析

劉亞文,張紅燕,陽靈燕

(湖南農業大學 信息與智能科學技術學院,長沙 410128)

生物信息學(Bioinformatics)是一門由生命科學、計算機科學、數學、物理學和化學等學科交叉而形成的前沿學科,其研究內容涵蓋了大規模的基因組、轉錄組、蛋白質組等多個組學層次的各自及整合性研究,應用領域也覆蓋了生物、醫學、藥學、農學、環境監測等多個領域[1]。生物信息學發展史可分為3個主要階段[2]:(1)前基因組時代(50~80年代)是基本生物信息學理論、方法、模型和軟件體系形成階段;(2)基因組時代(80年代末~2003年),人類基因組計劃的實施進一步推動生物信息學的發展;(3)后基因組時代(2003年-至今)的核心內容之一是充分利用大量生物數據挖掘其生物信息和規律。作為一門新興學科,生物信息學領域的研究文獻逐年增加,這些文獻客觀記錄了該領域的發展概貌,開展相關文獻分析以了解生物信息學領域的研究現狀和研究熱點,對把握其未來的發展趨勢意義重大。目前,已有不少學者開展了文獻分析在生物信息學領域中的應用研究,如宋茂海等基于CNKI、中華醫學會數據庫采用共詞分析和可視化方法探討了生物信息學領域的學科分類和熱點內容[3];王俊等基于大數據背景,從迅速發展、主要研究模塊、基礎背景等方面分析了生物信息學的研究現狀[4];王蕊等基于Web of science數據庫分析了生物信息學數據庫研究的發展趨勢[5]。但利用文獻計量分析和關鍵詞共詞分析,同時基于CNKI中文數據庫和Web of science外文數據庫來對比分析國內外生物信息學領域研究的相關報道卻極其鮮見。

當兩個或兩個以上的關鍵詞同時出現在同一篇文獻中時,則稱之存在共現關系[6]。這種共現關系的緊密程度體現在關鍵詞共現的頻次上。關鍵詞共詞分析通過捕捉關鍵詞關系,分析它們所代表的學科和主題的結構變化,來跟蹤該研究領域的研究熱點,揭示其研究主題的演變過程[7]。本文以國內外生物信息學領域相關論文為研究對象,利用R語言編程工具,對文獻進行計量分析、關鍵詞共詞聚類分析,并以圖文展示了國內和國際生物信息領域的研究熱點與發展趨勢,以期為我國生物信息學領域科研人員的后續研究提供參考。

1 數據與方法

1.1 數據來源

采用的國內文獻來源于CNKI數據庫,以“生物信息學”為主題詞進行檢索,選擇全部期刊文獻,共檢索到1996~2018年共23年相關期刊論文6 893篇;國際文獻來源于Web of science數據庫,以“bioinformatics”為主題詞進行檢索,選擇核心合集論文,共檢索到2007~2018年共12年相關SCI收錄論文32 406篇。數據均于2019年1月采集。

1.2 研究方法

1.2.1 數據預處理

數據預處理主要通過利用R語言編程環境(RStudio Version 3.5.1)編寫R程序對原始數據進行數據清洗,數據清洗包括刪除作者為空的文獻記錄、刪除關鍵字為空的文獻記錄等操作,清洗處理后最終得到中文文獻6 717條記錄,外文文獻30 160條記錄。

1.2.2 高頻關鍵詞提取

預處理后的數據包含多個字段,CNKI文獻數據中包含的字段有Title(標題)、Author(作者)、Keyword(關鍵詞)、Summary(摘要)、Year(年份)等,Web of science文獻數據中包含的字段有AU(作者)、TI(標題)、PY(出版年)、AB(摘要)、DE(作者添加的關鍵詞)、ID(Web of science根據文章內容增加的關鍵詞)等。無論是中文文獻還是外文文獻,本文用于處理分析的主要是年份字段和關鍵詞字段。其中,國際文獻的關鍵詞字段有作者關鍵詞“DE”和WOS增加的關鍵詞“ID”,考慮到“ID”更具客觀性,故選用“ID”關鍵詞字段為后續分析所用。

年份字段主要應用于文獻的計量分析和熱點變遷的分段研究,關鍵詞字段則主要用于研究熱點和研究主題的提取。通常一個關鍵詞字段會包含多個以“,”或“;”分隔開的關鍵詞,我們先采用R語言擴展包tidytext中的unnest_tokens函數來提取關鍵詞;接著將其中的同義關鍵詞合并,如:關鍵詞“mirna”和“microrna”合并為“mirna”;最后,統計關鍵詞詞頻,并按頻次由高到低排序,得到關鍵詞詞頻表,并從中選取頻次較高的前n個關鍵詞作為高頻關鍵詞。

1.2.3 共詞分析

將高頻關鍵詞兩兩配對,構造高頻關鍵詞共現矩陣,矩陣中的元素為兩兩關鍵詞的共現次數。進一步,以共現矩陣為基礎,構建關鍵詞共現網絡。具體而言,共現網絡以n個高頻關鍵詞為網絡節點,當兩個關鍵詞之間的共現次數大于等于k次時,兩個關鍵詞節點間存在連線。

在共詞分析中,n和k的設置并無統一標準。高頻關鍵詞選取過多或是共現次數設置過小將導致所得研究熱點過于寬泛,而高頻關鍵詞選取過少或是共現次數設置過大將導致所得研究熱點缺乏代表性。綜合考慮文獻數量和關鍵詞詞頻情況,最終設置n=40、k=3,即選取前40個高頻關鍵詞用于構建共現矩陣,共現次數大于等于3次設置網絡連線。

1.2.4 聚類分析

基于關鍵詞共現網絡利用R中的cluster_louvain函數創建可視化聚類圖,并對其展開聚類分析。cluster_louvain函數采用的是Louvain聚類算法,即通過計算相鄰節點間的模塊度增量,實現節點間的動態聚合[8]。Louvain算法快速、準確,被公認為性能最好的社區發現算法之一。節點中心度是社會網絡分析的量化指標之一,中心度高的節點通常是較為關鍵的研究熱點[9]。特征向量中心度更是把相鄰節點的中心度也考慮在內[10]。通過分析聚類網絡圖和特征向量中心度,找出每類的核心關鍵詞及主要特征,進而挖掘出生物信息學領域的研究熱點及發展趨勢。

2國內生物信息學領域研究態勢分析

2.1 國內文獻量年變化趨勢分析

對1996~2018年CNKI數據庫中生物信息學相關的期刊論文量進行統計,利用R軟件中的plot函數繪制文獻量年變化趨勢圖,如圖1所示。從圖中可以看出相近年份間文獻量略微有些波動,但總體上文獻量呈增長趨勢。這也從一定程度上反映了我國生物信息學的發展處于持續上升的成長期。

圖1 1996~2018國內生物信息學文獻量變化趨勢圖Fig.1 Trend of domestic bioinformatics literature quantity between 1996 and 2018

2.2 國內研究熱點分析

關鍵詞是某一研究主題的提煉和對文章核心思想的高度概括[11]。通過對關鍵詞頻次和中心度的統計分析,得到40個高頻關鍵詞的相關結果(見表1)。其中,頻次排名靠前的關鍵詞有“克隆”、“基因克隆”、“序列分析”、“基因”、“數據庫”、“電子克隆”等,各關鍵詞前后的頻次差距不大,體現了生物信息學領域研究熱點的多方向發展。

進一步共詞分析和聚類分析,得到國內生物信息學文獻關鍵詞聚類圖(見圖2),圖中關鍵詞節點的顏色不同表示所屬類別不同,40個關鍵詞被聚成了4類。整體分析時所得表1中中心度較高的關鍵詞有克隆、基因表達、基因克隆、序列分析等也基本上是各類別中的核心關鍵詞。

依據聚類結果及中心度情況,結合具體文獻和專業知識,可將國內生物信息學領域研究熱點歸納如下:

(1)基因克隆及生物信息學分析研究 這一類的高頻詞有克隆、序列分析、基因克隆、表達分析、race、原核表達、rt-pcr等。傳統的基因克隆方法利用限制性內切酶和連接酶在體外連接的方法構建重組載體,步驟繁瑣且受限于酶切位點,隨著測序技術的發展,一些簡化組裝流程的DNA克隆及組裝新技術競相發展[12]。生物信息學分析包括了序列分析、基因分析和蛋白分析等多種方法。利用基因克隆技術結合生物信息學分析研究以達到對基因功能、結構預測的目的是國內生物信息學領域的研究熱點之一。

(2)生物信息學數據庫與基因挖掘研究分析 這一類中包含的高頻關鍵詞有數據庫、基因表達、人類基因組計劃、數據挖掘、計算生物學、序列比對等。生物信息學的數據主要貯藏在數據庫中,而數據挖掘則從生物信息學數據庫中調用、提取數據[13]。生物信息學數據庫的主要特點有:數據庫種類的多樣性、數據庫數據量增長驚人、逐漸形成綜合性生物信息學數據庫平臺、數據庫高度網絡化等[14]。如何利用生物信息學數據庫并采用合適的數據挖掘算法進行有效的基因挖掘研究分析是國內生物信息學領域的研究熱點之一。

(3)miRNA研究分析 這一類中包含的高頻關鍵詞有生物信息學、mirna、啟動子、靶基因、轉錄因子、基因芯片等。miRNA也就是MicroRNA,是基因表達的負調控因子,主要通過RNA干擾(RNAi)途徑進行調控[15]。隨著生物信息學技術的發展,新miRNA的發現及其相關調控機制的研究分析已成為國內生物信息學領域的研究熱點之一。

(4)電子克隆分析 這一類的高頻詞有基因家族、水稻、擬南芥、玉米、電子克隆、表達序列標簽。電子克隆技術是近年來發展起來的基因克隆新方法,其應用是基于數據庫、計算機網絡和應用軟件這三部分生物信息學資源而展開的[16]。電子克隆技術是發現新基因和確定基因功能的重要手段,也是國內生物信息學領域的研究熱點之一。

表1 1996~2018生物信息學中文文獻高頻關鍵詞表Table 1 High frequency keywords in Chinese literature of bioinformatics between 1996 and 2018

圖2 1996~2018國內生物信息學文獻關鍵詞聚類圖Fig.2 Keywords cluster of domestic bioinformatics literature between 1996 and 2018

2.3 國內研究趨勢分析

前文對國內生物信息學領域研究熱點做了整體分析,此處對國內研究熱點隨時間變遷作進一步分析。以40個高頻關鍵詞為行,年份為列,分年度統計每個關鍵詞出現的頻次,構建國內文獻年份-關鍵詞統計表(見表2)。

為了便于國內外的對比分析,將1996~2006年的國內文獻高頻關鍵詞作為整體分析,結果表明國內早期生物信息學的研究熱點主要集中在基因數據庫研究,其代表高頻關鍵詞有“數據庫”、“人類基因組計劃”等;對2007~2018年的文獻,通過分析各高頻關鍵詞的頻數相對密集年份等特征可知:2007~2010年更側重于蛋白質數據庫研究以及本體和結構域研究,代表關鍵詞有“蛋白質組學”、“數據挖掘”、“結構”等;2011~2013年主要是電子克隆研究,代表關鍵詞有“電子克隆”、“水稻”、“序列分析”等;2014~2018年該領域研究熱點更加多樣,主要在miRNA分析、基因和蛋白質結構和功能預測分析等,代表關鍵詞有“亞細胞定位”、“基因芯片”、“miRNA”、“功能”、“計算生物學”等。

表2 國內文獻年份-關鍵詞統計表(部分)Table 2 Year-keyword statistics of domestic literature (partial)

3 國際生物信息學領域研究態勢分析

3.1 國際文獻年變化趨勢分析

2007~2018年SCI數據庫中生物信息學相關文獻量的年份變化趨勢(見圖3)。從圖中可以看出文獻量逐年增長,速度較快。總的來說,國際文獻的年份統計結果顯示了生物信息學領域的研究正處于發展中。

圖3 2007~2018國際生物信息學文獻量變化趨勢圖Fig.3 Trend of international bioinformatics literature quantity between 2007 and 2018

3.2 國際研究熱點分析

通過對國際文獻關鍵詞頻次的統計分析,得到40個高頻關鍵詞(見表3)。從表3中不難發現,關鍵詞expression、identification、protein、gene、gene-expression的頻次較高。而主題檢索詞“bioinformatics”并不是頻次最高的關鍵詞,這一現象也從側面說明了選取WOS的關鍵詞字段“ID”進行共詞分析是合理的。

表3 2007-2018生物信息學國際文獻高頻關鍵詞表Table 3 High frequency keywords in international literature of bioinformatics between 2007 and 2018

同上,通過共詞分析和聚類分析,得到的國際生物信息學文獻關鍵詞聚類圖,40個關鍵詞被聚成了2類(見圖4)。

同上,依據聚類結果及中心度情況,并結合具體文獻和專業知識,可將國際生物信息學領域研究熱點歸納如下:

(1)miRNA及與之相關的分子間相互作用研究 這一類包含的高頻關鍵詞有cells(細胞)、proliferation(增殖)、apoptosis(細胞凋亡)、micrornas、pathway(神經通路)等。miRNA及其產物mRNAs形成復雜的調控網絡,參與細胞的生長、分化、增殖、死亡等一系列重要的生命過程,基因表達譜微陣列的生物信息學分析已被廣泛用于識別各種疾病中的重要分子機制和生物標志物[17]。利用生物信息學分析方法挖掘miRNA功能并得到與之相關的分子間相互作用成為了國際生物信息學領域的研究熱點之一。

(2)基因、蛋白質等功能預測與應用研究 這一類包含的高頻關鍵詞有identification(識別)、expression(表達)、protein(蛋白質)、database(數據庫)、prediction(預測)、sequence(序列)。眾所周知,生物實驗的實施大都費用昂貴且費時,而生物信息學的產生就是為了攻破這些傳統的生物學難題。例如,蛋白質組學領域的一個重要研究方向就是利用有效的算法對DNA結合蛋白進行鑒定與預測[18]。因此,利用數據庫和有效的計算預測方法在基因、蛋白質等功能預測與應用方面的研究是國際生物信息學領域的研究熱點之一。

3.3 國際研究趨勢分析

分年度統計40個國際文獻高頻關鍵詞出現的頻次,構建國際文獻年份-關鍵詞統計表(見表4)。 并參照國內文獻劃分時間段來進行研究趨勢分析,即分為2007~2010年、2011~2013年、2014~2018年三個時間段。結果表明,2007~2010年該領域在國際的研究熱點側重于數據庫分析以及實驗工具、算法的改進;2011~2013年的研究熱點集中在蛋白質分析及應用;2014~2018年的研究熱點較為偏向于miRNA分析及應用。

圖4 2007~2018國際生物信息學文獻關鍵詞聚類圖Fig.4 Keywords cluster of international bioinformatics literature between 2007 and 2018

表4 國際文獻年份-關鍵詞統計表(部分)Table 4 Year-keyword statistics of international literature (partial)

4 討論與總結

以國內外生物信息學領域期刊論文為研究對象,從年文獻量變化趨勢、研究熱點、分階段研究趨勢三個方面進行分析,得出結論如下:

1)國內外年文獻量變化趨勢分析 國內外生物信息學研究均處于高速發展期,文獻量均呈逐年增長趨勢,不過國內文獻的增長速度小于國際文獻的增長速度。

2)研究熱點分析 國內的研究熱點有基因克隆及生物信息學分析研究、生物信息學數據庫與基因挖掘研究分析、miRNA研究分析、電子克隆分析等;國際的研究熱點有基因、蛋白質等功能預測與應用研究和miRNA及與之相關的分子間相互作用研究等。國內外研究熱點均聚焦在基因挖掘、蛋白質結構與功能預測、miRNA分析等,但國內的生物信息學領域研究更側重于理論研究,而國際生物信息學領域研究則更加注重其在疾病(癌癥)治療、藥物設計等方面的實際應用。

3)分階段研究趨勢分析 國內生物信息學領域研究熱點在不同階段內略有波動,呈現了較為明顯的熱點變遷狀況;而國際生物信息學領域研究熱點在不同階段內的變化很小,高頻關鍵詞的頻次幾乎都是逐年增加,而且關鍵詞之間的聯系較強,是較為均衡的發展。整體來看,國內外生物信息學的研究范圍均在不斷拓寬。

猜你喜歡
數據庫生物分析
生物多樣性
天天愛科學(2022年9期)2022-09-15 01:12:54
生物多樣性
天天愛科學(2022年4期)2022-05-23 12:41:48
上上生物
當代水產(2022年3期)2022-04-26 14:26:56
隱蔽失效適航要求符合性驗證分析
第12話 完美生物
航空世界(2020年10期)2020-01-19 14:36:20
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
數據庫
財經(2017年2期)2017-03-10 14:35:35
電力系統及其自動化發展趨勢分析
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
主站蜘蛛池模板: 蜜臀AV在线播放| 国产办公室秘书无码精品| 欧美高清三区| 色综合日本| 亚洲全网成人资源在线观看| 日本午夜影院| 拍国产真实乱人偷精品| 日韩免费毛片| 久久99国产综合精品1| 无套av在线| 国产精品一线天| 国产精品浪潮Av| 中字无码av在线电影| 91丝袜乱伦| 99热这里只有免费国产精品| 在线国产三级| 久久久精品国产亚洲AV日韩| 手机在线免费不卡一区二| 青青草国产一区二区三区| 国产一区二区三区精品久久呦| 风韵丰满熟妇啪啪区老熟熟女| 色老二精品视频在线观看| aⅴ免费在线观看| 日韩无码白| 欧美特级AAAAAA视频免费观看| 视频国产精品丝袜第一页| 99国产精品免费观看视频| 国产三级a| 好久久免费视频高清| 麻豆AV网站免费进入| 蝌蚪国产精品视频第一页| 日韩精品亚洲一区中文字幕| 国产精品自在线天天看片| 一本一道波多野结衣av黑人在线| 91麻豆久久久| 国产乱码精品一区二区三区中文| 日本色综合网| 欧美专区在线观看| 91久久天天躁狠狠躁夜夜| 国产呦精品一区二区三区下载 | 国产一级特黄aa级特黄裸毛片| 无遮挡一级毛片呦女视频| 成人无码区免费视频网站蜜臀| 乱系列中文字幕在线视频| 欧美午夜理伦三级在线观看| 久久久久久久久18禁秘| 日本午夜精品一本在线观看| 国产精品网址在线观看你懂的| 欧美色视频日本| 91欧美亚洲国产五月天| 国产一二视频| 999国产精品永久免费视频精品久久| 久久久久国产精品嫩草影院| 久久国产精品无码hdav| 91在线视频福利| 福利姬国产精品一区在线| 狠狠综合久久久久综| 91美女在线| 国产精品主播| 视频国产精品丝袜第一页| 日本不卡视频在线| 精品久久香蕉国产线看观看gif| 无码中文字幕乱码免费2| 久久成人免费| 日本一区二区三区精品国产| a毛片免费观看| 在线日本国产成人免费的| 色噜噜综合网| 亚洲丝袜中文字幕| 澳门av无码| 亚洲人成影视在线观看| 久久一日本道色综合久久| 欧美亚洲一区二区三区在线| 欧美日韩亚洲综合在线观看 | 高潮毛片免费观看| 在线观看精品国产入口| 亚洲九九视频| 中文字幕人成人乱码亚洲电影| 色婷婷电影网| 欧美国产综合色视频| 国产91丝袜在线观看| 亚洲无码不卡网|