999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于科學計量方法的生物實體研究方案

2015-03-22 05:28:10
中華醫學圖書情報雜志 2015年7期
關鍵詞:生物特征方法

1 生物實體研究問題的提出

人類基因組計劃的提出和完成,全面改變了生命科學的面貌,開辟了基因組學發展的新紀元[1-2]。科學家開始融合信息科學、計算機科學以及數學等學科的理論和技術,整體研究一個生物系統中所有生物實體(Gene、Disease、Phenotype、Chemical Compound、Protein、Drug和Virus等)的構成,以及特定條件下這些生物實體間的相互關系。這些研究對于揭示細胞內和細胞間的作用機理、疾病標靶基因的發現以及新藥的研制等具有重大意義。

隨著科技的不斷進步及基因組學的迅速發展,生物醫學領域海量的新生物實體不斷被科研人員發現[3-4],與這些生物實體相關的知識形成了大量與人類健康密切相關的科研成果。

這些成果大都以論文形式發表,并被數字化成電子文獻。由于這些文獻都是非結構化的自然語言,因此為了獲取研究所需的實體關系知識,科研人員需要花費大量的時間和精力來閱讀數量眾多的文獻。于是,一種新的需求應運而生,那就是如何從海量的生物文獻中迅速地找到生物實體之間可能存在的關系。

2 國內外研究現狀

2.1 基于文獻搜索引擎的生物實體關系發現

文獻搜索引擎可以幫助科研人員解決部分問題。在PubMed中,我們以“diabetes[MeSH Major Topic], drug*, gene*”為檢索式查詢了討論糖尿病、基因和藥物3種生物實體關系的所有文獻,返回3 473條摘要記錄。說明存在大量探討糖尿病、基因和藥物之間關系的文獻,但靠人工閱讀無法從大規模的文獻記錄中迅速獲取相關知識。

2.2 基于數據挖掘技術的生物實體識別

近年來,隨著數據挖掘技術的不斷發展,批量文本的自動化處理已成為現實,為生物實體的挖掘提供了新的契機。不過就國內外相關研究仍僅局限于對海量文獻中生物醫學實體的識別[5-6]。最早的生物醫學實體識別方式是基于字典,如Proux等人于1998年第一次應用英語詞典對基因和蛋白質進行了識別[7]。

基于啟發式規則的方式是早期被廣泛使用的一種方法,Fukuda等最早利用基于規則的系統判定文獻中的蛋白質名稱[8];Tsuruoka等采用啟發式規則以最小化相關術語的歧義性和變化性,實現了術語名稱的標準化,從而提高了查找字典的效率[9]。

基于機器學習的方式則是目前主流的方法,它主要利用統計方法從大量數據中估算相關參數和特征進而建立識別模型,具有客觀、移植性好等特點[10]。

隨后,生物信息領域的科研人員開始嘗試以生物醫學實體共現的手段從大規模的生物文本中探測隱藏的關系,并取得了一定的效果[11-14]。這種方法假設同一篇文獻中出現的兩個生物醫學實體之間存在某種關系,如果兩個生物醫學實體同時出現于多篇文獻中,則二者之間存在關系的可信度增強。然而,這些研究僅局限于同種生物實體之間的關系(如蛋白質—蛋白質)或兩種不同生物實體之間的關系(基因—蛋白質)。

2.3 基于知識庫的生物實體揭示

為了便于研究人員迅速獲取生物實體相關知識,一些發達國家投入大量的人力、物力和財力,以人工標注的方式構建相關生物實體關系知識庫。Nucleic Acids Research (NAR)期刊在每年一度的特刊中會對全球所有高質量的、有價值的生物實體關系知識庫進行分類和描述,現已介紹1 552個數據庫[15],其他數據庫集合還包括MetaBase[16]和Bioinformatics Links Collection[17]等。由于這些知識庫中的知識大都以結構化的方式存儲,故在一定程度上滿足了科研人員快速獲取知識的需求。但隨之產生的問題是數據生產耗費巨大,因而增長速度緩慢[18]。有研究表明,目前僅有20%的生物醫學知識以結構化的形式存儲于生物實體關系知識庫中,剩余的80%則為非結構化數據,以自由文本的形式隱藏在科學文獻中[19-21],有待挖掘。

3 基于科學計量方法的生物實體評價研究方案

科學計量學關注的對象主要分為兩類:一類為宏觀特征,如作者、機構、國家、期刊等,它們用于評價文獻的非內容特征;另一類為中觀特征,如關鍵詞、題目和參考文獻等,主要用于文獻主題的分析和評價。事實上,科研文獻中還存在一種微觀特征,即概念實體,專指科研文獻中出現的某一事物的概念或對象,例如文獻中所使用的某一理論的名稱、某一方法的名稱或本文所研究的生物實體。文獻中的概念實體對象也是科學計量學應關注的一種文獻特征(圖1)。

由于概念實體隱藏在科研文獻中,而早期數據挖掘技術不成熟,主要依靠手工標識的方式實現。因此方法的推廣性較差,相關研究也較少。如有學者以“研究理論”(theory)為對象,人工對信息科學研究和家庭治療研究領域文獻中使用的基本理論進行標識,進而分析這些理論被使用的情況[22-23]。雖然有關生物實體的研究已取得一些成果,但仍局限于生物實體的識別研究和基于共現關系的生物實體關系研究。因此,本文擬基于科學計量方法進行生物實體評價研究,即選取科研文獻中出現的生物實體為研究對象,利用科學計量方法對其影響力進行評估,以期對生物實體之間的關系進行分類和預測,將其所代表的知識快速準確地展現給科研人員,加速科研假說的生成,加快科學研究進程。生物實體評價研究的具體方案如下。

3.1 生物實體的識別

科研文獻中生物實體的有效識別是實現生物實體研究的前提。傳統的生物實體識別方法包括基于字典、基于啟發式規則和基于機器學習等方法。基于字典的識別方法受字典本身的限制,會產生一些假陽性和假陰性數據,需引入一些簡單的規則來輔助;基于規則的識別方法由于需要人工處理,推廣性較差;基于機器學習的方法對訓練語料的規模和質量依賴性較大。故可結合3種方法開展生物實體識別:以機器學習方法為主線,將字典特征形式整合至機器學習方法的第一步(生物實體特征選擇),接著進行機器學習的第二步(采用分類方法對生物實體進行分類),最后將基于啟發式規則的方法融入機器學習方法的后期處理中。

3.2 基于“引用”關系的生物實體關系建模

我們基于引文分析理論提出了概念實體的“引用”關系,其實質上是通過文獻之間的引用關系建立概念實體之間的聯系,即做出如下假設:如果文獻P1引用了文獻P2(P1→P2),P1中提及了實體K1和K2,P2中提及了實體K3和K4,則認為K1“引用”了K3和K4(K1→K3、K1→K4),K2“引用”了K3和K4(K2→K3、K2→K4)(圖2)。顯然,基于大數據建立的這種“引用”關系具有一定的必然性。

3.3 基于“引用”網絡的生物實體研究

與生物實體共現網絡研究相似,通過網絡直徑、最小路徑、密度和最大Component等網絡宏觀指標可研究生物醫學實體“引用”網絡的拓撲特征;通過K-core、Clique等網絡中觀指標可挖掘生物醫學實體“引用”網絡的社團結構;通過中心度、PageRank等網絡微觀指標可分析生物醫學實體之間的相互關系。此外,通過生物實體“引用”網絡還可以跟蹤生物實體所代表知識的流動軌跡,探索生物醫學知識轉移和擴散的規律。

我們在前期的研究中,基于上述假設構建生物信息數據庫“引用”網絡[24]和生物醫學實體“引用”網絡(Gene、Disease和Drug)[25]。對前一個網絡的拓撲特征和主路徑分析發現,通過引文建立的生物醫學信息數據庫之間的關聯有助于探索數據庫的使用規律;對后一個網絡中生物醫學實體按照中心度指標進行排序,發現該方法能夠檢測出絕大多數在Comparative Toxicogenomic Database數據庫中手工注釋的生物醫學實體關系。

圖2 通過文獻引用建立的生物實體"引用"關系

4 總結

4.1 發展和完善科學計量學理論和實踐研究

科學計量學所關注科研文獻中的宏觀特征和中觀特征大都以題錄形式儲存于文獻數據庫,其所代表的均為文獻的外顯知識,可免費獲取。由于概念實體大都蘊藏于文獻的全文之中,文獻的內含知識只有通過文本挖掘方可獲取。此外,概念實體與文獻中觀特征最大的區別在于其專指性更強。對生物實體這一微觀特征對象的評價擴展了科學計量學的內涵,有利于該學科理論的進一步發展和完善。

4.2 開辟知識管理研究的新視角

科學計量方法為生物實體等非結構化數據提供了一種“自上而下(Top-down)”的管理方式,即從海量文本入手分析,一方面幫助生物醫學科研人員快速準確地發現隱藏于文獻中的生物實體關系,通過合理假設、實驗驗證,大大節省知識發現的周期;另一方面對生物知識的流動、轉移、擴散和利用等規律進行深入探索。因而,生物實體評價開辟了知識管理方式研究的全新視角,并幫助生物醫學科研人員迅速、準確地獲取隱藏于海量科學文獻文本中的相關生物醫學知識,加快了科研假說的提出,從而進一步推動生物醫學相關學科的發展。

猜你喜歡
生物特征方法
生物多樣性
天天愛科學(2022年9期)2022-09-15 01:12:54
生物多樣性
天天愛科學(2022年4期)2022-05-23 12:41:48
上上生物
當代水產(2022年3期)2022-04-26 14:26:56
第12話 完美生物
航空世界(2020年10期)2020-01-19 14:36:20
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 丁香婷婷激情综合激情| 园内精品自拍视频在线播放| 国产成年无码AⅤ片在线| 最新痴汉在线无码AV| 9丨情侣偷在线精品国产| 精品人妻一区二区三区蜜桃AⅤ| 久久国产亚洲偷自| 亚洲另类国产欧美一区二区| 日韩欧美亚洲国产成人综合| 色视频国产| 国产精品亚洲综合久久小说| 亚洲第一福利视频导航| 精品無碼一區在線觀看 | 日本黄色不卡视频| 97国产一区二区精品久久呦| 久久黄色小视频| 原味小视频在线www国产| 一区二区三区成人| 尤物国产在线| 性视频久久| 都市激情亚洲综合久久| 精品一区二区三区波多野结衣| 国产人碰人摸人爱免费视频| 国产色偷丝袜婷婷无码麻豆制服| 美美女高清毛片视频免费观看| 免费99精品国产自在现线| 曰AV在线无码| 国产成熟女人性满足视频| 久久综合一个色综合网| 亚洲成综合人影院在院播放| 67194成是人免费无码| 亚洲成人精品在线| 国产亚洲欧美在线中文bt天堂| 日韩大乳视频中文字幕| 日本精品影院| 国产成人亚洲精品色欲AV| 久久精品人妻中文视频| 国产亚洲欧美日本一二三本道| 欧美日韩国产高清一区二区三区| 狠狠色综合网| 国产成人一二三| 国产欧美日本在线观看| 国产在线观看91精品| 精品国产一区二区三区在线观看| 亚洲日本在线免费观看| 真实国产精品vr专区| 国产一级妓女av网站| 男女男免费视频网站国产| 四虎在线观看视频高清无码| 欧美色视频日本| 久久人人妻人人爽人人卡片av| 激情视频综合网| 欧美日本不卡| 黄色网站不卡无码| 国产成人精品18| 啪啪国产视频| 日本免费福利视频| 强奷白丝美女在线观看| 欧美一级高清免费a| 一级毛片网| 国产小视频在线高清播放| 欧美精品啪啪| 国产啪在线91| 国产噜噜噜| 国产清纯在线一区二区WWW| 国产成人综合欧美精品久久| 久久综合九九亚洲一区| 亚洲一区精品视频在线| 精品亚洲麻豆1区2区3区| 欧美激情一区二区三区成人| 五月激情综合网| 亚洲天堂成人| 国产麻豆精品在线观看| 国产精品视频白浆免费视频| 一本二本三本不卡无码| 特级毛片8级毛片免费观看| 伊人久久大线影院首页| 亚洲男人天堂2020| 综合网久久| 91区国产福利在线观看午夜| 亚洲人在线| 久久精品日日躁夜夜躁欧美|