999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于序列的蛋白質功能分類系統的研究與設計

2016-12-31 00:00:00譚生龍
科技創新與應用 2016年27期

摘 要:在生物序列快速增長的大環境下,對新產生的未知功能序列進行快速功能注釋是一項有挑戰性的任務,文本以蛋白質序列為研究對象,描述了使用機器學習方法對未知功能的蛋白質序列進行功能分類的一般方法。

關鍵詞:蛋白質序列;特征提取;功能分類

1 概述

蛋白質是一切生命活動的載體,對蛋白質序列進行功能預測是研究蛋白質功能的重要途徑。隨著越來越多的生物物種被測序,生物數據庫中的未知功能序列正在快速增加,僅通過實驗手段來驗證未知序列的功能顯然已經不能滿足要求。因此,借助計算技術對未知功能生物序列進行功能預測已變成一種可行途徑。文章以蛋白質序列為例,描述了基于序列的蛋白質功能分類系統的設計流程。

2 基于蛋白質序列的功能分類算法的分析

測序技術的快速發展產生了大量未知功能的序列;其中,蛋白質序列占很大比重,對這些序列進行功能注釋是一項繁瑣的大工程。在生物領域,一般認為在序列上相似的蛋白質在功能上也具有相似性。因此,我們希望通過對已知功能的蛋白質序列進行建模,用該模型來對未知功能的序列進行功能分類,其功能分類框架如圖1所示。

2.1 構建正負樣本訓練集

為了構建基于機器學習的功能分類模型,獲取高質量的正樣本和負樣本序列訓練集非常重要。正樣本序列是指已確認其具有某項功能的蛋白質序列,獲取途徑可以從已發表的文獻或者相關蛋白質功能數據庫中獲取,也可以從模式生物蛋白質序列的注釋信息中提取。負樣本序列指不具有相關功能的一般序列。負樣本序列的選擇可以來源于基因組中的其它隨機序列,它不能與正樣本集中的序列有交集,且負樣本序列和正樣本序列在數量上應該保存相當。

2.2 剔除訓練集中的重復序列

為了提高機器學習模型的分類性能,訓練集中序列之間的相似性應該比較低,即正負樣本訓練集中的序列相似性應該低于給定的閥值,一般取20%或者25%,即兩條序列間序列的一致性(Identity)不超過20%或者25%。評價序列相似性的軟件很多,包括Blast、BlastClust和cd-hit等;使用這些軟件可以剔除訓練集中的相似序列(冗余序列)。

2.3 從蛋白質序列中提取特征向量

訓練集中的蛋白質序列是由字母表∑中的20個字符生成的字符長串,每個字符代表20種基本氨基酸之一,即∑={A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y};而目前的機器學習算法僅能處理特征向量;因此,將訓練集中的每條序列轉化為一個特征向量是必經步驟。設計高效的特征提取方案將蛋白質序列轉化成特征向量是獲得高性能分類模型的關鍵,比如使用propy[1]和Pse-in-One[2]等工具軟件可實現將蛋白質序列轉化為特征向量。

2.4 確定訓練集中特征向量的類標號

將訓練集中的序列轉換為特征向量后,需要將正負樣本的特征向量加上類標號,正樣本特征向量一般加上類標號+1,負樣本的特征向量加上-1,這樣就可以將正負樣本特征向量集合并為一個輸入文件,方便輸入到機器學習分類模型中。

2.5 選擇機器學習方法構建分類模型

在生物信息學領域沒有通用的機器學習算法,比較常用的算法包括支持向量機算法(Support Vector Machine)、隨機森林(Random Forest)、決策樹(Decision Tree)、貝葉斯(Na ve Bayesian)和二次判別分析(Quadratic Discriminant Analysis)等眾多機器學習算法[3]。不同的生物信息學應用場景、不同的特征提取方法和不同的機器學習算法的組合可能會產生性能顯著不同的分類器。通過比較不同的特征提取方式和機器學習算法,并通過性能評價指標來選擇分類性能高的機器學習算法。

2.6 通過交叉檢驗來評價機器學習算法的性能

評價機器學習算法的性能指標包括靈敏度(Sensitivity, Sn)、特異度(Specificity, Sp)、準確度(Precision, Pr)、馬修相關系數(Mathew's correlation coefficient,MCC)等,具體的計算公式可文獻參考[3,4],通過交叉檢驗來計算不同分類算法的性能指標值,根據這些指標值來比較不同分類算法的性能;常用的交叉檢驗方法包括5倍交叉檢驗、10倍交叉檢驗和留一法交叉檢驗。

2.7 機器學習算法的最優參數

在使用機器學習算法對蛋白質序列進行功能分類的應用中,不同的算法可能有不同的參數組合,將參數調節到最優狀態可以獲得分類器的最佳性能。交叉檢驗是衡量機器學習算法選擇及最優參數配置的手段。例如,使用支持向量機并選擇徑向基核函數來對蛋白質序列構建分類模型時,可以使用網格搜索法來搜索支持向量機算法的核函數因子γ和懲罰系數C這兩個參數的最佳值,并通過交叉檢驗計算每種參數下的性能指標,尋找最優參數組合,并在此參數下訓練出性能最優的機器學習模型。

2.8 對未知功能序列進行功能預測

在應用預測模型對未知功能的蛋白質序列進行分類時,首先,應該將該序列轉化為特征向量,轉化方法應該與構建模型的特征提取方法相同,將蛋白質序列轉化成特征向量后輸入到前面步驟所構建的機器學習模型中,其輸出結果為表示特定功能的類標號,根據輸出的類標號即可判定未知功能序列是否屬于指定的功能類別。

3 結束語

文章描述了應用機器學習方法對蛋白質序列進行功能分類的一般流程,通過選擇合適的特征提取方法和機器學習算法,并通過交叉檢驗選擇最佳的模型參數,可構建一個分類性能佳的分類器,可實現對未知功能蛋白質序列進行快速功能分類。

參考文獻

[1]D. S. Cao, Q. S. Xu, and Y. Z. Liang, “propy: a tool to generate various modes of Chou's PseAAC,” Bioinformatics, vol. 29, pp. 960-2, Apr 1 2013.

[2]B. Liu, F. Liu, X. Wang, J. Chen, L. Fang, and K. C. Chou, “Pse-in-One: a web server for generating various modes of pseudo components of DNA, RNA, and protein sequences,” Nucleic Acids Res, vol. 43, pp. W65-71, Jul 1 2015.

[3]J. C. Jeong, X. Lin, and X. W. Chen, “On position-specific scoring matrix for protein function prediction,” IEEE/ACM Trans Comput Biol Bioinform, vol. 8, pp. 308-15, Mar-Apr 2011.

[4]G. Liu, J. Liu, X. Cui, and L. Cai, “Sequence-dependent prediction of recombination hotspots in Saccharomyces cerevisiae,” J Theor Biol, vol. 293, pp. 49-54, Jan 21 2012.

主站蜘蛛池模板: 亚洲欧美另类久久久精品播放的| 亚洲国产清纯| 精品亚洲欧美中文字幕在线看| 免费国产小视频在线观看| 国产成人精品午夜视频'| 国模在线视频一区二区三区| 中文字幕欧美日韩高清| 国产精品久久久久婷婷五月| 国产成人免费观看在线视频| 伊人色天堂| 国产日韩精品欧美一区喷| 在线观看国产网址你懂的| 久久精品无码一区二区国产区 | 亚洲国产清纯| 国产精品观看视频免费完整版| 亚洲天堂.com| 亚洲精品国偷自产在线91正片| 免费女人18毛片a级毛片视频| 波多野结衣视频网站| 第一区免费在线观看| 国产在线91在线电影| 国产福利一区在线| 亚洲成人免费在线| 超级碰免费视频91| 日本一区高清| 日韩美一区二区| 久久人与动人物A级毛片| 日本少妇又色又爽又高潮| 三上悠亚精品二区在线观看| 亚洲日韩在线满18点击进入| 成人免费视频一区二区三区| 天堂av综合网| 天堂亚洲网| 国产97公开成人免费视频| 一本大道视频精品人妻| 免费国产无遮挡又黄又爽| 国产成人调教在线视频| 亚国产欧美在线人成| 精品国产美女福到在线直播| 2022国产91精品久久久久久| 青草娱乐极品免费视频| 伦精品一区二区三区视频| www成人国产在线观看网站| 成年人国产网站| 中国国产高清免费AV片| 久久综合一个色综合网| 亚洲精品国产精品乱码不卞| 亚洲aaa视频| 亚洲精品波多野结衣| 欧美三级自拍| 国产日本欧美在线观看| 欧美成人综合视频| 五月天久久综合| 久久精品中文无码资源站| 精品国产香蕉在线播出| 全部免费特黄特色大片视频| 精品国产一区91在线| 在线毛片网站| 黄色网站在线观看无码| 国产精品人成在线播放| 色网站在线视频| 真实国产精品vr专区| 成人av专区精品无码国产 | 久久福利网| 欧美中文字幕无线码视频| 精品一区二区三区自慰喷水| 国产精品99r8在线观看| 欧美激情二区三区| 免费无遮挡AV| 国产丝袜无码一区二区视频| 亚洲天堂网在线观看视频| 精品黑人一区二区三区| 亚洲国产系列| 一级香蕉视频在线观看| 丁香六月激情婷婷| 成人综合网址| 国产成人夜色91| 99激情网| 欧美日韩免费| 视频一区亚洲| 精品综合久久久久久97超人| 色偷偷一区二区三区|