999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

長非編碼RNA鑒定方法研究

2020-07-04 02:27:37楊陽
智能計算機與應用 2020年3期
關鍵詞:機器學習

楊陽

摘要:高通量測序技術的出現帶來了大量可用的轉錄組數據,評估進化保守區域的編碼潛力成為轉錄數據分析中的核心任務。對轉錄本編碼潛力的預測可以用來鑒定長非編碼RNA(long noncoding RNA, lncRNA)。lncRNA是一種長度超過200個核苷酸的非編碼RNA,研究表明lncRNA在多種生物中都有重要作用,能夠在染色質修飾、表觀遺傳、轉錄及轉錄后調控等多種層面發揮重要的調控作用。已經有許多基于機器學習的工具被開發用來區分編碼與非編碼轉錄本序列。不同的工具通常是針對不同的情況設計的,因此需要根據特定的情況選擇合適的方法。本文分析了幾種常用工具各自的特點和適用范圍,幫助研究人員選用合適的方法以獲得更可靠的結果。

關鍵詞: 轉錄組數據; 編碼潛力; 長非編碼RNA; 機器學習

【Abstract】 With the advent of high-throughput sequencing technologies, a large amount of available transcriptome data has been generated, and the evaluation of the coding potential of evolutionarily conserved regions has become a core in the analysis of transcripts. Prediction of the coding potential of transcripts can be used to identify long noncoding RNAs (lncRNAs). lncRNA is a kind of noncoding RNA with length more than 200 nucleotides, which plays an important role in many organisms. It can play an important regulatory role in various aspects such as chromatin modification, epigenetics, transcription and post-transcriptional regulation. Many machine learning tools have been developed to distinguish between coding and non-coding transcripts. Different tools are designed for different situations, so it is required to choose the suitable method for the specific situation. In this review, several popular tools and their advantages, disadvantages, and application scopes are summarised to assist people in employing a suitable method and obtaining a more reliable result.

【Key words】 ?transcriptome data; coding potential; long noncoding RNA; machine learning

0 引 言

非編碼RNA(noncoding RNA ,ncRNA)是所有從DNA轉錄但不編碼蛋白質的功能性RNA的統稱。最初,人們將非編碼RNA基因分類為“垃圾基因”或轉錄“噪音”,然而在之后的研究中發現,非編碼序列在生命體生命活動中具有重要的調控作用[1]。這些非編碼序列中,最近研究較多的是長非編碼RNA(long noncoding RNA, lncRNA),lncRNA是指長度超過200個核苷酸且不編碼蛋白質的轉錄物[2]。

為了系統研究lncRNA的功能,首要的工作是從基因中識別lncRNA。高通量測序數據大量涌現為學者們提供了更多有關lncRNA的有用信息。與此同時,為了方便后續研究和分析,很多鑒定lncRNA的計算機方法被提出。本文對鑒定lncRNA的計算方法進行了較為全面的回顧。

1 lncRNA鑒定工具介紹

lncRNA鑒定過程中的一個重要問題是區分編碼與非編碼轉錄本序列,目前已經有很多生物信息學的方法使用序列的內部特征和結構特點預測非編碼RNA[3]。本文中比較了幾種流行的基于機器學習的工具。對此可做闡釋分述如下。

1.1 CPAT[4]介紹

CPAT是基于邏輯回歸模型的蛋白質編碼潛力評估工具。使用的特征包括:開放閱讀框大小、開放閱讀框覆蓋率、Fickett分數和Hexamer分數。

1.4 CPC2介紹

CPC2[7]是CPC的升級,仍然使用支持向量機模型,CPC2能更加快速、準確地評估RNA轉錄本的編碼能力。CPC2中使用了4個特征,包括:Fickett分數、開放閱讀框長度、開放閱讀框完整性以及預測肽的等電點。開放閱讀框的完整性是指開放閱讀框以起始密碼子開始,以終止密碼子結束。等電點可以通過BioPython中的ProtParam模塊計算得到。

1.5 CPPred介紹

CPPred[8]的實現基于支持向量機分類器和多個序列特征, CPPred使用開放閱讀框長度、開放閱讀框覆蓋率、Fickett分數和Hexamer分數、開放閱讀框完整性、預測肽的等電點、預測肽的不穩定指數、預測肽的親水性平均值Gravy以及30個CPPred中提出的CTD特征訓練分類器。CTD特征用來描述全局轉錄本序列,核苷酸組成(特征C)描述了轉錄本序列中每個核苷酸的百分比組成;核苷酸轉換(特征T)描述了4個核苷酸在相鄰位置之間轉換的百分比;核苷酸分布(特征D)計算每個核苷酸在轉錄物序列的5個相對位置(0,25%,50%,75%,100%)來表示每個核苷酸在轉錄本序列中的分布。

2 lncRNA鑒定工具比較

本文所涉及的5個lncRNA鑒定工具包括最常用的CPAT、CNCI、PLEK,以及CPC的最新版本CPC2和最新發布的工具CPPred。其中,CPAT使用了邏輯回歸模型,其余四個工具都使用了支持向量機模型。本文總結每種工具的簡要信息和使用細節見表1。

接著,本文更具體地對5種工具所選擇的特征進行概述,見表2。

5種鑒定工具都是不包含比對過程的,適用于對未充分研究的物種的轉錄物分析。其中,CNCI和PLEK都可以用于有測序錯誤的數據集,PLEK在這類數據上表現更好。與CPAT、CPC2和CPPred相比,PLEK在除人類以外的其他物種中表現不佳。5種鑒定工具在不同測試集上的表現見表3。

由于不同物種lncRNA、不同測序數據之間存在一定的差異性,不同的lncRNA鑒定工具設計上存在一定的針對性。CPAT和CPPred為小鼠轉錄本的鑒定提供了專門的模型。在分析其他物種時,CPAT還提供了果蠅和斑馬魚的模型;CNCI和PLEK可以預測脊椎動物和植物的序列;CPC2還可以預測果蠅、斑馬魚、擬南芥、蠕蟲;CPPred提供了適用于斑馬魚、果蠅、釀酒酵母、線蟲和擬南芥的模型。不同工具在不同條件下的適用性見表4。

3 結束語

lncRNA的鑒定一直以來都是生物信息學研究的一個挑戰,在2010年之前,以CPC軟件為代表的lncRNA鑒定工具會依賴比對過程,此后,大部分軟件通過提取序列的內在特征來進行分類。這篇綜述中,集中探討了常用的和最新的lncRNA鑒定工具,總結了其相應的適用范圍,幫助研究人員來選擇使用適合的工具,同時獲得令人信服的結果。未來lncRNA鑒定工具的趨勢是針對不同類型的序列,開放不同的工具來解決各種特定情況下的問題。

參考文獻

[1] PALAZZO A F, LEE E S. Non-coding RNA:What is functional and what is junk? [J]. Frontiers in Genetics, 2015, 6: 2.

[2]SCHMITZ S U, GROTE P, HERRMANN B G. Mechanisms of long noncoding RNA function in development and disease[J]. Cellular and molecular life sciences, 2016, 73(13): 2491.

[3]HAN Siyu, LIANG Yanchun, LI Ying, et al. Long noncoding RNA identification: Comparing machine learning based tools for long noncoding transcripts discrimination[J]. BioMed Research International, 2016, 2016: 8496165.

[4]WANG Liguo, PARK H J, DASARI S, et al. CPAT: Coding-potential assessment tool using an alignment-free logistic regres-sion model[J]. Nucleic acids research, 2013,41(6): e74.

[5]SUN Liang, LUO Haitao, BU Dechao, et al. Utilizing sequence intrinsic composition to classify protein-coding and long non-coding transcripts[J]. Nucleic acids research, 2013, 41(17): e166.

[6]LI Aimin, ZHANG Junying, ZHOU Zhongyin. PLEK:A tool for predicting long non-coding RNAs and messenger RNAs based on an improved k-mer scheme[J]. BMC bioinformatics, 2014, 15: 311.

[7]KANG Yujian, YANG Dechang, KONG Leilei, et al. CPC2: A fast and accurate coding potential calculator based on sequence intrinsic features[J]. Nucleic acids research, 2017, 45(W1): W12.

[8]TONG Xiaoxue, LIU Shiyong. CPPred: Coding potential prediction based on the global description of RNA sequence[J]. Nucleic Acids Research, 2019, gkz087:1

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 国产sm重味一区二区三区| 亚洲视频免费在线看| 一本一道波多野结衣一区二区 | 国模沟沟一区二区三区| 四虎永久免费在线| 亚洲欧美一区二区三区蜜芽| 57pao国产成视频免费播放| 99久久精品久久久久久婷婷| 亚洲一区二区约美女探花| 综合色亚洲| 99热6这里只有精品| 亚洲人成亚洲精品| 欧美啪啪精品| 怡红院美国分院一区二区| 亚洲一区毛片| 国产精品吹潮在线观看中文| 亚洲毛片网站| 88av在线| 四虎综合网| 欧美伦理一区| 国产美女91呻吟求| 福利姬国产精品一区在线| 国产尤物jk自慰制服喷水| 国产手机在线ΑⅤ片无码观看| 国产丝袜丝视频在线观看| 国产欧美日韩在线一区| 色综合色国产热无码一| 波多野结衣亚洲一区| 国产微拍一区二区三区四区| 日本精品影院| 蜜臀AV在线播放| 人禽伦免费交视频网页播放| 国产成人91精品| 国产成人你懂的在线观看| 天天操天天噜| 久久无码免费束人妻| 欧美午夜网| 91精品在线视频观看| 青青草国产精品久久久久| 青青青伊人色综合久久| 伊人色综合久久天天| 91麻豆国产视频| 在线观看91香蕉国产免费| 亚洲视频黄| 全色黄大色大片免费久久老太| 成年网址网站在线观看| 免费不卡在线观看av| 国产视频入口| 亚洲精品亚洲人成在线| 国产精品极品美女自在线看免费一区二区| A级毛片高清免费视频就| 国产爽歪歪免费视频在线观看 | 亚洲日本在线免费观看| 996免费视频国产在线播放| 精品精品国产高清A毛片| 亚洲熟女中文字幕男人总站| 白浆视频在线观看| 欧美国产日韩在线播放| 日本妇乱子伦视频| 亚洲动漫h| 国产91精品调教在线播放| 国产一二三区在线| 一本大道香蕉久中文在线播放| 精品人妻一区无码视频| 免费99精品国产自在现线| 亚洲中文字幕无码爆乳| 久久精品国产一区二区小说| 色综合久久久久8天国| 在线免费a视频| 91无码网站| 先锋资源久久| 99精品欧美一区| 谁有在线观看日韩亚洲最新视频| 中文一级毛片| 久久青草视频| 国产a v无码专区亚洲av| 波多野结衣在线se| 天天干伊人| 亚洲欧美日韩中文字幕在线| 国产国模一区二区三区四区| 国产欧美视频综合二区| 国产精品美女免费视频大全|