楊陽



摘要:高通量測序技術的出現帶來了大量可用的轉錄組數據,評估進化保守區域的編碼潛力成為轉錄數據分析中的核心任務。對轉錄本編碼潛力的預測可以用來鑒定長非編碼RNA(long noncoding RNA, lncRNA)。lncRNA是一種長度超過200個核苷酸的非編碼RNA,研究表明lncRNA在多種生物中都有重要作用,能夠在染色質修飾、表觀遺傳、轉錄及轉錄后調控等多種層面發揮重要的調控作用。已經有許多基于機器學習的工具被開發用來區分編碼與非編碼轉錄本序列。不同的工具通常是針對不同的情況設計的,因此需要根據特定的情況選擇合適的方法。本文分析了幾種常用工具各自的特點和適用范圍,幫助研究人員選用合適的方法以獲得更可靠的結果。
關鍵詞: 轉錄組數據; 編碼潛力; 長非編碼RNA; 機器學習
【Abstract】 With the advent of high-throughput sequencing technologies, a large amount of available transcriptome data has been generated, and the evaluation of the coding potential of evolutionarily conserved regions has become a core in the analysis of transcripts. Prediction of the coding potential of transcripts can be used to identify long noncoding RNAs (lncRNAs). lncRNA is a kind of noncoding RNA with length more than 200 nucleotides, which plays an important role in many organisms. It can play an important regulatory role in various aspects such as chromatin modification, epigenetics, transcription and post-transcriptional regulation. Many machine learning tools have been developed to distinguish between coding and non-coding transcripts. Different tools are designed for different situations, so it is required to choose the suitable method for the specific situation. In this review, several popular tools and their advantages, disadvantages, and application scopes are summarised to assist people in employing a suitable method and obtaining a more reliable result.
【Key words】 ?transcriptome data; coding potential; long noncoding RNA; machine learning
0 引 言
非編碼RNA(noncoding RNA ,ncRNA)是所有從DNA轉錄但不編碼蛋白質的功能性RNA的統稱。最初,人們將非編碼RNA基因分類為“垃圾基因”或轉錄“噪音”,然而在之后的研究中發現,非編碼序列在生命體生命活動中具有重要的調控作用[1]。這些非編碼序列中,最近研究較多的是長非編碼RNA(long noncoding RNA, lncRNA),lncRNA是指長度超過200個核苷酸且不編碼蛋白質的轉錄物[2]。
為了系統研究lncRNA的功能,首要的工作是從基因中識別lncRNA。高通量測序數據大量涌現為學者們提供了更多有關lncRNA的有用信息。與此同時,為了方便后續研究和分析,很多鑒定lncRNA的計算機方法被提出。本文對鑒定lncRNA的計算方法進行了較為全面的回顧。
1 lncRNA鑒定工具介紹
lncRNA鑒定過程中的一個重要問題是區分編碼與非編碼轉錄本序列,目前已經有很多生物信息學的方法使用序列的內部特征和結構特點預測非編碼RNA[3]。本文中比較了幾種流行的基于機器學習的工具。對此可做闡釋分述如下。
1.1 CPAT[4]介紹
CPAT是基于邏輯回歸模型的蛋白質編碼潛力評估工具。使用的特征包括:開放閱讀框大小、開放閱讀框覆蓋率、Fickett分數和Hexamer分數。
1.4 CPC2介紹
CPC2[7]是CPC的升級,仍然使用支持向量機模型,CPC2能更加快速、準確地評估RNA轉錄本的編碼能力。CPC2中使用了4個特征,包括:Fickett分數、開放閱讀框長度、開放閱讀框完整性以及預測肽的等電點。開放閱讀框的完整性是指開放閱讀框以起始密碼子開始,以終止密碼子結束。等電點可以通過BioPython中的ProtParam模塊計算得到。
1.5 CPPred介紹
CPPred[8]的實現基于支持向量機分類器和多個序列特征, CPPred使用開放閱讀框長度、開放閱讀框覆蓋率、Fickett分數和Hexamer分數、開放閱讀框完整性、預測肽的等電點、預測肽的不穩定指數、預測肽的親水性平均值Gravy以及30個CPPred中提出的CTD特征訓練分類器。CTD特征用來描述全局轉錄本序列,核苷酸組成(特征C)描述了轉錄本序列中每個核苷酸的百分比組成;核苷酸轉換(特征T)描述了4個核苷酸在相鄰位置之間轉換的百分比;核苷酸分布(特征D)計算每個核苷酸在轉錄物序列的5個相對位置(0,25%,50%,75%,100%)來表示每個核苷酸在轉錄本序列中的分布。
2 lncRNA鑒定工具比較
本文所涉及的5個lncRNA鑒定工具包括最常用的CPAT、CNCI、PLEK,以及CPC的最新版本CPC2和最新發布的工具CPPred。其中,CPAT使用了邏輯回歸模型,其余四個工具都使用了支持向量機模型。本文總結每種工具的簡要信息和使用細節見表1。
接著,本文更具體地對5種工具所選擇的特征進行概述,見表2。
5種鑒定工具都是不包含比對過程的,適用于對未充分研究的物種的轉錄物分析。其中,CNCI和PLEK都可以用于有測序錯誤的數據集,PLEK在這類數據上表現更好。與CPAT、CPC2和CPPred相比,PLEK在除人類以外的其他物種中表現不佳。5種鑒定工具在不同測試集上的表現見表3。
由于不同物種lncRNA、不同測序數據之間存在一定的差異性,不同的lncRNA鑒定工具設計上存在一定的針對性。CPAT和CPPred為小鼠轉錄本的鑒定提供了專門的模型。在分析其他物種時,CPAT還提供了果蠅和斑馬魚的模型;CNCI和PLEK可以預測脊椎動物和植物的序列;CPC2還可以預測果蠅、斑馬魚、擬南芥、蠕蟲;CPPred提供了適用于斑馬魚、果蠅、釀酒酵母、線蟲和擬南芥的模型。不同工具在不同條件下的適用性見表4。
3 結束語
lncRNA的鑒定一直以來都是生物信息學研究的一個挑戰,在2010年之前,以CPC軟件為代表的lncRNA鑒定工具會依賴比對過程,此后,大部分軟件通過提取序列的內在特征來進行分類。這篇綜述中,集中探討了常用的和最新的lncRNA鑒定工具,總結了其相應的適用范圍,幫助研究人員來選擇使用適合的工具,同時獲得令人信服的結果。未來lncRNA鑒定工具的趨勢是針對不同類型的序列,開放不同的工具來解決各種特定情況下的問題。
參考文獻
[1] PALAZZO A F, LEE E S. Non-coding RNA:What is functional and what is junk? [J]. Frontiers in Genetics, 2015, 6: 2.
[2]SCHMITZ S U, GROTE P, HERRMANN B G. Mechanisms of long noncoding RNA function in development and disease[J]. Cellular and molecular life sciences, 2016, 73(13): 2491.
[3]HAN Siyu, LIANG Yanchun, LI Ying, et al. Long noncoding RNA identification: Comparing machine learning based tools for long noncoding transcripts discrimination[J]. BioMed Research International, 2016, 2016: 8496165.
[4]WANG Liguo, PARK H J, DASARI S, et al. CPAT: Coding-potential assessment tool using an alignment-free logistic regres-sion model[J]. Nucleic acids research, 2013,41(6): e74.
[5]SUN Liang, LUO Haitao, BU Dechao, et al. Utilizing sequence intrinsic composition to classify protein-coding and long non-coding transcripts[J]. Nucleic acids research, 2013, 41(17): e166.
[6]LI Aimin, ZHANG Junying, ZHOU Zhongyin. PLEK:A tool for predicting long non-coding RNAs and messenger RNAs based on an improved k-mer scheme[J]. BMC bioinformatics, 2014, 15: 311.
[7]KANG Yujian, YANG Dechang, KONG Leilei, et al. CPC2: A fast and accurate coding potential calculator based on sequence intrinsic features[J]. Nucleic acids research, 2017, 45(W1): W12.
[8]TONG Xiaoxue, LIU Shiyong. CPPred: Coding potential prediction based on the global description of RNA sequence[J]. Nucleic Acids Research, 2019, gkz087:1