劉洪飛,廖明幟,藍賢勇*
(1. 西北農林科技大學 動物科技學院,陜西 楊凌 712100;2. 西北農林科技大學 生命科學學院,陜西 楊凌 712100)
自從核糖體RNA(ribonucleotide RNA,rRNA)、轉運RNA(transfer RNA,tRNA)以及豐富多樣的非編碼RNA被發(fā)現(xiàn)以來,人們越來越意識到非編碼RNA(non-coding RNA,ncRNA)在生命活動中的作用。現(xiàn)如今,科學家發(fā)現(xiàn)的非編碼RNA已有十幾種之多,包括持家非編碼RNA(轉運RNA、核糖體RNA、核小RNA(small nuclear RNA,snRNA)和核仁小RNA(small nucleolar RNA,snoRNA)等,以及具有調控功能的非編碼RNA(微RNA(microRNA,miRNA)、長鏈非編碼RNA(long non-coding RNA,lncRNA)、環(huán)狀RNA(circular RNA,circRNA)、小分子干擾RNA(small interfering RNA,siRNA)和Piwi互作RNA(Piwi-interacting RNA,piRNA)等)[1-2],尤其是具有調控功能的ncRNA在許多疾病以及癌癥中起著重要作用,因而研究其生物形成過程以及功能調控機制等方面具有重要意義。
高通量技術的發(fā)展促進了對轉錄組的認識,尤其是針對不同類型ncRNA而設計的RNA-seq通過結合后續(xù)相應的鑒定軟件可以對其ncRNA進行鑒定、差異表達分析以及常見的功能富集分析。RNA-seq不僅可以對ncRNA進行鑒定,而且能夠挖掘其中的關鍵突變位點[3]。針對從RNA-seq后續(xù)分析的結果中鑒定ncRNA甚至是預測新的ncRNA分子,現(xiàn)已經有許多ncRNA的鑒定軟件。鑒于對功能調節(jié)性ncRNA研究較多,因而本文主要針對miRNA、lncRNA、circRNA以及piRNA的生物學預測軟件進行綜述。
miRNA是一類不具有編碼潛力、長度為21~23 nt、可以與靶mRNA分子的3'-UTR結合的小分子ncRNA。miRNA的合成過程包括2個階段,分別為細胞核中的轉錄階段以及細胞質中的轉錄后加工階段(圖1A)。最終,成熟的miRNA雙鏈可以被由Ago2和Dicer等構成的RNA誘導的沉默復合物(RNA-induced silencing complex, RISC)所識別,進而在RISC中的解旋酶的作用下形成僅有21~23 nt的miRNA單鏈分子[4]。
目前的研究發(fā)現(xiàn)存在一類非經典miRNA,它們是由snoRNA、tRNA等基因轉錄加工形成[5],這些非經典的miRNA在轉錄加工后,通過不同于經典miRNA的轉運機制出核。在細胞質中,對于snoRNA來源的miRNA來說,與經典的miRNA一樣加載在RISC復合物中發(fā)揮作用;而tRNA來源的miRNA則需要進一步被切割成不同片段,進而構成RISC復合物。
在非編碼RNA中,有一類長度超過200 nt的RNA分子,被稱為長鏈非編碼RNA。非編碼RNA的來源包括基因間轉錄本、增強子RNA、正義/反義轉錄本等。Kopp等[6]研究發(fā)現(xiàn)一些lncRNA與mRNA非常相似,同樣具有5'帽子結構和polyA尾巴,區(qū)別是不具有開放讀碼框(open reading frame,ORF)。在lncRNA的形成過程中,lncRNA的轉錄由RNA聚合酶Ⅱ/Ⅲ所引導,并且大多數lncRNA和mRNA一樣具有polyA尾巴(圖1B)。然而,某些lncRNA有著不同的加工修飾途徑,其加工過程與tRNA形成過程較為相似,其初始轉錄本的3'端同樣會經過RNase P的切割,形成一段類似于tRNA的mascRNA (MALAT1-associated small cytoplasmic RNA)[7](圖1B)。
circRNA是一類共價閉合的、經過反向剪接機制形成的環(huán)狀非編碼RNA分子。
在真核生物中,circRNA的形成存在3類機制[8](圖1C):一類是通過依賴于剪接體的套索環(huán)化,如外顯子型circRNA(exonic circular RNA,EcircRNA)以及內含子型circRNA(circular intronic RNA,CiRNA);第二類是順式作用元件促進circRNA的形成,例如某些富含ALU序列的hnRNA可通過環(huán)化位點與線性剪接位點的競爭作用而形成不包含內含子的circRNA或者包含有內含子的外顯子-內含子型circRNA(Exon-intron circRNA,EIcircRNA);第三類則是RNA結合蛋白(RNA binding protein, RBP)調控circRNA的形成,RBP可以通過結合到外顯子側翼的內含子上,促進或者抑制外顯子的并排,繼而影響circRNA的形成。近年的研究表明,在古細菌和動物體內還存在一類由tRNA經可變剪接所產生的tRNA內含子型circRNA(tRNA intronic circRNA,tricRNA),它的形成需要凸出螺旋凸出(bulge-helix-bugle, BHB)基序和許多反式作用因子,包括RtcB連接酶和tRNA剪接內切酶(tRNA splicing endonuclease, TSEN)復合物[9]。
piRNA為一類源于dsRNA、通過不依賴于Dicer酶機制而形成、長度為23~32 nt,與PIWI類的AGO蛋白互作的單鏈非編碼RNA[10]。
piRNA的生物合成過程可以分為2個階段(圖1D):細胞核中前體piRNA的轉錄與轉運階段和細胞質中的前體piRNA加工與裝載PIWI蛋白階段[11]。piRNA大多是來源于有多個拷貝的轉座元件,少部分則是由200 kb的piRNA基因簇所產生的[11]。此外,一些單個轉座子和蛋白編碼基因的3'UTR區(qū)域也可以產生piRNAs[12]。
piRNA基因簇來源的piRNA由RNA聚合酶II轉錄起始,該區(qū)域富含H3K9me3水平, 可與RDC復合物(Rhino (Rhi)、Deadlock (Del)和Cutoff蛋白)結合,進而促進piRNA的表達。轉錄形成的piRNA前體通過核孔轉運出核后,會被加工修飾為成熟的piRNA分子。在這一過程中,piRNA會經過5'修剪和3'修剪,其中5'修剪是由核酸酶Zuc酶來完成。此外,在卵丘細胞中,還存在一種沉默子依賴的修剪機制,這種機制又被稱為“乒乓”機制[12]。
大多數動物的miRNAs均可通過與靶mRNA分子的3'UTR區(qū)域結合以抑制其穩(wěn)定性或翻譯能力,進而阻止其翻譯[13]。miRNAs與mRNA的3'UTR結合的部分被稱為種子序列。當RISC復合物能夠與mRNA的結合位點嚴格互補配對時,可以發(fā)揮其內切酶的活性,對其特定位點進行切割,進而促使其被降解。
盡管對miRNA的大部分研究表明miRNA位于細胞質中,然而仍有一部分位于細胞核中,可通過形成RISC復合物或者與特定RBP結合作用于初級轉錄產物的3'UTR以及CDS序列或內含子區(qū)域[14],進而發(fā)揮基因沉默的作用。
lncRNA最重要的生物學功能之一就是可以與特定蛋白相結合,進而發(fā)揮相應的作用。有些支架蛋白或RBP在與作為骨架的lncRNA結合后,促使大分子復合物的形成和激活,能夠進一步激活下游通路或直接發(fā)揮作用[15]。一部分lncRNA可通過與蛋白結合順式地作用于某些基因的轉錄起始位點,進而調節(jié)基因轉錄。lncRNA也可以直接與DNA序列結合,從而形成RNA-DNA三股螺旋復合物,使得染色質構象處于開放狀態(tài),促進基因的轉錄[16]。其他lncRNA則具有輔助抑制因子的功能,可與特定轉錄因子結合,阻礙其與DNA的結合,而抑制RNA聚合酶的活性。此外,lncRNA在染色質結構重建和三維結構中也起著重要作用,可通過與染色質修飾復合物或增強子元件結合,促進激活子活性[17]。此外,反義lncRNA與相重疊的蛋白編碼基因可以相互抑制其基因的表達[18]。近年來,有研究表明lncRNA也是一種重要的內源性競爭抑制ncRNA,可作為miRNA的抑制因子,調節(jié)其miRNA對靶基因的負向調控作用[19]。到目前為止,已經有大量的lncRNA-miRNA-mRNA作用通路被揭示并研究了其在各種疾病或者發(fā)育進程中的作用。盡管大多數lncRNA不具有編碼能力,仍然有研究或預測分析發(fā)現(xiàn)有少部分lncRNA具有編碼能力,可以翻譯形成小分子量的蛋白質[20]。
circRNA可在轉錄水平、轉錄后調控以及mRNA分子的翻譯調節(jié)甚至是直接作用于某些蛋白而發(fā)揮功能。在轉錄水平上,circRNA直接與U1 snRNP和RNA聚合酶Ⅱ共同結合到靶基因的啟動子區(qū)域從而激活下游基因的轉錄或調節(jié)mRNA分子的剪接。circRNA研究最為廣泛的分子機制就是可以作為miRNA的分子海綿發(fā)揮其競爭性抑制的作用,進而上調miRNA的靶基因的表達。CLIP'seq也證明許多RBP會與circRNA結合,起到一種蛋白結合骨架的作用來調節(jié)mRNA分子的穩(wěn)定性[21],促進靶mRNA的翻譯能力。
由于大多數的circRNA不具有5'帽子和polyA結構,因而被普遍認為其不具有編碼能力。然而有研究表明,少部分circRNA含有內在核糖體進入序列(internal ribosome entry site,IRES)[22],因而具有一定的編碼能力,能夠翻譯出一些小分子多肽。因此,有人進一步對一些人工合成的含有ORF的circRNA在體外無細胞翻譯系統(tǒng)進行研究,發(fā)現(xiàn)其確實可以翻譯出多肽[23]。
piRNA與PIWI等蛋白構成的RISC復合物在轉錄以及轉錄后調節(jié)過程中起著重要的調節(jié)作用。其調節(jié)機制包括3種,一種為piRNA/PIWI復合物介導的轉錄基因沉默機制,第二種為轉錄后基因沉默機制,第三種為與相關蛋白互作的調節(jié)機制。
piRNA所形成的沉默復合物進入到細胞核中后,可以與靶基因的新生轉錄物互補配對,進而招募沉默因子[24],最終促進其異染色質的形成。另外,有些piRNA復合物還會誘導啟動子區(qū)域的CpG島的甲基化,降低目標基因的轉錄活性[25]。
piRNA普遍通過piRNA-RNA互作來發(fā)揮轉錄后沉默作用,其結合的RNA分子有mRNA、假基因的轉錄本以及l(fā)ncRNA。此外,有些沉默復合物可以通過miRNA類似的機制抑制mRNA的翻譯能力;那些能夠與lncRNA結合的piRNA沉默復合物則可間接地通過lncRNA介導的競爭抑制作用促進其miRNA的靶向抑制作用。對于含有PIWI結構域和RNase H內切酶活性的piRNA復合物來說,它們能夠選擇性地對轉座子基因的RNA進行切割,從而抑制其功能[26]。此外,piRNA沉默復合物還會調節(jié)某些特定的蛋白的活性來發(fā)揮基因沉默的作用[27]。
miRNA預測軟件的鑒定方法主要包括4種類型[28]:基于同源性的方法、基于靶點的預測方法、基于評分的方法和機器學習(表1)。
基于同源性的方法是最早miRNA預測方法之一,該方法的一般策略是利用序列比對結合對二級結構(如莖環(huán)結構)的預測來鑒定[28]。該方法只能針對已知的miRNA及其相似的分子進行預測,難以預測新的miRNA。由于miRNA前體序列較長,且其中的loop區(qū)域保守性不如互補配對區(qū)域,因而針對整個miRNA前體序列的同源預測的相似度會較低。
基于靶點的方法可以通過種子序列的保守性,對初步預測得到的miRNA做進一步的篩選[29]。基于該方法的軟件通常同樣需要利用已知miRNA的靶基因的序列信息來預測miRNA,同時結合一些輔助數據庫進一步提高其預測的準確度。此外,該方法若與k-mer序列搜索相結合,則能獲得更多miRNA候選分子[30]。
基因組評分方法則是利用了現(xiàn)有的比較基因組的方法,通過對相似物種的保守miRNA進行預測,能夠發(fā)現(xiàn)在某一物種內同源性不高的新的miRNA分子。該方法是對多個物種的保守miRNA進行比較以得到它們之間保守的結構和序列特征來進行預測[31]。其他的如miRDeep、miRDeep2則很少依賴于序列的同源性或相似度,而是更多通過其miRNA的結構特征對miRNA進行評分預測[28]。
機器學習相比于其他方法,最大的不同之處是其模型的訓練不僅需要已知的miRNA(陽性集),還需要非miRNA分子(陰性集)。基于機器學習方法的預測軟件根據不同的算法,可以分為3大類[32],包括支持向量機(Support Vector Machine,SVM)、貝葉斯和隨機森林,其中支持向量機算法是應用最廣的一類。例如Xue等[33]開發(fā)的Triplet'SVM分類器在測試集中的準確度和敏感度分別達到了93.3%和88%。Ding等[34]基于miRNA前體的多個loop區(qū)特征信息開發(fā)的MiRenSVM能夠達到96.5%和93.05%的特異性和敏感度。
另外,近年來也有一些通過將機器學習算法與之前的同源方法進行組合的軟件。其中,miRDetect就是一種融合了隨機森林算法與基于同源的方法用于鑒定植物新miRNA前體的軟件。該預測模型的準確率達到93.35%,相比于其他軟件,在預測miRNA方面具有較好的綜合性能[35]。
lncRNA預測軟件主要有2種方法,一種是直接預測其是否含有ORF元件或同源預測的方法,另一種是基于機器學習的方法。
在RNA-seq數據分析后的轉錄本進行注釋分析時,對其較長的轉錄本進行編碼能力的預測,就可以初步地對lncRNA進行鑒定。對其編碼能力的預測,最重要的就是鑒定其中是否存在ORF。然而,有一部分存在模糊ORF的lncRNA就難以通過這些初步篩選軟件所預測到。此外,針對已知lncRNA序列的同源性和保守性,通過利用序列比對算法(如HMMER、Profile-HMM)(表1)則可以根據其保守序列或基序(如CGIs、Alu元件和T-UCRs)預測新的lncRNA候選分子[36]。
我在北大接觸和認識很多有成就的人,我發(fā)現(xiàn)他們都有一個共同的特點,那就是他們對人都很友好,很會與人相處,與環(huán)境相適,沒有什么對抗和沖突。
此外,許多預測軟件普遍采用機器學習的算法(表1),例如CPAT[37]、PLEK[38]、CPC2[39]等。其中CPAT是采用了較為簡單的線性回歸算法,而其他軟件則是利用了支持向量機或者隨機森林的方法。另外,將lncRNA高級結構特征信息(假節(jié)和發(fā)夾結構)考慮在內的折疊算法[40](表1),通過利用這些已知的能夠與蛋白結合的折疊信息,已經有數以千計的高度保守的lncRNA在小鼠中被鑒定出來。
現(xiàn)有的從RNA-seq數據中鑒定circRNAs的算法主要包括2種(表1),一種為基于測序讀段(reads)比對的方法,另一種則為基于k-mers或/和德布萊英圖(de bruijn graph,DBG)的方法。
基于reads比對的軟件均是依賴于通過鑒定跨越反向剪接位點但不能夠匹配到線性轉錄本的reads,繼而基于不同的構建策略得到反向剪接接頭(back-splicing junction,BSJ)用于鑒定circRNA。現(xiàn)有的特異性鑒定circRNAs的算法有以下幾種:circRNA_finder、find_circ[41]、CIRCexplorer[42]、CIRI[43]和 MapSplice[44]等。有研究人員對5種軟件的敏感度、準確度進行了分析,發(fā)現(xiàn)CIRI算法敏感度較高,但是其準確度過低,其假陽性比率超過68%,而CIRCexplorer和MapSplice則具有較低的假陽性比率,但鑒定的circRNAs相對較少[45],且需要耗費更長的時間。Find_circ, circRNA_finder和 CIRI由于可以從頭預測circRNAs,因而不需要相關的注釋文件,適用于缺乏注釋信息的物種。此外,CIRI2在CIRI的基礎上,增加了多線程方面的改進,使用了基于多種子序列的適應性最大似然估計法去鑒定BSJ位點,能夠有效地降低假陽性的幾率,其敏感度、特異性以及內存使用率方面都有提升[46]。另有研究表明,CIRI、CIRCexplorer和KNIFE與其他方法相比,在精度和靈敏度之間實現(xiàn)了較好的平衡性能[47]。
現(xiàn)有的鑒定circRNAs的算法主要都是基于reads比對的原理,因而比較耗費時間。因此,有研究開發(fā)了基于k-mers而不是對比基因組的軟件CircMarker。CircMarker利用轉錄組注釋文件創(chuàng)建用于circRNA檢測的k-mer表[48]。之后,根據reads的全長區(qū)域所有的k-mers與k-mers表進行比對,進而依次對circRNA進行鑒定和對環(huán)化類型的篩選。在這之后,他們進一步結合了k-mers和DBG算法,開發(fā)了更優(yōu)的circDBG[49]。與現(xiàn)有的方法相比,CircDBG能夠找到更可靠的低偏差circRNA,具有更高的運算效率,在精度和靈敏度的平衡方面表現(xiàn)得更好[49]。
另外Szabo等[50]先進行從頭預測,得到可能的BSJ位點,之后根據匹配到BSJ位點處的核苷酸數、Bowtie2匹配分數和質量這3個特征針對某一個read進行是否為circRNA來源進行鑒定判斷,構建了邏輯回歸模型。之后,通過該模型以及對P值的校正來確定其circRNA及其可信度。最終,通過多種細胞系的RNA-seq數據分析表明,該模型對circRNAs分子的鑒定在敏感度和特異性方面均有顯著提高。
現(xiàn)有的對piRNA進行預測的軟件大多數是基于機器學習算法的(表1)。其piRNA預測軟件主要通過以下幾個特征進行鑒定:piRNA序列、基因組位置、5'或/和3'端的序列和結構基序、基因簇位置以及與靶序列的互作信息。其中proTRAC和piClust均是針對piRNA基因簇進行預測。proTRAC由于不準確的定量而難以進行后續(xù)的差異表達分析。而PLIFER擁有較好的平衡性能,不僅能夠精確地鑒定piRNA基因簇,而且對內存的利用效率很高[51]。該軟件首先將已知的piRNA和比對后得到的假定piRNA作為輸入,尋找到這些piRNA的峰值區(qū)域,并從峰值區(qū)域向上游100 kb內取不同長度的滑動窗口,通過對其中不同區(qū)域的reads數量進行統(tǒng)計分析,以一定的評分準則對可能的piRNA基因簇進行預測[51]。其相比于proTRAC,雖然報道的基因簇的總數要少,然而reads數量卻要高40%。piRNApredictor則是基于k-mer序列的框架,利用Fisher線性判別分析(linear discriminant analysis,LDA)的機器學習算法對piRNA進行預測,其準確度為90%,而敏感度相對較低,只有60%[52]。另外,基于轉座子和piRNA互作的預測軟件Piano不僅結合了piRNA的結構和序列信息,而且使用了SVM算法,在準確度上達到95.3%,敏感度上也超過了95%[53]。同時,該軟件能夠應用于不同物種,在預測人類、小鼠和大鼠的piRNA的整體準確度上能夠達到90.6%[53]。在一些非模式動物的預測中,其也取得了比較好的預測結果。利用SVM的另外一種工具Pibomd同樣也是基于piRNA的結構基序進行預測的[54]。該軟件相較于較早的基于k-mer序列的軟件,在預測準確度(Accuracy,ACC)上高出10%。
非編碼RNA在表觀遺傳調控中起著重要的作用,是研究基因調控網絡中的重要一環(huán)。同時,研究已經證明許多ncRNA在許多生命活動過程以及疾病中都扮演著不同的角色。因而,對非編碼RNA的研究是解析遺傳過程、探究生命奧秘過程中不可缺少的一部分。
為了研究非編碼RNA的結構和功能,進行大量的RNA-seq不可避免。然而如何從大量的數據中篩選出有潛在功能的非編碼RNA逐漸成為一個至關重要的問題。開發(fā)出一種更為廣泛、全面的具有更高準確率和敏感度的預測軟件或許是解決這一問題的答案。
除了研究較為明晰的持家非編碼RNA以外,具有更多復雜功能的調節(jié)性ncRNA更為人們所關注。所有針對ncRNA的預測軟件均是根據其固有的特有屬性和特征,具有針對性地開發(fā)出來的。其所利用的方法主要分為兩大類:一類是基于本身序列的同源性、保守性以及多維結構特征,根據現(xiàn)有的數據庫的已知信息,通過某種統(tǒng)計模型所預測出來的;另一類則是基于機器學習的算法進行預測。機器學習算法與傳統(tǒng)的算法相比較,能夠具有更好的綜合性能,應對不同物種來源的數據。盡管相較于其他類型的ncRNA,預測piRNA的軟件相對研究較少并且缺乏特征信息,然而通過機器學習算法或許能夠更為準確地預測piRNA。