陳伶莉 胡雪峰
(福建師范大學生命科學學院 福建福州 350108)
對于大部分真核生物來說, 其基因通常是不連續的, 即在編碼序列間存在至少一個以上的間插序列,編碼序列稱為外顯子(exon),間插序列稱為內含子(intron)。 DNA 編碼鏈轉錄形成前體RNA時,前體RNA 中包含大量內含子,這些內含子必須通過剪切反應去除, 并且將外顯子部分連成一條鏈,前體mRNA(precursor mRNA)才能形成成熟的mRNA, 翻譯成相關蛋白, 這個過程稱為RNA剪接。 在RNA 剪接過程中,剪接復合體如何正確識別內含子剪接位點并進行剪接尤為重要。 依據內含子的堿基序列和潛在折疊方式的差異, 可分為3 種類型:Ⅰ類內含子、Ⅱ類內含子、Ⅲ類內含子(表1)。

表1 常見內含子類別及其剪切方式
真核生物基因的外顯子和內含子交界處存在2 個比較穩定的保守序列,即內含子的5′端為GU序列,3′端為AG 序列, 這種保守序列模式稱為GU-AG 法則[1]。 正是由于這種保守序列的 存在,內含子才能被準確識別。內含子剪切位點的準確識別是由剪接復合體(spliceosome)介導的。 剪接體的主要成分為小核核糖核蛋白顆粒(small nuclear ribonucleo-protein particle,SnRNP),SnRNP 由 蛋白質和核內小RNA(small nuclear RNA,SnRNA)共同組成,SnRNA 共分為7 種,因含尿嘧啶U 豐富,故編號為U1~U7, 剪切過程在U snRNA (U small nuclear RNA) 指導下完成,SnRNA 中的U1、U2、U4、U5、U6 均參與前體RNA 的剪接。除U6 外,每個U snRNA 均含一個3′端甲基鳥苷帽子結構,且含保守序列PuAU3-6GPu[2]。 底物 識別區域通常發生在內含子的3′端[3~5]。 Robberson 等[6]于1990年提出外顯子識別模型, 該模型認為在剪接體形成之前,外顯子作為基本單位被SR 蛋白(ser-arg rich protein)分別識別。 其大致過程如下:在SR 蛋白作用下, 最先結合于內含子5′端下游的U1 RNP (U1 ribonucleo-protein particle) 越過其上游U2AF 與另一內含子的3′端結合。 而SR 蛋白中絲氨酸與精氨酸的含量較高,內部存在磷酸化的RS結構域 (RS domain), 與內含子的分支點互相作用。 因此,SR 蛋白可以識別外顯子剪切增強子(exonic splicing enhancer,ESE), 此過程中SR 蛋白作為障礙物,防止外顯子跳躍。ESE 位點的存在使得外顯子能夠保持正確的直線序列。 Collins 和Penny 認為內含子和外顯子的長度是其識別的重要 參數[7]。
3.1 Ⅰ類內含子的剪接機制 Ⅰ類內含子核酶的功能多樣,不僅能自我剪接,而且剪接方式不一,包括順式剪接和反式剪接。 同一條前體RNA 內,將內含子切除, 使得相鄰的外顯子連接的剪接方式稱為順式剪接。 而反式剪接則是指2 條不同的前體RNA 間,將內含子切除,并連接外顯子的剪接方式。 21 世紀80年代,美國波爾多大學的Cech和朋友在研究四膜蟲的rRNA 轉錄后加工問題時發現一個奇怪的現象, 在無酶催化及ATP 的情況下, 四膜蟲中的前體rRNA 在NH4+、Mg2+和鳥苷同時存在時,能夠發生自己催化自己的剪切反應:鳥苷通過磷酸二酯鍵的形式共價加成至插入序列的末端,釋放一段長達413 個核苷酸的插入序列,而原前體RNA 也成功轉化為成熟RNA,可作為翻譯的模板,插入序列最后會發生自身環化現象[8]。 以四膜蟲為例,正常情況下,存在于四膜蟲的Ⅰ類內含子剪接過程為3 次連續的轉酯化反應, 其過程需要二價陽離子(Mg2+或Mn2+等)的催化[9]。

圖1 Ⅰ類內含子的剪接過程
①首先,一個游離的鳥苷酸(GDP 或GTP)或鳥苷(GMP)的3′-OH 攻擊靶RNA 內含子5′端處的磷酸二酯鍵,在將G 轉移至內含子的3′端的同時將內含子與上游外顯子間的磷酸二酯鍵切斷,因此上游外顯子末端3′-OH 得以暴露。
②接著,上游外顯子3′-OH 對內含子3′端剪接位點的磷酸二酯鍵發起攻擊, 上游外顯子和下游外顯子在RNA 擬酶的作用下得以連接,同時將線性的內含子釋放出來。 通常,2 次轉酯反應是連續進行的, 即連接外顯子和釋放線性內含子是同時進行的。
③已切除的內含子的3′-OH 對其5′端附近的第15 位和第16 位核苷酸之間的磷酸二酯鍵發起攻擊,形成環狀RNA,隨即環狀RNA 又被切割而生成線狀RNA。
3.2 Ⅱ類內含子的剪接機制 與Ⅰ類內含子相比, Ⅱ類內含子內部存在較為保守的核心二級結構,即VI 螺旋中的3′端的內含子3′端分支點上游約7~8 個核苷酸處的A 殘基及內含子邊界序列,其自我剪接過程不需要鳥苷酸或鳥苷的參與[10]。

圖2 Ⅱ類內含子的剪接機制
①首先,V 結構域中靠近內含子3′端分支點上游約7~8 個核苷酸處的A 殘基的2′-OH,對5′端的磷酸集團發動親核攻擊,而后形成套環結構,套環內部以2′-5′磷酸二酯鍵相連。
②接著進行第2 次轉酯反應, 外顯子3′端核苷酸的3′-OH 被剪切后,迅速對3′內含子末端的磷酸基團發起攻擊。
③最后在3′端內含子外顯子處剪接點處斷開,釋放套環結構,在內切核酸酶和tRNA 連接酶的作用下,相鄰的2 個外顯子連接。3.3 Ⅲ類內含子的剪接機制 有研究表明,構成Ⅲ類內含子的剪接體中的SnRNAs 的整體形態類似于Ⅱ類內含子自我剪接時的形態, 尤其是剪接體中SnRNAs 的結構和功能和Ⅱ類內含子的催化部位之間均十分相似。 因此,Cech 提出這些SnRNAs 可能起源于早期的一種自我剪接系統的Ⅱ類內 含子[11]。
Ⅲ類內含子的剪接過程與Ⅱ類內含子相似,但是其不能進行自我剪接, 剪接過程需要剪接體的參與。 snRNA 參與構建剪接體,能與靶RNA 的剪接位點互補配對,各種不同的snRNA 間堿基也可以互補配對, 共同執行剪接功能。 以酵母菌為例,在電子顯微鏡下,可以觀察到酵母菌的剪接體以U5 作為中央支架, 支架周圍U6 和U2 相互纏繞,在U5 附近形成一個催化中心。 通過U2 與U6之間的堿基互補配對的相互作用保持內含子套索的穩定性[12]。 剪接體中的蛋白質組分將U2 和U6的5′端和3′端固定在活性位點之外,引導相關的RNA 序列,并保證內含子兩端和催化中心之間充分的靈活性。因此,剪接體從本質上來看是一種以蛋白質導向的核酶,關鍵的RNA 分子在合適的時間接近所必需的蛋白質成分,進行剪接反應。
Ⅲ類內含子剪接的基本過程如下:
①首先, 位于分支點序列處的腺嘌呤核糖核苷酸的2′-OH 對內含子5′端剪接位點處的3′-5′磷酸二酯鍵發起親核攻擊,產生2 種剪切產物:一是線性RNA 分子,二是套索狀分子,套索內部由內含子5′端的鳥嘌呤核糖核苷酸與分支點序列處的腺嘌呤核糖核苷酸間形成的2′-5′磷酸二酯鍵相連。
②接著,3′端位點的外顯子的3′-OH 對3′剪接位點的磷酸二酯鍵發起攻擊, 將套索狀分子釋放的同時連接2 個相鄰的外顯子。
可變性剪切是指主要基因序列轉錄所產生的前體RNA 中的外顯子通過不同的剪接方式進行重連,即對于同一段DNA 序列,既可被當做內含子剪切舍去, 又可作為外顯子而在成熟的mRNA分子中得以保留,從而指導蛋白質的合成。 因此,同一基因序列可能轉錄產生不同的mRNA, 最后翻譯形成功能各異的多肽[13]。 這種調控機制的存在使得一些基因在不同的發育時期或是組織細胞中能產生特定功能的蛋白質, 以滿足個體生長發育的需要。 若該機制失調, 會導致某些疾病的發生。 例如SRSF1(serine-rich splicing factor 1)和促癌基因MYC 兩者發揮協調作用共同促進癌癥的發生。 機制如下:MYC 可以激活SFSF1 的轉錄過程。同時,SRSF1 對腫瘤抑制基因BIN1 的RNA 剪接加工過程進行調節, 從而削弱BIN1 因子對MYC 的轉錄抑制作用,使MYC 表達增強。 因此,在肺癌與乳腺癌組織中MYC 和SRSF1 基因的表達 均呈現 上 升趨 勢[14~15]。
隨著研究的深入, 人們更加了解內含子的遺傳多樣性及其對基因表達的影響,因此,內含子在生物信息學領域有了廣闊的應用。 例如在序列比對方面,內含子的位置是一個重要的特征。通常情況下,隨著物種間親緣關系的距離越遠,同源基因序列的相似程度越低, 但有時序列的插入或者缺失會造成對比不齊。此時,由于內含子位置具有高度保守型,可作為序列比對的參照物,使序列比對的可靠程度提升。Csuros 等[16]受此啟發,發明了一種可以提高不齊氨基酸序列對比水平的方法。 此外,在基因工程領域,內含子也發揮著重要作用。如何提高目的基因的表達效率一直是困擾科學家的一大問題, 后來發現在系統中加入內含子能有效提高這一過程的效率。這一結論在哺乳動物、昆蟲和水稻中得到證實, 說明內含子能夠促進相關基因表達的效果廣泛存在于各種生物中[17~19]。 進一步深入認識內含子的功能, 有利于充分發揮內含子的功能, 使其成為調控目的基因精準表達的工具。在研究系統演化關系領域,內含子也到廣泛的應用。由于內含子受到的選擇壓力較小,因此內含子序列堿基替換的速率比較恒定且保持較高水平, 可以彌補傳統的預測工具如rDNA 及蛋白質編碼序列的位點替換速率低下的缺陷。
內含子預測是不斷更新的基因組注釋的重要問題之一,目前,比較有名的內含子預測工具有2種:類似于胚狀排列的工具Blat 和Sim4cc。 利用2種模型植物(水稻和擬南芥)基因組對2 種工具進行比較, 結果表明,Blat 和Sim4cc 都有各自的優缺點。 Blat 預測超過99%的全基因組內含子內含少量假陽性的內含子。 相比之下,Sim4cc 成功地找到了正確的內含子,其假陰性率為1.02%到4.85%,但是Sim4cc 運行時間相對Blat 長[20]。
Ⅰ類與Ⅱ類的部分內含子中存在開放閱讀框,可翻譯產生3 種不同功能的蛋白質。這些特定蛋白的存在, 使得內含子能夠以原來的DNA 形式, 或作為RNA 的DNA 拷貝插入到一個新的靶位點,這個現象稱為內含子歸巢。與Ⅰ類和Ⅱ類內含子相似,部分蛋白質也存在自我剪接:某些特定的區域從前體蛋白中剪切移除, 剩余部分通過肽鍵相連,得到一個成熟的蛋白質分子。被剪切移除的部分即為蛋白內含子。