杜芳芳,馬駿杰,楊澤偉,趙雪蓮,劉東宇,楊秀芹
(東北農業大學動物科學技術學院,黑龍江哈爾濱 150030)
基因表達是指通過轉錄和翻譯等方式將基因內貯存的遺傳信息轉換為具有生物學功能的RNA、多肽和蛋白質的過程,是一個受到嚴格調控的生物學級聯過程[1]。近年來,研究發現mRNA 5' 非翻譯區(5'Untranslated Region,5'UTR)存在著重要的調控元件,包括內部核糖體進入位點(Internal Ribosome Entry Site,IRES)、5'UTR 二級結構、G-四聚體(G-quadruplexes,G4)、5'帽子結構、上游開放閱讀框(Upstream Open Reading Frame,uORF)、Kozak 序列、上游起始密碼子ATG(upstream ATG,uATG)和5'UTR 內含子(5'UTR introns,5UIs)等[2],5'UTR 對基因表達的調控涉及多個層面,對維持mRNA 的穩定性、核內運輸、RNA 剪接和加工以及細胞增殖等皆有重要作用[3]。如5UIs 能夠結合轉錄因子[4],對轉錄起始進行調控;當下比較熱門的轉基因技術就有一些通過uORF 對翻譯水平進行微型調控[5]。此外,5'UTR 的核苷酸組成影響翻譯起始,并且核苷酸之間可能存在著隨機上位效應[6]。
近年來,在生物學領域,5'UTR 與micoRNAs 的相互作用及其在腫瘤免疫治療中的影響、蛋白質組學分析UTR 肽在基因組中的翻譯、以及5'UTR 雙向啟動子活性產生雙鏈RNA 等研究引起廣泛關注,但人們對5'UTR 的調控機制認識還不夠充分。本文主要對5'UTR自身調控元件的作用機制及相關研究進展進行綜述,以期為今后5'UTR 調控機理以及相關研究提供參考。
在絕大多數的真核細胞中,mRNA 的翻譯起始依賴于m7Gcap 帽結構和核糖體掃描機制[3,7],這也是最經典的分子作用機制,主要過程:首先核糖體40S 小亞基與真核起始因子(Eukaryotic Initiation Factor,eIF)2、GTP和甲硫氨酰-tRNA 形成43S 預啟動復合物(Preinitiation Complex,PIC);同 時PIC 在eIF4F 復合體(由eIF4G、eIF4A、eIF4E 構成)和eIF4B 等因子影響下與m7Gcap 帽結構結合,mRNA 在poly(A)結合蛋白(poly(A)-binding protein,PABP)和eIF4G 的相互作用下形成環狀;然后PIC 從5' 方向開始掃描5'UTR 并尋找合適的起始密碼子,PIC 轉換為結構穩定的48S 復合體,60S 核糖體亞基加入復合物形成80S 核糖體亞基,至此翻譯延伸開始(圖1)。除此之外,有一些真核基因的翻譯起始并不依賴m7Gcap 帽結構,即非帽依賴性翻譯起始機制。這部分基因的mRNA 無m7Gcap 結構,核糖體的40S 小亞基通過識別IRES 與mRNA 的上游序列結合,或者直接與起始密碼子結合,啟動翻譯[8]。

圖1 真核帽依賴性翻譯掃描機制模型[3,7]
1.1 IRES 介導病毒基因起始翻譯 IRES 最初在脊髓灰質炎病毒RNA 和腦心肌炎病毒RNA 的5'UTR 中發現,隨后真核基因也被鑒定出含有IRES 元件[8]。有研究者通過實驗將微小核糖核酸病毒的IRES 連接到一個缺少5'帽子結構的環狀RNA 上,該RNA 能夠被正常翻譯,證實了IRES 是除了經典的核糖體掃描機制以外具有起始翻譯功能的結構[9]。
病毒RNA 的IRES 可以直接與宿主細胞的eIFs 或核糖體結合來起始自身翻譯[10]。有些病毒在入侵后會通過清除eIF4G、eIF4A、eIF3 或使eIF4E 失活等方式來降低細胞mRNA 招募核糖體亞基的能力,導致宿主細胞的翻譯能力降低,從而使病毒mRNA 更高效表達[11]。
根據與eIFs 和反式作用因子(IRES-transacting factors,ITAFs)的結合能力,病毒IRES 分為I~Ⅳ型4 類,分別以脊髓灰質炎病毒、腦心肌炎病毒、丙肝病毒和蟋蟀麻痹病毒為代表[12-13]。4 類IRES 的翻譯啟動機制相似,即募集核糖體亞基進行組裝,但其招募核糖體的方式及促進翻譯起始的蛋白質因子存在差異(表1)。

表1 病毒IRES 分類[13]
I 型IRES 和II 型IRES 均由5 個核心結構域組成,I 型IRES 包括結構域II~VI(圖2-A),II 型IRES 包括結構域H-L(圖2-B),這些結構域促進了IRES 與eIF4A、eIF4B、eIF4G 的相互作用;I 型和II 型IRES 的3'端均存在一段Yn-Xm-Aug 基序,即AUG 上游約20 nt處(Xm,10~20 nts)有一段嘧啶鏈(Yn,8~10 nts),該基序被認為是核糖體進入位點[14]。
I 型IRES 的結構域V 與eIF4G 結合,結構域VI中的一個保守的AUG 可以刺激43S 核糖體預起始復合物的附著,然后掃描到起始密碼子并起始翻譯;II 型IRES 的結構域J-K 提供eIF4G 的結合位點,但核糖體不掃描mRNA,直接將43S 復合物招募至起始密碼子處[15]。盡管eIF4G 在I 型和II 型IRES 上的結合位點不同,但是兩者的起始機制存在一個共同點:都是基于IRES 與eIF4G 的特異性相互作用——招募eIF4A,導致IRES 的3'端構象改變,有助于招募PIC 復合物[13]。
III 型IRES 有3 個結構域,命名為II、III、IV(圖2-C),這些結構域在缺少m7Gcap 帽結構依賴的起始和掃描因子的前提下招募核糖體40S 小亞基并通過eIF2、eIF3、eIF5 和eIF5B 招募tRNA,直接在起始密碼子處形成48S 復合體,隨后GTP 水解、eIF 釋放和60S 亞基加入在起始密碼子處形成80S 核糖體并起始翻譯[16]。
IV 型IRES 包 括3 個偽結(PKI、PKII 和PKIII)和多個莖環結構(圖2-D),PKI 在40S 核糖體亞基A位點(解碼中心)模擬tRNA 與mRNA 之間同源密碼子-反密碼子的相互作用,這種模擬允許IRES 招募1個60S 亞基,并從非ATG 起始密碼子起始翻譯[17]。IV型IRES 與核糖體的這種結合方式模擬了核糖體的易位狀態,其介導的翻譯過程無需IFs 和ITAFs 的參與,只需要延長因子(Elongation Factors,eEFs)將mRNA的第一個密碼子帶入A 位點起始翻譯并進行多肽鏈的合成[18]。

圖2 病毒IRES 4 種類型的二級結構[13-14,17]
有報道稱,一些I 型IRES(如脊髓灰質炎病毒1 型、腸病毒7 型)可以從ORF 的5'上游起始翻譯[19]。除此之外,蟋蟀麻痹病毒IRES 可以通過使用tRNA 模擬與細菌核糖體相互作用來啟動翻譯[20],這表明真核細胞和細菌之間的翻譯起始的過程存在相似性。Arhab 等[21]研究發現,微小RNA 病毒的5'UTR 包括IRES 在內的結構,可以獨立于基因組其他部分進化,主要表現為可以在基因組間移動并且多以表型重組的方式。病毒IRES 種類繁多且機制復雜、發病機制多樣和細胞的特異性等因素是病毒進化的重要方面。
1.2 IRES 介導真核細胞起始翻譯 一些真核細胞的mRNA 含有IRES,這些mRNA 在細胞增殖、分化、凋亡和有絲分裂等生理活動以及細胞缺氧、養分減少等應激條件下可以翻譯產生蛋白質[22]。Dai 等[23]實驗發現,血清饑餓期間,DNA 損傷結合蛋白2(DNA damagebinding protein 2,DDB2)的翻譯水平增加,之后發現2 個順反子之間插入DDB2的5'UTR 可以啟動下游基因表達,證實了DDB2-5'UTR 具有IRES 活性。真核細胞具有IRES 活性的5'UTR 在結構上具有相似性,普遍比不含有IRES 的5'UTR 長且GC 含量高、擁有多個起始密碼子以及復雜的二級結構,但并非滿足這些條件的5'UTR 一定具有IRES 活性或者依賴其起始翻譯[24-25],兩者的關系不互通。與病毒相比,細胞IRES 的RNA序列結構少、保守性小且相似性較低,因此目前難以通過生物信息學方法預測內源性IRES。
真核細胞通常以單順反子形式進行生命活動,但IRES 的功能常以多順反子的形式體現。Kanamori 等[26]研究發現,來自于蠶的單一mRNA 編碼了1 個昆蟲細胞因子麻痹肽的前體和2 個新的細胞因子前體樣蛋白uENF1 和uENF2,以螢火蟲熒光素酶ORF 替換該mRNA 的3 個ORF,證實了這3 種蛋白均來自同一個mRNA 模板。此外,真核細胞IRES 對發育過程中的基因表達有著不可忽視的調控作用。有報道稱,C-myc原癌基因IRES 在轉基因小鼠胚胎發育過程中和成體組織中均有表達,但效率不同,其IRES 活性在胚胎發育過程中高于成體組織,因此可以推測細胞IRES 介導個體發育[27]。
目前的研究發現,IRES 元件起始的翻譯過程與m7Gcap 帽結構依賴機制存在著許多相似之處,二者的影響因素可能一致,在今后的實驗中可以以此為標準進行變量因素設計。
5'UTR 二級結構對基因的起始翻譯有調控作用,盡管5'UTR 沒有直接參與蛋白質的合成,但是堿基配對形成的莖環結構會影響核糖體亞基復合物的移動,阻礙核糖體的合成,從而抑制翻譯起始[28]。通常借助RNAFOLD(http://rna.tbi.univie.ac.at)、MFOLD(http:// mfold.rna.albany.edu)、GEEBEE(http://www.genebee.msu.su)等軟件,以GC 含量和最小自由能(Δ)G 為指標來預測5'UTR 二級結構。自由能的大小與GC 含量和堿基對數不呈正比關系,整體自由能越小的二級結構越穩定,越不利于翻譯進行。但是在果蠅體內發現5'UTR 二級結構的穩定性高于其他區域[29],說明5'UTR 二級結構的穩定性與翻譯起始效率不是絕對的反比關系。
G4 是由富含G 的RNA 或DNA 核苷酸序列形成的非典型二級結構,且RNA G4(RG4)的結構較被廣泛研究的DNA G4 更加穩定[30]。RG4 廣泛分布于premRNA、內含子、CDS 和UTR 內。有研究表明,人類某些基因啟動子區域含有G4[31],這也從側面說明了G4對基因表達有著調控作用。有關5'UTR 區域RG4 的報道大多與抑制翻譯起始有關,推測可能是以阻礙43S 預啟動復合物與mRNA 的結合或者減緩核糖體掃描速度的方式抑制翻譯效率[32](圖3)。Beaudoin 等[33]篩選出9 個可能存在G4 結構且編碼不同蛋白質的基因,以基因突變的方式證明5'UTR-RG4 是一種翻譯抑制物,并廣泛分布在細胞中;隨后,Bolduc 等[34]發現,人類UTR 區存在潛在的G4 結構,并且無論G4 結構的莖環位置和大小如何變化,G4 均存在翻譯起始抑制的現象。

圖3 RNA G-四聚體抑制翻譯起始模式圖[32]
但并不是所有RG4 均對翻譯起始有抑制作用,人VEGF基因5'UTR-RG4 可提高翻譯效率[35]。此外,RG4 還參與pre-mRNA 的形成及選擇性剪接、mRNA的靶向等過程的調控,單核苷酸多態性也在一定程度上影響G4 的形成[36]。
uORF 普遍存在于真核細胞中,uORF 在某些情況下可以被翻譯成多肽,長度在1~100 個氨基酸,uORF序列可以完全包含在5'UTR 中,或者與CDS 區部分重疊,1 個基因可能有多個uORF。uORF 調控基因表達的方式是通過介導CDS 的翻譯起始率進而調節蛋白質的產生,uORF 通常被認為是翻譯抑制因子,但一些uORF 在環境壓力的應激條件下會促進基因的表達,如小鼠ATF4基因5' 端存在2 個uORF,上游uORF1 可促進下游編碼區的核糖體掃描和重新啟動,而uORF2抑制下游基因表達:當非應激細胞中大量存在eIF2-GTP 時,uORF1 下游的核糖體在下一個閱讀框uORF2重新啟動;在應激條件下,eIF2 的磷酸化和eIF2-GTP水平的降低增加了核糖體重新啟動的時間,這種延遲導致核糖體重新啟動并越過uORF2 進行掃描,在編碼區重新啟動,致使小鼠ATF4基因的表達量增加[37]。研究發現,uORF 調控基因表達的方式一般為3 種:①核糖體掃描從5' 端的帽狀結構開始,識別uORF 并進行翻譯,之后核糖體解體釋放到細胞質中,被其他mRNA招募并形成新的PIC 復合物,從而抑制下游主編碼框(Main Open Reading Frame,mORF)的翻譯效率[38];②uORF 被翻譯形成的短肽導致核糖體在延伸過程中發生懸停,在空間上阻礙后面的核糖體使其無法向下游移動,導致mORF 翻譯被抑制;③由于uORF 的存在,細胞識別出異常的mRNA,為保證生命活動正常進行,將模板mRNA 進行降解,即無義密碼子介導的mRNA降解[39]。
盡管uORF 多以負調控的方式介導翻譯,但是有研究發現存在一些機制可以規避這種現象。病毒以及一些植物的真核細胞以漏掃描和重新初始化這兩種方式來避免下游mORF 翻譯被抑制[40](圖4、5):發生漏掃描時,40S 核糖體亞基越過uORF 的起始密碼子,避免翻譯uORF,之后40S 繼續向下游掃描,當遇到mATG 時,60S 核糖體亞基被招募并形成80S 核糖體亞基,此時正常翻譯mORF;重新初始化則是當uORF 被翻譯后,核糖體解體并釋放60S 核糖體亞基,40S 核糖體亞基繼續向下游掃描,并在mATG 處再次形成80S 核糖體亞基。雖然這兩種方式都可以回避uORF 的負調控,但是重新初始化不能解決uORF 和mORF 重疊帶來的翻譯抑制現象。

圖4 漏掃描機制示意圖[40]
uORF 的數量會影響翻譯效率,且呈反比關系,uORF 的翻譯抑制效率隨著與mORF 之間的距離縮短而加強[41]。此外,uORF 調控基因表達還與自身的核苷酸序列組成相關并具有依賴性,讀碼框內的任何一個堿基突變都有可能改變下游mORF 翻譯效率的抑制程度[42]。

圖5 重新初始化機制示意圖[40]
uATG 不一定是功能性翻譯起始位點,當uATG 附近的序列不符合Kozak 規則或者由于二級結構的影響等情況時,uATG 的識別可能會失敗[43]。翻譯的起始一般是由ATG 啟動的,但是存在一些uORF 翻譯起始于非ATG 起始密碼子[44]。在Radio 等[45]的研究中,將與CDS 重疊的uORF 區域的起始密碼子突變為CUG、UUG、GUG、ACG、AUA 和AUU 等,然后對uORF的翻譯能力進行分析并分別與uATG 起始的翻譯效率和mORF 的翻譯效率相比,發現起始效率高的密碼子多以嘌呤堿基(A、G)為主,且uATG 起始活性低于mATG。
4.1 5'UTR 內含子的功能 內含子最突出的作用是可以被選擇性剪接,進而產生不同功能的蛋白質,并且無論內含子處于在基因結構的哪個位置,均可以調控基因的表達并涉及到每一步,包括mRNA 的轉錄、翻譯、定位以及衰變等過程[46]。大部分內含子位于編碼區,少數位于5'UTR 和3'UTR,5'UTR 內含子長度大約是編碼區內含子的2 倍,盡管3'UTR 比5'UTR 長,但僅有較少的3'UTR 包含內含子[47]。具有調控功能的基因多富集5'UTR 內含子,這種現象也反映了5UIs 有結合各種轉錄因子的特性,并且這些結合位點均位于第一內含子中[48]。5UIs 對基因的表達調控通常以影響上游啟動子活性的方式,并對基因表達有促進作用,如擬南芥啟動子近端內含子可以增強下游基因的表達,水稻rubi3基因的5UIs 提高了基因的轉錄水平、mRNA 的穩定性以及翻譯效率,證明植物內含子具有促進轉錄的作用[49-50]。
除此之外,5UIs 的表達調控還具有組織特異性。Shi 等[51]鑒定了甜橙基因5UIs 的序列大小和核苷酸分布特征,發現甜橙DUF247基因含有1 個5UI,5UI 在葉片和莖中的表達顯著高于根部,這為今后研究5UIs對基因表達調控的機制提供了參考。
5UIs 存在豐富的剪接位點,富集A/T 堿基有助于剪接位點的識別,并且這些序列趨向于結合RNA 結合蛋白并與轉錄因子相互作用,調控uATG 起始翻譯;但并不是所有的5UIs 均為富A/T 區,存在部分基因以富集堿基C 為剪接識別位點[4]。包含5UIs 的啟動子活性高于缺失5UIs 的啟動子,且具有更強的基因表達和產物積累,這也證明了5UIs 參與了轉錄水平和轉錄后水平的調控[52]。
4.2 5'UTR 內含子的位置對基因表達的調控 內含子的起始轉錄能力取決于與啟動子的距離,同一內含子在同一基因的不同位置具有不同的起始轉錄效率。內含子的位置會影響其轉錄及轉錄后調控能力。以擬南芥MHX基因為例:當5UIs 位于mATG 的5'端時,在剪接率很高的前提下,下游基因的翻譯水平依然很強;當5UIs 位于mATG 的3'端時,下游基因的翻譯能力明顯下降,并且由于5UIs 位置的下移,mRNA 的轉錄量略微下降[53]。此外,內含子上含有豐富的核內小RNA 作用位點,當5UIs 位于啟動子較遠位置時,不利于pre-mRNA 形成剪接體,抑制轉錄的進行并導致翻譯效率降低[54]。
基因表達主要涉及到轉錄調控、轉錄后調控、翻譯調控和翻譯后調控4 個層面,其影響因子主要包括編碼序列和UTR 的長度、核苷酸組成和結構、ATG 附近的序列是否符合Kozak 規則、uORF 的存在、miRNA 的可能靶位點、密碼子用法、氨基酸組成和蛋白質降解信號等,基因表達的起始過程是研究調控機制的關鍵。5'UTR 在轉錄及翻譯水平的調控主要體現在細胞增殖、分化、生長發育、凋亡和應激條件下生命活動的正常進行,并且在研究腫瘤發生過程、癌癥的作用機理中發揮重要的作用,引起了研究者的廣泛關注。
目前對5'UTR 的調控機制研究還不夠成熟,有待深入研究:①病毒IRES 介導帽無關翻譯的機制研究得比較全面,細胞IRES 的作用機制仍然需要更多更有力的證據,并且目前研究細胞IRES 的工具種類較少,需要更加先進的軟件及設備去分析;②如何才能更好去分析mRNA 的高級結構,盡管目前的工具可以分析細胞內部幾乎全部的RNA 結構,但是對5'UTR 的高級結構研究還不夠透徹,如cyclind1基因5'UTR 的相關RNA結構尚不明晰;③有關5'UTR 與mRNA 二級結構的穩定性的報道較少,mRNA 二級結構的穩定性不一致的原因尚不清楚,未來可以將mRNA 二級結構的穩定性是否存在種間差異以及二級結構穩定性與基因表達的關系作為研究熱點;④uORF 存在選擇性剪接現象,但對于這些現象的產生以及對翻譯水平造成的影響研究得還不夠全面,可以從轉錄組學、核糖體譜和蛋白質組學等方面進行綜合分析。