劉路政 武金才
早在二十世紀七十年代,研究者首次發現了環狀RNA(circular RNA,CircRNA),但由于當時檢測方式的局限,CircRNA 被認為是錯誤剪接形成的RNA 分子,并沒有引起足夠的重視。隨著二代測序及生物信息學等的發展,人們逐漸認識到CircRNA 在人類疾病中起關鍵作用,且被認為是多種癌癥的關鍵調節因子[1]。CircRNA 是由下游外顯子的剪接供體位點和上游外顯子的剪接受體位點之間的驅動循環或反向剪接產生的,并且受pre-mRNA 剪切后的套索驅動、側翼內含子互補配對序列、側翼內含子上的Alu 元件及RNA 結合蛋白(RNA binding proteins,RBPs)如HRNPL、FUS、MBL 等調控[2-3]。根據不同CircRNA的序列,可分為外顯子來源的CircRNA(exonic circRNA,ecRNA)、外顯子兼內含子CircRNA(exon-intron circRNA,elciRNA)和內含子來源的CircRNA(circular intronic RNA,ciRNA)3 種。由于其封閉的環狀結構,CircRNA 是一種特殊的非編碼RNA,不具有5’末端帽子和3’末端poly(A)尾巴,穩定性高,可抵制RNA 核酸外切酶的降解,并經外泌體囊泡釋放,在人體體液中大量存在[4-5]。CircRNA 可作為內源性競爭RNA(competitive endogenous RNA,ceRNA),通過競爭性結合微小RNA(microRNA,miRNA)而間接調節下游基因(如mRNA)的表達。CircRNA 還具有吸附miRNA 的“海綿(sponge)”、隔離RBPs 的中介、核轉錄的調控因子、翻譯成多肽等多種功能,參與細胞分裂、分化、生長,因其潛在的臨床應用價值而受到愈來愈多的關注[6-8]。
蛋白質是生命活動的主體,RNA 作為基因表達的媒介,在復雜生命功能中扮演著核心地位。目前,人類基因組中已知編碼蛋白質的序列不到2%,早期對人類mRNA 的開放閱讀框(open reading frame,ORF)定義條件為編碼不少于100 個氨基酸,因此大量小的開放閱讀框(small open reading frame,sORF)被忽視[9]。這提示哺乳動物細胞中存在大量的非編碼RNA 可能被翻譯。上世紀80年代,丁型肝炎病毒[hepatitis delta(δ)virus,HDV] 來源的CircRNA 首次被證明可以翻譯約122aa 的多肽[10]。隨后,Chen 等[11]發現人工構建的生物工程CircRNA 可以招募翻譯相關元件如40s 核糖體亞基等,并在體外啟動翻譯。以上研究結論并不完全支持CircRNA 在體內可作為翻譯多肽的模板。隨著全基因組翻譯譜分析和核糖體譜分析的快速發展,2015年,Abe 等[12]提出了關于內源性Circ-RNA 作為翻譯模板的有力證據,揭示了CircRNA 中少數sORFs 實際上具有多肽或蛋白質編碼的潛力。目前,CircRNA 已經被證明在多種惡性腫瘤中可以直接翻譯成蛋白質,表明了其在細胞生命過程中可能發揮多種作用。本篇綜述結合國內外研究,回顧并討論關于CircRNA 翻譯能力的最新研究進展,并闡明其潛在機制。
大部分CircRNA 由線性基因外顯子反向拼接生成并大量存在于細胞質中。IRES 是一種RNA 的二級結構,常位于病毒或真核生物細胞5’UTR 區起始密碼子如AUG 前,長度150~250 bp,其可不依賴于5’帽子結構,7-甲基鳥苷(7-methylguanosine,m7G),直接招募翻譯相關起始因子和核糖體60S、40S 大小亞基(圖1 A,1B)。在機體應激狀態下,部分調控因子中的IRES 可引導下游ORF 參與翻譯,IRES 作為一種緊急的故障維護機制,以確?;镜牡鞍踪|需求得到供應[13]。有研究報道,保留起始密碼子近端1/2 的IRES序列較遠端1/2 IRES 序列翻譯效率高,而IRES 突變后,部分可翻譯的CircRNA 失去編碼功能[14-15]。
RNA 分子可能包含100 多種不同的修飾方式,其中絕大多數涉及m6A 和5-甲基胞嘧啶(5-methylcytosine,m5C)的化學修飾[16]。m6A 修飾與mRNA 穩定性、剪接加工、多肽翻譯和miRNA 加工有關,與干細胞命運和生物節律密切相關[17-19]。隨著研究的深入,研究者發現m6A 修飾可以在介導CircRNA 翻譯方面發揮作用,并且同時調節CircRNA的生成及降解[20]。m6A 介導的CircRNA 翻譯是指其轉錄本5’UTR 非翻譯區域,在應激狀態下如氨基酸缺乏、熱休克時以m6A 殘基形式激活,可在不需要帽子結構和真核生物翻譯起始因子eIF4E 的情況下,直接招募eIF3,進而結合43S 復合體并啟動翻譯(圖1C)。在調整應激過程中,m6A 殘基還可以通過將核糖體重新定向到不同的ORF 從而調控翻譯起始[13,21]。已有報道稱m6A 殘基在CircRNA 中大量存在,翻譯依賴于elF4G2 因子和YTHDF3,并且其過程涉及到甲基轉移酶METTL3、METTL14 的參與[21]。
滾環擴增翻譯是指可翻譯的ORF 上只有起始密碼子啟動翻譯,而無終止密碼子,一旦翻譯機制啟動,生成的蛋白質成倍數重復擴增,并且這種持續翻譯的ORF 稱為滾環擴增ORF(rolling circle translation open reading frame,rctORF)(圖1D)。其翻譯機制的終止可由框外Frame(錯開1~2 個堿基序列)的終止密碼子調控。有報道表明,惡性膠質瘤中CircEGFR 翻譯成一系列的83aa 不同循環次數的特殊產物,當同時突變框外Frame 的四個終止密碼子時,有效翻譯產物被阻斷[22]。
部分CircRNA 生成時,其剪接位點位于premRNA 的UTR 區,導致與線性同源轉錄本具有類似的UTR 序列,由于UTR 在線性RNA 可募集核糖體(圖1E),因此也驅動著CircRNA 的翻譯[23]。
Wu 等[24]發現CircSMO(hsa_circ_0001742)在膠質瘤癌組織及腫瘤干細胞(glioma stem cells,GSCs)中較癌旁組織高表達,其大量存在于細胞質中,與患者臨床預后密切相關。機制上,應用雙熒光素酶基因報告實驗、商業/自制抗體等證明CircSMO 由IRES 介導可翻譯成約196aa 的氨基酸多肽,命名為SMO-193aa。功能上發現SMO-193aa 可調控HH 信號通路(Hedgehog pathway)、結合并促進母基因SMO 的膽固醇化從而影響其活性,促進GSCs 的自我更新。最終結合體內實驗證明CircSMO 可以促進膠質瘤的形成。Circ-AKT3(hsa_circ_0017250)在膠質瘤組織及細胞系中低表達,其可通過重疊密碼子(起始密碼子與終止密碼子重疊)編碼蛋白AKT3-174aa,通過對Circ-AKT3 的上調及干擾,并結合功能實驗(MTT、Edu、流式凋亡分析等)、體內實驗,發現AKT3-174aa 使放射誘導的細胞凋亡增加,抑制腫瘤細胞的增殖、克隆形成及裸鼠成瘤。進一步探索機制,AKT3-174aa 通過競爭性結合p-PDK1 影響AKT-thr308 分子的磷酸化發揮負調控PI3K/AKT 信號通路,從而發揮抑癌功能[15]。Circ-FBXW7(hsa_circ_0001451)在膠質瘤組織中低表達,其翻譯的蛋白FBXW7-185aa 可以協同母基因編碼的FBXW7 蛋白通過競爭性結合USP28,調控原癌基因c-Myc 蛋白的穩定性,抑制膠質瘤的增殖與生長[14]。另外由LINC-PINT 外顯子2 環化形成的Circ-LINCPINT(hsa_circ_0082389),可編碼多肽PINT-87aa。二者在神經膠質瘤組織中均下調,并與神經膠質瘤的臨床預后負相關。此外,PINT-87aa 可與聚合酶相關因子(PAF1c)復合物結合,從而抑制多個癌基因的轉錄延伸,抑制神經膠質瘤細胞的增殖[25]。Zhang 等[26]應用RNA-seq、GEO 數據庫結合CircBase數據庫等,確定研究對象CircSHPRH(hsa_circ_0001649)。與之前的研究類似,CircSHPRH 中存在可編碼ORF,并確認了其IRES 的活性。CircSHPRH 在膠質瘤中低表達并可翻譯蛋白SHPRH-146aa,其可充當誘餌保護全長SHPRH 免受泛素蛋白酶體的降解,從而在體內促進增殖細胞核抗原(PCNA)轉化,抑制腫瘤細胞的惡性生物學行為。因此,在臨床上,SHPRH-146aa 也可能是膠質瘤不良預后的生物標志物。另外,在膠質瘤中存在上皮細胞標志物ECadherin 來源的Circ-E-Cad(hsa_circ_0039992)在腫瘤組織中顯著升高并可翻譯產物C-E-Cad(大小約254aa)。機制上C-E-Cad 可經外泌體分泌至胞外,結合并獨立激活EGFR/EGFRVⅢ,促進STAT3/AKT/ERK 信號通路。功能實驗上證明了抗EGFR 藥物(尼妥珠單抗)聯合抗C-E-Cad 治療可顯著抑制腫瘤進程,延長裸鼠生存期。同時也表明有抑癌作用的基因來源的CircRNA 也可以具有促癌的效果[27]。
由EGFR 的14~15 外顯子形成的CircEGFR(hsa_circ_0080229),在膠質母細胞瘤(glioblastoma,GBM)中高表達,其基因序列的Frame 上存在一特殊無限循環的ORF(infinite open reading frame,iORF),編碼成一系列的83aa 循環不同次的蛋白產物,統稱為滾環翻譯EGFR(rctEGFR)。機制及功能上,CircEGFR 翻譯生成的rctEGFR 蛋白結合并穩定EGFR,從而促進膠質瘤細胞增殖及成瘤能力。進一步研究發現,干擾CircEGFR 后可以增強膠質瘤細胞對尼妥珠單抗(nimotuzumab)藥物的敏感性,表明CircEGFR 可能是GBM 治療的潛在靶點[22]。
三陰性乳腺癌(triple negative breast cancer,TNBC)是乳腺癌中一種特殊的類型,缺乏雌激素受體(estrogen receptor,ER)、孕激素受體(progesterone receptor,PR)以及人表皮生長因子受體2(human epidermal growth factor receptor2,HER2)的表達。相對于其他乳腺癌類型,TNBC 惡性程度高,發病較年輕,轉移復發率高,治療方式局限,總體生存率低。研究學者Li 等[28]應用高通量二代測序技術、QPCR、雙熒光素酶基因報告實驗及WB 等發現在TNBC 中存在Circ-HER2(hsa_circ_0007766)在癌組織中較癌旁組織高表達,并且有著不良的預后。功能上,Circ-HER2通過編碼分子量約103aa 小肽,命名HER2-103aa,促進腫瘤細胞的增殖、侵襲及體內瘤體生長。進一步發現,HER2-103aa 可與表皮生長因子受體(epidermal growth factor receptor,EGFR)、人表皮生長因子受體3(human epidermal growth factor receptor3,HER3)直接相互作用,誘導EGFR/HER3 磷酸化和二聚化,從而激活下游AKT 通路。最終,由于HER2-103 與HER2 CR I 位點氨基酸序列基本一致的特點,TNBC 中高表達Circ-HER2 可增強對帕妥珠單抗(pertuzumab)敏感性,為TNBC 的治療提供了新的方向,具有重要的臨床意義。
Pan 等[29]發現由FNDC3B 基因5、6 號外顯子反向拼接形成的CircFNDC3B,全長526nt,內部存在一長約657nt 的ORF,跨環狀接頭位點。CircFNDC3B在結腸癌腫瘤組織及細胞系較癌旁低表達,其可通過IRES 元件介導翻譯大小約218aa 的多肽,命名為CircFNDC3B-218aa。體內、外研究證明CircFNDC3B-218aa 可抑制結腸癌細胞的增殖、遷移、侵襲及成瘤,而突變翻譯起始位點ATG 后卻不能達到上述作用。進一步機制探索,CircFNDC3B-218aa 通過Snai1 調控FBP1,抑制上皮間質轉變(epithelial-mesenchymal transition,EMT),同時影響細胞的糖代謝活動,抑制腫瘤的生物學行為。臨床樣本檢測發現腫瘤中CircFNDC3B 的表達可能與淋巴結轉移(N)有關,高表達CircFNDC3B的患者預后較好。另有研究發現CircPPP1R12A(hsa_circ_0000423)在結腸癌組織中顯著高表達,其通過編碼功能蛋白CircPPP1R12A-73aa 激活Hippo-YAP 信號通路,在體外和體內均能促進結腸癌的增殖、遷移和侵襲。臨床隨訪同時發現高表達CircPPP1R12A 的患者總體生存期明顯縮短,CircPPP1R12A 可能是結腸癌治療的潛在靶點[30]。Circ-Lgr4(hsa_circ_02276)在結腸癌干細胞及癌組織中高表達,其編碼小肽可與母基因Lgr4 相互作用,進而激活Wnt/β-catenin 信號通路,促進結腸癌干細胞自我更新和腫瘤的發生及侵襲。Circ-Lgr4 這種肽依賴性的方式,即circ-Lgr4-peptide-Lgr4 軸對結腸癌的基礎研究及治療具有重要意義[31]。
Wnt/β-catenin 信號通路在肝癌發生過程中發揮著重要作用,研究學者Liang 等[32]基于網絡數據庫生信分析及qRT-PCR 技術等,篩選出β-catenin 基因來源的CircRNA、Circβ-catenin(circ0004194,2-7 外顯子反向拼接,約1129nt),其主要存在細胞胞漿中,與β-catenin mRNA 的表達水平呈正相關的關系。進一步 研 究 發現,Circβ-catenin 可編碼蛋白β-catenin-370aa,競爭性結合GSK3β 并抑制其磷酸化后βcatenin 的降解,促進Wnt/β-catenin 通路的不斷活化,形成“正反饋“效應,結合體內體外實驗證實Circβcatenin 可以促進肝癌細胞的生長增殖和轉移。
人乳頭瘤病毒(human papilloma virus,HPV)是一種屬于乳多空病毒科的乳頭瘤空泡病毒A 屬,是球形雙鏈DNA 病毒。HPV 病毒包括有100 多種亞型,高風險HPV 毒株包括HPV16 和18,其引起約70%的宮頸癌。最近的研究也揭示了EB 病毒(epsteinbarr virus,EBV)和卡波西肉瘤病毒(Kaposi’s sarcomaassociated herpes virus,KSHV)可產生多種環狀RNA。研究學者Zhao 等[33]通過深度挖掘NCBI 來源的HPV 亞型RNA-seq 數據,通過Sanger 測序、qRTPCR、WB 等發現HPV16 病毒基因組可產生Circ-RNA,命名為CircE7(包含完整的E7 ORF,472nt)。CircE7 在宮頸癌腫瘤組織中高表達,可通過m6A 修飾介導編碼蛋白E7,結合體內、外實驗發現敲除CircE7 或干擾m6A 修飾過程后可明顯抑制腫瘤細胞的增殖和生長,為宮頸癌的治療靶點及病毒產生CircRNA 致癌可能提供新的觀點。
G蛋白偶聯受體(G protein coupled receptor,GPCR)是信號轉導中的重要成分,在腫瘤發生中起著至關重要的作用。研究學者Gu 等[34]發現Circ-Gprc5a(hsa_circ_02838)在膀胱癌干細胞及癌組織中表達上調,其編碼多肽與母基因蛋白Gprc5a 結合,形成Circ-Gprc5a-peptide-Gprc5a軸促進膀胱癌干細胞的轉移和自我更新,見表1。

表1 環狀RNA 及其編碼多肽在惡性腫瘤中的作用
近年來,越來越多的研究報道了CircRNA 參與人類疾病的生理和病理過程。目前的研究大多集中于CircRNA 與miRNA 或RBPs 的相互作用。然而,大多數CircRNA 并無可觀的豐度和相應足夠的結合位點,“海綿模型”存在爭議。CircRNA 編碼多肽在CircRNA 及非編碼RNA 的研究上提供了一個新的領域,可以拓寬科研學者對蛋白質翻譯的理解。值得注意的是,有些CircRNA 在癌癥發展中具有多重功能,既可充當miRNA 海綿角色又可編碼腫瘤相關蛋白,如CircFBXW7[14,35]。CircRNA 的研究仍需要深入探索,進一步了解其在活細胞中的定位、運輸、生成、降解及單細胞內CircRNA 圖譜等。
與傳統mRNA 不同,CircRNA 只能通過依賴特殊的起始機制進行翻譯。由于mRNA 序列中存在大量的修飾元件,且CircRNA 和母基因具有部分相同序列,表明CirRNA 分子中亦可能存在大量修飾,但目前報道的可翻譯CircRNA 大多都是IRES、m6A 驅動起始,是否有其他特殊的修飾驅動著CircRNA 翻譯有待后續研究。雖然目前已經證實CircRNA 編碼功能肽的存在及其重要性,然而,評估非編碼RNA 的翻譯潛能是困難的,用于預測CircRNA 中sORFs 序列、IRES 元件和m6A 修飾的數據庫尚不完善。大多數CircRNA 是由編碼蛋白的外顯子序列反向拼接產生的,這些CircRNA 序列可能與其相關的mRNA 序列相重疊,使得很難區分翻譯產物的來源。核糖體新生肽復合物(RNC-seq)、核糖體印跡測序分析等高通量分析檢測方法受限于環狀接頭特異性序列的讀取,不能準確識別區分非接頭位點處的CircRNA,且核糖體捕獲到的CircRNA 是否正處于有意義的翻譯活動,仍不明確。此外,高通量測序技術的判讀可能存在假陽性或假陰性的結果,部分小序列分子多肽不能獲得可靠的質譜證據,其鑒定需要特定的生化和生物信息學方法。因此,翻譯組學的研究存在技術上的挑戰。未來期望有更多CircRNA 上的sORFs 序列及其編碼的多肽生物學功能被驗證,這些CircRNA 不是轉錄過程生成的“噪音”,背后隱藏的人類蛋白質組也不是由于“誤讀”,需要進一步研究。
CircRNA 來源的多肽在腫瘤發生發展過程中涉及多重作用。大多數預測的多肽可能與CircRNA 宿主基因編碼的蛋白的N 端區域相同,這些截短的蛋白質可能本身有功能或與線性mRNA 表達的全長對應蛋白相互競爭,調節腫瘤細胞能量代謝、腫瘤相關蛋白的穩定性和癌基因多種信號通路。CircRNA 具有跨接頭位點的特異性序列,可識別的sORF 若同時跨接頭位點,所編碼的多肽區別母基因同樣具有特異性,可能擁有獨特的生物學功能,是抗腫瘤生長新藥研發的潛在靶點。部分CircRNA 或其編碼小肽可經外泌體釋放入體液中,或可作為預測癌癥患者預后的生物標志物,具有顯著的臨床意義[5,27]。隨著RNA 檢測及蛋白組學技術的快速發展,在未來幾年內期待涌現更多關于CircRNA 翻譯多肽與人類腫瘤疾病生理、分子模型的研究,從而為小分子多肽藥物靶標、臨床轉化治療和生物標志物方面的提供新的途徑。
綜上所述,本文總結了CircRNA 翻譯多肽在惡性腫瘤中的功能作用及其作為翻譯模板的可能機制,同時對CircRNA 翻譯多肽面臨的科學問題提出新的見解。CircRNA 的研究不僅打開了轉錄組學新視角,亦為非編碼RNA 在翻譯蛋白方面提供了新的理論依據。將來應重視并重新認識這些剪切事件中偶然形成的“垃圾序列”,以探索CircRNA在人類癌癥發生發展中的重要作用。