林 熊,武金才,褚鳳冉,曹 智,葉 妃,陳家誠,劉路政
(1.海南醫學院附屬海南醫院/海南省人民醫院 肝膽胰外科,海南 海口 570311;2.海南醫學院第二附屬醫院 介入血管外科,海南 海口 570311;3.海南醫學院第二附屬醫院 血液細胞治療科,海南 海口 570311)
肝癌(liver cancer, LC)的發病率位居全球惡性腫瘤排名第六位,也是癌癥相關死亡的第三大原因,嚴重危害著人類的健康[1]。肝細胞癌(hepatocellular carcinoma, HCC)是LC 最 常 見 的 病 理 類 型。HCC 的發病機制并不明確。目前有效治療方法是手術切除或肝移植[2,3]。盡管臨床技術有所改善,但患者預后仍然極差,5 年生存率低,腫瘤轉移與復發率高[3-5],缺乏有效的HCC 診斷標志物和理想治療靶點。
作為特殊的非編碼RNA,環狀RNA(circular RNA, circRNA )一度被認為是錯誤剪接形成的RNA 分子,隨著二代測序及生物信息學等的發展,人們發現circRNA 可以是多種癌癥的關鍵調節因子[6]。CircRNA 由下游外顯子的剪接供體位點和上游外顯子的剪接受體位點之間的驅動循環或反向剪接產生,不具有5′末端帽子和3′末端 poly(A)尾巴,擁有特殊的閉環結構,穩定性高[7,8]。證據已有表 明,circRNA 可 通 過 與microRNA 或RNA 結 合 蛋白(RNA binding protein, RBP)競爭性結合而間接調節下游基因的表達[8,9]。同時,circRNA 還具有核轉錄的調控因子、調節親本基因的表達,并且豐富存在于外泌體中,參與HCC 的侵襲及轉移,具有潛在的臨床應用價值[10-12]。
近些年來,circRNA 被發現以不依賴帽子的方式如內部核糖體進入位點(internal ribosome entry site, IRES)元 件、N6-甲 基 腺 苷(N6-methyladenosine, m6A)等介導翻譯起始[13,14],從而編碼產生一類小分子多肽,調節細胞分子信號轉導途徑,參與惡性腫瘤的演變和進展[15,16]。胃癌中,CircAXIN1 可編碼295 個氨基酸的AXIN1-295aa,其通過競爭性結合APC 介導β-catenin/TCF/Wnt 途徑促進腫瘤增殖、侵襲及轉移[17]。三陰性乳腺癌中,circ-HER2 可 產 生 HER2-103aa,通 過 EGFR/HER3/AKT 途徑促進腫瘤發生與侵襲,并增加TNBC 對帕妥珠單抗(Pertuzumab)的敏感性[18]。特殊的滾環翻譯產物rtEGFR 亦被報道與膠質母細胞瘤成瘤和Nimotuzumab 藥敏密切相關[19]。盡管circRNA 翻譯組學持續研究及質譜證據的不斷完善,肝癌中關于circRNA 翻譯的案例鮮有報道,值得進一步調查。
本研究基于RNA-seq 對3 對肝癌與癌旁組織進行測序,通過生物信息學方法分析circRNA 的表達模式,進行序列分析、GO、KEGG 和Reactome 通路富集。通過在線翻譯數據庫Transcirc 和Ribocirc 對這些基因進一步篩選,并預測其編碼潛能。應用qPCR 檢測其表達。
3 例肝細胞癌樣本取自海南省人民醫院肝膽胰外科標本庫,并遵從《赫爾辛基宣言》要求,簽署倫理知情同意書。樣本自離體30 min 內液氮速凍,并在-80 ℃冰箱內保存。組織樣本均由外科手術獲得,病理學診斷均為肝細胞癌,且所有患者術前均未行任何治療,包括放化療或射頻消融等。
采用Trizol 法進行組織總RNA 的抽提,抽提所得的總RNA 取樣質檢。瓊脂糖凝膠電泳分析RNA降解程度,判斷是否有基因組污染。Qubit 3.0 檢測RNA 樣品濃 度,Agilent 2100 Bioanalyzer 檢測RNA的完整性(RIN 值≥7)。樣品質檢合格后,使用Total RNA-seq (H/M/R) Library Prep Kit for Illumina?構建文庫,先將設計好的DNA 探針與RNA 樣品進行雜交,從而將rRNA 從總RNA 中去除;隨后將RNA 進行片段化,合成cDNA 第一鏈,采用鏈特異的方法,在第二鏈cDNA 合成時摻入dUTP 對其進行標記,同時在此步完成了末端修復;接著進行加A-尾、連接接頭、連接產物純化和片段大小分選、文庫擴增等步驟,在PCR 擴增前用UDG 酶消化帶dUTP 第二鏈模板,擴增結束后用磁珠純化回收即得RNA-seq 文庫。文庫構建完成后,先使用Qubit3.0 進行初步定量,隨后使用Agilent 2100 Bioanalyzer 對文庫大小范圍進行檢測,插入的目的片段大小符合預期后,使用QPCR 方法對文庫的有效濃度進行準確定量(文庫有效濃度>3 nmol/L),以保證文庫質量。庫檢合格后,將不同文庫按照有效濃度及目標下機數據量的需求pooling,采用Novaseq 6000 PE150 模式進行測序,測序數據量10G。
使 用Bowtie2 version 2.1.0 將 獲 得 的reads 與 最新的UCSC 轉錄集進行比對[20]。首先,對原始reads進行過濾,去除接頭序列、含N 較多的序列及低質量的reads,獲得高質量數據(Clean reads)。然后,通過與核糖體數據庫進行比對,去除核糖體RNA序列,獲得有效的reads,將有效的reads 與參考基因組進行比對,結果用于下一步circRNA 的鑒定。
對于circRNA 的表達分析,使用STAR 軟件與基因組序列進行比對,使用DCC 軟件鑒定circRNA,并通過edgeR 程序計算circRNA 表達[21-23]。TMM (trimmed mean of M-values)將基因的表達進行標準化,并過濾掉TMM 表達較低的circRNA(CPM>0.1).隨后根據分組信息,基因表達P<0.05 且fold changes > 1.5 被認為差異具有統計學意義。根據差異性表達的circRNA 來源的宿主基因,進行了GO 功能和KEGG、Reactome 通路的富集分析。R 語言用于圖表繪制.
將差異表達circRNA 在TransCirc 和riboCirc 數據庫中進行搜索并取交集,使用IRESfinder 軟件預測circRNA 序 列 上 的IRES 元 件,m6A SRAMP 數據庫識別m6A 位點,NCBI ORFfinder 預測開放閱讀框(open reading frame, ORF)序列,CPAT 預測編 碼 潛 能,包 括ORF 大 小、ORF 覆 蓋 率、Fickett TESTCODE 統計量(即根據堿基組成及密碼子偏好性的組合效率區分序列是否編碼)及hexamer 使用偏好性(通過log 似然估計評估編碼與非編碼序列使用hexamer 的偏好性)。
采用Trizol 法進行組織總RNA 的抽提;接著進行總RNA 反轉錄(首先配制gDNA Eraser 反應混合液,其次將上述混合液按一定試劑與用量配制RNA反轉錄混合液,最后將RNA 反轉錄混合液先于42 ℃水浴中放置15 min,再于85 ℃水浴中放置5 s后立即置于冰上,獲得反轉錄產物(cDNA),隨即將反轉錄產物(cDNA)可立即用于qPCR 檢測,或存于-80 ℃。樣品信息與體系檢測(檢測引物信息;Real-time PCR 檢測反應體系與循環體系),引物序列見表1;上機進行實驗得到結果。

表1 11 個circRNA 及內參基因qPCR 檢測的引物序列Tab 1 Primer sequences for qPCR detection of 11 circRNAs and internal reference genes
將qPCR 實驗數據采用定量數值及分析(2-ΔΔCt)分析法,得到計算結果,然后用統計學Wilcoxon 秩和檢驗分析上述結果得到P值。
原始數據經質量評估合格后,去除reads 的引物以及接頭,并剪切掉低質量序列片段,序列與基因組比對結果(圖1A)。進一步分析發現多數以編碼區、內含子區域和基因間區域分布的reads 為主(圖1B)。樣品主成分分析顯示癌與癌旁組織分別聚類在一起(圖1C)。

圖1 序列比對結果評估及reads 在基因組區域分布情況Fig 1 Evaluation of sequence alignment results and distribution of reads in genomic regions
根據原始reads 數比對結果進行circRNA 的表達模式分析,共發現10 316 個circRNA。由于表達豐度足夠高的基因才能反應真實的生物學現象,為識別出具有生物學意義的差異表達基因,使用TMM 對不同樣品每個基因的表達之進行標準化即基因的CPM(counts per million),同時對基因的表達進行過濾,過濾標準為:CPM 值在至少在一半樣本中都大于0.1。共發現了416 個豐度相對可觀的circRNA(圖2A),存在35 個上調的circRNA,31 個下 調 的circRNA(fold-change≥1.5,P<0.05)(圖2B)。聚類分析顯示這些差異基因可以明顯的區分開來(圖2C)。進一步統計這些circRNA 對應的染色體位置(圖3A)。通過對circRNA 的長度進行統計,發現主要以0~1 000 nt 小分子量circRNA 占多數,高峰主要位于500 nt 左右(圖3B、C);其次對circRNA 的種類進行統計,發現以外顯子-外顯子類型的circRNA 占多數,其次是內含子-外顯子類型的circRNA 和內含子-內含子類型的circRNA(圖3D);對構成circRNA 的外顯子個數進行統計,發現以3個外顯子組成的circRNA 占最多數,其次是2 個外顯子組成的circRNA、4 個外顯子組成的circRNA 以及5 個外顯子組成的circRNA(圖3E)。

圖2 circRNA 的表達模式Fig 2 The expression pattern of circRNA

圖3 circRNA 的序列分析Fig 3 Sequence analysis of circRNA
對上訴66 個差異性表達的circRNA 進行功能、通路富集分析,GO 顯示這些差異基因在生物過程方面主要涉及在GTP 酶活性的調節(P<0.001)、小GTP 酶介導的信號轉導的調節(P<0.001)及GTP酶活性的正向調節(P<0.001)等;細胞組成方面主要涉及在核斑點(P=0.016)、血液微粒(P=0.005)及內質網腔(P=0.035)等;分子功能方面主要涉及在GTP 酶監管活動(P<0.001)、GTP 酶激活活動(P<0.001)及鳥嘌呤核苷酸交換因子活性(P=0.012)(圖4A)。KEGG 分析顯示主要涉及在補體系統(P=0.002)、mRNA 監測通路(P=0.003)及血小板激活通路(P=0.005)等(圖4B)。Reactome 分析顯示主要涉及在RHO GTP 酶周期(P=0.008)、CDC42 GTP 酶周期(P=0.001)及RAC1 GTP 酶周期(P=0.002)等(圖4C)。這提示差異性表達的circRNA 可能通過上訴功能、分子機制參與肝癌的發生。

圖4 差異基因的功能、通路富集分析Fig 4 Functional and pathway enrichment analysis of differentially expressed genes
為了獲得可翻譯的circRNA,對上訴66 個差異基因進行翻譯潛能預測。發現共有17 個基因可與TransCirc 和riboCirc 數據庫共交集(圖5),同時對這些circRNA 進行IRES、m6A 位點及ORF 個數進行預測分析,結果顯示hsa_circ_0000231、hsa_circ_0000417、 hsa_circ_0000745、 hsa_circ_0005455、hsa_circ_0000847、 hsa_circ_0005552、 hsa_circ_0060849、 hsa_circ_0008234、 hsa_circ_0075796、hsa_circ_0001742 及hsa_circ_0001686 共11 個 基 因編碼潛能評分最顯著且均大于0.9 分,見表2。

圖5 差異基因與TransCirc 和riboCirc 數據庫取交集基因的韋恩圖Fig 5 Venn diagram of differentially expressed genes intersecting with TransCircle and riboCircle databases

表2 17 個circRNA 的翻譯潛能評估Tab 2 The evaluation of translation potential of 17 circRNAs
為了進一步篩選出更具有意義的差異表達基因,用10 對肝癌和癌旁組織對上述11 個基因進行qPCR 試驗,結果顯示,hsa_circ_0000231、hsa_circ_0005552、hsa_circ_0000847 及hsa_circ_0000745 共4個基因在肝癌中高表達(P<0.05;W 分別=39;45;49;41)(圖6A);而hsa_circ_0008234 和hsa_circ_0060849 呈低表達(P<0.05;W 分別是-55;-37 ),差異具有統計學意義(圖6B)。

圖6 編碼潛能評分最顯著且均大于0.9 分的11 個基因在肝癌和癌旁組織中的表達情況Fig 6 The expression of the 11 genes with the most significant coding potential score and all scores greater than 0.9 in liver cancer and adjacent tissues
肝癌是最常見的惡性腫瘤之一。近年來,circRNA 多有報道調控腫瘤細胞周期及分子信號轉導等,在肝癌的增值、侵襲及復發轉移起著重要作用[24]。在circRNA 編碼多肽方向,肝癌中僅有兩例報 道 ,β-catenin 基 因 來 源 的 Circβ-catenin(circ0004194,2-7 外顯子反向拼接,約1 129 nt),其主要存在細胞胞漿中,與β-catenin mRNA 的表達水平呈正相關的關系。Circβ-catenin 可編碼蛋白β-catenin-370aa,競爭性結合GSK3β 并抑制其磷酸化后β-catenin 的降解,促進Wnt/β-catenin 通路的不斷活化,形成“正反饋“效應,促進肝癌細胞的生長增 殖 和 轉 移[25]。由ARHGAP35 基 因2-3 外 顯 子 來源的circARHGAP35 在HCC 組織中表達顯著升高,定位于胞質中且與ARHGAP35 mRNA 表達水平相反,circARHGAP35 可通過m6A 介導的翻譯起始,翻譯一種1289aa 的蛋白,與TFII-I 相互作用,促進細胞增殖和遷移侵襲[26]。本研究基于RNA-seq技術結合circRNA 翻譯數據庫共發現17 個具有豐度可觀、表達差異且潛在編碼潛能的circRNA,對這些基因進一步分析IRES 元件、m6A 位點及ORF 序列預測,結果顯示11 個circRNA(hsa_circ_0000231、hsa_circ_0000417、 hsa_circ_0000745、 hsa_circ_0005455、 hsa_circ_0000847、 hsa_circ_0005552、hsa_circ_0060849、 hsa_circ_0008234、 hsa_circ_0075796、hsa_circ_0001742 及hsa_circ_0001686)編碼潛能最顯著,提示這些circRNA 可能通過編碼多肽在肝癌的侵襲轉移中發揮重要作用。
對上訴11 個具有編碼潛能的circRNA 進行表達 驗 證 發 現hsa_circ_0000231、hsa_circ_0005552、hsa_circ_0000847 及hsa_circ_0000745 在 肝 癌 中 呈 高表達,而hsa_circ_0008234 和hsa_circ_0060849 呈低表達。
結合文獻報道,本研究發現hsa_circ_0000745和hsa_circ_0000847 和hsa_circ_0008234 在肝癌中有直接性報道,有研究表明,hsa_circ_0000745 的同源基因circ-SPECC1 通過海綿miR-33a 調節氧化應激下TGFβ2 和自噬,促進肝細胞癌的增殖[27]。此外,hsa_circ_0000745 在其他惡性腫瘤中也有涉及,其通過降低E-cadherin (E-cad)表達來促進宮頸癌細胞的增殖、遷移和侵襲能力[28]。有學者指出,hsa_circ_0000847 直接靶向miR-135a 來促進p-p38、p-ERK 和p-JNK 的表達,從而進一步激活MAPK 通路加快調控肝癌細胞的發展[29]。有趣的是,另有研究報道,hsa_circ_0000847 的同源基因circSMAD2在HCC 中顯低表達,通過靶向miR-629 抑制HCC細胞的遷移、侵襲和EMT[30]。這種表達相反的結果可能與人類HCC 組織的個體差異和小樣本量有關,這需要進一步評估。值得注意的是,有多項研究表明,hsa_circ_0008234 在腫瘤組織高表達,這與qPCR 檢測結果有差異,這可能與腫瘤的異質性有密切聯系,需要進一步深入研究。其中,hsa_circ_0008234 的同源基因circ-FOXP1 可通過作為ceRNA 調 控miR875-3p/miR-421 軸 從 而 導 致HCC 的惡性生物學行為[31]。此外,在結腸癌中,hsa_circ_0008234 通 過miR-338-3p/ETS1/PI3K/AKT 軸 促進 細 胞 的 增 殖、浸 潤[32]。 hsa_circ_0000231 和hsa_circ_0005552 在其他系統惡性腫瘤中均有涉及,包括結腸癌、膀胱癌及宮頸癌等[33-35]。例如,hsa_circ_0000231 可 通 過IGF2BP3/miR - 375 雙 通 路 上調CCND2 促進結直腸癌細胞生長,一方面作為miR-375 的競爭內源性RNA 促進細胞周期蛋白D2(CCND2),另一方面與IGF2BP3 蛋白結合阻止CCND2 降 解[33]。同 時,有 的 研 究 表 明,hsa_ circ_0000231 的同源基因circARHGAP12 通過m6a 依賴性IGF2BP2/FOXM1 通路在宮頸癌進展中發揮致癌作用[34]。與此同時,hsa_circ_0005552 的同源基因EHBP1 在 膀 胱 癌 中 通 過miR-130a-3p/TGFβR1/VEGF-D 信號軸促進膀胱癌的淋巴管生成和淋巴轉移[35]。然而,hsa_circ_0060849 及其同源基因circRNA 在惡性腫瘤中均未見報道。此circRNA 是否在惡性腫瘤尤其肝癌中扮演著重要角色,參與腫瘤生物學過程,尚不清楚,具有重要的研究價值。
本研究仍存在一些不足,首先測序樣本量較少,意味著結果具有一定的假陽性。其次,本研究依賴于circRNA 翻譯數據庫去篩選可編碼基因,一些未被數據庫收錄的circRNA 而實際上具有編碼潛能基因被忽視。未用大量組織樣本去驗證這些基因的差異性表達,且這些差異性circRNA 功能上是否具有生物學意義,后續將進一步探索。
綜上,研究初步表明6 個circRNA 在肝癌中具有高的翻譯潛能且存在差異性表達,相關性研究,值得進一步研究。
作者貢獻度說明:
林熊:實驗操作、數據整理、論文撰寫;褚鳳冉、曹智、葉妃:數據整理、統計學分析;武金才、陳家誠:實驗指導、經費支持;劉路政:研究設計、論文修改、經費支持。
所有作者聲明不存在利益沖突關系。