苗 欣,劉培發,菅雁兵,郗洪慶,陳 凜
解放軍總醫院第一醫學中心 普通外科,北京 100853
甲狀腺癌(thyroid cancer,TC)是臨床上常見的一種內分泌惡性腫瘤,隨著診斷技術的提升,其發病率在近幾十年來持續上升[1-3]。甲狀腺乳頭狀癌(papillary thyroid carcinoma,PTC)是TC中最常見的一種病理學類型,占所有TC病例的85%~95%,大部分患者預后良好,但高達30%的PTC病例在5年后復發[2,4]。盡管對PTC已有許多研究,但PTC是一種多因素疾病,其發生是一個以多分子異常為特征的復雜生物學過程,尚不清楚其高發病率的原因[5-6]。臨床上對于PTC的診斷、術后治療和預后評估也存在較大爭議,因此尋找新靶點和特異性標志物以輔助診斷、判斷預后是亟待解決的問題[7-9]。近年來,表觀遺傳調控在腫瘤發生發展中的重要作用已被廣泛認識,大量證據表明ncRNA與腫瘤的生物學行為密切相關,如miRNA、circRNA和lncRNA的水平變化導致基因異常表達,可能導致PTC發生發展和轉移[10-13]。本研究應用生物信息學方法對此進行探討,首先差異分析基因表達綜合數據庫(Gene Expression Omnibus,GEO)來 源 的PTC相 關circRNA、miRNA和mRNA測序數據集,基于ceRNA理論并根據3種RNA之間的調控與被調控關系進一步構建circRNA-miRNA-mRNA網絡,篩選出特定circRNA及其分子機制[14]。隨后,利用 癌 癥 基 因 組 圖 譜(The Cancer Genome Atlas,TCGA)數據庫進一步探討具有上述差異mRNA變化的PTC患者生存情況,從而建立PTC預后相關circRNA-miRNA-mRNA調控子網絡,為PTC的臨床治療及預后評估提供新靶標。
1 資料來源 在GEO數據庫(http://www.ncbi.nlm.nih.gov/geo)下載PTC患者的三組相關數據集:circRNA數據集(GSE93522)、miRNA數據集(GSE113629)和mRNA數據集(GSE35570)。應用Limma和edgeR軟件包分析差異表達的circRNA、miRNA和mRNA,將差異倍數(fold change,FC)>2,即|logFC| >2且校正后P值(false discovery rate,FDR)<0.05設定為篩選標準。登陸TCGA數據庫(https://portal.gdc.cancer.gov/projects/TCGA),下 載PTC患者的mRNA測序數據和臨床數據。
2 篩選標準 選取2000年10月- 2019年10月收錄在TCGA數據庫中的PTC患者。納入標準:1)mRNA測序數據完整;2)臨床數據完整;3) 病理證實為PTC;排除標準:1)隨訪天數小于60 d;2)合并有其他惡性腫瘤。根據納入和排除標準,本 研究共納入PTC患者425例。
3 circRNA-miRNA-mRNA網絡的構建 根據組織樣本信息,將circRNA數據集GSE93522、miRNA數據集GSE113629和mRNA數據集GSE35570分別分為腫瘤組和對照組,分別在三個數據集中提取差異表達的circRNA、miRNA和mRNA。將差異表達的circRNA通過癌癥特異環狀RNA數據 庫(cancer-specific circRNA database,CSCD;https://gb.whu.edu.cn/cscd)數據庫預測相應的靶標miRNA,結合GSE113629中篩選得到的差異表達miRNA進一步篩選目標miRNA。然后,利用miRDB(MicroRNA Target Prediction And Functional Study Database;http://www.mirdb.org)、miRTarBase(http://mirtarbase.mbc.nctu.edu.tw/php/index.php)和TargetScanHuman 7.2(http://www.targetscan.org/vert_72)數據庫預測目標miRNA對應的mRNA,再與GSE35570中差異表達的mRNA進一步取交集以識別目標mRNA。基于ceRNA理論,通過Cytoscape 3.7.1軟件構建circRNA-miRNA-mRNA調 控網絡。
4 預后相關circRNA-miRNA-mRNA調控網絡的構建 從TCGA下載PTC患者的臨床數據及mRNA表達譜數據,根據目標mRNA表達的中位數將患者分為高風險組和低風險組,以PTC患者死亡或疾病進展為觀察終點,Kaplan-Meier法比較高低風險組無進展生存期(progress free survival,PFS)的差異,篩選出與患者預后相關的核心mRNA,從而構建與PTC患者預后相關的circRNAm iRNA-mRNA調控子網絡。
5 統計學方法 使用R3.6.0軟件進行統計學分析及相應圖形繪制。采用Limma軟件包對基于微陣列數據的circRNA、miRNA和mRNA表達水平進行校正,采用edgeR軟件包對腫瘤組與對照組樣本之間的差異表達進行分析,采用pheatmap軟件包進行熱圖繪制,采用venn軟件包對各差異表達的miRNA、mRNA與靶標取交集,采用survival軟件包對患者進行PFS曲線的繪制與預后分析。P <0.05為差異有統計學意義。
1 PTC患者一般情況 根據納入排除標準最終有425例患者納入分析。其中男性103例、女性322例,平均年齡為(61.21 ± 7.92)歲;其中白種人 342例,黑種人54例,黃種人29例。見表1。
2 差異表達circRNA、miRNA和mRNA 通過分析PTC腫瘤組與對照組的circRNA數據集GSE93522,發現115個上調circRNA和21個下調circRNA(圖1)。差異分析miRNA數據集GSE113629,發現19個上調miRNA和31個下調miRNA(圖2A)。差 異 分 析mRNA數 據集GSE35570,發現242個上調mRNA和176個下調 mRNA(圖2B)。

圖1 PTC中差異表達circRNA的熱圖分析F ig.1 Heatmap of differentially expressed circRNAs in the PTC patients

圖2 PTC相關差異表達miRNA(A)及mRNA(B)的熱圖分析F ig.2 Heatmap of differentially expressed miRNAs (A) and mRNAs (B) in the PTC patients

表 1 PTC患者一般情況Tab. 1 Clinicopathological characteristics of patients with PTC
3 circRNA-miRNA-mRNA網 絡 的 構 建 通過CSCD數據庫分別對上述得到的115個上調和21個下調circRNA進行靶向預測,篩選出2159個靶向miRNA。將這2159個靶標miRNA與miRNA數據集GSE113629得到的50個差異miRNA取交集,篩選出37個目標miRNA(圖3A)。再利用TargetScan、miRTarBase和miRDB數據庫對這37個目標miRNA進行靶向預測,篩選出1327個靶標mRNA。將這1327個靶標mRNA與mRNA數據集GSE35570得到的418個差異mRNA取交集,篩選出34個目標mRNA(圖3B)。根據ceRNA調控原理并運用Cytoscape 3.7.1軟件,我們最終篩選出29個circRNA、9個miRNA和12個mRNA構 建circRNA-miRNA-mRNA可視化網絡(圖4)。

圖3 差異表達miRNA(A) 及mRNA(B) 的篩選F ig.3 Venn diagrams for differentially expressed miRNAs (A) and mRNAs (B)
4 PTC預后相關mRNA的篩選 從TCGA數據庫下載PTC患者的臨床數據及mRNA表達譜數據,根據納入排除標準,最終有425例患者納入分析。我們對上述用于構建circRNA-miRNAmRNA網絡的12個mRNA進行預后分析,分別以各mRNA的表達中位數為界值,將425例患者分為高風險組和低風險組,利用R語言“survival”包的Kaplan-Meier方法進行預后分析,最終顯示KIT、SPRY4、SFN這3個mRNA與PTC患者的PFS相關,患者信息見表2。SFN、SPRY4的高表達及KIT的低表達可能會導致PTC患者預后不良 。見圖5。
5 預 后 相 關circRNA-miRNA-mRNA子 網 絡 構建 根據ceRNA調控原理并運用Cytoscape 3.7.1軟件,由KIT、SPRY4、SFN這3個mRNA我們最終篩選出10個circRNA、3個miRNA和3個mRNA構建PTC患者預后相關circRNAmiRNA-mRNA可視化子網絡(圖6)。其中10個c ircRNA的基本詳細模式圖見圖7。

圖6 PTC患者預后相關circRNA-miRNA-mRNA網絡的構建Fig.6 Analysis of PTC prognosis related circRNA-miRNA-mRNA network

圖7 篩選出的circRNA基本模式圖F ig.7 Structural patterns of the ten circRNAs
RNA是基因組編碼的遺傳信息的直接輸出,在細胞功能中起著至關重要的作用。近年來越來越多研究表明ncRNA的失調與癌癥發病機制密切相關,大規模基因組測序結果也揭示了基因改變在PTC發生發展中的關鍵作用[15-17]。circRNA近年來已成為腫瘤領域的研究熱點,它是一類新的內源性非編碼RNA,在序列上高度保守,并具有組織特異性表達特點[18],這些特性使circRNA成為多種疾病的潛在分子生物標志物。miRNA是內源性保守類非編碼小RNA,通過多種機制負反饋調節基因表達和細胞活性[19]。多種miRNA與PTC的發生、發展密切相關,其異常表達在臨床應用中已作為生物標志物協助PTC良惡性的鑒別、淋巴結轉移的判斷、復發監測、治療及預后預測,如miRNA-146、miRNA-222等[20-23]。circRNA可以作為miRNA分子海綿與內源RNA競爭,從而調節miRNA靶基因表達,但對其中ceRNA調控網絡在PTC發生發展中的作用目前不清楚[24]。因此,本研究通過分析PTC非編碼RNA高通量測序數據,基于ceRNA理論構建circRNA-miRNA-mRNA三元互作網絡并進行預后分析,篩選參與調控PTC預后的潛在mRNA,為PTC臨床治療及預后評估提供新靶標。
本研究中首先從GEO數據庫獲得PTC相關circRNA、miRNA和mRNA測序數據集進行差異分析,基于ceRNA理論并根據3種ncRNA之間的調控與被調控關系進一步構建circRNA-miRNAmRNA網絡,篩選出特定ncRNA及調控網絡。在circRNA-miRNA-mRNA網絡中,circRNA通過CircBase網站和CSCD數據庫篩選,與差異miRNA取交集,而miRNA-mRNA的靶向關系來源于實驗證實的miRTarbase 數據庫,從而保證調控網絡的可信性。隨后,利用TCGA數據庫進一步探討可能影響患者預后的差異mRNA,發現SFN、SPRY4的高表達及KIT 的低表達可能會導致PTC患者預后不良。SFN基因編碼細胞周期檢查點蛋白14-3-3σ,作為一種腫瘤抑制蛋白在腫瘤中多呈低表達狀態或活性降低,主要與基因啟動子高甲基化和泛素化的增強導致蛋白量減少、自身活性調控因子異常引起的活性改變相關[25-28]。然而,由于14-3-3σ的生物學功能廣泛、調控因子眾多且涉及的調控機制復雜,在某些腫瘤呈現出相反的結果:SFN的過度表達刺激了癌細胞的增殖和生長且與較差的預后相關,如肺腺癌、膽管癌[27,29-30]。本研究發現SFN高表達患者的預后較低表達患者差,表明SFN在PTC中可能發揮著癌基因的作用,是潛在治療靶點。受體酪氨酸激酶介導的信號通路與PTC的發生、發展密切相關,該通路抑制劑可能適用于靶向治療帶有這些基因突變的PTC患者,如藥物索拉非尼和樂伐替尼。KIT基因的編碼產物為一種酪氨酸激酶受體,與細胞的生長和生存密切相關,在臨床上發現KIT突變與黑色素瘤、急性白血病及胃腸瘤的發生有關,PTC患者樣本和混合淋巴結樣本中也檢測到KIT基因的多種突變,包括胚系突變和體細胞突變[31-33]。本研究結果顯示KIT基因很可能是PTC發生、發展中一個非常重要的調控基因,并在臨床診治中具有指導意義。SPRY4基因編碼的蛋白屬于富含半胱氨酸和脯氨酸的蛋白質家族,是受體轉導MAPK信號通路的抑制劑,SPRY4蛋白的失調參與了多種人類癌癥的發生發展:在前列腺癌中受到DNA甲基化而下調;在人乳腺癌中異位表達SPRY4可抑制乳腺癌細胞系的細胞增殖和遷移;通過調節細胞增殖參與結直腸癌的發生和發展,可能是結直腸癌患者的潛在診斷和預后指標;還可以抑制非小細胞肺癌的細胞增殖和遷移[34-37]。MAPK信號通路是驅動甲狀腺癌發病和發展的主要通路,然而SPRY4在控制PTC發生發展中作用機制的研究仍較少,本研究結果表明SPRY4可促進PTC的發展,高表達SPRY4的患者預后較差。
由KIT、SPRY4、SFN這3個mRNA建立PTC預后相關circRNA-miRNA-mRNA調控子網絡,拓展了circRNA通過ceRNA網絡調控PTC發生發展的分子機制,為PTC臨床治療及預后評估提供新靶標,未來還可能作為免疫治療的新靶點。盡管本文系統揭示了circRNA-miRNA-mRNA在PTC患者預后評估中的重要作用,但依舊存在一定的局限性:首先,預測分子靶點仍需大量多中心的循證醫學證據支持;其次,本研究是基于數據庫中RNA高通量測序的分析結果,缺少臨床、細胞、動物功能學實驗,數據分析結果仍需要進一步驗證。