康爭春 鄂繼福 徐曉東 王顥 于恩達
結腸癌(colon cancer)是我國最常見的消化道惡性腫瘤之一,并隨著環境、人們生活方式、飲食習慣的改變發病率不斷上升,嚴重威脅我國人民生命健康[1]。手術根治性切除仍然是結腸癌最有效的治療方式,早期診斷可以很大程度上提高手術效果,提高術后生存率[2]。術后腫瘤的分子檢測對結腸癌進行危險度分層,針對高危患者針對性治療也能極大提高術后生存率,隨著高通量測序時代的到來,大量的結腸癌腫瘤標志物應運而生[3-5]。單核苷酸多態性(single nucleotide polymorphism,SNP)作為最典型的第三代基因遺傳標記,具有普遍性、廣泛性、多樣性的特點,是研究結腸癌生物標志物的理想手段[6]。本研究通過生物信息學手段,對癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)中單核苷酸突變數據進行挖掘,篩選突變后顯著影響基因表達進而顯著影響結腸癌患者預后的基因突變,以期為結腸癌預后提供新的腫瘤標志物。現報道如下。
首先,從癌癥基因組圖譜官方網站(TCGA,https://cancergenome.nih.gov/)下載結腸腺癌組織樣本單核苷酸突變數據(數據類型為Masked Somatic Mutation)、表達譜數據、臨床病理數據。選擇TCGA.COAD.varscan文件進行數據整理。單核苷酸突變數據利用Perl 5.26.2軟件,對TCGA.COAD.varscan中的組織樣本ID、檢測基因、是否突變等信息進行抽提。表達譜數據利用Perl 5.26.2軟件,將原始數據轉化為gene id表達矩陣,并將gene id改寫成gene symbol,對表達譜信息進行編碼蛋白的信使RNA(messenger RNA,mRNA)的抽提。
利用Perl 5.28.2軟件對上述抽提信息所得文件進行計算并統計,在R 3.5.0環境下,加載GenVisR程序包,對突變數目前10位的基因進行瀑布圖可視化,瀑布圖顯示內容包括:突變數目前10位的基因的組織樣本數目和百分比、突變類型、突變與TNM分期和性別對應關系、突變效應等統計。
首先篩選突變后表達水平有差異的基因,將表達譜數據所檢測基因和單核苷酸突變數據所檢測基因取交集,將包含兩類數據的基因整合到一個文件,在R 3.5.0環境下,利用wilcoxon秩和檢驗進行具有顯著表達差異的基因篩選,取P<0.05為差異具有統計學意義。將單核苷酸突變數據和臨床預后信息的組織樣本信息取交集,將包含兩類數據的組織樣本整合到一個文件,去除生存時間小于30天的組織樣本,在R 3.5.0環境下,利用survival程序包進行具有顯著生存差異的基因篩選,取P<0.05為差異具有統計學意義。最后取兩者交集,為突變后表達水平有顯著性差異合并生存率有顯著差異的基因。
利用Perl 5.28.2軟件對上述步驟中結果中突變數目前10位的基因進行計算并統計基因突變位點數目,對突變數目前10位的基因進行瀑布圖可視化,瀑布圖顯示內容包括:突變數目前10位的基因的組織樣本數目和百分比、突變類型、突變與TNM分期和性別對應關系、突變效應等統計。
共有396個檢測單核苷酸突變數據的結腸癌組織樣本納入研究,共有521個檢測表達譜數據的結腸癌組織樣本納入研究。
共發現19 640個基因突變,突變數量前10位的基因分別為:APC,TTN,TP53,KRAS,SYNE1,MUC16,PIK3CA,OBSCN,FAT4,RYR2。突變數量前10位突變基因的數量及每個突變基因的突變位點數量如表1所示。這10個突變率最高的基因分布在385個組織樣本中,占到了總樣本數的97.2%。APC突變的主要類型為無義突變、框架移位插入突變和框架移位刪失突變;TTN,TP53,KRAS,SYNE1,MUC16,PIK3CA,OBSCN,FAT4,RYR2突變的主要類型為錯義突變;備受關注的KRAS一共有173個突變組織樣本,其中170個突變類型為錯義突變,3個為3′非翻譯區突變;PIK3CA的突變也較為特殊,一共有114個組織樣本突變,其中110個突變為錯義突變,3個框內刪失突變,1個3′非翻譯區突變。其中突變大部分為非同義突變,改變了所編碼氨基酸。各基因突變類型和TNM分期、性別未在圖中發現明顯相關性差異。如圖1所示。
共篩選出了42個基因突變,分別為EIF3J,GAS2L1,DBI,ZNF407,ZC3H18,USP7,METTL17,USP40,BCR,H2AFJ,MBD6,C8orf46,CD226,DYNC1I1,HLA-DQA1,ATIC,OR51I2,ZWILCH,ANXA2,EDIL3,TMEM256-PLSCR3,ZNF385A,HMG20A,LGALS9B,FDCSP,KCNH2,RNF148,SNTN,ZDHHC9,MED9,NOLC1,C11orf63,ACO1,OR5M11,CDA,SEMA4C,ASAH1,TRIM46,METTL23,WDR45,LST1,HES2。其中突變數量前10位基因突變一般情況如表2所示。突變數目最多的是MBD6,為31個,占到了總樣本數量的7.8%;其次是BCR,為28個,占到了總樣本數量的7.1%。二者的突變型和野生型表達差異和生存差異如圖2(圖2A、圖2B)、圖3(圖2A、圖2B)所示,并且在MBD6的rs762648935位點也發現突變后的顯著差異表達,見圖4。

表1 突變數量前10位基因基本信息

圖1 突變數量前10位基因瀑布圖

表2 突變型和野生型顯著差異表達及生存曲線有顯著差異的突變數量前10位基因基本信息

圖2 MBD6突變與mRNA表達、患者預后的相關性示意圖。圖2A:MBD6的野生型、突變型與mRNA表達水平的相關性,MBD6突變后其表達水平顯著降低,P=0.002;圖2B:MBD6野生型、突變型患者的總生存期生存曲線圖,突變型患者生存期顯著縮短,P=0.017

圖3 BCR突變與mRNA表達、患者預后的相關性示意圖。圖3A:BCR的野生型、突變型與mRNA表達水平的相關性,BCR突變后其表達水平顯著升高,P=0.001;圖3B:BCR野生型、突變型患者的總生存期生存曲線圖,突變型患者生存期顯著縮短,P=0.028

圖4 MBD6(rs762648935位點)表達情況
突變后表達水平有顯著性差異合并生存率有顯著差異的基因突變共42個。這42個突變率最高的基因分布在136個組織樣本中,占到了總樣本數的34.3%。MBD6突變的主要類型為框架移位刪失突變和錯義突變;BCR、ZNF407突變的主要類型為錯義突變和沉默突變;值得注意的METTL17主要突變類型為內含子突變,H2AFJ主要突變類型為3’端突變,EIF3J主要類型為框架移位插入突變;大多數其他基因突變以錯義突變為主,限于篇幅,不贅述。其中突變大部分為非同義突變,改變了所編碼氨基酸。MBD6突變主要發生于Ⅰ期、Ⅱ期和女性患者,BCR突變主要發生于Ⅰ期、Ⅱ期、Ⅲ期,而Ⅳ期極少見。有趣的是,ZC3H18突變主要集中于男性患者組織樣本。見圖5。
結腸癌作為我國最常見的消化道惡性腫瘤之一,其高發病率和病死率嚴重威脅我國人民生命健康,對其基礎機制研究對于結腸癌的防治有著十分重要的意義。目前針對結腸癌治療的難點依然在于沒有靈敏度和特異度均高的生物標志物,不能進行及時有效且經濟的早期診斷和術后危險分層針對性治療。SNP由于其數量巨大、分布廣泛、易檢測等獨特優勢,是目前研究最多,也是最有潛力的第3代分子標記,是研究結腸癌生物標志物的理想手段[6]。

圖5 突變型和野生型顯著差異表達及生存曲線有顯著差異的突變基因瀑布圖
目前有許多SNP作為結腸癌的發生、發展、預后標志物的報道。Hahn-Str?mberg等[7]發現CLDN1和CLDN7 CLDN1(c.369C>T)與結腸癌風險增加有關,CLDN7(c.590C>T)與腫瘤分化和結腸癌淋巴結受累有關。Dai等[8]通過研究證明,XRCC1和ERCC1多態性可能影響CRC患者的易感性,化療反應和存活率。Zaanan等[9]則通過實驗證實ERCC1和XRCC1基因多態性的相關性可能影響FOLFOX輔助化療治療的Ⅲ期結腸癌患者的預后。Slattery等[10]也有相關發現,他證明了FLT1中的4個SNP與結腸癌存活相關,而KDR中的3個SNP與直腸癌診斷后的存活相關。然而,上述研究多局限于一個或兩個孤立的SNP及其位點,結腸癌是多基因、多因素、多過程的疾病,其進展受到了多基因的共同作用及調控,每個SNP在疾病進展中發揮的作用都相對較小,因此需要將SNP看成一個整體和組合來研究其作用機制,單獨研究幾個SNP存在其不足及局限。
本研究主要借助TCGA公共數據庫,對TCGA數據庫收集的結直腸癌患者組織樣本單核苷酸突變測序數據進行分析研究,篩選出了如 MBD6,BCR,ZNF407,ZC3H18,USP7,C11orf63,TRIM46,USP40,DYNC1I1,ATIC 等42個突變后顯著影響基因表達進而顯著影響患者預后的突變基因。對其進行瀑布圖可視化發現,突變樣本占到了總樣本數的34.3%,主要以錯義突變為主。作為突變數量最多的基因MBD6突變主要發生于Ⅰ期、Ⅱ期,推斷其在結腸癌發生、發展的早期階段起到了十分重要的作用,其主要突變發生于女性患者,這也提示我們女性患者要重點關注其突變情況。BCR突變主要發生于Ⅰ期、Ⅱ期、Ⅲ期,而Ⅳ期極少見,提示我們晚期結腸癌患者檢測BCR的突變實用性不高,也可能是在晚期結腸癌分子調控中,BCR很少發揮重要作用。ZC3H18突變主要集中于男性患者組織樣本,我們則需要在男性患者中關注其突變情況,更好地對男性結腸癌患者危險分層,針對性治療。
經查閱文獻,挖掘的42個突變基因在結腸癌的發生、發展、預后中發揮的重要作用已經得到腫瘤科研工作者的實驗證實,如MBD6[11]在編碼序列中具有單核苷酸重復(外顯子7中的C7和外顯子9中的G8),可能是具有微衛星不穩定性的結直腸癌中的突變靶標;PI3K/AKT介導的WDR5上調通過直接靶向ZNF407[12]促進結直腸癌轉移;STAT3-USP7-P53分子網絡控制結腸癌的發展[13]。也有一些突變基因在其他惡性腫瘤中發現重要作用,但未在結腸癌中報道,如EDIL3發現在乳腺癌[14]、胰腺癌[15]、肝細胞癌[16]中均對腫瘤的發生、發展起到重要調控作用,提示了一個很好的結腸癌研究思路。但大部分突變基因并未發現相關研究。顯示了本研究的可靠性、科學性及對今后結腸癌基礎機制研究以及生物標志物研究的參考價值。
綜上所述,我們利用TCGA數據庫挖掘結腸癌顯著差異表達合并生存率顯著差異的突變基因并進行相關生物信息學和臨床病理信息的分析,這些發現有助于幫助我們深入理解結腸癌發生、發展過程中的關鍵基因突變群,從整體上把控基因突變群對結腸癌發生、發展、轉歸的影響,并為將來的調控機制研究提供參考,有可能作為結腸癌預后標志物和治療靶點應用于臨床。