史軼良,王燁金鵬,王行環
(武漢大學中南醫院泌尿外科,湖北武漢 430071)
膀胱癌(bladder cancer,BC)是世界上第9大常見腫瘤,是男性第4大常見腫瘤,男性患者的中位診斷年齡大約在69歲,其死亡率位居所有腫瘤的第13位,是威脅人類健康的重要疾病[1]。大約90%的膀胱癌為尿路上皮癌。近30年來膀胱癌患者的存活率沒有顯著變化[2-5]。在發達國家,由于缺乏治療膀胱癌的有效手段,其威脅程度甚至可以高于其他一些腫瘤。膀胱癌的發病機制涉及多個基因表達通路,而近年基因芯片的大量應用為研究膀胱癌的發生發展機制提供了許多新的方法與思路[6]。本研究通過生物信息學方法對基因芯片GSE13507進行研究,對其包含的膀胱癌與正常外觀膀胱癌周圍組織樣本數據進行分析,為研究膀胱癌的發生發展機制提供可能的方向。
1.1 實驗材料從GEO數據庫中下載編號為GSE13507的基因芯片,該芯片包含256個樣本。其中正常膀胱黏膜10例、正常外觀膀胱癌周圍組織的膀胱黏膜58例、原發膀胱癌165例、復發性非肌層浸潤膀胱腫瘤23例。本研究選取原發性膀胱癌與正常外觀膀胱癌周圍組織的膀胱黏膜作為對照組進行基因微陣列研究[6]。該芯片的平臺信息為:GPL6102(Illumina human-6 v2.0 expression beadchip)。芯片的探針注釋信息來自Affymetrix公司。原始數據的CEL文件來自pubmed GEO數據庫(https://www.ncbi.nlm.nih.gov/gds/)。
1.2 處理方式
1.2.1數據預處理和聚類分析 利用GEOquery包獲取原始基因芯片數據并導入R軟件,分析確認數據來源的正確性,利用軟件獲取基因的表達矩陣。對原始基因表達矩陣進行排序,將多次出現的序列取平均值后合并為一項,避免重復計算。通過Affymetrix注釋文件獲取樣本基因的注釋信息,并通過基因探針名將其與基因數據對應。用Affy包對其進行RMA背景校正計算,利用樣本間的Person相關系數計算,對獲取的樣本信息進行聚類分析,分析明顯錯誤的芯片數據,對離群樣本進行剔除。
1.2.2篩選差異基因 使用Limma數據包進行差異表達分析,設定差異基因的篩選標準為:P<0.05,基因差異倍數(fold change,FC)變化≥1.5或≤-1.5。
1.2.3GO功能富集分析與KEGG通路富集 利用R軟件對獲取的差異基因表達矩陣進行GO富集分析。使用標準化P值進行統計學意義判斷,P<0.05則認為差異有統計學意義。同時進行通路富集分析,檢測差異基因表達所在的通路。
1.2.4使用數據庫與cytoscape分析蛋白相互作用網絡 蛋白互作數據庫可以了解各個基因所表達的蛋白之間的相互作用關系。將篩選所得的差異基因利用數據庫進行綜合分析,獲得蛋白互作網絡,設置閾值評分為>0.4分,將結果導出。
1.2.5篩選核心蛋白 將前述結果導入cytoscape,并利用其網絡分析功能計算差異基因所表達蛋白相互作用的密度與廣度。根據蛋白作用的密集程度可以篩選出網絡中心節點,其對應的蛋白即為核心作用蛋白。
1.2.6核心蛋白驗證 GEPIA數據庫包含多種腫瘤數據,利用其膀胱癌數據對所獲得的核心蛋白進行綜合分析,并驗證其功能。
2.1 聚類分析結果對樣本數據進行聚類分析顯示,原發膀胱癌165例(實驗組)與正常外觀膀胱癌周圍組織的膀胱黏膜58例(對照組)聚類良好,對數據進行歸一化處理,用熱圖的方式進行可視化,紅色代表上調的基因,藍色代表下調的基因,顏色越深代表差異程度越明顯(圖1)。

圖1 差異基因歸一化處理后的熱圖
2.2 差異基因表達對獲取的差異基因進行篩選,以基因表達值FC>1.5或<-1.5,標準化P<0.05作為篩選條件,得出篩選后的膀胱癌周圍組織與原發膀胱癌差異表達基因共127個,其中在膀胱癌組織中上調的有4個,下調的有123個,對數據進行可視化處理,以火山圖的方式呈現(圖2)。
2.3 差異表達基因功能注釋經GO富集分析和KEGG通路分析,我們發現膀胱癌腫瘤組織和癌旁組織樣本的差異基因富集到的生物過程涉及細胞周期的調控、減數分裂的調控、腫瘤細胞的黏附機制和黏附分子合成、趨化作用、蛋白泛素化,其富集到的通路主要有Wnt/β信號通路、PI3K-AKt通路、MAPK通路、JAK-STAT通路等(圖3)。
2.4 構建蛋白相互作用網絡通過string蛋白互作數據庫和cytoscape進行分析,篩選出相關核心基因,并從中挑選出最相關的6個基因進行分析。其中從癌旁組織相對上調的基因中篩選出MYL9、COL1A2、ACTG2,癌組織相對上調的基因中篩選出CDC20、ESM1、WDR72(圖4)。
2.5 核心基因的驗證通過GEPIA數據庫進行生存分析,并且驗證在不同分期膀胱癌組織中核心基因的表達情況。生存分析顯示,MYL9、COL1A2、ACTG2的表達量與生存時間相關,差異具有統計學意義;在下調的基因中,CDC20、ESM1、WDR72其表達量與預后的關系不明確,差異無統計學意義(圖5)。在膀胱癌和正常組織(圖6)以及不同分期的膀胱癌組織中(圖7),MYL9、COL1A2、ACTG2與腫瘤分期呈正相關,差異有統計學意義;ESM1表達量與腫瘤分期呈負相關,差異有統計學意義;CDC20與WDR72在不同分期的腫瘤組織中表達量的差異無統計學意義。

圖3 核心基因富集通路的KEGG分析圖

圖4 蛋白互作網絡圖(圓形表示相關蛋白,直線表示相互作用關系)

A:COLA2;B:ACTA2;C:MYL9。

A:ACTG2;B:CDC20;C:COL1A2;D:ESM1;E:MYL9;F:WDR72。

A:ACTG2;B:CDC20;C:COL1A2;D:ESM1;E:MYL9;F:WDR72。
在本研究中,我們對編號為GSE13507的基因芯片進行了差異分析,選用了FC>1.5或<-1.5作為納入標準,并且選用P<0.05作為篩選標準,既避免了選用FC>2 或<-2,造成的潛在核心基因刪失,又避免了制定過于寬松的納入標準導致基因樣本量過大。獲得了膀胱癌組織與癌旁組織差異表達基因共127個,其中上調123個,下調4個。該芯片包含了較多的組織樣本,從統計學的意義上較好的可信度。通過GO富集分析、KEGG通路分析與蛋白互作網絡的構建,我們進一步縮小范圍,得到了6個核心基因MYL9、COL1A2、ACTG2、CDC20、ESM1、WDR72,并且在GEPIA數據庫中對他們進行了驗證。再次挑選其中具有較好統計學意義的基因進行進一步分析討論。
低表達基因MYL9編碼肌球蛋白的輕鏈,同時還調控NMII的活性[1,7]。在細胞中它與肌動蛋白絲結合,能夠控制細胞骨架構建,參與細胞形態的形成。同時它還通過調控粘附、遷移和信號轉導因子,對腫瘤的侵襲和遷移產生重要影響[2]。有學者報道了通過組蛋白甲基化導致MYL9上調,從而在乳腺癌中介導了癌細胞的侵襲與轉移,這對于研究MYL9在膀胱癌發生發展中的作用途徑以及作用方式具有參考價值[8-9]。ACTG2編碼的是肌動蛋白γ2,是一種高度保守的蛋白質,它與肌球蛋白一起參與各種類型的細胞運動并維持細胞骨架。目前已經在脊椎動物中發現了3種類型的肌動蛋白α、β和γ[5-9]。該基因在腸道疾病中的研究較為豐富。BUSS等[10]報道了ACTG2突變可導致先天性膀胱膨脹、微結腸和腸蠕動不全。該研究通過動物實驗顯示ACTG2存在于膀胱和腸道組織中轉錄本會干擾ACTG2的聚合,導致平滑肌收縮性受損。COL1A2基因編碼Ⅰ型膠原蛋白的pro-alpha2鏈[11]。它由三重螺旋構成(2條α1鏈和1條α2鏈)。Ⅰ型膠原是存在于結締組織中的纖維形成膠原,在骨、角膜、真皮和肌腱中含量豐富,與MYL9類似,對于腫瘤的黏附和侵襲有重要影響。
對于上調的基因ESM1,它可編碼內皮細胞特異性分子內皮素,是一種表達于肺、腎內皮細胞等組織中的分泌蛋白[12-13]。該基因的表達受細胞因子調控,可能在內皮依賴性病變中起作用。腫瘤血管內的內皮素表達與腫瘤的分期和侵襲性密切相關,GEPIA數據庫對不同的膀胱癌分期的ESM1表達分析的結果也與之相符。ROUDNICKY等[3]通過對ESM1轉基因小鼠的機制研究發現,通過磷酸化VEGFR-2可以活化VEGF-A從而激活內皮素的表達,這一途徑可以促進腫瘤血管生成,并導致預后不良。ESM1的數據庫生存分析曲線也顯示了這一點。目前ESM1在膀胱癌中的具體功能研究尚不明確,其更多機制有待進一步發現。
總之,我們利用生物信息學工具與基因芯片技術相結合,獲取并篩選出差異基因,對其中的MYL9、COL1A2、ACTG2、CDC20、ESM1、WDR72進行了較為詳細的生物學功能和分子機制分析。從基因層面研究了膀胱癌發生發展可能存在的機制,并且為進一步研究提供了可以供選擇的治療靶點和診斷靶點。