孫曉雨 楊春花
葡萄膜黑色素瘤差異表達基因的富集分析
孫曉雨 楊春花
目的從基因轉錄組水平揭示葡萄膜黑色素瘤的發病機制,為臨床診療提供新工具。方法在公共基因芯片數據庫GEO中找到葡萄膜黑色素瘤的相關基因芯片數據,數據經以2為底的對數轉換及標準化處理后,找到黑色素瘤中的差異表達基因。通過DAVID基因功能注釋和功能分類對這些基因進行生物學和統計學分析。結果在葡萄膜黑色素瘤組織中共找到265個差異表達基因,包括上調基因95個,下調基因170個。基因富集分析結果顯示,這些基因的功能大致分為細胞運輸、細胞骨架結構、細胞周期、信號識別及轉導、細胞分化調控等。結論利用生物信息學的方法能有效分析基因芯片數據并獲取生物內在信息,黑色素瘤組織中多種基因的表達發生了改變,為確定黑色素瘤的早期診斷標志與新治療靶位提供了新的思路。
葡萄膜黑色素瘤;差異表達;基因芯片;GEO;生物信息學
作者單位:250022 濟南,山東濟南循證醫學科學研究中心基礎醫學部
視網膜母細胞瘤(retinoblastoma,Rb)是嬰幼兒最常見的眼內惡性腫瘤[1],對視力和生命均構成了嚴重的威脅和危害。葡萄膜黑色素瘤(uveal melanoma),是成年人眼部發病率最高的惡性腫瘤,主要來源于葡萄膜黑色素細胞,具有增殖活性高和易于轉移等特點,容易與許多眼底疾病混淆。葡萄膜黑色素瘤的死亡率很高,主要原因是通過血液循環系統發生轉移的幾率很高,主要致死原因是肝臟轉移[2]。一旦確診腫瘤轉移,預后極差,數月內可致患者死亡[3]。鑒于其惡性程度高,是否能做到早期診斷對挽救患者的生命顯得尤為重要。
近年的研究證明,一些分子途徑與葡萄膜黑色素瘤的進展有關,其中GNAQ基因、GNA11基因、干細胞因子受體(c-Kit)、肝細胞生長因子(c-Met)以及微小RNA(miR34a)都通過調節特定的分子途徑影響腫瘤的進展[4-6]。張旭等[7]在高侵襲轉移性黑色素瘤細胞中發現骨橋蛋白的表達水平明顯升高,可作為預測葡萄膜黑色素瘤侵襲能力、轉移潛能以及患者預后的指標。但是并未進行轉錄組水平的高通量檢測,其應用仍有較長的距離。
因此,為了給黑色素瘤的防治提供篩查標志及新的治療靶點,從基因轉錄組水平揭示其發病機制至關重要。基因芯片作為一種高效、大規模獲取生物信息的技術,能檢測和分析腫瘤組織與正常組織的差異表達基因。本研究利用公共基因芯片數據庫GEO中的芯片數據,對黑色素瘤的相關基因挖掘并進行生物信息學分析。
1.1 基因表達數據 在GEO(http://www.ncbi.nlm.nih.gov/geo/)數據庫中選擇GSE24673芯片數據進行數據分析。GSE24673由Krishnakumar等人提供,芯片平臺為GPL6244(Human Gene 1.0 ST Arrays)。本研究對該平臺的所有樣本進行分析,分別是GSM607938、GSM607939、GSM607940、GSM607941、GSM607942、GSM607943、GSM607944、GSM607945、GSM607946、GSM607947和GSM607948。
1.2 實驗過程 實驗類型為芯片表達分析。實驗中對原發性視網膜腫瘤中退化的和分裂的RNA樣品進行了轉錄組分析。全局基因表達譜分析在對視網膜細胞瘤的早期診斷標記的確定方面具有巨大的應用前景。實驗中分析了3個原發性視網膜腫瘤組織(一式三份)和2個正常健康成年人的視網膜組織中的基因表達水平。視網膜細胞瘤RNA的用量使用納克級別,在Human Gene 1.0 ST Arrays進行處理。該芯片數據含實驗組9個,GSM607947和GSM607948作為對照組,參照人類健康視網膜組織中全轉錄本。
1.3 數據預處理及差異表達基因的篩選 使用GEO2R讀取芯片數據[8],得到28,869條基因數據,對表達數據進行log2轉換,使基因的表達值轉化為正態分布。之后對數據進行過濾及分位數法標準化。
limma包用于R分析差異表達基因,該模型將標準及信號強度的關系使用線性模型進一步強化,基于貝葉斯方法來確定差異表達基因,準確率較高,是目前使用最廣泛的方法[9]。利用limma包提取線性模型中的差異表達基因,運用t檢驗(公式1)判斷對照組和實驗組基因的表達差異是否具有顯著性。

其中均值

方差

式中ni為某一條件下的實驗重復次數,Xij為某基因在第i個條件下第j次重復實驗的表達水平測量值。根據統計量t值,得到P值。若P值小于0.05則認為某基因在兩個不同條件下表達差異具有統計學意義。
運用Benjamini&Hochberg算法[10]對樣本P值進行多重檢驗FDR校正(閾值為0.05)(公式2)。篩選|logFC|>2且P<0.05的基因視為差異表達基因。

公式中V表示不可觀察的隨機變量,R表示可觀察的隨機變量。
1.4 差異表達基因的富集分析 將得到的差異表達基因通過Fisher精確檢驗(FisherExact Test)進行富集分析,找到這些基因的功能特點及可能參與的生物學過程,富集分析對應的公式為:

上式中,N表示芯片上所有基因總數,n表示N中差異表達基因的總數,M表示N中屬于某個GO term的基因個數,k表示n中屬于某個GO term的基因個數。P值表示差異表達基因富集到這個GO term上的可信程度,本實驗設定P小于閾值0.05時,認為差異表達基因顯著性的富集到這個GO term上。
本實驗對差異表達基因從功能分類(functional categories)和蛋白質結構域(protein domains)兩個方面進行生物學分析。
1.5 差異表達基因的聚類分析 應用DAVID(The Database for Annotation,Visualization and Integrated Discovery)[11]中Functional Annotation Clustering,利用EASE檢驗對差異表達基因進行聚類分析,確定具有相同表達模式的基因,從而預測這些差異表達基因與黑色素瘤發生的關系。
2.1 差異表達基因的篩選結果 使用GEO2R在線軟件對芯片中的數據進行差異表達分析,共篩選得到265個滿足條件的差異表達基因,包括上調基因95個,下調基因170個。圖1列舉了前20個差異表達較顯著的基因,主要有:DCT(P=2.4E-08)、GUCY2F(P=9.9E-08)、TOP2A(P=3.3E-06)、PRAME(P=4.3E-04)、PVALB(P=6.9E-11)、RHO(P=2.4E-04)等。以基因DCT、DTL、GUCY2F和SLC4A10為例,其在實驗組與對照組中的表達值的變化見圖2。
2.2 差異表達基因的富集分析結果 通過Fisher檢驗富集分析,結合Functional categories信息(表1),發現這些基因的功能分類主要包含細胞分裂(P=4.57E-07,Count=16,7%)、細胞周期(P=9.7E-08,Count=22,9.7%)、細胞骨架(P=4.4E-04,Count=19,8.4%)、離子運輸(P=4.09E-04,Count=18,7.9%)、信號識別及傳導(P=4.09E-04,Count=53,23.3%)等。
根據Protein domains的數據庫信息(表2),發現這些基因的蛋白結構域主要包括驅動蛋白保守位點(P=1.7E-03,Count=5,2.2%)、神經遞質離子通道跨膜區域(P=2.2E-03,Count=5,2.2%)、配體結合區域(P=2.2E-03,Count=5,2.2%)、離子通道保守位點(P=2.3E-03,Count=5,2.2%)、r-氨基丁酸A受體(P=2.6E-03,Count=4,1.8%)、絲氨酸/蘇氨酸蛋白激酶活性中心(P=0.01,Count=11,4.8%)等。
2.3 差異表達基因的聚類分析結果 通過Functional Annotation Clustering對差異表達基因進行聚類分析,設置Kappa Similarity Threshold為0.5且EASE為0.001時,差異表達基因的功能共分為8類。第一類為信號識別及傳導(Enrichment Score=7.3),第二類為細胞周期(Enrichment Score=6.1),第三類為細胞組成(Enrichment Score=5),第四類為細胞骨架(Enrichment Score=4.6),第五類為信號轉導(Enrichment Score=4.4),第六類為光傳導(Enrichment Score=4),第七類為離子運輸(Enrichment Score=3.6),第八類為細胞分化負調控(Enrichment Score=3.3)。
通過對芯片數據進行log2轉換及標準化處理并運用Benjamini&Hochberg算法對樣本P值進行多重檢驗FDR校正后,共找到265個差異表達基因。通過DAVID基因功能注釋和功能分類對這些基因進行生物學和統計學分析,發現這些基因可能涉及到的生物學過程有:物質轉運、細胞骨架結構、細胞周期、信號識別及傳導、細胞分化調控等,與癌癥相關的已知通路大體吻合。下面就這5方面對黑色素瘤的差異表達基因做一詳細分析。

圖1 黑色素瘤中差異表達較顯著的前20個基因

圖2 實驗組與對照組中基因DCT(A)、DTL(B)、GUCY2F(C)和SLC4A10(D)的表達值的變化
在細胞物質運輸過程中,編碼離子通道亞單位的基因發生突變或表達異常或體內出現針對通道的病理性內源性物質時,通道的功能將出現不同程度的削弱或增強,從而導致機體整體生理功能的紊亂[12,13]。SLC38A5、SLC24A1、SLC4A10、GABRG1、KCNT2、KCNJ13、HCN1、TRPM1、CNGB1、CACNG4、SCN7A等基因在HCO3–、Cl–、K+、Ca2+、Na+等離子的跨膜運輸中起著關鍵的轉運調控作用。其中,是機體最重要的pH緩沖體系的組成部分,它可以加速CO2的清除,調節細胞和整個機體的pH,調控液體的流動以及酸堿分泌等[14]。SLC4家族(solute carrier 4 family)的鈉離子偶聯碳酸氫根轉運蛋白NCBT(Nacoupled HCO3–transporter)在細胞pH調控以及的跨上皮細胞轉運中具有重要作用。Parker[15]曾研究報道,由SLC4A10基因編碼的NBCn2是一種電中性的鈉離子偶聯的碳酸氫根轉運體,在中樞神經系統中表達極為豐富,對于神經元的pH調控和腦脊液的產生等都具有重要的生理學作用。而NBCn2功能失常與癲癇、智障等疾病的發生密切相關[16]。本研究中,SLC4A10在黑色素腫瘤細胞中低表達,說明HCO3–在黑色素細胞的轉運過程受到了阻礙,造成細胞生長環境失調,對細胞的腫瘤化有一定影響。

表1 差異表達基因的功能分類
微管是細胞骨架結構的主要組成部分,由α、β-微管蛋白異二聚體組成。微管在細胞分裂中具有極其重要的作用,現已成為抗腫瘤藥物研究的重要靶點之一。此外,α、β-微管蛋白表達異常與細胞的癌變密切相關。Giarnieri等[17]研究發現,α、β-微管蛋白的表達與直腸癌的發生發展有關。應榮彪等[18]在乳腺非典型增生及導管內癌中發現α、β-微管蛋白均出現過度表達。本研究中,與此相關的基因KIFC1、KIF4A、PRC1、NEK2、TTK等均呈上調表達,推測這些基因的異常表達促進了細胞惡變和癌變的進展。

表2 差異表達基因的蛋白質結構域
細胞周期調控異常是腫瘤發生的關鍵。TOP2A、KIF家族(KIF14、KIF17等)、WEE1、MCM6等基因在細胞有絲分裂、減數分裂和胞質分裂過程中起重要作用。TOP2A編碼的拓撲異構酶II能夠在細胞的有絲分裂和減數分裂期間正確分離子染色體[19],若表達異常,可致細胞分裂紊亂。也有報道稱有絲分裂驅動蛋白KIF14過表達與一系列人類癌癥發生、發展密切相關。楊濤等[20]在研究肝細胞肝癌組織中KIF14表達與臨床變量的關系時發現,KIF14過表達不利于手術預后,因此KIF14可作為手術預后評估的重要指標及潛在治療靶點。WEE1基因編碼產物是一種酪氨酸激酶的核蛋白,屬于蛋白激酶中絲氨酸/蘇氨酸家族的一員,是調控細胞周期G2期阻滯的關鍵元件,參與細胞有絲分裂前期的DNA復制及損傷修復過程[21]。MCM6(minichromosome maintenance protein 6)是微小染色體維持蛋白MCM家族的一員,存在于所有的真核細胞中,是DNA復制和延伸的關鍵蛋白,被認為是特異性細胞增殖相關因子[22,23]。本研究中,WEE1基因在黑色素腫瘤細胞中呈上調表達,說明其參與的DNA的修復異常與腫瘤的發生密切相關,可作為診斷早期黑色素瘤的候選基因,并為黑色素瘤的靶向分子治療提供生物學依據。MCM6在黑色素瘤組織中高表達,說明其參與的DNA的復制異常與腫瘤的發生相關,可作為預防、診斷黑色素瘤的一個標記物。
信號轉導異常在腫瘤形成及發展的各個階段都有十分重要的意義。參與腫瘤生長調控的信號轉導的基因有GUCY2F、GNAT1、ABLIM1、ABCA8等,在黑色素瘤組織中的表達均出現了不同程度的下調。Wood等[24]發現基因GUCY2F、EPHA3和NTRK3的低表達與乳腺癌、肺癌和胰腺癌組織細胞的惡性增殖有關。GUCY2F編碼的鳥苷酸環化酶 (soluble guanylate cyclase,sGC)作為NO受體催化細胞內的GTP轉化為cGMP,從而為蛋白激酶、磷酸二酯酶以及離子通道的調節提供第二信使。一旦NO信號轉導通路異常,將會導致多種疾病的發生,如多種心血管疾病(如肺動脈高血壓、心力衰竭、動脈粥樣硬化和再狹窄等)及神經退行性疾病等。表明GUCY2F可作為黑色素瘤的診斷標志和治療干預的靶位。
黑色素瘤特異性抗原基因(preferentially expressed antigen of melanoma,PRAME)的表達主要局限于腫瘤細胞,抑制視黃酸信號受體的活性。視黃酸與受體結合之后,起始與細胞增殖抑制、細胞分化、細胞凋亡有關的基因的轉錄。據Gudas等[25]報道,PRAME可調控干細胞的分化。此外,Epping等[26,27]研究發現,通過抑制PRAME對視黃酸信號受體的活性,將導致細胞的癌變及腫瘤的發展。本研究中,PRAME過表達異常顯著(logFC=4.19),鑒于PRAME在腫瘤中的高水平表達,分析這種蛋白質在這些病變中的預后作用將是一項有意義的工作。
綜上所述,本研究表明利用生物信息學的方法能有效地分析基因芯片數據,從而高效、大規模地獲取生物內在信息;揭示黑色素瘤的發生是由于多種基因表達異常所致,為確定黑色素瘤的早期診斷標志與新治療靶位提供了新的思路。
1 李鳳鳴.眼科全書.北京: 人民衛生出版社,1996: 2381-2390.
2 吳中耀.現代眼腫瘤眼眶病學.北京: 人民軍醫出版社,2002:251-272.
3 Egan KM,Seddon JM,Glynn RJ,et al.Epidemlologic aspects of uvel melanoma.Surv Ophthalmol,1988,32(4):239-251.
4 Van Raamsdonk CD,Griewank KG,Crosby MB,et al.Mutations in GNA11 in uveal melanoma.N Engl J Med,2010,363(23): 2191-2199.
5 All-Ericsson C,Girnita L,Muller-Brunotte A,et al.C-Kitdependent growth of uveal melanoma cells: a potential therapeutic target? Invest Ophthalmol Vis Sci,2004,45(7):2075-2082.
6 Ye M,Hu D,Tu L,et al.Involvement of P13K/Akt signaling pathway in hepatocyte growth factor-induced migration of uveal melanoma cells.Invest Ophthalmol Vis Sci,2008,49(2): 497-504.
7 張旭,頊曉琳,李彬,等.骨橋蛋白在不同侵襲轉移潛能葡萄膜黑色素瘤中的表達及意義.中華實驗眼科雜志,2012,30(3):199-203.
8 Tanya B,Stephen EW,Pierre L,et al.NCBI GEO: archive for functional genomics data sets-update.Nucleic Acids Res,2013,41(D1): D991-D995.
9 Smyth G.Linear models and empirical Bayes methods for assessing differential expression in microarray experiments.Stat Appl Genet Mol Biol,2004,3: Article3.
10 Benjamini Y,Hochberg Y.Controlling the false discovery rate - a practical and powerful approach to multiple testing.J R Stat Soc B Met,1995,57(1): 289-300.
11 Dennis G Jr,Sherman BT,Hosack DA,et al.DAVID:Database for annotation,visualization,and integrated discovery.Genome Biol,2003,4(5): P3.
12 Chahine M,Chatelier A,Babich O,et al.Voltage-gated sodium channels in neurological disorders.CNS Neurol Disord Drug Targets,2008,7(2): 144-158.
13 Lossin C.A catalog of SCN1A variants.Brain Dev,2009,31(2): 114-130.
14 Romero MF,Fulton CM,Boron WF.The SLC4 family oftransporters.Pflugers Arch,2004,447(5): 495-509.
15 Parker MD,Musa-Aziz R,Rojas JD,et al.Characterization of human SLC4A10 as an electroneutral Na/HCO3cotransporter (NBCn2) with Cl-self-exchange activity.J Biol Chem,2008,283(19): 12777-12788.
16 Jacobs S,Ruusuvuori E,Sipila ST,et al.Mice with targeted Slc4a10 gene disruption have small brain ventricles and show reduced neuronal excitability.Proc Natl Acad Sci U S A,2008,105(1): 311-316.
17 Giarnieri E,De Francesco G,Carico E,et al.Alpha- and beta-tubulin expression in rectal cancer development.Anticancer Res,2005,25(5): 3237-3241.
18 應榮彪,馮俊,李建軍,等.α、β-微管蛋白在乳腺癌變不同階段的表達及意義.中國癌癥雜志,2011,21(8): 595-598.
19 Sakaguchi A,Kikuchi A.Functional compatibility between isoform alpha and beta of type II DNA topoisomerase.J Cell Sci,2004,117(Pt 7): 1047-1054.
20 楊濤,孫軼飛,王立偉,等.KIF14過表達與肝細胞肝癌手術預后密切相關.河北醫科大學學報,2014,35(3): 263-265.
21 Cozzi M,Giorgi F,Marcelli E,et al.Antitumor activity of new pyrazolo[3,4-d] pyrimidine SRC kinase inhibitors in Burkitt lymphoma cell lines and its enhancement by WEE1 inhibition.Cell Cycle,2012,11(5): 1029-1039.
22 Chong JP,Mahbubani HM,Khoo CY,et al.Purification of an MCM-containing complex as a component of the DNA replication licensing system.Nature,1995,375(6530):418-421.
23 Labib K,Tercero JA,Diffley JF,et al.Uninterrupted MCM2-7 function required for DNA replication fork progression.Science,2000,288(5471): 1643-1647.
24 Wood LD,Calhoun ES,Silliman N,et al.Somatic mutations of GUCY2F,EPHA3,and NTRK3 in human cancers.Hum Mutat,2006,27(10): 1060-1061.
25 Gudas LJ,Wagner JA.Retinoids regulate stem cell differentiation.J Cell Physiol,2011,226(6): 322-330.
26 Epping MT,Wang L,Edel MJ,et al.The human tumor antigen PRAME is a dominant repressor of retinoic acid receptor signaling.Cell,2005,122(6): 835-847.
27 Epping MT,Bernards R.A causal role for the human tumor antigen preferentially expressed antigen of melanoma in cancer.Cancer Res,2006,66(22):10639-10642.
Enrichment analysis of uveal melanoma-related differential expression genes
Xiaoyu SUN,Chunhua YANG Department of Basic Medicine,Ji'nan Evidence Based Medical Science Research Center of Shandong,Ji'nan 250022,China
ObjectiveTo better understand the molecular pathogenesis of uveal melanoma,and provide novel means for clinical diagnosis and treatment of this malignancy.MethodsThe gene chip data of uveal melanoma were obtained from GEO database and statistically analyzed after log2transformation and normalization to identify the differential expression genes related to uveal melanoma,follewed by bioinformatics analysis through functional annotation and functional clustering of DAVID.ResultsTwo hundred and sixty-five differentially expressed genes were identified in uveal melanoma samples,including 95 up-regulated and 170 downregulated genes.These genes were associated with the cellular transportation,cell skeletons,cell cycles,signal recognition and transduction and nervous system regulation.ConclusionBioinformatics analysis can contribute to analyzing the gene chip data effectively.The pathogenesis of uveal melanoma involves abnormal expression of multiple genes,and these data may benefit further investigations of the early diagnosis and treatment of the malignancy.
Uveal melanoma; Differential expression; Gene chip; GEO; Bioinformatics