王桂平 葉云 鄭文嶺 馬文麗
肺癌是我國男性和女性最主要致死性癌癥之一,包括小細胞肺癌和非小細胞肺癌[1]。肺腺癌(lung adenocarcinoma)屬于非小細胞肺癌,是最常見的肺癌之一,發病率約占原發性肺癌的20%-30%,在許多國家腺癌已超過鱗狀細胞癌。目前,人類對肺腺癌的發生機制仍不清楚,其發生發展可能與體內多種癌基因或抑癌基因的表達改變有關,如k-ras、p53、p16Ink4、HER2/Neu和COX-2等。因此,發現新的肺腺癌致病基因,對于揭示肺腺癌發病機制及尋找新的藥物治療靶點有著重要意義。
目前,疾病基因發現的方法包括連鎖分析法、基因序列相似性、基因功能相似性及蛋白質相互作用網絡等多種途徑,其中以基于基因功能相似性方法在人類疾病候選基因發現中的應用最廣泛[2-7]。近年來,許多基于功能相似性的生物信息學方法在人類疾病基因發現發揮重要作用,加速人類疾病基因發現過程,如POCUS、PROSPECTR、 SUSPECTS及Toppgene等,其中Toppgene具有高通量、快速、重復性好的優點,特別是可對基因提供更全面的評價[2,7,8]。為發現新的肺腺癌致病基因,本研究從GEO數據庫中獲取肺腺癌數據集,并進行差異基因分析,將獲取的差異基因作為“檢測基因集”;同時,采用genecard和Fable文獻挖掘已知肺腺癌疾病基因,并將其定義為“訓練基因集”;最后,利用Toppgene篩選肺腺癌候選基因,并通過熒光定量PCR對其獲得的基因進行驗證。
1.1 材料 Trizol RNA抽提試劑、PrimeScriptTM逆轉錄試劑盒、SYBRPremix Ex TaTM熒光定量PCR試劑盒均由中山醫達安基因公司提供。3900臺式高通量DNA合成儀、 9700 PCR儀、7500全自動熒光定量PCR儀均為ABI產品。肺腺癌細胞株A549和人支氣管上皮細胞16HBE由廣州醫學院醫學實驗中心提供,培養于含10%胎牛血清(FBS,杭州四季青)、雙抗(青霉素100 U/mL、鏈霉素100 U/mL)的RPMI-1640培養基中。
1.2 方法
1.2.1 獲取GEO數據集 首先,我們從NCBI的GEO數據庫(http:www.ncbi.nlm.nih.gov/geo)中下載2個基因表達譜數據集,即GSE7670和GSE10072。其中,GSE7670數據集來源于臺灣臺北榮民總醫院(Taipei veterans general hospital),采用GPL96芯片平臺([HG-U133A] Affymetrix Human Genome U133A Array),包括27個配對的正常肺組織與肺腺癌組織、2個混合組織、2個商業化的正常肺組織、1個正常肺上皮細胞株與7個商業化肺癌細胞株,共64個樣本;而另一個數據集GSE10072則來源于美國N.I.H遺傳流行病學部(Genetic Epidemiology Branch),也采用GPL96芯片平臺,疾病組織類型為肺腺癌,包括58個腺癌和49個正常肺組織,共107個樣本。
1.2.2 肺腺癌差異表達基因分析[9]基因差異表達分析采用dchip軟件分析包進行dchip由哈佛大學生物統計系Cheng LI等聯合開發,是綜合性芯片分析軟件。該軟件運行在于windows平臺,主要分析Affymetrix基因表達譜及SNP芯片數據,dchip可進行差異基因識別、方差分析、主成分分析、時間序列分析、層次聚類、連鎖分析及SNP的拷貝數分析等。我們對GSE10072和GSE7670數據集中質量合格芯片樣本分別采用dchip進行差異基因分析,具體操作方法按dchip操作指南進行(http://www.dchip.org),2-fold change的基因被選擇為差異表達基因。最后,采用交集方法獲得共同差異基因。
1.2.3 文獻挖掘方法挖掘已知肺腺癌疾病基因 Genecards(http://www.genecards.org/)是一個收集并展示人類基因及其產物和相關疾病等綜合信息的知識平臺。它是由以色列的Weizmann研究所基因組研究中心和生物信息學中心共同開發的,含有46 560個基因資料(2.38版),其中24 824個已經被HUGO基因命名委員會審核通過。我們以“lung adenocarcinoma”或“adenocarcinoma of lung”作為搜索詞,進入Genecards搜索已知肺腺癌疾病基因[10]。同時,也采用Fable文獻挖掘工具搜索已知肺腺癌疾病基因,Fable登陸方式:http://www.fable.chop.edu/。
1.2.4 Toppgene篩選新的肺腺癌疾病基因[11]Toppgene(http://toppgene.cchmc.org/)是個有效而方便的基于基因功能相似性的候選基因篩選方法。我們以Genecards搜索到的已知肺腺癌疾病基因作為“training gene set”,而以來自dchip所獲得的差異基因作為“test gene set”,然后按Toppgene操作方法獲得候選基因。
1.2.5 熒光定量RT-PCR(ΔΔCT法) 收集對數生長期A549或16HBE細胞,按文獻方法[12-14]分別進行RNA抽提、逆轉錄及熒光定量PCR反應。反應體系總體積50 μL,由5×SYBR Green I PCR buffer(10 μL)、10 pmol/μL引物F或R(1 μL)、10 mM dNTPs(1 μL)、3 U/μL Taq酶(1 μL)、cDNA(5 μL)及ddH2O (31 μL)構成, 以β-actin為內參。反應條件設定為:93oC、3 min,然后93oC、30 s,55oC、45 s,72oC、45 s,共40個循環。引物設計與合成利用Primer Premier 5.0軟件設計特異性引物,使上下游引物跨越1個內含子,由中山大學達安基因公司合成。設計引物序列:CD36(擴增片段長度104 bp):5’-CAGATGCAGCCTCATTTCCA-3’(Forward Primer),5’-AACGTCGGATTCAAATACAGCA-3’(Reverse Primer);PMAIP1(擴增片段長度79 bp):5’-GCTCCAGCAGAG CTGGAAGT-3’ (Forward Primer),5’-GAAGTTTCTG CCGGAAGTTCAG-3’(Reverse Primer);FABP4(擴增片段長度106 bp):5’-GGCATGGCCAAACCTAACAT-3’(Forward Primer),5’-CCTGGCCCAGTATGAAGGAA A-3’(Reverse Primer);β-actin(擴增片段長度106 bp)(內參基因):5’-GCATGGGTCAGAAGGATTCCT-3’(Forward Primer),5’-TCGTCCCAGTTGGTGACGAT-3’(Reverse Primer)。
1.2.6 熒光定量PCR數據處理 熒光定量PCR實驗數據應用2-△△Ct進行處理,其前提是目的基因和內參基因擴增效率相似[13]。計算各樣本平均CT值和△CT值(Ct=Ctsatb1-Ctβ-actin),計算2-△△Ct(Ct=Ct目的樣本-Ct參照樣本),其數值用于表示目的值相對于參照值的相對倍數。
2.1 肺腺癌差異表達基因 為了獲得肺腺癌共同差異表達基因,我們采用dchip分析軟件包分別對GSE10072和GSE7670數據集中合格芯片樣本進行差異基因分析,最終獲得共同差異表達基因344個,其中上調基因94個,下調基因285個(表1)。
2.2 Genecards獲得已知肺腺癌疾病基因 以“lung adenocarcinoma”或“adenocarcinoma of lung”作為搜索詞,進入Genecards搜索已知肺腺癌疾病基因,共獲取230條gene card記錄;“lung adenocarcinoma”作為搜索詞,通過Fable獲得118個基因與肺腺癌相關(過濾n<10的基因)。對兩種方法獲得的疾病基因進行交集分析,瀏覽每一條文獻,過濾不相關的基因,最終獲得277個已知肺腺癌疾病基因。
2.3 篩選新的肺腺癌疾病基因 采用Toppgene候選基因篩選方法,共獲得36個候選疾病基因,經過文獻分析,15個基因已有在肺癌方面的報道(各基因報道文獻均不多),而另21個基因則在腫瘤方面的研究幾無報道(表2中加下劃線基因)。而對21個基因進行KEGG通路富集分析,發現有3個基因(CD36、COL1A1、COL3A1)與ECM-receptor interaction(hsa04512)有關,3個基因(CSF3、CXCL2、LEPR)與cytokine-cytokine receptor interaction(hsa04060)有關,而3個基因(EDN1、EDNRB、LEPR)與neuroactive ligand-receptor interaction(hsa04080)相關。
2.4 熒光定量PCR實驗驗證 為了驗證Toppgene所篩選的基因,我們挑選CD36、PMAIP1及FABP4三個基因,采用熒光定量PCR進行驗證,結果表明,與對照組相比,CD36、PMAIP1及FABP4在A549細胞中均為下調表達,此與芯片數據一致(表3)。
當前,基因連鎖和基因表達譜分析等高通量基因組分析方法能有效地對基因進行分類,并產生數百個候選疾病基因,但不能提供足夠的疾病特異性基因信息,因此,這些方法在疾病基因發現方面存在較大問題[15]。近年來,生物信息學方法廣泛應用于疾病基因發現,特別是ToppGene在疾病基因發現方面具有獨特點。本研究中,我們的興趣在于通過計算生物學策略“ToppGene”,發現新的肺腺癌疾病基因。通過本研究,我們篩選到36個候選疾病基因,經過文獻分析,發現21個基因在腫瘤方面的研究幾無報道(Pubmed數庫范圍內)。隨后,我們選取CD36、PMAIP1及FABP4三個基因進行熒光定量PCR驗證,結果發現CD36、PMAIP1及FABP4在A549細胞中均下調表達,與芯片數據相一致。

表1 GSE7670和GSE10072中芯片樣本差異表達基因分析結果Tab 1 Analysis of lung adenocarcinoma differential expression genes against two GEO gene sets GSE10072 and GSE7670

表2 Toppgene篩選新的肺腺癌疾病候選基因(注:選取P<0.01的基因)Tab 2 The screen of lung adenocarcinoma candidate genes using Toppgene(Note: Genes were selected based on P<0.01)

表3 CD36、PMAIP1及FABP4的熒光定量PCR實驗結果Tab 3 Expression of three genes CD36, PMAIP1 and FABP4 using fluorescent quantitation PCR
隨著生物技術的快速發展,生物信息量也成爆炸式增長,生物醫學文獻作為成果展示和學術交流的主要方式之一,其數目之大、增長速度之快遠遠超過了其它學科領域,例如,Medline收集了全世界4 800多種生物學及醫學雜志上的1 800多萬篇文獻,并且以每個月超過萬篇的速度增長。海量的文獻中蘊涵著豐富的生物學信息,因此,如何挖掘和發現其中有生物學意義的信息具有重要意義。Genecards[10]是一種收載較為全面的基因數據平臺,對基因注釋全面而規范;Fable也是一種功能強大的文獻挖掘工具,特別是在人類疾病基因和蛋白的挖掘方面功能具有獨特優勢。為了更全面地確定已知肺腺癌疾病基因, 在本研究中,我們聯合應用Genecards和Fable兩種文獻挖掘工具,建立一個含277個基因的“訓練基因集”,并應用此“訓練基因集”最終篩選到肺腺癌候選疾病基因。
Toppgene[11]是一種基于功能相似性的候選疾病基因篩選工具,Toppgene最大優點在于,它可從GO注釋、通路、蛋白相互作用、疾病表型、疾病、轉錄因子等14個方面對候選基因進行全面評估,最后依據總體P值對候選基因進行排序。與其它基于功能相似性的候選基因發現方法一樣,基于Toppgene的候選疾病基因篩選方面也有一定的缺陷,如:①仍有約1/3的基因沒有作功能注釋;②僅有部分的基因具有通路和表型注釋;③蛋白質相互作用數據仍不完善,特別是通過實驗驗證的數據有限。相信,隨著生物信息學與各種生物技術的快速發展,Toppgene獲得的結果會越來越完善。
總之,通過本研究,我們篩選到一些可供進一步實驗研究的肺腺癌候選基因,有關這此候選基因在肺腺癌發生發展中的作用仍需進一步的實驗證實。