王麗飛 王東昌 閆振鋒 岳紅云 陳 剛

圖1 數據的質量分析
據世界衛生組織國際癌癥研究中心(international agency for research on cancer, IARC)統計,最新報道2012年數據,肺癌是危害人類健康與生命的第一位腫瘤,肺癌的5年患病人數為491 223[1]。多數肺癌患者發現時已處于晚期[2],隨著高通量測序技術[3-4]的發展,為快速研究肺癌的基因表達譜的關鍵基因變化規律提供了良好的平臺,利用該項技術積極尋找該疾病的發病機制對于人類有極其重大意義。本研究主要通過對不同類型的癌細胞的基因進行篩選,通過對差異基因的生物學功能及信號通路分析研究,探討差異基因之間的相互作用,為臨床提供更多的理論基礎。
1.材料 生物信息分析數據GSE70540 ID:200070540,數據來自于NCBI(美國國立生物信息中心)公共數據平臺(gene expression omnibus, GEO)數據庫,數據研究類型為Expression profiling by array,種屬為homo sapiens, 芯片平臺為GPL570。該芯片數據包括3例過表達超保守區的肺癌細胞A549,3例空載體轉染的肺癌細胞的陣列數據。
2.數據處理及差異基因分析 對原始數據集使用R軟件包進行數據處理,通過RMA算法對原始數據進行背景校正、標準化及表達值進行計算。差異基因的篩選需要滿足P<0.05及Log2≥1。
3.差異表達基因的生物信息學分析 生物信息數據注釋數據庫(database for annotation, visualization and integrated discover, DAVID)是一個在線的(https://david.ncifcrf.gov/)生物信息分析的工具,可將大批基因及蛋白信息進行綜合的生物信息功能注釋。通過將差異基因上傳后進行腫瘤學富集(gene ontology, GO)[5]及通路富集(kyoto encyclopedia of genes and genomes, KEGG)[6]分析。以P<0.05和FDR<0.05設置為具有顯著性基因富集的臨界值。
4. 差異基因的相互作用分析 應用已知或預測的蛋白質相互作用數據形成的數據庫STRING 10.0(Search Tool for Retrieval of Interacting Genes/Proteins)[7],它包括直接及間接的蛋白之間進行相互作用的分析。最后使用Cytoscape軟件[8]構建蛋白與蛋白之間相互作用(protein-protein interaction, PPI)的網絡分析,數據設置條件為評分>0.4。
1.對數據基本情況進行評價 對下載數據進行質量控制的要求是:①基因中位數值至少發生2倍的改變;②基因表達量的差異需要P<0.02;③.數據的缺失值不得<50%。該數據的標本質量控制顯示的RLE在同一水平線,RNA降解圖,權重圖、權重符號圖、殘差圖顯示圖像均勻,表明該檢測標本的穩定性及質量均在較好的范圍,因此解析的數據具有可分析性(圖1)。
2. 對差異基因進行篩選結果 通過對慢病毒過表達超超保守區399的A549細胞及空載體細胞進行差異基因進行篩選,共有230個差異表達基因(肺癌A549細胞),其中上調基因217個,下調基因13個(圖2),使用R語言將差異基因做熱圖(綠色代表低表達,紅色代表高表達)。

圖2 差異基因熱圖分析

表1 過表達超保守區399后A549細胞的上調的基因GO分析

表2 過表達超保守區399后A549細胞的上調的基因KEGG通路分析
3.差異基因GO分析結果 使用DAVID網站對上調基因及下調基因進行GO富集分析,分析結果顯示:上調的基因主要位于胞外區、細胞外間隙,主要參與細胞應激反應方面的功能;下調的差異基因較少無法進行GO分析。部分上調基因GO結果見表1。
4. KEGG信號通路分析 通過KEGG分析富集得到差異基因最顯著的上調的差異基因所在的信號通路。上調的主要在化學致癌、藥物代謝的細胞色素P450、視黃醇的代謝等通路上發揮作用,而下調的基因因個數較少無法進行KEGG分析,部分上調基因KEGG通路見表2。
5.蛋白質相互作用的模塊分析 蛋白相互作用依賴于STRING網站對數據進行篩選得出最終結果,在其中篩選出居于前10位的核心基因的蛋白質,主要是CFH、MUC5B、PTGS2、LRRK2等(圖3)。

圖3 差異蛋白相互作用示意圖
在腫瘤研究中心的機制探討過程中,有多種實驗方法。近年來生物芯片技術的廣泛應用使得腫瘤研究擁有了一個更大平臺。生物芯片主要從基因的差異,基因的轉錄表達與調控、表觀遺傳學和蛋白質修飾等不同方面,揭示腫瘤的發生發展及在參與過程提供了平臺[9]。因此我們可以在宏觀上定量分析的方式了解腫瘤發生發展中的基因水平變化,從而更有目的對腫瘤的基因進行分析。在這些基因之上對腫瘤基因表達譜進行收集整理,形成腫瘤表達譜,并對這些數據進行有效的整理和分析。在此當中挖掘有利于研究的信息及知識,因此來推進腫瘤學的研究及臨床的防治策略。我們采用對GO數據庫進行分析下載,對該芯片進行檢測后,采用分子生物學研究方法、手段、聯合細胞水平的分析,取得相應的數據結果。
本研究是通過使用GEO平臺,對慢病毒轉染的高度超保守區399及空載體的A549細胞進行差異基因進行分析。基因的保守序列(conserved sequence)[10]是指具有高度相似性或同一性的分子序列,該序列包括核酸序列及蛋白質序列。這些序列是來自不同物種的但是具有高的相似性的片段,在物種的進化過程中保守下來。一些研究者認為保守序列的基因區域若是發生突變可能導致生命體的死亡或者是淘汰。而高度超保守區的序列可能具有一定的功能價值。目前關于高度保守的片段研究還不清楚。
本研究通過對GEO的數據進行分析,在過表達超保守區后,出現了差異表達的基因,最終篩選出271個表達上調的基因及13個表達下調的基因。與正常肺腺癌相比上調基因主要有HLA-DMB、CORO2A、C4BPA、ST6GALNAC1、ANXA13、PRR15、CYTIP、ADH1C、PYCARDOS、SLC27A3、KIR2DS3等基因。
通過GO分析,該研究發現在上調的差異基因中主要涉及血管內皮的調節、生長,補體的激活免疫系統,炎癥介質的反應等生物過程。血管內皮的調節是一類與癌癥的發生、生長、轉移有廣泛關系的因素。Goel等[11]研究證明, 血管內皮生長因子不僅是在癌癥中促進血管再生及增加血管的通透性,而且在腫瘤的發生上起到一定的促進作用。Yamagishi等[12]研究證明, 生長因子可以提高結腸癌的惡性程度。本研究發現過表達超保守區后細胞內存在差異基因并在該通路上進行富集,因此我們可以推測在人肺腺癌中過表達的超保守區可以促進癌癥的進一步發展和惡化。
KEGG通路分析的結果表明,差異基因中的信號通路與化學致癌有一定的關系。化學致癌是DNA的雙鏈之間發生了互補堿基的移碼突變。與該機制相關的KEGG通路分析主要有7個相關的基因。目前關于化學致癌的研究已有一定的數據但其主要方向是關于化學致癌物的研究,如WTO的關于低劑量化學致癌物的相關研究報道[13]。關于其機制的研究目前較少,本研究數據在化學致癌相關的通路上進行了一定的分析,可為未來化學致癌提供一定的方向。
綜上所述本研究通過使用多個基因分析的軟件進行生物信息學數據的篩選、整合、挖掘機分析,探索了超保守區域過表達后對癌基因的影響。分析出相關的超保守區癌細胞過表達后差異基因,對其進行GO、KEGG等分析推測出可能相關的基因和通路,為肺癌的超保守區提供研究思路和方向。