溫海燕,朱玉坤,曹立宇
(安徽醫科大學附屬阜陽醫院病理科,安徽 阜陽 236000)
肺癌是全球患病率、病死率最高的惡性腫瘤之一,作為肺癌主要類型的肺腺癌患病率占全部肺癌的30%~35%,屬于非小細胞肺癌(NSCLC)范疇[1]。近年來,由于吸煙和空氣污染,肺腺癌患者數量正在上升[2]。有研究表明,晚期肺腺癌患者總體5年生存率低于15%;盡管出現了多種治療肺腺癌的新方法,如靶向治療和免疫治療,但長期生存率仍然很低[3-4]。其中一個主要原因是大多數患者在晚期才被診斷出來。早期診斷是提高肺癌患者生存率和預后的最有效策略之一[5-7]。因此,了解肺腺癌發生、發展背后的分子機制,并確定可在疾病早期檢測到的生物標志物,以期設計新的治療藥物以提高患者的生存率至關重要。
隨著微陣列技術和高通量測序技術的快速發展,能夠有效篩選肺腺癌的基因表達變化,已被證明是篩選良、惡性疾病早期生物標志物較有價值且高效的方法[8-9]。本研究利用生物信息學方法,從GEO數據庫中下載2個相關mRNA微陣列數據集,通過分析篩選出差異表達基因(DEGs)并進行富集分析,找出關鍵基因——Hub基因,再對Hub基因進行多個數據庫的比對驗證,以期找到肺腺癌發生、發展的關鍵靶點。
1.1資料來源 GEO數據庫隸屬于美國國立生物信息中心,是當今最大、最全面的公共基因表達數據資源。為使篩選的結果更為可靠準確,以“lung adenocarcinoma”為關鍵詞篩選出符合條件的基因芯片數據集——GSE63459和GSE27262。GSE63459包含33例Ⅰ期肺腺癌患者中腫瘤(T)組織和32例相鄰正常(N)癌旁組織,從腫瘤和與之匹配的非腫瘤肺中提取細胞總RNA,并與平臺芯片陣列雜交,數據集平臺為GPL6883[Illumina HumanRef-8 v3.0 expression beadchip]。GSE27262中包含25例Ⅰ期肺腺癌患者中腫瘤(T)組織和25例相鄰正常(N)癌旁組織的RNA提取和微陣列雜交數據,數據集平臺為GPL570[HG-U133_Plus_2]。
1.2方法
1.2.1DEGs分析 使用GEO芯片平臺的注釋文件將數據集——GSE63459和GSE27262原始矩陣文件中的探針符號轉換為基因名。GEO2R是一個在線網絡工具(https://www.ncbi.nlm.nih.gov/geo/geo2r/),由GEO提供,用于比較GEO數據集,以確定試驗條件下的DEGs。得出DEGs后排除沒有精確基因符號的探針集,并對具有2個或更多探針集的基因表達水平取均值,篩選閾值設定為P<0.05,logFC絕對值大于2。將篩選出的明顯上調基因取交集后進行后續分析。
1.2.2基因功能注釋 利用DAVID(https://david.ncifcrf.gov/)在線分析平臺分別對2個數據集中的22個明顯上調基因進行基因本體(GO)功能注釋,P<0.05表示差異有統計學意義。GO富集分析包括生物過程、分子功能、細胞組成3個部分。
1.2.3基因信號通路富集分析 使用KOBAS(http://kobas.cbi.pku.edu.cn/)在線分析平臺進行KEGG信號通路富集分析,設定篩選閾值為P<0.05和校正后的P<0.05[10]。條形圖每一行表示一個充實函數,條的長度表示充實比,計算輸入基因數/背景基因數。條形圖的顏色與上圖圓形網絡中的顏色相同,表示不同的簇。對于每個集群,如果有超過5個術語,則顯示濃縮比最高的前5個術語。氣泡圖每個氣泡代表1個富集的功能。
1.2.4蛋白互作網絡構建及篩選Hub基因 在 STRING 數據庫(https://string-db.org/cgi/)中輸入DEGs,種屬限定為“Homo sapiens”,最小連接評分為0.4分,再導出相應結果文件[11]。將所得文件導入 Cytoscape軟件,利用CytoHubba插件中每一個基因的最大團中心性分數,將得分前10的基因作為初篩的Hub基因[12]。
1.2.5Hub基因驗證 在Oncomine數據庫(www.oncomine.org)中驗證10個初篩的Hub基因,將篩選條件限定為“腫瘤與正常組織”“肺腺癌”,將Hub基因分別輸入逐一檢索,P<0.05表示差異有統計學意義。
1.2.6Hub基因生存分析 利用Kaplan-Meier plotter數據庫(http://kmplot.com/analysis/)分析得到驗證后的Hub基因對人類肺腺癌總體生存期(OS)的影響。首先打開Kaplan-Meier plotter數據庫,將限定條件設定為“肺腺癌”,其余條件均為默認值,分別將在Oncomine數據庫中再次篩選得到的Hub基因輸入,根據基因的中位表達值判定高、低表達與OS的關系,P<0.05表示差異有統計學意義。
2.1DEGs篩選 共篩選出543個基因在肺腺癌組織和細胞中的表達有明顯差異,其中GSE63459數據集中29個基因在肺腺癌組織中表達明顯上調,3個基因表達明顯下調;GSE27262數據集中328個基因表達明顯上調,145個基因表達明顯下調。根據選擇DEGs的標準排除重復的候選基因,篩選了335個在肺腺癌組織中比在正常對照樣本中表現出過度表達狀態的基因。335個DEGs通過Draw Venn Diagram網站進行計算。在2個數據集中觀察到22個基因過度表達和重疊,包括表面活性蛋白C、甘油磷酸肌醇錨定高密度脂蛋白結合蛋白1、微纖絲關聯蛋白4、脂肪酸結合蛋白家族4、宮分泌球蛋白家族成員1、纖維膠凝蛋白3、碳酸酐酶4、血清剝奪蛋白反應、晚期糖基化終產物特異性受體、人CMRF35樣分子9、缺氧誘導因子2、神經元膜糖蛋白錨定蛋白2、小窩蛋白1(CAV1)、封閉蛋白18、水通道蛋白4、金屬硫蛋白1M、胃動蛋白2、脂肪形成調節因子、肥大細胞表達膜蛋白1、人類β珠蛋白、四加半LIM域蛋白1、跨膜蛋白100等。
2.2基因功能注釋 根據P值排序發現,這些基因主要涉及16個GO條目,主要涉及蛋白質結合等分子功能,主要富集在基底外側質膜、粗面內質網和胞外外泌體等細胞組分中,參與膽固醇穩態、對缺氧的反應、血管生成、碳酸氫鹽運輸和炎性反應的調節等生物學過程。見表1。

表1 DEGs的GO富集分析結果
2.3信號通路分析 KEGG通路富集分析顯示,明顯上調基因主要集中在氮代謝、近端小管碳酸氫鹽回收、非洲錐蟲病、加壓素調節的水重吸收、瘧疾、礦物質吸收、脂肪細胞中脂解的調節、病毒性心肌炎、腎細胞癌、膽汁分泌、上皮細胞受細菌侵襲和過氧化物酶增殖物激活受體等信號通路。
2.4Cytoscape篩選出的Hub基因及在Oncomine 數據庫的驗證及生存分析驗證 CAV1、轉化生長因子β1、白細胞抑制因子2、E-鈣黏蛋白1(CDH1)、轉化生長因子β受體1、轉化生長因子β3、母親信號蛋白同源物7、人類表皮生長因子受體(EGFR)、細胞酪氨酸激酶(SRC)、內皮型一氧化氮合酶等為初步篩選出的Hub基因。見圖1A。10個初篩得到的Hub基因中有3個在肺腺癌組織中較正常組織表達增高,分別為CDH1、EGFR、SRC。與正常組織比較,CDH1中位值排名為122.5,EGFR中位值排名為1 006.5,SRC中位值排名為2 520.5,均在肺腺癌組織中高表達,差異有統計學意義(P<0.05)。見圖1B。Hub基因高、低表達對肺腺癌患者OS均存在差異,高表達組OS明顯短于低表達組,差異有統計學意義(P<0.05)。見圖1C。
本研究通過對2個數據集中人類肺腺癌腫瘤組織及正常癌旁組織的RNA測序數據進行分析共獲得22個明顯上調的DEGs,然后對22個基因進行GO功能注釋和KEGG通路富集分析,結果顯示,DEGs主要涉及蛋白質結合等分子功能,主要富集在基底外側質膜、粗面內質網和胞外外泌體等細胞組分中,參與了膽固醇穩態、對缺氧的反應、血管生成、碳酸氫鹽運輸、炎性反應的調節等生物學過程。KEGG通路富集分析顯示,DEGs主要富集在氮代謝、近端小管碳酸氫鹽回收、非洲錐蟲病、加壓素調節的水重吸收、瘧疾、礦物質吸收、脂肪細胞中脂解的調節、病毒性心肌炎、腎細胞癌、膽汁分泌、上皮細胞受細菌侵襲和過氧化物酶增殖物激活受體等信號通路。本研究利用STRING數據庫構建PPI蛋白互作網絡,然后使用Cytoscape軟件篩選出CAV1等10個Hub基因,再利用Oncomine數據庫對初篩得到的10個Hub基因進行驗證,即再次篩選最終得到CDH1、EGFR、SRC 3個Hub基因,在肺腺癌中的表達均增高。最后利用Kaplan-Meier plotter數據庫進行生存分析發現,CDH1、EGFR、SRC 3個Hub基因高表達患者OS均明顯短于低表達組。由此推測CDH1、EGFR、SRC 3個Hub基因高表達可能與人類肺腺癌患者的不良預后密切相關。
CDH1是鈣依賴性黏附蛋白家族中的成員,同時是上皮間質轉化的重要表型蛋白,可介導細胞間的黏附。編碼CDH的CDH1基因是一種跨膜鈣依賴性黏附分子,在幾乎所有上皮細胞中均有表達[13]。此外,CDH在進化上高度保守,對胚胎干細胞的多能性、自我更新和分化至關重要。已有相關研究揭示了致癌途徑和干細胞途徑之間復雜的相互作用,其中CDH1作為癌基因,分別通過激活磷酸肌醇-3激酶(PI3K)和抑制有絲分裂原活化蛋白激酶途徑促進肺腫瘤干細胞更新[14]。CDH1的上調及隨后在轉移的定植期均促進間充質向上皮轉化。最近的一項研究表明,CDH1可在體細胞重編程過程中替代八聚體結合轉錄因子4,并且是維持小鼠胚胎干細胞未分化狀態所必需的[15]。CDH1在大多數癌癥(包括肺腺癌)中過度表達的癌基因功能已通過對公開的癌癥臨床數據庫(包括GEPIA、Oncomine、TCGA、GEO、Kaplan-Meier等)的生物信息學分析和數據挖掘被發現。據相關文獻[16]報道,CDH1、PI3K、有絲分裂原活化蛋白激酶信號之間可能存在反饋調節機制。
EGFR是表皮生長因子受體(HER)家族受體的4個成員之一,由EGFR/HER1/erbB1、HER2/erbB2、HER3/erbB3、HER4/erbB4組成。HER家族中有11種生長因子,可大致分為與EGFR特異性結合的生長因子[表皮生長因子(EGF)、轉化生長因子α、雙調蛋白]、與EGFR和HER4結合的生長因子(β細胞素、同源異型核蛋白-EGF、表皮調節因子)及與HER3和HER4結合的生長因子(神經調節蛋白)。盡管HER2并沒有相應的配體,但通常與激活其的配體結合,很容易與家族中的其他成員形成二聚體。此外,EGFR是酪氨酸激酶的受體,由具有激酶活性的C端細胞內區域和N端細胞外配體結合位點(疏水性跨膜結構域)組成。EGFR信號網絡在上皮組織的維持和生長中具有重要作用,在肺癌中經常觀察到活躍的EGFR信號,EGFR水平與疾病的晚期和不良預后有關[17]。肺腺癌EGFR活性突變的發現,以及對該生物標志物預測EGFR酪氨酸激酶抑制劑治療后高反應率和延長無進展生存期的后續認識使肺癌患者治療發生了革命性改變。所熟知的PI3K/蛋白激酶B (Akt)信號通路中PI3K的上游信號一般是生長因子受體,如EGFR,引起二聚體構象改變而被激活。活化的PI3K產生下一級信號,改變Akt的蛋白結構。而活化的Akt通過磷酸化作用激活或抑制下游一系列底物,如凋亡相關蛋白B細胞淋巴瘤2細胞死亡相關激動劑、含半胱氨酸的天冬氨酸蛋白酶9改變,從而調節增殖、分化、凋亡及遷移等表型。
SRC也稱為原癌基因c-SRC,是一種非受體酪氨酸激酶,通過促進生存、血管生成、增殖和侵襲途徑在癌癥進展中發揮著重要作用。泛素-蛋白酶體途徑和自噬-溶酶體途徑是SRC蛋白降解的主要機制[18]。此前有研究表明,E3泛素連接酶以磷酸化SRC為靶點,使其發生自噬,并將蛋白酶體依賴的蛋白降解轉化為自噬-溶酶體介導的轉換[19]。在分子基礎上SRC調節與腫瘤發展和進展相關的多種信號級聯,包括黏著斑激酶途徑、EGFR途徑、酪氨酸蛋白激酶/信號轉導及轉錄激活因子、PI3K/Akt、血管內皮生長因子、上游激活蛋白/蛋白激酶通路[20]。這些不同的底物相互作用將SRC與廣泛的致癌機制聯系在一起,有利于各類型癌細胞的增殖、遷移和侵襲。有研究表明,SRC在NSCLC的發生和轉移中具有關鍵作用。敲除SRC可抑制人NSCLC細胞的增殖、遷移和侵襲,并下調核因子κB信號傳導[19]。
綜上所述,本研究利用生物信息學方法通過對人類肺腺癌基因芯片數據集進行挖掘,發現并探討論證了CDH1、EGFR、SRC 3個Hub基因高表達可能與人類肺腺癌患者不良預后密切相關,并且在查閱大量文獻后發現CDH1、EGFR、SRC 3個Hub基因均參與了幾個較為經典的信號通路,據相關癌癥科學文獻報道,對DEGs進行功能富集分析時大多數P值相對較小的功能均參與了肺腺癌各癌變過程。雖然這些工作為篩選肺腺癌相關基因提供了值得借鑒的分子靶點,對肺腺癌的診治具有潛在的轉化應用價值,但具體工作仍需臨床醫學工作者采集大量肺腺癌組織樣本及患者臨床資料進行實驗推斷和進一步驗證,并結合分子生物學實驗驗證其在人類肺腺癌中的具體機制。