陳立材 成 雨
1 濱州醫學院第二臨床醫學院 山東 煙臺 264003;2 濱州醫學院煙臺附屬醫院 山東 煙臺 264100
胰腺癌是一種進展迅速,惡性程度極高的消化道腫瘤,早期診斷困難,5年生存率極低,其中90%以上為胰腺導管腺癌(pancreatic ductal adrenocarcinoma,PDAC)[1-2]。隨著近年來PDAC的發病率的上升,研究其發生發展的機制,尋找潛在治療靶點,開發新型的治療手段顯得尤為重要;而針對全基因組的芯片及測序技術的成熟為探索腫瘤標志物提供了技術支持與數據支撐。本研究基于腫瘤基因組圖譜(the cancer genome atlas,TCGA)數據庫,采用加權基因共表達網絡分析(weighted gene co-expression network analysis,WGCNA)法[3],探索胰腺癌特異表達的關鍵基因及表達網絡,為進一步發現胰腺癌的生物標志物,確立新的診斷及治療靶點提供思路。
1.1 數據的獲取與差異表達基因的確定 在TCGA數據庫(https://portal.gdc.cancer.gov/)下載并處理胰腺癌數據庫的mRNA表達RNA seq數據,同時下載臨床資料數據(Clinical)。本研究從TCGA數據庫中下載了182例轉錄組數據,其中178例胰腺癌患者,4例健康對照組。對TCGA數據庫的基因矩陣信息進行了預處理,并轉化為基因名。在R語言環境下運行limma包,將logFC>1,矯正后的P<0.05確定為差異表達的基因(differently expressed genes,DEGs),進行后續的共表達網絡的構建。
1.2 WGCNA構建基因模塊流程 基于DEGs,用R語言的WGCNA法構建胰腺癌權重共表達網絡[3]。首先根據R2>0.9,根據真實生物網絡狀態的無尺度網絡確定加權系數β(軟閾值),在確定鄰接函數參數β后,構建不同分支和顏色表達的不同基因模塊的分層聚類樹最后,根據基因間Pearson相關系數將相關矩陣轉換為鄰接矩陣,進一步轉化為拓撲重疊矩陣(topological overlap matrix,TOM)。在下一步分析中,基因表達模塊被歸類為不同的模塊(Module)
1.3 模塊與臨床特征關聯分析 將模塊相關的網絡矩陣(module eigengene,ME)與臨床性狀的Pearson相關系數進行計算。P<0.05確定為顯著差異。定義顯著性P值的以10為底的對數為基因顯著性(gene significance,GS),再將每一個模塊顯著(module significance,MS)定義為模塊中所包含基因的GS的平均值。通過分析MS與GS,取相關系數最高的模塊用于后續分析。
1.4 蛋白質相互作用(protein-protein interaction,PPI)網絡分析及核心基因的確定 通過在線分析網站 STRING[4](http://www.string-db.org/)得到DEGs 的蛋白質相互作用網絡,以 TSV格式導出,所得源文件導入到Cytoscape[5](http://www.cytoscape.org/, version 3.2.0)軟件中,使用Cytoscape將基因信息進行可視構建,并生成相關的網絡結構圖,之后用插件cytoHubba 進行核心基因分析, 同時采用 MCC 算法, 選取排名前10位的基因為核心基因。
2.1 胰腺癌組織和正常組織的DEGs 通過對數據的標準化及預處理,共有14 869個基因,通過設定的閾值(logFC>1,P<0.05,FC: Fold Change)篩選之后,得到106個差異表達的基因,其中表達上調的基因70個,表達下調的基因36個,見圖1。

A.熱圖;B.火山圖。
2.2 WGCNA分析
2.2.1 網絡構建及模塊識別 為了盡量滿足無尺度網絡分布前提條件,需要探索鄰接矩陣權重參數β取值。通過設置網絡構建參數選擇范圍,計算無尺度分布拓撲矩陣。計算相應的模型選擇統計量繪制圖形,見圖2,圖中的橫軸代表權重參數power,縱軸代表對應的網絡中log(k)與log(p(k))相關系數的平方。相關系數的平方取值越高說明該網絡越逼近無網絡尺度的分布。最上面的樹形圖表示基于TOM的系統聚類,Dynamic tree cut表示網絡模塊前后合并模塊。本研究選取相關系數平方值首次達到0.9時的power的取值。根據TOM進行層次聚類得到基因的系統聚類樹。

A.鄰接矩陣權重參數power選擇圖,紅色線表示相關系數的平方值達到0.9的標準線;B.基于TOM的基因系統聚類樹的識別結果,圖中不同的顏色代表不同多基因模塊。
2.2.2 關鍵模塊的確定 對各個模塊和樣本臨床信息進行關聯分析,從模塊和性狀熱圖中可以發現紫色(MEpurple)模塊與胰腺癌相關程度最高,見圖3A。計算紫色模塊中基因GS和MM相關系數(cor=0.58)進一步驗證此結果的可信度,見圖3B。

A.熱圖;B.關鍵模塊。
2.3 PPI蛋白網絡分析及核心基因確定 通過在線分析網站 STRING,對關鍵模塊中DEGs進行分析,得到PPI蛋白網絡相互作用圖,見圖4,進一步使用Cytoscape將基因信息進行可視化及網絡構建,并用插件cytoHubba 進行核心基因分析, 確定排名前10位的基因為核心基因,分別為PKP3,EPCAM,RAB25,CBLC,AP1M2,PRP15L,B3GNT3,ESRP1,AGR2,ARHGEF16,見圖5。

圖4 PPI蛋白網絡構建

圖5 Top10核心基因確定
隨著發病率的不斷增加,胰腺癌逐漸成為世界范圍內最致命的惡性腫瘤之一[6-7]。雖然胰腺癌在治療方面取得了一定的進展,但是由于其缺乏典型的臨床表現及特異性的腫瘤標志物,并常伴有血管神經浸潤及早期遠處轉移,其預后往往不佳[8]。目前探索胰腺癌發生發展機制,構建關鍵基因表達網絡從而發現其早期生物標志物已成為研究熱點。近年來,基因芯片及測序技術的進步,為腫瘤疾病的深入研究提供了可能性?;谶@些技術,癌癥基因組研究項目將人類全部癌癥的基因組變異圖譜進行繪制,收錄于TCGA數據庫。目前,TCGA數據庫已收錄30多種癌癥數據及臨床信息,總計超過一萬例患者的基因組序列,供科研人員免費下載使用[9]。本研究基于TCGA數據庫,共下載了182例患者的轉錄組基因信息,其中包括178例胰腺癌患者,4例對照組。經過數據的預處理,共發現106個差異表達的基因,其中表達上調的基因70個,下調的基因36個。
WGCNA算法是一種構建基因共表達網絡的經典算法。WGCNA基于高通量mRNA表達芯片數據,假定基因網絡服從無尺度網絡,通過定義共表達矩陣和鄰接函數,并將其轉換為拓撲矩陣,從而識別與疾病關聯的基因集合模塊,從生物功能整體考慮基因功能及其聯系,彌補了傳統方法的缺陷。通過將臨床信息與模塊相關聯,還可進一步獲得與臨床特征相關的基因,有助于基于疾病模型的臨床特征構建相關基因的表達網絡[3, 10]。目前有很多研究運用了WGCNA算法對腫瘤疾病的基因表達譜進行分析,并取得了有意義的進展[10-13]。本研究中,運用WGCNA算法,我們發現可以發現紫色(MEpurple)模塊與胰腺癌相關程度最高(cor=0.58)。通過PPI網絡分析,并將結果導入Cytoscape軟件中進行基因可視化,確定排名前10位的核心基因為確定排名靠前10的基因為核心基因,分別為PKP3,EPCAM,RAB25,CBLC,AP1M2,PRP15L,B3GNT3,ESRP1,AGR2,ARHGEF16。這10個基因可能是胰腺癌的發生發展的關鍵基因。
PKP3是橋粒斑菲素蛋白家族中的一員[14],一般位于所有含有橋粒的復層上皮以及單層上皮組織,可以與FXR1、PABPC1等RNA結合蛋白緊密結合,并且在細胞受到氧化應激等外源性刺激時出現應激顆粒,提示PKP3與RNA代謝、基因轉錄后調節密切相關,并且參與腫瘤的調控[15-16]。EPCAM是一種跨膜糖蛋白, 參與多種細胞活動包括增殖、遷移、分化等。另外,EPCAM也可介導細胞粘附,參與細胞內信號轉到等。其表達與腫瘤的惡性程度相關[17-18]。在本研究中,PKP3和EPCAM是與胰腺癌相關度最高的基因,可能是影響胰腺癌生存和預后的關鍵基因,也可能作為胰腺癌診斷和治療的潛在靶點,需要動物及臨床試驗進行進一步的驗證。