柴小利,張 旭
(西南大學 數學與統計學院, 重慶 400715)
原發性醛固酮增多癥(PA)是指由于腎上腺皮自主性醛固酮分泌增多而導致以高血壓、低血漿腎素活性、高醛固酮血癥和低鉀血癥為特征的臨床綜合征,是繼發性高血壓常見病因之一。原醛最常見的病因是特發性醛固酮增多癥(IHA)和腎上腺瘤(APA),分別占65%和30%[1-2]。大量的證據表明:大概有10%的高血壓病人患有PA,而且PA可能是導致繼發性高血壓常見病因之一。醛固酮濃度的升高不僅造成高血壓,還直接導致血管內皮損傷、組織纖維化,從而更容易導致心腦血管并發癥及腎臟損害[3-4]。在APA中,醛固酮的產生失去了正常的調節,在低血管緊張素的條件下繼續產生醛固酮。醛固酮在APA 的合成機制仍然不大清楚。確定腎上腺腺瘤中醛固酮合成的調節機有助于我們治療APA。本研究利用在R中的 limma對來自基因芯片共數據庫 (GEO)的5個正常的腎上腺和10個腎上腺腺瘤基因的表達譜芯片數據做進一步的生物信息學分析,尋找重要反應通路,以了解 APA的表達情況,為臨床藥物治療提供了依據。其中正常的腎上腺樣本來自腎切除術的腎癌患者,APA腎上腺樣本來自Conn綜合征患者。
該數據集為腎上腺瘤基因微陣列數據,總共 54 675個基因的表達量,來源于 GEO 公共數據庫(http://www.ncbi.gov.geo/query/acc/.cgi?acc=GSE8514),其中包括了5個正常的腎上腺樣本和 10 個腎上腺腺瘤樣本,用 TRIzol Reagent 提取總 RNA 后擴增、逆轉錄和熒光標記等步驟與 Affymetrix humanHG-U133+2 oligonucleotide 芯片雜交,經 Affymetrix Gene ChipScanner 3000 掃描后得到原始圖像數據,再經 MAS5 標準化處理后輸出芯片數據[5]。
基于RMA方法優化的gcrma方法,采用多芯片模型,需要對所有芯片一起進行標準化,背景校正時,基于PM的信號分布采用隨機模型來評估表達值,匯總后的數據經過以2為底的對數進行轉化,數據標準化,使用 R 軟件“affy”包計算同一基因對應多個探針的平均值。通過 Affymetrix 注釋文件注釋探針[6]。樣品聚類根據 Pearson相關系數分析芯片矩陣中不同樣品之間的距離來評估芯片質量,并選擇0.2的高度截距以剔除潛在的不合格的樣本芯片。利用R軟件的Affy包[7]進行后續背景校正和歸一化處理, LIMMA包[8]進行差異表達分析,并且應用貝葉斯檢驗方法進行多重檢驗校正。為了避免可能因素線性分析而造成的假陽性結果,我們將P值調整為錯誤發現率(FDR),并選擇FDR<0.05,基因表達值倍數變化(Fold change,FC)≥2作為閥值,篩選差異基因。
采用DAVID在線分析平臺對差異基因京都基因與基因組百科全書通路(Kyoto Encyclopedia of Genes and Genomes pathway, KEGG pathway)分析[9]。差異基因的分析主要集中在兩個方面:一個是為了確定差異表達基因的功能,包括細胞組成分析、分子功能分析、生物過程分析;另一個是為了確定不同樣本間差異基因所參與的最主要代謝途徑和信號轉導途徑而做的KEGG pathway分析,取P值小于0.05,具有統計學意義。
經過標準化處理,以FDR<0.05,基因表達值倍數變化(Fold change,FC)≥2為篩選條件,5個正常的腎上腺樣本和10個腎上腺腺瘤樣本共篩選出163個差異基因,其中上調29個,下調134個。下面列出前10個差異基因,如表1所示。研究表明,KLF10基因在多種腫瘤細胞中表達量明顯下調,使其抑制腫瘤細胞的作用降低。KLF10基因與腫瘤的發生和發展密切相關,對其深入研究可以更好地了解腫瘤發生和發展的機制。Kruppel樣轉錄因子10(KLF10)是Kruppel樣轉錄因子家族成員之一,參與調節細胞的增殖、周期和凋亡等多種生命活動[9]。Dak編碼的蛋白質為一種激酶,Dak基因過表達會抑制黑色素瘤的分化,研究表明Dak與丙三醇代謝有關[10]。生物數據見表1。
表1 前10個差異基因的生物數據

GeneLog FCAve ExprtP.Valueadj.P.ValBXXYLT12.357 5883.903 9496.032 7940.000 0160.020 1073.136 231APLP14.120 8884.798 3255.659 7160.000 0330.028 3622.493 670PENK4.260 8097.088 8235.636 1690.000 0350.028 3622.452 374CALY3.033 2434.693 3355.550 6590.000 0410.032 4342.301 686SYNGR32.569 9944.553 0885.421 1920.000 0530.032 6142.071 409SSTR5-AS14.507 3745.968 3565.395 0090.000 0560.032 6142.024 534KLF101.250 1669.012 8395.378 2710.000 0580.032 6141.994 513DAK1.695 8349.107 7365.377 1680.000 0580.032 6141.992 534MFAP43.028 1995.568 2155.326 2400.000 0650.032 6141.900 931AVPR1A1.846 6326.267 6835.280 8730.000 0710.033 6691.819 015
這里根據前面的分析結果,調用pheatmap包來繪制差異表達譜熱圖,如圖1所示,其中:紅色表示高表達;黃色代表低表達;顏色越深差異表達量越高或越低。

圖1 差異基因表達譜熱圖
從圖1中可以得出正常腎上腺樣本和腎上腺瘤樣本聚類分界明確。
Pearson相關系數,是衡量2個數據集合是否在一條線上,衡量定距變量間的線性關系的系數。
根據Pearson相關系數分析芯片矩陣中不同樣品之間的距離來評估芯片質量,Pearson相關系數本質上是統計學方法中的一種線性相關系數,對它的分析通常是用來衡量定距變量間的線性關系考察2個事物(數據變量)之間相關程度的系數稱為相關系數。相關系數的的絕對值越接近于1,表示相關性越強。對本文所選擇的數據進行Pearson 相關系數分析,結果如圖2所示。

圖2 差異基因Pearson相關系數
從圖2可以得出:各主要特征的相關度不高,即彼此信息近似正交,使用該特征效果較好。
對差異基因的分布利用貝葉斯標準差來觀察差異基因的分布情況,結果如圖3所示。
從圖2、3中可以看出:只有XXYLTI探針的數據是異常值,其他的探針對數化值都落在1的附近。

圖3 經過貝葉斯得到的準差的數化值的箱形圖
通過DAVID數據庫對上調和下調差異表達基因進行KEGG通路分析。P<0.05為有統計學的顯著差異存在。分析許多在腎上腺中表達的夸蛋白酶參與調節醛固酮的產生,結果如表2所示。發現,差異基因主要集中在細胞發展、苯丙胺反應、體內滲水平衡、雌二醇反應、去甲狀腺合成、對核酸模板轉錄的負調節等通路中,從每一項的分析中就可以看出包含的基因數目和以及對應的基因名稱。例如,苯丙胺存在抗膽堿作用,正常情況下膽堿受體和腎上腺受體處于平衡狀態。在受到外界刺激下腎上腺受體分泌激素的同時阻止膽堿受體分泌激素,即抵抗自己的身體恢復到正常狀態。
表2 差異基因的KEGG途徑分析

通路ID通路名稱基因數量P值基因0007275細胞發展100.004 148 223SLCO4C1,PRR15,HOXB7,EGFL6,HOXB8,OTX1,ENC1,EDA2R,TRIML1,IHH0007601視知覺60.007 327 465RBP4,CLRN1,WFS1,TH,CACNB2,CNGB30001975苯丙胺反應30.014 869 797TRDMT1,TH,DBH0003091體內滲水平衡30.015 799 592WFS1,CYP11B2,AQP20032355雌二醇反應40.017 516 142PENK,TH,HTR5A,IHH0042631細胞對缺水的反應20.017 937 054AVPR1A,AQP20086091心率傳導調節30.018 733 642KCND3,CACNB2,CTNNA30007155細胞粘附80.020 767 497HES1,EGFL6,LAMC2,MFAP4,CD226,CTNNA3,DSCAM,APLP10042421去甲狀腺合成20.023 844 991TH,DBH1903507核酸模板轉錄的負調節30.032 491 295SSX7,SSX5,SSX30070588鈣離子跨膜運輸40.035 031 332ATP2A3,SLC24A3,TRPA1,CACNB20042423兒茶酚胺生物合成的過程20.035 555 499TH,DBH0042048嗅覺行為20.035 555 499WFS1,GJB40019233感知覺30.039 094 653PENK,HOXB8,TRPA10042908異性生物質運輸20.041 358 483SLC2A1,ABCB4
兒茶酚胺是一種含有兒茶酚和胺基的神經類物質,是腎上腺素能神經元合成和分泌的激素,腎上腺髓質鉻細胞分泌腎上腺素和甲狀腺激素。之前的研究中,在APA的治療中就已經采取受體的拮抗劑作為藥物應用于調節醛固酮的產生。(AVPR1A)精氨酸加壓素受體,這個受體的活動是由G蛋白介導控制,它激活了一個磷酸鈣離子系統[12]。(CCKBR)受體在中樞神經系統中發生,它們調節焦慮、鎮痛、喚醒和神經松弛活動。這種受體通過激活磷脂鈣使系統的G蛋白相結合來調節其作用。為了驗證以上結果,通過David在線分析差異基因的KEGG通路圖[11],結果如圖4所示。
KEGG通路分析結果發現差異基因涉及的通路Ca2+離子信號通路、自半吞噬調節、刺激神經的配件。受f信號通路、自半吞噬調節、刺激神經的配體-受體相互作用,其中多個差異表達基因參與Ca2+離子信號通路,Ca2+為多種調節因素刺激醛固酮產生,臨床上已經應用鈣通道阻滯劑抑制醛酮的分泌,而且鈣通道阻滯劑還可抑制血管平滑肌的收縮,減少血管阻力,從而使血壓下降[13]。

圖4 Ca2+信號通路
腎上腺瘤的發生發展是一個長期而復雜的過程,其病變過程常涉及到多個基因,尋找出正常腎上腺和腎上腺組織差異表達的基因尤其重要。基因芯片技術是后基因組時代興起的DNA分析技術,通過對基因表達譜的分析篩選出163個差異基因,進而利用KEGG通路分析差異基因參與的主要通道。KEGG通路分析中,涉及的通路有鈣離子通路。鈣離子是醛固酮合成過程中的必需離子,臨床上已經使用鈣離子抑制劑用于治療APA。總之,我們利用基因芯片技術并結合生物信息學相關知識進行分析,篩選出一系列差異基因,進而從分子水平上揭示腎上腺瘤發展的分子機制,為腎上腺瘤的研究工作提供了參考。