摘要:目的 整合miRNA和基因芯片數(shù)據(jù),篩選與小兒法洛四聯(lián)癥相關(guān)的miRNA和調(diào)控的基因,并對靶標基因進行功能研究。方法 從基因表達數(shù)據(jù)庫GEO數(shù)據(jù)庫中下載編號GSE35490(miRNA)和GSE35776(mRNA),兩種數(shù)據(jù)均包含8個正常和16個患法洛四聯(lián)癥的嬰兒細胞組織樣本,篩選正常樣本和疾病樣本間特異性表達的miRNA和基因(P<0.05且FDR<0.05及差異值>2或< -2);從miRNA靶基因預測數(shù)據(jù)庫Targetscan中下載人類所有miRNA以及它們的預測靶基因信息,從中篩選出本分析中找到的特異性表達的miRNA和它們的靶基因(prediction>0.9的記錄),將數(shù)據(jù)庫中找到的靶基因與分析找到的差異表達基因?qū)?yīng),挑選出差異表達miRNA調(diào)控的差異表達的基因,再利用string構(gòu)建miRNA參與的基因共表達調(diào)控網(wǎng)絡(luò)(共表達系數(shù)>0.5),并把網(wǎng)絡(luò)中的基因上傳至DAVID中做功能聚類分析(p value<0.05)。結(jié)果 通過比較正常和病變樣本,我們共得到了差異表達的miRNA 32個,差異表達的基因875個,根據(jù)Targetscan中miRNA以及靶基因信息,找到了差異表達的hsa-miR-124直接調(diào)控分析找到的34個差異表達基因,hsa-miR-138直接調(diào)控2個差異表達基因,構(gòu)建了包含231對共表達基因?qū)Φ膍iRNA調(diào)控網(wǎng)絡(luò),網(wǎng)絡(luò)中基因功能顯著地富集14個功能簇,最顯著富集在蛋白質(zhì)定位功能上。結(jié)論 找到差異表達的miRNA hsa-miR-124和hsa-miR-138直接和間接調(diào)控的差異表達基因,得到兩個miRNA參與的基因共表達網(wǎng)絡(luò),網(wǎng)絡(luò)中的基因最顯著富集在蛋白質(zhì)定位功能上。
關(guān)鍵詞:法洛四聯(lián)癥;差異表達;共表達網(wǎng)絡(luò);功能富集分析
法洛四聯(lián)癥(tetralogy of fallot,TOF)是最常見的紫紺屬先天性心臟病。在先天性心臟病臨床統(tǒng)計中,TOF占6.0% ,居先天性心臟病的第5位、紫紺屬畸形的第1位[1]。在TOF的基本病理改變中,室間隔缺損及肺動脈狹窄被認為是最主要的病變,決定了患兒的血流動力學改變,除了室間隔缺損、主動脈騎跨、肺動脈狹窄及右心室肥厚這四項基本病變外,TOF常伴有許多伴隨畸形,嚴重威脅著嬰兒生命健康[2]。為搶救和永久保存江西省豐富而珍貴的先天性心臟病遺傳資源, 在此基礎(chǔ)上利用近年來多基因遺傳疾病的研究進展和DNA芯片技術(shù),以先天性心臟病椎動脈干畸形中的法樂氏四聯(lián)癥為突破點,研究其形成機制及易感相關(guān)基因,為揭示心臟的發(fā)生的分子生物學機制,先天性心臟病的形成機制打下堅實的基礎(chǔ),并為進一步的先天性心臟病基因診斷和治療打下基礎(chǔ)。利用基因芯片技術(shù),篩選克隆法洛氏四聯(lián)癥的易感和/或疾病相關(guān)基因。本文基于來自相同組織樣本的兩種不同芯片數(shù)據(jù):miRNA和基因芯片,篩選特異性表達的miRNA以及調(diào)控的差異表達的基因,構(gòu)建共表達調(diào)控網(wǎng)絡(luò),為該疾病的及早診斷和治療提供了基因水平的依據(jù)。
1 資料與方法
1.1 Affymetrix miRNA芯片數(shù)據(jù) 從基因表達數(shù)據(jù)庫GEO數(shù)據(jù)庫中下載編號GSE35490(miRNA)和GSE35776(mRNA)[3],兩種數(shù)據(jù)均包含8個正常和16個患法洛四聯(lián)癥的嬰兒細胞組織樣本。這兩組數(shù)據(jù)均是法洛氏四聯(lián)體癥相關(guān)數(shù)據(jù),來自相同時實驗室的相同的個體樣本,測的都是嬰兒右心室心肌組織的表達譜。平臺信息:GPL8786[miRNA-1_0] Affymetrix miRNA Array和GPL5175[HuEx-1_0-st] Affymetrix Human Exon 1.0 ST Array。
1.2數(shù)據(jù)預處理及差異基因分析 首先利用R語言包中的Affy包將下載到的原始CEL格式的數(shù)據(jù)轉(zhuǎn)化成可識別的表達譜格式,包括對數(shù)據(jù)中缺失的部分進行填補[4];接著對補完缺失的數(shù)據(jù)進行標準化[5]。再利用R語言中的limma[6]包對正常和病變組做差異表達分析,并用BH方法進行多重檢驗矯正[7],篩選特異性表達的miRNA和基因,選取的閾值是:p-value<0.05且FDR<0.05,且|logFC|>1。
1.3下載數(shù)據(jù)庫中已知的miRNA與靶基因 從miRNA數(shù)據(jù)庫TargetScan[8]中下載其中收錄的所有人類miRNA以及每個miRNA所對應(yīng)的預測靶基因,基于靶基因跨物種保守和miRNA-靶基因二聚體熱力學特征[9]的方法預測靶基因,篩選得分高于0.9的作為候選的的調(diào)控對。
1.4篩選差異表達miRNA直接調(diào)控的差異基因 根據(jù)置信度高的調(diào)控對篩選出本出現(xiàn)在差異表達的miRNA集合中的個體。利用差異表達基因與篩選出的差異miRNA已知的靶基因?qū)?yīng),得到差異表達的miRNA調(diào)控下差異表達的基因。
1.5構(gòu)建共表達網(wǎng)絡(luò) 將篩選得到的特征表達的miRNA調(diào)控的差異表達基因上傳至string[10]中,該軟件根據(jù)輸入基因序列自身的特性和結(jié)構(gòu)特點,預測各個基因之間發(fā)生共表達的可能性,即計算各基因之間的表達系數(shù),保留表達系數(shù)高于0.5的作用對,構(gòu)建特異表達的miRNA參與的基因共表達調(diào)控網(wǎng)絡(luò)。
1.6共表達網(wǎng)絡(luò)中基因功能的研究 利用DAVID[11]在線軟件,基于超幾何分布算法的富集分析,篩選p value <0.05且count>2,得到基因所在的功能簇。
2 結(jié)果
2.1差異表達的miRNA和基因的篩選 利用R語言limma包對標準化后的兩種表達譜數(shù)據(jù)分別做差異表達分析,共篩選得到了差異表達的miRNA 32個,差異表達的基因875個(滿足閾值P value <0.05且FDR<0.05,|logFC|>1),見表1。
2.2下載數(shù)據(jù)庫中已知的miRNA與靶基因 下載miRNA靶基因數(shù)據(jù)庫TargetScan中收錄的所有人類miRNA及預測靶基因,共2393544條記錄。只保留靶基因的預測得分高于0.9的miRNA家族和它們的靶基因作為候選的調(diào)控對,包含24個miRNA家族和203個靶基因。
2.3篩選差異表達miRNA調(diào)控的差異基因 芯片分析得到的差異miRNA和差異表達基因,結(jié)合從TargetScan收集的調(diào)控對,得到了hsa-miR-124調(diào)控的34個差異表達基因,hsa-miR-138調(diào)控的LMAN1和LYPLA1這2個差異表達基因。
2.4構(gòu)建共表達網(wǎng)絡(luò) 所有篩選得到的差異表達的基因中,除了hsa-miR-124調(diào)控的34個和hsa-miR-138調(diào)控的2個差異表達基因外,可能會存在這兩個miRNA間接調(diào)控的差異表達基因。因此,利用string計算875個差異基因之間的共同表達系數(shù),篩選共表達系數(shù)>0.5的作用對,最終得到231對共表達作用對。結(jié)合miRNA調(diào)控關(guān)系構(gòu)建miRNA調(diào)控靶基因的網(wǎng)絡(luò),如圖1。由圖可見,除了已知的受到兩個miRNA調(diào)控的差異表達基因外,仍有13個基因受到間接調(diào)控。
2.5共表達網(wǎng)絡(luò)中基因功能的研究:將網(wǎng)絡(luò)中的所有基因利用DAVID進行富集分析,篩選p value<0.05且count>2,得到基因富集的功能簇14個,其中最為顯著的功能為蛋白質(zhì)定位,見表1。
3 討論
法洛四聯(lián)癥(TOF)是一種嚴重的先天性心臟病,發(fā)病率位于發(fā)紺型先天性心臟病之首。手術(shù)難度大,死亡率高,并發(fā)癥發(fā)生率高[12]。有文獻報道,嬰幼兒TOF的手術(shù)死亡率也在0%~5%之間[13]。TOF疾病常見的其它畸形有:多發(fā)性室間隔缺損、周圍肺動脈狹窄、冠狀動脈畸形、右位主動脈弓、動脈導管未閉、房間隔缺損、左上腔靜脈缺如等[2]。
近年來,隨著對TOF病理改變的理解越來越深刻,以及要幼兒TOF手術(shù)的開展,TOF根治術(shù)的成功率有明顯的提高,但受多種因素的影響,手術(shù)仍有一定的風險,如:除肺動脈直徑及周圍肺動脈有無狹窄外,冠狀動脈的解剖異常及存在多發(fā)性室間隔缺損是另外兩個至關(guān)重要的因素[14]。因此,法洛四聯(lián)癥對于幼兒的危害是非常大的,縱使手術(shù)可以治療,但手術(shù)由于受到多種因素的影響,也是相對有風險的。此外,在手術(shù)后,也會存在很多的并發(fā)癥,如:灌注肺、呼吸衰竭等[15]。
TOF疾病不管是疾病本身,還是手術(shù)治療過程中,又或者手術(shù)后,對幼兒的生命健康都非常具有危害性。本分析基于來自TOF患病兒的miRNA和同組 mRNA表達譜數(shù)據(jù),通過生物信息學分析手段,篩選得到了顯著下調(diào)的兩個miRNA(hsa-miR-124和hsa-miR-138)及它們已知的靶基因(hsa-miR-124直接調(diào)控的34個和hsa-miR-138直接調(diào)控的2個靶基因),且這些已知靶基因同時也是組織中差異表達的基因,并由已知的靶基因得到與之共同表達的差異基因。篩選得到的這些基因如果通過實驗驗證,將有希望成為早期診斷TOF疾病的一種標志,針對這些基因靶向性地設(shè)計藥物治療也將會成為現(xiàn)實。只要能夠?qū)⒃摷膊〖霸绲匕l(fā)現(xiàn)和治療,就會時患病的幼兒免受手術(shù)帶來的風險以及手術(shù)后有可能會帶來的并發(fā)癥痛苦。
參考文獻:
[1]劉玉清,主編.心血管病影像診斷學[M].合肥:安徽科學技術(shù)出版社,2000:482.
[2]楊思源.小兒心臟病學[M].第3版.北京:人民衛(wèi)生出版社,2005:104-105.
[3]O'Brien JE Jr, Kibiryeva N,Zhou XG,Marshall JA,et al. Noncoding RNA expression in myocardium from infants with tetralogy of Fallot[J].Circ Cardiovasc Genet ,2012,5(3):279-286.
[4]Missing value estimation methods for DNA microarrays,Troyanskaya,O.Cantor,M.Sherlock,G.Brown,P.Hastie,T.Tibshirani,R.Botstein,D.and Altman,R.B.[J].Bioinformatics,2001,17(6):520-525.
[5]Evaluating different methods of microarray data normalization,André Fujita,Jo?o Ricardo Sato,Leonardo de Oliveira Rodrigues,Carlos Eduardo Ferreira and Mari Cleide Sogayar.
[6]Smyth,G.K.Limma:linear models for microarray data.In: Bioinformatics and Computational Biology Solutions using R and Bioconductor,R.Gentleman,V.Carey,S.Dudoit,R.Irizarry,W.Huber(eds)[J].Springer,New York,2005:397-420.
[7]Benjamini,Y.and Hochberg,Y.(1995)Controlling the 1 discovery rate:a practical and powerful approach to multiple testing[J].Journal of the Royal Statistical Society Series B,57:289-300.
[8]Prediction of Mammalian MicroRNA Targets.Benjamin P Lewis1,3,I-hung Shih2,3,Matthew W Jones-Rhoades1,2, David P Bartel1,2,Christopher B Burge1[J].Cell, 2003,115 (7).
[9]Conserved Seed Pairing,Often Flanked by Adenosines,Indicates that Thousands of Human Genes are MicroRNA Targets Benjamin P Lewis,Christopher B Burge,David P Bartel[J].Cell,2005,120:15-20.
[10]The STRING database in 2011:functional interaction networks of proteins,globally integrated and scored.
[11]Huang DW,Sherman BT,Lempicki RA.Systematic and integrative analysis of large gene lists using DAVID Bioinformatics Resources[J].Nature Protoc,2009,4(1):44-57.
[12]張鏡芳,莊建,吳若彬,等.136例成人法洛四聯(lián)癥的外科治療[J].中華外科雜志,1998,36:747-748.
[13]Pozzi M,Trivedi DB,Kitchiner D,et a1.Tetralogy of Fallot:what operation,at which age[J].Eur J Cardiothorac Surg,2000,17:631-636.
[14]高文根,汪曾煒,張仁福,等.要兒法樂四聯(lián)癥外科治療的危險因素分析[J].中華小兒外科雜志,2004,25(5):417.
編輯/哈濤