李鑫,李夢瑋,張依楠,徐寒梅
?
常用腫瘤基因分析方法及基于TCGA數據庫的分析應用
李鑫,李夢瑋,張依楠,徐寒梅
中國藥科大學多肽藥物創制工程中心,南京 211198
隨著二代測序技術的快速發展,數據量不斷累積,腫瘤學家的目光逐漸由多物種測序轉移至高通量測序數據的分析和比對。基因數據分析方法層出不窮,高通量的組學分析手段不斷優化和創新,基因數據的挖掘和分析工作正處于飛速發展的時期。以腫瘤病人樣本為核心的數據庫 The Cancer Genome Atlas (TCGA)由此應運而生,該數據庫全方位記錄了從臨床腫瘤病人樣本得到的基因數據如DNA序列、轉錄本信息、表觀遺傳學修飾等。本文主要從數據分析方法、TCGA數據庫及其應用實例等3個方面詳細介紹了腫瘤相關基因數據的深入挖掘和生物信息學分析方法的最新研究進展,以期為研究人員利用大數據發現腫瘤防治相關的新靶點提供借鑒和參考。
基因數據;TCGA數據庫;腫瘤
近年來,隨著高性能計算機集群技術支持的新一代測序機和自動化分析的高通量測序平臺不斷問世、基因組測序分析成本大幅降低、基因組數據共享平臺層出不窮,以及大量的基因組數據被上傳至互聯網,為研究人員開展大規模的基因組學研究創造了便利條件,同時腫瘤基因組學的研究也越來越深入。由此,整合多種癌癥基因組數據的The Cancer Genome Atlas (TCGA)數據庫應運而生,為研究人員快速、準確地獲取腫瘤基因組數據提供了很好的途徑。
數據挖掘是一門隨著計算機科學發展而快速發展的學科,其在生命科學領域的作用隨著大量測序數據的累計而逐漸顯現。……