◇內蒙古工業大學數據科學與應用學院 侯 睿
隨著測序技術的不斷進步,為了更加深入的探究癌癥產生和發展的分子機理,產生了一些針對癌癥的研究計劃,癌癥基因圖譜計劃(The Cancer Genome Atlas,TCGA)便是其中之一。該計劃包含了海量的數據,DNA甲基化數據是該計劃中一種重要的表觀遺傳修飾數據。本文簡要介紹了癌癥基因圖譜計劃,闡述了癌癥基因圖譜計劃的甲基化數據,對癌癥基因圖譜計劃中甲基化數據的分析工具進行了說明,簡述了450K甲基化數據的分析過程,以期對使用癌癥基因圖譜計劃開展DNA甲基化的相關研究提供相應幫助和支持。
癌癥是人類面臨的嚴重疾病,癌癥具有其顯著的特征[1]。大多數癌癥的死亡率較高,生存期較短,人類對于癌癥開展了大量的研究,而傳統的癌癥研究存在著一些局限性。測序技術的發展,產生了大量分子層面的測序數據,推動了人類對于癌癥的認識,也產生了不少相關的研究。測序數據的種類繁多,DNA甲基化數據是其中的一種,DNA甲基化是非常重要的表觀遺傳修飾,DNA甲基化不改變DNA序列的內容,且可以遺傳。DNA甲基化能夠調節基因的表達,對于癌癥的發生以及發展有著重要的作用。TCGA是一個專門針對癌癥的研究項目,包含了多種癌癥的測序數據[2],其中也包括了DNA甲基化的測序數據,而且,研究人員設計了多種分析DNA甲基化的工具[3],可以選用一些適合的工具來分析TCGA數據庫中的甲基化數據。本文對TCGA計劃及其中的甲基化數據進行了討論,介紹了處理甲基化數據的常用工具,通過這些工具分析和挖掘TCGA中的DNA甲基化數據,可以加深人類對于癌癥的認識。
癌癥基因圖譜計劃是一項關于癌癥研究的重要項目,在研究中主要使用分子層面的數據研究癌癥,研究的數據由不同的機構按照統一的協議完成,完成后提交到該計劃的數據庫中。該計劃數據庫中的的數據包含了癌癥的基因組學數據,表觀組學數據,轉錄組學數據,蛋白組學數據等。該計劃主要針對各種癌癥展開研究,包含了33種癌癥,超過11000名患者的數據,數據庫中包含癌癥數據和正常樣本數據,該計劃開放了大部分數據的使用權,可以從癌癥基因圖譜計劃的網址下載數據,也可以使用第三方的工具下載數據。科研人員針對數據庫中的數據,可以開展單一的癌癥研究[4],或者可以進行多種癌癥的聯合研究。該計劃中的數據種類繁多,可以使用一種數據進行分析,也可以使用多種數據聯合分析。分析該計劃中癌癥的相關數據,可以從分子層面加深人類對于癌癥機理的了解和認識,該計劃數據庫中的甲基化數據是其中一項重要的研究數據,展開TCGA數據庫中的DNA甲基化數據的相關研究,可以對于癌癥的預防、診斷、治療提供幫助[5]。
表觀遺傳修飾是核酸序列未改變時,遺傳物質發生了可以遺傳到下一代的改變。DNA甲基化是研究較多的一種表觀遺傳修飾,DNA甲基化與癌癥緊密聯系,DNA甲基化的異常改變會導致癌癥的產生及進一步發展[6]。異常DNA甲基化位于基因的不同區域,對于基因表達的影響不同,通常,當DNA高甲基化位于基因的啟動子區域時,會導致抑癌基因表達的下調,從而促進了癌癥的發生。
癌癥基因圖譜計劃中較為常用的DNA甲基化測序數據包括27K數據和450K數據,數據使用beta值來衡量甲基化的程度,DNA甲基化測序芯片數據來源于因美納(Illumina)公司的測序平臺,該測序平臺是較為常用的甲基化測序平臺。27K數據來源于因美納公司HumanMethylation27測序平臺,該平臺的測序數據中包含了大于27000個DNA甲基化的位點。450K測序數據來源于因美納公司HumanMethylation450測序平臺,該平臺的測序數據包含了大于450000個甲基化位點,基本上覆蓋了基因的不同區域,并且覆蓋了99%的參考基因組[7],此外還覆蓋了CpG島及其相關區域。TCGA數據庫的甲基化數據中,Level1的數據為原始的測序數據,level2和level3為經過處理的數據,Level3的數據將甲基化位點的beta值映射到了基因組上。
DNA甲基化數據需要經過進一步的分析,得到相應的結果。由于DNA甲基化數據較大,進行多個樣本分析時,通常需要在服務器端開展工作,前期要將用到的程序開發環境安裝于服務器端。處理甲基化數據時,根據分析的需求,可以使用相應的工具,運行特定的程序。
分析甲基化數據的工具,對于因美納公司來說,針對自身的甲基化測序平臺,提供了相應的處理甲基化芯片數據的軟件:GenomeStudio,該軟件是收費軟件,可以實現對數據的特定分析,結果可以以圖像形式展現。此外,分析甲基化數據可以使用開源的軟件及其平臺,一般使用R語言及其相應的平臺及包,如:Bioconductor平臺。甲基化數據分析首先需要下載數據,數據可以由TCGA數據庫直接下載,或者使用R語言的包下載,如:TCGAbiolinks[8]。甲基化數據下載完成后,通常選用R語言的特定甲基化處理的包進行分析。常用的包有:Minfi、ChAMP、wateRmelon等,這些包的功能十分強大,包含了處理甲基化數據的基本流程,包括了數據導入、預處理、差異分析,圖形化等。使用人員可以按照自己的情況,選用不同的包進行甲基化數據的處理。
要使用癌癥基因圖譜計劃的DNA甲基化450K數據開展癌癥的研究,首先需要下載450K的甲基化數據,通常下載level3的數據。需要對癌癥和正常組織的數據進行預處理,如:NA值的處理方式,是直接刪除還是使用算法補全,如果補全的話,需要考慮使用何種算法補全,最為常用的補全算法為最鄰近節點算法。接著就可以進行差異甲基化位點的計算,并計算出高低甲基化的基因,此外,可以接著下載基因的表達數據,計算高低表達的基因,然后高低甲基化位點結合高低表達基因進行分析,可以對這些特定基因的通路進行研究,獲得特定的基因。
本文重點討論了TCGA計劃中的甲基化數據,以及使用R軟件中處理這些數據的包,通過使用R的包分析甲基化數據,可以獲得癌癥和正常樣本的差異甲基化位點、差異甲基化區域,差異甲基化基因,從而可以開展進一步的研究。本文的論述可以對開展相關甲基化研究的工作提供一些初步的幫助,為研究人員提供一些基本的研究思路。DNA甲基化測序數據有不少類別,TCGA數據庫的甲基化數據種類有限,在甲基化的研究中可以考慮結合其他數據庫,如基因表達數據庫。使用其他數據庫中DNA甲基化位點覆蓋度更高的的測序數據,如:全基因組甲基化測序數據[9],從而可以得到更多的DNA甲基化位點,以期獲得更好的研究結果。