癌癥基因組學相關數據管理與應用探析

2016-03-21 11:05:56，，，

中華醫學圖書情報雜志 2016年4期

，，，

美國癌癥基因組圖譜(The Cancer Genome Atlas, TCGA)計劃歷經10年完成了階段性任務[1]，推動了癌癥基因組學研究的發展，為大規模癌癥基因組學研究計劃的實施提供了參考。2006年，在美國國立衛生研究院(National Institutes of Health，NIH)的組織領導下，美國國立癌癥研究所(National Cancer Institute，NCI)和國立人類基因組研究所(National Human Genome Research Institute，NHGRI)聯合啟動了癌癥基因組圖譜計劃[2]。該計劃旨在通過大規模收集特定癌癥患者的臨床信息、影像信息、腫瘤組織及部分對應的正常組織樣本，對其進行全面的基因組數據分析，從而獲得一個全面的癌癥基因組“圖譜”，找到癌癥相關的基因組變異并為其編制目錄，實現數據共享，促進癌癥的早期診斷和精準治療，并預防癌癥的發生。

本文將從TCGA計劃的數據管理相關機構、工作流程、數據分類及開放共享、數據應用等方面對TCGA進行調研，為建立和完善大型的開放癌癥基因組學數據庫及其數據開放和利用提供參考借鑒。

1 癌癥基因組數據管理

1.1 數據管理相關機構

TCGA計劃涉及多個負責數據收集和處理分析的相關機構(圖1)，具體包括組織樣本采集站(Tissue Source Sites,TSSs)、樣本處理中心(Biospecimen Core Resource,BCR)、基因組測序中心(Genome Sequencing Centers,GSCs)、基因組特征研究中心(Genome Characterization Centers,GCCs)、數據調度中心(Data Coordinating Center,DCC)、癌癥基因組中心(Cancer Genomics Hub,CGHub)和基因組數據分析中心(Genome Data Analysis Centers,GDACs)等[2]，其工作流程基本如下。

圖1 美國癌癥基因組圖譜數據管理數據流[2]

組織樣本處理：組織樣本采集站(TSSs)收集志愿者的生物樣本(腫瘤組織和正常組織)及臨床元數據并提交給樣本處理中心(BCRs)，樣本處理中心(BCRs)從樣本中提取待分析的物質(DNA、RNA、蛋白質等)，并檢測以達到數量和質量的要求，同時為樣本編碼并去除患者隱私信息。

科學研究發現：待分析的物質由樣本處理中心(BCRs)分別提交給基因組特征研究中心(GCCs)和基因組測序中心(GSCs)，并分別進行基因組變異特征分析和識別特定癌癥的DNA、RNA序列變化，基因組數據分析中心(GDAC)對來源于各個序列描述平臺的數據進行整合，研發并提供新的信息處理、分析和可視化工具，以使癌癥基因組圖譜的數據得到充分利用。

科學數據共享：TCGA計劃所收集和產生的各類數據由數據調度中心(DCC)集中管理，并通過數據門戶(The TCGA Data Portal)等平臺促進數據開放共享，使所有研究者根據其研究目的獲取和利用所需數據。

數據驅動的科研協作：TCGA計劃促進交叉學科研究團隊從不同分子層面整合不同癌癥表型信息協同開展科學研究，共同研究癌癥發病機理，發現致病因素，提供精準的治療方案，進而有效降低癌癥疾病負擔[3]。

1.2 數據分類

TCGA計劃收集了11 000名患者、33種癌癥的樣本數據[4](表1)。2015年，TCGA計劃所收集和產生的數據量已達20PB，其中包括1 000萬個突變信息[1]。研究者可自行選擇和下載所需的癌癥數據并進行分析。據TCGA計劃管理辦公室的不完全統計，截至2014年底，已有2 700多篇已發表的研究文章使用了TCGA計劃所收集和產生的數據[4]。

表1 美國癌癥基因組圖譜(TCGA)計劃癌癥樣本數量分布

注：該表為截至日期為2016年1月14日

TCGA研究團隊針對上述各種癌癥，收集和產生了多種類型的組學和臨床相關數據，主要包括基因表達，外顯子表達、小RNA表達、拷貝數改變(CNV)、單核苷酸多態性(SNP)、雜合性缺失(LOH)、基因突變、DNA甲基化和蛋白質表達等組學數據，以及患者的基本資料、治療進程、臨床分期和生存狀況等臨床相關數據。

對于每種類型的數據，TCGA研究團隊根據其加工處理程度劃分為4個水平，使研究者可根據其研究需要選擇不同處理水平的數據。TCGA計劃的數據處理程度總體界定如表2所示。由于每一個中心和平臺都會產生多種類型的數據，而各中心和平臺分別根據其數據類型和所采用的分析算法對數據水平分類進行界定，因此各中心和平臺之間的界定標準可能會略有不同[5]。

1.3 數據共享機制

TCGA計劃根據數據粒度，將所收集和產生的數據分為匯總數據和個體數據，并分別采取不同的數據共享機制，即匯總數據可開放存取，用戶使用時不需要進行認證。而個體數據須受控訪問，用戶須填寫數據訪問申請，經審核同意后方可下載使用數據。這兩種數據共享機制的不同之處詳見表3。

表2 美國癌癥基因組圖譜(TCGA)計劃數據處理程度劃分

表3 美國癌癥基因組圖譜(TCGA)計劃的數據共享機制比較

2 應用領域

TCGA計劃已覆蓋惡性膠質瘤、乳腺癌、卵巢癌、肺癌、結直腸癌、腎透明細胞癌、白血病、子宮內膜癌、膀胱移行細胞癌、胃腺癌等30多種癌癥及其亞型(表1)。TCGA研究團隊及其他相關研究者利用其共享數據開展了大量研究，包括癌癥特征基因的突變、染色體擴增和缺失以及受影響的信號通路等。基于多個高通量實驗平臺產生的數據，開展癌癥基因組學研究，為分子水平癌癥分類研究開辟了新視角。下面以研究成果中的乳腺癌、前列腺癌相關發現及泛癌計劃為例，對TCGA計劃的數據應用情況進行介紹。

2.1 乳腺癌

2012年，TCGA研究團隊通過對乳腺癌相關的基因組DNA拷貝數陣列、DNA甲基化、外顯子測序、mRNA陣列、小RNA序列陣列和反相蛋白陣列等數據的整合分析，發現了4個主要的分類亞型，且每種亞型都有顯著的分子異質性[6]。2015年TCGA研究團隊與瑞士洛桑大學遺傳學系、美國斯隆凱特林癌癥中心等20多個機構的研究者合作，利用TCGA計劃的多個平臺的分析數據，包括817個乳腺癌樣本，分析小葉樣乳腺癌和導管樣乳腺癌的分子差異，找到了其發病機制中的不同通路；同時根據細胞增殖及免疫相關基因的表達差異，定義了新的小葉樣乳腺癌亞型(reactive-like, immune-related, proliferative)，發現潛在的治療靶點[7]。此外，研究者利用TCGA計劃的數據驗證其研究結果，通過整合一個大型的小葉樣乳腺癌患者隊列中的基因組、轉錄組及蛋白質組數據，找到兩個生物學方面有顯著差異的亞型，并利用TCGA計劃乳腺癌的基因表達數據，用相同的聚類方法，顯示出類似的生物學差異[8]。這些差異可通過相應靶向的化療或免疫療法改善治療效果，為精準治療方案的制定提供依據。

2.2 前列腺癌

有研究通過篩查TCGA計劃所收集和產生的前列腺癌的差異表達的小RNA數據，分析靶基因的功能和信號通路，發現了6種差異表達的小RNA及它們的靶基因，可以作為前列腺癌治療過程中的預后生物標記[9]。TCGA研究團隊對原發性前列腺癌的333個樣本的多個平臺(包括外顯子組、全基因組測序、RNA測序、小RNA測序、SNP微陣列、DNA甲基化微陣列、反相蛋白微陣列)的分析數據進行了全面的分子學分析，發現74%的原發性前列腺癌可根據基因融合和突變分為7個亞型，不同亞型之間存在表觀遺傳學和激素受體活性差異。該發現對前列腺癌的分子診斷與靶向治療具有重要意義[10]。

2.3 泛癌計劃

隨著研究的深入和相互關聯，研究者發現在不同的癌癥中會存在相似的分子模式。為此，TCGA計劃的研究者于2012年啟動了泛癌計劃(Pan-Cancer Project)。根據當時的數據可及性和完整性，計劃選取多形性成膠質細胞瘤、急性骨髓性白血病、頭頸部鱗狀細胞癌、肺腺癌、肺鱗狀細胞癌、乳腺癌、腎透明細胞癌、卵巢癌、膀胱癌、結腸腺癌、子宮頸與子宮內膜癌、直腸腺癌等12種癌癥，共計3 000多個樣本的基因突變(包括單核苷酸變異和結構變異)、DNA拷貝數改變、基因表達、DNA甲基化、小RNA測序、反向蛋白陣列等組學數據和臨床相關數據進行整合分析，探尋不同癌癥的相似生物通路[11]。

在該計劃中，來自30多個機構的250位研究者開展協作研究，進行數據的處理、分析和知識發現[12]。該計劃的開展，為大型協作研究提供了一個可行的模式。此外，泛癌計劃的研究結果為不同病發部位腫瘤的系統生物學研究提供了可行性。

美國斯隆凱特林癌癥中心的Giovanni Ciriello等人利用生物信息學算法對12種癌癥的3 299個癌癥樣本進行了層次分類，將這些癌癥分為原發性體細胞變異類型(M類)和原發性拷貝數改變類型(C類)，揭示了癌癥形成中不同的致癌過程。研究發現的層次分類結果表明腫瘤形成過程中存在不同的致癌標記，為不同階段的癌癥治療提供了新思路[13]。另外有研究分析了泛癌數據集中11種癌癥的4 934個原位癌樣本的體細胞拷貝數改變(somatic copy number alteration，SCNA)情況，發現了不同癌癥有著相同的SCNA模式，約37%的癌癥有全基因增倍(whole-genome doubling)同時伴有相當高的體細胞拷貝數改變[14]。

Nature雜志于2013年創建了 TCGA泛癌分析(TCGA Pan-Cancer Analysis)專欄，總結了TCGA泛癌計劃包括突變驅動、網絡模型、暴露與致病因素、數據發現、未來方向等方面的研究成果[15]。

3 對我國的啟示

目前，我國的基因組學等生物科研數據共享與數據匯交工作已啟動[16]，但仍缺少與之匹配數據管理制度和技術支撐[17]。TCGA計劃的數據管理經驗可為國家級大型的癌癥基因組學相關數據資源管理提供參考。

3.1 加強多中心合作，落實項目管理制度

人類基因組計劃開啟了多中心、多機構合作模式，之后團體合作的基因組工程隨之而來，包括千人基因組計劃、TCGA計劃和人類微生物組計劃等。合作模式下的科學研究將會使更多人獲益，各個參與其中的中心或機構，利用相同的基礎設施、分析工具，遵循統一制定的政策及數據標準，用一致的共享技術開放數據，保證研究后期能夠在最大程度上實現數據的統一管理[18]。

3.2 做好數據分析計劃，建立全鏈條的數據管理流程

TCGA計劃建立了組織樣本采集、處理、質量控制、序列測定、變異特征分析、數據共享與研究應用等全鏈條的癌癥基因組圖譜數據管理流程。在建立大型相關數據資源時，需要對數據分析早期進行統籌規劃，確保不同科研中心的數據產生、傳遞、存儲、共享及利用等操作的相互銜接與規范化，保證數據的完整性和準確性。在大規模癌癥基因組學研究計劃的實施過程中，可參考其數據管理相關機構的合作方式，各個科研中心負責鏈條中的某項特定工作，最終數據匯總呈現于數據調度中心實現數據共享。

3.3 加強分級分類管理，促進數據開放共享

實現生物科研數據共享是一個系統工程，需進行需求分析、資源調查和分級分類等研究。TCGA計劃從所屬癌癥、數據類型、處理水平、數據粒度等角度對數據進行精細分類，根據數據類型定義不同用戶的數據訪問權限以及開放共享數據的內容。

TCGA計劃采用了兩級數據發布系統，一部分數據全面開放，另一部分僅可用于研究性目的，研究人員和機構得到授權后才可使用相應數據。在充分保護患者隱私的情況下實現癌癥基因組數據的優化與共享。在此方面，我國需要加大科學數據精細標識與分級分類管理，在保障個人隱私和信息安全的前提下，實現數據的開放共享。

4 結語

通過分析癌癥基因組信息了解癌癥發生發展機理，發現癌癥標志物和藥物作用基因靶點，可為癌癥的精準診斷和治療提供支撐。TCGA計劃收集了大量癌癥基因組與臨床表型的數據，其中蘊藏著潛在的癌癥的分子標記物和藥物靶點有待挖掘，科學的數據管理方案為癌癥基因組研究提供了保障。癌癥基因組圖譜計劃在數據管理方面的實踐探索可為精準醫學等大科學計劃的開展和實施、為數據驅動的協作研究模式提供參考[19]。