
把人類基因組的初稿想象成一本書。這本書在世紀之交才剛剛發表,卻為變革性治療鋪平了道路?;蚓庉嫼突虔煼ìF在可以用來對抗以前無法治愈的疾病。比較我們與進化過程中最親近表親中的A、T、C、G基因字母,可以揭開我們進化和智力的根源。
但是“我們”指的是什么,或者是誰?
由于技術限制,目前的參考基因組是由少數人(主要是歐洲人和非洲人后裔)的測序DNA片段組裝而成的。盡管這本“人類之書”在尋找遺傳疾病方面是無價的,但它很難概括全球人類的遺傳多樣性。
發表在《自然》(Nature)上的一項新研究邁出了擴大研究范圍的第一步。在大約十年的時間里,這項研究捕獲了來自亞洲、非洲、美洲和歐洲的47個人的基因組。這項艱巨的工作總共對94個基因組進行了測序,每個人對應一組染色體。
這一研究的結果形成了人類“泛基因組”的初稿——來自單個個體的基因數據的集合匯編成了一個參考系統。這一新的數據結構更像是一間圖書館,而不是一本書,捕捉了世界各地人類豐富的遺傳歷史。
“這就像從黑白電視到1080p電視。”加州大學圣迭戈分校的基盧 · ??怂梗↘eolu Fox)博士說。他本人沒有參與這項研究。
這項研究是人類泛基因組參考聯盟(Human Pangenome Reference Consortium,HPRC)的一部分。這是一個雄心勃勃的國際項目,于2019年啟動,旨在將人類這個物種的多樣性納入一個全面的參考系統。創建不同的參考系統并不僅僅是出于學術追求,而是為了幫助科學家在不分祖先的情況下深入研究疾病的遺傳聯系。
墨西哥國立自治大學的邁沙阿爾 · 蘇海爾(Mashaal Sohail)博士沒有參與這項研究,他說:“這是一個非凡的進步……它使人類基因變異的圖景更準確、更完整?!?/p>
人類基因藍圖的探索
人類基因組的初稿是一個來之不易的成就,但由于遺漏了8%的細節,它存在偏差。
在基因研究中,科學家經常將患者的基因組同參考基因組作對比,以尋找致病的DNA變異。但是,與使用字典檢查拼寫錯誤類似,如果字典不完整,或者只包含一個單詞的拼寫版本(例如,“幽默”這個單詞的美國拼法為“humor”,而英國拼法為“humour”),這個過程就會受到影響。
如果沒有完整多樣的DNA圖譜,尤其當涉及多個基因時,或者當答案隱藏在特定人群特有的復雜DNA結構中時,就很難破譯與罕見疾病相關的基因。
然后是診斷和治療的問題。例如,癌癥預測因子可能對亞洲和非洲血統的人不起作用,因為開發時主要參考使用了歐洲基因組。
科學家很清楚這些問題,幾十年來一直在給初稿添加內容。此前最新的GRCh38版本于2017年發布。雖然包含了20個人的DNA,但該數據庫實際上主要來自一個志愿者(貢獻超過70%)。去年,另一個研究小組發布了一張幾乎捕捉到人類基因組全貌的地圖——但只來自一個人。
作者說,盡管這是一個“重大成就,但來自個體的基因組并不能代表我們這個物種的遺傳多樣性”。
基因地鐵地圖
這項新研究是擴大研究范圍的第一步。研究小組收集了除南極洲外各大洲共47個個體及其父母的DNA序列。因為每個人都有兩組染色體,他們總共對94個基因組進行了測序。
由于技術上的限制,科學家長期以來一直在用一種生物學上復制編輯的方法來更新GRCh3的參考基因組:修復小錯誤,填補空白,或者增加新的變體。大部分新數據并非來自參考基因組的個體,而是來自其他人的短DNA序列。由于這些序列的長度很短,很難將數據正確地放入參考基因組中。
該團隊寫道,由于這些問題,在傳統的全基因組測序研究中,我們可能錯過了70% 以上的結構變異。
然而,由于過去十年中創新基因工具的爆炸式增長,現在有可能從個體中獲取更長的DNA。這就好比同樣一塊拼圖原來分成1 000塊,現在分成了100塊,更長的讀數使得將這些碎片準確地組裝成一個完整的基因組序列變得容易得多??偟膩碚f,這項新研究為GRCh38現有的32億個堿基對(DNA的基本單位)增加了1.19億個堿基對。
下一步是將龐大的數據集整理成可破譯的地圖集。
在這里,該團隊使用了一種聰明的圖示方法,類似具有多個分支的地鐵地圖。共享的基因序列匯聚成一條線。在特定的“停止點”(各個基因序列有所不同),它們分叉成不同的線。其中一些可能最終重新匯聚成另一條共享序列的聯合線。總的來說,這張圖讓我們相對容易地梳理出多個人共有的DNA區域,并捕獲每個人獨有的DNA區域。
最終的結果是人類泛基因組的初步草圖。
多樣性中的發現
在概念驗證中,泛基因組通過兩項研究證明了它的價值。這些研究集中在以前難以探索的遺傳區域。這些遺傳物質塊被稱為重復DNA區域,就像拼圖中令人沮喪的相似區域,很難精確地將它們放入更大的基因組集合中。
然而,這些區域也可能掌握著生殖細胞工程和人類物種進化的關鍵。它們在幫助發育健康精子和卵子的過程中起著至關重要的作用,但以前很難對它們進行研究。一項研究利用泛基因組發現,這些基因片段在個體之間的復制和排列順序方面存在巨大差異。
“看到片段復制的準確特征是令人興奮的,因為重復的序列可以促進基因新功能的進化。”愛爾蘭國立高威大學的布雷恩 · 麥克斯泰(Brain McStay)博士和冰島雷克雅未克解碼基因公司的哈康 · 瓊森(Hákon Jónsson)這樣說。他們沒有參與這項研究。
泛基因組還可能揭示GRCh38參考系統中沒法反映的基因組“暗物質”。通過捕捉更加多樣化的基因景觀,我們或許能夠發現導致疾病的罕見但重要的突變。
這些研究只是嘗試性研究。泛基因組對科學家而言就是一種資源,可供他們在自己的研究中使用。
這份“地圖”還只是初稿。該團隊已經在尋求擴大數據庫,目標是到明年達到350人。該聯盟還積極將其合作拓展到代表性不足的其他地區,例如納入中東部分地區的人,以及屬于邊緣群體的人。
西奈山伊坎醫學院的研究作者艾米爾 · 肯尼(Eimear Kenny)博士表示,隨著項目的推進,透明度、隱私和道德是關鍵。
她說:“我們認識到,這項工作處于基因組研究的前沿,具有特定的特點,包括數據的開放獲取,(這些細節)值得仔細考慮,這些應用可能會引發道德、法律和社會問題?!?/p>
資料來源 Singularity Hub
本文作者范雪萊(Shelly Fan)是一名神經科學家出身的科學作家。她的第一本書是2019年出版的《人工智能會取代我們嗎?》(Will AI Replace Us?)