李 輝(復(fù)旦大學(xué)現(xiàn)代人類學(xué)教育部重點(diǎn)實(shí)驗(yàn)室)
Y染色體與基因家譜
李 輝(復(fù)旦大學(xué)現(xiàn)代人類學(xué)教育部重點(diǎn)實(shí)驗(yàn)室)


圖1.人類Y染色體模式以及姓氏和Y染色體的共同父系傳遞
現(xiàn)代社會中,幾乎每人都有自己的姓氏。一個人的姓氏不僅僅是簡單的符號,還有著豐富的文化、歷史、宗族背景。以血緣為脈絡(luò)的姓氏記錄著各家族的源流,常被用于尋根溯源的相關(guān)研究。同姓的人相遇,往往會說“我們500年前是一家”,編制一份理清同姓的人們之間的親緣關(guān)系的家譜,是很多人的愿望。數(shù)千年來大部分姓氏都從父系傳遞,而人類基因組中的Y染色體更嚴(yán)格地遵循父系遺傳,因此姓氏與Y染色體有很好的平行對應(yīng)關(guān)系。隨著Y染色體上眾多遺傳標(biāo)記的發(fā)現(xiàn),用Y染色體來分析同姓人群內(nèi)的關(guān)系,甚至全世界人群間的關(guān)系,將在分子人類學(xué)領(lǐng)域發(fā)揮出重要作用,基因家譜必然會在現(xiàn)代社會中發(fā)揮重要影響。
父系遺傳關(guān)系,是家譜中記載的主要遺傳關(guān)系。雖然姓氏普遍遵從父系遺傳,但并不完全遵從。就中國的社會情況而言,收養(yǎng)、繼養(yǎng)、入贅,甚至直接改姓,都會影響姓氏與父系血統(tǒng)的關(guān)聯(lián)程度。很多影響父系遺傳關(guān)系的情況并不被忠實(shí)記錄在家譜中。另一方面,中國大多數(shù)姓氏起源于春秋時期的各個封國,當(dāng)封國內(nèi)的百姓都以國為姓的時候,這些同國百姓的血統(tǒng)可能本來就不一致,這就造成了很多比較大的姓氏內(nèi)部遺傳結(jié)構(gòu)不一致。同姓不一定同源。即便這樣,當(dāng)我們不拘泥于群體中同一姓氏的研究,而是針對有著明確的歷史記載甚至家譜的宗族進(jìn)行研究,姓氏無疑還是一個很好的遺傳標(biāo)記。
與姓氏不同,人類的Y染色體直接代表著父系遺傳,永遠(yuǎn)是父子相傳的,不會受到任何社會文化和自然因素的影響。人體內(nèi)有23對染色體,其中22對常染色體中,每一對染色體都有一條來自父系,一條來自母系,兩條染色體在傳代過程中對應(yīng)的部分會發(fā)生交換,從而造成混血效應(yīng),這就是遺傳學(xué)上說的重組。另一對性染色體包括X染色體和Y染色體。在女性體內(nèi),X染色體也是成對的,分別來自父母雙方,所以也不能避免混血的影響。而在男性體內(nèi),卻只有一條來自母親的X染色體和一條來自父親的Y染色體,也就是說男性的Y染色體只能來源于父親,所以人體性染色體的遺傳方式?jīng)Q定了Y染色體遵從嚴(yán)格的父系遺傳(圖1)。
Y染色體與X染色體之間是否會發(fā)生重組呢?要回答這個問題,必須先了解Y染色體的結(jié)構(gòu)。人類Y染色體DNA大約包含六千萬個堿基對,其中染色體兩端的5%為擬常染色體區(qū)域,在傳代過程中與X染色體相應(yīng)區(qū)段會發(fā)生重組,而主干部分的95%為非重組區(qū)域,不與任何染色體發(fā)生重組。所以,Y染色體主干部分的此特性,保證了子代能完整地繼承父代的Y染色體主干而不受混血影響,保證了Y染色體主干的嚴(yán)格父系遺傳。這是一條不能篡改的基因家譜。
所以,當(dāng)佚失的或者不忠實(shí)記載的姓氏家譜已經(jīng)無法作為追尋祖先的可靠依據(jù)的時候,以現(xiàn)代的分子生物學(xué)技術(shù)為基礎(chǔ),研究Y染色體主干的類型,是直接追溯宗族姓氏成員之間的父系關(guān)系的最佳方法,是驗(yàn)證祖先與后代的父系關(guān)聯(lián),補(bǔ)全家譜的唯一手段。例如,在曹操的后人中分析Y染色體特征,我們就可以了解曹操本人的Y染色體特征,也可以了解現(xiàn)代曹氏后人之間的親緣遠(yuǎn)近。實(shí)際上,在一段有較可信歷史記錄的時期內(nèi),整個家族的姓氏與父系遺傳的關(guān)聯(lián)是可以保證的,所以家族的姓氏往往與固定的Y染色體類型共同傳遞,緊密關(guān)聯(lián)。

圖2.Y染色體突變譜可以構(gòu)成單倍型的原理
在一代一代的父子相承的傳遞過程中,Y染色體也在慢慢地積累著變化。正是因?yàn)檫z傳突變的積累,使得人類父系遺傳體系中,距離越遠(yuǎn)的個體的Y染色體差異也越大。Y染色體上的突變形成的個體差異主要有兩大類,單核苷酸多態(tài)(SNP)和短串聯(lián)重復(fù)(STR)。DNA分子由四種堿基(A、T、C、G)按照一定的順序連接而成,SNP是僅僅一個位置上的堿基類型變化。Y染色體上的同一個SNP在人群中一般只有兩種類型。STR則是在染色體的特定區(qū)段,由幾個堿基組成一個單位重復(fù)出現(xiàn),不同的Y染色體上的同一個STR位置往往有不同的重復(fù)拷貝數(shù)。SNP和STR由于突變性質(zhì)和突變速度不同,在分析中有著不同的用途。
要確立父系遺傳體系,最重要的前提是祖先的突變可以穩(wěn)定的保留在后代的Y染色體上。SNP突變因?yàn)橥蛔兯俾蕵O低,可以做到在后代中永久地保留,后代只能在祖先的突變基礎(chǔ)上積累新的突變,而不會丟失祖先的突變特征。通過比較人類與黑猩猩的Y染色體差異,以及大家系中的Y染色體的差異程度,Y染色體上的SNP突變的速率被計算了出來。每出生一個男子,一個染色體位置上發(fā)生SNP突變的概率為大約三千萬分之一。實(shí)際上由于Y常染色質(zhì)區(qū)的保守性,以及人類歷史上大量男子都沒有男性后代保留至今的事實(shí),實(shí)際的群體中突變率應(yīng)該低幾個數(shù)量級。而我們通常研究的是Y染色體非重組區(qū)大約三千萬個堿基對的常染色質(zhì)區(qū),按照每個堿基對三千萬分之一的突變率,這個區(qū)段內(nèi)每個男子平均都會有一個新的突變。這個新的突變隨機(jī)地出現(xiàn)在Y常染區(qū)的任意一個點(diǎn)上,如果這個突變了的點(diǎn)上再發(fā)生一次突變,那么這個突變就在后代中丟失了,我們就無法通過后代確定祖先的Y染色體突變譜。但是,同一個點(diǎn)上先后發(fā)生兩次突變的概率,按照概率計算方法就是三千萬分之一的平方,也就是九百萬億分之一,相對于人類自古以來的人口,這個概率就近似于零。所以我們可以說,絕大多數(shù)情況下,祖先的Y染色體上出現(xiàn)的SNP突變特征在后代中能夠找到,而后代只能在祖先Y染色體突變譜的基礎(chǔ)上增加新的突變。
由多個SNP突變構(gòu)成的一種突變系列組合被稱為一種單倍型。例如圖2中就有5個SNP突變,陸續(xù)構(gòu)成5種單倍型。其中1型是其他單倍型的祖先型,其他單倍型都是后代型。祖先型與所有后代型合稱為一個單倍群。一個家族的所有Y染色體理論上都屬于一個單倍群,因?yàn)槠渲兴械哪行远紤?yīng)該來自同一個祖先。
當(dāng)然,單倍群的概念可大可小。大而言之,全世界的Y染色體都屬于一種單倍群,都來自20多萬年前的一個東非晚期智人男子。進(jìn)而,全世界又可以分為20種主干單倍群,編號從A到T(圖3)。最古老的A和B單倍群都沒有走出非洲,C和D單倍群最早來到了澳洲和亞洲,E單倍群來到了亞洲又回到非洲,F(xiàn)單倍群衍生出GHIJ等單倍群在西方形成歐羅巴人種,衍生出K單倍群并形成NOPQ等單倍群在東方形成蒙古人種,其中O單倍群成為了中國人的主流,而Q單倍群成為美洲印第安人的主流。所以,Y染色體的譜系構(gòu)建出了全人類的一部大家譜。
利用Y染色體上穩(wěn)定遺傳的SNP,我們可以構(gòu)建出個體或家族之間明確的遺傳淵源。而且,既然SNP有穩(wěn)定的突變速率,當(dāng)我們統(tǒng)計出不同人的Y染色體之間的突變差異數(shù),將差異數(shù)除以速率,經(jīng)過換算就可以估算兩條Y染色體之間的分化時間,這就是計量進(jìn)化時間的“分子鐘”。但是,由于SNP的突變速率實(shí)在太低,個體之間的突變差異散布在Y染色體的各處,只能使用Y染色體全測序來尋找,而目前全測序的成本太高,尚不能普遍應(yīng)用。這一缺點(diǎn)被Y染色體上的另一遺傳標(biāo)記STR彌補(bǔ)了。
一些STR位點(diǎn)分布在Y染色體上的固定位置,每一個STR位點(diǎn)內(nèi)部的重復(fù)單位在傳代過程中改變著拷貝數(shù),這種改變也是有著固定的速率的。而STR突變速率要比SNP大得多,在家系中每出生一個男子每個STR位點(diǎn)突變概率大約是三百分之一。一般的Y染色體分析中,我們調(diào)查15個STR位點(diǎn),其總體突變率大約是二十分之一。而Y染色體上大約有150個4~6個核苷酸重復(fù)的STR,如果分析全部的STR位點(diǎn),那么總突變率大約是二分之一。這一高突變率就非常有利于估算不同Y染色體之間的分化時間,因此STR位點(diǎn)成為了Y染色體上的“時鐘”。
STR的突變是雙向性的,拷貝數(shù)可以增加或減少。有同一祖先的不同個體的同一STR位點(diǎn),可能有不同突變方向和重復(fù)數(shù)。同SNP一樣,數(shù)個不同位置上的STR也可以構(gòu)成單倍型。在群體中分析STR單倍型的多樣性程度可以計算群體的共祖時間。假設(shè)一個STR每次突變都只增加或者減少一個重復(fù)單位,也就是一步(single-step)突變模型,且群體有著恒定的有效群體大小,就可由公式t=-Ne×ln (1-V/Ne×μ)推算出某特定Y-SNP發(fā)生的大致時間。公式中,Ne是有效群體大小,μ是突變率,ln是自然對數(shù),V是觀察到的群體中的某一STR數(shù)值的方差,計算得到的t是經(jīng)歷的世代數(shù),再乘以每一世代的年數(shù)即可得到時間。
以Y染色體上STR的總突變率二分之一來估算,幾乎每個人可以構(gòu)成獨(dú)特的單倍型。然而,由于突變是一步一步發(fā)生的,父系親緣關(guān)系越近的個體之間的STR單倍型越相似,一個純粹由父系傳遞的姓氏應(yīng)有相近的STR單倍型。但是,由于STR的突變速率的不穩(wěn)定性,加上回復(fù)突變的影響,STR計算時間的誤差還是極大。所以,準(zhǔn)確地分析Y染色體單倍群的分化時間,還是要用全Y染色體SNP的突變譜,在這方面,復(fù)旦大學(xué)的人類學(xué)實(shí)驗(yàn)室的研究走在了世界最前沿。理論上,有了足夠數(shù)量的Y染色體SNP和STR后,通過調(diào)查一個姓氏宗族內(nèi)的男性的單倍型,就能夠很清楚的構(gòu)建其家族Y染色體的譜系樹,乃至編寫一部清晰的基因家譜。

圖3.全世界人群的Y染色體19個單倍群可以構(gòu)成一個“通天譜”(右 2為作者)
多項(xiàng)研究證實(shí)各國的姓氏傳承是相對穩(wěn)定的。利用Y染色體來檢測歷史上的家族關(guān)系疑案,有多項(xiàng)成功的案例,較有意思的是美國第三任總統(tǒng)托馬斯·杰斐遜因被懷疑與女仆有過孩子而遭起訴,通過比對杰斐遜的叔叔、女仆的兩個兒子的男性后代Y染色體多態(tài)位點(diǎn),最終結(jié)論杰斐遜是女仆的最小兒子的生父。Y染色體不但能夠解決數(shù)百年的疑案,還能追溯到數(shù)千年前的歷史并證實(shí)了圣經(jīng)中的傳說。圣經(jīng)中記載,猶太人中的祭司是由猶太教的第一祭司長Aaron開始按血緣代代相傳,而身為德系猶太人祭司的Skorecki發(fā)現(xiàn)他與一個西班牙系猶太人祭司的體質(zhì)特征差別很大,為此他和研究Y染色體的專家Hammer教授合作,以Y染色體上多態(tài)位點(diǎn)YAP和DYS19來分析猶太教祭司的單倍型,結(jié)果顯示,德系和西班牙系的猶太祭司與非祭司的猶太人相比有較近的親緣關(guān)系。也就是說,祭司們可跨越3 300年追溯到一個共同的父系祖先。Y染色體的分析與圣經(jīng)故事的完美契合著實(shí)讓人吃驚。
對于中國的姓氏與Y染色體的相關(guān)性,也有許多研究見諸報道。多項(xiàng)研究對同一地區(qū)內(nèi)居住的李姓、王姓和張姓等無關(guān)男性個體Y染色體遺傳多態(tài)性分析表明,此三姓氏無關(guān)男性個體Y染色體的遺傳多態(tài)性豐富,與不同姓的漢族無關(guān)男性群體遺傳多樣性比較差異不顯著。這說明,漢族的大姓內(nèi)部基本沒有同源性,相關(guān)Y染色體研究只能在明確的姓氏宗族中開展。宗族的譜系整理只能通過Y染色體進(jìn)行,而不能僅憑同姓或同祖居地推斷。
漢族大姓氏內(nèi)部的不一致,有很多可能的原因。在理想的情形下,每種姓氏都有一個唯一來源,即該姓氏的奠基者只是一人或是有相同Y染色體單倍型的多人,在姓氏傳承過程中沒有發(fā)生過干擾(改姓、非親生等),此時一種姓氏可以被一種SNP和STR的單倍型來鑒定。但是中國的大多數(shù)姓氏起源并不單一。周朝的姓氏大多是以封國為氏,后改為姓。比如曹國的王室后代姓曹,其仆役后人也可以姓曹,甚至整個封國內(nèi)所有百姓后代都可以姓曹。而曹國內(nèi)的百姓來源本來就是多樣的,有著各種各樣的Y染色體,所以中國的姓氏總體上內(nèi)部父系血緣不一致。
另外,猶如Y染色體STR單倍型隨時間而演化出越來越多的類型一樣,姓氏在傳承過程中經(jīng)歷的時間越長,其受到的社會干擾越多,顯示出的差異也越大。在中國,姓氏有近5 000年的歷史,來源復(fù)雜且存在避禍改姓、避諱改姓、過繼改姓、皇帝賜姓與貶姓、少數(shù)民族用漢姓等等問題。舉個簡單的例子,中國的100個大姓中有53個據(jù)稱改自于姬姓。如此,研究中國的姓氏難度極大,但是中國又有編修家譜的傳統(tǒng),Y染色體的基因家譜研究就對厘清這紛繁復(fù)雜的血緣關(guān)系有很大幫助。
家譜是一種以表譜形式記載某一同宗共祖以血緣關(guān)系為主體的家族世系繁衍兼及其他方面情況的特殊圖書體裁。也就是說,入譜者必須是同宗共祖,即使同姓,若不同祖,也不能修入一部家譜之中。在中國的廣大農(nóng)村,人們一直有著同姓聚居的習(xí)俗,加上婚姻半徑較小,由家譜確定的某一地域內(nèi)同姓人群,可以認(rèn)為是有相同或相近Y染色體的父系隔離群體,這也就為分子人類學(xué)分析Y染色體DNA多樣性提供了極好的研究模型。
然而,某些家譜里有假托、借抄的內(nèi)容,因此對于家譜資料的使用必須審慎。但是,在Y染色體檢驗(yàn)這種無可辯駁的科學(xué)證據(jù)面前,任何家譜都可以得到檢驗(yàn)和修正。姓氏、家譜和Y染色體的關(guān)聯(lián)研究必然成為社會大眾編制家譜的新利器,成為研究中國人起源與演變的重要方式,開創(chuàng)歷史人類學(xué)研究的新篇章。
[致謝:本研究得到上海市青年科技啟明星計劃、國家自然科學(xué)基金委優(yōu)秀青年基金支持。]