尚艷姣 周小軍 袁 征 邱業峰
(軍事科學院軍事醫學研究院實驗動物中心,北京 100071)
在生物醫學研究中,實驗動物作為不可缺少的實驗材料,在疾病機制研究、藥物篩選和毒理實驗中發揮著重要作用。近交系小鼠具有同基因性、長期遺傳穩定性、均一性、背景資料和數據較為完善等特點,成為現代生物醫學研究中應用最廣泛的實驗動物之一。然而,小鼠的體質量直接影響實驗結果的準確性和可靠性。遺傳質量的監測對于確保小鼠品系純度和均一性至關重要,有助于保持已建立的品系特征。目前,小鼠遺傳質量控制標準為GB/T 14927.1—2008《實驗動物近交系小鼠、大鼠生化標記檢測法》和GB/T 14927.2—2008《實驗動物近交系小鼠、大鼠免疫標記檢測法》,標準中重點推薦的是生化標記檢測法,但生化標記法和免疫標記法檢測精確度和靈敏度都比較低,且不能有效地檢測出各個亞系之間的遺傳差異。單核苷酸多態性(single nucleotide polymorphism,SNP)是基因組中最常見的遺傳變異類型,SNP遺傳檢測是目前近交系小鼠遺傳檢測中研究較多的遺傳標記,檢測準確性較高,可實現自動化的大規模檢測。SNP檢測是在DNA水平進行的檢測,依賴于完整的基因組信息注釋。本文主要概述了小鼠基因組的發展,并就SNP檢測技術在近交系小鼠遺傳質量監測中的研究現狀以及應用進行闡述。
2002年小鼠基因組測序聯盟(MGSC)報告了C57BL/6J小鼠基因組測序草案,小鼠基因組的大小約為2.5 Gb,比人類基因組約小14%[1]。隨著測序技術的發展,糾正了許多漏洞。小鼠基因組大約有38%的重復序列,27 000個基因和假基因。小鼠的基因組和人類的基因組序列非常相似,幾乎人類所有基因都可以在小鼠身上找到同源基因。2017年9月,基因組參考聯盟(Genome Reference Consortium,GRC)提交了GRCm38.p6版本,該版本基因組大小約為3.2 Gb,組裝水平為染色體水平,由885個contigs組裝成336個scaffolds。根據這些序列,已經構建了21條染色體。Ensembl數據庫現收錄的小鼠SNP有8 400萬個,結構變異有791 000個。
近交系小鼠C57BL/6(B6)是生物醫學研究中最常見和最具特征的實驗品系,2002年,MGSC以C57BL/6J為目標,進行了小鼠全基因組測序,并首次繪制了小鼠的序列草圖(MGSCv3),其測序質量較高,堿基錯誤率小于0.1‰。然而,由于測序方案(全基因組鳥槍法)的局限性及高重復區域等基因組的組成問題[2],組裝的基因組存在較多缺口。2005年,MGSC發布的NCBI build 34版本的組裝長度為2.6 Gb,其中約1.9 Gb(73%)堿基的測序錯誤率小于0.01‰,完成了4條染色體(chr 2、4、11和X)完整組裝[3]。2009年,利用兩個細菌人工克隆(BAC)庫的Sanger測序數據,C57BL/6基因組草圖被更新為一個完整的、基于克隆的組裝[4]。自2010年以來,GRC一直積極維護小鼠參考基因組,從2012年的GRCm38開始,先后發布了6個補丁,但GRCm38在染色體序列中仍然存在523個缺口,以及局部序列錯誤組裝等問題。2019年,Jackson實驗室利用高覆蓋率、長讀、短讀和光學作圖技術相結合的方法,對C57BL/6J“Eve”進行了從頭基因組組裝,經過“Eve”的測序,填補了23個缺口,發現了40個結構變異[5],更能代表目前使用的C57BL/6J小鼠的基因組。
小鼠基因組序列草案的發布,引發了科學家對小鼠近交系之間序列變異的全基因組研究。實驗室中常見的近交系是近一個世紀前遺傳研究機構的祖先衍生而來的。來自這個原始群體品系的近親繁殖產生了許多近交系,每一個品系都有相當多的變異和不同的表型特征,尋找近交系之間的序列變異對于研究近交系的遺傳分化和疾病表型都具有巨大的實用價值。由于SNP數量龐大,高通量的基因分型能降低成本,很多實驗動物公司都已采用SNP遺傳標記進行遺傳檢測[6-7],這也促進了小鼠品系間SNP信息的研究。有研究[8]通過比較10個常見的實驗小鼠品系,發現小鼠基因組2/3的區域存在低密度的SNP(0.5個/10 Kb),而高密度SNP(40個/10 Kb)則覆蓋了其余的1/3區域。有研究[9]對4個野生型和11個常見近交系小鼠的基因組進行了重測序,在12個常見近交系中存在339萬個SNP,其中絕大多數是首次發現。并且通過測序方法的比對研究,SNP的發現率為43%,作者估計常見近交系中總共有800萬個SNP。
有研究通過測序鑒定了277個C57BL/6NJ特異性的SNP,并篩選了100個有用的SNP,可分析11個C57BL/6N衍生的亞系間的遺傳差異[10],有助于準確監測C57BL/6N衍生背景的小鼠品系。有研究分析了17個小鼠品系的DNA序列,共發現5 670萬個SNP位點,但不同品系之間的SNP數量差異很大,C57BL/6NJ中只有幾千個SNP位點,而SPRET/EiJ品系的卻有3 540萬[11]。SNP數量主要與小鼠品系與參考基因組C57BL/6J的遺傳距離有關。
對13個免疫反應、白血病、年齡相關性聽力損失和類風濕性關節炎的模型相關的近交系進行了深度測序,并對品系內部和品系間的分子變異進行了分類[12]。與C57BL/6J參考基因組(GRCm38)相比,鑒定出約2 740萬個特異的SNP和500萬個小的插入缺失(indels)。在實驗室近交系小鼠基因組中發現的變異量已增加到7 100萬個SNP和1 200萬個indels。用變異功能預測軟件注釋變異的功能,發現大多數SNP存在于基因間(50.57%)和內含子(18.08%)區域。此外,在蛋白質編碼基因的上游和下游(分別為3.93%和4.05%),以及3′(0.20%~0.24%)和5′(0.02%~0.04%)非翻譯區內也有大量變異。雖然大多數SNP位于非編碼區,但也有大量變異位于蛋白質編碼區。編碼區內的SNP,如剪接變體和非同義SNP等都會影響基因的功能。SNP與遺傳易感性相關,研究品系特異性的SNP也可以揭示疾病易感性的遺傳基礎。如rs49995481是個終止突變,在BUB/BnJ、MOLF/EiJ和ST/bJ品系中會使預測的蛋白質變短,導致早期嚴重視網膜病變。
有研究[19]從常染色體和X染色體篩選了1 638個SNP,利用這些SNP標記重建了102個近交系和野生衍生近交系之間的系統發育關系,在不同品系廣泛分布的古老SNP可有助于系統發育樹的構建,并且作者發現在小鼠近親繁殖過程中存在殘余雜合度。
有研究[13]報告了16個廣泛使用的實驗室小鼠品系的全基因組草圖,揭示了12個常見近交系的特異性單體型變異。在目前的小鼠參考基因組中鑒定并描述了2 567個具有序列多樣性的區域。這些區域富含與病原體防御和免疫有關的基因,并具有轉座因子的富集和近期轉座事件的特征。在這些基因座上通常可以觀察到小鼠品系特有的SNP和基因的組合,可明顯反映不同品系的表型。此外,通過研究C57BL/6J和C57BL/6NJ中的雜合子SNP,發現絕大多數SNP與參考基因組中的缺口、組裝有問題的區域或者殘余雜合度有關[13]。由此可見,參考基因組的組裝完整度直接影響SNP注釋信息的準確性,從而影響遺傳標記的特異性。
SNP適于快速、高通量、自動化分析檢測,自SNP被用于小鼠遺傳檢測以來,研究者對檢測SNP的方法進行了不斷的探索,國內外存在的常見檢測技術有質譜、多重PCR靶向二代測序、基因芯片、高溫連接酶檢測技術等。
基質輔助激光解吸電離飛行時間質譜(MALDI-TOF-MS)方法是根據核酸分子被電離后在真空管中的飛行時間來確定其相對分子質量大小,從而可檢測出SNP位點信息。該技術可在同一反應體系內對多個SNP位點進行多重檢測與分析,從而提高檢測的通量、效率與正確率。
多重PCR靶向二代測序技術是利用Illumina高通量測序技術對靶向SNP位點的PCR產物進行測序,從而實現對SNP的分型。該技術具有通量大、測序深度高、特異性強和分辨率高的優點[6]。
基因芯片是帶有DNA微陣列(micorarray)涂層的特殊玻璃片,在數平方厘米面積上可雜交數千或數萬個核酸探針,用芯片進行基因分型是監測實驗室種群遺傳質量的重要方法,也是目前最具有應用前景的檢測技術。
高溫連接酶檢測反應(LDR)是一種高通量、靈敏度高、低成本、易操作的SNP檢測方法。其原理是當高溫連接酶檢測到模板DNA與兩條探針DNA的接頭完全互補時,連接反應完成,如果存在堿基錯配,則連接反應不能進行。該特異性連接反應可反復循環,進而達到線性擴增的效果,從而對SNP進行分型。
目前研究的幾種檢測SNP的方法,各有優缺點,基因芯片或多重PCR靶向二代測序對于大量SNP檢測具有優勢,LDR技術適合檢測少量SNP,質譜技術則適用于檢測中等數量的SNP。基因芯片需要定制或者受制于芯片廠家的位點組合,其他方法則需要設計引物,且驗證引物的擴增特異性。在應用時可根據需求,選擇合適的檢測方法。
SNP用于近交系小鼠遺傳質量檢測研究后,國內外很多學者對SNP檢測的有效性進行了評估,也致力于篩選出一套適用性和精確度比較高的SNP組合。
選擇位于19條常染色體和X染色體上的SNP標記[18],篩選位點的標準有2個,即至少在5個品系中具有多態性、至少在2個品系中可檢測到小頻率的等位基因。為了盡量覆蓋小鼠基因組,對于SNP缺乏的區域,這些標準被適當放寬。所取的235個SNP位點的多態信息含量(PIC,代表多態性)在0.043~0.5,即使親緣關系較近的品系,也具有顯著差異數量的SNP,如129T2/SvEmsJ和129X1/SvJ,C57BL/6J和C57BL/10J,以及CBA/J和CBA/CaJ,SNP差異數分別為11、12和29,作者推測這些差異的SNP可能代表不同的單體型。作者進而從中選取了PIC在0.32~0.5,具有高度多態性的28個位點,對常用的48種近交系和近300種遺傳修飾小鼠品系進行了基因分型,表明該位點組合可實現快速、可靠、經濟高效的遺傳質量檢測。有實驗[19]篩選的含有1 638個標記的位點組合,平均PIC為0.39,多態性較高,在17個常用近交系和5個野生衍生品系間,兩兩進行位點差異比較,平均差異位點數為616個。該位點組合不但可以檢測遺傳質量,還可重述品系的進化史。
選取分布在19條常染色體和2條性染色體上的45個SNP位點,將其分成4組,每組10~12個位點,對國內10個常見近交系(C57BL/6、FVB、C3H/He、BALB/c、DBA/2、DBA/1、AKR、CBA、SJL/J、NOD)進行了分析。10個品系間兩兩進行位點差異比較:在4組SNP組合中,平均差異個數為5~9個,前3組(11~12個SNP位點)均可以鑒別常見近交系小鼠[20]。
對這10個常見近交系進行了分析,為了避免連鎖的可能性和提高分辨率,篩選了在19條染色體和X染色體上分布相對均勻,且品系間差異比較大的112個SNP位點,每條染色體所含SNP最少為3個,最多為8個。品系間兩兩比較,最大SNP差異數為73個,最小差異數為3個,差異位點平均數為53個,表明所選SNP位點對常見近交系小鼠品系分辨率較高[6]。
從國內外文獻中挑選了分布于小鼠全部染色體上的95個SNP位點,其中50個SNP 位于基因內,較大范圍覆蓋了小鼠基因組,采用質譜技術對29個品系共36個不同群體來源的近交系小鼠進行了遺傳檢測[14]。被檢品系為國內最廣泛應用的近交系小鼠品系和部分基因修飾近交系小鼠,大部分位點為純合位點,品系內位點單態率最高為98.95%,在群體間 95個位點都呈現了多態性,群體兩兩比較顯示,最大差異位點數為58個,最小差異位點數只有1個,主要分布于同一品系不同群體來源的動物間及基因修飾動物和背景動物間。
亞系水平的遺傳檢測也至關重要,有研究[16]采用Illumina含有1 449個SNP的小鼠中等密度連鎖比對芯片檢測了10個C57BL/6亞系的基因型差異,這些亞系包括C57BL/6JArc、Jackson實驗室的C57BL/6J,Crl的C57BL/6J、C57BL 6/JRccHsd、C57BL/6JOlaHsd、C57BL/6JBomTac、B6(Cg)-Tyrc-2j/J、C57BL/6NCrl、C57BL/6NHsd和C57BL/6NTac。結果發現:12個SNP有助于區分所選的C57BL/6亞系。但遺憾的是該芯片所含位點不能有效區分C57BL/6N亞系,結果將有助于對不同C57BL/6近交系產生的不同轉基因和敲除小鼠選取合適的位點來進行遺傳監測。
開發第三代小鼠通用基因分型芯片GigaMUGA,包括141 090個SNP探針和2 006個拷貝數變異探針。GigaMUGA的大部分位點可用于雜交和多樣性遠緣繁殖群體的遺傳定位,以及實驗室近交系小鼠的亞系水平鑒定。該芯片在500個實驗室近交系、重組近交系、遠緣種和野生小鼠中得到了驗證[17]。
SNP是基因組中最普遍的遺傳變異,具有遺傳穩定性強、數量多、分布廣等特點。SNP通常是雙等位基因,容易檢測分析,被廣泛應用于群體遺傳學(如生物的起源、進化及遷移等方面)、疾病相關基因定位研究中,并在疾病的早期診斷、藥物基因組學和生物醫學研究中發揮重要的作用。
SNP檢測技術,相較于生化法和免疫學法,能夠鑒別那些是親緣關系較近的品系,甚至可達到亞系水平。由于不需要處死動物,可直接指導種群繁殖,保證種群內的基因純度。SNP檢測法可實現高通量、低成本、高精度及自動化檢測,且檢測數據再現性強。SNP檢測與分析技術眾多,在原理上差別很大,適用范圍也不盡相同,可實現靈活檢測[21-23]。SNP標記不但可以用于近交系小鼠遺傳質量監測,還有助于了解品系進化[19]、識別遺傳污染源[24]、區分來自于不同近交系、雜交或野生小鼠的細胞系[25]。
然而在運用SNP標記檢測小鼠遺傳質量時,還存在幾個問題。首先,個別SNP位點基因型與數據庫登記信息不符。可能是由于各地的小鼠生存條件不同而發生了突變,也有可能是參考基因組注釋不準確,影響參考基因組SNP注釋的因素,包括局部序列錯誤組裝、缺失和非基因序列、測序錯誤和基因組中的缺口等。Jackson實驗室對91個小鼠品系(包括C57BL/6J)的外顯子分析發現,很大一部分變異與參考基因組未報道的錯誤組裝、缺口或者是同源基因拷貝數有關[26]。其次,不同的研究利用SNP標記檢測近交系小鼠品系時,所選SNP位點及其數量差別較大,品系間的SNP差異數相差較大,缺少品系特異性位點以及合適的位點組合。Jackson實驗室利用實驗室小鼠的獨特歷史起源,結合高質量的全基因組序列,研究了29種常見近交系小鼠的特異突變的根本原因。作者認為小鼠品系特異性突變可能是由環境差異、繁殖時親代年齡的品系變異或品系間分離的遺傳因素引起的[27]。此外,數據庫中也缺少部分品系的SNP位點信息,群體內存在殘余雜合度等問題,給應用SNP進行遺傳檢測增加了難度。
因此,未來需要生物學家、遺傳學家及生物信息學家運用系統生物學、遺傳學、生物信息學以及先進的計算系統,聯合挖掘和分析不同品系小鼠的基因組和功能基因組數據,構建完整、準確的品系特異性SNP標記數據庫,形成標準化的近交系小鼠遺傳檢測的SNP位點組合。對于親緣關系較近的品系,可構建單體型圖譜,通過檢測單體型,對小鼠品系進行遺傳分析,也可以結合微衛星等其他的檢測方法,互相補充,以提高小鼠遺傳質量檢測的準確性。