郝振凱 湯新明 張媛媛 謝福杰 陳君敏 索靜霞 索 勛 劉賢勇*
(1.中國農業大學 動物醫學院/獸醫公共衛生安全全國重點實驗室/ 農業農村部動物流行病學重點實驗室,北京 100193; 2.中國農業科學院 北京畜牧獸醫研究所,北京 100193; 3.中國農業大學 生物學院, 北京 100193)
柔嫩艾美耳球蟲T-DNA整合位點即轉基因球蟲基因組染色體中轉染載體基因插入的位置,目前球蟲轉基因操作主要以限制性內切酶介導的整合(Restriction enzyme-mediated integration, REMI)方法為主,該方法將外源基因片段隨機插入到球蟲基因組染色體上,可將柔嫩艾美耳球蟲轉染效率提高100倍以上[1]。但基于REMI方法獲得的轉基因球蟲其外源基因片段在球蟲基因上會隨機整合,這使得后期深入開展轉基因球蟲表型相關研究時必須鑒定T-DNA的整合位點,以排除外源基因插入位點導致的轉基因球蟲表型的差異。目前常用于獲取球蟲轉基因整合位點信息的方法主要是基于轉染載體序列的染色體步移技術(Genome-walking)和質粒拯救(Plasmid rescue)等[2-3],雖然這些方法已經廣泛用于插入位點的鑒定和側翼序列的獲取,但這些方法除了操作步驟繁瑣、耗時較長等缺點外,還存在不確定、成功率低等問題。因此,建立一種適用于轉基因球蟲的、高效、簡單的T-DNA整合位點的方法就尤為重要。
隨著高通量測序技術的不斷發展,全基因組重測序技術日漸成熟,測序成本的大幅度下降,測序周期的縮短以及測序數據質量的大幅度提高,使得重測序技術的應用越來越廣泛。Siddique等[4]利用二代測序成功地鑒定了轉基因玉米的T-DNA插入位點信息,徐紀明等[5]采用二代測序的方法成功地鑒定了3個樣品的4個外源基因整個位點側翼序列信息,因此,基于二代測序鑒定T-DNA插入位點的方法已被證明了其高效性和特異性。近期柔嫩艾美耳球蟲染色體級別的精細基因組的發表[6],使得利用二代測序技術鑒定轉基因柔嫩艾美耳球蟲的外源基因整合位點成為可能。為了探討利用全基因組重測序技術是否能適用于轉基因球蟲外源基因的整合位點進行鑒定分析,本研究對實驗室構建的一個轉基因柔嫩艾美耳球蟲蟲株EtM2e進行了重測序分析,成功地鑒定了EtM2e蟲株T-DNA的插入位點信息。基于二代測序鑒定轉基因球蟲T-DNA出入位點方法的建立,極大地提高了插入位點側翼序列分析的準確性和鑒定地成功率,為球蟲外源基因整合位點的鑒定提供借鑒。
轉基因柔嫩艾美耳球蟲EtM2e表達了H5N1亞型禽流感病毒M2蛋白胞外區段結構域(M2e),是利用REMI隨機插入基因組構建的穩定表達外源蛋白的蟲株[7]。轉染載體如下圖1所示,轉基因球蟲后代經單孢子囊分離獲得單克隆群體為EtM2e蟲株,經過多次傳代培養該蟲株卵囊發光率為95%以上,保存于本實驗室。

Et.His4,柔嫩艾美耳球蟲組蛋白4的5′調控區序列;M2e,H5N1亞型禽流感病毒M2蛋白胞外區段結構域;EYFP,增強型黃色熒光蛋白序列;Et.Actin,柔嫩艾美耳球蟲肌動蛋白3′調控區序列;T-Vector Skeleton,T載體骨架包括K+抗性序列和T載體復制相關序列;圖片標尺為50 μm,嵌套圖標尺為5 μm。 Et.His4, sequence of the 5′ regulatory region of E. tenella histone 4; M2e, structural domain of the extracellular segment of the M2 protein of H5N1 subtype avian influenza virus; EYFP, enhanced yellow fluorescent protein sequence; Et.Actin, sequence of the 3′ regulatory region of E. tenella actin; T-Vector Skeleton, T vector backbone including K+ resistance sequences and T vector replication-related sequences; Scale bar, 50 μm and 5 μm (in embedded images)
取4×105EtM2e孢子化卵囊經口接種14日齡的AA無球蟲肉雞。接種后120 h剖檢盲腸,利用0.5%牛磺脫氧膽酸鹽溶液和0.25%胰酶消化盲腸黏膜刮取物,離心后收取裂殖子。
利用CTAB法提取裂殖子的基因組DNA。取65 ℃預熱CTAB提取液和蛋白酶K重懸裂殖子,顛倒混勻,60 ℃孵育2 h;37 ℃加入RNase,孵育30 min;加入等體積的酚:氯仿:異戊醇(25∶24∶1),輕柔混勻,12 000 r/min室溫離心10 min,轉移上清后加入等體積的氯仿:異戊醇(24∶1),顛倒混勻,12 000 r/min室溫離心5 min;取上清,加入1~2倍體積的在-20 ℃預冷的異丙醇,輕柔混勻,-20 ℃靜置30 min,12 000 r/min離心15 min;沉淀用75%乙醇和0.2 mol/L 醋酸鈉洗滌,12 000 r/min室溫離心10 min,重復1次;加入適量的水溶解沉淀,測定濃度,保存于-20 ℃備用。
使用0.8%的瓊脂糖凝膠電泳檢測DNA的純度和完整性,并用Qubit4.0測定DNA濃度。根據轉基因載體中M2e和EYFP序列設計引物鑒定轉染載體,M2e-F: CGCCTACCAGAAACGAATG; EYFP-R: GTTCACCTTGATGCCGTTC,引物由北京瑞博興科生物技術有限公司合成。
樣品基因組DNA檢測合格后,用機械打斷的方法(超聲波)將DNA片段化,然后對片段化的DNA進行片段純化、末端修復、3′端加A、連接測序接頭,再用瓊脂糖凝膠電泳進行片段大小選擇,進行PCR擴增形成測序文庫。建好的文庫先進行文庫質檢,質檢合格的文庫用Illumina NovaSeq平臺進行雙端測序,測序讀長150 bp。為保證后續分析的準確,測序深度100×,得到至少6G的下機數據,并保證數據質量標準Q20>90%,全基因組重測序委托上海派森諾生物科技有限公司完成。
利用Fastp過濾下機數據(Raw data)[8]。過濾指標包括:1)去除接頭序列,2)設置低質量值為20(Q20),reads序列中低質量堿基含量大于30%則過濾掉,3)去除長度小于50的reads。
利用Bowtie2軟件將質控后的測序數據與柔嫩艾美耳球蟲參考基因組比對(https:∥www.ncbi.nlm.nih.gov/assembly/GCA_905310635.1)[9],根據覆蓋深度和覆蓋度評估二代測序的隨機性;而后將測序數據與轉基因載體序列進行比對分析,去除未比到T-DNA的reads,獲得嵌合體reads(reads的一端比對到T-DNA上,另一端比對到柔嫩參考基因組上的reads)。根據嵌合體reads的序列,在ToxoDB上進行序列比對,得到該T-DNA在基因組上的具體位置,即為可能的插入位點。
利用mosdepth軟件分析載體序列與球蟲同源區段即5′調控區和3′調控區序列[10],以及載體特有序列的測序深度并以此估計載體拷貝數。
根據數據分析得到的T-DNA插入位點的基因組序列信息,以及測序的轉基因載體序列信息,使用Primer 3 PLUS設計軟件,使引物一端在參考基因組上,另一端在T-DNA上。5′端驗證引物,F1: ATGCCATTTCTTTTGCTGCT, R1: CATTCGTTTCTGGTAGGCG; 3′端驗證引物,F2: ATGTTACCTTTGTCACCGTCAGT,R2: GAGTAGCAGCTCTTCTTTGCAGT。對EtM2e基因組DNA進行PCR擴增驗證,確認T-DNA的插入位點。引物由北京瑞博興科生物技術有限公司合成。
瓊脂糖凝膠電泳結果顯示,CTAB法提取的球蟲裂殖子基因組DNA結構較為完整,未發生降解,總體符合重測序要求(圖2);以提取的DNA為模板,通過轉染載體鑒定引物PCR擴增條帶大小為542 bp(圖2),經Sanger測序驗證擴增序列與轉染載體序列一致。

(a)CTAB法提取基因組的凝膠電泳,M,DNA標準DL 15 000;(b)M2e序列的PCR擴增,M,DNA標準DL 2 000 Plus。 (b) DNA integrity test by CTAB. M, DL 15 000 DNA marker; (b) PCR amplification of M2e, M, DL 2 000 Plus DNA marker.
采用Illumina測序平臺雙端2×150 bp測序,下機數據共7.5 Gb,Q20為94.7%,Q30為87.6%;經Fastp過濾后,得到數據7.2 Gb,Q20為96.1%,Q30為89.2%,得到比對reads數為23 992 361 ds,平均測序深度為80×,reads全基因覆蓋結果如下圖3所示,可以看到在整個染色體上分布較為均勻,測序的隨機性比較好,因此該數據可以進行后續分析。

HG994961.1~HG994975.1,柔嫩艾美耳球蟲細胞核基因組染色體編號;HG994976.1,線粒體基因組編號;HG994977.1,頂質體基因組編號。 HG994961.1-HG994975.1, E. tenella nuclear genome chromosome number; HG994976.1, mitochondrial genome number; HG994977.1, apicoplast genome number.
使用Bowtie2軟件對質控后的數據比對至T-DNA載體序列得到比對reads數為3 106和3 036,平均測序深度為140×,通過嵌合體reads序列分析得到1個候選T-DNA插入位點(圖4),位于HG994969.1: 2 704 213~2 705 255處。使用mosdepth軟件分析載體各個元件的平均測序深度(圖5),結果顯示,T載體骨架特有序列—卡那抗性基因的平均測序深度為67×,T-DNA特有序列—EYFP基因的平均測序深度為85×,而T-DNA與球蟲同源序列His4基因的5′調控區序列的平均測序深度為154×,Actin基因的3′調控區序列的平均測序深度為164×,這表明T-DNA中與載體同源序列的測序深度大約是載體特有序列的2倍,進一步說明了該載體是以單拷貝的形式整合到球蟲基因組上。

大寫字母為載體序列(綠色),小寫字母為插入位點序列(灰色)。 (a) 3′端嵌合體reads序列;(b)5′端嵌合體reads序列。 Upper case letters are vector sequences (green), lower case letters are insertion site sequences (grey). (a) Sequences of 3′ chimeric reads; (b) Sequences of 5′ chimeric reads.

圖5 轉染載體各元件測序深度
為確認轉基因蟲株的T-DNA插入位點,分別設計引物分別對載體兩端序列進行驗證,凝膠電泳結果顯示,以轉基因蟲株DNA為模板,通過兩對引物均能擴增出目標大小的條帶,5′端擴增條帶1 714 bp;3′端擴增條帶975 bp,而野生蟲株DNA沒有擴增條帶(圖6),而后利用Sanger測序也驗證了PCR擴增序列與目標序列的一致性。

M, DNA標準DL 2 000 Plus;+,M2e蟲株DNA;-,野生蟲株DNA。 M, DL 2 000 Plus DNA marker; +, DNA of M2e strain; -, DNA of wild type strain.
本研究利用二代測序技術分析并鑒定了EtM2e蟲株的T-DNA插入基因組HG994969.1: 2 704 213~2 705 255,同時通過對T-DNA測序深度分析發現該載體是以單拷貝的形式插入基因組。
T-DNA插入位點的鑒定在球蟲轉基因研究方面有著非常重要的意義。目前雞球蟲轉基因操作主要以基于限制性內切酶介導的整合方法實現將外源載體基因片段插入基因組,這種基因整合方法的局限性首先會導致T-DNA的隨機整合,這也將進一步造成轉基因蟲株群體中個體球蟲表達量存在顯著差異以及由于整合位點的不穩定導致T-DNA的丟失;其次,由于限制性內切酶對基因組切割活性的限制,導致存在未整合到基因組的游離型T-DNA,這類T-DNA會嚴重影響后續轉基因球蟲的篩選。
當前獲取球蟲T-DNA插入位點的常用方法是Genome-walking[3],該方法是基于熱不對稱PCR,利用載體的特異性引物在高溫時的特異性擴增以及隨機引物的低溫擴增,經過連續3輪擴增獲取載體側翼未知序列。但球蟲轉染載體的兩端通常是球蟲基因的啟動子區和polyA尾區,這使得在實際操作中通常會有球蟲基因的干擾;同時由于球蟲的傳代過程中是以群體形式存在,且球蟲內生性發育階段較為復雜,使得載體序列可能存在被蟲體修復而導致部分缺失的可能性,因此使用該方法時,大多數轉基因蟲株并不能得到理想的結果。質粒拯救也是一種可用于獲取T-DNA插入位點側翼序列的方法,該方法利用T-DNA上不存在的限制性內切酶切割基因組,得到DNA片段中包括兩端帶有基因組DNA的轉染載體,再通過自身環化獲得環形DNA,轉化大腸桿菌得到帶有基因組片段的轉染質粒[1]。這種方法的局限性在于轉染載體中必須含有T載體的骨架部分用于環化后質粒的復制和抗性基因的表達,這勢必會增加球蟲轉染載體的堿基序列長度,也會在一定程度上降低轉染載體整合到基因組上的效率;同時,基因組提取的完整性、質粒環化效率等多種因素制該方法的成功率,因此在轉基因球蟲研究中很少采用質粒拯救的方法獲取T-DNA側翼序列。這些問題在一定程度上制約了基于基因過表達技術的球蟲功能基因研究以及球蟲活載體疫苗研發。因此,鑒定T-DNA是否整合到基因組以及整合位點信息對開展轉基因球蟲后續表型研究尤為重要。
近期,馬雪萌等[11]建立了一種基于高通量測序和交錯式熱不對稱PCR(TAIL-PCR)相結合的鑒定T-DNA插入位點的方法,該方法是對一輪TAIL-PCR產物進行高通量測序分析,成功鑒定了4個轉基因株系的T-DNA整合位點,這種方法也可以嘗試應用在轉基因球蟲外源基因整合位點的鑒定。本研究中以T-DNA序列為模板利用Bowtie2 --local模式進行比對,該模式下對reads進行局部比對使得reads兩端不匹配模板的序列信息得以保留,從而便于利用嵌合體reads獲取載體的整合位點側翼序列,分析過程不需要使用全基因組序列信息分析插入位點,減少了分析比對的工作量,縮短了分析流程。本研究以T-DNA與宿主同源序列的測序深度和載體特有序列的測序深度估計T-DNA的拷貝數,理想狀態下T-DNA為單拷貝時,載體與球蟲同源序列的測序深度為載體特有序列測序深度的2倍,但實際結果表明,這個比例可能存在一定范圍的浮動,同時載體ORI區段測序深度異常高,分析發現該區段與球蟲宿主存在一定的同源性引起的。因此,使用這種估計拷貝數方法的前提是確保載體特有序列與球蟲基因組沒有同源區段。
目前基于CRISPR/Cas9的定點整合技術成為主流的實現外源基因表達的轉基因方法,與隨機整合相比定點整合轉染具有整合位點專一以及T-DNA拷貝數明確等優勢[12]。Zambrowicz等[13]發現一個被命名為 ROSAβgeo26 的隨機轉基因小鼠品系在所有組織中均能檢測到高水平的β半乳糖苷酶表達,經過鑒定發現外源基因整合在了第6號染色體,Rosa26已被廣泛用于基因安全敲入并能保證轉入基因的正常穩定表達,基因組安全港(Genomic safe harbor, GSH)的概念也由此普及。此后陸續發現了AAVS1、H11、Col1a1和TIGRE等位點作為定點整合的基因組安全港[14-17]。球蟲活載體疫苗具有廣闊的應用前景[18],為實現外源優勢抗原持續表達,需確保轉染載體在球蟲基因組上穩定存在,為此篩選球蟲基因組的基因安全港成為球蟲活載體疫苗研發的先決條件之一。本研究發現插入位點位于ETH2_0942600和ETH2_0942700的3′UTR區域內,沒有影響編碼的完整性,因此該整合位點可以作為柔嫩艾美耳球蟲轉基因定向插入的靶點,具有作為球蟲基因組安全港的潛力。
本研究提供了一種簡單、高效的基于二代測序獲取球蟲T-DNA整合位點的方法,并鑒定分析了EtM2e蟲株T-DNA的插入位點,該位點位于基因間區,可作為一個潛在的柔嫩艾美耳球蟲基因安全港為后續轉基因研究提供一個定點整合位點利用該方法可以快速鑒定T-DNA整合位點和估計拷貝數,為球蟲外源基因整合位點的鑒定提供借鑒。