劉彥均,陳志勝
佛山科學技術學院生命科學與工程學院,廣東 佛山 528231
CRISPR-Cas系統(clustered regularly interspaced short palindromic repeats associated Cas system,CRISPR-Cas)是微生物體內的一種適應性免疫系統。它能在crRNA指引下將Cas核酸酶與靶序列相結合并將其進行剪切。當病毒入侵時,細菌細胞能夠將外來遺傳物質的片段捕捉并整合到細胞自身基因組中的CRISPR序列中。當病毒再次入侵時,CRISPR序列轉錄生成的CRISPR RNA(crRNA)能夠與Cas核酸酶相結合并將其引導到靶序列上發揮酶切活性,從而起到監控病毒入侵的作用。當這種外源核酸片段再度出現時,Cas核酸酶能夠切斷這些遺傳片段,從而為細菌細胞提供免疫保護作用。
CRISPR-Cas13系統是以Cas13酶作為Cas核酸酶的CRISPR子系統,僅靶向RNA而不靶向DNA。自2016年6月報道發現一種特殊的RNA切割蛋白[1]以來,CRISPR-Cas13系統就備受全球研究人員的關注和重視,這不僅是因為它是一種只靶向RNA的新型CRISPR系統,更重要的是它的靶向效率較高以及酶切能力優異。傳統的CRISPR基因編輯方法,如Cas9等,雖然對DNA有著很強的特異性,對靶位點有著很高的靶向精準度,但對RNA的特異性卻比較低,而且會出現一定的脫靶效應,甚至會對細胞基因組造成一定的損傷,還會開啟真核細胞的p53途徑從而引發細胞凋亡,因此在應用方面具有一定的安全隱患。CRISPR-Cas13系統通過調節RNA從而改變目的基因的表達效果,避免了直接操作基因組而產生的損傷。因此它既具有傳統CRISPR基因編輯方法的大多數優點,而且在時間上、空間上和效率上比其他傳統的RNA編輯方法(如:RNAi等)更加安全可控。
目前已知的5種CRISPR/Cas系統可以根據發揮作用的構成核酸蛋白酶的亞基的特點分為兩大類:一類系統(Class 1)和二類系統(Class 2)。
一類系統的核酸蛋白酶是一種多酶復合物,又稱多酶體系,它又可以按照CRISPR核酸酶的種類分為一類I型系統(Class 1 type I system)和一類III型系統(Class 1 type III system)。I型系統依賴多種Cas蛋白集合形成的級聯復合物作為核酸酶發揮作用,作用于DNA。III型系統依賴Csm因子(Type III-A/D)或者Cmr因子(Type III-B/C)的非級聯復合物作為核酸酶發揮作用,其中Type III-A/B作用于RNA,Type III-C/D作用于DNA。
二類系統的核酸蛋白酶是一種依賴單一效應因子發揮作用的核酸酶,它又可以按照CRISPR核酸酶的種類分為二類II型系統(Class 2 type II system)和二類V型系統(Class 2 type V system)以及二類VI型系統(Class 2 type VI system)。II型系統又稱為CRISPR/Cas9系統,依賴于單一效應蛋白質Cas9,含有RuvC和HNH兩個核酸酶結構域,主要作用于DNA。V型系統利用含有單個RuvC結構域的效應子作為核酸蛋白酶,如Cpf1、C2c1和C2c3,主要作用于DNA。VI系統依賴于含有兩個HEPN(higher eukaryotes and prokaryites nucleotide-binding domains,HEPN)結構域的單效應子作為核酸蛋白酶,如Cas13a,又稱作C2c2(Type VI-A)以及Cas13b(Type VI-B)、Cas13d(Type VI-D),其核酸酶由單一的肽鏈折疊而成,對RNA很敏感而對DNA不敏感[1]。
CRISPR-Cas系統主要由兩個元件組成:CRISPR RNA(crRNA)和CRISPR相關核酸酶(Cas1、Cas2和Cas13)。
1.2.1CRISPR RNA(crRNA)crRNA上存在著2個區域:一個是位于5′端的31個堿基對組成的重復區域(repeat region),另一個是位于3′端的28個堿基對組成的引導區域(guide region)。重復區域的二級結構(圖1)是1個柄環結構,主要包含1個由5個堿基配對而成的莖、1個8~9個堿基的環和1個在莖內第14個堿基起的2 nt凸起以及柄環結構兩邊5′端和3′端的鄰近基序[2]。

圖1 Cas13a的crRNA平面結構示意圖[2]Fig.1 Schematic diagram of crRNA plane structure of Cas13a[2]
重復區域具有兩個重要的作用,一是由于在其5′端存在一個直接重復序列(direct repeat,DR)使其能在促進Cas13介導的靶RNA的剪切作用下保護自身不被核酸酶剪切降解;二是在其5′端和3′端分別有一段4 nt和5 nt的序列,它們可以使crRNA錨定在Cas13的NTD和Helical-1結構域上,在crRNA和Cas13緊密結合方面起到關鍵作用。引導區域的序列與靶RNA序列互補后可以形成1個28 bp的引導-靶RNA二聚體(guide-target RNA duplex),形似A-DNA螺旋。在這個二聚體中,還存在著一個對錯配十分敏感的種子區(seed region),位于crRNA的中央,大約在第9~15位核苷酸之間,當此處發生錯配時,Cas13不能剪切靶RNA,進而直接影響到Cas13的打靶效率[1,3-5]。
1.2.2CRISPR相關核酸酶(Cas13)與其他CRISPR II類系統的相關核酸酶的結構相一致,Cas13的整體結構是雙葉的,N-末端結構域(N-terminal domain,NTD)和Helical-1結構域構成crRNA識別葉(REC lobe),HEPN1、Helical-2、Helical-3和HEPN2結構域形成核酸酶葉(NUC lobe)。
在NTD和Helical-1結構域之間形成的帶正電荷的通道內(圖2),crRNA的5′端重復區域與REC葉結合,使得crRNA的引導區域序列被引導到NUC區內形成的空腔中。NUC葉包括兩個不同的結構域NUC1和NUC2,這兩個結構域的作用是將crRNA的引導區域“夾心”從而形成一個平面,以便于對與之相結合的ssRNA的靶序列進行酶切。NUC1葉包含HEPN1的N端部分(HEPN1-I)和大的α螺旋結構域Helical-2。NUC2葉包括HEPN1的C末端部分(HEPN1-II)、Helical-3和HEPN2結構域。其中,Cas13各亞型的酶切位點與NTD和Helical-3結構域的位置差異有關[2]。

圖2 crRNA的5′端柄環結合在NTD和Helical-1結構域形成的通道[3]Fig.2 The 5′ end handle ring of crRNA binds between the channels formed by the NTD and Helical-1 domains[3]
雖然Cas13缺乏與任何已知的DNA核酸酶同源的結構域(如:RuvC結構域等),但是其所含有的兩個特殊的HEPN1和HEPN2結構域,是其具有RNA酶切能力的重要原因。其中對靶RNA的剪切起主要作用的是一些高度保守的氨基酸殘基,分別為HEPN1結構域中的第597位精氨酸(Arg597)、第602位組氨酸(His602)、HEPN2結構域中的第1 278位精氨酸(Arg1278)和第1 283位的組氨酸(His1283)。酶切過程中,HEPN1和HEPN2結構域的保守部分會在相鄰的位置形成一個“X”形的三維空間形狀,這種R-X4-6-H基序將上述4個關鍵氨基酸殘基被定位到口袋表面,構成復合的對稱的活性口袋,對RNA酶切發揮關鍵作用[6](圖3)。
另外,保守性相對較弱的天冬酰胺殘基,也起著十分必要的作用,它們分別是HEPN1結構域中第598位的天冬酰胺(Asn598)以及HEPN2結構域中第1 279位的天冬酰胺(Asn1279)。如果缺乏其中任何一個,都會導致Cas13的酶切活性喪失[6]。
CRISPR/Cas13系統的靶向特異性除了由crRNA和靶RNA之間的堿基配對決定以外,還與一個位于ssRNA與crRNA相結合的部分鄰近位點以及Cas13-crRNA復合物酶切活性的激活反應相關。這個位點通常在靶ssRNA的3′末端,稱為前導區序列側翼位點[1](protospacer flanking site,PFS),其作用與Cas9系統中的PAM相類似。ssRNA在Cas13-crRNA復合物的活化反應中起到重要作用,因為Cas13a-crRNA復合物的活化需要通過與糖-磷酸鹽骨架的相互作用,使crRNA上引導部分的間隔區序列進入一個扭曲的U型彎,從而形成HEPN核酸酶激活構象。

圖3 Cas13的酶切位點結構——R-X4-6-H基序[3]Fig.3 The structure of enzymatic site of Cas13-R-X4-6-H motif[3]
以LbaCas13a為例,由于在與crRNA結合的過程中它的HEPN1-I的α2被扭曲,使R-X4-6-H基序的其中一個活性位點(H605)被掩埋在HEPN2環下,偏離了假定的活性位點,使其無法形成一個“X”形的三維空間結構,從而不具有催化活性。因此Cas13-crRNA復合物在與ssRNA結合之前保持無活性狀態。只有充當激活劑的ssRNA與Cas13-crRNA結合后誘發協同構象變化,才能激活Cas13-crRNA的酶切活性。而非配對ssRNA無法穩定地與Cas13-crRNA復合物相結合,從而導致Cas13對靶RNA的高度靶向特異性[2,6]。
CRISPR-Cas13系統的分子作用主要分為四個階段(以C2c2為例,以下統一將C2c2稱為Cas13a)(圖4)。第一階段,pre-crRNA的識別與結合階段。新轉錄的pre-crRNA通過crRNA的5′端柄環結構與Cas13a的REC葉識別并結合,形成pre-crRNA與Cas13a復合物的中間過渡態,并進入第二階段,誘發NUC區的Helical-1和HEPN2結構域之間保守殘基的構象發生變化,從而形成一個酸堿催化中心,催化酶切pre-crRNA形成成熟的crRNA。此時形成穩定態的crRNA-Cas13a復合物,處于無酶切活性的狀態。第三階段,酶切活性激活階段。靶ssRNA進入crRNA-Cas13a復合物內與crRNA發生堿基互補配對,誘發Cas13a發生協同構象變化,從而激活crRNA-Cas13a復合物的酶切活性。第四階段為酶切反應。在crRNA的引導下,Cas13a的HEPN結構域形成R-X4-6-H催化反應中心,催化靶ssRNA的酶切。有時細菌細胞中會出現非特異性酶切的情況,導致細胞中其他附屬單鏈RNA(ssRNA)的降解[1,4],引起一定的細胞毒性,但這種現象在哺乳動物細胞中并未出現,其原因目前尚未可知。例如:在人細胞系中,僅僅靶向crRNA指定的RNA,細胞中所有其他的RNA保持完整。

圖4 CRISPR-Cas13a系統的分子作用機制[4]Fig.4 Molecular interaction mechanism of CRISPR-Cas13a system[4]
CRISPR-Cas13系統除了VI-A亞型以外,目前研究得比較深入的還有VI-B和VI-D兩個亞型。它們雖然同屬于VI型系統,有著相似的結構和特點,但是又各有差異,以下將其分別與VI-A進行對比以便更清楚的闡述。
CRISPR-Cas13b系統有兩種酶,分別是VI-B1和VI-B2,它們之間的區別在于Cas13b轉座子上攜帶的附屬蛋白的基因型不同,VI-B1的附屬蛋白是Csx27而VI-B2的附屬蛋白是Csx28。VI-B型系統由3個元件組成(圖5):crRNA、CRISPR相關核酸酶Cas13b、附屬蛋白Csx27/Csx28[7]。與VI-A亞型系統相比,VI-B亞型系統主要有四點比較明顯的差異:①VI-B亞型系統屬于CRISPR II類系統中唯一缺乏Cas1和Cas2的VI型系統;②Cas13b的酶活性受到其轉座子上所攜帶的附屬蛋白Csx27/Csx28的影響。Csx27的表達會抑制Cas13b上HEPN結構域活躍的催化活力,而Csx28的表達則會增強Cas13b上HEPN結構域活躍的催化活力;③Cas13b的crRNA根據直接重復序列的長度存在長短兩種不同的變體。Cas13b的成熟crRNA由30 nt的引導區域和36 nt的重復區域組成,一共66 nt。其中66 nt的為短直接重復序列crRNA,118 nt的為長直接重復序列crRNA,形成的原因在于其36 nt的重復序列中有30~50個片段被中間重復序列打斷;④Cas13b靶向依賴分別在ssRNA與crRNA堿基互補配對結合部分的5′和3′端的雙向PFS(double-side PFS)。其中5′端的PFS一般為D(A/U/G),3′端的PFS一般為NAN或NNA。此外,Cas13b的酶活性要比Cas13a強,尤其是PspCas13b[8]。

圖5 VI-B系統示意圖[7]Fig.5 Schematic diagram of VI-B system[7]
CRISPR-Cas13d系統又稱CasRX,由三部分組成:crRNA、CRISPR相關核酸酶(Cas1、Cas2和Cas13d)、附屬蛋白WYL1。與VI-A亞型系統相比,VI-D亞型系統主要有四點比較明顯的差異(圖6):①CRISPR相關核酸酶Cas13d的分子量比Cas13a-c要小得多,一般在190~300個氨基酸左右。②Cas13d的附屬蛋白WYL1能正向誘導Cas13d的靶向和酶切活性。③Cas13d上有靶向需要的最小序列(minimal sequence)以及二級結構(H7H、RHH)。Cas13d靶向RNA的時候并不需要crRNA-ssRNA結合位點相鄰的基序或是位于間隔區的位點或者序列的協助。它是專門針對RNA的靶向因子,僅依靠Cas13d上的最小序列以及二級結構靶向RNA。④Cas13d必須依賴二價陽離子產生成熟的crRNA。這是因為小尺寸的Cas13d蛋白導致其缺乏部分像Cas13a中負責形成成熟crRNA的Helical結構域片段,因此與Cas13a不同,Cas13d的成熟crRNA需要通過另一種途徑形成,即必需通過二價陽離子來輔助形成成熟的crRNA。
Cas13d效應因子具有很強的靶向切割能力和RNase活性,并且相對較小的尺寸特別適合在體內傳遞,在藥物研發和基因治療方面具有很大的應用潛力[9]。

圖6 VI-D系統示意圖[9]Fig.6 Schematic diagram of VI-D system[9]
RNA干擾(RNA interference,RNAi)依靠雙鏈RNA(double strands RNA,dsRNA)促使mRNA降解,誘使細胞產生特定基因缺失的表型。其中,dsRNA能在Dicer酶(Ⅲ型內切酶)的作用下產生21~23 nt的siRNA,并與細胞內特異性的核酸酶結合后形成沉默復合體(RNA-inducing silence complex,RISC),這個RISC可以識別靶mRNA,并利用復合物中的RNase在靶mRNA與siRNA結合區域的中間將其切斷[10]。
4.1.1二者對細胞功能的影響 在哺乳動物細胞中,大于30 bp的dsRNA會引起干擾素效應和非特異性基因抑制,導致mRNA非特異性降解[10],而CRISPR/Cas13系統并不會引起非特異性基因抑制,這是因為Cas13酶并不是細胞原有的酶,而是通過載體轉染進入細胞并表達的,所以并不會影響到其他基因的正常表達。其次Cas13系統也不會引起級聯放大效應,因此也就不太容易擾亂細胞內正常的表達體系,而且更可控。此外,CRISPR/Cas13也并非來源于哺乳動物細胞,因此,它不太可能擾亂細胞內天然的轉錄后調控網絡。
4.1.2二者在脫靶反應方面的對比 RNAi的脫靶反應包括:非特異性酶切和特異性位點脫靶。dsRNA在Dicer酶的作用下產生的正義鏈和反義鏈siRNA中,應是反義鏈和RISC蛋白結合形成RISC效應物后,由反義鏈siRNA介導靶向結合并酶切目的序列。由于正義鏈siRNA和反義鏈siRNA有著相同的與RISC蛋白結合形成效應物的能力,所以由正義鏈siRNA介導的靶向會引起非特異性序列的酶切,從而造成非特異性的基因表達上調或下調。反義鏈siRNA介導的特異性位點脫靶現象主要與siRNA-3′UTR配對的過程有聯系,但具體是如何聯系的目前尚未可知[11]。
CRISPR的脫靶反應一般與靶序列和引導序列之間的識別作用相關[12]。以Cas9為例,與Cas酶結合后的引導序列會進入PAM識別階段,只有在能識別的情況下才能啟動R環(R-loop),促使引導序列與靶序列之間發生堿基互補配對,介導酶切反應[12]。而Cas13除了依賴3′末端的PFS識別外,還需要位于引導序列中間能與靶序列發生互補配對的種子區不發生錯配才能介導Cas13酶的酶切反應,這種雙重保險的特點使得Cas13的精準度比傳統的RNA編輯技術高。
此外,由于CRISPR的酶是外源性的,因此還可以對Cas酶作一些優化性的設計和改造,增強Cas酶對靶序列的親和力,從而提高Cas酶的靶向能力,使酶切反應更容易進行,而內源性的酶卻沒有這方面的特點。因此在可優化空間與可控性方面,CRISPR的Cas酶要更勝一籌。
CRISPR系統中的III型A類和B類系統也具有介導ssRNA酶切的能力,這是由于其多酶系統中的Csm6酶或Csx1酶都含有一個位于C端的HEPN結構域。其介導ssRNA酶切的反應需要兩分子的Csm6酶或者Csx1酶參與。這是因為只有當兩分子的Csm6酶或Csx1酶二聚化后才能形成一個完整的復合對稱的活性口袋結構,從而具有酶切RNA的能力[1,13-15]。這也就意味著在實際運用的過程中,Cas酶需要達到一個較高的表達水平才能出現對ssRNA的酶切活性,而Cas13系統卻可以在低濃度條件下表現出特異性強的ssRNA酶切活性,靈敏度極高。
由于CRISPR-Cas13系統在細胞內靶向酶切特定的RNA序列后表現出非特異性——RNA酶活性,即附帶切割活性(collateral cleavage)。研究者們把Cas13酶改造成了一種快速、廉價且高靈敏度的診斷工具,并將其命名為“SHERLOCK”(specific high-sensitivity enzymatic reporter unlocking)(圖7)。它主要包括兩部分:Cas13酶以及一種被切割時會發出熒光的RNA報告分子。當Cas13酶的非特異性RNA酶活性被靶RNA序列激活時,會導致這種RNA報告分子被酶切,從而釋放熒光信號。
為了使這項技術更方便,研究人員們還開發出了一種快速的檢測方法,所使用的試劑能夠在室溫條件下運輸和存儲,因此這種工具能夠在幾乎任何環境下使用。通過依賴體溫的擴增就可增加樣品中的RNA濃度,從而將這種靶向RNA 的CRISPR工具的靈敏度增加了一百萬倍。雖然目前僅開發出了專門針對診斷寨卡病毒和Dengue病毒的檢測試紙(圖8),但這項技術將來有望被用來應對病毒性和細菌性流行病的爆發、抗生素耐藥性的監控和癌癥檢測,因而具有引發全球公共衛生變革研究的潛力[16]。

圖7 SHERLOCK技術原理示意圖[16]Fig.7 Schematic diagram of the principle of SHERLOCK technology[16]

圖8 檢測試紙的反應原理示意圖[16]Fig.8 Schematic diagram of reaction principle of test paper[16]
為了將CRISPR-Cas13系統構建成便捷的RNA編輯工具,研究人員設計出一款雙組分的RNA編輯器:Cas13酶經突變后失去酶切活性,制成Cas13酶的突變體——dCas13,將這種突變體與RNA腺苷脫氫酶ADAR相融合,利用ADAR能夠將腺苷轉化成鳥苷或肌苷的特點,可以在特定的位置引入點突變或是終止密碼子,從而改變RNA的功能。基于這個原理,研究人員將dCas13b與ADAR的結構域ADAR2DD(E488Q)相融合,制成第一個精確編輯RNA的CRISPR工具:REPAIRv1(RNA editing for programmable A to I (G)replacement Version 1.0)(圖9)。但是由于ADAR2DD的容量太大使其難以裝進腺病毒載體且容易產生大量的脫靶反應,研究人員將ADAR2DD進行截短和改造,研發出了有著最高編輯效率以及最低脫靶效應的突變體ADAR2DD(E488Q/T375G),并將其與Cas13b相融合,制成的REPAIRv2系統,將REPAIRv1系統會出現的18 385個脫靶位點降低到僅出現20個脫靶位點[7]。

圖9 REPAIR示意圖[7]Fig.9 Schematic diagram of REPAIR[7]
REPAIR系統作為第一個能夠實現精確RNA編輯的CRISPR系統,在RNA工程史上具有劃時代的里程碑意義。為了實現胞嘧啶的定點編輯,未來研究人員有望找到可以將dCas13與之相融合的胞苷脫氫酶,或者對ADAR進行改造,以實現ADAR能接受胞嘧啶底物[7,17]。
由于CRISPR-Cas13d系統指導的RNA編輯具有不需要同源指導修復機制(HDR)、不需要PFS識別位點、尺寸小、不含具有酶切DNA活性的RuvC和HNH結構域等特點,相對于CRISPR其他系統更適合用于哺乳動物細胞方面的疾病治療。不需要HDR,更適合用于不分裂的細胞;不需要PFS識別位點,比CRISPR其他系統更靈活;不包含RuvC和HNH結構域,不能直接編輯基因組,在安全性上更好;尺寸小,更適合在體內傳遞;缺乏crRNA的成熟反應相關的結構域但是具有靶向RNA需要的最小序列和二級結構,因此特別適合在細胞內進行RNA編輯。根據CRISPR-Cas13d系統的這些特點,未來可以研發基于CRISPR-Cas13d系統的多種疾病的治療方法,即通過Cas13d定向降解RNA從而降低致病基因的表達水平來矯正細胞中的蛋白水平,從而實現疾病的治療。基于這個原理,研究人員于2019年3月就成功地利用Cas13d來校正癡呆癥患者細胞中蛋白的不平衡表達,使其恢復到正常的蛋白表達水平[18]。雖然這種方法目前還停留在細胞實驗階段,但在研究人員的不斷努力下,未來有望實現疾病的精準靶向治療。
雖然基于CRISPR-Cas13的RNA編輯技術Cas13伴隨有較強的附屬非特異性酶切特性,但其準確性極高的特異性酶切能力仍不可忽視。在研究上,Cas13針對靶RNA極強的特異性將會對轉錄組學研究帶來更加精確可靠的研究工具;在檢測與疾病預防上,利用Cas13的附屬酶切活性將會給檢測人員以及檢疫人員提供更可靠便捷迅速的檢測工具,在治療上,對于需要基因表達短期變化的疾病來說,基于CRISPR-Cas13的RNA編輯可能更有效。未來,CRISPR-Cas基因編輯技術的下一個目標將會向RNA編輯方向邁進。基于CRISPR-Cas13的RNA編輯技術或許能給轉錄組學研究以及疾病的預防與治療的研究注入極為強勁的動力源泉,成為新時代不可或缺的RNA編輯的研究手段。未來,CRISPR-Cas13將會作為一項重要的RNA編輯技術手段,在生物醫學各領域登臺亮相。