李 鑫,段廣有,張 偉,施勁松,陳嘉源,陳舜梅,高 山**,阮吉壽**
(1.南開大學 數學科學學院, 天津 300071;2.南開大學 生命科學學院, 天津 300071;3.齊魯師范學院 生命科學學院,濟南 250200;4.東部戰區總醫院, 南京 210016;5.昆明醫科大學 分子臨床醫學研究院,昆明 650500)
2019年12月,中國武漢報道了2019新型冠狀病毒(2019 novel Coronavirus,2019-nCoV)引起的肺炎。基于2019-nCoV的基因組信息和公開的臨床數據,我們發現[1]:(1)2019-nCoV與嚴重急性呼吸綜合征(Severe Acute Respiratory Syndrome, SARS)冠狀病毒(SARS Coronavirus, SARS-CoV)同屬Beta冠狀病毒B亞群(BB冠狀病毒),但兩種病毒差異較大,這一結果與兩者臨床癥狀差異一致;(2)與SARS冠狀病毒相比,2019-nCoV雖然毒力較弱,但傳播力更強;(3)溯源分析的結果支持2019-nCoV源自蝙蝠;(4)BB冠狀病毒存在大量的可變翻譯,而且具有變異快、多樣性高的特點。
已知多種RNA病毒都要通過自身的膜融合蛋白與靶細胞結合(膜融合)從而進入細胞。其中,SARS冠狀病毒S蛋白(Spike protein)、HIV包膜糖蛋白(Envelope glycoprotein, Env)、埃博拉病毒糖蛋白(Glycoprotein,GP)和流感病毒血凝素(Hemagglutinin,HA)等屬于I類膜融合蛋白[2]。比較HIV病毒與SARS冠狀病毒,相同之處有:都是包膜病毒,都可以通過膜融合途徑(各自的其它途徑不做進一步討論)進入細胞,都需要其膜融合蛋白被細胞蛋白酶切割,分割為受體結合結構域和膜融合結構域。兩種病毒的不同之處在于:HIV病毒的gp160在細胞內包裝過程中被Furin蛋白酶切割,分泌出的病毒顆粒表面的gp120(負責與受體結合)和gp41(負責膜融合)是分開的兩個亞基;而SARS冠狀病毒分泌出的病毒顆粒表面的S蛋白(Spike Protein)中的S1(負責與受體結合)和S2(負責膜融合)仍是融合狀態。SARS冠狀病毒通過兩種方式侵染宿主細胞,在細胞表面有蛋白酶(如胰蛋白酶Trypsin)時,S蛋白被切割成為S1和S2兩個亞基,進而與宿主細胞膜融合進入細胞;否則,SARS冠狀病毒通過胞吞途徑進入宿主細胞,而后S蛋白被溶酶體內的組織蛋白酶切割(不再進一步討論)。研究顯示前一種方式(直接膜融合)的侵染效率是后者的約100到1 000倍[3]。除了鼠肝炎冠狀病毒(The Mouse Hepatitis coronavirus, MHV)等少數外,SARS等其它大部分Beta冠狀病毒的S1與S2之間的交界區(Junctional region)沒有被Furin蛋白酶切割的位點(Cleavage site),即Furin蛋白酶切位點。
有關SARS冠狀病毒感染過程中的很多機制尚不明確,因此不能為藥物、疫苗和抗體開發等應用提供更多信息。基于大量基因組數據的比較研究,特別是針對S蛋白區域的變異研究,不僅可以有助于深入了解BB冠狀病毒的感染機制,而且有助于揭示2019-nCoV感染的特點,為病毒防控以及治療奠定基礎。本研究在前期工作基礎上,無意間發現了2019-nCoV的S蛋白可能存在Furin蛋白酶切位點。這一發現暗示了2019-nCoV可能在感染機制上與SARS冠狀病毒有較大差異,轉而與HIV等其它病毒的感染機制更相似。不同病毒采取相同的感染機制,提示了治療相關病毒(例如HIV)的大量藥物都可以考慮以“老藥新用”的方式進行組合,與免疫抑制劑等聯合用藥,以提高治療效果。
在前期研究中,我們共使用13條BB冠狀病毒基因組序列,(GenBank: JX993987、JX993988、GQ153539、GQ153540、GQ153542、DQ071615、DQ412042、DQ412043、AY515512、AY572034、AY274119、MN908947和MG772934)。在本研究中,13條序列根據其宿主分為五組,用于進一步研究,這五組命名為SARS(AY274119)、果子貍(AY515512和AY572034)、2019-nCoV(MN908947)、來自浙江舟山的蝙蝠群體(MG772934)和其它蝙蝠群體(MG772934之外8條來自蝙蝠的序列)。在本研究中,序列多重比對使用在線軟件ClustalW2,數據處理、統計與作圖使用軟件R v2.15.3[4],蛋白質二級結構預測使用軟件PSIPRED v4.0[5],所有參數采用默認值。密碼子偏好性分析使用NCBI GenBank數據庫(截止2019年12月12日)中符合物種(靈長類、脊椎動物、哺乳動物和嚙齒動物任何一個)的數據,去除密碼子數少于5 000的物種,再加上2019-nCoV和蝙蝠冠狀病毒兩大類數據。密碼子偏好性分析中,密碼子相對使用頻率(以下簡稱相對頻率)指的是一個密碼子使用次數占其對應氨基酸所有密碼子使用次數和的百分比。
使用NCBI工具Blast,比對2019-nCoV(MN908947)與SARS冠狀病毒(AY274119)之間S1和S2核酸序列之間同一度(Identity),結果顯示S1在兩種病毒之間同一度是66.4%,而S2是80.1%,兩個同一度差異很大。于是觀察S1與S2之間的交界區的氨基酸序列,無意間發現了“RRAR”序列(見圖1A),該序列符合Furin酶切位點的識別模式“RXXR”[6]。比對2019-nCoV與SARS之間交界區的核酸序列,發現變異來源是插入了12個堿基,最重要的插入是“CGGCGG”(見圖1B)。將以“CGGCGG”為中心向5'和3'端各擴展15 bp得到的序列比對到NCBI NT數據庫,發現“CGGCGG”也有可能來自細菌。因此,必須通過以下方式排除“CGGCGG”來自測序或拼接錯誤:(1)檢索NCBI Genbank數據庫,找到三條以上已提交的2019-nCoV基因組序列支持“CGGCGG”;(2)檢索NCBI Genbank數據庫,從所有的Beta冠狀病毒(2019-nCoV除外)的S蛋白的交界區中搜索“RRAR”模式,發現只有在鼠肝炎等少數冠狀病毒中存在Furin酶切位點,而在所有SARS和SARS樣冠狀病毒中都不存在Furin酶切位點;(3)通過蛋白質二級結構預測確定“RRAR”未參與折疊配對。最后,使用華大基因公開的148條2019-nCoV基因組序列確定了所有2019-nCoV的S蛋白都包括完全一樣的Furin酶切位點。
基于以上結果,2019-nCoV的S蛋白可能因為突變引入了Furin蛋白酶切位點,其感染機制可能與鼠肝炎冠狀病毒的感染機制更相似,而不同于SARS等其它大部分Beta冠狀病毒。前期實驗結果表明,鼠肝炎冠狀病毒的S蛋白在細胞內包裝過程中可被Furin樣(Furin-like)蛋白酶切割,從而分泌出S1和S2呈非融合狀態的病毒顆粒[7]。另一方面,2019-nCoV的S蛋白中新增的“RRAR”中最后一個R恰好對應SARS冠狀病毒S蛋白中的一個胰蛋白酶切位點R667(圖1A),而SARS冠狀病毒S蛋白中的另外一個胰蛋白酶切位點R797(相比R667更主要)在2019-nCoV的S蛋白中對應R815。另外,R667恰好對應鼠肝炎冠狀病毒S蛋白中的Furin酶切位點。有實驗表明如果在SARS冠狀病毒S蛋白的交界區的R667或R797[8]人為加入Furin酶切位點,可以增強S蛋白的膜融合能力。2019-nCoV同時具備Furin(R685)和胰蛋白酶切位點(R815),分別對應SARS冠狀病毒的胰蛋白酶切位點(R667和R797)。這種改變將使2019-nCoV更多地通過直接膜融合的方式侵染細胞,故進入細胞的效率更高。
在第I類膜融合蛋白中,HIV(GenBank: NC_001802.1)的gp160和埃博拉病毒(GenBank: NC_002549.1)GP的Furin酶切位點分別是“REKR”和“RKIR”,而鼠肝炎冠狀病毒的Furin酶切位點是“RRARR”??傮w上,SARS等Beta冠狀病毒與具有Furin酶切位點的其它病毒的感染機制不同。作為一個意外發現,一些流感病毒的HA也可以通過突變獲得一個Furin蛋白酶切位點,而且這些流感病毒大部分是禽流感(見表1)。綜合分析NCBI GenBank全庫的Beta冠狀病毒、HIV、埃博拉病毒和流感病毒中的Furin酶切位點后,我們推斷Furin酶切位點對病毒感染等生物學功能產生較大影響,后續研究將有助于我們提高對這幾類病毒的膜融合蛋白功能以及病毒膜融合機制的認識,也有助于我們對Beta冠狀病毒的感染機制的深入研究。

圖1 2019新型冠狀病毒S蛋白可能存在Furin蛋白酶切位點Fig.1 A furin cleavage site is discovered in the S protein of the 2019 novel coronavirus
注:13條序列根據其宿主分為五組用于進一步研究,這五組命名為SARS(AY274119)、果子貍(AY515512和AY572034)、2019-nCoV(MN908947)、來自浙江舟山的蝙蝠群體(MG772934)和其它蝙蝠群體(MG772934之外8條來自蝙蝠的序列).(a) 這里顯示的是S1(上游)與S2(下游)之間的交界區的部分氨基酸序列:“RRAR”序列(紅色方框內)符合Furin酶切位點的識別模式“RXXR”;蛋白質二級結構預測使用MN908947,H代表螺旋結構helix,E代表折疊結構strand,C代表無規卷曲結構coil.(b)插入的一段核酸序列(紅色方框內)與“RRAR”序列對應.
Notes:13 virus genomes were clustered into 5 groups according to their hosts. These 5 groups were named SARS (AY274119), civet (AY515512 and AY572034), 2019-nCoV (MN908947), Zhejiang bat (MG772934) and other bat (the other 8 virus genomes). A. The amino acid sequences of junctional regions between S1 (upstream) and S2 (downstream), the “RRAR” sequence (in red box) was recognized as a furin recognition sequence “RXXR”, MN908947 was used to predict the protein secondary structure, where H stands for the helix, E stands for the strand, and C stands for the coil. B. The nucleotide sequence of the insertion (in red box) corresponds to “RRAR”.
由于“CGGCGG”含有兩個精氨酸R的密碼子“CGG”,我們重點關注“CGG”在精氨酸R的六個密碼子(CGG、CGA、CGC、CGT、AGA和AGG)中的相對頻率(見數據與方法)。人的“CGG”相對頻率(1.94%)遠遠低于蝙蝠(21.55%),因此,可以肯定的是“CGGCGG”是傳播到人之前形成的;又發現“CGG”相對頻率從云南蝙蝠(自然宿主)攜帶的冠裝病毒(2.59%)到2019-nCoV(3.14%)有升高趨勢,因此推斷中間宿主應該來自一個“CGG”相對頻率更高(起碼高于蝙蝠)的動物。我們計算了大量哺乳動物的“CGG”相對頻率(可通過Email索取附表1),使用我們提供的“CGG”相對頻率表結合2019-nCoV檢測陽性的動物樣品信息或華南海鮮市場進貨名單可以準確地確定2019-nCoV的中間宿主。在“CGG”相對頻率表中,排名前十位動物印度花豹(Panthera pardus fusca)、黑麂(Muntiacus crinifrons)、林麝(Moschus berezovskii)、小麂(Muntiacus reevesi)、紋鼠(Rhabdomys pumilio)、大山雀(Parus major)、下袍鼠(Delomys sublineatus)、敏狐(Vulpes macrotis),小嘴烏鴉(Corvus corone orientalis)和地中海雅鱈(Lepidion lepidion)的“CGG”相對頻率分別是58.64%、57.02%、50.21%、47.03%、46.44%、45.81%、45.22%、44.40%,43.33%和43.05%??傮w來說,鹿、狐和鼠成為中間宿主的可能性最大。另外,水貂(Mustela vison)[9]、果子貍(Paguma larvata),穿山甲(Manis pentadactyla)和蛇(Bungarus multicinctus)[10]的“CGG”相對頻率分別是17.95%、17.09%,13.89%和11.28%,這些動物成為中間宿主的可能性依次越來越小。我們的研究還發現,在鼠肝炎冠狀病毒的Furin酶切位點“RRARR”中,四個精氨酸R的密碼子(“CGA”、“CGC”,“CGT”和“AGA”)的相對頻率無顯著差異,顯然沒有受到選擇壓力;而禽流感病毒Furin酶切位點(見表1)中精氨酸R偏好使用密碼子“AGA”,這恰好與禽類宿主“AGA”相對頻率高對應。因此,我們提出中間宿主必須滿足的條件是從該動物提取的病毒的S蛋白應該含有Furin酶切位點和密碼子“CGG”。

表1 流感病毒獲得Furin酶切位點Table 1 Furin cleavage sites in influenza viruses
注:第1列使用NCBI GenBank數據庫的Accession Number;第4列是Furin酶切位點在氨基酸序列中的位置;第5列是Furin酶切位點的序列.
Notes: (a)The Accession Numbers in the NCBI GenBank database.(b)The positions of cleavage sites for furin enzyme. (c)The sequences of cleavage sites for furin enzyme.
1)2019-nCoV的S蛋白可能存在Furin蛋白酶切位點,從而導致2019-nCoV的感染機制不同于SARS等大部分Beta冠狀病毒,而與鼠肝炎冠狀病毒、HIV、埃博拉病毒和一些禽流感病毒的感染機制更相似;
2)由于感染機制的改變,2019-nCoV獲得了更高的進入細胞的效率,這可能是其傳播能力大于SARS冠狀病毒的一個原因;
3)一些禽流感病毒也可以通過突變獲得一個Furin蛋白酶切位點,這說明自然突變可以引入Furin酶切位點;
4)包含“CGGCGG”的插入突變是傳播到人之前形成的,2019-nCoV的中間宿主應該來自一個“CGG”相對頻率更高的動物,特別是鹿、狐和鼠;
5)我們提出中間宿主必須滿足的條件是從該動物提取的病毒的S蛋白應該含有Furin酶切位點和密碼子“CGG”;
6)使用我們提供的“CGG”相對頻率表結合2019-nCoV檢測陽性的動物樣品信息可以準確地確定2019-nCoV的中間宿主。
不同病毒采取相同的感染機制,提示了現有的大量抗病毒藥物(特別是抗鼠肝炎冠狀病毒、HIV、埃博拉病毒和禽流感的)都可以考慮以“老藥新用”的方式進行組合,與免疫抑制劑等聯合用藥,以提高治療效果。在已有抗病毒藥物中,有以病毒蛋白(如RNA合成酶)為靶點的藥物,也有以宿主(人)蛋白為靶點(如Furin蛋白酶)的藥物。根據BB冠狀病毒變異快的特點,南開大學阮吉壽等提出同時考慮以宿主(人)蛋白為靶點進行藥物篩選或設計,這樣可以有效規避病毒變異的影響。我們根據天津中醫藥大學第一附屬醫院的心衰治療數據,選定了一組治療心衰的藥物組合,可以很好地抑制Furin蛋白酶活性,同時副作用較小。下一步的研究還應該考慮從病毒和宿主細胞膜融合角度對2019-nCoV、鼠肝炎冠狀病毒、流感、HIV和埃博拉病毒進行比較研究,找到膜融合的共性與差異,從干擾膜融合角度進行藥物設計。
致謝:感謝南開大學生命科學學院陳佺、孔德領、卜文俊、張濤、黃大衛、劉燕強、趙強和賀秉軍等各位老師對我們生物信息學研究的長期支持。感謝河北師范大學宣益波等同學為本文章所做的公益性勞動。感謝深圳華大基因科技有限公司公開2019-nCoV基因組序列用于驗證我們結果的可靠性。
此論文于2020年1月24日提交到https://www.researchgate.net/publication/338804501_A_furin_cleavage_site_was_discovered_in_the_S_protein_of_the_2019_novel_coronavirus。同時,此論文于1月27日通過了中科院預印本平臺的審核http://www.chinaxiv.org/abs/202002.00004v1。