王 道,彭 亮
(中南大學湘雅二醫院婦產科,中國湖南長沙410011)
在過去的20年中,嚴重急性呼吸綜合征冠狀病毒(severe acute respiratory syndrome coronavirus,SARS-CoV)和中東呼吸系統綜合征冠狀病毒(Middle East respiratory syndrome coronavirus,MERSCoV)的肆意流行已威脅到人類的生命。2019年12月,新型冠狀病毒SARS-CoV-2引起的一系列感染病例在中國湖北省武漢出現,到目前為止,已經蔓延到全球多個國家和地區[1~6]。盡管SARS-CoV-2的致死率較低,但比SARS-CoV傳播得更廣泛[7],其引發的疾病已被世界衛生組織正式命名為2019冠狀病毒病(coronavirus disease 2019,COVID-19)。SARS-CoV-2是一種β冠狀病毒,其RNA基因組與SARS-CoV基因組約有82%的相似性[8],屬于正冠狀病毒亞科(Orthocoronavirinae),Sarbecovirus亞屬[9]。石正麗等[10~11]根據病毒基因組推測,中華菊頭蝠(Rhinolophus sinicus)是SARS相關冠狀病毒的天然宿主。另有研究認為馬來穿山甲[12~13]、水貂[14]是SARS-CoV-2的潛在中間宿主。截至2020年5月19日,SARS-CoV-2感染人數依然呈指數增長,全球累計確診病例突破470萬例。COVID-19的嚴重性和迅猛性迫使我們亟需開發新的藥物來對抗新興的冠狀病毒。
SARS-CoV-2是一種單鏈RNA冠狀病毒,其第一個可讀框(open reading frame 1a/b,ORF 1a/b)編碼16個非結構蛋白(nonstructural protein,NSP),其中最具特征的主要藥物靶標是3CLpro(3C-like protease)[15]。3CL水解酶能裂解多聚蛋白,并且產生成熟的酶,然后在11個位點進一步裂解下游的NSP以釋放NSP4~16。其余的ORF則編碼幾種輔助蛋白和結構蛋白,其中包括刺突(S)糖蛋白、包膜(E)蛋白、基質(M)蛋白和核衣殼(N)蛋白[11]。3CLpro的主要功能是介導NSP成熟,參與RNA轉錄翻譯、蛋白質合成加工及修飾、蛋白質復制和宿主感染等重要過程。因此,抑制3CLpro活性將能阻止病毒的感染和復制,這使3CLpro成為小分子抑制劑的主要靶標之一[16]。而且,人體內尚未發現具有類似裂解特異性的識別蛋白酶,所以以3CLpro為靶標開發的小分子抑制劑具有較好的安全性。
目前,臨床缺乏針對COVID-19的有效抗病毒藥物,僅僅集中在對癥治療和呼吸支持上[17]。過去SARS或MERS患者使用的洛匹那韋/利托那韋、利巴韋林、干擾素等未能明顯改善COVID-19患者的臨床狀況,也未能減少咽喉部檢出的病毒RNA[18]。另外,備受期望的瑞德西韋(remdesivir)的療效和安全性也尚需觀察[19]。因此,我們首要任務是找到能有效抑制新病毒的靶點。生物信息學現已被廣泛地應用在前期藥物篩選和研發等重要領域,本研究借助多種生物信息學手段對3CLpro蛋白的結構特征和抗原表位進行預測分析,為SARSCoV-2的疫苗研發提供新的思路。
從美國國家生物信息中心(National Center for Biotechnology Information,NCBI;https://www.ncbi.nlm.nih.gov/)的GenBank中獲取新型冠狀病毒的3CLpro蛋白序列(登錄號:YP 009725301.1.)。
基于多種在線數據庫(表1)對3CLpro的理化性質、親/疏水性、跨膜區、磷酸化位點、糖基化位點、SUMO化位點以及二級結構、結構域、配體結合域和B/T細胞的優勢抗原表位區域進行預測,并且挖掘可能潛在的小分子藥物。
運用ClustalX2對PDB數據庫中SARS-CoV-2(6LU7)、SARS-CoV(1UJ1)和 MERS-CoV(4RSP)的3CLpro蛋白進行氨基酸序列比對,并將信息提交到JalView進一步做可視化分析。結果顯示,上述3種病毒中3CLpro蛋白的氨基酸序列的相似性非常高,在多聚蛋白切割位點具有顯著的保守性,相似度達到81.66%(圖1)。由此可見,3CLpro的氨基酸序列高度保守或者相同,提示其切割位點可能具有非常高的相似性。
基于ExPASy Server,利用ProtParam預測3CLpro的基本理化性質。結果顯示,3CLpro蛋白由306個氨基酸組成,包含帶負電荷的26個氨基酸殘基(Asp+Glu)和帶正電荷的22個氨基酸殘基(Arg+Lys)(表2);蛋白質的分子式為C1499H2318N402O445S22,相對分子質量為33 796.64,等電點為5.95;280 nm波長處的消光系數為33 640,吸光度為0.995,半衰期為1.9 h,脂肪穩定系數為82.12,表明3CLpro蛋白具有穩定性;親水性的平均值為-0.019,表明該蛋白質具有親水性。
運用ProtScale數據庫對3CLpro蛋白的親水性進一步進行分析。圖2結果顯示,3CLpro蛋白有4個高分值峰區(score>1.5),分別位于第204位、第206位、第 208~209位和第 261~264位氨基酸,其中最高分值位于第209位的亮氨酸(score=2.167);4個低分值峰區(score<-1.5),分別位于第51~52位、第96~99位、第218位和第240~242位,其中最低分值位于第98位的苯丙氨酸(score=-2.067)。3CLpro存在大量親水區,推測屬于親水性蛋白質。
運用TMHMM數據庫對3CLpro蛋白的跨膜區進行預測,結果顯示不存在一段由胞內向胞外的跨膜區域(圖 3)。

表1 生物信息數據庫及在線網站Table 1 Bioinformatic databases and websites

表2 3CLpro的氨基酸組成Table 2 Amino acid composition of 3CLpro

圖1 3CLpro蛋白的氨基酸序列比對Fig.1 Alignment analysis of amino acid sequence of 3CLpro
運用 NetNGlyc 1.0 Server、NetPhos 3.1 Server和SUMOplot分別對3CLpro的糖基化、磷酸化和SUMO化位點進行分析,結果顯示,3CLpro的糖基化位點有2個(圖4);磷酸化位點共有27個,包括絲氨酸(S)位點14個、蘇氨酸(T)位點10個和酪氨酸(Y)位點3個(圖5);SUMO化位點有3個,包括K90、K12 和 K97,而且 K90 位點(score=0.91)發生SUMO化修飾的可能性最高(圖6)。

圖2 3CLpro蛋白的親/疏水性分析Fig.2 Hydrophilicity/hydrophobicity analysis of 3CLpro

圖3 3CLpro蛋白的跨膜區域分析Fig.3 Transmembrane region analysis of 3CLpro
運用PSIPRED預測3CLpro的二級結構,結果顯示,3CLpro蛋白共有66個α-螺旋和96個β-折疊。其中,參與形成α-螺旋的氨基酸占21.57%(66/306);參與形成β-折疊的氨基酸占31.37%(96/306);其余的都是無規則卷曲,說明3CLpro蛋白的氨基酸大部分處于有序狀態。
Pfam在線工具對3CLpro的結構域預測結果顯示,29~306氨基酸位置存在一個endopeptidase/C30保守序列。圖7顯示PSIPRED和Pfam兩個在線工具的預測結果基本一致。
PrankWeb平臺可利用隨機森林算法預測3CLpro蛋白表面上的配體結合位點。圖8中5種彩色矩形代表預期口袋和實際結合的可能區域,其保守性使用灰色條形圖描繪。在結構可視化結果中,蛋白質表面用不同的顏色突出顯示各個口袋區域,蛋白質原子的灰色越深表示保守性越高。在表3數據中,藍色區(pocket 1)得分是11.184 0,大于其他顏色區域的得分,說明藍色區是最大可能的配體結合區域,其溶劑可及表面積為72,表面原子數為 45,氨基酸殘基位點為 24~27、41~49、140~145、163~166、189。

圖4 3CLpro蛋白的糖基化位點分析Fig.4 Prediction of N-glycosylation sites in 3CLpro

圖5 3CLpro蛋白的磷酸化位點分析Fig.5 Prediction of phosphorylation sites in 3CLpro

圖6 3CLpro蛋白的SUMO化位點分析Fig.6 Prediction of sumoylation sites in 3CLpro
DrugBank數據庫是基于藥物-基因組學的在線平臺,能夠有效地挖掘藥物。本文的分析結果顯示,存在8種可能能夠抑制3CLpro蛋白的小分子藥物。這8種小分子藥物的accession number分別為 DB08748、DB07620、DB07743、DB08732、DB-07293、DB08656、DB14761、DB15686,其化學式如圖9所示。
首先,基于Kolaskar & Tongaonkar Antigenicity預測3CLpro的B細胞表位抗原性,結果顯示N端的 15~23、32~45、65~72、83~91、101~107、111~120、123~129、153~162、201~212、244~253 和258~271區域為可能的B細胞抗原表位(圖10A)。隨后,基于Bepipred Linear Epitope Prediction預測3CLpro的B細胞表位抗原性,結果顯示N端的5~13、47~57、93~109、170~196、225~228、236~247、273~278、290~298 和 301~302 區域的抗原性較強(圖10B)。綜合以上預測,推導出B細胞的優勢抗原表位區域主要為第101~107位氨基酸。進一步運用SYFPEITHI軟件預測出3CLpro多個潛在的T細胞抗原表位,主要組織相容性復合體(major histocompatibility complex,MHC)類型選擇RT1.AI,其中大于15分以上的位點有11個(表4)。

圖7 3CLpro蛋白的二級結構及結構域分析Fig.7 Prediction of secondary structure and structural domains of 3CLpro

圖8 3CLpro蛋白的配體結合區域分析Fig.8 Prediction of ligand binding sites of 3CLpro
截至目前,在中國以外地區,大量COVID-19患者已經使醫療系統不堪重負。但新藥上市并非一蹴而就,候選藥物的安全性還需進一步在臨床試驗中得到驗證[20~21]。鑒于3CLpro在病毒復制過程中的重要作用,我們對SARS-CoV-2、SARS-CoV和MERS-CoV的3CLpro蛋白進行了序列比對,發現3種病毒中3CLpro蛋白具有81.66%的相似性(圖1),提示3CLpro有望成為未來強有吸引力的藥物作用靶點。相反,SARS-CoV-2的基因組3′端編碼的4個結構蛋白和8個輔助蛋白由于存在太多的變異性,難以成為廣譜抑制劑的位點[22]。

表3 3CLpro蛋白的配體結合區域數據Table 3 Ligand binding sites of 3CLpro

圖9 3CLpro蛋白的小分子藥物預測Fig.9 Prediction of small molecule drugs of 3CLpro
本文先對3CL水解酶的理化性質、親/疏水性和跨膜區進行了預測。結果顯示,3CLpro蛋白的理論等電點是5.95,說明3CLpro屬于酸性蛋白質,這與本文理化分析中帶負電荷的氨基酸數目大于帶正電荷的氨基酸數目的結果相符;而且3CLpro屬于親水性蛋白質(圖2),我們推測其親水區末端突出脂包膜外表面,其后是疏水的結構域,但是,TMHMM數據庫預測其不存在跨膜區(圖3)。另外,本文的預測結果顯示3CLpro存在2個糖基化位點(圖4)、27個磷酸化位點(圖5)和3個SUMO化位點(圖6),其中,2個糖基化位點的預測結果與Vankadari等[23]研究認為SARS-CoV-2是一種高度糖基化的病毒顆粒的結論相一致,研究者也許能夠利用其他小分子結合到這些修飾位點來抑制病毒復制。因為3CLpro是冠狀病毒復制所必需的酶,而人體內沒有與3CLpro具有類似切割位點的蛋白酶,所以以它為靶標篩選出的特異性強的抑制劑可能具有更好的藥物安全性。但是,這還需要從臨床上得到驗證。Ge等[24]報道,SARS-CoV-2主要是依靠刺突糖蛋白結合到宿主細胞表面的血管緊張素轉換酶Ⅱ(angiotensin converting enzyme 2,ACE2)受體,從而進入宿主體內,跨膜絲氨酸蛋白酶2(transmembrane protease serine 2,TMPRSS2)則在入侵過程中發揮“助攻”作用。Hoffmann等[25]發現TMPRSS2也是潛在的可用于COVID-19治療的靶標。需要指出的是,除肺以外,ACE2還在心臟、食道、膀胱和回腸等組織廣泛表達[26],因此其靶標藥物的毒副作用就必須得到足夠的關注。相比ACE2和TMPRSS2,3CLpro的抑制劑能夠迅速達到直接滅活病毒的目的。

圖10 3CLpro蛋白B細胞抗原表位預測和抗原性分析Fig.10 B cell epitope prediction of 3CLpro

表4 3CLpro蛋白T細胞抗原表位預測Table 4 T cell epitope prediction of 3CLpro
隨著COVID-19給世界各地帶來的經濟損失和心理恐慌,公眾對相關藥物研發的期盼尤為迫切。科學家們前期已經從現有上市藥物中找到部分能夠“老藥新用”的化合物[27]。本研究也預測到多個3CLpro蛋白的配體結合位點,其中藍色區域分數最高,是口袋和實際配體結合可能性最高的區域(圖8和表3)。另外,我們還挖掘到8種潛在的對3CLpro具有抑制作用的小分子藥物(圖9),其中就有瑞德西韋(圖9G),但瑞德西韋對COVID-19的療效還有待評估[28]。Chen等[29]使用3CLpro分子模型篩選出16個潛在的候選藥物,并推測維帕他韋(velpatasvir)和雷地帕韋(ledipasvir)的副作用較小,但這兩種藥物的抑制作用還有待證實。早在2003年,Hilgenfeld團隊就構建了SARS-CoV 3CLpro的同源模型晶體結構[30];2020年3月,他們合成了可抑制SARS-CoV-2的擬肽α-酮酰胺抑制劑。令人鼓舞的是,研究人員稱給藥小鼠暫時未出現任何不良反應[31]。此外,本文還采用多參數方法分析了3CLpro多個B細胞抗原表位,發現潛在的抗原表位優勢區域在第101~107位氨基酸(圖10);同時,預測出了11個評分大于15的T細胞抗原表位,它們主要位于 15~23、32~45、65~72、83~91、101~107、111~120、123~129、153~162、201~212、244~253 和 258~271 氨基酸殘基附近(表4)。總的來講,人類免疫缺陷病毒(human immunodeficiency virus,HIV)[32]和丙型肝炎(hepatitis C virus,HCV)[33]抑制藥物被逐步研制的事實表明,新型冠狀病毒疫苗和藥物抑制劑仍是當下COVID-19最根本有效的防治手段[34]。
現今科學家仍然在抗擊COVID-19,但有些問題仍不明確。本文借助生物信息學工具快速地解析了3CLpro蛋白結構,預測了其配體結合位點和潛在的B/T細胞表面抗原,可為疫苗和藥物的研發提供一定的理論基礎。