常麗 唐慧娟 李建軍 黃思齊 陳安國 趙立寧 李德芳
摘要 [目的]研究大麻二酚酸合成酶基因(CBDA1)編碼的蛋白質序列所包含的生物學信息。[方法] 利用生物信息學在線工具及軟件分析大麻二酚酸合成酶(CBDAS)的理化性質、親/疏水性、跨膜結構、信號肽、motif結構域及空間結構等。[結果] CBDAS由544個氨基酸組成,分子量為62 168.42,理論等電點為8.81,是一種穩定的親水性分泌蛋白,N末端包含1個由28個氨基酸殘基組成的信號肽,該蛋白的亞細胞定位在胞外。CBDAS屬于氧化還原酶家族,FDA是該酶活性的必需輔因子,CBDAS蛋白中只含有1個低復雜度區域,含有23個磷酸化位點和6個N-糖基化位點,其二級結構主要由α-螺旋、β-轉角和無規卷曲組成,三級結構與四氫大麻酚酸合成酶(THCAS)同源性最高。[結論]該研究結果可為今后深入研究CBDAS蛋白的結構特征和功能提供理論參考。
關鍵詞 大麻;大麻二酚酸合成酶;生物信息學
中圖分類號 S563.3 文獻標識碼 A 文章編號 0517-6611(2017)29-0144-05
Bioinformatic Analysis of CBDA1 Gene in Cannabis sativa
CHANG Li, TANG Huijuan, LI Jianjun, ZHAO Lining*, LI Defang* et al
(Institute of Bast Fiber Crops,Chinese Academy of Agricultural Sciences,Changsha,Hunan 410205)
Abstract [Objective]To study the biological information contained in the protein sequence encoded by cannabidiolic acid synthase gene (CBDA1). [Method]The physicochemical properties, hydrophilicity and hydrophobicity, transmembrane structure domain, the signal peptide, the motif and the spatial structure of cannabidiolic acid synthase (CBDAS) were analyzed by bioinformatic sever and online tools. [Result]CBDAS consisted of 544 amino acids with molecular weight of 62 168.42 and a theoretical isoelectric point of 8.81. It was a stable hydrophilic secretory protein and the Nterminal contained a signal peptide of 28 amino acid residues, moreover, the subcellular localization of CBDAS was extracellular. It was presumed that CBDAS belonged to the family of oxidoreductases and FDA was a necessary cofactor for the activity of CBDAS. In addtion, CBDAS contained one low complexity region, twenty three phosphorylation sites and six Nglycosylation sites. The secondary structure mainly included αhelix, βturn and random coil. Furthermore, the tertiary structure was the most homologous to tetrahydrocannabinol synthase (THCAS). [Conclution]The results could provide a theoretical reference for further study of the structure and functions of CBDAS.
Key words Cannabis sativa;CBDAS;Bioinformatics
基金項目 國家麻類產業體系分子育種項目(CARS-19-E04)。
作者簡介 常麗(1984—),女,河南焦作人,助理研究員,博士,從事麻類生物技術研究。*通訊作者:趙立寧,研究員,碩士生導師,從事麻類生物技術研究;李德芳,研究員,博士生導師,從事一年生麻類遺傳改良研究。
收稿日期 2017-07-31
大麻(Cannabis sativa)是一年生草本植物,起源于我國,在南北朝時期人們就開始種植和使用大麻,大麻是我國傳統經濟作物,主要用于紡織、建材、造紙、藥用、食用、飼料、工業原料等方面[1]。大麻植株中含有多種活性物質,主要分為兩大類,即大麻酚類化合物和非大麻酚類化合物。目前,研究最多的是大麻酚類化合物,主要包括四氫大麻酚(tetrahydrocannabinol,THC)、大麻酚(cannabinol,CBN)、大麻二酚(cannabidiol,CBD)、大麻萜酚(cannabigerol,CBG)、大麻環萜酚(cannabichromene,CBC)等。THC是由以色列Weizmann科學研究所的Yechiel Gaoni和Raphael Mechoulam于1963年首次分離得到[2],并于次年確定其化學結構。THC是大麻中最重要的活性物質,具有神經保護作用,可用于治療癌癥引起的嘔吐[3],但THC具有致幻作用,因此大麻在多國被禁止種植。四氫大麻酚酸合成酶(Tetrahydrocannabinolic acid synthase,THCAS)是THC合成途徑中的關鍵酶,最早在1995年由Taura等[4]從大麻幼葉中分離出,并于2004年成功克隆了該酶的基因[5],隨后在2012年研究了該酶的結構和功能[6]。與THC不同的是,CBD是大麻中的非成癮性成分,能阻礙THC對人體神經系統影響,并具有治療癲癇、抗痙攣、抗炎、抗焦慮等藥理活性[7-10]。因此,高CBD含量的藥用大麻成為當今研究的一個熱點。而大麻二酚酸合成酶(Cannabidiolic acid synthase,CBDAS)是CBD合成途徑中的關鍵酶,最早在1996年由Taura等[11]從墨西哥纖維大麻中分離得到,并于2007年通過逆轉錄獲得其cDNA[12]。但是CBDAS的結構和功能至今還未報道,該研究以CBDA合成酶基因為研究對象,采用生物信息學方法對CBDA合成酶基因編碼蛋白質序列的理化性質、結構特征、修飾位點等進行預測和分析,以期為今后深入研究和利用CBDA合成酶提供重要的理論依據和研究基礎,同時為大麻作物遺傳改良提供參考。
1 材料與方法
1.1 材料
以大麻品種Carmen的大麻二酚酸合成酶基因 (CBDA1)(LOCUS KJ469374)為研究對象,對其完整的CDS序列編碼的氨基酸序列、蛋白質理化性及功能結構域進行預測與分析。
1.2 方法
利用ExPASy軟件中的Protparam程序對CBDAS蛋白的氨基酸序列長度、分子量大小及等電點等進行分析;利用ProtScale工具分析CBDAS蛋白的親疏水性;利用TMHMM Server v.2.0 和Signal IP 4.1工具分析CBDAS蛋白的跨膜結構域及信號肽;利用ProtComp v.9.0工具對CBDAS蛋白的亞細胞定位進 行分析;利用PROSITE模體數據庫對CBDAS蛋白進行motif預測;利用SMART工具分析CBDAS蛋白的保守功能域;利用NetPhos 2.0 Server和NetNGlyc 1.0 Server分析其蛋白質翻譯后修飾位點;利用GOR(GarnierOsguthorpeRobson Method)對蛋白的二級結構進行性分析;利用SWISSMODEL服務器同源模擬構建CBDAS的三級結構。
2 結果與分析
2.1 CBDA1基因編碼蛋白的氨基酸組成
氨基酸的種類、排列順序及數量直接影響蛋白質的功能。CBDA1基因的CDS序列編碼蛋白質的氨基酸序列為:
CBDAS由544個氨基酸組成,分子式為C2834H4343N743O792S21, 分子量為62 168.42,理論等電點為8.81。CBDAS包含20種常見氨基酸(表1),其中疏水性氨基酸占48.8%,親水性氨基酸占51.2%,堿性氨基酸占13.6%,酸性氨基酸占94%,且含有21個含硫氨基酸,說明該蛋白中存在二硫鍵。由于CBDAS序列的N末端是Met,該蛋白估計半衰期為30 h(哺乳動物網織紅細胞,體外)、 > 20 h(酵母,體內)、> 10 h(大腸桿菌,體內)。CBDAS的不穩定指數 Ⅱ 為30.57,屬于穩定蛋白[13]。脂肪族氨基酸指數為88.31。
2.2 CBDA1基因編碼蛋白的親/疏水性分析
疏水作用能驅動蛋白質的肽鏈壓縮成球狀結構,對于維持蛋白質的空間構象十分重要。氨基酸發生變化可導致蛋白質親/疏水性的改變,而親/疏水性的變化直接影響蛋白質的結構以及功能。此外,通過了解肽鏈中不同肽段的疏水性,可以對跨膜蛋白的跨膜結構域進行預測,為蛋白二級結構的預測及功能結構域的分選提供重要的參考依據。因此,分析蛋白質的親/疏水性具有十分重要的意義。通過ProtScale在線工具對CBDAS進行親/疏水性分析,結果見圖1,在第15位氨基酸出現最高值2.566,即疏水性最強,在第453位氨基酸出現最低值-3.556,即親水性最強。整體看CBDAS的疏水性和親水性氨基酸分布均衡,但預測結果顯示CBDAS的親水性指數平均值(GRAVY,表示蛋白質的溶解度)為-0.202,所以CBDAS更偏向是一個親水蛋白[14]。由圖1可知,在前29個氨基酸位置出現一個較強的疏水區域(score>1.5),且疏水區域較寬,在這個位置有可能出現一個跨膜結構。
2.3 CBDA1編碼蛋白的跨膜結構分析
跨膜結構是蛋白質通過與膜內在蛋白的靜電相互作用和氫鍵鍵合作用與膜結合的一段氨基酸片段,一般由20個左右的疏水氨基酸殘基組成,主要形成α-螺旋。跨膜結構域是膜中蛋白與膜脂相結合的主要部位,固著于細胞膜上起“錨定”作用[15]。跨膜結構域的預測和分析對于了解蛋白質的結構、功能以及在細胞中的作用部位具有重要意義。在目前的基因組數據中,有20%~30%的基因產物被預測為膜蛋白,它們在生物體中擔負著多種功能。因此,有效、準確地預測跨膜區和跨膜的方向對指導跨膜蛋白的結構和功能的研究具有重要意義。利用跨膜預測服務器TMHMM Server v.2.0對CBDAS進行分析,結果見圖2,該蛋白存在一個潛在的跨膜區(第1~28位氨基酸),其中第1~4位氨基酸位于膜內,第5~27位氨基酸為跨膜的螺旋結構,第28位以后的肽鏈主要在細胞膜外發揮其生物學功能。由于該跨膜結構位于蛋白質的N端,推測其極可能為一個信號肽結構。蛋白質序列的其他位置不存在跨膜結構,因此,該蛋白屬于跨膜蛋白。
2.4 CBDA1基因編碼蛋白的信號肽分析
信號肽是蛋白質的一個片段,一般由5~30個氨基酸殘基組成[16],并大致分為 3個區段:N端為帶正電荷的氨基酸;中間為由20個或更多的以中性氨基酸為主組成的疏水核心區,能夠形成一段α-螺旋;C端含有小分子氨基酸,是被信號肽酶裂解的部位,亦稱加工區。信號肽在蛋白分泌的過程中起重要作用[17],主要負責引導新合成蛋白質的跨膜、轉移和定位,把蛋白質引導到細胞不同的亞細胞器內發揮其生物學功能。通過Signal IP 4.1工具進行分析[18],結果表明(圖3),CBDAS的N末端包含1個由28個氨基酸殘基組成的信號肽,切割位點在第28和29個氨基酸殘基之間,其平均值S為0801,當平均值S>0.500時,可判斷該蛋白為分泌蛋白,說明CBDAS是一種分泌蛋白。
2.5 CBDA1基因編碼蛋白的亞細胞定位
細胞中蛋白質合成后經蛋白質分選信號引導被轉運到特定的細胞器中,部
分蛋白質則被分泌到細胞外或留在細胞質中,只有轉運到正
確的部位才能參與細胞的各種生命活動[19],如果定位發生
偏差,將會對細胞功能甚至生命產生重大影響。了解蛋白質的亞細胞定位信息,可以為推斷蛋白質的生物學功能提供必要的幫助,同時對蛋白質的其他研究如相互作用、進化等也能提供必要的信息。利用ProtComp v.9.0對CBDAS進行亞細胞定位分析,結果顯示,該蛋白質位置的積分預測為細胞外(分泌),得分9.4,說明該蛋白主要在細胞外發揮其生物學功能。
2.6 CBDA1基因編碼蛋白motif分析
PROSITE數據庫收集了生物學有顯著意義的蛋白質位點和序列模式,并能根據這些位點和模式快速、可靠地鑒別一個未知功能的蛋白質序列應該屬于哪一個蛋白質家族。利用PROSITE對CBDA1編碼蛋白進行motif預測,結果如圖4所示,CBDAS含有1個FAD-PCMH結合域,位于第77~251位氨基酸( TTPKPLVIVTPSHVSHIQGTILCSKKVGLQIRTRSGGHDSEGmsYISQVPFVIVDLRNMRSIKIDVHSQTAWVEAGATLGEVYYWvnEK NESLSLAAGYCPTVCAGGHFGGGGYGPLMRSYGLAADNIIDA HLVNVHGKVLDRKSMGEDLFWALRGGGAESFGIIVAWKI RLVAV )。CMH型FAD結合結構域是由2個α-β亞結構域組成:1個由α螺旋包圍的3個平行的β鏈(B1~B3)組成,并被包含在含有5個反平行β鏈的第2子結構域(B4~B8)[20]。2個子域可以適應它們之間的FAD輔因子[21]。在PCMH蛋白中,輔酶FAD也共價連接到位于C末端催化結構域FAD結合結構域之外的酪氨酸[22]。除CBDAS外,目前發現大麻的四氫大麻酚酸合成酶(THCAS)、細菌UDP-N-乙炔烯醇丙酮酰葡萄糖還原酶(UDP-N-acetylenolpyruvoylglucosamine reductase,EC 1.1.1.158)、脊椎動物烷基二羥基丙二酸合酶(alkyldihydroxyacetonephosphate synthase,EC 2.5.1.26)、真核乳酸脫氫酶D(D lactate dehydrogenase,EC 1.1.2.4)和細菌一氧化碳脫氫酶(Carbon monoxide dehydrogenase,EC 1.2.99.2)的結構中也含有PCMH型FAD結合結構域。推測CBDAS同THCAS一樣屬于氧化還原酶家族,FDA是CBDAS酶活性的必需輔因子。
2.7 CBDA1基因編碼蛋白的保守功能域分析
保守結構域指生物進化或1個蛋白家族中不變或相同的結構域,具有重要功能。采用SMART工具推測,CBDAS蛋白中只含有1個低復雜度區域(low complexity region,LCR): GGHFGGGGYG ,位于第182~191位氨基酸。
2.8 CBDAS蛋白翻譯后修飾位點分析
真核生物中的多肽及蛋白質分子經核糖體合成后大多需翻譯后修飾,才能確保蛋白質發揮其正常的生物學功能[23]。常見的蛋白質翻譯后修飾有磷酸化和糖基化2種。磷酸化是由蛋白質激酶催化將ATP或GTP γ位的磷酸基轉移到底物蛋白質氨基酸殘基(Ser、Thr、Tyr)上,是生物體內一種普通的調節方式[24],蛋白質磷酸化修飾的作用主要體現在以下3個方面:一是通過磷酸化修飾改變了受體蛋白質的活性,蛋白質磷酸化或去磷酸化修飾起到開啟或關閉蛋白質活性的作用;二是磷酸化蛋白質參與植物體內信號的傳導;三是影響蛋白質間的互作,由于在氨基酸殘基上結合或失去了磷酸基團,從而改變了受體蛋白質的結構,影響了該受體蛋白質與其他蛋白質間的互作。細胞中蛋白質磷酸化水平是一個動態的變化過程,其細微差異都可能導致細胞代謝水平上的變化。因此,蛋白質磷酸化對植物生長發育的影響是全方位的。糖基化通常修飾天冬酰胺的N端,其氨基酸特征序列為Asn-X-Ser-Thr(X是除Pro外的任一種類氨基酸)[25]。N-糖基化與植物蛋白質正確折疊、細胞凋亡、器官發育及信號轉導等生物學功能密切相關[26]。通常胞外分泌蛋白、膜整合蛋白及構成內膜系統的可溶性駐留蛋白大多需要經過N-糖基化修飾。利用NetPhos 2.0和NetNGlyc 1.0對CBDAS進行預測,結果表明該蛋白存在23個磷酸化位點、6個N-糖基化位點(表2、3)。
2.9 CBDA1基因編碼蛋白的二級、三級結構分析
目前最好的單序列預測程序能夠達70%左右,比如基于information theory的GOR準確度達69.7%[27],利用GOR IV對CBDAS的二級結構進行預測,結果如圖5顯示,CBDAS蛋白由α-螺旋、β-折疊和無規卷曲組成,分別占整個肽鏈的21.88%、26.29%和51.84%。
利用SWISSMODEL蛋白質三維結構建模工具構建的CBDAS的三維結構模型,如圖5所示。建模過程中共有168條模板和目標序列相匹配,通過啟發式分析過濾得到29個模板,主要有Tetrahydrocannabinolic acid synthase(四氫大麻酚酸合成酶)、Pollen allergen Phl p(花粉過敏原Phl p)、berberine bridgeforming enzyme(小檗堿橋形成酶)、Reticuline oxidase(纖維素氧化酶)、alkyl dihydroxyacetone phosphate synthase,peroxisomal(烷基二羥基乙酸磷酸酯合成酶,過氧化物酶)。CBDAS的三級結構也是參考這29個模板模擬構建的,其中與THCAS[28]的同源性最高,為83.95%。
3 討論與結論
利用生物信息學對目的基因進行功能預測是當前國際上研究的熱點之一,也是發現和研究新基因的一個重要手段。生物信息學與傳統的通過RT-PCR方法進行克隆分析基因的方法相比,具有快捷、針對性強、成本低等優點。生物信息學能針對未知功能基因,采集數據,歸納分析,預測基因功能,挖掘基因潛在的研究線索,可為科學研究提供啟示和方向指導。對于蛋白質而言,其生物學功能才是最終的研究目的。通過多種生物信息學工具分析CBDA1基因編碼的蛋白序列,發現該基因編碼544個氨基酸,等電點為8.81,N端包含1個信號肽,而含有信號肽的蛋白質一般都是分泌到細胞外。CBDAS的亞細胞定位結果也證實了該蛋白是一種穩定的分泌蛋白,主要在胞外發揮其生物學功能。THCAS的二級結構豐富,包含了α-螺旋、β-折疊和無規卷曲,含有許多蛋白質修飾及活化位點,如磷酸化位點、糖基化位點、FDA結合位點等,暗示該蛋白可能在體內受多種因子的調控,具有接受細胞信號并做出反應,實現其生物學功能的潛能。這些結果對正確認識和理解蛋白質結構、定位、功能等均有重要的指導意義。
參考文獻
[1] 梁曉紅.大麻的生物學特性及用途[J].現代農業科技,2014(13):48-50.
[2] GAONI Y,MECHOULAM R.Isolation,structure,and partial synthesis of an active constituent of hashish[J].Journal of the American chemical society,1964,86(8):1646-1647.
[3] ABRAMS D I,GUZMAN M.Cannabis in cancer care[J].Clinical pharmacology and therapeutics,2015,97(6):575-586.
[4] TAURA F,MORIMOTO S,SHOYAMA Y,et al.First direct evidence for the mechanism of Δ1tetrahydrocannabinolic acid biosynthesis[J].Journal of the American chemical society,1995,117(38):9766-9767.
[5] SIRIKANTARAMAS S,MORIMOTO S,SHOYAMA Y,et al.The gene controlling marijuana psychoactivity[J].Journal of biological chemistry,2004,279(38):39767-39774.
[6] SHOYAMA Y,TAMADA T,KURIHARA K,et al.Structure and function of Δ1tetrahydrocannabinolic acid(THCA)synthase,the enzyme controlling
the psychoactivity of Cannabis sativa[J].Journal of molecular biology,2012,423(1):96-105.
[7] KLEIN B D,JACOBSON C A,METCALF C S,et al.Evaluation of cannabidiol in animal seizure models by the Epilepsy Therapy Screening Program(ETSP)[J].Neurochemical research,2017,42(7):1939-1948.
[8] BORRELLI F,AVIELLO G,ROMANO B,et al.Cannabidiol,a safe and nonpsychotropic ingredient of the marijuana plant Cannabis sativa,is protective in a murine model of colitis[J].Journal of molecular medicine,2009,87:1111-1121.
[9] SYED Y Y,MCKEAGE K,SCOTT L J.Delta9tetrahydrocannabinol/cannabidiol(Sativex):A review of its use in patients with moderate to severe spasticity due to multiple sclerosis[J].Botany and biotechnology,2014,74(5):563-578.
[10] BLESSING E M,STEENKAMP M M,MANZANARES J,et al.Cannabidiol as a potential treatment for anxiety disorders[J].Neurotherapeutics,2015,12(4):825-836.
[11] TAURA F,MORIMOTO S,SHOYAMA Y,et al.Purification and characterization of cannabidiolicacid from Cannabis sativa L.[J].Journal of biological chemistry,1996,271(29):17411-17416.
[12] TAURA F,SIRIKANTARAMAS S,SHOYAMA Y,et al.Cannabidiolicacid synthase,the chemotypedetermining enzyme in the fibertype Cannabis sativa[J].FEBS letters,2007,581(16):2929-2934.
[13] 于欣,楊震,楚元奎,等.IL-6基因結構和功能生物信息學預測[J].國際檢驗醫學雜志,2016,37(21):2959-2960,2963.
[14] 丁帥,熊勇,李正濤,等.菊花rbcL基因電子克隆及生物信息學、適應性進化分析[J].種子,2015,34(10):24-30.
[15] KROGH A,LARSSON B,VON HEIJNE G,et al.Predicting transmembrane protein topology with a hidden Markov model:Application to complete genomes[J].Journal of molecular biology,2001,305(3):567-580.
[16] YAN S,WU G.Signal peptide of cellulase[J].Applied microbiology and biotechnology,2014,98(12):5329-5362.
[17] IZARD J W,DOUGHTY M B,KENDALL D A.Physical and conformational properties of synthetic idealized signal sequences parallel their biological functional[J].Biochemistry,1995,34(31):9904-9912.
[18] PETERSEN T N,BRUNAK S,VON HEIJNE G,et al.SignalP 4.0:Discriminating signal peptides from transmembrane regions[J].Nature methods,2011,8(10):785-786.
[19] 張松,黃波,夏學峰,等.蛋白質亞細胞定位的生物信息學研究[J].生物化學與生物物理進展,2007,34(6):573-579.
[20] CUNANE L M,CHEN Z W,SHAMALA N,et al.Structures of the flavocytochrome pcresol methylhydroxylase and its enzymesubstrate complex:Gated substrate entry and proton relays support the proposed catalytic mechanism[J].Journal of molecular biology,2000,295(2):357-374.
[21] FRAAIJE M W,MATTEVI A.Flavoenzymes:Diverse catalysts with recurrent features[J].Trends in biochemical sciences,2000,25(3):126-132.
[22] MCINTIRE W,EDMONDSON D E,HOPPER D J,et al.8 alpha(OTyrosyl)flavin adenine dinucleotide,the prosthetic group of bacterial pcresol methylhydroxylase[J].Biochemistry,1981,20(11):3068-3075.
[23] EISENHABER B,EISENHABER F.Prediction of posttranslational modification of proteins from their amino acid sequence[J].Methods in molecular biology,2010,609:365-384.
[24] 劉秋林,鐘月仙,萬偉峰,等.植物磷酸化蛋白質組學研究進展[J].福建農林大學學報(自然科學版),2015,44(3):225-231.
[25] 葉強,金曉琴,劉偉娜,等.植物蛋白質N-糖基化修飾研究進展[J].浙江師范大學學報(自然科學版),2016,39(1):80-86.
[26] LEROUGE P,CABANESMACHETEAU M,RAYON C,et al.NGlycoprotein biosynthesis in plants:Recent developments and future trends[J].Plant molecular biology,1998,38(1/2):31-48.
[27] SEN T Z,JERNIGAN R L,GARNIER J,et al.GOR V server for protein secondary structure prediction[J].Bioinformatics,2005,21(11):2787-2788.
[28] SHOYAMA Y,TAMADA T,KURIHARA K,et al.Structure and function of Δ1tetrahydrocannabinolic acid(THCA)synthase,the enzyme controlling the psychoactivity of Cannabis sativa[J].Journal of molecular biology,2012,423(1):96-105.