







關(guān)鍵詞:葡萄;遺傳密碼;密碼子偏好性;自然選擇;突變壓力
葡萄(Vitis vinifera)是一種木質(zhì)藤本植物,屬于葡萄科葡萄屬。近年來(lái),考古學(xué)家在中國(guó)地區(qū)的新石器時(shí)代遺址中發(fā)現(xiàn)了一些葡萄種子;《詩(shī)經(jīng)》中也有“六月食郁及薁”的記載;《本草綱目》和《神農(nóng)本草經(jīng)》更是記載著將葡萄的果實(shí)、莖葉、樹(shù)根作為藥物來(lái)治療一些疾病的方劑[1]。葡萄是我國(guó)重要的經(jīng)濟(jì)作物之一,據(jù)2018年的統(tǒng)計(jì)數(shù)據(jù),我國(guó)葡萄種植面積為70萬(wàn)hm2,占果樹(shù)種植面積的6.7%,年產(chǎn)量達(dá)到1 366.7萬(wàn)t,成為世界上葡萄產(chǎn)量最高的國(guó)家[2]。
葡萄根、莖、果皮、果實(shí)、種子中的多種成分具有藥理作用,在醫(yī)療方面有著巨大的應(yīng)用前景。葡萄的根莖和果皮中含有大量芪類(lèi)化合物,包括白藜蘆醇、蛇葡萄素、大黃素、谷甾醇等;果實(shí)中含有花青素、葡萄素、兒茶素等多酚類(lèi)化合物;種子中含有大量氨基酸、不飽和脂肪酸及鉀、鈉、鈣、鎂等無(wú)機(jī)微量元素。Rauf等[3]發(fā)現(xiàn),葡萄皮中的白藜蘆醇對(duì)人類(lèi)癌癥具有化學(xué)預(yù)防和治療作用,能減少人們患某些癌癥的風(fēng)險(xiǎn),包括食道癌、前列腺癌、子宮癌、乳腺癌、宮頸癌、膀胱癌、甲狀腺癌等。Akaberi等[4]發(fā)現(xiàn),葡萄籽中富含多酚強(qiáng)效抗氧化劑,多酚物質(zhì)具有清除自由基、抗氧化、降低膽固醇、抗心腦血管疾病的作用,能夠有效抑制與代謝綜合征相關(guān)的危險(xiǎn)因素,如高脂血癥、高血糖和高血壓。 Della等[5]發(fā)現(xiàn),葡萄果實(shí)中的花青素能夠保肝護(hù)胃,具有抗肥胖作用。Choleva等[6]發(fā)現(xiàn),葡萄酒通過(guò)改善氧化應(yīng)激作用能夠顯著降低心血管疾病的發(fā)生風(fēng)險(xiǎn)。但是現(xiàn)如今葡萄的白粉病、褐斑病、根癌病、灰霉病、炭疽病、白腐病和害蟲(chóng)蘋(píng)毛麗金龜、白星花金龜、紅斑完菁等主要病蟲(chóng)害40多種,嚴(yán)重制約著葡萄產(chǎn)業(yè)的進(jìn)一步發(fā)展。除病蟲(chóng)害外,惡劣的自然環(huán)境變化對(duì)葡萄的生長(zhǎng)、發(fā)育和產(chǎn)量也會(huì)產(chǎn)生不利影響,導(dǎo)致大幅減產(chǎn)。因此,提高葡萄對(duì)惡劣自然環(huán)境的抗性也是葡萄育種的當(dāng)務(wù)之急。研究表明,提高VvJAZ13蛋白的表達(dá)量可提高葡萄的耐寒性[7]。因此,研究葡萄密碼子的使用偏好是提高葡萄對(duì)病蟲(chóng)害和惡劣自然環(huán)境耐受性的切入點(diǎn)之一。
密碼子的使用偏好性(codon usage bias, CUB)指編碼氨基酸的過(guò)程中,不同種類(lèi)的生物偏好使用的密碼子也不盡相同。密碼子使用的偏好性在幾乎所有已知物種的基因組中都存在。研究證明,當(dāng)特定基因使用不同密碼子時(shí),mRNA的翻譯水平呈現(xiàn)顯著差異,使用最佳密碼子時(shí)會(huì)通過(guò)增加翻譯延伸率達(dá)到促進(jìn)mRNA有效翻譯的效果,使蛋白質(zhì)的表達(dá)水平成倍增加[8];而使用其他非最佳密碼子則會(huì)導(dǎo)致細(xì)胞中的核糖體減緩甚至停滯[9]。體內(nèi)、體外試驗(yàn)證明,不同偏好密碼子的使用不僅能調(diào)節(jié)mRNA的翻譯延伸率,還可通過(guò)延伸率的變化調(diào)節(jié)蛋白質(zhì)折疊,從而改變蛋白質(zhì)構(gòu)象,進(jìn)而影響其功能[10]。本研究通過(guò)對(duì)葡萄編碼基因的核苷酸組成及密碼子偏好性進(jìn)行分析,并與其他表達(dá)系統(tǒng)和葡萄亞科植物基因組密碼子的偏好性進(jìn)行比較,旨在為葡萄基因組學(xué)研究、葡萄病蟲(chóng)害基因?qū)用娴闹委熍c預(yù)防和葡萄的遺傳改良提供思路,同時(shí)為通過(guò)密碼子優(yōu)化提高葡萄外源基因表達(dá)水平提供理論依據(jù)。
1 材料與方法
1.1 葡萄基因組數(shù)據(jù)
葡萄基因組測(cè)序已于2009 年完成[11],從NVVI基因組數(shù)據(jù)庫(kù)中(https://www.nVVi.nlm.nih.gov/datasets/genome/? taxa=Vitis)下載葡萄基因組數(shù)據(jù)和基因組注釋信息,為降低樣本誤差,運(yùn)用自編Python腳本篩選出滿(mǎn)足以下3個(gè)要求的編碼序列(coding sequence,CDS):① 序列長(zhǎng)度大于300 bp;②序列堿基數(shù)目是3的倍數(shù);③具有正確且完整的起始密碼子和終止密碼子。
1.2 葡萄密碼子使用情況分析
利用Python腳本計(jì)算葡萄CDS序列的GC總含量(用GCall表示)和其密碼子第1、2、3位堿基的GC含量(分別用GC1、GC2和GC3表示)及其同義密碼子第3 位的GC 含量(用GC3s 表示)。利用軟件CodonW1.4.4 來(lái)計(jì)算同義密碼子相對(duì)使用度(relative synonymous codon usage, RSCU)、密碼子適應(yīng)指數(shù)(codon adaptation index, CAI)、有效密碼子數(shù)(effective number of codon, ENC)和氨基酸總數(shù)等[12]。
1.3 ENC-Plot 分析
利用R 語(yǔ)言程序繪制ENC-plot,并繪制ENC的預(yù)期值,分析葡萄密碼子偏好性的影響因素[13]。通過(guò)公式(1)計(jì)算ENC的預(yù)期曲線(xiàn)。根據(jù)ENC的理論值判斷當(dāng)不受選擇壓力的影響時(shí),影響密碼子偏好的影響因素[14]。
1.4 PR2-plot 分析
采用R語(yǔ)言繪制PR2-plot散點(diǎn)圖。PR2解析法也稱(chēng)之為偏差法,用于分析密碼子第3位堿基上嘌呤或嘧啶間的突變平衡性。密碼子第3位堿基的A、T、G、C含量分別記作A3、T3、G3、C3。用A3/(A3+T3)作為縱軸、G3/(G3+C3)作為橫軸繪制散點(diǎn)圖。在圖的中央位置,代表A=T、G=C,此時(shí)只有基因突變會(huì)影響密碼子的偏好性;中點(diǎn)與其他基因點(diǎn)相連的矢量代表在第3位堿基上嘧啶或嘌呤的偏好強(qiáng)度和方向。
1.5 Neutrality-plot 分析
利用R語(yǔ)言程序繪制Neutrality-plot散點(diǎn)圖,分別以GC3為橫坐標(biāo)、GC1與GC 的平均值GC12為縱坐標(biāo)進(jìn)行線(xiàn)性擬合回歸分析,以此評(píng)價(jià)影響密碼子的使用偏好性的因素[15]。
1.6 葡萄基因組最優(yōu)密碼子分析
統(tǒng)計(jì)篩選出的CDS的ENC值,根據(jù)ENC值作為篩選的標(biāo)準(zhǔn),從高到低對(duì)葡萄CDS序列進(jìn)行排列,篩選出最高和最低的位于前10% CDS序列分別構(gòu)成低表達(dá)庫(kù)和高表達(dá)庫(kù),即將ENC值低的歸為高表達(dá)庫(kù),ENC 值高的則被歸為低表達(dá)庫(kù)[16]。對(duì)2 個(gè)庫(kù)中密碼子的RSCU 值和及兩者的差(ΔRSCU)值進(jìn)行計(jì)算。將RSCUgt;1的密碼子組作為高頻率密碼子,將ΔRSCU≥0.08的密碼子定義為高表達(dá)密碼子,同時(shí)滿(mǎn)足這2個(gè)條件的密碼子則為最優(yōu)密碼子[17]。
1.7 葡萄與其他幾種生物密碼子偏好性比較
將葡萄基因組密碼子使用頻率與大腸桿菌(Escherichia coli)、釀酒酵母(Saccharomycescerevisiae)、山葡萄(Vitis amurensis)、河岸葡萄(Vitis riparia)和圓葉葡萄(Vitis rotundifolia)的基因組密碼子進(jìn)行比較。大腸桿菌、酵母、山葡萄、河岸葡萄和圓葉葡萄的密碼子使用數(shù)據(jù)下載自Codon Usage Database(http://www. kazusa. or. jp/codon/)。若不同物種同義密碼子的使用頻率比值在0.50~2.00,表明這2個(gè)物種都傾向于利用該同義密碼子;反之說(shuō)明這2個(gè)物種對(duì)該同義密碼子的使用偏好性存在顯著差異[18]。
2 結(jié)果與分析
2.1 葡萄密碼子使用情況分析
共篩選出21 887條編碼基因的序列,其GC1、GC2 和GC3 含量分別為50.19%、40.36%、43.92%,GCall含量為44.82%,即GC1gt;GC3gt;GC2,說(shuō)明葡萄基因組密碼子第1位堿基的GC含量較高。RSCU值是評(píng)價(jià)同義密碼子偏好性的重要參數(shù),表示基因組中某一密碼子的出現(xiàn)頻率與預(yù)期使用頻率的比值。RSCU值常用作密碼子使用偏好性的衡量指標(biāo),若RSCU值大于1,表示該密碼子的使用頻率較高,若RSCU值小于1,則說(shuō)明該密碼子的使用頻率低。由圖1可知,葡萄密碼子RSCU值大于1的有31 個(gè),分別為GCU、GUU、CUU、CCA、UCU、CCU、AUU、GAU、ACU、GCA、ACA、UUG、UCA、CAU、GGA、AAU、UAU、GUG、UUU、GGU、GGA、AGU、AAG、UGU、AGA、CGU、CAA、GAA、CGG、AUG和UGG,其中16個(gè)以U結(jié)尾,9個(gè)以A結(jié)尾,GCU的RSCU值最高,為1.536;密碼子RSCU值小于1有30個(gè),多數(shù)低頻密碼子以G(9個(gè))或C(16個(gè))結(jié)尾。
2.2 葡萄基因組的ENC-plot 分析
ENC 是衡量基因組中密碼子使用偏好性的重要指標(biāo)之一,并在密碼子使用圖譜中起主導(dǎo)作用[19]。ENC值越小,表明特定同義密碼子使用偏性越大;ENC值越大,說(shuō)明編碼同一氨基酸的各同義密碼子使用偏性越小,各同義密碼子的使用頻率趨于相等。由圖2可知,大部分基因均位于期望值曲線(xiàn)之下較遠(yuǎn)處,ENC值為23~61,普遍偏小,表明影響葡萄編碼基因密碼偏好性的主要原因是選擇壓力;此外,有少部分的基因出現(xiàn)在期望值曲線(xiàn)之上,表明這部分基因是由于突變導(dǎo)致了密碼子偏好性。
2.3 PR2-plot 分析
PR2-plot分析可用于研究密碼子第3個(gè)堿基的偏好性[20]。如基因沒(méi)有突變,或者密碼子選擇沒(méi)有偏性,那么堿基含量應(yīng)遵循A=T或G=C的規(guī)律,此時(shí)基因均分布在中心位置,點(diǎn)與中心之間的距離表示堿基偏差的程度和方向。由圖3可知,葡萄的大部分基因分布于右下方區(qū)域,表明密碼子第3位上G、T出現(xiàn)的頻率較高,說(shuō)明密碼子第3位堿基偏好使用嘧啶堿基。由此表明,葡萄基因密碼子第3個(gè)位置的堿基使用存在不平衡現(xiàn)象,說(shuō)明其密碼子使用偏好性既受到突變影響,也受到自然選擇的影響。
2.4 Neutrality-plot 分析
Neutrality-plot繪圖主要是對(duì)物種基因組密碼子偏好的因素進(jìn)行分析,用來(lái)揭示定向突變壓力與自然選擇的關(guān)系以及GC12 和GC3 之間的關(guān)系[21]。若模擬的線(xiàn)性回歸直線(xiàn)斜率為1,代表密碼子偏好性主要受突變的影響;若回歸直線(xiàn)斜率逐漸減小,則代表自然選擇的影響逐漸加強(qiáng)。由圖4可知,大部分GC3分布在0.34~0.78之間,大部分GC12 分布在0.31~0.75之間,GC12 和GC3 的相關(guān)系數(shù)為0.357 0,回歸系數(shù)為0.211 1,回歸曲線(xiàn)斜率較小。由此表明,自然選擇對(duì)葡萄基因組密碼子偏好性影響較大。
2.5 最優(yōu)密碼子的確定
由表1可知,分別列出高低表達(dá)庫(kù)中同義密碼子的RSCU值,并計(jì)算ΔRSCU值。選擇高低表達(dá)庫(kù)中RSCU值gt;1的密碼子為高頻密碼子,在低表達(dá)庫(kù)中有31個(gè)高頻密碼子,高表達(dá)庫(kù)中有28個(gè)高頻密碼子。隨后計(jì)算ΔRSCU值,ΔRSCU≥0.08的密碼子定義為高表達(dá)密碼子。將高表達(dá)密碼子集與高頻密碼子集相組合,同時(shí)符合上述2種情況的密碼子作為最優(yōu)密碼子,最終篩選出了19個(gè)最優(yōu)密碼子,分別為GCA、GCU、GAU、UUU、GGA、GGU、CAU、 AUU、CUU、AAU、CCA、CCU、CAA、UCA、UCU、ACA、ACU、GUU、UAU。其中以A結(jié)尾的有6個(gè),以U結(jié)尾的有13個(gè),表明葡萄基因組偏向于使用第3位堿基為A和U結(jié)尾的密碼子。
2.6 葡萄與其他生物密碼子使用情況比較
不同基因組間的RSCU值差異能夠反映各物種間的進(jìn)化距離,而基因組間RSCU值的比值能反映各物種間的親緣關(guān)系[22]。將葡萄基因組密碼子使用頻率與大腸桿菌、釀酒酵母、山葡萄、河岸葡萄和圓葉葡萄進(jìn)行比較,結(jié)果如表2所示。葡萄與河岸葡萄的密碼子偏好性非常相似,其親緣關(guān)系也非常近;葡萄與釀酒酵母、圓葉葡萄的密碼子偏好性也比較接近;但與大腸桿菌和山葡萄的密碼子偏好性存在較大差異。葡萄與大腸桿菌、釀酒酵母、山葡萄、河岸葡萄和圓葉葡萄的密碼子使用頻率比值中≥2或≤0.5的密碼子數(shù)量分別為18、5、13、3、8,數(shù)量越少,兩物種間的同義密碼子偏好性差異越小。
3 討論
密碼子的堿基成分對(duì)其偏好性有較大影響,人類(lèi)基因組中偏向于使用G或C,特別是以C結(jié)尾的同義密碼子[23];而在微生物中,一些物種偏好使用A、T豐富的密碼子[24],而另一些則偏好使用含有G、C的密碼子[25]。本研究表明,葡萄基因密碼子中AU、GC1含量較高,且偏好以A或U結(jié)尾;同時(shí),在30個(gè)RSCUlt;1的密碼子中,大多數(shù)低頻密碼子以G(9個(gè))或C(16個(gè))結(jié)尾。由此表明,葡萄中具有高AU含量的基因相比低GC含量的基因具有更高的表達(dá)水平。
本研究表明,葡萄編碼基因密碼子的使用偏好性既受突變影響,也受自然選擇壓力與其他因素的影響,但自然選擇的影響較大。這可能與葡萄基因組的堿基成分相關(guān)。密碼子使用的偏好性能夠通過(guò)多種機(jī)制影響基因表達(dá)和蛋白質(zhì)結(jié)構(gòu),而密碼子偏好性與很多因素有關(guān),首先是基因表達(dá)水平,在高表達(dá)基因中,最優(yōu)密碼子的使用強(qiáng)度高于一般表達(dá)基因和低表達(dá)基因;其次和 tRNA相關(guān),由于轉(zhuǎn)錄翻譯的過(guò)程中,最優(yōu)密碼子越多,其對(duì)應(yīng)的tRNA 也會(huì)更多,在翻譯過(guò)程中不容易形成錯(cuò)誤匹配,翻譯速度快,并且這個(gè)特定的偏性模式和 tRNA含量呈現(xiàn)出正相關(guān)性。
建立高低表達(dá)庫(kù)主要是用于分析葡萄基因組的高表達(dá)密碼子和高頻率密碼子,最終篩選出最優(yōu)密碼子。本研究結(jié)果表明,葡萄基因組共篩選出19個(gè)最優(yōu)密碼子;且葡萄密碼子偏好性與河岸葡萄、釀酒酵母和圓葉葡萄類(lèi)似;與大腸桿菌和山葡萄存在較大差異。因此,葡萄基因在外源系統(tǒng)中表達(dá)時(shí),可以選擇在釀酒酵母等細(xì)胞系中進(jìn)行,若在大腸桿菌等系統(tǒng)中表達(dá)時(shí),可根據(jù)密碼子偏好性對(duì)堿基進(jìn)行優(yōu)化,從而提高表達(dá)量。物種間的親緣關(guān)系與密碼子的偏好性具有一定的相關(guān)性,最優(yōu)密碼子在不同類(lèi)型葡萄中具有較高的保守性,親緣關(guān)系愈近的物種,其密碼子的偏好性也較為類(lèi)似。
本研究結(jié)果有助于進(jìn)一步闡明葡萄基因組遺傳進(jìn)化的潛在動(dòng)力學(xué),對(duì)解釋葡萄基因組功能、解析葡萄的進(jìn)化過(guò)程具有重要意義,印證了密碼子進(jìn)化的選擇?突變?漂變模型,為葡萄功能基因組研究以及葡萄基因在原核、真核表達(dá)系統(tǒng)中高效表達(dá)提供了指導(dǎo)。