田春育, 武自念, 李賢松, 李志勇*
(1.中國農業科學院草原研究所, 內蒙古 呼和浩特 010010; 2.內蒙古大學生態與環境學院, 內蒙古 呼和浩特 010021)
遺傳信息從mRNA流向蛋白過程中,密碼子發揮至關重要的作用。64種密碼子中,除3種編碼終止密碼子外,其余61種共編碼20種氨基酸,其中蛋氨酸(Met)和色氨酸(Trp)只由一種密碼子編碼,其余18種氨基酸由2~6種密碼子進行編碼,編碼同種氨基酸的不同密碼子被稱為同義密碼子。同義密碼子在不同基因組、甚至在同一基因組不同基因中使用的概率存在有一定的差異,同義密碼子的不均等使用現象即為同義密碼子的使用偏好性[1]。研究表明突變以及選擇壓力是影響密碼子使用偏好性的主要因素[2]。密碼子使用偏好性不僅有助于物種進化研究[3],同時還可作為基因表達標尺預測基因的表達水平,從而可從分子水平上了解進化過程[2]。
葉綠體是一個重要的半自主細胞器,能夠吸收二氧化碳釋放氧氣,同時將光能轉變為化學能為綠色植物提供能量[4]。由于葉綠體基因組母系遺傳的特點,其基因組較為穩定,在闡明物種間遺傳進化關系,探索植物系統發育關系方面起著關鍵的作用[5]。由于其基因組的高度保守性,葉綠體的一些區域常作為DNA編碼被使用[2]。目前,葉綠體基因組的各種研究已得到廣泛應用,如利用葉綠體基因組對物種進行親緣關系發育分析[6]以及對物種葉綠體基因組進行密碼子偏好性分析以闡明影響物種進化的主要因素[2]。
扁蓿豆(Medicagoruthenica)營養價值高,適口性好,抗逆性強,是一種優良的多年生牧草,廣泛分布于溫帶和寒溫帶的典型草原、沙質草原等植被類型區[7]。研究表明扁蓿豆可為苜蓿的遺傳改良提供有價值的基因[8]。外源基因的表達是葉綠體工程育種的關鍵環節,而外源基因的表達又會受到密碼子偏好性的影響[9]。前人已對扁蓿豆葉綠體基因組進行了充分研究,其基因組全長126 939 bp,屬蝶形花亞科IRL(Inverted repeat lacking)分枝。該基因組含有30個tRNA,4個rRNA及73個蛋白編碼基因即共107個基因。因此,本文基于扁蓿豆葉綠體基因組已公開的數據對偏好性特征以及影響因素進行分析,以期為扁蓿豆葉綠體基因組優良基因的選擇與利用提供一定的理論依據。
從NCBI數據庫下載扁蓿豆完整的葉綠體基因組(GenBank登錄號為NC_053371.1)。為了更加準確進行密碼子偏好性分析及其影響因素,本研究剔除掉長度小于300 bp基因編碼序列,并挑選起始密碼子為ATG,終止密碼子為TAG,TGA,TAA的50條蛋白編碼序列進行后續分析[9]。
1.2.1密碼子堿基組成分析 將篩選后的50條蛋白編碼序列整合到一個.fasta文件中,利用軟件CodonW 1.4.2分析密碼子適應指數(Codon adaptation index,CAI)、最優密碼子使用頻率(Frequency of optimal codons,Fop)、密碼子偏愛指數(Codon bias index,CBI)、相對同義密碼子(Relative synonymous codons usage,RSCU)和有效密碼子字數(Effective number of codon,ENC);利用在線程序CUSP(http://emboss.toulouse.inra.fr/cgi-bin/emboss/cusp)計算密碼子各位置的GC含量(GC1,GC2,GC3,GCall)。
同義密碼子的使用偏度一般用ENC值進行衡量,其取值范圍為20~61,值越大表示密碼子使用偏性越弱,即20表示每個氨基酸只使用了一個密碼子,61表示每個密碼子都被平均使用。RSCU表示某個密碼子的實際值與理論值間的比值,當RSCU>1時表明該密碼子實際值高于理論值,RSCU<1時表明其實際值低于理論值,RSCU=1該密碼子無偏好性[10]。
利用軟件SPSS 24對扁蓿豆葉綠體基因組中密碼子不同位置的GC1,GC2,GC3,GCall以及ENC進行相關性分析,以此作為判斷密碼子偏好性的依據。
1.2.2中性繪圖分析 中性繪圖分析可以初步用來判斷密碼子使用偏好性影響因素[11]。對密碼子每個位置的GC含量進行統計,分別用GC1,GC2,GC3表示密碼子第1位,第2位以及第3位的GC含量,以GC12(第1位和第2位GC含量的平均值)為縱坐標,GC3為橫坐標繪制散點圖進行中性繪圖,其中每一散點代表一個基因。同時進行回歸分析并在圖中添加回歸線,若回歸回系數接近于1,表明密碼子三個位置的堿基組成相似,密碼子的偏好性主要以突變影響為主,反之說明密碼子第1,2位與第3位的堿基組成有差異且偏好性主要以選擇影響為主[12]。

1.2.4PR2-plot分析 以G3/(G3+C3)為橫坐標,A3/(A3+T3)為縱坐標繪制平面圖進行PR2-plot分析。該圖中心點表示A=T且C=G,當A=T且C=G,密碼子的偏好型完全受突變影響。該分析可用于表示第三位堿基嘌呤和嘧啶的突變是否平衡[15]。
1.2.5最優密碼子確定 依據表1得到的結果,對扁蓿豆50條蛋白編碼序列的ENC值進行排序,從兩端各挑選10%(5個基因)構建高低表達庫。將高低表達庫的所有序列整合到一個.fasta文件中再次利用軟件Codon W 1.4.2 計算RSCU。RSCU>1的密碼子為高頻率密碼子,△RSCU(RSCU高表達- RSCU低表達)≥ 0.08的密碼子為高表達密碼子,同時滿足以上兩個條件的密碼子即為扁蓿豆的最優密碼子[16]。
利用Codon W 1.4.2對扁蓿豆葉綠體基因組進行分析,結果表明,GCall的平均含量為40.58%。不同位置的密碼子含量并不相同,密碼子第1位、第2位以及第3位的GC平均含量分別為46.33%,38.30%和37.10%(表1),GC3的平均含量最低,表明密碼子第三位偏好以A/U結尾。
有效密碼子數ENC表示基因中使用的有效密碼子的數量。ENC值介于20~61之間,值越大表示每個密碼子被平均使用,使用偏好性越弱,一般以ENC值為35作為區分密碼子使用偏好性強弱的標志[17]。Codon W 1.4.2分析結果表明,扁蓿豆50條CDS序列ENC值介于35.77~56.62之間且全部大于35,表明扁蓿豆的密碼子使用偏好性較弱(表1)。

表1 扁蓿豆葉綠體基因組GC含量以及ENC值
對扁蓿豆葉綠體密碼子各項系數進行相關性分析,如表2所示,GCall與GC1,GC2,GC3均極顯著相關;GC1與GC2呈極顯著正相關,表明密碼子第一位與第二位的堿基組成具有一定的相似性,但與第三位有差異;ENC與GC3達到顯著相關水平,與GC1,GC2,GCall相關性不顯著,表明ENC值主要受GC3影響(表2)。

表2 扁蓿豆葉綠體密碼子50條CDS序列的相關系數分析
對扁蓿豆葉綠體密碼子RSCU值分析表明,RSCU>1的密碼子有30個,其中16個以U結尾,13個以A結尾,1個以G結尾(表3)。

表3 扁蓿豆葉綠體基因組相對同義密碼子使用度
中性繪圖分析(圖1)表明,GC3的取值范圍介于0.19~0.34之間,GC12的取值范圍介于0.30~0.53之間。基因全部落在對角線以上,GC12與GC3的相關系數為0.1685,回歸系數為0.2634,表明密碼子第1,2位堿基和第3位堿基組成存在差異但相關性不顯著,表明密碼子偏好性以選擇影響為主。

圖1 中性繪圖分析
ENC-plot分析結果表明,大部分基因位于回歸曲線下方且據標準曲線的距離較遠,表明扁蓿豆密碼子偏好性主要以選擇影響影響(圖2)。ENC頻數分布表(表4)顯示,22個基因分布在—0.05~0.05之間,其ENC值與預期接近,接近標準曲線;28個基因分布在—0.05~0.05之外,其ENC值與預期相差較大,距離標準曲線較遠。頻數分布分析進一步表明扁蓿豆葉綠體基因組密碼子的偏好性受選擇影響較大,受突變壓力影響較小。

圖2 ENC-plot分析

表4 ENC頻數分布表
對扁蓿豆葉綠體密碼子進行PR2-plot分析,結果如圖3所示。其中只有1個基因位于中線上,位于右下方的基因最多,從而表明密碼子第三位的使用具有偏好性,并且堿基T的使用頻率大于堿基A,堿基G的使用頻率大于堿基C。以上結果進一步表明扁蓿豆葉綠體密碼子使用偏好性不僅受到突變的影響,同時也受到其他因素的影響。

圖3 PR2-plot分析
將扁蓿豆葉綠體50條CDS序列的ENC值由高到低排列,從兩端分別選取10%(各5個)構建高低表達庫,利用Codon W 1.4.2分析高低表達庫的RSCU,并計算ΔRSCU值(ΔRSCU=RSCU高表達庫- RSCU低表達庫)(表5)。分析結果表明,ΔRSCU≥0.08,即高表達優越密碼子共有17個,其中5個以A結尾,6個以U結尾,5個以G結尾,1個以C結尾(以*標注)。ΔRSCU≥0.08且RSCU≥1的密碼子為最優密碼子。在扁蓿豆葉綠體基因組中最優密碼子共11個(下劃線標注),分別為UUU,UUA,CUU,ACU,GCU,AAU,AAA,GAA,AGU,GGA以及CGA,其中6個密碼子以U結尾,5個以A結尾。

表5 扁蓿豆葉綠體基因組最優密碼子分析
葉綠體基因的堿基組成在植物的進化過程中起著十分關鍵的作用[18]。同義密碼子偏好性使用現象在各類植物中都有存在,研究表明,GC含量、tRNA豐度、蛋白質的結構與氨基酸的組成等都會對密碼子使用偏好性產生一定的影響[19]。GC含量是衡量生物體密碼子堿基組成重要指標[20]。在本研究中,扁蓿豆葉綠體基因組密碼子GC平均含量為40.58%,且GC1(46.33%)> GC2(38.30%)> GC3(37.10%),研究結果表明該物種傾向使用NNU/NNA類型的密碼子,該研究結果與蒺藜苜蓿的研究結果一致[21]。對扁蓿豆葉綠體基因組進行RSCU分析,RSCU值>1的30個密碼子中,只有一個以G結尾,無以C結尾的密碼子,該結果再次證明扁蓿豆葉綠體傾向使用NNU/NNA類型的密碼子。
密碼子ENC值通常介于20~61之間,ENC值越小表明密碼子的使用偏好性越弱,當ENC值為35時表明密碼子無偏好性[17]。分析表明,扁蓿豆葉綠體基因組密碼子最低ENC值為35.77,密碼子使用偏好性較弱。RSCU是指對于某一特定的密碼子在編碼對應氨基酸的同義密碼子間的相對概率,它去除了氨基酸組成對密碼子使用的影響。當某一密碼子的RSCU>1時,表示該密碼子使用頻率較高。扁蓿豆葉綠體基因組中,RSCU>1的密碼子共有30個,該研究結果與Liu和Xue對擬南芥以及Zhou等人對銀白楊的研究結果高度一致,該二者葉綠體基因組中RSCU>1的密碼子均為30個[22-23]。但不同物種高頻率密碼子并不保守,如蒺藜苜蓿、紫花苜蓿以及本研究中的扁蓿豆使用頻率最高的密碼子均為UUA[9,20],而在一些單子葉植物中,UCC為使用頻率最高的密碼子[24]。
中性繪圖及ENC-plot分析表明扁蓿豆葉綠體基因組的偏好性較弱,并且主要受到選擇壓力的影響。PR2-plot分析表明扁蓿豆葉綠體基因組的偏好性除受到選擇壓力的影響外,其余因素也會影響葉綠體密碼子的偏好性。因此,在扁蓿豆的進化過程中,其葉綠體密碼子偏好性主要以選擇影響為主,該結果與前人對燈盞花[25]、紫花苜蓿[9]、馬尾松[26]等的研究結果相類似,而籽粒莧[9]主要以突變影響為主,芒果[27]、圓錐南芥[28]等則受到突變和選擇等因素共同作用的影響。以此推斷密碼子偏好性影響因素可能與物種有一定的關系,但具體影響機制還需進一步探究。
通過分析,扁蓿豆葉綠體基因組中最優密碼子共11個,其中6個以A結尾,其余5個以U結尾,最優密碼子中沒有以G/C結尾的密碼子,以上結果與紫花苜蓿[9]、蒺藜苜蓿[20]等多數物種葉綠體基因組中最優密碼子的分析結果一致。最優密碼子結果表明在利用扁蓿豆進行基因工程研究設計外源基因時,選用以A/U結尾的密碼子在某種程度上可以提高外源基因的表達轉化效率,為科學制定種質保存和更新策略提供理論依據和實踐指導[29]。
扁蓿豆葉綠體基因組密碼子偏好性主要受到選擇壓力的影響,但其他因素也會影響扁蓿豆葉綠體基因組密碼子偏好性。該研究確定了11個最優密碼子,可為優良基因的選擇與利用提供一定的依據。