周 茜,陳 蕓,盧 函,王玉州,王繼蓮,趙惠新
(1.喀什大學生命與地理科學學院/葉爾羌綠洲生態與生物資源研究高校重點實驗室,新疆喀什 844000;2.新疆師范大學生命科學學院/新疆特殊環境物種保護與調控生物學實驗室/干旱區植物逆境生物學實驗室,新疆烏魯木齊 830054;3.和田師范專科學校生地學院,新疆和田 848000)
【研究意義】密碼子是核苷酸序列翻譯為氨基酸序列的聯通途徑,是遺傳信息準確傳遞的關鍵[1?2]。密碼子偏性(condon usage bias,CUB)是由于物種長期的進化,導致編碼同一氨基酸的密碼子(同義密碼子)可能有多種,而使用過程不隨機,通常根據環境的變化,密碼子使用的適應性也發生相應改變而形成。不同的物種,可依據自身特異的進化方式,從而選擇性的偏向使用某一特定密碼子,導致形成了該物種特有的密碼子使用偏性[1]。特定基因和物種對一種或幾種同義密碼子的使用偏好,在生物界普遍存在,影響特定基因的堿基相關組成和該基因的表達水平等[3]。最優密碼子(最優先被使用的密碼子),多出現在表達量較高的基因中[4]。評價密碼子使用偏好性的參數主要有有效密碼子數(effective number of codons,ENc)、同義密碼子相對使用度(relative synonymous codon usage,RSCU)、密碼子適應指數(codon adaptation index,CAI)和不同位置GC含量等[3]。進行密碼子偏性分析能為特定基因功能預測[5]、分子進化水平[6]、表達調控機制[7]、蛋白質結構[8]等提供重要參考。【前人研究進展】DREB轉錄因子即干旱應答元件結合蛋白質(dehydration responsive element binding protein),是AP2/EREBP轉錄因子蛋白家族中EREBP亞家族中的一員,能特異性的結合DRE順式作用元件;激活所調控下游基因的轉錄表達[9]。不僅在植物體生長發育和形態建成等生理活動的調控中發揮重要作用,而且與植物次生代謝、抗干旱、高鹽和低溫等生長抗逆反應緊密相關[10?11]。【本研究切入點】目前,已從擬南芥[12]、水稻[13]、大豆[14]、沙漠苔蘚[15]和香蕉[16]等植物中分離到DREB類基因。近年密碼子使用偏性在水稻[17]、擬南芥[18]、葡萄[19]和小麥[20]等中均有報道,還未見獨行菜LaDREB密碼子偏性的研究。【擬解決的關鍵問題】本研究根據本實驗室已經克隆到的獨行菜LaDREB基因進行了預測,對獨行菜LaDREB基因密碼子使用模式及其基因進化模式進行了分析,為獨行菜LaDREB基因的功能和轉基因研究提供理論依據。
獨行菜LaDREB克隆于本實驗室,序列全長639 bp,ORF長度633 bp,編碼210個氨基酸,在NCBI中注冊號為MT939484。
玫瑰花、歐洲油菜、毛果楊、薺、草莓、芥菜和菥蓂等26種植物的DREB基因序列從GenBank中獲得(表1)。
大腸桿菌、酵母菌、擬南芥和煙草等模式生物的基因組密碼子偏好性數據來源于Codon Usage Database。

表1 DREB基因編碼區序列Tab.1 Sources of coding sequence of DREB genes
密碼子使用頻率采用CodonW軟件和EMBOSS在線程序中的CHIPS(codon heterozygosity in a protein coding sequence)、CUSP(create a codon usage table)進行分析[21?22]。對獨行菜LaDREB基因及其他物種DREB基因的CDS(coding sequence)序列的ENc有效密碼子數,密碼子第1、2和3位上的GC含量(GC1、GC2和GC3)、密碼子各個堿基在第3位上的含量(A3s、G3s、T3s和C3s)、密碼子適應指數CAI和同義密碼子相對使用度RSCU等密碼子偏性的相關參數,進行運算分析。采用CUSP分析基因密碼子使用頻率。使用Excel和SPSS等軟件,將密碼子相關參數進行統計,進行ENc繪圖、中性繪圖和PR2分析(PR2?bias plot analysis)。
密碼子使用的偏性程度,用RSCU值評價,RSCU值=某一密碼子使用頻率/其無偏性使用時預期頻率。當RSCU值等于1,RSCU值大于l和RSCU值小于l時,分別表明該密碼子沒有使用偏好,使用頻率較高和使用頻率較低[23]。基因堿基組成偏性由GC3s的值進行評價[24]。密碼子使用頻率,能夠體現物種間使用密碼子的選擇差異。比值在0.5~2.0,表示兩物種密碼子使用偏性較小。比值≤0.5或≥2.0時,表明兩物種密碼子偏性有較大差異[25]。基因有效密碼子數ENc的值,在20~61,偏性越強,值越接近20,值越大,偏性相對較弱且稀有密碼子增多[26]。
使用SPSS19.0進行密碼子使用選擇性相關參數等進行分析,并針對不同物種DREB基因RSCU的值,把密碼子使用選擇偏性聚類。將每個基因作為一個對象,用歐氏平方距離表示,采用離差平方和法[27]表示基因間的距離。使用MEGA 7.0鄰接法構建27個物種DREB基因的CDS序列進化樹。
2.1.1 獨行菜LaDREB基因的GC、ENc和CAI分析 利用CHIPS和CodonW程序,計算得到獨行菜LaDREB基因的EN值為50.49c,GC含量為0.456,GC3s值為0.337。ENc值>35,接近61,表明在獨行菜LaDREB基因編碼時,對密碼子選擇偏性較弱,表達水平可能偏低(表2)。獨行菜LaDREB基因編碼區GC含量為45.6%,與AT含量(54.4%)基本相當。獨行菜LaDREB基因中密碼子的GC、GC1、GC2和GC3值分別為0.456、0.521、0.460和0.384,表明獨行菜LaDREB基因密碼子第3位堿基偏好使用以AT結尾。獨行菜LaDREB基因編碼區的密碼子適應指數CAI值為0.262,遠小于1,進一步表明獨行菜LaDREB基因對密碼子偏性弱。
2.1.2 獨行菜LaDREB基因的RSCU分析 采用EMBOSS對獨行菜LaDREB基因的RSCU值進行計算,使用CodonW程序獲得獨行菜LaDREB基因密碼子的使用頻率。如表2,在獨行菜LaDREB基因中,密碼子RSCU值大于l.5的個數為11,RSCU值大于l的個數為24。在使用偏性較強的密碼子中,GCU的RSCU值為2.61,GCC的值為0.70,GCG的值為0.00,GCA的值為0.70,表明編碼獨行菜LaDREB的丙氨酸殘基的4種密碼子中主要使用GCU,對該密碼子有較強的選擇偏性。

表2 獨行菜LaDREB基因密碼子的使用偏性分析Tab.2 Analysis of codon bias of LaDREB gene in Lepidium apetalum
密碼子RSCU值>2的有GCU、CGU、AUU和CCA,這4種密碼子也具有較高的使用偏性。CUA、AUC、CAC、CCU等10個密碼子的RSCU值=0,表明獨行菜LaDREB基因不使用這10個密碼子。AUG、ACU、ACA、UGG和CGA密碼子的RSCU值為1,說明這5個密碼子無使用偏性。其余22種密碼子的RSCU值<1,使用偏好小于預期值。然而GCU、CGU、AUU和CCA在各自的同義密碼子中被優先使用,導致ENc值的偏離61。
2.2.1 不同物種CAI和ENc分析 不同物種間DREB基因密碼子具有不同的使用選擇偏性。如表3,27個物種DREB基因密碼子使用偏性存在差異。不同單雙子葉植物DREB基因的CAI值范圍為0.14~0.261,差異較小,GC值與ENc卻有較大差異。27個物種DREB基因的ENc平均值為49.571,均大于35,表明27個物種基因的密碼子使用偏性和表達水平有一定差異,且選擇使用偏性和表達水平都較低,這與CAI指數驗證結果一致。高山離子芥的ENc值=61,表明其密碼子使用選擇上無偏性。雙子葉植物中歐洲白樺、獼猴桃、毛果楊、草莓、胡楊、小葉楊、河北楊、杧果、茄、番木瓜等的DREB基因與獨行菜LaDREB基因的密碼子使用偏性相關參數相似,ENc值的平均值為49.17,值的范圍為37.46~61.00。表明雙子葉植物DREB基因在翻譯過程中,選擇密碼子編碼氨基酸時偏性不強;但單子葉植物DREB基因的ENc值在53.56~55.50,平均值54.53,高于雙子葉植物的ENc值,暗示這些植物DREB基因密碼子使用偏性較雙子葉弱,其表達量可能較雙子葉植物更低。

表3 不同物種DREB基因密碼子使用偏性相關參數Tab.3 Preference related parameters of Analysis of DREB gene condons among different species
2.2.2 不同物種RSCU和GC含量分析 利用RSCU值分析,27個物種中RSCU值>1的密碼子,數目最多的是菥蓂,為28個;最少的是白番紅花,為21個。RSCU值>1.5的密碼子,數目最多的是河北楊,為18個;最少的是高山離子芥,為7個(表3)。
27個物種GC3值為0.314~0.759,均值為0.525;GC含量值為0.430~0.608,均值為0.515。GC含量分析如表3,雙子葉植物的GC、GC1、GC2和GC3含量的均值為:51.55%、53.68%、48.32%和52.66%,GC含量為52.11%。說明雙子葉中DREB基因對GC的使用偏性更強,密碼子第一位堿基偏好使用GC,第二位偏好使用AT,第三位偏好使用GC。單子葉植物的GC、GC1、GC2和GC3含量的均值為:50.78%、53.74%、48.37%和50.23%,說明單子葉植物中的DREB基因也對GC有較強使用偏性。不同物種DREB基因對GC和AT結尾的密碼子偏性不同,其中,10個雙子葉植物(獨行菜、野生多毛番茄、河北楊、寬葉獨行菜、茄、小葉楊、胡楊、水曲柳、杧果和擬南芥)GC含量小于0.5,密碼子使用偏向于AT;其余單雙子葉植物均對GC有一定使用偏性,歐洲白樺對GC使用偏性最強。獨行菜LaDREB基因與雙子葉植物相比有關參數在一定程度上相似,說明該基因在密碼子使用特性上與雙子葉植物密碼子一致。

圖1 DREB基因密碼子使用偏性聚類分析Fig.1 Cluster analysis dendrogram of DREB genes based on codon bias
2.2.3 不同物種DREB基因CDS序列及RSCU值的系統聚類 對27個物種DREB基因的密碼子偏性分析聚類。如圖1,27個物種聚為兩大類,多毛番茄、水曲柳、茄、杧果和4種楊柳科植物屬于I類,其中4種楊柳科楊屬植物歸為一小類,2種茄科植物歸為一小支。剩余的19種屬于II類,在II類中,煙草、沙棘、2種單子葉植物和9種十字花科植物聚為一小類,其中單子葉植物白花馬藺和白番紅花單獨歸為一小支。同屬于獨行菜屬的寬葉獨行菜和獨行菜DREB基因沒有在進化樹中聚為一小類。整體上看,分類物種較近的DREB基因密碼子使用頻率也相近。但也存在分類相近而DREB基因密碼子使用頻率并不一定相近,如煙草和另外兩種茄科植物的密碼子偏性卻相對較遠。可見不同物種之間的DREB基因密碼子,使用偏性和物種進化兩者有時并完全相關。一些物種在進化過程中偏性使用某個獨特的密碼子,而DREB基因存在著豐富的密碼子偏好性。

圖2 DREB基因CDS序列系統聚類分析Fig.2 Cluster analysis of CDS sequences of DREB genes
對27個不同物種DREB基因CDS序列構建系統發育樹(圖2),發現27個物種基本按照十字花科植物和其他植物進行分類,單子葉植物和4種楊柳科楊屬植物就仍舊各歸為一小類,與密碼子偏性聚類分析結果相似。而親緣關系較近的十字花科獨行菜屬的獨行菜與寬葉獨行菜在CDS序列構建的進化樹上歸為了一小類。整體上DREB基因CDS序列的聚類分析結果與密碼子偏性在不同植物中存在一致性,也與傳統的物種分類基本一致,在一定程度上反映了DREB基因的一些特殊進化規律。但CDS序列的聚類分析結果也有一些與傳統的物種分類規律不完全吻合,如茄科煙草的DREB基因的CDS序列與十字花科擬南芥同源性高于與茄科的茄及多毛番茄的同源性。
2.2.4 不同DREB基因的中性分析 采用SPSS19.0對GC、GC1、GC2、GC3和ENc,采用兩兩Pearson關聯性分析。發現GC與GC1、CG3呈極顯著正相關性(P<0.01),說明不同物種DREB基因第1和3位上的堿基成分有相似,見表4。不同物種DREB基因的中性分析見圖3。發現GC3的范圍為0.314~0.759,GC12的范圍為0.478~0.549,波動較小,多數DREB基因分布在回歸線左右。GC3和GC12的極顯著相關系數是0.595,線性回歸系數是0.080 2,對比Pearson結果相一致。表明不同物種DREB基因之間堿基組成差異不大,突變壓力是影響密碼子偏性的使用選擇的關鍵[28?31]。獨行菜LaDREB基因在回歸線,距雙子葉植物分布的位點較近,距單子葉植物分布位點較遠,與兩種聚類分析結果相一致。

表4 DREB基因密碼子成分相關性分析Tab.4 Correlative analysis of condon components of DREB related genes

圖3 DREB相關基因密碼子使用偏好中性繪圖Fig.3 Neutrality plot on the codon usage bias of DREB related genes

圖4 DREB相關基因的ENc?plot分布Fig.4 Effective number of codons used in DREB related genes
2.2.5 不同物種DREB基因ENc分析 對不同物種的DREB基因ENc值進行分析。結果顯示(圖4),ENc與GC3的期望曲線,能夠說明突變壓力與兩者的對應關系,假如基因的對應的點在曲線上,表明該基因的密碼子在使用選擇上由突變壓力所決定[32]。菥蓂、煙草和蘿卜的基因在期望曲線上面,歐洲油菜、芥菜、擬南芥和茄等10個物種的基因分布在期望曲線下面,其余基因位點分布在期望曲線的上面。獨行菜的基因靠近曲線與標準曲線分布趨勢相吻合,且離期望曲線較近。表明獨行菜LaDREB基因與相關基因的密碼子使用偏性,堿基突變對其影響較大,和中性繪圖結果一致。但一些基因離期望曲線位置遠一些,表明DREB基因密碼子的使用偏性的影響因素,除受堿基突變,其他因素如基因表達量、自然選擇和基因長度等也對其有影響[33?34]。
2.2.6 不同物種DREB基因PR2分析 由圖5可知,PR2分析27個物種DREB基因的A3/(A3+T3)或G3/(G3+C3)值均不在0.5左右。當比值不在0.5時,表明氨基酸在同義密碼子的選擇時,堿基突變和其他因素都會影響其偏性[35]。從橫坐標顯示,位點主要集中在<0.5的區域內,表明密碼子在G與C之間偏向于C結尾。從縱坐標顯示,位點大部分在小于0.5的范圍值內,表明密碼子使用選擇時在A與T之間也具有偏好性,偏向于A結尾。可知自然選擇等其他壓力因素,在物種DREB基因之間的基因家族進化中發揮著一定的作用。
獨行菜的遺傳轉化體系仍未完善,獨行菜基因還需其它完善的遺傳轉化受體來進行異源轉化。將獨行菜LaDREB基因與大腸桿菌、酵母菌、擬南芥、煙草、番茄、水稻和玉米基因組中不同密碼子選擇使用的頻率相比較。如表5,獨行菜LaDREB基因與大腸桿菌和酵母菌,分別有12和17個密碼子偏性差異明顯,說明大腸桿菌原核表達體系更適合獨行菜LaDREB基因的異源表達。分析比較獨行菜LaDREB基因與模式植物擬南芥、煙草和番茄密碼子使用偏性,發現其與擬南芥、煙草和番茄的基因組選用頻率差異較大個數分別為12、13和13;而水稻為12,玉米為20。表明擬南芥和水稻在獨行菜LaDREB基因遺傳轉化功能驗證中,都是適用的異源受體。而擬南芥與獨行菜同屬十字花科,與獨行菜親緣關系較近,能作為獨行菜瞬時表達的良好受體。

圖5 奇偶偏好偏差性分析Fig.5 Parity rule 2(PR2)bias plot

表5 獨行菜LaDREB基因與模式生物基因組密碼子使用偏性比較Tab.5 Comparison of codon usage preference between LaDREB in Lepidium apetalum and other representative organisms

續表5
生物在長期進化中,形成了保證核苷酸與氨基酸之間的遺傳信息能夠準確傳遞特定的密碼子選用偏好。基于基因突變和環境選擇等因素[36?38],自然選擇使基因表達時偏向使用最優密碼子,然而長期的進化突變使得基因中出現一些非最優的密碼子,最終導致物種基因在使用密碼子時表現出偏性。
本研究發現,獨行菜LaDREB基因密碼子的GC含量為45.60%,ENc值為50.49,CAI值為0.262。說明獨行菜LaDREB基因的大部分密碼子以AT結尾,堿基選用時偏向于GC,但選擇偏性弱,且基因表達水平可能不高。根據獨行菜LaDREB基因的RSCU值分析,GCU、CGU、AUU和CCA這4個密碼子具有極強的使用偏性。
物種間DREB基因密碼子使用偏性分析發現:單子葉植物以G/C結尾的密碼子居多,與Wang等[39]研究結果一致。雙子葉植物的也大部分以GC結尾密碼子,但獨行菜、毛果楊、胡楊等偏向以AT結尾的密碼子。造成上述結果的原因,可能是基因的功能和類型有差異[40];也可能是不同植物的DREB基因在選擇進化的過程中逐步選擇偏向與以GC結尾的密碼子,使其能夠與基因的功能相適應。獨行菜LaDREB基因密碼子相關參數與雙子葉植物相似,與十字花科植物最近。表明獨行菜LaDREB基因密碼子使用偏性與雙子葉植物對密碼子使用的選擇偏性相似,且親緣關系越近越相似。
親緣關系越近的物種,密碼子使用偏好也越相近[41]。不同基因的密碼子特殊選用偏性,造成聚類結果有時不能完全準確的反映真實系統分類和物種親緣關系[8]。密碼子使用偏好性聚類只在分類較小的單元中可作為分類依據,而在較大物種樣本中,只能用于補充傳統分類[42]。本研究中,RSCU和CDS聚類分析有一些差異。CDS聚類分析,將27個含DREB基因的物種分為兩大類,同屬獨行菜屬的獨行菜LaDREB基因與寬葉獨行菜DREB基因單獨歸為一小類。在聚類分析中,寬葉獨行菜和獨行菜并沒有聚為一小類,但單子葉植物和4種楊柳科楊屬植物就仍舊各歸為一小類,與密碼子偏性的RSCU聚類分析結果相似。因此,RSCU和CDS聚類分析結合有利于分類的精確,能更客觀的體現物種間DREB基因的進化規律。
密碼子使用偏好性受自然選擇和受突變壓力的影響較多。然而密碼子偏好性還與基因堿基組成、tRNA豐度、GC含量、基因表達水平、基因長度、甲基化、氨基酸保守性和mRNA二級結構等有關[43?44]。本研究對27個物種DREB基因的密碼子進行PR2偏好性分析、中性繪圖和ENc繪圖,結果表明DREB基因的密碼子偏好性受堿基突變影響較大,自然選擇等其他因素對其密碼子偏性影響較小。
獨行菜LaDREB基因密碼子使用頻率分析發現,大腸桿菌原核表達系統更適用于獨行菜LaDREB基因異源表達。但仍要根據使用的實際情況對某些密碼子進行優化。通過與模式植物對比,得知獨行菜與擬南芥、水稻的偏性差異一樣最小,且擬南芥和獨行菜親緣關系較近同屬于十字花科植物,故擬南芥是獨行菜LaDREB基因最理想的遺傳轉化受體。但LaDREB基因是否具有較高的表達水平,還需要綜合mRNA的結構、轉化效率和轉錄后水平調控等因素。因此,獨行菜LaDREB基因在異源植株高效遺傳表達仍需深入研究。
本研究利用多種生物信息學分析方法,獲得了獨行菜LaDREB基因密碼子使用偏性特征,明確了較合適的遺傳表達受體。但還需根據情況在使用獨行菜LaDREB基因時,對其密碼子進行相應的改造和優化,以提高其在遺傳轉化研究中的表達效率。