馬爾合巴·艾司拜爾,成新琪,盧亞杰,李艷軍,劉 峰,秦江鴻,孫 杰*
(1.石河子大學 農學院,新疆生產建設兵團綠洲生態農業重點實驗室,新疆 石河子,832003; 2.石河子農業科學院 棉花研究所,新疆 石河子,832000)
活性氧(Reactive oxygen species,ROS)在植物不同器官各種代謝過程中產生[1]。植物正常的生長條件中,ROS 可以作為信號分子激活逆境響應基因的表達,使逆境脅迫的植物做出相應的逆境應答反應,以適應環境變化[2-3]。但是,在遇到生物和非生物脅迫時,植物體內產生活性氧的速率迅速增加,導致ROS 的積累[4]。ROS 氧化蛋白質巰基而生成二硫鍵(P-S-S-P)和谷胱甘肽的二硫鍵(P-S-S-G),導致很多以巰基為催化中心的蛋白質功能喪失,從而造成細胞凋亡[5-6]。植物體內ROS的產生與清除處于動態平衡,因此其濃度保持在一定范圍內不會對植物體產生損傷。谷氧還蛋白(Glutaredoxin,Grx)屬于硫氧還蛋白超家族,廣泛分布在各種生物體內。植物在逆境脅迫下體內ROS增加時,谷氧還蛋白會處于氧化狀態從而導致植物體內ROS的功能活性降低。谷胱甘肽(Glutathione,GSH)的協助下可催化氧化狀態的蛋白質二硫鍵或谷胱甘肽結合的二硫鍵還原為巰基,調節蛋白質氧化還原的狀態從而調節其蛋白質的活性,避免植物氧化性損傷[7-8]。目前已從擬南芥[9]、番茄[1]、水稻[10]、文心蘭“南茜”[11]等多種植物中分離到GRX基因,研究發現在植物抗逆和生長發育中GRX起著關鍵作用[12-13]。植物中的GRX根據其活性位點的保守殘基可分為CPYC-、CGFS-和CC-三個亞型[14-15]。CPYC型含有的活性位點是Cxx[C/S],CGFS亞型的活性位點為CGFS,結構與CPYC型相似。CC型GRX的活性位點為CC(M/L)(C/S),主要存在于高等植物[10]。在對水稻和擬南芥 GRX 蛋白的研究中發現具有 GRX 功能特性的GRL(GRX-like)蛋白,因此GRX基因拓展為 CPYC、CGFS、CC-type和 GRL四個類型[16]。從各類型GRX中,CC型和GRL型所占比例最多,推測GRL基因在進化過程具有重要作用。GRL基因成員與典型的GRX基因同源性低,其編碼蛋白質大多數具有八個保守的半胱氨酸,排列在C末端的兩個CxxCx7CxxC簇中,但不涉及活性位點基序CxxC/S[17]。水稻的GRL型基因OsGRL2可以在抵抗砷脅迫的過程中發揮作用[18]。近期研究還發現,GRL型谷氧還蛋白基因相對于其他類型基因更廣泛的參與非生物脅迫[19-20]。利用生物信息學方法對陸地棉GhGRL基因家族的進化關系、蛋白質序列、基因結構、保守基序和染色體分布進行了分析,并對該家族基因的表達模式進行了研究,為進一步揭示GhGRL基因的功能提供參考依據。
根據擬南芥GRL蛋白序列,從棉花數據庫(https://www.cottongen.org)和生物學數據庫NCBI(http://www.ncbi.nlm.nih.gov/Blast)中檢索,獲得陸地棉中候選的GRL基因及蛋白序列(Gossypium hirsutum,NAU,Version 1.1),通過NCBI Conserved Domain Search(CDD,http://www.ncbi.nlm.nih.gov/Instruct-re/cdd/wrpsb.cgi)平臺驗證其保守結構域。染色體定位、相對分子質量、等電點、編碼氨基酸長度等用在線軟件Expasy(http://web.expasy.org/protparam)計算。GhGRL家族成員的亞細胞定位預測利用在線軟件CELLO v2.5(http://cello.life.nctu.edu.tw/)。
使用 MEGA5.0進行進化樹分析,進化樹用鄰接法,1000次重復。GhGRL基因結構圖用在線工具GSDS(http://gsds.cbi.pku.edu.cn/)分析和繪制。
使用ClustalX和DNAMAN軟件對GhGRL氨基酸序列進行多重序列比對。GhGRL蛋白序列的保守基序利用在線軟件 MEME(http://meme-suite.org/)進行預測,motif最大數目為10,其他參數為默認值。
從基因組數據中提取基因在染色體上物理位置,用 Mapinspect軟件繪制染色體定位圖。以新陸早33號位材料,分別提取其根、莖、雄蕊、雌蕊、子房、葉片和花,采用有參基因組的轉錄組分析方法進行基因表達分析,結果利用TBTOOLS軟件進行處理。
利用擬南芥已鑒定的13個GRL基因及氨基酸序列為查詢序列,在陸地棉基因組數據庫和NCBI中進行比對篩選,在陸地棉中最終獲得32個GRL家族基因,依據各基因在染色體上的位置命名為GhGRL1至GhGRL32(見表1),其基因描述為Uncharacterized protein At5g39865。蛋白質理化性質分析結果表明,GhGRL基因編碼的蛋白質長度為 230~390 個氨基酸,相對分子質量為26.02~43.37 kd,理論等電點為4.56~9.48。這些GRL蛋白質中12個基因顯酸性,20個基因顯堿性,表明其酸堿性不同。亞細胞定位預測的結果表明,陸地棉基因編碼蛋白位于細胞核、葉綠體、質膜、線粒體、細胞質和胞外等細胞結構,其比例分別為36.4%、22.7%、18.2%、13.6%、6.8%、2.3%。

表1 陸地棉GhGRL基因家族Table 1 Information of GhGRL genes from Gossypium hirsutum
利用陸地棉和擬南芥的GRL蛋白質序列構建系統進化樹(見圖1)。由進化樹顯示兩種植物中所有的GRL蛋白質被分為了三個亞組,分別是:GRLI、GRL II、GRL III。其中,GRL I 亞組包含2 個GhGRL基因,1 個擬南芥GRL基因;GRL II 亞組包含7個GhGRL基因,3個擬南芥GRL基因;GRL III亞組中包含23個GhGRL基因和9個擬南芥GRL基因。

圖1 陸地棉和擬南芥GRL進化樹Fig.1 Phylogenetic tree of GRL proteins in Gossypium hirsutum and Arabidopsis thaliana
GhGRL蛋白二級結構預測發現,除GhGRL24、GhGRL26含有PTZ00449和GRX-GRX-Like兩種結構域外(圖2(a)),其他基因只含有GRX-GRX-Like一種保守結構域(圖2(b));多重序列比對分析發現,32個基因氨基酸序列的相似性為31.31%(見圖3),并且C末端具有兩個CXXCX7CXXC序列(見圖3-紅色框)。蛋白保守基序的分析發現,陸地棉GRL蛋白有10個比較保守的基序,分別命名為Motif1-Motif 10(見圖4)。這類基因C末端均包含motif 1、motif 2、motif3、motif4四個保守基序,同時這四個基序與GRL蛋白的GRX-GRX-Like結構域(cd0301)相互重疊(見表2)。32基因中,GhGRL1、GhGRL3包含的保守基序最多,具有8個保守基序。

圖2 GhGRL 蛋白保守結構域預測Fig.2 Predicted conserved domains of GhGRL proteins

圖3 GhGRL氨基酸多重序列比對Fig.3 Alignment of multiple GhGRL domain amino acid sequences

圖4 陸地棉GRL蛋白基因基序Fig.4 Motifs patterns of GRL protein sequences

表2 陸地棉GRL蛋白10個基序的信息Table 2 Information of 10 motifs of GRL protein
對GhGRL基因的結構分析發現,亞組Ⅰ的成員均沒有內含子,亞組ⅡGhGRL20有4個內含子,GhGRL5、GhGRL7、GhGRL17、GhGRL28、GhGRL29、GhGRL31均沒有內含子,亞組Ⅲ的GhGRL1和GhGRL3有1個內含子,GhGRL8和GhGRL21沒有內含子(見圖5)。陸地棉GhGRL基因在基因組上分布不均勻,每條染色體上的該家族基因的數目差別很大,如D04、A09、D09、和D11染色體各含有3個GhGRL家族基因,D03、A05、A11、A13、D13染色體各有2個GhGRL家族基因,A02、A03、A04、D05、A06、D06、A08、D08、A10、D10染色體各含有1個GhGRL家族基因(見圖 6)。

圖5 GhGRL基因結構Fig.5 Gene structure of GhGRL

圖6 GhGRL基因染色體分布Fig.6 Chromosomal distribution of GhGRL genes in Gossypium hirsutum
分別對GhGRL基因家族在棉花根、莖、雄蕊、雌蕊、子房、葉片和花中的表達模式進行分析,結果表明(見圖7),在根中,GhGRL8、GhGRL14兩個基因不表達,GhGRL22表現出最大表達水平;在莖中,GhGRL5、GhGRL8兩個基因不表達,GhGRL23表達水平最高;在雄蕊中,GhGRL12、GhGRL15、GhGRL29、GhGRL31四個基因不表達,GhGRL26表達水平最高;在雌蕊中,GhGRL12不表達,GhGRL26表達水平最高;在子房中,GhGRL5、GhGRL7、GhGRL8、GhGRL12四個基因不表達,GhGRL25表達水平最高;葉片中,GhGRL5、GhGRL7、GhGRL8三個基因不表達,GhGRL26表達水平最高;在花中,GhGRL5、GhGRL8、GhGRL12、GhGRL13、GhGRL29、GhGRL31七個基因不表達,GhGRL26表現出最大表達水平。相對于其他基因,GhGRL26在雄蕊、雌蕊、花和葉片四個組織中表達量都是最高。

圖7 GhGRL基因表達模式Fig.7 Expression patterns of GhGRL genes in Gossypium hirsutum
目前對棉花中GRL基因在全基因組水平的生物信息學分析仍未見到報道。本研究通過生物信息學分析,在陸地棉中鑒定了32個具有GRX-GRX-Like結構域的GRL基因,并根據這些基因在染色體上的位置信息分別命名為GhGRL1-GhGRL32。與擬南芥[9]、水稻[18]、木薯[16]等植物相比陸地棉GRL基因數目明顯較多,推測陸地棉谷氧還蛋白家族成員分化可能早于擬南芥、水稻、木薯的物種分化。本次實驗對擬南芥和陸地棉谷氧還蛋白基因進行系統進化分析發現,陸地棉和擬南芥的GRL基因分為3個亞組,每一個亞組都有與擬南芥同源的基因,同時每組中陸地棉谷氧還蛋白基因數量多于擬南芥,由此推測陸地棉中谷氧還蛋白家族基因可能發生了物種特異性擴增[21]。
蛋白質處于特定的亞細胞位置上才能有效發揮其功能,因此了解亞細胞定位對研究蛋白質功能有一定的幫助,在本研究亞細胞預測的結果表明,陸地棉基因編碼蛋白位于細胞核、葉綠體、質膜、線粒體、細胞質和胞外等細胞結構,這可能與基因功能分化的多樣性有關。陸地棉GhGRL多重序列比對發現其氨基酸同源相似性為31.31%左右,通過保守基序和功能結構域分析發現,陸地棉GRL蛋白有10個比較保守的基序,這些保守基序又以不同的排序分布,這可能是造成GRL家族蛋白功能多樣性的某一重要因素,而在這10個基序中,motif1、motif2、motif3、motif4四個保守基序編碼功能結構域,由此推斷,GhGRL基因編碼的蛋白在C末端具有比較保守的結構域。
類谷氧還蛋白家族基因的結構存在相似性,大部分該家族的基因不存在內含子,無內含子的基因通常可變剪切的發生概率很低,因此陸地棉GRL家族基因的功能可能會相對保守一些[22]。基因中小片段DNA的插入可以改變基因的功能,也可能通過自然選擇的方法使基因消失。而這些基因組中,只有GhGRL20有四個內含子和最長的基因長度,推測該基因在進化過程中,其結構或者功能發生了較大變化的緣故。染色體定位分析發現32個基因中,15個基因分布A基因組,17個基因分布D基因組,基因數量的不同可能與植物在進化過程中發生的基因復制、基因組重排、基因丟失都有關系,對此還有待進一步研究[23]。
擬南芥、木薯GRL家族基因在植物各個組織中廣泛存在[24-25]。在本次研究也發現GhGRL基因在根、莖、雄蕊、雌蕊、子房、葉片和花中均有表達,表明它們可能在陸地棉生長發育中發揮了廣泛的作用。相對于其他基因,GhGRL26在雄蕊、雌蕊、花和葉片四個組織中表達量都是最高,因此我們推測GhGRL26基因可能在棉花生長發育過程中起更重要的作用。
目前類谷氧還蛋白基因在植物中的生物功能逐漸受到重視。本研究根據擬南芥的AtGRL基因,在陸地棉中發現32個GhGRL基因,這些成員分為3個亞組,每個亞組成員具有相似的基因基序和基因結構,并且GhGRL基因具有GRL蛋白特有的結構域的和不同的染色體定位。大部分GhGRL基因在各個組織器官中均有表達。陸地棉GhGRL基因的鑒定及表達分析,為挖掘GhGRL基因的功能奠定了基礎。