何春玲,齊 妍,沈 超*
(1.茂名市農業科技推廣中心,廣東茂名 525000;2.廣東石油化工學院生物與食品工程學院,廣東茂名 525000)
生長素是在植物的胚胎形成、發育、葉片成熟和衰老、不定根的形成、果實發育等生長過程中起著調控作用的一種關鍵的植物激素,能夠促進或者抑制靶基因合成產物。生長素響應因子(auxin response factor,ARF)是植物中廣泛存在的影響生長素信號轉導的重要轉錄因子,其特異性結合生長素響應元件TGTCTC,從而影響基因的表達,調控植物的生長發育。在1997年,Ulmasov等在擬南芥中鑒定出第一個生物素響應因子,將其命名為AtARF1。測序技術的發展極大地推動了基因組測序的發展,使越來越多物種的基因家族被鑒定,研究發現在不同物種間表現出差異化,且以多基因家族的形式存在。目前,除了擬南芥外,水稻、楊樹、番茄,玉米、大豆、葡萄、蘋果、香蕉和柳屬等植物的也陸續被鑒定出來。此外,miRNA與ta-siRNA轉錄后調控影響基因的表達。如在擬南芥中,microRNA160對17的調控會對擬南芥不定根的發育產生影響。植物種子的萌發是microRNA160通過調控10、16和17來完成。TAS3 ta-siRNAs 和2、3 和4結合,抑制其表達。
巨桉木材材質結構粗、紋理筆直、耐朽性適中、易劈裂,因此在造紙、纖維板、礦柱材原料等方面普遍應用,成為一種擁有高商業價值的樹種。同時,巨桉培育面積大,樹干通直,樹冠茂密,抵御外界惡劣環境能力強,易于生存,且萌芽能力強,一次造林能夠萌芽更新2代,廣泛用于人工造林,經濟效益巨大。巨桉基因組測序已經完成且已更新,極大地促進了其分子遺傳學研究,為巨桉功能基因組學研究奠定了基礎。筆者基于巨桉基因組和轉錄組數據,鑒定分析了巨桉基因家族的結構特征與組織表達模式,為后期進一步對巨桉基因進行功能解析提供基礎,彌補相關基因研究的不足。
從PlantFTDB(http://planttfdb.gao-lab.org/family.php?sp=Egr&fam=ARF)數據庫中下載巨桉的基因序列信息和蛋白質信息。在Pfam蛋白質家族數據庫(http://pfam.xfam.org/)下載基因的HMM Profile,并將其作為查詢(<0.001)搜索巨桉蛋白質序列數據。去除所有冗余序列后,將輸出的ARF蛋白序列提交給CDD(https://www.ncbi.nlm.nih.gov/cdd)、SMART(http://smart.embl-heidelberg.de/)和Pfam,以確認保守的基因結構域。所有非冗余高置信度基因均命名為巨桉基因,在巨桉中共分析和篩選出17個基因。
使用ExPASy的ProtParam tool(https://web.expasy.org/protparam/)進行巨桉ARF蛋白理化性質分析。利用SOPMA(http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html)進行二級結構分析。應用SWISS-MODEL(https://swissmodel.expasy.org/)進行建模,分析ARF蛋白的3級結構。
利用MEGA(https://meme-suite.org/meme/index.html)對巨桉基因序列進行分析,使用MEGA打開巨桉基因的fas格式氨基酸序列,用ClustalW算法對巨桉ARF氨基酸序列進行多序列比對,選擇距離模型p-distance構建NJ樹,設置Bootstrap method值為1 000。
從巨桉數據庫(https://eucgenie.org/)中獲取基因,將巨桉11條染色體上的位置信息數據導入Mapchart軟件進行染色體定位分析圖的繪制。巨桉基因結構以及Motif結構分析使用在線網站MEME(https://meme-suite.org/meme/tools/meme),將motif個數設定為10,其余參數均不變。
從桉樹功能基因組數據庫中的轉錄組數據分析巨桉基因家族成員各組織FPKM數值,利用TBtools(https://github.com/CJ-Chen/TBtools)軟件進行基因表達HEATMAP的繪制。
通過轉錄本數據CDD、Pfam和SMART保守結構域分析,共鑒定出17個巨桉基因,并對其進行理化性質分析。根據理化性質分析結果(表1)得知,巨桉基因的氨基酸數量為454~1 119個殘基,其中帶負電荷的殘基總數在52~98,帶正電荷的殘基總數在56~93,最短的03433由454個氨基酸殘基組成,最長的03293和02178由1 119個氨基酸殘基組成。蛋白質分子量為50 713.28~124 934.23 Da,其中03293的分子量最大,03433的分子量最小。巨桉ARF蛋白等電點處于5.37~8.38,其中04380、00923、02197 和03433等電點大于7.5,偏向于堿性。不穩定系數在45.96~72.98,均大于40.00,屬于不穩定蛋白,脂肪族指數在67.38~77.35,其中02480脂肪族指數最高,熱穩定性最強;03433的脂肪族指數最低,熱穩定性最差。親水性指數為-0.621~-0.276,親水指數較低,均小于0,為親水性蛋白。亞細胞定位分析表明巨桉ARF均定位于細胞核中。

表1 巨桉ARF蛋白的理化性質Table 1 Physico-chemical properties of Eucalyptus grandis ARF protein
根據二級結構預測結果(表2)可知,巨桉ARF蛋白二級結構均由α-螺旋、β-轉角、延伸鏈和無規卷曲組成。其中,無規卷曲占比最多,為44.41%~66.11%,其中02178占比最少,00588中占比最多。β-轉角占比最少,為2.57%~7.77%,04380中β-轉角占比最少,03293和02178中β-轉角占比最多。三級結構預測所示,巨桉ARF蛋白三級結構相似,主要以無規則卷曲為主(圖1)。
進化樹聚類分析結果顯示,17個巨桉基因可分為4個亞群,其中第1亞群含有2個(00588、02480),第2亞群含有4個(02838、04380、01240、00923),第3亞群含有5個(02090、00264、02065、02178、03293),第4亞群含有6個(02197、03551、01764、00888、00076、03433)成員(圖2)。親緣關系越近,基因的結構越相似。
該研究發現,基因在巨桉染色體上的分布不均勻(圖3)。其中,染色體Chr8和Chr9上不含基因,Chr4和Chr11上含有3個基因,Chr2、Chr3、 Chr6和Chr7號染色體上有2個基因,Chr1、Chr5和Chr10號染色體上含有1個基因。

表2 ARF蛋白二級結構Table 2 Secondary structure of ARF proteins

圖1 巨桉ARF蛋白三級結構預測Fig.1 Tertiary structure of Eucalyptus grandis ARF protein

圖2 巨桉ARF基因家族的系統進化樹Fig.2 Phylogenetic tree of ARF gene family of Eucalyptus grandis

圖3 巨桉ARF基因在染色體上的分布Fig.3 Chromosome distribution of ARF gene in Eucalyptus grandis
根據保守結構域分析結果,發現04380、03433、00588、02838、00923和01240不含AUX_IAA結構域(圖4)。且這6個ARF蛋白氨基酸殘基總數偏低(表1)。巨桉的基因Motif分析表明,17個基因中都存在Motif 1,02065、02480、03551、02178、03293、00264、00076含有的Motif最多共10個保守基序,04380含有的Motif最少只有Motif1、2、3、7共4個保守基序。基因結構分析表明,巨桉均含有外顯子和內含子結構,但不同基因所含有的外顯子數目存在很大差異,其中04380最少為2個(圖4)。這些結果暗示不同基因結構會對基因的功能產生不同的影響。
利用巨桉基因家族成員的不成熟木質部、成熟葉片、韌皮部、樹根、莖尖、3個花期和幼葉中的轉錄組數據進行分析。結果表明(圖5),巨桉基因存在組織表達特異性。其中,01764和00888在幼葉中表現出組織特異性,能夠調控幼葉的成熟和發育。00076和02178在未成熟木質部高量表達。02178、02090、02197、04380、00264、00588、00923、01240、02838、03293、02065和02480在開花的3個花期表達量高,其中04380、00264和00588在花部為特異性表達,暗示其可能調控花的生長發育。02090、03551、00923、01240和02838在根部高量表達,可能參與根部生長的調控。03433在幼葉和莖尖特異性表達,暗示其可能影響分生組織的發育。00076、02178、00923和02065在未成熟的木質部大量表達,可能影響植物對無機鹽和水分的吸收。

圖4 巨桉ARF基因的特征分析Fig.4 Characterization of ARF gene in Eucalyptus grandis

圖5 巨桉ARF基因組織特異性表達分析Fig.5 Analysis of tissue-specific expression of ARF gene in Eucalyptus grandis
測序技術的發展促進了生物學在基因組層面解析基因家族特征和功能解析中的應用。研究表明,基因具有重要的生物學功能,參與調控植物生長發育各個階段。該研究對巨桉基因進行鑒定分析,共篩選出17個基因,大多數含有3個保守結構域,且每個巨桉基因都含有B3結構域。根據理化性質分析屬于不穩定的親水性蛋白,均定位于細胞核。巨桉基因在染色體上分布并不均勻,其中Chr8和Chr9染色體上不含基因。根據構建NJ樹所得的結果,將17個巨桉基因劃分成4個亞族,與對葡萄和梨等的研究結果一致。該研究表明,基因在巨桉不同組織中均有表達,且存在組織特異性。例如02197在花發育的3個時期特異高量表達,預示著其可能影響巨桉的花期。00888和01764在幼葉特異性表達。03433在幼葉和莖尖特異性表達,暗示其能夠調控植物的分生組織發育。
該研究利用生物信息學分析在巨桉中鑒定出17個,并進一步綜合分析其理化性質、蛋白質結構、染色體定位、基因的結構特征、系統進化和組織表達,發現巨桉相對保守且表達模式存在組織特異性,為深入探究巨桉各個成員之間的結構功能關系奠定了堅實基礎。00076 和02178在未成熟木質部呈現高表達,推測其可能在巨桉木材形成過程中發揮重要作用,這是后續研究的重點。