時小東,肖含磊,秦小波
(1.成都大學 農業農村部雜糧加工重點實驗室,四川 成都 610106;2.四川省自然資源科學研究院,四川 成都 610015)
藜麥(Chenopodiumquinoa)是原產于南美洲安第斯高原的一種糧食作物,是聯合國糧農組織認定的唯一的單一植物即可滿足人體基本營養需求的食物。同時,由于藜麥具有耐鹽堿、海拔適應性強等優勢,它已經被引種至我國多個高海拔地區,被認為是具有發展前景的替代作物[1-2]。藜麥籽粒營養豐富,富含高品質蛋白,且氨基酸配比均衡,能夠滿足人類的必需氨基酸需求,且不含有麩質[3]。此外,藜麥籽粒含有豐富的脂肪酸,其脂肪酸含量高于常見谷物。研究表明,藜麥籽粒的脂肪酸主要為亞油酸、亞麻酸和油酸等不飽和脂肪酸,含量超過80%;其脂肪酸中亞油酸與亞麻酸的比值(LA/ALA)為6.2,符合FAO/WHO的推薦值[4]。隨著消費者對膳食脂肪要求的提高,與其他商業化的功能性油脂相比,藜麥具有更大的油料開發潛力。
在植物種子中油脂合成過程十分復雜,涉及多種關鍵基因和限速酶。在模式植物擬南芥中,油脂合成相關途徑已經較為清晰,根據在細胞活動中功能的差異,可將油脂合成相關基因分為9類,涉及葉綠體中脂肪酸的合成、內膜系統的膜脂合成、油脂合成與存儲、脂質信號等,確定了與油脂合成相關的基因600多個[5-6]。在油料作物大豆中,通過同源對比的方式鑒定得到與油脂合成相關的基因1100多個,這些基因和涉及通路對植物油脂含量具有重要的影響[7]。與油脂儲存蛋白相關的基因在植物油脂合成中發揮著非常重要的作用[8]。研究表明,在擬南芥中油脂儲存蛋白涉及基因19個,在大豆中油脂儲存相關基因有22個[5,8]。通過對油脂合成中關鍵基因的修飾和表達調控,能夠達到增加植物油脂產量的目的。
隨著分子生物學和測序技術的發展,藜麥基因組測序工作已經完成,目前已經獲得了高質量的藜麥參考基因組序列信息[9]。這對于藜麥關鍵基因的挖掘和分析,以及在分子水平上改造油脂從而提高產油量具有重要意義。基于藜麥的組學數據,我們對藜麥的油脂儲存蛋白進行了鑒定和分析,并系統地分析了其理化信息、亞細胞定位、二級結構、染色體定位,以及在不同組織中的表達情況,以期為進一步研究藜麥籽粒油脂調控途徑和品質改良奠定基礎。
通過NCBI(https://www.ncbi.nlm.nih.gov/)下載藜麥的基因組數據(ASM168347v1);大豆的基因組數據下載于JGI(https://genome.jgi.doe.gov/portal/);擬南芥的基因組數據下載于TARI(https://www.arabidopsis.org/)。根據報道[10]提取擬南芥和大豆油脂儲存相關的蛋白序列。
以提取的擬南芥和大豆油脂儲存基因的蛋白序列作為查詢序列信息,利用BLAST軟件進行同源搜索[11],篩選參數為E-value<10-5。根據對比結果獲得藜麥中油脂儲存基因的蛋白序列和基因序列等信息。
使用ExPaSy(https://web.expasy.org/protparam/)對篩選序列的氨基酸數目、分子量、理論等電點等信息進行預測;使用SOPMA(https://npsa-prabi.ibcp.fr/cgi-bin/)對α-螺旋、延伸鏈和β-轉角等二級結構進行預測。分別利用ProtComp(http://linux1.softberry.com/berry.phtml?group=programs&subgroup=proloc&topic=protcompan)和SignalP 4.1(http://www.cbs.dtu.dk/services/SignalP/)對藜麥油脂儲存蛋白進行亞細胞定位和信號肽分析,參數設置值為默認值。
根據公布的藜麥基因組結構數據文件,對藜麥油脂儲存蛋白基因的染色體定位、內含子和外顯子結構進行分析和整理。使用ClustalX 2.1對獲得的氨基酸序列進行多序列對比;再利用MEGA 7.0中的鄰接法(Neighbor-Joining, NJ)進行系統進化樹構建,其中的bootstrap值設為1000。
基于本課題組構建的藜麥根、莖、葉、花和種子的轉錄組測序數據,用FPKM值表示基因的表達量,對藜麥不同組織中油脂儲存蛋白基因的表達水平進行比較。
基于報道的擬南芥和大豆的油脂儲存蛋白序列,通過BLASTp進行對比分析和鑒定,從藜麥的基因組數據中鑒定得到了15條油脂儲存蛋白,各蛋白的氨基酸序列差異較大。利用藜麥基因組注釋信息將15條藜麥油脂儲存蛋白基因分別定位在染色體上,對應基因分布于9條染色體,其中分布于2號染色體和7號染色體的序列較多,各為3條;其次是染色體1號和4號,均有2條油脂儲存蛋白基因分布;其余染色體上分布數目各為1條。
利用生物信息學軟件對得到的藜麥油脂儲存蛋白序列進行分析,其氨基酸數目為153~675;其中氨基酸數目大于500的蛋白有4個,氨基酸數目小于200的蛋白有6個(表1)。其蛋白質分子量介于16093.50~74842.52 kDa。與大豆中油脂儲存蛋白的氨基酸數目(165~1012個)和蛋白質分子量(19197.0~113732.9 kDa)相比,藜麥中跨度相對較小。理論等電點分析表明,15個藜麥油脂儲存蛋白的等電點介于5.7~10.1,其中6個蛋白的等電點小于7.0,表現為酸性;9個蛋白的等電點為8.5~10.1,在堿性范圍內,說明藜麥種子中的油脂儲存蛋白含有較多的堿性氨基酸。
對藜麥油脂儲存蛋白不穩定指數的分析結果(表1)表明:Cq9024、Cq9021、Cq47176等8個蛋白的不穩定指數小于40.0,為穩定蛋白;其余7個蛋白的不穩定指數大于40.0,為不穩定蛋白。說明藜麥油脂儲存蛋白的穩定性和不穩定性數目相當。
對藜麥油脂儲存蛋白的脂肪指數和疏水性進行分析,結果表明:脂肪指數大于100的蛋白數量為2個;13個藜麥油脂儲存蛋白的脂肪指數小于100(表1),說明絕大多數藜麥油脂儲存蛋白表現為疏水性。

表1 藜麥油脂儲存蛋白的一級結構
研究表明,蛋白質的二級結構是衡量蛋白質穩定性的重要因素,α-螺旋和β-轉角結構具有高度的穩定性,為蛋白質的有序結構;而無規則卷曲為蛋白質的無序結構。對15個藜麥油脂儲存蛋白的二級結構進行預測,結果表明:藜麥油脂儲存蛋白的二級結構以無規則卷曲和α-螺旋為主,β-轉角最少,說明藜麥中油脂儲存蛋白的二級結構整體表現為穩定(表2)。
對蛋白序列進行信號肽分析,在藜麥油脂儲存蛋白中未發現信號肽序列。利用在線工具對15個藜麥油脂存儲蛋白進行亞細胞定位分析,發現9個藜麥油脂儲存蛋白定位于胞外;定位于內質網和質膜的蛋白數目均為3個(表2),表明藜麥油脂儲存蛋白基因可以在不同的細胞結構中發揮功能。

表2 藜麥油脂儲存蛋白的二級結構預測和亞細胞定位結果
基于氨基酸序列,對藜麥油脂儲存蛋白基因進行系統進化樹構建,結果如圖1所示。根據進化樹的分枝情況,可以將藜麥油脂儲存蛋白基因分為6個分枝:第一類分枝含有的基因數目最多(5個),包含Cq19333、Cq41585、Cq12793、Cq47176和Cq58234;其次是第五類分枝,含有3個基因,分別為Cq26888、Cq56385、Cq31514;第二類分枝含有的基因數目最少,僅含有Cq26935;其余分枝的基因數量均為2個,其中第三類分枝包含Cq3546、Cq39827,第四類分枝包括Cq9024、Cq9021,第六類分枝包括Cq1102、Cq37552。與其他分枝相比,第二類分枝較長,表明Cq26935基因發生較早,其可能經歷了較為復雜的進化進程。同時,各分枝基因具有相似的基因結構和特征,例如每個分枝基因編碼蛋白的亞細胞定位均相同,且具有類似的二級結構。

圖1 藜麥油脂儲存蛋白基因的系統進化樹
基于藜麥根、莖、葉、花和種子的轉錄組測序數據,獲得了15個油脂儲存蛋白基因的FPKM值。結果表明:15個油脂蛋白基因在根、莖、葉和花中的表達聚類在一起;在種子組織中的表達單獨聚類(圖2)。結合系統進化樹來看,藜麥油脂儲存蛋白基因的表達情況與進化具有一定的相似性。第一分枝和第三分枝的7個基因表達模式相似,在種子中的表達量均明顯上調。其中,Cq47176在種子中特異表達,在其他組織中均無表達;Cq12793和Cq3546在根、莖和葉中無表達,在花和種子中表達,且在種子中的表達量顯著高于在花中的表達量,推測這2個基因在重要生物學作用的發揮中具有一定的關聯性。

圖2 藜麥種子中油脂儲存蛋白基因的表達水平
隨著測序技術和生物信息學方法的不斷發展,分子生物學數據呈現出爆炸式的增長,如何對生物學數據進行深入分析和應用成為當前生物學研究的熱點之一。研究表明,藜麥為異源四倍體植物,由祖源的A和B兩個二倍體品種雜交而來,其質量性狀易表現出雙染色體遺傳現象[12]。Jarvis等應用基因組測序的方法估計藜麥的重組發生在330萬~630萬年前,并且其可能分別在高原和沿海環境被獨立馴化[9]。本文的系統分析表明,15個藜麥油脂蛋白被分為6個分枝,第一分枝和第二分枝成員最多,第三分枝和第四分枝成員較少。每個分枝的基因均具有相似的結構和定位結構,表明其在功能上存在相似性或功能冗余。第一分枝成員的枝長較長,說明這些基因發生較早,可能在馴化中經歷了復雜的進化。
藜麥籽粒中脂肪含量是玉米的兩倍,且含有豐富的必需脂肪酸,已經被應用在保健產品、面包營養添加劑、高端化妝品等產品中,因此藜麥是具有潛力價值的作物[13]。石振興等[14]對國內、玻利維亞、美國、秘魯等國內外60份藜麥籽粒的品質進行了分析,結果表明其脂肪酸方面的變異范圍較小,這可能與藜麥油脂相關基因的多樣性較低有關。油脂合成相關基因是一個重要的家族,涉及多種功能基因和途徑;油脂儲存相關的基因雖然數量較少,卻發揮著重要的作用[15]。本研究的同源對比分析得到了15個藜麥油脂儲存蛋白基因,分布于9條染色體上。對藜麥油脂儲存蛋白序列的分析表明,與大豆油脂儲存蛋白相比,15個基因的蛋白序列氨基酸數目、分子量等差異較小,可能與藜麥在進化過程中片段的丟失和保留機制有一定的相關性。
與大豆相似,藜麥油脂儲存蛋白的二級結構主要為無規則卷曲和α-螺旋,且主要定位于內質網、胞外和質膜,均無信號肽位點。雖然藜麥和大豆在油脂儲存蛋白的氨基酸數目等方面存在差異,但二級結構和亞細胞定位等方面具有相似性,這可能與其功能的發揮具有相關性。同時,13個藜麥油脂儲存蛋白的脂肪指數小于100,說明絕大多數藜麥油脂儲存蛋白表現為疏水性。理論等電點分析表明,15個藜麥油脂儲存蛋白的等電點介于5.7~10.1,其中9個蛋白的等電點為8.5~10.1,在堿性范圍內,說明藜麥油脂儲存蛋白含有較多的堿性氨基酸,這與前人的研究結果[8]一致。從不穩定指數的分析結果可知,藜麥油脂儲存蛋白的穩定性和不穩定性蛋白數目基本一致,由此推測藜麥的一部分油脂儲存蛋白可能受外界環境條件的刺激誘導而發生了變化。
植物種子的油脂合成過程比較復雜,涉及的關鍵基因和調控因子較多,這給研究帶來了很大的困難。運用生物信息學的方法,從基因組水平進行整體分析,可為研究藜麥油脂合成提供參考[16]。藜麥基因組測序工作的完成為藜麥的功能基因挖掘、機理分析和品種改良提供了途徑。本研究結果可為深入研究藜麥油脂合成的調控和改良等提供參考數據。