楊曉娜 陳自宏 陳宏艷 謝雯穎
(保山學院資源環境學院,云南 保山 678000)
類黃酮?3′5′? 羥基化酶(F3′5′H)是花色素苷代謝途徑中一個關鍵性酶。F3′5′H催化花色素B環3端、5端羥基化,是花色呈現藍色及紫羅蘭色的前提條件之一,是合成藍色的花翠素?3?葡萄糖苷的關鍵酶,能使花趨于藍色[1]。某些花卉的藍色色素是通過導入F3′5′H來實現的。所以,F3′5′H被稱為藍色基因[2]。
通過NCBI查詢,F3′5′H的cDNA全長已從多種植物中獲得,大約在1 000 bp?2 000 bp之間。2005年,馬鈴薯(S.tuberosum)F3′5′H的cDNA被克隆,全長1 714 bp,編碼區1 530 bp,編碼509個氨基酸[3]。2006年,毛果楊(P.trichocarpa)F3′5′HcDNA被克隆,全長1 602 bp,編碼區1 530 bp,編碼509個氨基酸[4]。2007年,大花三色堇(V.×wittrockiana)花瓣中克隆到F3′5′HcDNA全長為1 781 bp,編碼區為1 521 bp,編碼506個氨基酸[5]。2008年,錦繡杜鵑(R.×pulchrum)F3′5′H的cDNA被克隆,全長1 871 bp,編碼區1 551 bp,編碼 516個氨基酸[6]。2010年,從仙客來(C.persi?cum)的花瓣中克隆得到的cDNA全長為1 719 bp,編碼區為1 527 bp,編碼508個氨基酸[7]。2004年,孟麗和戴思蘭分析了F3′5′H與藍色花的形成,文中提到F3′5′H的結構[8],但目前對F3′5′H進行系統的生物信息學分析鮮有報道。
本研究運用生物信息學軟件(ProtParam、BLAST、TargetP 1.1 Server、SignalP 3.0 Server、ProtScale、TMHMM、ProtScale、PSORT II Prediction、DNA?MAN、SOPMA、GOR4、Pfam 22.0、CDD)對F3′5′H氨基酸序列的相關信息,如:理化性質、相似性、信號肽、導肽、疏水性/親水性、跨膜結構域、分子系統進化、二級結構、結構域、三級結構特征進行預測,為藍色花卉的分子育種和其他植物F3′5′H的克隆提供理論支持。
從美國國家生物技術信息中心GenBank中檢索到已注冊、正式發表、物種來源明確的23種高等植物F3′5′H的cDNA序列及其編碼的氨基酸序列(表1)。

表1 23種高等植物F3′5′H cDNA序列及其編碼的氨基酸序列
1.2.1F3′5H′的基本性質
1.2.1.1F3′5′H基因cDNA及其編碼氨基酸序列的理化性質分析
蛋白質的基本性質包括蛋白質相對分子質量、氨基酸組成、等電點、消光系數[9]。ProtParam①http://www.expasy.ch/tools/protparam.html在線分析軟件[10]是蛋白質理化學性質的分析工具。將F3′5′H基因的氨基酸序列粘貼到Prot?Param軟件的對話框中,單擊“Compute parameters”按鈕,得到蛋白質性質的相關分析數據。
1.2.1.2F3′5′H的同源性分析
DNAman是美國LynnonBiosoft公司開發的高度集成化的分子生物學應用軟件。用DNAman軟件進行F3′5′H基因核酸和蛋白質序列的同源性分析,包括多重序列對齊、PCR引物設計、限制性酶切分析、蛋白質分析、質粒繪圖等。本研究用此軟件是進行了同源性分析及系統進化樹的構建。
1.2.1.3F3′5′H的疏水性/親水性分析
蛋白質疏水性分析可以為其二級結構預測提供參考,還可以為結構域以及功能域的劃分提供依據[9]。用ProtScale②http://www.expasy.ch/tools/protscale.html軟件[11]在線分析疏水性/親水性,將氨基酸序列粘貼進文本框內,點擊“Submit”按鈕,得到序列疏水性/親水性分析圖。
1.2.1.4F3′5′H的跨膜結構域及跨膜趨勢預測分析
跨膜區域是一個非常典型的結構,具有連續性強,預測容易,準確性高的特點,從圖中很容易區分胞外和胞內區域[9]。
用TMHMM①http://www.cbs.dtu.dk/services/TMHMM在線分析跨膜結構[12],將氨基酸序列粘貼進文本框內,點擊“Submit”按鈕,得到序列跨膜結構區域的圖以及該序列的膜外、膜內結構域以及跨膜結構域的位點。
用ProtScale②http://www.expasy.ch/tools/protscale.html軟件預測跨膜趨勢。選擇Transmembrane tendency,將氨基酸序列粘貼進文本框內,點擊“Submit”按鈕,得到預測圖。
1.2.1.5F3′5′H的結構域分析
蛋白質結構域是其執行功能的結構基礎[13],結構域不完整則不可能實現功能[14]。用英國Sanger中心Pfam 20.0③http://pfam.jouy.inra.fr/、美國NCBI數據庫(CDD)④http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi在線工具分析其功能結構域[15],將氨基酸序列粘貼進文本框內,點擊“Submit”按鈕,得到相應結果。
1.2.1.6F3′5′H的信號肽、導肽分析
信號肽屬于導肽靠近N端的一段氨基酸序列,導肽功能的發揮需要信號肽的存在[16,17]。在TargetP 1.1 Server⑤http://www.cbs.dtu.dk/services/TargetP/[18]在線分析系統中,將氨基酸序列粘貼進文本框內,點擊“Submit”按鈕,得到序列的葉綠體轉運肽、線粒體目標肽及分泌途徑信號肽(Secretory pathway signal peptide)。
用SignalP 3.0 Server⑥http://www.cbs.dtu.dk/services/SignalP在線預測信號肽,有兩種預測模型:隱馬爾可夫模型(HMM)和神經網絡算法(NN)[19]。方法同TargetP 1.1 Server在線分析系統。
1.2.1.7F3′5′H亞細胞定位分析
用PSORTII Prediction⑦http://psort.hgc.jp/form2.html軟件[20],將氨基酸序列粘貼進文本框內,點擊“Submit”按鈕,在線分析亞細胞定位。
1.2.2 F3′5H′蛋白質二級結構預測分析
用SOPMA⑧http://npsa?pbil.ibcp.fr/cgi?bin/npsa_automat.pl?page=npsa_sopma.html和GOR4⑨http://npsa?pbil.ibcp.fr/cgi?bin/npsa_automat.pl?page=npsa_gor4.html軟件[21],將氨基酸序列粘貼進文本框內,點擊“Submit”按鈕,預測氨基酸序列的二級結構圖及各成分的百分比。
1.2.3F3′5H′核苷酸及氨基酸序列的分子系統進化分析
用DNAman軟件,點擊界面上方序列中的多重比對,選擇分析序列進行序列的比對,得到氨基酸和核苷酸序列在進化上或者遺傳學上的親緣關系。
2.1.1F3′5′HcDNA及其編碼氨基酸序列的理化性質
23種高等植物F3′5′H基因的cDNA序列起始密碼子均為ATG,終止密碼子均為TAA、TAG或TGA(表2);ORF長度、氨基酸殘基數及分子量均基本一致;氨基酸序列中含量最高的氨基酸均為Leu和Ala。F3′5′HcDNA序列編碼的氨基酸序列的理論等電點、酸性和堿性氨基酸的比例、半衰期、摩爾消光系數、帶電氨基酸比例均基本一致。蛋白質不穩定性指數表明F3′5′HcDNA序列編碼的氨基酸序列均屬于穩定蛋白。

表2 代表性高等植物F3′5′H基因cDNA及氨基酸序列的結構和理化性質
2.1.2F3′5′H的同源性特征
23種植物的F3′5′H氨基酸序列比對表明:在近N?端和C?端的序列區域保守,可能是重要的功能域,分別有3個保守序列:起始于45位的“PPGP”序列(圖1),是細胞色素P450的基序,連接膜的錨定位點和酶蛋白的球體部分[22],在不同的物種中是高度保守區。起始于335位的“AGTDT”序列,被認為是形成氧分子的結合域[23](圖1),序列號為DQ148458和AB234910在序列比對中與其他植物存在差異,這也許是是物種間的基因差異。有起始于473位的“FGAGRRICAG”(圖1)是C端血紅素的結合區,在不同的物種中也是高度保守的,血紅素結合區是CYP酶類必需序列,這段序列受半胱氨酸的調節,以其為中心,左右各氨基酸圍繞半胱氨酸形成特定結構[24],其中,有幾種植物在比對種存在差異,這也許是物種親緣關系造成的。

圖1 23種植物F3′5′H的多序列比對
2.1.3F3′5′H的疏水性/親水性特征
用ProtScale在線分析疏水性/親水性,最大值為3.078,最小值為?2.622。在整個肽鏈中親水性氨基酸均勻分布,且數量多于疏水性氨基酸(圖2)。因此,整個多肽鏈表現為親水性,屬親水性蛋白。對其余的23種植物的F3′5′H氨基酸序列的疏水性于親水性進行分析與預測,其預測結果與矮牽牛相似,可以推測F3′5′H蛋白是親水性的。

圖2 矮牽牛F3′5′H疏水性/親水性預測
2.1.4F3′5′H的跨膜結構域及跨膜趨勢預測特征
用TMHMM在線分析,結果表明F3′5′H整條肽鏈橫跨膜內外,A1?A6和A59?A169位于膜內,A7?A26、A36?A58 和 A170?A189屬跨膜結構域,膜外結構域為A27?A35 和 A190?A506(圖 3)。

圖3 矮牽牛F3′5′H跨膜結構域預測
用ProtScale在線分析跨膜趨勢,預測結果顯示F3′5′H整條肽鏈的跨膜結構的可能性為1.399(圖4)。顯然存在跨膜結構域。對其他23種植物的F3′5′H跨膜結構域及跨膜趨勢預測都得到相似的結果,故所有F3′5′H存在跨膜區域。

圖4 矮牽牛F3′5′H跨膜趨勢的預測
2.1.5F3′5′H的結構域特征
用Pfam20.0在線預測出矮牽牛F3′5′H只具有一個結構域,即氨基酸序列中374?492區段,與細胞色素P450功能區段相匹配,因而此區段是F3′5′H的功能域。CDD在線預測證實F3′5′H屬細胞色素P450超基因家族。對其他23種植物的F3′5′H均包含上述功能域。
2.1.6F3′5′H的信號肽、導肽特征
用TargetP 1.1 Server在線分析矮牽牛F3′5′H的序列,其含潛在葉綠體轉運肽、線粒體目標肽及分泌途徑信號肽,可靠性分別為0.156,0.055,0.315,預測可靠性為5級,分泌途徑信號肽分值最高。對其余23種植物的F3′5′H進行同樣分析,雖可靠性的數值不同,但是分析的結果顯示分泌途徑信號肽可靠性最高,故F3′5′H可能含有氨基酸剪切位點。
用SignalP 3.0 Server在線分析進行信號肽預測,隱馬爾可夫模型(HMM)預測表明F3′5′H分泌信號肽的可靠性為0.609,錨定信號肽的可靠性為0.313,剪切位點位于第30或31個氨基酸殘基,可靠性為0.335(圖5A)。神經網絡算法(NN)預測表明F3′5′H分泌信號肽包含70個氨基酸,剪切位點可能位于第30或31個氨基酸殘基,可靠性為0.741(圖5B)。因此,矮牽牛F3′5′H可能存在分泌導肽酶切位點,是一種分泌蛋白。該F3′5′H在游離核糖體上合成后分泌到其他細胞器中發揮功能。對其余23種植物的F3′5′H進行同樣分析,雖數值有差異,但都得到一致的結果。

圖5 矮牽牛F3′5′H導肽的預測
2.1.7F3′5′H亞細胞定位分析
PSORT II Prediction在線分析得出矮牽牛F3′5′H定位于細胞質可靠性最高,為0.391,其次是線粒體和細胞核,可靠性都為0.174,定位于內質網腔可靠性為0.13,定位于在分泌泡、高爾基體和過氧化物酶體的可靠性均為0.043。通過以上的數據分析,并聯系相關的細胞生物學知識,可以預測得出:矮牽牛F3′5′H在細胞質核糖體上合成前體,然后通過后轉移運輸到線粒體內,含導肽的前體蛋白在跨膜運送之前,需要折疊為松散的結構,以利于跨膜運輸。在跨膜轉運時,前體蛋白首先被線粒體表面的受體識別,在位于外膜上的GIP蛋白的參與下,使前體蛋白從外膜的接觸點通過內膜,之后其導肽即被基質中的線粒體導肽水解酶與導肽水解激活酶水解,并同時重新卷曲折疊為成熟的蛋白質[16]。對其余23種植物的F3′5′H進行同樣分析,雖數值有差異,但23種植物的F3′5′H定位于細胞質的可靠性均最高,其次是線粒體,故F3′5′H在細胞質中游離核糖體中合成后,經信號肽引導錨定于內質網膜上,通過膜泡運輸方式分選到高爾基體、溶酶體等細胞器中,也有可能是F3′5′H在細胞質中游離核糖體中合成后,以跨膜運輸方式分選到線粒體中或以門控運輸的方式分選到細胞核中。
SOPMA(圖6A)和GOR4(圖6B)預測均表明α?螺旋和無規則卷曲是矮牽牛F3′5′H最多的二級結構元件,分別為50.99%和34.19%,44.86%和39.72%,β延伸分別為9.68%和15.42%,并散布于整個結構,SOPMA預測中β?轉角為5.14%。對其余23種植物的F3′5′H進行同樣分析,發現這23種植物的F3′5′H的二級結構最多的元件均為α?螺旋和無規則卷曲,其次為β延伸,故F3′5′H二級結構最多的元件為α?螺旋和無規則卷曲。

圖6 矮牽牛F3′5′H二級結構預測
對23條已知的F3′5′H氨基酸序列進行物種間的同源性分析,結果顯示(圖7),同科的都聚在一起,親緣關系近的百分數大,反之則小。

圖7 23種植物F3′5′H進化樹分析
23種高等植物F3′5′H的cDNA序列起始密碼子均為ATG,終止密碼子均為TAA、TAG或TGA;ORF長度、理論等電點、酸性和堿性氨基酸的比例、半衰期、摩爾消光系數、帶電氨基酸、氨基酸殘基數及分子量均基本一致;氨基酸序列中含量最高的氨基酸均為Leu和Ala。蛋白質不穩定性指數表明F3′5′HcDNA序列編碼的氨基酸序列均屬于穩定蛋白。
23種植物的F3′5′H氨基酸序列比對表明:在近N?端和C?端的序列區域保守,可能是重要的功能域,分別有3個保守序列:起始于45位的“PPGP”序列,起始于335位的“AGTDT”序列,起始于473位的“FGAGRRICAG”。
整個肽鏈中親水性氨基酸均勻分布,表現為親水性,屬親水性蛋白。該肽鏈橫跨膜內外,存在跨膜結構域,且具有一個結構域F3′5′H屬細胞色素P450超基因家族。其含潛在葉綠體轉運肽、線粒體目標肽及分泌途徑信號肽,分泌途徑信號肽分值最高,可能含有氨基酸剪切位點,可能存在分泌導肽酶切位點,是一種分泌蛋白。F3′5′H在細胞質中游離核糖體中合成后,經信號肽引導錨定于內質網膜上,通過膜泡運輸方式分選到高爾基體、溶酶體等細胞器中,也有可能是F3′5′H在細胞質中游離核糖體中合成后,以跨膜運輸方式分選到線粒體中或以門控運輸的方式分選到細胞核中。F3′5′H二級結構最多的元件為α?螺旋和無規則卷曲。系統樹分析發現同科的都聚在一起,親緣關系近的百分數大,反之則小。