摘要:提取4個不同來源的煙草馬鈴薯Y病毒完整基因組的統計特征,并對它們進行聚類分析。在煙草馬鈴薯Y病毒完整基因組的堿基序列上,用每個堿基及其隨后兩個堿基所構成的三堿基組,排列成一個新的序列S,計算所有64種不同三堿基組在S上出現的概率,得到一個64維向量L;比較各個基因組的L向量,得到4個三堿基組(CAA、GAT、GTA、GAC),它們的概率有明顯的差異。這4個三堿基組的出現概率與煙草馬鈴薯Y病毒基因組的遺傳變異有著重要關聯;4個不同來源的煙草馬鈴薯Y病毒完整基因組,按其遺傳變異結果,形成兩個大類。
關鍵詞:煙草馬鈴薯Y病毒;三堿基組;概率;K-M聚類;
中圖分類號:S435.72;Q78 文獻標識碼:A 文章編號:0439-8114(2011)09-1821-02
The Statistical Characteristics of Potato Virus Y Complete Genome
YANG Shuo,LI Jian-xue
(Xiangcheng Tobacco Monopoly Bureau, Xiangyang 441000,Hubei,China)
Abstract: The statistical characteristics of the complete genome of 4 potato virus Y(PVY) with different resources were extracted and cluster analyzed. A new sequence S was arranged by the three-base groups composing every base and its following two bases in PVY complete genome. And then a 64-dimensional vector L was obtained by caculating the appearance probability of each of the 64 three-base-groups. 4-three-base-groups(CAA,GAT,GTA,GAC) whose appearance probability was great different was identified by comparingL vector of every genome. The appearance probability of these four three-base-groups has great ralations with genetic variation of PVY. And the 4 complete genome of PVY was clustered into two groups according to the result of genetic variation.
Key words: potato virus Y; three-base-groups; probability; K-M clustering
煙草馬鈴薯Y病毒(PVY)侵染煙草引起的病害,又稱作脈壞死病、褐脈病、黃斑壞死病等。系統分析和研究煙草馬鈴薯Y病毒基因組的統計特性、結構特征和遺傳變異規律,進而采用基因工程技術對煙草馬鈴薯Y病毒病進行防治,是一個有重要理論意義和實用價值的課題。本文提取4個不同來源的煙草馬鈴薯Y病毒完整基因組的統計特征,并對它們進行聚類分析。
1材料與方法
1.1材料
4個不同來源的煙草馬鈴薯Y病毒的完整基因組GenBank X12456.1(G1)、GenBank EF026074.1(G2)、GenBank FJ643477.1(G3)、GenBank FJ643478.1
(G4)來自NCBI數據庫[1];采用MATLAB 7.0軟件計算64種三堿基組出現的概率和K-M聚類分析。
1.2方法
在第i個煙草馬鈴薯Y病毒完整基因組的堿基序列上,用每個堿基及其隨后兩個堿基所構成的三堿基組,排列成一個新的序列S;計算64種不同三堿基組在S上出現的概率,得到一個64維向量L;比較各個基因組的L向量,得到一些三堿基組,它們的概率有明顯的差異。
依照如下的規律,給三堿基組賦予數字代碼:
1.AAA;2.AAT;3.AAC;4.AAG;5.ATA;6.ATT;…;64.GGG。
最后,對4個不同來源的煙草馬鈴薯Y病毒完整基因組按照L向量進行K-M聚類分析。
2結果與分析
2.1L向量和各L向量之間的差向量
L向量是一個概率值向量(64種不同三堿基組在基因組上出現的概率)。4個不同來源的煙草馬鈴薯Y病毒基因組的L向量分布如圖1所示,它們的差如圖2所示。通過圖1和圖2可以了解煙草馬鈴薯Y病毒基因組遺傳變異過程中最活躍的10個三堿基組(表1)及最保守的10個三堿基組(表2)。
大部分三堿基組在4種不同來源的煙草馬鈴薯Y病毒基因組上出現的概率差別不大,只有若干個三堿基組在基因組上出現的概率差別較大(表1和表2)。
2.2K-M聚類
對不同來源的煙草馬鈴薯Y病毒完整基因組,按照其L向量進行K-M聚類分析,得到聚類樹狀圖(圖3)。由聚類樹狀圖可以看出各基因組的遺傳變異關系分為兩個大類。其中,4個不同來源的煙草馬鈴薯Y病毒完整基因組有著不同的演化路徑:G1、G2與G3、G4兩個演化路徑變異較大。
3小結
4個三堿基組(CAA-33號、GAT-50號、GTA-53號、GAC-51號)的出現概率與馬鈴薯Y病毒完整基因組的遺傳變異有著重要關聯;5個三堿基組(AAT-2號、ACA-9號、CAT-34號、CGC-47號、GGC-63號)是較為保守的三堿基組;4個不同來源的煙草馬鈴薯Y病毒完整基因組,按其遺傳變異結果,分為兩個大類。本文的研究方法普遍適用于各種煙草病毒基因組序列的分析[2-4]。在遺傳變異過程中,最活躍的三堿基組(CAA、GAT、GTA、GAC)的物理、化學和生物學效應的研究,是一個有意義的課題;而最保守的三堿基組(AAT、ACA、CAT、CGC、GGC)在基因組上的功能,與這一物種的本質特性有著重要的關聯。在實驗室對最活躍和最保守的三堿基組進行相關試驗,可以獲得遺傳變異的某些效應。
參考文獻:
[1] ALLISON R F,DOUGHERTY W G,PARKS T D, et al. Tobacco etch uirus, complete genome[EB/OL]. http://www.ncbi.nlm.nih.gov/nuccore/NC_001555.
[2] 蘭平秀,程建勇,李凡,等. 煙草扭脈病毒部分基因組特征及其分類地位分析[J]. 農業生物技術學報,2008,16(1):177-178.
[3] 郭興啟, 溫孚江, 宋云枝,等. 翻譯和非翻譯馬鈴薯Y病毒外殼蛋白基因介導的抗病性比較[J]. 病毒學報,2001,17(4):360-367.
[4] 楊紀青, 楊碩, 楊莉, 等. Tomato leaf curl Bangladesh病毒完整基因組上微衛星分布[J].中國農學通報,2010,26(24):20-27.