摘要:基于蛋白質的氨基酸組成,采用三種幾何距離,即Euclidean 距離、Minkowski 距離和廣義距離,利用最近鄰算法對蛋白質亞細胞定位進行預測。結果表明該方法新穎、簡單、有效。
關鍵詞:生物信息學; 蛋白質亞細胞定位; 氨基酸組成; 最近鄰算法
中圖分類號:TP392; Q617文獻標志碼:A
文章編號:1001-3695(2007)11-0030-02
蛋白質的一個重要特征是不同的蛋白質通常分布在細胞的不同部位,它們的功能與其空間定位密切相關。要充分了解蛋白質的功能,就需要知道蛋白質所處的空間位置。另外,許多蛋白質在細胞中不是靜止不動的,它們在細胞中常常通過在不同亞細胞環境中的運動發揮作用。例如細胞周期的調控過程、細胞的信號轉導和轉錄調控,均依賴于蛋白質空間位置的變化和運動。因而,蛋白質的亞細胞定位成為細胞生物學和分子生物學研究的一個重要問題。蛋白質的一級序列決定著蛋白質的空間結構,而蛋白質的結構與蛋白質的功能緊密相關。因而蛋白質的一級序列必然包含蛋白質的功能信息。針對目前新測的蛋白質序列的飛速增長,利用生物信息學方法從蛋白質的一級結構預測其亞細胞定位顯得越來越重要。
Nakashima等人[1]在1994年,首先提出了用蛋白質的氨基酸組成來區分細胞內蛋白質和細胞外蛋白質的算法。1997年Cedano 等人[2]將蛋白質進一步分為五類,即細胞外蛋白、細胞內蛋白、細胞核蛋白、膜整合蛋白和定位膜蛋白,并基于蛋白質氨基酸組成和Mahalanobis 距離方法預測蛋白質的亞細胞定位。此后,基于蛋白質氨基酸組成,神經網絡方法(neuro networks, NN)[3,4]、組分耦聯算法(component-coupled algorithm,或稱為covariant discrimination algorithm)[5]、支持向量機(support vector machine, SVM)方法[6]等被用來進行蛋白質亞細胞定位預測。這些方法中,支持向量機方法整體預測效果最好,但不同的方法對不同位置的蛋白質靈敏程度不同。人們在利用氨基酸組成預測蛋白質亞細胞定位的同時,也考慮是否可以利用更多的信息以提高預測準確率。例如Markov模型 (Markov model, MM)方法[7]考慮了序列的順序信息、Zp參數[8]和偽氨基酸組成[9]考慮了氨基酸的物理化學性質,但氨基酸組成仍然是基本的特征參數。蛋白質亞細胞定位也可以通過尋找蛋白質序列N-末端的信號肽來預測 [10~12],但并非所有的蛋白質都具有信號肽或者具有完整的信號肽。這種方法也具有一定的局限性。所以探索新的、簡單有效的亞細胞定位方法仍然具有重要意義。
1方法
本文基于蛋白質的氨基酸組成進行蛋白質亞細胞定位預測。若用A代表一條蛋白質的氨基酸序列,其氨基酸組成向量定義為(p1,p2,…,p20)。其中:pi=ni/l;l為序列的長度;ni為該條序列中第i個氨基酸所含的個數。預測時,首先確定數據集中各條蛋白質序列的氨基酸組成向量,用這一向量表示該條蛋白質序列。
2數據集
Reinhardt等人[3]對SwissProt數據庫中具有亞細胞位置解釋的15 775個蛋白質進行篩選,除去了其中不完整、解釋不明確的蛋白質,并且排除了膜蛋白和植物蛋白,得到了兩個數據集。神經網絡[3]、支持向量機[6]和Markov模型[7]等方法均采用這兩個數據集,為便于比較,本文也采用這兩個數據集。一個是真核生物蛋白質數據集,其中包含684個細胞質蛋白(cytoplasmic proteins)、325個細胞外蛋白(extracellular proteins)、1 097個細胞核蛋白(nuclear proteins)和321個線粒體蛋白(mitochondrial proteins);另一個是原核生物蛋白質數據集,其中包含688個細胞質蛋白、107個細胞外蛋白和202個細胞周質蛋白(periplasmic proteins)。
3結果和討論
首先對三種距離利用最近鄰法則在上面所述的數據集上,分別對原核生物三種位置上的蛋白質和真核生物四種位置上的蛋白質進行分類。采用Jackknife檢驗,分類指標為各類預測準確率和總預測準確率。
可以看到,基于幾何距離的最近鄰算法,無論是真核生物還是原核生物、單純利用氨基酸組成,這幾種方法都基本能夠區分細胞內蛋白和細胞外蛋白。而細胞內不同部分的蛋白質的氨基酸組成同樣與其定位有很強的相關關系。在利用這幾種方法進行的兩類預測中,各種蛋白質的預測精度都有了不同程度的提高。另外,真核細胞蛋白的兩類預測精度比原核細胞蛋白的兩類預測精度提高更為顯著。
4結束語
研究亞細胞定位對于研究蛋白質功能、了解疾病機理和發展新藥物都具有重要作用。本文用蛋白質氨基酸組成描述蛋白質序列,基于三種簡單的幾何距離,利用最近鄰算法對真核生物和原核生物從各個層次進行了蛋白質亞細胞定位預測,并且與其他預測方法進行了比較。本文方法簡單、意義明確、運算速度快,不像SVM方法那樣復雜,需要人為地選擇參數,而且求解大規模問題比較困難,需要專門的算法和軟件。從預測效果看,本文方法并不亞于其他基于氨基酸組成的預測方法,因而本文方法可以作為蛋白質亞細胞定位預測的有效工具。除了氨基酸組成之外,還有許多描述蛋白質序列的方法,可以嘗試利用本文的方法進行蛋白質亞細胞定位預測;也可以將本文方法與其他方法相結合,在決策層加以融合進行預測,結果可能會更好。
參考文獻:
[1]NAKASHIMA H, NISHIKAWA K. Discrimination of intracellular and extracellular proteins using amino acid composition and residue-pair frequencies[J]. Journal of Molecular Biology, 1994,238(1):54-61.
[2]CEDANO J, ALOY P, PEREZ-PONS J A, et al. Relation between amino acid composition and cellular location of proteins[J]. Journal of Molecular Biology, 1997,266(3):594-600.
[3]REINHARDT A, HUBBARD T. Using neural networks for prediction of the subcellular location of proteins[J]. Nucleaic Acid Research, 1998,26(9):2230-2236.
[4]CAI Yu-dong, LIU Xiao-jun, CHOU K C. Artificial neural network model for predicting protein subcellular location[J].Computers and Chemistry, 2002,26(2):179-182.
[5]CHOU K C, ELROD D. Protein subcellular location prediction[J]. Protein Engineering, 1999,12(2):107-118.
[6]HUA Su-jun, SUN Zhi-rong. Support vector machine approach for protein subcellular localization prediction[J]. Bioinformatics, 2001,17(8):721-728.
[7]YUAN Z. Prediction of protein subcellular locations using Markov chain models[J]. FEBS Letters, 1999,451(1):23-26.
[8]FENG Z P, ZHANG C T. Prediction of the subcellular location of prokaryotic proteins based on the hydrophobic index of the amino acids[J]. International Journal of Biological Macromolecules, 2001,28(3):255-261.
[9]CHOU K C.Prediction of protein subcellular attributes using pseudoa-mino acid composition[J]. Proteins:Structure, Function, and Genetics, 2001,43(3):246-255.
[10]NAKAI K, KANEHISA M. A knowledge base for predicting protein localization sites in eukaryotic cells[J]. Genomics, 1992,14(4):897-911.
[11]NIELSEN H, BRUNAK S,Von HEIJNE G. Machine learning approaches for the prediction of signal peptides and other protein sorting signals[J]. Protein Engineering, 1999,12(1):3-9.
[12]EMANUELSSON O, NIELSEN H, BRUNAK S, et al. Predicting subcellular localization of proteins based on their N-terminal amino acid sequence[J]. Journal of Molecular Biology, 2000,300(4):1005-1016.
[13]ANDRADE M A, O’DONOGHUE S I, ROST B. Adaptation of protein surface to subcellular location[J]. Journal of Molecular Bio ̄logy, 1998,276(2):517-525.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”