李 雨,楊獻(xiàn)光
?
基于偽氨基酸組成和支持向量機(jī)預(yù)測(cè)人類蛋白質(zhì)亞細(xì)胞定位的研究
李 雨,*楊獻(xiàn)光
(河南師范大學(xué)生命科學(xué)學(xué)院,河南,新鄉(xiāng) 453007)
蛋白質(zhì)亞細(xì)胞定位是當(dāng)前生物信息學(xué)和蛋白質(zhì)科學(xué)的重要研究領(lǐng)域,本研究從蛋白質(zhì)一級(jí)序列出發(fā),取偽氨基酸組成向量作為輸入數(shù)據(jù),運(yùn)用支持向量機(jī)作為預(yù)測(cè)工具,對(duì)人類12類蛋白質(zhì)亞細(xì)胞的定位進(jìn)行預(yù)測(cè),得到獨(dú)立檢驗(yàn)的結(jié)果為85.2%,Jack knife檢驗(yàn)的結(jié)果為80.6%;結(jié)果顯示,用較簡(jiǎn)單的預(yù)測(cè)方法,得到了較好的預(yù)測(cè)結(jié)果。
亞細(xì)胞定位;偽氨基酸;支持向量機(jī);獨(dú)立檢驗(yàn);Jack knife檢驗(yàn)
蛋白質(zhì)的亞細(xì)胞定位與蛋白質(zhì)的結(jié)構(gòu)和功能有密切的關(guān)系,蛋白質(zhì)合成后必須進(jìn)行亞細(xì)胞定位才能發(fā)揮其功能。因此,蛋白質(zhì)的亞細(xì)胞定位的預(yù)測(cè)可以為該蛋白質(zhì)的功能分析提供重要的線索。蛋白質(zhì)的亞細(xì)胞定位的預(yù)測(cè)方法很多,早在1992年Nakai等發(fā)展了第一代的基于氨基酸組分的亞細(xì)胞定位預(yù)測(cè)模型[1], Nakai法首先利用N 端分選信號(hào)來(lái)預(yù)測(cè)蛋白質(zhì)的亞細(xì)胞位置, 建立了革蘭氏陰性菌蛋白質(zhì)定位預(yù)測(cè)系統(tǒng), 獲得了83% 的預(yù)測(cè)準(zhǔn)確率,但該法的適用性有限。隨著新的統(tǒng)計(jì)理論的發(fā)展和機(jī)器學(xué)習(xí)算法在生物信息學(xué)領(lǐng)域的應(yīng)用,諸如神經(jīng)網(wǎng)絡(luò)粗糙集(neural network, NN)[2],神經(jīng)網(wǎng)絡(luò)模型是通過模擬生物的神經(jīng)結(jié)構(gòu)以及其處理信息的方式來(lái)進(jìn)行計(jì)算的一種算法,其在原核生物中取得了較好的定位效果,但在真核生物中精度稍低。隱馬爾可夫模型(Hidden Markov Models, HMMs)等[3-4]算法也成功的應(yīng)用于蛋白質(zhì)亞細(xì)胞定位的研究中。……