薛衛(wèi),王雄飛,趙南,楊榮麗,洪曉宇
?
集成改進(jìn)KNN算法預(yù)測蛋白質(zhì)亞細(xì)胞定位
薛衛(wèi),王雄飛,趙南,楊榮麗,洪曉宇
南京農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院,江蘇南京 210095
基于Adaboost算法對多個(gè)相似性比對K最近鄰 (K-nearest neighbor,KNN) 分類器集成實(shí)現(xiàn)蛋白質(zhì)的亞細(xì)胞定位預(yù)測。相似性比對KNN算法分別以氨基酸組成、二肽、偽氨基酸組成為蛋白序列特征,在KNN的決策階段使用Blast比對決定蛋白質(zhì)的亞細(xì)胞定位。在Jackknife檢驗(yàn)下,Adaboost集成分類算法提取3種蛋白序列特征,3種特征在數(shù)據(jù)集CH317和Gram1253的最高預(yù)測成功率分別為92.4%和93.1%。結(jié)果表明Adaboost集成改進(jìn)KNN分類預(yù)測方法是一種有效的蛋白質(zhì)亞細(xì)胞定位預(yù)測方法。
亞細(xì)胞區(qū)間,蛋白序列特征,K-nearest neighbor,basic local alignment search tool,Adaboost
蛋白質(zhì)的功能與其所屬的亞細(xì)胞定位有著緊密的聯(lián)系,不同蛋白質(zhì)只有處于特定的亞細(xì)胞定位才能發(fā)揮其功能,保障生命活動(dòng)的正常進(jìn)行,因此對蛋白序列的亞細(xì)胞定位預(yù)測研究有著重要意義[1]。
利用機(jī)器學(xué)習(xí)實(shí)現(xiàn)蛋白質(zhì)亞細(xì)胞定位預(yù)測是目前獲取定位信息的主要方法,并取得了一系列進(jìn)展[2-6]。Zhou等構(gòu)建凋亡蛋白數(shù)據(jù)集,在氨基酸組成特征下,利用協(xié)變判別函數(shù)實(shí)現(xiàn)區(qū)間預(yù)測[7]。Huang等用支持向量機(jī)對氨基酸組成特征實(shí)現(xiàn)了對凋亡蛋白的預(yù)測[8]。Bulashevska等用貝葉斯分類器同樣得到較好的分類預(yù)測效果[9]。Chen等在使用凋亡蛋白數(shù)據(jù)集的同時(shí),構(gòu)建了數(shù)據(jù)集CH317,將多種特征融合后使用混合增量的方式實(shí)現(xiàn)預(yù)測[10]。Ding等在偽氨基酸特征下,將模糊K近鄰 (Fuzzy K-nearest neighbor,FKNN) 分類器與遺傳算法相結(jié)合,預(yù)測準(zhǔn)確率有一定提高[11]。……