陳春燕,呂俊龍
(1.蚌埠醫(yī)學(xué)院 衛(wèi)生管理學(xué)院,安徽 蚌埠 233000;2.蚌埠學(xué)院 計(jì)算機(jī)工程學(xué)院,安徽 蚌埠 233000)
蛋白質(zhì)相互作用預(yù)測研究在生物學(xué)領(lǐng)域具有重要的意義,當(dāng)前預(yù)測方法主要分為2種:實(shí)驗(yàn)方法和計(jì)算方法。傳統(tǒng)的實(shí)驗(yàn)方法需花費(fèi)大量的人力、物力,計(jì)算方法逐漸成為研究者關(guān)注的熱點(diǎn)。文獻(xiàn)[1]對蛋白質(zhì)原始序列的PSSM矩陣,進(jìn)行了局域編碼,提出了串行多特征融合的特征提取方法,并設(shè)計(jì)了有監(jiān)督和半監(jiān)督的分類器;文獻(xiàn)[2]提出了氨基酸理化性質(zhì)組成編碼、氨基酸組成編碼及自協(xié)方差編碼的多特征融合提取方法;文獻(xiàn)[3]充分考慮了蛋白質(zhì)序列對發(fā)生相互作用較為復(fù)雜的特點(diǎn),提出了自協(xié)方差編碼方式,在釀酒酵母數(shù)據(jù)集上達(dá)到了88.09%的準(zhǔn)確率。然而,蛋白質(zhì)結(jié)構(gòu)復(fù)雜,對原始序列進(jìn)行編碼提取特征向量,預(yù)測精度有待提高[4]。因此,本研究先將原始序列轉(zhuǎn)化為位置特異性得分矩陣 (Position-Specific Scoring Matrix, PSSM ),然后根據(jù)理化性質(zhì)對PSSM進(jìn)行分區(qū),并行融合為新的矩陣[5],提取特征向量,分類器選擇多項(xiàng)式核和高斯核組合核支持向量機(jī),以期提高蛋白質(zhì)相互作用預(yù)測的準(zhǔn)確率。
蛋白質(zhì)序列的基本組成單位是氨基酸,其由20種不同的氨基酸混合組成,表示為下:
P=p1p2…pi…pL
其中,pi表示序列中第i個(gè)氨基酸,L是蛋白質(zhì)序列的長度。
使用PSSM矩陣將一維蛋白質(zhì)原始序列進(jìn)行數(shù)值化表示,轉(zhuǎn)換為二維矩陣[6]。使用PSI-BLAST程序得到包含蛋白質(zhì)序列位置信息和蛋白質(zhì)進(jìn)化信息的PSSM矩陣。……