基于理化性質(zhì)局部并行融合的蛋白質(zhì)相互作用預(yù)測方法

2021-04-11 08:12:22陳春燕呂俊龍

梧州學(xué)院學(xué)報(bào) 2021年6期

陳春燕,呂俊龍

(1.蚌埠醫(yī)學(xué)院衛(wèi)生管理學(xué)院，安徽蚌埠 233000；2.蚌埠學(xué)院計(jì)算機(jī)工程學(xué)院，安徽蚌埠 233000)

蛋白質(zhì)相互作用預(yù)測研究在生物學(xué)領(lǐng)域具有重要的意義，當(dāng)前預(yù)測方法主要分為2種：實(shí)驗(yàn)方法和計(jì)算方法。傳統(tǒng)的實(shí)驗(yàn)方法需花費(fèi)大量的人力、物力，計(jì)算方法逐漸成為研究者關(guān)注的熱點(diǎn)。文獻(xiàn)[1]對蛋白質(zhì)原始序列的PSSM矩陣，進(jìn)行了局域編碼，提出了串行多特征融合的特征提取方法，并設(shè)計(jì)了有監(jiān)督和半監(jiān)督的分類器；文獻(xiàn)[2]提出了氨基酸理化性質(zhì)組成編碼、氨基酸組成編碼及自協(xié)方差編碼的多特征融合提取方法；文獻(xiàn)[3]充分考慮了蛋白質(zhì)序列對發(fā)生相互作用較為復(fù)雜的特點(diǎn)，提出了自協(xié)方差編碼方式，在釀酒酵母數(shù)據(jù)集上達(dá)到了88.09%的準(zhǔn)確率。然而，蛋白質(zhì)結(jié)構(gòu)復(fù)雜，對原始序列進(jìn)行編碼提取特征向量，預(yù)測精度有待提高[4]。因此，本研究先將原始序列轉(zhuǎn)化為位置特異性得分矩陣 (Position-Specific Scoring Matrix, PSSM )，然后根據(jù)理化性質(zhì)對PSSM進(jìn)行分區(qū)，并行融合為新的矩陣[5]，提取特征向量，分類器選擇多項(xiàng)式核和高斯核組合核支持向量機(jī)，以期提高蛋白質(zhì)相互作用預(yù)測的準(zhǔn)確率。

1 特征提取

1.1 蛋白質(zhì)序列表示方法

蛋白質(zhì)序列的基本組成單位是氨基酸，其由20種不同的氨基酸混合組成，表示為下：

P=p1p2…pi…pL

其中，pi表示序列中第i個(gè)氨基酸，L是蛋白質(zhì)序列的長度。

1.2 蛋白質(zhì)數(shù)值化表示方法

使用PSSM矩陣將一維蛋白質(zhì)原始序列進(jìn)行數(shù)值化表示，轉(zhuǎn)換為二維矩陣[6]。使用PSI-BLAST程序得到包含蛋白質(zhì)序列位置信息和蛋白質(zhì)進(jìn)化信息的PSSM矩陣。……

登錄APP查看全文