張帥燕 劉毅慧



摘要:提出一種新的氨基酸編碼方式,即基團編碼,基團編碼是對20種氨基酸進行的編碼方式,含有42個屬性,然后采用這種新的編碼方式進行蛋白質二級結構預測。所有的氨基酸都可以有這幾種基團來表示,這種基團編碼方式中包含氨基酸或蛋白質中原子穩定結構的信息。實驗中采用3折交叉驗證,分別采用不同的滑動窗口數,通過支持向量機(SVM)來進行蛋白質二級結構預測,驗證2組數據的準確率,可以發現氨基酸的不同的編碼方式對預測精度會產生影響。經過實驗對比,包含氨基酸內部穩定結構信息的基團編碼方式的準確率比正交編碼要高出1.2%。
關鍵詞:蛋白質二級結構預測;基團編碼;正交編碼;SVM
0引言
氨基酸序列的研究是生物信息學中對生物序列展開探討設計的主要工作,氨基酸序列決定了蛋白質的空間結構,而蛋白質的空間結構決定了蛋白質生理功能的多樣性。在利用x射線結晶學及核磁共振等技術對蛋白質結構進行探測時發現,蛋白質結構有4個層次,蛋白質的二級結構是認識了解蛋白質的折疊模式和三級結構的基礎,進一步為研究蛋白質的功能以及彼此之間的相互作用模式提供結構基礎,同時還可以為新藥研發提供幫助。故研究蛋白質的二級結構具有重要的意義。
1999年,Jones研發了位置特異性反復BLAsT算法,構建了位置特異性打分(position-specific scoring matrix,PssM)矩陣。在此先后,基于殘基構想性的Chou-Fasman算法,基于知識的人工神經網絡,支持向量機(support Neural Network Machine,SVM)方法則陸續得到推出。同時,還有研究通過將蛋白質的進化信息引入BP神經網絡的輸入中,預測準確率達到75%。此外,文獻中,即重點采用了將特定位置打分矩陣與深度學習網絡架構相結合的方法得到的預測結果為80.7%,進而再基于深度卷積神經場的基礎,對蛋白質二級結構預測的準確率就可達到84%。
綜合前述分析可知,本文將依據存在于氨基酸或蛋白質中的結構穩定的分子官能團,對氨基酸進行編碼,即文中提出的基團編碼,然后使用支持向量機進行分類預測。