(天津醫科大學 a.基礎醫學院; b.生物醫學工程系, 天津 300070)
摘 要:
針對3狀態隱馬爾可夫模型(hidden Markov model,HMM)預測蛋白質二級結構準確率不高的問題,提出15狀態HMM,通過改進的算法與BP神經網絡相結合進行二級結構預測。研究對象為CB513數據集中篩選出的492條蛋白質序列,將其隨機均分7組。應用混合模型進行預測,對準確率進行7交叉驗證,Q3準確率達7721%,SOV值為7252%。結果表明,混合模型既能充分考慮相鄰氨基酸殘基間的相互影響,也能在一定程度上照顧二級結構的遠程相關性,因此帶來了較好的預測準確率。
關鍵詞:蛋白質二級結構預測; 隱馬爾可夫模型; 人工神經網絡
中圖分類號:R318.04 文獻標志碼: A
文章編號:10013695(2008)12359003
Hybrid model of ANN/HMM for protein secondary structure prediction
SHI Ouyana, YANG Huiyunb, YANG Jinga, TIAN Xinb
(a.Faculty of Basic Medicine, b.Dept.of Biomedical Engineering, Tianjin Medical University, Tianjin 300070, China)
Abstract:
Aimed at the lower accuracy of 3state hidden Markov model for protein secondary structure prediction,proposed 15state HMM. Using modified algorithm of HMM to predict secondary structure combined with BP neural networks. Selected 492 proteins from the dataset CB513,and divided them into 7 even subsets. Applied the hybrid model to predict secondary structure and evaluated its accuracy by 7fold cross validation. The hybrid model appeared to be very efficient, with Q3 score of 77.21% and SOV of 72.52%. The results show that the hybrid model not only captures the local information, but also considers the longdistance information. So it gets higher prediction accuracy.
Key words:protein secondary structure prediction(HMM); hidden Markov model; artificial neural network(ANN)
蛋白質二級結構預測是蛋白質一級結構預測其空間結構最關鍵的步驟,多年來一直是研究的熱點。從20世紀60年代中期至今,出現了很多蛋白質二級結構預測方法。蛋白質的二級結構是指組成蛋白質的多肽鏈骨架的有規則的排列,而不涉及側鏈的類型和構象。蛋白質二級結構主要有α螺旋(H)、β折疊(E)和無規卷曲(C)等,二級結構預測的任務就是從氨基酸序列中預測蛋白質的螺旋或折疊,而不使用任何三維結構信息。近年來,預測算法更多地采用了人工神經網絡(ANN)、支持向量機(support vector machine,SVM)和隱馬爾可夫模型(HMM),并且在預測中加入了序列的進化信息[1]。
人工神經網絡方法是預測準確率較高的方法,網絡采用滑動窗口技術,對窗口中心位置的殘基進行預測。然而,隨著對蛋白質結構形成的深入研究, 發現序列上相距較遠的殘基之間也會有較大的影響作用,即使兩段殘基在序列位置上相距甚遠,卻可能在經過盤繞折疊后形成的空間結構上相鄰,甚至在它們之間還可以形成各種化學鍵,這就是在生物信息學中尚未完全研究清楚的遠程相關性。而神經網絡中的滑動窗口技術,充分考慮了相鄰元素間的相互影響,卻忽略了元素間的遠程相關性。
根據Crooks等人[2]的研究表明,蛋白質二級結構間的相關性遠遠大于氨基酸殘基之間的相關性。因此,提出先用一個神經網絡進行氨基酸序列到結構的預測,隨后用一個15狀態HMM進行結構到結構的預測。HMM可以直觀地對數據進行建模,將整條序列作為模型的輸入,可充分考慮到序列元素間的遠程相關性。
1 數據和方法
11 數據集的選取與使用
選取Cuff等人[3]的513數據集,簡稱CB513。它包括513條相似性<25%的蛋白質序列,去掉其中16條長度小于30的序列以及5條含有“X”“Z”“B”字符的序列,保留了492條序列,共82 272個氨基酸殘基。通過本地運行PSIBLAST,獲得492條序列的位置特異性分數矩陣(positionspecific scoring matrix,PSSM)[4],作為神經網絡的輸入。PSSM源自多重序列比對的位置相關的頻率向量,通過利用多序列比對結果的全部信息構造每一個位點的殘基替代、插入、刪除分數表。由于該編碼方式使用了序列的同源信息,可提高預測準確率。運行PSIBLAST的具體命令為:blastpgpd nri [要查詢的序列文件]h 0001j 3Q[輸出的PSSM文件]。PSSM矩陣的歸一化函數采用1/1+e-x。
蛋白質二級結構分類采用DSSP分類標準,在將八態降為三態時,采用了EHL模式,即H G I→H,E B→E,其余→L(C)。所有準確率測試都基于7交叉驗證(7fold cross validation),即將數據集隨機分成7等份,每次取其中的6份作為訓練數據,另一份作為測試數據,依次輪換,最終的準確率為7個結果的平均值。7組數據平均的H、E、C分布為35%、23%和42%。采用以下幾個評價指標:整體準確率Q3;三態準確率(QH,QE,QC);相關系數(CH,CE,CC);三態片斷交迭準確率SOV[5]。
12 神經網絡模型結構
首先,構造兩個BP網絡串聯的模型,模型結構如圖1所示。結構中的神經元個數均為實驗中的最優結果[4]。一個PSSM是一個N×20的矩陣(N為蛋白質序列的長度,20個列向量分別對應著20個氨基酸),滑動窗口設定為15,因此第一個網絡輸入共300個神經元。輸出層的3個神經元分別代表窗口中心殘基的二級結構三態(H、E、C)得分值:100表示α螺旋H;010表示β折疊E;001表示無規卷曲C。第二個網絡的輸入為第一個網絡輸出的三態得分值,窗口長度仍設為15,即輸入層共45個神經元。此網絡主要起校正作用,輸出層為3個,對應窗口中心殘基的最終二級結構三態得分值,得分值最大者為最后的二級結構類別。網絡的具體實現是在MATLAB 7軟件平臺下,BP網絡創建使用newff函數,訓練函數選用參數traingdx;第一層傳遞函數為tansig,第二層傳遞函數為logsig;訓練次數2 000,訓練目標為0001。有關MATLAB軟件神經網絡工具箱的詳細使用參見文獻[6]。
13 隱馬爾可夫模型結構
HMM由兩個序列組成,一個是不可觀察的(隱含的)狀態變化序列,另一個是由該不可觀察的狀態產生的可觀察符號序列[7]。一個HMM是一個三元組M=(A,S,Θ)。其中:A是字母表;S是有限狀態集合,每個狀態可以釋放字母表中的字符。Θ為概率集合(包括兩部分:狀態轉移概率aij(i, j∈S),表示從狀態i轉移到狀態j的概率;字符釋放概率ek(c)(k∈S,c∈A),表示在狀態k下釋放出字符c的概率。
最簡單的用于蛋白質二級結構預測的HMM只有三個隱狀態,分別對應著二級結構H、E、C,如圖2所示。 每個狀態每次都可釋放20個氨基酸中的任何一個。狀態之間是全連通的。
3狀態HMM結構簡單,攜帶的信息量少,常產生單個的二級結構狀態,預測準確率不高。在綜合考慮已知的生物學知識并對蛋白質序列進行了模式分析的基礎上,提出了比3狀態HMM更加優化的15狀態HMM。完整結構如圖3所示。
α螺旋常見于蛋白質分子的外部,因此其肽鏈中每隔3、4個殘基,疏水和親水側鏈應交替出現[8]。典型的α螺旋中的序列模式是amphiphilic模式,即連續的2個疏水氨基酸和2個極性氨基酸的交替出現。疏水氨基酸(h)包括A、V、L、I、F、P、M;極性氨基酸(p)包括S、T、N、Q、H、D、E、K、R、C、W、G、Y。圖3中的狀態H4、H5、H6和H7即是為了滿足amphiphilic模式的需要。由于β折疊不存在已知的典型的序列模式,采用R’MES軟件[9]對數據集中的β折疊數據進行統計分析,結果發現以下序列模式出現頻率較高:hphp、phph、pphph、pphhh、phhhhp、hhhhhp等,而這些模式在α螺旋中出現的頻率都不高。圖3中的狀態E4、E5、E6和E7就是用來滿足這些序列模式。無規卷曲狀態由于沒有任何序列模式且不是預測重點,仍舊采用單狀態C1。
并不是所有的蛋白質序列都會出現在amphiphilic模式或統計分析出的β折疊序列模式中,故在模型中增加兩個一般狀態H2和E2,這兩個狀態不具有親疏水偏性。此外,狀態H1和H3,E1和E3代表α螺旋和β折疊的起始位置和終止位置。因為研究發現起/終點位置的氨基酸存在著使用偏性,它們的信息對預測有幫助作用。
14 神經網絡和隱馬爾可夫混合模型
實驗中,保留串聯BP網絡中的第一個網絡,輸入仍為歸一化后的蛋白質序列PSSM矩陣,輸出對應著滑動窗口中心殘基的三態(H、E、C)得分值。即通過第一個網絡的預測,會得到一個N×3的得分矩陣(N為蛋白質序列的長度),隨后將這一得分矩陣作為15狀態HMM的輸入,對結果進行進一步校正。所不同的是,這次是將HMM用于校正神經網絡的輸出,因此隱狀態對應的釋放字符不再是20種氨基酸字符,而是蛋白質二級結構H、E、C的三態得分矩陣。
如何將得分矩陣作為HMM的輸入,最終采用了一種基于序列普模型的HMM(sequenceprofilebased HMM)[10],即以序列的編碼向量代替標準離散HMM的釋放字符。對于長度為N的序列,可表示為
s=s1s2…sN=[s1(1),s1(2),…,s1(A)][s2(1),
s2(2),…,s2(A)]…[sN(1),sN(2),…,sN(A)]
此時A=3,對應二級結構H、E、C。其中每個st的組成都為正數,且相加和為一個常數S(實驗中先將神經網絡的三態得分值進行標準化,使其和為1,即S=1)。
此時,HMM的字符向量釋放概率不再是ek(c),而要修改為:ek(st)=(1/Z)×∑ c ek(c)×st(c)。其中:Z為標準化因子,Z=(SA/A!)×∑ c ek(c),而∑ c ek(c)=1。
BP網絡和15狀態HMM分別訓練,15狀態HMM須采用BaumWelch算法。在初始模型的參數中,各狀態的狀態轉移概率設為1/K,K為每個狀態向其他狀態轉移的總數;初始的字符概率首先參考3狀態HMM,而對于模型中有疏水和極性偏性的狀態,其字符釋放概率進行人工調整,即對疏水氨基酸的狀態,其相應的疏水氨基酸的釋放概率獎勵一個分值,對其余極性氨基酸的釋放概率扣除一個分值,反之亦然。迭代計算,可得到最終的狀態轉移概率矩陣和字符釋放概率矩陣。
測試數據首先通過BP網絡,得到二級結構三態得分矩陣,將該矩陣處理后,作為HMM的輸入進行解碼。模型的解碼采用前向—后向算法。其中前/后向因子應采用新的ek(st)作相應修改,可參考文獻[10]。二級結構狀態概率由同一類二級結構的狀態概率相加得到,最終的二級結構取三種結構概率和最大的。
2 預測結果
各種預測方法在CB513數據集中492條序列上進行7交叉驗證,其準確率如表1和2所示。
從表1和2中可看出,串聯網絡的運用確實比單個神經網絡預測效果要好,其Q3準確率提高了054%,SOV提高了431%,相應的三態準確率QH,Q神經網絡與隱馬爾可夫模型相結合的預測方法,其準確率與串聯神經網絡相比又有所提高。其Q3準確率提高了221%,SOV值提高了17%。SOV值的增加意義重大,因為SOV是專門針對二級結構預測特點而提出的。詳細算法請參見文獻[5]。其值反映了預測方法預測出H、E、C片段的能力。三態準確率和相關系數也都有所提高。相關系數描述了兩個事件的相關性,所以相關系數越高,說明預測的性能越好。
3 結束語
隱馬爾可夫模型是近年來應用非常廣泛的統計模型,在蛋白質二級結構預測中,單獨使用隱馬爾可夫模型的預測準確率往往不如神經網絡方法理想。但在實驗中,筆者綜合考慮了已知的生物學知識并對蛋白質序列進行了模式分析的基礎上,提出了比3狀態 HMM更加優化的15狀態HMM。它包含了更多的生物序列信息,因此雖然模型簡單,但生物學意義明確;此外,通過改進的HMM算法將神經網絡的輸出與HMM有機結合。從實驗結果上看,混合模型預測效果有所提高。
HMM是將整條序列作為模型的輸入,它的建模特性能部分地利用蛋白質結構的遠程相關性,因為序列中較遠的上游結構的潛在有用信息己經包含在隱狀態中了(Markov性的假設前提是對將來發生影響的只與當前的事實有關,而無須考慮歷史的信息。因為歷史的信息都已經包含在當前事實中了)。神經網絡與隱馬爾可夫模型相結合的方法既能充分考慮相鄰氨基酸殘基間的相互影響(神經網絡的特點),也能在一定程度上照顧到序列的遠程相關性(HMM的特點),因此帶來了更高的預測準確率。
參考文獻:
[1]MONTGOMERIE S,SUNDARARAJ S,GALLIN W,et al. Improving the accuracy of protein secondary structure prediction using structural alignment[J].BMC Bioinformatics, 2006, 7 (6):301313.
[2] CROOKS G E, BRENNER S E. Protein secondary structure: entropy,correlations and prediction[J].Bioinformatics,2004, 20 (10):16031611.
[3] CUFF J, BARTON G. Application of multiple sequence alignment profiles to improve protein secondary structure prediction[J].Proteins,2000, 40 (3):502511.
[4] JONES D T. Protein secondary structure prediction based on positionspecific scoring matric[J].J Mol Biol , 1999, 292 (2):195202.
[5] ZEMLA A,VENCLOVAS C,FIDELIS K,et al. A modified definition of SOV, a segmentbased measure for protein secondary structure prediction assessment[J].Proteins,1999, 34 (2):220223.
[6] 飛思科技產品研發中心.神經網絡理論與MATLAB 7實現[M].北京:電子工業出版社,2006:4452.
[7] 孫嘯,陸祖宏,謝建明.生物信息學基礎[M].北京:清華大學出版社,2005:188194.
[8] 盧光瑩,華子千.生物大分子晶體學基礎[M].北京:北京大學出版社,2006:115119.
[9] HOEBEKE M, SCHBATH S. R’MES:finding exceptional motifs[EB/OL].(20061228)[20070712].http://genome.jouy.inra.fr/ssb/rmes/rmes3.userGuide.pdf.
[10] MARTELLI P L, FARISELLI P, KROGH A, et al. A sequenceprofilebased HMM for predicting and discriminating β barrel membrane proteins[J].Bioinformatics,2002, 18 (1):4653.