劉斌 溫雪巖



摘? 要: 蛋白質序列的不同特征提取方式對蛋白質結構分類有很大的影響。為更好地表達蛋白質結構信息,基于特征融合思想構建特征向量,并使用一種基于多核支持向量機的方法,以多個核函數的線性加權代替傳統的單一核函數,在對多類特征進行整合后構造SimpleMKL分類模型;利用梯度下降法迭代求解核函數的權值系數,并校準核函數參數和不同特征表達的融合效果。實驗結果表明,該方法提高了蛋白質二級結構分類精度,在分類精度方面有明顯優勢,有助于準確預測蛋白質的二級結構。
關鍵詞: 蛋白質; 二級結構預測; 多核支持向量機; 特征提取; 特征融合; 線性加權
中圖分類號: TN911?34? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)08?0139?04
Protein secondary structure prediction based on optimized multi?kernel SVM
LIU Bin, WEN Xueyan
(College of Electronic Information and Artificial Intelligence, Shaanxi University of Science and Technology, Xian 710021, China)
Abstract: The different feature extraction methods of protein sequence have great influence on protein structure classification. For better expression of protein structure information, the feature vectors are constructed based on feature fusion idea, and the traditional single kernel function is replaced by the linear weighting of multiple kernel functions by means of the method based on multi?kernel SVM (support vector machine); the SimpleMKL classification model is constructed after integrating the multi?class features, the weight coefficient of kernel function is solved iteratively by means of the gradient descent method, and the fusion effects of kernel function parameters and different feature expressions are calibrated. The experimental results show that the proposed method improves the classification accuracy of protein secondary structure, and has obvious advantages in classification accuracy, which is helpful to accurately predict the secondary structure of protein.
Keywords: protein; secondary structure prediction; multi?kernel support vector machine; feature extraction; feature fusion; linear weighting
通過模式識別和機器學習方法來獲得蛋白質的結構信息是生物信息學的基本任務。SVM已被廣泛用于蛋白質二級結構的預測[1],為擴展SVM分類器性能,有研究利用多層SVM方法增強了單個SVM方案的預測[1]。有研究基于改進模糊支持向量機的預測蛋白質二級結構的新方法[2],通過將位置特定信息和非位置特定信息與更好的核函數相結合,改進了基于SVM的預測[3]。該研究中提出的SVM?PHGS規范SVM核函數的參數,動態校準了不同核函數的融合結果,提高了分類精度,通過多次調整權重來求解最優核參數,其中核權重是線性加權的。但當數據維度過高時,已有文獻研究成果的SVM求解速度會受到嚴重影響。
針對上述問題,本文使用一種自適應的L2范數正則化方法來考慮多核學習問題,即SimpleMKL算法,該算法將核矩陣定義為多個內核的線性組合,可以解決多特征分類問題[4]。和其余多核學習算法比較不同之處在于,SimpleMKL以多個核函數的線性加權代替傳統的單一核函數,通過加權L2范數正則化公式解決多核學習問題,并對權重進行額外約束,以鼓勵稀疏內核組合,利用梯度下降法不停迭代求解核函數的權值系數,最終達到提高算法的收斂速度與分類精度的目的。有效地探索來自多個非線性特征空間的補充信息對多特征融合的蛋白質序列分類具有較好的適用性。
本文通過對比多類別蛋白質特征向量,嘗試不同參數的核函數的線性加權組合,并整合多類特征向量后構造SimpleMKL分類模型。使用SimpleMKL分類模型實現蛋白質結構類型的分類判定,并通過實驗證明該模型具有較好的分類精度。
1? 蛋白質序列的特征提取
氨基酸是蛋白質的基本組成單元,構成蛋白質的氨基酸主要有20種(A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W和Y )。蛋白質二級結構預測是指將一個由 20 種氨基酸組成的序列映射為相應的結構標簽序列。氨基酸序列一般是以字符串的形式存儲在各大生物數據庫中,其表示形式為:[P=R1R2…Ri…RN,Ri∈{A1,A2,…,A20}],[Ri]表示蛋白質的第i個氨基酸殘基,蛋白質序列對應的目標二級結構可由[Y=y1y2…yi…yN,yi∈{H,E,C}]表示,其中[yi]是處于第i個位置的氨基酸殘基的二級結構類型。
常用的特征表示方法包括位置特異性評分矩陣(Position?Specific Scoring Matrices,PSSM)、氨基酸組成特征(Amino Acid Composition,AAC)和理化性質特征(Physicochemical Property,PP)。位置特異性評分矩陣蘊含進化信息,蛋白質編碼特征考慮了蛋白質序列的組成信息,使用氨基酸的理化特性來構建特征表達模型,可以把蛋白質序列中氨基酸的位置信息和不同距離氨基酸間的相互作用包含進去,蛋白質的結構信息能夠更好地反映出來。PSSM特征在以往的研究中已用于蛋白質結構和性質預測,并獲得了較好的預測效果[5?6]。特征向量構造方法具體如下:
位置特異性評分矩陣(PSSM):運行PSI?BLAST 程序處理序列數據來生成PSSM,參數配置為0.001的E值閾值和3次迭代以搜索UniRef90。該矩陣包含重要的進化信息,具有20×L個元素(20列和L行),其中L是目標序列的長度,序列中每個氨基酸對應一個20維的向量。矩陣的第(i,j)位置上的數值表示蛋白質序列的第i個位置上的氨基酸在進化過程中突變為氨基酸j的可能性得分。
氨基酸理化性質特征常用于蛋白結構和性能預測。氨基酸的8種理化特性包括溶解性、酸堿性質、親水疏水性、側鏈質量等。序列中每個氨基酸對應一個8維的向量。構成蛋白質多肽鏈的基本氨基酸類型有20種,由于蛋白質序列中可能存在一些未知的氨基酸,在此使用21個元素的獨熱編碼來指示序列中某一位置的氨基酸類型。文中,將來自不同源的特征連接成單個特征向量。訓練數據被歸一化為具有零均值和單位方差的數據,1個氨基酸殘基由49維特征(20維PSSM、8維物理特性和21維蛋白質編碼信息)表示,對應的標簽是三種結構標簽,如表1所示。
為了表示目標氨基酸附近其他氨基酸的特征信息,選擇指定單位長度的滑動窗口來提取特征。文獻[7]分析了輸入特征滑動窗口大小對預測精度的影響,基于蛋白質一級序列,本文選用13個單位的滑動窗口,以每個目標氨基酸為中心,通過在序列上滑動提取窗口范圍內的所有氨基酸的以上3種特征。對蛋白質序列兩端超出序列范圍的窗口位置,其特征向量用零向量代替,即一個氨基酸殘基由637維特征(13×(20PSSM+8PP+21AAC))表示。基于此種特征融合方法構建的特征表達模型不僅可以包含蛋白質序列的組成信息,還可以表現出氨基酸的位置信息和相互作用,極大地豐富了特征表達模型中包含的蛋白質序列信息。
2? 多核SVM分類模型
支持向量機(SVM)可以通過內核嵌入將輸入數據映射到非線性內核空間來建模非線性數據分布,利用非線性映射使數據線性可分,因此核函數是關鍵。對于蛋白質二級結構預測問題,有研究表明:不同的核函數可以顯著改變預測結果,單個內核預測二級結構準確度較低[3]。設計一種融合多個內核空間的方法可以提高PSSP的準確性。然而,用于特定任務的內核的最合適的類型和參數通常是未知的,并且通過窮舉搜索來選擇最佳內核通常是耗時的,并且有時導致過度擬合。多核學習(MKL)通過加權線性組合學習最優核,引入了預定義的候選內核,并對它們的組合內核進行訓練,來學習分類器最佳模型參數。
[xi]表示蛋白質序列第i個位置的特征向量時,用 [(x1,…,xi,…,xL)]表示長度為L的蛋白質序列,將輸入數據映射到非線性內核空間后,訓練模型以尋找最優核組合。多核學習中的合成核可以表示為多個核函數的加權和,如下:
式中:[dm]≥ 0;[m=1Mdm=1];M為核的個數。決策函數可以表述為:
式中:[α*i]為要學習的系數拉格朗日乘子;[b*]為分離超平面的偏差項;[Kmx,xi] 為第m個核矩陣;[d*m ] 為第m個核矩陣的權重。多核學習的原始目標函數為:
式中:w 是分離超平面的法線;b是偏差項;[ξi]是松弛變量的向量;C是誤分類懲罰系數。SimpleMKL算法選擇迭代方法確定權系數,求解采用梯度下降法。在式(4)的基礎上,SimpleMKL 中的約束優化問題為:
通過簡單地推導式(5)中給出的關于[dm]的對偶函數,得:
d可通過梯度下降來更新,更新方案如下:
式中:[Dt]是梯度下降方向的向量;[rt]為步長??梢酝ㄟ^求解該優化問題來得到多核分類器模型參數最優權重d,該方法用核權重的求解與選擇來解決核矩陣的表示問題。
SimpleMKL二分類算法可以描述為:
1) 核權重[dlm]初始化:[dlm=1/M],其中M為內核個數。
2) 每一次迭代時利用組合內核來計算目標函數[Jd]。
3) 計算[Jd]對d的偏導、梯度、梯度方向[Dt]和最優步長[rt]。
4) 由式(7)更新d,再用新的d更新核矩陣、梯度、梯度方向[Dt]、最優步長[rt]。
5) 如果不滿足迭代終止條件,則返回到步驟2),并重復步驟2)~步驟4);如果滿足迭代終止條件,則結束計算。
用SimpleMKL解決多分類問題時,通過組合多個二分類器解決。目標函數可由每個二分類器目標函數求和得到,即:
式中:[Jkd]是第k個二分類器的目標函數值;K表示多個二分類器的集合??紤]到蛋白質序列分類模型的泛化推廣能力,本文選用“一對多”方式構造多分類器。
在多核框架下,將樣本在特征空間中的表示問題轉化為基本核與權系數的選擇問題。多核學習的目標是通過最優化方法來求取合成核的參數,為了獲得最佳分類精度,多核學習通過求解單個聯合優化問題來學習核組合的權重和分類器的參數。
3? 實? 驗
3.1? 實驗數據
蛋白質二級結構預測為典型的多分類問題,基于其序列特征來判定序列樣本的類別。在此使用公開可用的基準數據集RS126和CASP9來訓練和測試模型,數據集中每個樣本都包含蛋白質序列和結構標簽序列。RS126數據集具有126個蛋白質序列,包含26 846個殘基,CASP9數據集包含總共24 395個氨基酸殘基。模型訓練過程中,使用5折交叉驗證法,將最好的訓練結果進行比較。一輪交叉驗證過程完成后,樣本被隨機分為5個子集,輪流以其中4 個子集的集合作為訓練集,最后一個子集作為測試集。
3.2? 實驗環境
實驗所用主機操作系統為WIN7旗艦版64位,CPU型號為Intel? Xeon? Silver 4116 CPU,主頻為2.10 GHz,內存為128 GB。
3.3? 參數設置
SVM候選內核采用3種常見核函數,包括徑向基核、多項式核和Sigmoid核。綜合考慮計算機性能和數據規模,使用13個不同類型和不同參數的核函數構成多核。其中包括線性核、2到3維的多項式核和σ屬于[0.5,1,2,5,7,10,12,15,17,20]的高斯核。在多核SVM一對多的分類方法中,對于正則化參數C,在區間[0.01,100]上通過普通網格搜索算法來優化參數,得到的最佳參數值為C=0.67。然后使用這13個基核將輸入向量映射到一個新的特征空間。本文實驗分別對比多類組合內核的分類精度。通過K?means聚類來加速支持向量機訓練,SimpleMKL算法的求解由SVM?KM程序來實現。
3.4? 評價指標
本文使用蛋白質結構分類預測領域的度量來評估每個蛋白質二級結構分類器的性能,即整體準確率和三態準確率[1]。
3.5? 實驗結果分析
多次迭代得到一個基于最佳核權重的組合核分類器,并選擇每類核函數中最高的核權重作為最終參數值。表2中權系數一欄列出三類核函數的最高核權重參數,參與訓練的其他大多是核函數的權重為零,也體現出SimpleMKL算法鼓勵稀疏內核組合。模型訓練結束后,核矩陣參數顯示多個核矩陣加權組合的多核矩陣中只有少量核權重參與學習。為檢驗提出的多核核函數方法在蛋白質結構分類中的效果,將不同核函數組合的多核分類結果進行比較,結果如表3所示。
所有輸入向量進行多核融合訓練,不同核函數的組合內核分類性能相差較大,訓練不同的候選內核改善了分類結果并補償誤差。由實驗結果可看出,通過融合多個不同核矩陣可以明顯提升SVM分類器的性能。各類擴展SVM算法分類性能比較如表4所示。
從表4中可以看出,基本核分類器用多核學習方法加以優化可改進其分類效果。針對蛋白質二級結構分類,多個基礎核適當線性組合,每個核與特定輸入變量相關聯,生成的內核是不同輸入內核的加權組合,來自不同內核的補充信息被集成以獲得更好的準確性。
實驗結果證明,相對單核預測,多核方法在與其他擴展SVM算法相比,在分類精度方面有明顯優勢,多特征組合的分類效果比單一特征的分類效果更好。正確融合互補的特征信息并使用多核學習方法能明顯提升SVM的性能。
4? 結? 語
本文提出了基于多核學習和特征融合的蛋白質二級結構分類方法,將多核學習方法SimpleMKL應用于蛋白質二級結構,并擴展了蛋白質二級結構預測的輸入特征,在PSSM特征提取的基礎上,通過氨基酸組成和理化特性編碼反映出氨基酸之間的長程作用。通過訓練多核分類器模型,證明了不同內核的融合使得內核分類效果彼此互補,從而提高結果的準確性。本文的蛋白質二級結構分類方法與其他擴展SVM算法具有相近的分類精度,也可用于分析蛋白質序列特征信息與二級結構類型之間的關聯作用。但多核模型訓練過程中調整內核參數所涉及的計算成本較大,值得進一步研究蛋白質序列復雜特征的簡化。
參考文獻
[1] QIAN Jiang, XIN Jin, SHIN?JYE Lee, et al. Protein secondary structure prediction: A survey of the state of the art [J]. Journal of molecular graphics and modeling, 2017(76): 379?402.
[2] XIE S X, LI Z, HU H L. Protein secondary structure prediction based on the fuzzy support vector machine with the hyperplane optimization [J]. Gene, 2018, 642: 74?83.
[3] ZANGOOEI M H, JALILI S. PSSP with dynamic weighted kernel fusion based on SVM?PHGS [J]. Knowledge?based systems, 2012, 27: 424?442.
[4] LI Z F, TONG X. Modeling and parameter optimization for vibrating screens based on AFSA?SimpleMKL [J]. Chinese journal of engineering design, 2016(2): 12.
[5] 郭延哺,李維華,王兵益,等.基于卷積長短時記憶神經網絡的蛋白質二級結構預測[J].模式識別與人工智能,2018,31(6):562?568.
[6] 李強,鄭宇杰.基于多視角特征融合與隨機森林的蛋白質結晶預測[J].現代電子技術,2015,38(8):50?53.
[7] BOUZIANE H, MESSABIH B, CHOUARFIA A. Effect of simple ensemble methods on protein secondary structure prediction [J]. Soft computing, 2015, 19(6): 1663?1678.
[8] KOUNTOURIS P, AGATHOCLEOUS M, PROMPONAS V J, et al. A comparative study on filtering protein secondary structure prediction [J]. IEEE/ACM transactions on computational biology & bioinformatics, 2012, 9(3): 731?739.
[9] YUAN Mingshun, YANG Zijiang, HUANG Guangzao, et al. A novel feature selection method to predict protein structural class, computational [J]. Biology and chemistry, 2018(76): 118?129.
[10] 李紅麗,許春香,馬耀鋒.基于多核學習SVM的圖像分類識別算法[J].現代電子技術,2018,41(6):50?52.