陳春燕,呂俊龍
(1.蚌埠醫學院 衛生管理學院,安徽 蚌埠 233000;2.蚌埠學院 計算機工程學院,安徽 蚌埠 233000)
蛋白質相互作用預測研究在生物學領域具有重要的意義,當前預測方法主要分為2種:實驗方法和計算方法。傳統的實驗方法需花費大量的人力、物力,計算方法逐漸成為研究者關注的熱點。文獻[1]對蛋白質原始序列的PSSM矩陣,進行了局域編碼,提出了串行多特征融合的特征提取方法,并設計了有監督和半監督的分類器;文獻[2]提出了氨基酸理化性質組成編碼、氨基酸組成編碼及自協方差編碼的多特征融合提取方法;文獻[3]充分考慮了蛋白質序列對發生相互作用較為復雜的特點,提出了自協方差編碼方式,在釀酒酵母數據集上達到了88.09%的準確率。然而,蛋白質結構復雜,對原始序列進行編碼提取特征向量,預測精度有待提高[4]。因此,本研究先將原始序列轉化為位置特異性得分矩陣 (Position-Specific Scoring Matrix, PSSM ),然后根據理化性質對PSSM進行分區,并行融合為新的矩陣[5],提取特征向量,分類器選擇多項式核和高斯核組合核支持向量機,以期提高蛋白質相互作用預測的準確率。
蛋白質序列的基本組成單位是氨基酸,其由20種不同的氨基酸混合組成,表示為下:
P=p1p2…pi…pL
其中,pi表示序列中第i個氨基酸,L是蛋白質序列的長度。
使用PSSM矩陣將一維蛋白質原始序列進行數值化表示,轉換為二維矩陣[6]。使用PSI-BLAST程序得到包含蛋白質序列位置信息和蛋白質進化信息的PSSM矩陣。PSI-BLAST程序的詳細信息[7],可以在網絡獲取,網址為https://blast.ncbi.nlm.nih.gov/Blast.cgi。
PSSM矩陣定義如下:
該結構是L×20的矩陣,L是蛋白質序列的長度,每列代表1種氨基酸,20種氨基酸共20列[8]。pi,j表示生物進化過程中,i殘基突變為氨基酸j的可能性。pi,j的值>0,說明突變可能性較大,突變可能性與pi,j的值呈正相關關系。pi,j的值<0,說明發生突變的可能小,且是保守的,pi,j的值越小越保守[9]。圖1是原始序列轉為PSSM矩陣的示意圖。

圖1 蛋白質序列轉換為PSSM矩陣示意圖
采用Expasy在線分析工具,獲得蛋白質的6種理化特性,分別是帶正電殘基總數、帶負電殘基總數、消光系數、不穩定指數、脂肪族指數和親水性平均值。
根據蛋白質的6種理化特征,將氨基酸進行重組,在得到的6種理化特征中,選擇其中3種作為1組,剩下的3種作為3組,可以得到4組氨基酸[10]。因此,可以將PSSM矩陣分為A、B、C、D4個區域。每個區域生成1個新的PSSM矩陣,并將4個矩陣進行并行融合,生成基于理化特征的新的NPSSM矩陣。
蛋白質序列用特征向量VA表示。由于在蛋白質序列中,氨基酸殘基的保守性與其在序列中的位置相關,所以將每條蛋白質序列劃分為若干個局部區域,而每個局部區域的長為固定值,即20種氨基酸表示為20列[11]。將每條蛋白質序列分割成15個非交叉局部區域,因此重新劃分后的NPSSM矩陣可以通過公式(1)來表示每個區域的特征信息,而NPSSM矩陣的特征向量VA(k)是k×20的向量。若k=15,因此會得到每條序列的一個1×300維的特征向量。
(1)

蛋白質序列的特征向量VA是一個1×300維的特征向量,維數較高會使預測模型失去泛化能力,從而降低預測精度[12]。主成分分析(Principal Component Analysis, PCA)方法主要用于數據降維。本研究用主成分分析法PCA提取其中最具辨別力的新特征子集。在既保證預測精度,又不影響運算效率的前提下,經過反復試驗,我們把降維后的維度設定為25,主成分的貢獻率可以達到90%。
蛋白質相互作用預測是判斷蛋白質序列對之間是否存在相互作用,因此將兩條蛋白質序列的特征向量結合起來,表示蛋白質對的特征向量。對于蛋白質序列A和B,分別對A、B的特征向量VA和VB進行降維,降維后的向量分別為VA’和VB’,蛋白質對的特征向量用VAB表示,采用適量拼接方式,即VAB= VA’? VB’。
蛋白質序列經過數值化表示,轉化為PSSM矩陣,根據6種理化特征進行分區,構建特征向量的過程見表1。

表1 構建特征向量的過程
具體的特征向量構建流程如圖2所示。

圖2 構建特征向量流程
在數據集相同的情況下,組合核函數具有比單一核函數更好的預測性能。多項式核函數如果階數較高,則會引起參數過多,計算復雜度會增加。高斯核函數在局部區域可以將輸入的向量映射到更高維的空間,并且參數較少,對于樣本大小不敏感,表現出良好的分類性能。因此,本研究選擇全局二次多項式核和局部高斯核作為組合核函數,起到優勢互補的作用。
二次多項式核和高斯核的組合核函數數學描述如公式(2~4):
K=λG(xi,yj)+(1-λ)P(xi,yj
(2)
(3)
(4)
其中xi,yj是數據集中的樣本點,并引入了核參數λ、σ1、σ2,當λ=0或λ=1時,組合核函數就變為單一核函數。
蛋白質相互作用預測是典型的二分類問題,預測結果只有2種情況:蛋白質對之間存在相互作用或不可能發生相互作用。因此,分類器選擇二分類模型支持向量機(Support Vector Machines,SVM)。然而,根據蛋白質序列的PSSM矩陣得到的特征向量不會是一個簡單的線性關系,因此引入核函數使支持向量機能夠適應高維非線性數據[13]。本模型選取二次多項式核和高斯核作為組合核函數,不但優化了單一核函數運行模式預測精度低的問題,還兼顧了蛋白質之間相互作用發生位置的局部性和全局性的特定特征。
本研究采用LIBSVM進行SVM分類,LIBSVM中的懲罰系數C和核函數參數λ的最優值用網格搜索法求解。本研究采取5折交叉驗證(5-Fold Cross-Validation)來保證預測方法的精度。選取正、負樣本中80%的數據作為訓練集, 20%作為測試集,最后用預測得到的標簽與真實的標簽作對比,正樣本標簽判定為正、負樣本標簽判定為負,預測正確的樣本數量所占總樣本數量的比例(%)作為模型的預測準確率。預測模型流程如圖3所示。

圖3 預測模型流程
本研究數據集選取蛋白質相互作用數據庫DIP(The Database of Interacting Proteins)中的釀酒酵母(Yeast)數據集。在進行試驗之前,首先要構建正、負樣本數據集,構建正樣本數據集,必須剔除數據集中的冗余數據,即剔除長<50的序列,并且剔除相似性≥40%的序列。構建與正樣本數據基本平衡的負樣本數據,共計5 594個正樣本和5 594個負樣本。
本研究采用5次試驗結果的預測準確率、靈敏度、精度和馬修斯相關系數的平均值來評價預測方法的性能,各性能評價指標數學描述見公式(5~8):

(5)

(6)

(7)

(8)
3.3.1 預測結果
5次試驗預測結果見表2,可知本研究提出的預測方法的準確率最高達到95.11%,平均為93.98%;靈敏度最高達到95.14%,平均為93.13%;精度最高達到94.57%,平均為93.79%;馬修斯相關系數最高達到89.41%,平均為88.67%。

表2 釀酒酵母數據集測試效果 %
3.3.2 與其他方法對比
為了驗證本研究方法優于其他特征提取方法,特將本研究方法與其他3種特征提取方法作比較,特征提取方法及英文簡稱,見表3。

表3 特征提取方法及英文簡稱
4種方法的平均預測性能見表4,本研究方法PCPSMF的預測準確率、靈敏度、精度及馬修斯相關系數平均值分別達到93.98%、93.13%、93.79%、88.67。PPSMF的預測準確率、靈敏度、精度及馬修斯相關系數平均值分別達到90.34%、91.68%、91.66%、86.17%;PGS的預測準確率、靈敏度、精度及馬修斯相關系數平均值分別達到86.41%、88.05%、87.21%、84.36%;PCLS的預測準確率、靈敏度、精度及馬修斯相關系數平均值分別達到91.23%、90.17%、90.54%、85.49%。PCLS的預測準確率要比PGS高一些,原因在于PGLS根據理化性質提取了局部信息,PPSMF對特征向量降維,所以使SVM表現出了更好的性能。
本研究的方法PCPSMF在預測準確率上優于其他方法,原因在于PCPSMF首先提取了原始序列的PSSM矩陣,又利用了蛋白質的理化性質進行了二次編碼,為了彌補SVM對高維數據分類性能欠佳的缺陷,使用PCA提取了關鍵特征信息。
3.3.3 模型泛化性驗證
從DIP數據庫中選取其他4個數據集進行模型的泛化驗證,結果見表5。本方法對human數據集的預測正確率為91.61%,pylori數據集的預測正確率也超過了90%,對其他兩個數據集的預測正確率也接近90%。測試結果表明,基于理化性質局部編碼的特征提取方法,配合使用組合核函數作為SVM的核函數,這種方法對未知數據有較好的分類性能,外推能力較好,進一步對模型的泛化性進行了有效的評估。

表5 不同數據集測試結果
本研究提出了基于理化性質局部編碼的蛋白質相互作用預測方法,先把蛋白質原始序列轉化為PSSM矩陣,再根據理化性質將氨基酸進行重組,重新計算PSSM矩陣,構建每條蛋白質序列的特征向量,采用主成分分析法進行降維處理。在分類器的選擇上,使用組合核支持向量機。試驗結果表明,本研究方法正確但是存在一定的局限性,下一步,在特征提取方法上可以嘗試多特征融合方法來進一步完善本研究的模型。