李彩艷,馬 勇,邢俊鳳,郭國棟,武一凡,聞昊坤,丁海麥,張改梅
(1.包頭醫學院 計算機科學與技術學院,內蒙古 包頭 014000; 2.包頭醫學院 基礎與法醫學院,內蒙古 包頭 014000; 3.呼和浩特第一醫院,呼和浩特 010051)
蛋白質通過與配體的相互作用來執行生物學功能[1-3],所以準確地識別蛋白質結合殘基與配體結合位點是理解蛋白質生物學功能,藥物設計和疾病治療的關鍵。血紅素HEME輔因子是一種極其通用的輔基,對幾乎所有的生物執行功能都至關重要[4-7]。例如亞鐵血紅素輔因子通常與血紅素蛋白結合,在多種生物過程中發揮重要作用,包括電子轉移、氧氣轉運、金屬離子儲存、化學催化、基因表達、細胞信號轉導等[8-10]。所以對血紅素結合位點殘基的識別有助于更好地理解血紅素結合蛋白的生物學功能,揭示血紅素-蛋白相互作用的機制,為生物啟發蛋白設計提供有價值的線索[11]。然而,實驗測定血紅素結合殘基既費時又費力還耗材,因此,很有必要開發能夠預測血紅素結合殘基的計算方法。
國內外很多學者對蛋白質與配體結合位點進行了研究。如2008年,Jessica等人[12]對Zn2+配體的結合位點進行預測;Babor等人基于3D結構開發了CHED算法,預測了Zn2+, Co2+, Ni2+, Fe2+, Cu2+,Mn2+金屬的結合位點[13-14],2019年Zhu等人利用機器學習方法預測了多種蛋白質配體等[15]。2013年,Zhang等人[16]收集了配體和蛋白質之間相互作用,整理得到Biolip數據庫,這是一個半手工蛋白質離子配體數據庫,比較全面地注釋了蛋白質配體及其結合殘基信息。Biolip數據庫中每個條目都包含了對以下內容的注釋:配體結合殘基、配體結合親和力、催化位點、委員會編號、基因本體術語和其他數據庫的交叉鏈接等。數據庫中包含了極其廣泛和精準的配體蛋白數據,之后很多學者使用Biolip數據庫中的配體信息來預測蛋白質配體結合位點。如2016年,Hu等人[17]使用SVM方法較好地識別了Biolip數據庫中 Cu2+,Fe2+, Fe3+等金屬離子配體的結合位點;2017年 Gao等人[18]統計分析了金屬配體結合殘基序列片段的信息,使用SVM 算法對Biolip數據庫中Zn2+, Co2+, Ni2+, Fe2+, Cu2+,Mn2+等金屬離子配體的結合位點進行預測等等。
2011年,Liu等人[19]等人使用支持向量機的方法,考慮血紅素配體結合殘基及其附近殘基的溶劑可及性面積、進化保守性、深度和突出性等特征,對含有血紅素配體的141條無冗的蛋白結合位點進行了預測,得到總精度76.49%和MCC為0.407。Liu等人[20]也利用支持向量機方法,對同樣的蛋白序列,通過結合序列的拓撲特征和結構特征來識別血紅素結合殘基,得到總精度85.99%和MCC為0.489。2019年,Zhao等人[21]使用SXGBsite方法對Biolip數據庫中27條含血紅素蛋白質進行預測,得到總精度96.2%和MCC為0.618。
本文從Biolip數據庫中下載了蛋白質和血紅素結合的相關數據,并且進行了整理,然后從中提取了有益信息,使用Fisher判別法和矩陣打分方法進行了計算,得到了較好的預測結果,并與前人進行了比較,為HEME與蛋白質結合提供有益信息。
從Biolip數據庫下載整理了已知血紅素與蛋白質結合信息,得到蛋白鏈2 952條,篩選分辨率好于3?、序列長度大于50個殘基,序列相似性低于40%的蛋白質鏈254條。由于蛋白質序列中,殘基和血紅素配體結合不僅僅由殘基本身決定,也受周圍殘基的影響。因此,采用移動窗口的方法截取蛋白質序列片段。將移動窗口中心位置含有配體結合殘基的序列片段定義為正集,否則定義為負集。得到正集片段數為4 589,負集片段數為66 137。由于負集片段數大于正集片段數,約是正集的14倍,本文采用隨機抽樣的方法,把負集隨機分為14組,使每組負集的片段數與正集相等,最后取14次結果的平均值作為最終結果。由于周圍環境對結合殘基的影響未知,所以滑動窗口長分別選取7,9,11,13,15,17,19,并通過計算得出最優窗口長。
1.2.1 氨基酸組分信息
由文獻[17-18]可知,氨基酸組份信息在區分正負集序列片段方面是一個較好的參數,所以我們對HEME正負集序列片段中20種氨基酸組份出現概率進行統計分析(見圖1),空心柱體表示正集,實心柱體表示負集,X軸表示20種氨基酸,Y軸表示相應氨基酸組份在正負集合中出現概率。發現正集片段中G、H、C明顯高于負集片段,而E、D則在負集片段中含量明顯高于正集片段,同時我們注意到V、K、W、Y也在正負集中差異較大。所以氨基酸組份信息可以作為區分序列片段是參數。

圖1 血紅素片段正負集氨基酸組份含量
1.2.2 位點氨基酸保守性信息
利用WEBLOGO軟件[22],對血紅素片段的正負集氨基酸位點保守性信息進行了統計分析,我們以動窗口長度19為例,統計結果(見圖2),橫坐標為位點,縱坐標為各位點的氨基酸保守性,氨基酸字母高度代表了在此位點上氨基酸出現的相對頻率。正集片段中心即位置10表示血紅素配體結合殘基,血紅素配體結合殘基偏好使用 L,F,H,R,I等氨基酸,在結合殘基附近氨基酸位點保守性都較強。在相同位點處正負集片段保守性有著顯著差異,比如對于位置11處正集的偏好殘基為G、L、A、T、F 等,而負集在這個位點處偏好殘基為A、K、V等,再如對于位置12處正集的偏好殘基為G、A、L 等,而負集在此位點處偏好殘基仍為A、K、V等。因此,位點氨基酸保守性信息有助于識別正負集序列片段。

圖2 血紅素片段正負集氨基酸位點保守性
1.3.1 Fisher判別法
Fisher判別法在兩類識別方面,具有較好的性能[23],該方法已成功應用于蛋白質超二級結構預測[24]。在本文的應用中,以氨基酸組份信息為特征指標為例,考慮正負集每個序列片段上21(20種氨基酸和一個偽氨基酸)維特征指標出現頻次;對正負集各4 589個序列片段,統計21個特征指標出現頻數。

分別計算各指標在正負集中的總體均值、距離、協方差:

建立判別函數
F(x1,x2,……xn)=C1x1+C2x2+....+Cnxn
將平均值代入判別函數,計算判別值



1.3.2 PSSM算法
PSSM算法是一種較好的分類方法,被應用于超二級結構預測等研究中并取得了不錯的效果[25-26],具體算法如下:

其中pi,j為位置概率矩陣的矩陣元:
fi,j表示位置頻數矩陣的第i列、第j各氨基酸出現的頻次Ni表示在第i個位點上 出現的氨基酸的總和,fi,max表示位置頻數矩陣的第i列的最大值。
以位點氨基酸信息為基礎參數,通過訓練集構造標準打分矩陣,對于檢驗集的每條片段,得到兩個打分s值,哪個分數高,片段就被判為那個集。同時,打分值也是一個比較好的預測參數,因此本文也把打分值作為預測特征參數用于Fisher計算。
1.3.3 預測結果的評價方法
采用5交叉檢驗,即把兩類把樣本隨機分為5份,每次都選取4/5作訓練集,1/5作檢驗集,交叉進行5次,最后取5次平均結果。
通常結合殘疾的識別都采用五交叉檢驗,并且使用下列評價指標:敏感性(Sn)、特異性(Sp)、總精度(ACC)和相關系數(MCC)表示,分別定義為:
此外,文獻[16]中也采用Recal、Prcision、ACC、F1-score、MCC來評價預測結果,其中Recal即上文提到敏感性(Sn),Prcision與F1-score計算方法如下:
其中,TP表示正確識別金屬離子配體結合殘基的數量;FN表示將金屬離子配體結合殘基識別為非金屬離子配體結合殘基的數量;TN表示正確識別金屬離子配體非結合殘基的數量;FP表示將金屬離子配體非結合殘基識別為金屬離子配體結合殘基的數量。
以氨基酸位點保守性為特征指標,使用位置權重矩陣打分算法進行預測,選取移動窗口為7、9、11、13、15、17、19長度,判別結果(見表1)。從Sn來看移動窗口長度為7、9、11、13時結果較好,都超過到53%;從Sp來看,移動窗口長度為15、17、19時結果較好,都超過81%;移動窗口長度為9、11、13時,預測ACC和MCC結果較好,分別超過了65%和0.32。相對來講,窗口長度為11時,相關系數為0.32,總精度為65.59%,預測結果較好。另外我們發現使用位置權重矩陣打分算法預測結果不高,但相關系數都大于0.30。

表1 以氨基酸參數位置權重矩陣打分算法判別法判別結果
以組分氨基酸為特征指標,使用Fisher判別法進行預測。對于每條訓練集的序列,都可以得到21(20種氨基酸和一個偽氨基酸)維特征參數,選取移動窗口為7、9、11、13、15、17、19長度,判別結果(見表2)。發現以氨基酸組份為參數時,從Sn來看7個窗口結果相差不大,相對來講7、9、11稍好,大約都在61%;從Sp來看,移動窗口選取15、17、19時較好,約在65%以上;ACC和MCC結果也相差不大。相對來講,窗口長度為9時結果稍好,總精度為63.17%,相關系數為0.32。
以位點氨基酸保守性信息為特征指標,使用Fisher判別法進行預測,對于每條訓練集長度為L的序列,都可以得到21×L維特征參數,選取移動窗口為7、9、11、13、15、17、19長度,判別結果見表2。以位點氨基酸保守性信息為參數時,發現窗口的改變時Sn、Sp、ACC、MCC這四個指標幾乎無太大改變,除了窗口長度為7時MCC略差;相對來講,移動窗口長度為13、15時預測結果略占優勢,總精度67.79%,相關系數0.36。基于同樣的特征參數,該預測結果比用位置權重矩陣打分算法要好一些。

表2 以氨基酸參數Fisher判別法判別結果
由以上計算結果可知,利用Fisher判別法,以氨基酸組份信息為參數時移動窗口長度為9結果較好,以位點氨基酸保守信息為參數時移動窗口長度為15結果較好,綜合這兩個指標進行探索,特征參數為15×21+21共336個指標,利用Fisher判別法,判別結果(見表3)。發現綜合位點氨基酸保守信息和氨基酸組份信息時,判別結果和只考慮位點氨基酸保守信息結果無太大差異,可能由于指標參數太多,影響判別結果,所以,考慮先作主成分分析,再進行判別。
由前面結果可知,以氨基酸為特征指標,位置權重矩陣打分算法進行預測,移動窗口選取11個氨基酸長度相關系數較高,于是選取氨基酸位置權重矩陣打分與Fisher判別法中氨基酸組份信息的最優窗口組合,進行預測。先用位置權重矩陣打分算法對11個窗口氨基酸進行打分,將兩個分數作為特征指標加入到以組份氨基酸為特征指標的9個窗口長度的Fisher判別法中,這樣特征指標共23個,判別結果(見表3)。發現以組分氨基酸為特征指標時,Fisher判別法加入位置權重矩陣打分值以后預測結果有很大提高,相關系數從原來的0.26提高到0.35,說明這兩種方法結合有利于預測。如果進一步加入親疏水性,極性等指標,結果可能會更好。另外以位點氨基酸信息的Fisher判別法用15窗口長度加入11窗口長度的位置權重矩陣打分值,但預測精度沒有提高,結果也就沒有給出,可能由于特征指標太多影響預測結果,下一步將結合主成分分析進行預測。

表3 不同窗口優化組合判別法判別結果
文獻[19]中使用SVM方法,綜合了PSSM、RASA、DPX、CX或這些特征的組合構造了15個基于結構的分類器,部分預測結果(見表4)。比較而言,該方法更為簡單。文獻[19]中使用的單一指標最好的是PSSM,利用Fisher判別法,使用單一指標最好是氨基酸位點保守性,結果較好一些,綜合使用多種指標時,文獻[19]結果更好一些,所以下一步工作也考慮綜合多個指標進行判別。

表4 與文獻[19]結果比較
從Biolip數據庫中,整理出與血紅素結合的蛋白質鏈,并利用Fisher判別法和位置權重打分矩陣進行識別血紅素結合殘基。利用Fisher判別法時,考慮20種氨基酸組份信息、位點氨基酸保守信息以及兩種信息的優化組合,取得較好預測結果。但與前人工作相比,預測結果稍差,在以后工作中將考慮氨基酸的二級結構信息,親疏水性、極性等指標進行判別,以進一步提高預測結果。