基于半監(jiān)督學習的蛋白質相互作用預測模型

2021-08-02 03:47:12安計勇閆子驥

計算機技術與發(fā)展 2021年7期

安計勇，閆子驥

(1.中國礦業(yè)大學礦山數字化教育部工程研究中心，江蘇徐州 221000;2.中國礦業(yè)大學計算機科學與技術學院，江蘇徐州 221000)

0 引言

在機器學習領域中，根據訓練集中有標簽和無標簽樣本的數量，可以將機器學習分為有監(jiān)督學習[1]、無監(jiān)督學習[2]和半監(jiān)督學習[3-4]。有監(jiān)督學習訓練集只包含有標簽樣本，根據有標簽樣本集訓練模型，用訓練好的模型預測無標簽樣本的標簽類別；無監(jiān)督學習訓練集只包含無標簽樣本，根據樣本間的內在聯(lián)系，判定樣本的標簽類別。有監(jiān)督學習要得到好的訓練模型，通常需要足夠多的有標簽樣本數據，但實際上有標簽樣本數據的獲取通常會耗費大量的人力、物力及財力，需要付出昂貴的成本。但現(xiàn)實中大量存在的無標簽樣本數據，則相對容易獲取。將有標簽樣本和無標簽樣本有效結合來獲取更好的分類效果，是當前機器學習領域迫切的研究內容。由于半監(jiān)督學習的訓練集不僅包含有標簽樣本，而且包含無標簽樣本，學習過程中能夠同時利用少量的有標簽樣本與大量的無標簽樣本，能夠有效地融合兩者所蘊含的信息，因此現(xiàn)實中，針對有標簽樣本較少，無標簽樣本大量存在的數據集的分類，通常采用半監(jiān)督分類算法。

該文提出的半監(jiān)督預測模型主要針對如下問題：

(1)基于有監(jiān)督學習的預測模型在預測過程中存在以下缺陷：一是過分依賴訓練集中有標簽樣本的數量，導致分類精度受有標簽樣本數量多少的制約；二是其預測分類一次完成，導致大量的無標簽樣本無法用來修正分類器的預測精度，大量數據信息被浪費，從而影響分類性能。

(2)采用生物實驗方法獲取有標簽的蛋白質相互作用樣本既耗時、費力且成本較高，因此，在蛋白質相互作用預測領域同樣存在有標簽數據少且獲取難，無標簽數據容易獲取的現(xiàn)實問題，如M.musculus、H.pylori和H.sapiens三個數據集。

基于以上分析，該文提出一種基于AP聚類與Renyi熵融合的自訓練半監(jiān)督相關向量機分類預測模型。該模型通過AP聚類分析與Renyi熵來共同標記無標簽樣本的標簽類別，篩選置信度高的無標簽樣本擴充原有訓練集進行自訓練迭代分類，降低了噪聲數據對分類器預測精度的影響，構造出了性能最優(yōu)的基于半監(jiān)督學習的蛋白質相互作用分類預測模型。

1 模型相關理論介紹

1.1 相關向量機

相關向量機(relevance vector machine，RVM)以貝葉斯概率為框架，是一種基于稀疏貝葉斯理論的核函數學習方法[5-6]，其訓練是在貝葉斯框架下進行的，在先驗參數的結構下基于主動相關決策理論(automatic relevance determination，ARD)來移除不相關的點，從而獲得稀疏化的模型[7-8]。

RVM分類算法的數學模型基本形式如下：

(1)

(2)

P(w|t,μ)∝P(t|w)P(w|a)

(3)

由于分類算法中P(t|w)不是標準的正態(tài)分布，所以無法求解定積分，但是可以用拉普拉斯方法近似地逼近：

固定μ，求出w的最大值：

(5)

上式中，yi=σ{y(xn;w)}，A=diag(μ0,μ1,…,μN)。

(1)采用Laplace方法，對公式(5)兩次求導可以得到如下公式：

g=▽wlog{P(t|w)P(w|μ)}=

?T(t-y)-Aw

(6)

H=▽w▽wlog{P(t|w)P(w|μ)}=

(-?TB?-A)-1

(7)

?w=-H-1g

(8)

wMP=wMP+▽w

(9)

(2)計算權重w的后驗概率：

(10)

其中，

Σ=(?TB?+A)-1，wMP=∑?TBtv

(11)

公式中，

B=diag(β1,β2,…,βm)，

βi=σ[y(xi)]{1-σ[y(xi)]}

(12)

(3)聯(lián)合公式(11)、(12)和公式(13)更新超參數μ。

(13)

其中，迭代公式如公式(14)所示。

(14)

訓練預測完成后，RVM分類器會得到一系列取值為0到1之間的概率預測值，根據這些預測值對全部數據可進行識別判斷。

1.2 AP聚類

Affinity Propagation (AP)[9-11]聚類是一種根據數據對象之間的相似度自動進行聚類的方法，隸屬于劃分聚類方法的一種。AP算法有兩個重要的消息Responsibility和Availability。R(i,k)描述了數據對象k適合作為數據對象i聚類中心的程度，表示的是從i到k的消息；A(i,k)描述了數據對象i選擇數據對象k作為它聚類中心的適合程度，表示從k到i的消息。R(i,k)與A(i,k)越大，那么數據對象k就越有可能作為聚類的中心。AP算法就是不斷迭代更新每一個數據對象的吸引度和歸屬度，直到迭代一定的次數，產生m個高質量的聚類中心，同時將其余數據對象分配到相應的聚類中。

AP聚類算法在數據點的相似度矩陣上進行聚類。因為聚類的目標是使數據點與其類代表點之間的距離達到最小化，因此選用歐氏距離作為相似度的測量標準，即任意兩個點xi和xj之間的相似度為：

s(i,k)=-d2(xi,xj)=-‖xi-xj‖2,i=k

(15)

AP算法執(zhí)行步驟如下：

Step1：計算相似度矩陣S；Preference賦值；

Step2：計算數據對象之間的Responsibility值：

(16)

Step3：計算數據對象之間的Availability值：

(17)

(18)

Step4：基于如下數學描述更新Responsibility和Availability的值：

λ∈[0.5,1]

(19)

λ∈[0.5,1]

(20)

ai+1(k,k)=p(k)-max[ai+1(k,j)+si+1(k,j)],

j∈[1,2,…,N],j≠k

(21)

Step5：當迭代次數超過最大值或聚類中心不再發(fā)生改變時算法結束，輸出類中心和每個類包含的數據點；否則返回Step2。

1.3 Renyi熵(Entropy of Information and Renyi)

在信息論中，熵用來表示平均信息量，Shannon提出的熵定義為Shannon熵，如下式所示：

對于公路企業(yè)而言，在實踐過程中還需要合理配置專業(yè)的操作人員和維護人員，要求相關的人員能夠了解設備的構造性能，操作規(guī)程以及養(yǎng)護知識內容，同時要根據規(guī)則以及流程使用設備，及時對設備的運行狀態(tài)進行檢修，發(fā)現(xiàn)問題時需要及時排除，保證每個環(huán)節(jié)都處于正常狀態(tài)[4]。

(22)

式中，P(i)是概率密度函數，作為熵的一種，Shannon熵滿足如下性質：

(1)H是連續(xù)的；

(3)H是遞增的。

而Renyi熵滿足以上條件中的第1條和第2條，所以Renyi熵是Shannon的廣義形式[12-13]，如下式所示：

(23)

與Shannon熵相比較可以得知，由于Renyi熵具有一個可調節(jié)參數α，因此它通常能夠靈活地度量信息量，并且當α→1的時候，R(A)→H(A)。

2 基于AP聚類與Renyi熵融合的自訓練半監(jiān)督相關向量機分類預測模型

該文提出的基于AP聚類與Renyi熵融合的自訓練半監(jiān)督相關向量機分類預測模型技術路線如圖1所示。

圖1 基于AP聚類與Renyi熵的自訓練半監(jiān)督RVM分類預測模型技術路線圖

模型算法執(zhí)行步驟如下：

Setp1：將數據集的有標簽樣本和無標簽樣本一起進行AP聚類分析，根據AP聚類分類結果初步確定無標簽樣本的標簽類別。確定無標簽樣本的標簽類別采用如下方法：

(24)

則該類別中的無標簽樣本分配與有標簽樣本一樣的標簽類別。這里τ是調節(jié)因子，為了確定最佳的τ值，將全部有標簽樣本作為實驗數據集，即有標簽樣本數據集的20%作為有標記樣本，剩余的80%假定為無標記樣本。全部數據集進行AP聚類，基于公式(24)判斷無標簽樣本的所屬類別，從而得出AP聚類的預測準確率。實驗中，三個數據集M.musculus、H.pylori和H.sapiens的最佳τ值分別為0.82、0.63和0.58。

Step2：將有標簽樣本作為訓練集，采用相關向量機作為預測分類器，進行無標簽樣本的標簽識別，得到無標簽樣本所屬類別的概率值。

Step3：判斷是否滿足迭代結束條件，是，轉到Step6，否，轉到Step4。

Step4：根據Step2得到的類別概率值，通常將概率值最大的類別標記為該樣本的最終識別類別。但是，許多無標簽樣本預測出的類別概率值幾乎相同，差別很小，如果單從概率值來判定無標簽樣本的最終類別，往往會造成錯判和漏判，從而生成噪聲數據，影響自訓練半監(jiān)督分類器的預測性能。該文通過采用AP聚類與Renyi熵融合的方法來共同決定無標簽樣本的標簽類別。由于蛋白質相互作用數據樣本存在較大的類別不確定性，因此標簽的分配一定程度上就是對不確定性的度量。而Renyi熵是一種穩(wěn)定的熵度量方法，對混雜或具有不規(guī)則碎片形狀的非可加性系統(tǒng)提供更佳的解釋，而這一點能夠滿足蛋白質相互作用樣本數據的特征需要，所以采用Renyi熵能夠更好地對蛋白質相互作用樣本進行度量。由于二次Renyi熵比較穩(wěn)定，而且計算量小，容易實現(xiàn)，因此該文采用二次Renyi熵作為樣本類別不確定性的度量。二次Renyi熵數學描述如下：

(25)

其中，p(xi)是蛋白質序列對的預測概率值。為了防止線性回歸算法在計算概率過程中出現(xiàn)無窮大的數值，該文對公式(25)進行歸一化處理，從而有：

(26)

顯然，K個樣本中的最大Renyi熵為：

(27)

式中，RS(U)表示蛋白質序列對樣本中最大Renyi熵的若干個樣本，熵越大的樣本不確定性越大，信息量也越大，也是無法確定分類信息的樣本，根據有標簽樣本的標簽信息，將這些熵值最大的樣本分配相應的類別標簽。

Step5：將Renyi熵與AP聚類分析標簽類別判定一致的無標簽樣本添加到現(xiàn)有的訓練集中，用擴充后的訓練集繼續(xù)迭代訓練分類器，轉到Step2。

Step6：輸出分類結果，算法結束。

3 實驗

3.1 實驗數據集

為了驗證提出的分類預測模型的有效性，該文在三個蛋白質相互作用數據集M.musculus、H.pylori和H.sapiens上進行了實驗驗證，表1列出了實驗數據集的樣本數量。

表1 實驗數據集樣本數量

3.2 實驗結果及分析

為了描述方便，表2列出了基于不同自訓練方法的半監(jiān)督相關向量機中文名稱及英文簡稱，其中ST表示自訓練，SSRVM表示半監(jiān)督相關向量機。

表2 基于不同半監(jiān)督相關向量機英文簡稱

實驗中，針對蛋白質序列特征向量的生成，該文采用文獻[14]提出的基于位置特異性打分矩陣(PSSM)的串行多特征融合的蛋白質序列特征提取方法，該方法通過局域蛋白質序列PSSM矩陣編碼捕獲序列上連續(xù)的和間斷的蛋白質相互作用信息；通過串行多特征融合實現(xiàn)序列中蘊含的多種關鍵特征信息的整合；針對樣本測試集與訓練集的構建，該文分別從三個數據集中隨機抽取有標簽樣本的20%作為測試集，80%作為初始預測模型訓練集。當模型每次迭代結束后針對每個數據集的測試集樣本進行預測分類，得出當前模型的預測準確率，從而了解當前模型的預測性能。

下面列出了不同的預測模型在M.musculus、H.pylori和H.sapiens數據集上的實驗結果，如表3～表5所示。

表3 M.musculus數據集不同預測模型預測結果(準確率%)

表4 H.pyloris數據集不同預測模型預測結果(準確率%)

表5 H.sapienss數據集不同預測模型預測結果(準確率%)

從表3～表5中可以看出，AP-ST-SSRVM、Renyi-ST-SSRVM及AP-Renyi-ST-SSRVM分類算法針對M.musculus、H.pylori和H.sapiens三個數據集的初始預測準確率都相對較低，分別為71.12%、73.35%及72.91%；73.12%、74.32%及73.86%和74.52%、75.69%及74.73%。但隨著訓練樣本數的增加，三種分類算法針對三個數據集的預測準確率都有了明顯提升；AP-ST-SSRVM分別迭代5次、10次和9次后；Renyi-ST-SSRVM分別迭代6次、8次和9次后以及AP-Renyi-ST-SSRVM分別迭代8次、10次和12次后它們的預測準確率曲線趨于平直。AP-Renyi-ST-SSRVM的迭代次數多于其他兩種分類算法，但它的預測準確率是最高的。迭代次數多是因為AP-Renyi-ST-SSRVM相比AP-ST-SSRVM增加了二次Renyi熵的驗證，相比Renyi-ST-SSRVM增加了AP聚類分析，從而增加了計算開銷。但相對于能夠得到較高的預測準確率，這種開銷成本的增加是可以忽略的。同樣的，通過圖2～圖4分別展示的針對M.musculus、H.pylori和H.sapiens三個數據集三種分類算法的ROC曲線對比，進一步證明了AP-Renyi-ST-SSRVM分類算法在預測性能上優(yōu)于其他兩種分類算法。

圖2 M.musculus數據集不同預測模型ROC曲線比較

圖3 H.pylori數據集不同分類算法ROC曲線比較

圖4 H.sapiens數據集不同分類算法ROC曲線比較

此外，該文提出的分類預測模型分別與其他研究學者提出的預測模型在M.musculus、H.pylori和H.sapien數據集上進行了比較分析，如表6所示。

表6 M.musculus、H.pylori和H.sapient數據集不同預測模型預測結果比較(準確率%)

從表6可以看出，文中構建的預測模型在M.musculus和H.pylori數據集上的預測準確率都高于其他預測模型，在H.sapien數據集上預測準確率也高于Huang’ work[15]的預測模型，同You’work[16]的預測準確率基本相同。這進一步驗證了提出的基于半監(jiān)督學習的蛋白質相互作用預測模型的有效性。

AP-Renyi-ST-SSRVM分類算法的主要優(yōu)勢在于：通過AP聚類與Renyi熵融合的方法將置信度高的無標簽樣本，即AP聚類分析與二次Renyi熵判定類別一致的樣本，標記為有標簽樣本，加入到原有訓練集中，用擴充后的訓練集進行自訓練迭代分類，構造出了性能最優(yōu)的半監(jiān)督分類器。通過以上處理可以大大減少由于誤判而生成噪聲數據的數量，從而能夠降低噪聲數據對分類器預測性能的影響，提高預測準確率。

4 結束語

通過實驗結果還發(fā)現(xiàn)，基于不同自訓練方法的半監(jiān)督相關向量機模型的預測準確率與訓練集有標簽樣本數的多少密切相關，初始有標簽樣本數越多，分類準確率越高，并且隨著訓練樣本的不斷增加，預測準確率有明顯提升；但當訓練樣本集到一定規(guī)模后，即使再添加更多的有標簽樣本，預測準確率也無明顯變化，達到一種飽和狀態(tài)。因此，基于以上分析可以得出如下結論：

(1)提出的基于AP聚類和Renyi熵融合的自訓練半監(jiān)督相關向量機分類預測模型極大降低了噪聲數據對分類器預測性能的影響。初始訓練只需選擇較少量的有標簽樣本，通過自訓練識別無標簽樣本并添加到當前訓練集，預測模型通過多次迭代學習和糾錯，能夠獲得好的預測性能。模型預測準確率較高，預測分類效果良好，可以應用到多種類型的蛋白質相互作用預測分類中；

(2)有標簽樣本的數量影響半監(jiān)督分類算法的預測性能。隨著新的有標簽樣本不斷添加到訓練集，預測模型的分類準確率和分類效果都有較大提高，但當訓練集達到一定規(guī)模時，預測性能又趨于平穩(wěn)。因此，半監(jiān)督學習中有標簽樣本數量的合適選擇是一個值得研究的問題，要充分平衡半監(jiān)督學習的優(yōu)點和有標簽訓練樣本數量之間的關系，使最終的分類結果能夠達到最優(yōu)。