王毅誠 陳向煌
1 背景
隨著人類和其他物種基因組序列測定的完成,生物信息學的研究中心逐步轉移到對蛋白質組和功能基因組的研究。本文采用的是機器學習的方法,基于現有的一些研究成果,計算了6個序列特征和62個結構特征,嘗試了支持向量機這種機器學習的方法對界面熱點進行了訓練和預測,接下來用了主成分分析繼續優化了這種機器學習的方法.
2 材料與方法
2.1 支持向量機方法概述
SVM是一個監督學習的基于最大間隔的分類器。這些數據點是n維實空間中的點。我們希望能夠把這些點通過一個n-1維的超平面分開。通常這個被稱為線性分類器。但是我們還希望找到分類最佳的平面,即使得屬于兩個不同類的數據點間隔最大的那個面,該面亦稱為最大間隔超平面。如果我們能夠找到這個面,那么這個分類器就稱為最大間隔分類器。它在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢,并能夠推廣應用到函數擬合等其他機器學習問題中。
2.2 組合分類器簡介
組合分類器是一個復合模型,由多個分類器復合而成。個體分類器投票,組合分類器基于投票返回類標號預測,組合分類器往往比它的成員分類器更準確。裝袋、提升和隨機森林都是流行的組合分類方法。它旨在于創建一個改進的復合分類模型M,使給定的數據集D創建k個訓練集,其中用于創建。給定一個待分類的新數據元組,每個基分類通過返回類預測投票。組合分類器基于基類分類器的投票返回預測。
組合分類器往往比它的基類分類器更準確?;惪赡艹鲥e,但當且僅當超過一半的基分類器出錯時,組合分類器才會誤分類。當模型之間存在顯著差異是,組合分類器產生更好的結果。也就是說,理想情況下,各個基分類器之間幾乎不相關?;诸惼鲬搩炗陔S機猜測。
先直觀的考慮裝袋如何作為一種提高準確率的方法。給定d個元素的元組D,裝袋的過程如下。對于迭代d個元組的訓練集采用又放回的抽樣,由原始元組集D抽取。每個訓練集都是一個自助樣本,這樣D的某些元素可能不存在中,有的可能出現多次,由每個訓練集學習,得到分類模型。為了對未知元組分類,每個分類器返回它的預測類,算作一票。裝袋分類器M統計得票,并將得票最多的賦予類X。通過給定檢驗元組的每個預測的平均值,裝袋也可以用于連續值的預測。
2.3 組合分類器對支持向量機進行交互界面熱點預測進一步優化
程序代碼由matlab編寫,先從excel文件中讀取訓練數據和測試數據,然后隨機選取71個訓練數據,主成分分析的參數和支持向量機的參數與之前一樣,測試過后記錄反饋的結果,如果投票次數不足則繼續選取訓練數據,然后分類,足夠的話就統計投票結果,與測試的答案對比輸出。
2.4 支持向量機實驗結果與討論
雖然由線性標準化的支持向量機比正太標準化的支持向量機各項參數都好,但是召回率仍未過半,其原因可能是維數過高導致的訓練不足,而且特征之間極高的相關性并不適合支持向量機的表現。經過主成分分析預處理優化的效果與之前沒有用主成分分析預處理的效果提高了68%。有這種提高的原因有如下,首先是因為支持向量機比較適合一些低維度的分析,在主成分分析處理過以后的數據,在貢獻保留98%的情況下仍然只有四項,數據規??s小了將近95%但是數據的質量減少得并不多。第二個原因是用主成分分析使變量不相關以后更加有利于在坐標軸上劃分。坐標軸上的維度理論上說是獨立的,雖然不相關從數學角度上來說是退不出獨立的,但是在實際情況下,在已經有不相關這個條件的情況下,把數據當作是獨立的來處理通常都能獲得很不錯的效果。
對所有算法的綜合比較可以發現主成分分析+支持向量機+組合分類器的召回率較高,貝葉斯網絡在召回率不低的情況下的精確度較高。并且都已經超過現有的一些傳統算法,結果如表2.1:
圖2.2組合分類器投票次數與F值之間的關系
所以得出的結論是在訓練樣例充足的情況下,多次投票的支持向量機與單次沒有顯著差異。并且在投票結果有很多幾乎全票投給陰性的測試數據答案是陽性,這已經不是支持向量機所能解決的問題了。所以再次提高準確率可能需要去的是新屬性的獲取,或者是屬性質量的提高。F值隨著組合分類器個數的變化如圖2.2所示。
3 總結
本文開始介紹了蛋白質-蛋白質交互界面熱點的一些相關背景,然后用了支持向量機對蛋白質-蛋白質相互作用界面上的熱點進行了預測,并用主成分分析對這種機器學習算法進行了優化,而且用組合分類器對支持向量機進行了進一步的優化,其中用主成分分析和組合分類器優化的支持向量機得到的結果要比傳統的算法更優。