李 彬,欒悉道,王 鑫,李學勇
(長沙大學信息與計算科學系,湖南長沙410022)
近期的實驗發展,如酵母雙雜交實驗[1]、串聯親和純化[2]以及質譜法[3]已導致經產生了許多高質量、大規模的PPI(蛋白質相互作用)數據.這些數據對于識別蛋白質復合物奠定了基石.蛋白質復合物對于了解細胞的功能組織,從而執行其生物學功能具有非常重要的作用.
然而,由于相關實驗技術的局限性和蛋白質相互作用匹配的動態自然性質,從這些高通量的生物實驗得到的PPI網絡中,相當一部分相互作用包含假陽性[4].研究[5]表明,經過篩選的酵母雙雜交數據集中,假陽性相互作用的比例達到50%.這些實驗數據中產生的錯誤將對進一步研究PPI網絡帶來負面影響.為減少PPI網絡中的假陽性,現已提出了幾種計算方法預測蛋白質間的相互作用.其中大部分方法借助多種生物信息[6,7],有些方法則依靠統計評分功能[8,9]來計算的蛋白質系譜概要文件的上下文相似性,采用機器學習技術[10]預測蛋白質相互作用網絡或使用支持向量機方法[11]構建監督分類來識別相互作用的蛋白質.
為評估高通量蛋白質相互作用的可靠性,現已提出許多計算方法.一些方法被設計用于評估酵母蛋白質相互作用網絡的整體誤差率[12,13].相互作用數據的比較顯得尤為困難,因為他們往往來自不同的條件,呈現出不同的形式.因此,我們采用一些更為復雜的方法來評估單個相互作用的可靠性[14,15].一些基因……