楊欣華,顧海明
(青島科技大學數理學院,山東青島266061)
蛋白質在生物體的生命活動中起著非常重要的作用,而蛋白質的功能取決于蛋白質折疊以及與其他蛋白質的相互作用[1]。蛋白質折疊識別是從蛋白質的氨基酸序列中得到蛋白質的三級結構而不依賴于蛋白質序列的相似性[2]。在人體中蛋白質會發生折疊錯誤而引起很多的疾病。而深入了解蛋白質折疊對于這些疾病的致病機制,闡明蛋白質錯誤折疊的各種因素將有助于醫學研究和醫學藥物的研發。但目前的試驗方法的代價高,而計算方法具有比實驗室方法更便宜更快的優點,現在普遍用于蛋白質折疊識別[3]。目前對蛋白質折疊的研究是根據蛋白質主要結構信息將蛋白質進行分類,由此得到已知的蛋白質折疊類型[4]。基于分類的方法就是基于各種蛋白質結構分類數據庫中的數據運用機器學習方法對蛋白質進行結構分類。
目前得到所需要的蛋白質折疊信息主要是是通過機器學習,從蛋白質序列出發對蛋白質折疊模式的分類。常用的數據庫有蛋白質結構分類數據庫SCOP(structural classification of protein,SCOP)數據庫[5]。其中SCOP 數據庫包括蛋白質結構類、折疊類型、超家族、家族等不同層次[6],本研究所使用的數據集同樣是從SCOP 數據庫中選取的。蛋白質折疊識別作為多類分類任務,在該領域中已經有很多基于機器學習方法構建的模型。這些方法中的大多數包含兩個階段:1)特征提取;2)分類算法[4]。
對于特征提……