劉碩,曾志,曾凡才,杜萌澤
研究報告
基于序列相似性和Z曲線方法重注釋原核生物蛋白編碼基因
劉碩1,曾志1,曾凡才2,杜萌澤2
1. 電子科技大學生命科學與技術學院,成都 611731 2. 西南醫科大學基礎醫學院,分子生物與生物化學教研室,瀘州 646000
隨著測序技術的不斷發展,產生了海量的基因組測序數據,極大地豐富了公共遺傳數據資源。同時為了應對大量基因組數據的產生,基因組比較和注釋算法、工具不斷更新,使得聯合多種注釋工具得到更準確的蛋白編碼基因的注釋信息成為可能。目前公共數據庫的原核生物基因組測序和裝配有些是10多年前的,存在大量預測的功能未知的編碼基因。為了提升美國國家生物信息中心(National Center for Biotechnology Information, NCBI)數據庫中基因組的注釋質量,本研究聯合使用多種原核基因識別算法/軟件和基因表達數據重注釋1587個細菌和古細菌基因組。首先,利用Z曲線的33個變量從177個基因組原注釋中識別獲得3092個被過度注釋為蛋白編碼基因的序列;其次,通過同源比對為939個基因組中的4447個功能未知的蛋白編碼基因注釋上具體功能;最后,通過聯合采用ZCURVE 3.0和Glimmer 3.02以及Prodigal這3種高精度的、廣泛使用且基于算法不同而互補的基因識別軟件來尋找漏注釋基因。最終,從9個基因組中找到了2003個被漏注釋的蛋白編碼基因,這些基因屬于多個蛋白質直系同源簇(clusters of orthologous groups of proteins, COG)。本研究使用新的工具并結合多組學數據重新注釋早期測序的細菌和古細菌基因組,不僅為新測序菌株提供注釋方法參考,而且這些重注釋后得到的細菌基因序列也會對后續基礎研究有所幫助。……