999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

牙齦卟啉單胞菌編碼基因重注釋研究

2015-02-23 07:58:04徐曉捷計(jì)得偉張欣悅張無忌張會(huì)雄
生物信息學(xué) 2015年4期
關(guān)鍵詞:牙周病

徐曉捷,計(jì)得偉,張欣悅,張無忌,張會(huì)雄*

(1.電子科技大學(xué)生命科學(xué)與技術(shù)學(xué)院,神經(jīng)信息教育部重點(diǎn)實(shí)驗(yàn)室,成都610054;

2.電子科技大學(xué)信息醫(yī)學(xué)中心,成都 610054;

3. 成都中醫(yī)藥大學(xué)針灸推拿學(xué)院,成都610000)

牙齦卟啉單胞菌編碼基因重注釋研究

徐曉捷1,2,計(jì)得偉1,2,張欣悅3,張無忌1,2,張會(huì)雄1,2*

(1.電子科技大學(xué)生命科學(xué)與技術(shù)學(xué)院,神經(jīng)信息教育部重點(diǎn)實(shí)驗(yàn)室,成都610054;

2.電子科技大學(xué)信息醫(yī)學(xué)中心,成都 610054;

3. 成都中醫(yī)藥大學(xué)針灸推拿學(xué)院,成都610000)

摘要:為了確保牙齦卟啉單胞菌生物大分子信息的準(zhǔn)確性,對(duì)NCBI數(shù)據(jù)庫(kù)中的3株牙齦卟啉單胞菌的注釋信息進(jìn)行研究。首先,準(zhǔn)備好蛋白質(zhì)編碼與非編碼序列正負(fù)樣本,用基于Z曲線理論的Fisher判別法對(duì)正負(fù)樣本集進(jìn)行訓(xùn)練,確定一個(gè)判斷ORF編碼或非編碼的閾值t0,由閾值作為判別條件來識(shí)別所有的ORFs,判斷基因片段是否具有編碼蛋白質(zhì)的功能,由此閾值為判別標(biāo)準(zhǔn)排除掉3株牙齦卟啉單胞菌基因組中錯(cuò)誤的基因注釋信息。然后,用Prodigal基因預(yù)測(cè)軟件對(duì)牙齦卟啉單胞菌進(jìn)行基因預(yù)測(cè),基因預(yù)測(cè)結(jié)果與原始功能已知基因進(jìn)行比對(duì),挑選出具有不同5’終端的ORFs,將這些具有不同5’終端的ORFs與功能已知的基因片段進(jìn)行比對(duì),找到重疊率小于20%的候選基因。最后,對(duì)這些候選基因用Blast進(jìn)行序列比對(duì)找到滿足條件的新基因,并為這些新基因添加功能注釋信息。基于以上方法共排除了117個(gè)非編碼的開放式閱讀框,并找到了30個(gè)NCBI數(shù)據(jù)庫(kù)中缺失的編碼蛋白質(zhì)的新基因。

關(guān)鍵詞:牙周病;牙齦卟啉單胞菌;基因重注釋;新基因

牙周疾病是常見的危害人類牙齒的主要口腔疾病。而牙齦卟啉單胞菌被認(rèn)為是牙周疾病最重要的致病菌之一,與多種牙周疾病有密切關(guān)系。牙周炎是一種慢性口腔疾病,破壞牙齒支持組織,包括膠原蛋白、纖維和骨骼。牙周疾病是由細(xì)菌引起的一類感染性疾病,而牙齦卟啉單胞菌(Porphyromonasgingivalis,P.gingivalis)被認(rèn)為是牙周疾病最重要的致病菌之一。且與成年人、青少年的牙周炎、牙周膿腫、牙槽骨膿腫、牙髓感染以及難治性牙周炎有關(guān)。牙齦卟啉單胞菌是牙周病細(xì)菌病因?qū)W研究的熱點(diǎn)[1]。牙齦卟啉單胞菌不僅可以引起發(fā)炎,它還與動(dòng)脈粥樣硬化以及肥胖病的發(fā)生有關(guān)[2-5],且牙齦卟啉單胞菌引起的口腔感染能夠通過侵犯主動(dòng)脈的組織循環(huán)加速內(nèi)皮細(xì)胞凋亡[5],造成內(nèi)皮功能紊亂,許多研究描述了牙周炎導(dǎo)致內(nèi)皮功能障礙,可通過牙周治療來改善內(nèi)皮功能[6]。Curtis等發(fā)現(xiàn),在牙齦卟啉單胞菌W50菌株的55-kDa大外膜上存在著一個(gè)由重組活化基因(Recombination activation gene, rag)B編碼的相對(duì)分子質(zhì)量為免疫顯性表面抗原,與牙周病患者的免疫球蛋白G抗體能否發(fā)揮作用有密切關(guān)系[7]。通過揭示牙齦卟啉單胞菌生物大分子(如核酸、蛋白質(zhì)等)的結(jié)構(gòu),并探索其在遺傳信息和細(xì)胞信息的傳遞方式,有助于研究牙齦卟啉單胞菌的致病機(jī)理,為研究牙周疾病提供依據(jù)。

在基因組公共數(shù)據(jù)庫(kù)中已有牙齦卟啉單胞菌基因組的功能注釋信息,但是由于很多原因,都有可能造成基因組注釋出現(xiàn)有蛋白質(zhì)功能編碼基因被丟棄,或非編碼蛋白質(zhì)功能編碼基因被錯(cuò)誤標(biāo)記為功能編碼部分的情況出現(xiàn)。可能當(dāng)時(shí)基因組數(shù)據(jù)庫(kù)數(shù)據(jù)量的局限性,或相似基因注釋存在錯(cuò)誤等,導(dǎo)致基因預(yù)測(cè)軟件會(huì)產(chǎn)生一部分錯(cuò)誤注釋的基因,即非編碼的開放式閱讀框被預(yù)測(cè)為編碼基因。這就需要研究人員定期對(duì)基因組注釋信息進(jìn)行更新。如Bocs等就在26個(gè)原核生物全基因組中就發(fā)現(xiàn)34%的基因是被錯(cuò)誤注釋的[8]。還有一種情況是一些真正編碼蛋白質(zhì)的基因,由于種種原因卻被丟棄掉了,可以通過一些從頭預(yù)測(cè)的基因查找工具結(jié)合基因相似性比對(duì)來探測(cè)這些基因并為它們添加正確的生物功能信息。近幾年,隨著基因測(cè)序技術(shù)的快速發(fā)展,尤其是第二代基因測(cè)序技術(shù)的出現(xiàn),越來越多的微生物基因組完成了測(cè)序,并被上傳至公共核苷酸數(shù)據(jù)庫(kù)。大量的基因序列數(shù)據(jù)為人們挖掘更多的生物信息提供了絕佳的機(jī)會(huì)。與此同時(shí),這也對(duì)基因注釋信息的準(zhǔn)確性提出了更高的要求[9]。如果一個(gè)物種的基因組注釋出現(xiàn)了錯(cuò)誤,那么不僅會(huì)影響基于此基因組的后續(xù)研究工作,還可能導(dǎo)致與此基因組具有親緣關(guān)系的其他基因組的相關(guān)研究工作出現(xiàn)問題,因此為了保證基因注釋信息的準(zhǔn)確性,需要對(duì)數(shù)據(jù)庫(kù)中已測(cè)序基因組的注釋信息進(jìn)行定期的檢查[10]。

針對(duì)以上問題,下載了NCBI數(shù)據(jù)庫(kù)中最新的牙齦卟啉單胞菌全基因組的注釋信息,用基于Z曲線理論的Fisher判別法識(shí)別假設(shè)基因,排除3株牙齦卟啉單胞菌數(shù)據(jù)庫(kù)中被錯(cuò)誤注釋的假陽(yáng)性的開放式閱讀框(Open reading frames, ORFs),共排除了117個(gè)非編碼ORFs。增加新基因,即一些真正的能編碼蛋白質(zhì)的基因,由于種種原因被丟棄掉了,需要用基因預(yù)測(cè)工具并結(jié)合基因相似性比對(duì),或通過實(shí)驗(yàn)手段探測(cè)這些數(shù)據(jù)庫(kù)中丟失的基因并為它們添加正確的生物功能注釋信息。如Zhou等就通過轉(zhuǎn)錄分析和相似性搜索相結(jié)合的方法為野油菜黃單胞菌(Xanthomonascampestris)添加了306個(gè)新蛋白編碼基因[11]。用Prodigal基因預(yù)測(cè)軟件對(duì)3株牙齦卟啉單胞菌進(jìn)行基因預(yù)測(cè),把預(yù)測(cè)基因與原始基因注釋信息進(jìn)行比對(duì),保留重疊率低于20%的預(yù)測(cè)基因?yàn)楹蜻x基因,并通過Blast對(duì)候選基因進(jìn)行比對(duì),滿足條件的則被認(rèn)為是要找的新基因,共找到了30個(gè)NCBI數(shù)據(jù)庫(kù)中缺失的新基因。

1材料和方法

1.1 數(shù)據(jù)來源

本研究所用的數(shù)據(jù)主要由兩部分組成,一部分是牙齦卟啉單胞菌的全基因組各染色體DNA序列文件(文件擴(kuò)展名為fna),另一部分是該物種對(duì)應(yīng)的基因在染色體上的位置分布及編碼蛋白質(zhì)功能信息等基因注釋數(shù)據(jù)(文件擴(kuò)展名為ptt)。這兩部分?jǐn)?shù)據(jù)都可以從美國(guó)國(guó)家生物技術(shù)信息中心(NCBI)所提供的核酸序列公開數(shù)據(jù)庫(kù)(GenBank)的Ftp下載中心(ftp://ftp.ncbi.nlm.nih.gov/genomes/Bacteria/)獲得。牙齦卟啉單胞菌全基因組總共包括3個(gè),均是完全測(cè)序且在2014年7月之前下載的,它們的全名依次是:PORPHYROMONAS_GINGIVALIS_ATCC_33277_UID58879,PORPTYROMONAS_GINGIVALIS_TDC60_UID67407,PORPHYROMONAS_GINGIVALIS_W83_UID57641,對(duì)應(yīng)的參考序列號(hào)為:NC_010729,NC_015571,NC_002950。

基因組注釋文件中包含基因片段編碼蛋白質(zhì)功能的描述信息,根據(jù)這些描述信息把基因分為三類。第一類是具有明確功能描述的基因,此類基因一般會(huì)有確定的基因名稱,如gyrB表示DNA旋轉(zhuǎn)酶B亞單位的編碼蛋白質(zhì)。第三類是功能描述為Hypothetical Protein的基因,即在基因注釋中不能確定功能信息的假設(shè)基因。余下的基因歸為第二類基因,一般是在注釋文件中具有Family、Putative、Domain等描述詞的基因。而第三類基因中還不確定哪些基因真正具有蛋白質(zhì)編碼功能,哪些不具有蛋白質(zhì)編碼功能。因此本文將重點(diǎn)關(guān)注第三類基因。

1.2 ORFs判定

要排除基因注釋中的非編碼ORFs,關(guān)鍵在于建立一個(gè)模型和識(shí)別方法對(duì)所有需要驗(yàn)證的ORFs進(jìn)行判定。Z-fisher是基于Z曲線理論對(duì)假設(shè)基因進(jìn)行檢驗(yàn)并排除非編碼ORFs[12, 13]。在任意一個(gè)基因序列片段或ORF中,把基因序列分為3個(gè)相位,第1相位對(duì)應(yīng)第1、4、7、…個(gè)堿基所在的位置;第2相位對(duì)應(yīng)第2、5、8、…個(gè)堿基所在的位置;第3相位對(duì)應(yīng)第3、6、9、…個(gè)堿基所在的位置。根據(jù)基因序列的Z變換原理,任意一個(gè)基因片段或ORF可由33位空間中的一個(gè)點(diǎn)來標(biāo)識(shí),這33個(gè)分量將用作基因編碼區(qū)的識(shí)別變量。具體理論基礎(chǔ)和實(shí)現(xiàn)過程可參考文獻(xiàn)[12-13]。

1.3 去除過注釋基因的過程

在重注釋過程中首先要排除錯(cuò)誤注釋的基因信息。基于從頭預(yù)測(cè)的基因預(yù)測(cè)軟件(Gene finder)會(huì)產(chǎn)生一部分錯(cuò)誤注釋的基因,即非編碼ORFs被預(yù)測(cè)為編碼基因,這部分基因需要從注釋文件中刪除。對(duì)于本步驟過程的討論可以參考文獻(xiàn)[9]。Zfisher是專業(yè)為檢查和排除細(xì)菌或古細(xì)菌非編碼ORFs而設(shè)計(jì)的開源服務(wù)系統(tǒng),可在http://147.8.74.24/Zfisher/獲得[9],步驟見圖1。

圖1 判斷第三類基因中的基因序列是否編碼蛋白質(zhì)的流程圖Fig.1 The flowchart of judging the gene sequence whetherencoding the protein or not

1.4 查找新基因的過程

在對(duì)已測(cè)序的基因組進(jìn)行注釋的過程中,為了保證較低的假陽(yáng)性,一些真正編碼蛋白質(zhì)的基因可能會(huì)被遺漏。本研究中使用Blast在線服務(wù)中的Blastx程序?qū)λ泻蜻x基因的核苷酸序列進(jìn)行查詢。如果一個(gè)候選基因的Blast結(jié)果同時(shí)滿足以下4個(gè)條件:(1) Evalue<1×10-20,(2) Query Cover>60%,(3) Ident>50%,(4) 候選基因與同源相似基因的長(zhǎng)度差<20%,則此候選基因是要找的新基因[9],并為這些新基因添加正確的基因功能信息,具體實(shí)現(xiàn)步驟見圖2。

圖2 用Prodigal基因預(yù)測(cè)軟件對(duì)牙齦卟啉單胞菌的基因預(yù)測(cè)及發(fā)現(xiàn)新基因的過程Fig.2 The process of predicting the candidate genesfrom P.gingivalis uesed Prodigal gene predictionsoftware and discovery new genes

2結(jié)果與討論

2.1 基因組大小與基因數(shù)量的線性關(guān)系

在對(duì)牙齦卟啉單胞菌基因組進(jìn)行重注釋之前,先對(duì)基因組大小與基因數(shù)目之間的關(guān)系進(jìn)行統(tǒng)計(jì)分析,本文中用到了2 638個(gè)細(xì)菌或古細(xì)菌的全基因序列及對(duì)應(yīng)的基因注釋信息(包括3個(gè)牙齦卟啉單胞菌)作為統(tǒng)計(jì)分析對(duì)象,根據(jù)物種的基因組注釋信息可以統(tǒng)計(jì)出每個(gè)染色體的大小及注釋的基因數(shù)目,并繪制二者的散點(diǎn)分布圖(見圖3)。圖中x軸表示基因組的大小(單位為kb),y軸表示基因數(shù)目,從圖中可以發(fā)現(xiàn)這2 638個(gè)細(xì)菌或古細(xì)菌的基因組大小與基因數(shù)目之間具有很強(qiáng)的正相關(guān)性(相關(guān)系數(shù)R=0.994),這說明隨著物種基因組的增大,其包含的基因數(shù)目也應(yīng)該隨之增多。Mira等也提出,與真核生物相比,大部分原核生物(包括細(xì)菌和古細(xì)菌等)的編碼蛋白質(zhì)基因緊密的分布在染色體上[14]。此外,由于原核生物中缺少內(nèi)含子,所以其基因結(jié)構(gòu)比真核生物要簡(jiǎn)單。可能正是這種緊密的染色體結(jié)構(gòu)以及簡(jiǎn)單的基因結(jié)構(gòu),使得細(xì)菌或古細(xì)菌的基因組大小與基因數(shù)目間具有強(qiáng)征相關(guān)性。

圖3 基因組大小與基因數(shù)目關(guān)系分布圖Fig.3 Linear correlation between genome size and gene number

通過繪制基因組大小與基因數(shù)目的線性擬合線(圖中黑色虛線),我們發(fā)現(xiàn)大部分細(xì)菌或古細(xì)菌分布在擬合線附近,有部分物種的注釋基因數(shù)目遠(yuǎn)多于(或少于)擬合值。針對(duì)本文的研究對(duì)象,3個(gè)牙齦卟啉單胞菌(圖中實(shí)心圓點(diǎn)),也有類似的規(guī)律。由于3個(gè)牙齦卟啉單胞菌的基因組大小比較相近(約2 300 K),所以它們?cè)趫D中幾乎分布在同一垂直線上。我們可以發(fā)現(xiàn)3個(gè)牙齦卟啉單胞菌的注釋基因數(shù)目分布在擬合性兩側(cè),在基因組大小與基因數(shù)量關(guān)系方面,這3個(gè)牙齦卟啉單胞菌未顯示出任何異常。

2.2 去除非編碼的ORFs

以P.gingivalisATCC33277為例,基于Fisher判別模型,對(duì)正負(fù)樣本集進(jìn)行訓(xùn)練,得到判別的閾值,然后比對(duì)所有第三類基因,根據(jù)閾值判別每一個(gè)基因片段是否真正編碼蛋白質(zhì)。在P.gingivalisATCC33277中,有36個(gè)假設(shè)基因判定為非編碼ORFs(見表1)。P.gingivalisW83沒有排除的非編碼ORFs。P.gingivalisTDC60排除81個(gè)非編碼ORFs(見表2)。

表1  P.gingivalisATCC33277中排除的36個(gè)非編碼ORFs基因片段同義號(hào)

在一個(gè)指定的細(xì)菌基因組中,所有的蛋白質(zhì)編碼基因都應(yīng)該有相似的核苷酸組成結(jié)構(gòu)[15],也就是說P.gingivalisATCC33277中的假設(shè)基因需要與其功能已知基因具有相似的核苷酸結(jié)構(gòu),否則將被判定為非編碼ORFs。相似性核苷酸結(jié)構(gòu)的判定,正是通過判別模型來確定的,在判別模型中會(huì)根據(jù)33個(gè)識(shí)別變量確定此核苷酸序列的閾值,通過此閾值判定是否編碼蛋白質(zhì),排除這36個(gè)假設(shè)基因正是基于此判別方法[12]。下圖是P.gingivalisATCC33277菌株1 125個(gè)功能已知基因(藍(lán)色*圓點(diǎn)標(biāo)記)和36個(gè)非編碼ORFs(黑色*圓點(diǎn)標(biāo)記)的核苷酸散點(diǎn)分布圖(見圖4)。注:*圖中顏色標(biāo)注見電子版(http://swxxx.alljournals.cn/index.aspx)(2015年第4期)。

表2  P.gingivalisTDC60中排除的81個(gè)非編碼ORFs基因片段同義號(hào)

圖4 P.gingivalis ATCC33277全基因組G+C含量散點(diǎn)分布圖Fig.4 P.gingivalis ATCC33277genome G+C content scatter distribution

從圖中可以觀察到絕大部分的功能已知基因與非編碼ORFs相分離。而且?guī)缀跛械墓δ芤阎蚨嘉挥?5度對(duì)角線上方,這說明其第二相位G+C含量要低于第三相位G+C含量。而36個(gè)非編碼ORFs中絕大部分分布在45度對(duì)角線附近,這表明其第二、三相位的G+C含量基本相同。由此可見編碼功能蛋白質(zhì)將會(huì)影響基因的核苷酸結(jié)構(gòu)分布[13, 16, 17]。因此,由于這36個(gè)假設(shè)基因與功能已知基因具有不同的核苷酸結(jié)構(gòu),在判別模型中得到的判別值不滿足編碼蛋白質(zhì)的Z曲線閾值,導(dǎo)致其被排除為非編碼ORFs。

2.3 找到新基因,添加功能信息

使用Blast在線服務(wù)對(duì)所有候選基因的核苷酸序列進(jìn)行查詢。如果一個(gè)候選基因的Blast結(jié)果同時(shí)滿足4個(gè)條件:(1) Evalue<1×10-20,(2) Query Cover>60%,(3) Ident>50%,(4)候選基因與同源相似基因的長(zhǎng)度差<20%,我們就認(rèn)為此候選基因是要找的新基因。通過以上方法,從3株牙齦卟啉單胞菌中分別找到了不同數(shù)量的新基因。在P.gingivalisTDC60中找到了6個(gè)新基因(見表3)。這6個(gè)新基因的基因位置與原注釋中的基因位置重疊率很低,全部小于0.05%,其中還包括5個(gè)重疊率幾乎為0的新基因,即原注釋信息中幾乎沒有覆蓋到的基因。根據(jù)同源基因的功能描述確定新基因的功能信息,同時(shí)這6個(gè)新基因也被賦予各自同源基因的功能注釋信息,如新基因348 817-348 960(+)則被注釋為轉(zhuǎn)座酶(Transposase)。

表4和表5分別是P.gingivalisATCC33277和P.gingivalisW83中發(fā)現(xiàn)的新基因以及其相應(yīng)的功能注釋信息。

表3 P.gingivalisTDC60中發(fā)現(xiàn)的6個(gè)新基因信息

表4 P.gingivalisATCC33277中發(fā)現(xiàn)的5個(gè)新基因信息

表5 P.gingivalisW83中發(fā)現(xiàn)的19個(gè)新基因信息

3結(jié)論與展望

基因組重注釋方法是根據(jù)Fisher判別法識(shí)別3株牙齦卟啉單胞菌所有第三類基因(假設(shè)基因),判定基因片段是否具有編碼蛋白質(zhì)功能。基于此方法從3株牙齦卟啉單胞菌中共排除了117個(gè)非編碼ORFs。對(duì)牙齦卟啉單胞菌使用基于從頭預(yù)測(cè)方法的基因識(shí)別工具Prodigal查找候選新基因,并以最新的基因數(shù)據(jù)庫(kù)為基礎(chǔ)進(jìn)行Blast在線相似性比對(duì)查找同源基因,最后根據(jù)設(shè)定的參數(shù)閾值對(duì)結(jié)果進(jìn)行過濾篩選,確定滿足條件的新基因并添加對(duì)應(yīng)的基因功能信息,在本文中為牙齦卟啉單胞菌共添加了30個(gè)新基因。經(jīng)過本文的重注釋,可能仍然還存在未排除的非編碼ORFs和未找到的新基因。為保證結(jié)果的可靠性,使用特異性較低的方法排除非編碼ORFs(低至54%),同時(shí)在查找新基因的過程中只保留高相似度的結(jié)果(高達(dá)99%)。隨著這兩個(gè)參數(shù)的變化,發(fā)現(xiàn)新基因的數(shù)量和排除的非編碼基因的ORF的數(shù)量都有可能會(huì)變化。本研究中,用Prodigal基因預(yù)測(cè)軟件識(shí)別基因位置,后續(xù)可以擴(kuò)展使用更多其他的基因預(yù)測(cè)軟件對(duì)假設(shè)基因進(jìn)行驗(yàn)證,以確保結(jié)果的可靠性。

參考文獻(xiàn)

[1]黃定明, 吳亞菲. 牙齦卟啉單胞菌的分型及其致病作用[J].國(guó)外醫(yī)學(xué): 口腔醫(yī)學(xué)分冊(cè),2002, 29(4): 213-215.

HUANG Dingming, WU Yafei. Typing and pathogenic role of porphyromonas gingivalis aeromonas[J]. Foreign Medical: Stomatology Volume, 2002,29(4): 213-215.

[2]SHAH P K. Plaque disruption and thrombosis: potential role of inflammation and infection[J].Cardiology in Review, 2000,8(1): 31-39.

[3]KUVIN J T,KIMMELSTIEL C D.Infectious causes of atherosclerosis[J].American Heart Journal,1999,137(2):216-226.

[4]CAI Y, KOBAYASHI R, HASHIZUME-TAKIZAWA T, et al. Porphyromonas gingivalis infection enhances Th17 responses for development of atherosclerosis[J].Archives of Oral Biology, 2014, 59(11): 1183-1191.

[5]AO M , MIYAUCHI M , INUBUSHI T, et al. Infection with porphyromonas gingivalis exacerbates endothelial Injury in obese mice[J].PloS One,2014,9(10): e110519-e110519.

[6]GURAV A N. The implication of periodontitis in vascular endothelial dysfunction[J].European Journal Of Clinical Investigation, 2014,44(10): 1000-1009.

[7]HANLEY S A , ADUSE-OPOKU J , CURTIS M A . A 55-Kilodalton immunodominant antigen of porphyromonas gingivalis W50 Has arisen via horizontal gene transfer[J].Infection and Immunity, 1999, 67(3): 1157-1171.

[8]BOCS S,DANCHIN A,MéDIGUE C.Re-annotation of genome microbial coding-sequences:finding new genes and inaccurately annotated genes[J].BMC Bioinformatics,2002,3(1):1-10.

[9]GUO F B , XIONG L , TENG L , et al. Re-annotation of protein-coding genes in 10 complete genomes of Neisseriaceae family by combining similarity-based and composition-based methods[J].DNA Research,2013,20(3):273-286.

[10]CAMUS J C,PRYOR M J ,MéDIGUE C,et al.Re-annotation of the genome sequence of mycobacterium tuberculosis H37Rv[J].Microbiology,2002,148(10):2967-2973.

[11]ZHOU L,VORH?LTER F J,HE Y Q ,et al.Gene discovery by genome-wide CDS re-prediction and microarray-based transcriptional analysisinphytopathogenXanthomonascampestris[J].BMC Genomics,2011, 12(1):359.

[12]ZHANG C T , ZHANG R . Analysis of distribution of bases in the coding sequences by a diagrammatic technique[J].Nucleic Acids Research, 1991, 19(22): 6313-6317.

[13]ZHANG C T , CHOU K C . A graphic approach to analyzing codon usage in 1562 Escherichia coli protein coding sequences[J].Journal of Molecular Biology,1994, 238(1): 1-8.

[14]MIRA A , OCHMAN H , MORAN N A . Deletional bias and the evolution of bacterial genomes[J].Trends Genet,2001, 17(10): 589-596.

[15]ZHANG C T , WANG J . Recognition of protein coding genes in the yeast genome at better than 95% accuracy based on the Z curve[J].Nucleic Acids Research,2000, 28(14): 2804-2814.

[16]GUO F B. The distribution patterns of bases of protein-coding genes, non-coding ORFs, and intergenic sequences in pseudomonas aeruginosa PA01 genome and its implications[J].Journal of Biomolecular Structure and Dynamics,2007,25(2):127-133.

[17]CHEN L L , ZHANG C T . Seven GC-rich microbial genomes adopt similar codon usage patterns regardless of their phylogenetic lineages[J].Biochemical And Biophysical Research Communications,2003,306(1): 310-317.

Re-annotation ofPorphyromonasgingivaliscoding-sequences

XU Xiaojie1,2, JI Dewei1,2, ZHANG Xinyue3, ZHANG Wuji1,2, ZHANG Huixiong1,2*

(1.SchoolofLifeScienceandTechnology,KeyLabofNeuroinformationofMinistryofEducation,

UniversityofElectronicScienceandTechnology(UESTC),Chengdu610054,China;

2.MedicalInformaticsCenter,UESTC,Chengdu610054,China;

3.SchoolofAcupunctureandMassage,ChengduUniversityofTCM,Chengdu610054,China)

Abstract:To ensure accuracy ofP.gingivalisbiological macromolecules information,we investigated the annotations of the 3P.gingivalisbased on NCBI database. Firstly, we prepared protein-coding and non-coding sequences as positive and negative samples,respectively,and used Fisher Discriminant which was designed based on Z curve theory to determine the threshold t0,which was used as the criterion to determine whether the gene encoding the protein or not. We firstly excluded the wrong annotation information from three stains ofP.gingivalisbased on the threshold. Secondly, theP.gingivaliswere predicted with the prodigal gene prediction software. We used the predicted genes compared to the original known-function genes and selected the ORFs with different 5’terminals, identified the candidate genes with overlapping rate of less than 20% from the ORFs with different 5’terminals.Finally, we used the sequence alignment software Blast to find the candidate genes that meet the conditions. We excluded 117 non-coding open reading frames, and found 30 new protein-coding genes that were not annotated in the NCBI database.

Keywords:Periodontal disease;Porphyromonasgingivalis; Re-annotation; New genes

中圖分類號(hào):Q343.1+2

文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1672-5565(2015)04-205-07

doi:10.3969/j.issn.1672-5565.2015.04.01

作者簡(jiǎn)介:徐曉捷,女,碩士研究生,研究方向:生物醫(yī)學(xué)工程;E-mail:517170490@qq.com.*通信作者:張會(huì)雄,副教授,研究方向:移動(dòng)互聯(lián)與公眾健康;E-mail:940351908@qq.com.

基金項(xiàng)目:中央高校基本科研業(yè)務(wù)費(fèi)(ZYGX2013J100);2014年非全日制專業(yè)學(xué)位研究生教研教改項(xiàng)目(ZY2014009)。

收稿日期:2015-07-19;修回日期:2015-09-10.

猜你喜歡
牙周病
口腔正畸治療牙周病致前牙移位的臨床療效
牙齒移動(dòng)對(duì)靜止期牙周病動(dòng)物模型牙槽骨的影響
糖友患牙周病影響血糖控制
牙周病及伴系統(tǒng)疾病相關(guān)牙周病的臨床診治
套筒冠義齒修復(fù)牙列缺損伴牙周病老年患者的臨床觀察
喝生姜水預(yù)防牙周病
婦女之友(2016年8期)2016-10-21 14:10:02
胃食管反流病與牙周病的相關(guān)性
牙周病致錯(cuò)畸形正畸治療中鄰面去釉治療的效果研究
自鎖托槽矯治器在成人牙周病中的應(yīng)用
食管疾病(2015年3期)2015-12-05 01:45:10
活動(dòng)義齒與固定義齒在牙周病修復(fù)中的療效對(duì)比分析
主站蜘蛛池模板: 在线观看无码a∨| 无码高潮喷水专区久久| 亚洲第一视频网站| 狠狠色综合网| 国产免费久久精品44| 夜夜操狠狠操| 亚洲第一区在线| 国产嫩草在线观看| 欧美国产另类| 伊人久久大香线蕉综合影视| 国产大片喷水在线在线视频 | 日本黄色a视频| 国产成人高清在线精品| 好久久免费视频高清| 久久公开视频| 亚洲中文久久精品无玛| 亚洲AⅤ无码国产精品| 成人免费一区二区三区| 婷婷中文在线| 精品久久国产综合精麻豆| 91啦中文字幕| 日韩在线永久免费播放| 99九九成人免费视频精品| 亚洲国产天堂久久九九九| 日韩精品无码免费专网站| 一本大道在线一本久道| 国产精品偷伦视频免费观看国产| 性色在线视频精品| 亚洲国产精品无码AV| 欧美不卡在线视频| 亚洲第一页在线观看| 国产在线一二三区| 国产精品三级专区| 91亚洲国产视频| 福利在线不卡| 国产自在自线午夜精品视频| 国产h视频在线观看视频| 欧美成人一级| 亚洲91精品视频| 日韩精品成人在线| 四虎永久在线精品国产免费| 国内精品视频在线| 亚洲精品第1页| 国语少妇高潮| 国产精品成| 中文无码毛片又爽又刺激| a毛片在线播放| 国产精品内射视频| 国产伦精品一区二区三区视频优播| 少妇精品网站| 高清国产va日韩亚洲免费午夜电影| 日韩精品免费一线在线观看| 91精品啪在线观看国产91九色| 亚洲天堂日本| 99视频精品全国免费品| 亚洲人成网站在线播放2019| 色135综合网| 久久精品日日躁夜夜躁欧美| 中文字幕人妻无码系列第三区| 亚洲国产高清精品线久久| 天堂亚洲网| 欧美一区二区三区不卡免费| 99久久精品免费看国产电影| 女人18毛片一级毛片在线| 久久久久夜色精品波多野结衣| 免费人成在线观看成人片| 综1合AV在线播放| 女人18毛片一级毛片在线 | 成人免费网站在线观看| 69视频国产| 久久国产香蕉| 54pao国产成人免费视频| 91色国产在线| 丁香五月婷婷激情基地| 综合色在线| 欧美在线视频不卡| 亚洲无码37.| 国产91色在线| 亚洲码一区二区三区| www.youjizz.com久久| 亚洲成人福利网站| 九九热视频精品在线|