999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

新一代高通量測序Chip—seq數(shù)據(jù)正規(guī)化方法研究

2014-04-29 00:44:03張德楠王亞東
智能計算機與應(yīng)用 2014年6期
關(guān)鍵詞:生物學(xué)生物區(qū)域

張德楠 王亞東

摘 要:本文針對目前生物信息研究中常見的高通量測序技術(shù)Chip-seq數(shù)據(jù)的正規(guī)化問題進行了研究。分析了目前常用的TMR正規(guī)化方法和LOWESS正規(guī)化方法中沒有考慮到基因組的結(jié)構(gòu)對于生物數(shù)據(jù)分布的影響這一不足,提出了一種新的基于基因組功能注釋的LOWESS正規(guī)化方法。該方法更符合基因組生物學(xué)特征,可以根據(jù)基因組本身不同的生物學(xué)功能的差異,分區(qū)域分類別進行數(shù)據(jù)正規(guī)化處理,更符合基因組的生物學(xué)特征,也具有更高的可靠性。同時可以針對不同研究目的,依據(jù)不同的功能區(qū)域注釋信息有針對性的對該區(qū)域進行正規(guī)化,具有更高的特異性和靈活性以及更低的時間和空間復(fù)雜度。

關(guān)鍵字:高通量測序技術(shù)Chip-seq;數(shù)據(jù)的正規(guī)化;基因組功能注釋;LOWESS正規(guī)化方法

中圖分類號:TP391.2 文獻標識碼:A 文章編號:2095-2163(2014)05-

Abstract:This paper studies the normalization methods of high-throughput sequencing technology Chip-seq data in current bioinformatics research. Current normalization methods commonly based TMR or LOWESS did not take into account the impact of structural genomics for the distribution of biological data. Due to this analysis, the paper proposes a new LOWESS normalization method based on features of genome annotation. This approach considering the biological characteristics of the genome data can process sub-regional normalization according to the different biological functions of genome itself and has higher reliability. At the same time, the proposed new method could normalize corresponding regions according to the different functional annotation for different research purposes with higher specificity and flexibility, as well as lower time and space complexity.

Key words: High-throughput Sequencing Technology Chip-seq; Normalization of Data, LOWESS Normalization; Functional Annotation of Genomes

0引 言

充足準確的生物數(shù)據(jù)是進行生物信息研究的基礎(chǔ)與關(guān)鍵。之前對于轉(zhuǎn)錄層面相關(guān)的研究所涉及到的數(shù)據(jù)如基因表達量、轉(zhuǎn)錄因子結(jié)合情況等都來自于低通量的生物學(xué)實驗[1-2]。原有的產(chǎn)生高通量數(shù)據(jù)的實驗方法均是基于Chip-chip芯片測試并展開的,除了信號噪聲較大外,這種芯片數(shù)據(jù)最大的問題則在于數(shù)據(jù)本身無法覆蓋全基因組[3-5]。隨著新一代測序技術(shù)的發(fā)展普及,尤其是Chip-seq技術(shù)出現(xiàn)之后,即以其高精度、低噪聲、全基因組覆蓋等優(yōu)勢而迅速成為時新的標準實驗手段[6-7]。但基于Chip-seq實驗產(chǎn)生的高通量數(shù)據(jù)卻有其自身特點,在使用上不僅區(qū)別于低通量數(shù)據(jù),與較早的高通量測序技術(shù)Chip-chip也不盡相同。此外,在實際研究和仿真實驗中又常常需要不同細胞條件下多組實驗的相互對照,以便從中分析、且得到差異。因此,當今在進行生物信息學(xué)研究中,標準化的、使不同實驗間數(shù)據(jù)可資比較的新一代高通量測序數(shù)據(jù)正規(guī)化方法研究即已顯得尤為重要且必要。

對于Chip-seq實驗產(chǎn)生的數(shù)據(jù)目前常用的正規(guī)化方式主要包括TMR(total number of mapping reads)正規(guī)化方法[8]和LOWESS正規(guī)化方法[9]。具體來說,TMR正規(guī)化方法是一種通過將各樣本總體reads直接從數(shù)量上擴大或縮小的手段來對不同生物條件下樣本進行正規(guī)化的方法,只是這種直接比例擴增的正規(guī)化方法根本沒有考慮到樣本內(nèi)部reads的分布情況,為此常常造成較大的誤差。而LOWESS正規(guī)化方法則是曾經(jīng)廣泛用于Chip-chip數(shù)據(jù)正規(guī)化的方法,后被引入到對Chip-seq數(shù)據(jù)進行正規(guī)化處理。其實現(xiàn)過程是,LOWESS正規(guī)化方法是通過將實驗中對照組之間數(shù)據(jù)值的對數(shù)差異,以及對照組之間數(shù)據(jù)值的對數(shù)平均值進行局部加權(quán)平滑回歸而對數(shù)據(jù)完成了正規(guī)化處理。

但無論是TMR正規(guī)化方法還是LOWESS正規(guī)化方法都存在著一個重大缺陷:這些正規(guī)化方法根本沒有考慮到基因組的結(jié)構(gòu)對于其生物功能的影響。通過研究知道不同的DNA序列從功能上可以劃分成基因區(qū)、基因間區(qū)、啟動子區(qū)、3'和5'非翻譯區(qū)等區(qū)域,這些區(qū)域有著截然不同的生物學(xué)功能,而且在不同的細胞環(huán)境下其生物數(shù)據(jù)也分別有著不同的分布特征。上述正規(guī)化方式進行的籠統(tǒng)而機械的正規(guī)化處理無疑破壞了這種生物學(xué)特征,還可能人為引進不必要的誤差。

為了克服現(xiàn)有新一代高通量測序技術(shù)正規(guī)化方法的這種不足,研究根據(jù)基因組序列的生物功能注釋提出了一種新的、基于序列上下文環(huán)境的正規(guī)化方法,這一新的正規(guī)化方法不僅能夠保留樣本數(shù)據(jù)中隱含的基因組結(jié)構(gòu)信息,還避免了粗暴劃分正規(guī)化區(qū)間造成的人為干擾,為進一步數(shù)據(jù)分析提供分布良好、細節(jié)豐富的數(shù)據(jù)樣本。

1基于基因組功能注釋信息的LOWESS正規(guī)化方法

基于上述工程實踐的研討分析,本文根據(jù)基因組序列的生物功能提出了一種新的基于序列功能注釋的正規(guī)化方法。該方法通過利用來自UCSC的基因組注釋信息對基因組進行功能分組,再依次利用局部加權(quán)平滑LOWESS方法進行正規(guī)化。這種基于序列上下文環(huán)境的正規(guī)化方法具體過程可做如下展開:

首先,注意對照組之間總的reads數(shù)量上的相互差異,如果差異較大則需要進行一次總體上的數(shù)量調(diào)整,使其在總體上可以進行比較;

利用基因組注釋信息,根據(jù)基因的功能區(qū)分將全基因組劃割為一個個生物學(xué)功能相關(guān)的小區(qū)域bin,并分別得到每一個區(qū)域上reads數(shù)量的原始初值。特別需要指出的是,本文的方法還可以根據(jù)設(shè)定的不同研究目、針對不同區(qū)域進行正規(guī)化,同時不同區(qū)域分割的bin也可以采用不同的尺度,由此而達到精度和計算開銷的平衡。

由圖1可以看到,在未經(jīng)處理的原始全基因組Chip-seq數(shù)據(jù)MA-plot圖中,其數(shù)據(jù)的分布向下方傾斜(由灰色實線表示);而在經(jīng)過TMR正規(guī)化處理之后Chip-seq數(shù)據(jù)在全基因組上的分布則向上方傾斜(由灰色實線表示)。這兩種分布都與理想情況下的分布曲線(0點處灰色虛線)存在差異,由此說明無論是未經(jīng)處理的原始全基因組Chip-seq數(shù)據(jù)還是經(jīng)過TMR正規(guī)化之后的Chip-seq數(shù)據(jù)都仍然存在不同程度的偏差。

在圖2中,繼而又對全基因組分別采用LOWESS正規(guī)化方式和本文基于基因組功能注釋LOWESS正規(guī)化方法的正規(guī)化結(jié)果進行了對比。由此可以發(fā)現(xiàn),從整體上看,兩種正規(guī)化方法在全基因組范圍上的正規(guī)化效果都比較好,體現(xiàn)樣本MA特征的灰色實線比較完美地契合灰色虛線表示的理想狀態(tài)下的MA特征曲線。但若仔細比較圖像上黑色圓點代表的數(shù)據(jù)分布即會發(fā)現(xiàn)本文提出的基于基因組功能注釋LOWESS正規(guī)化方法的正規(guī)化結(jié)果中,其數(shù)據(jù)的對稱性要好于普通LOWESS正規(guī)化方法的結(jié)果。這也形象展示了本文提出的新正規(guī)化方法的良好性能。

由于本文提出的基于基因組功能注釋LOWESS的正規(guī)化方法具有非常高的靈活性,可以根據(jù)研究者所關(guān)注的不同問題,依照不同的基因組功能注釋,對基因組的某些區(qū)域進行正規(guī)化處理而不必針對全基因組進行正規(guī)化。研究進一步根據(jù)UCSC提供的基因組注釋信息簡單地將基因組分成啟動子調(diào)控區(qū)間(每個基因TSS附近-600bp~+400bp)、基因體區(qū)間(每個基因TSS下游400bp~基因結(jié)束)和背景區(qū)間(其他基因區(qū)間),在每一個染色體上根據(jù)這些不同的功能分區(qū)對對應(yīng)區(qū)間上Chip-seq數(shù)據(jù)進行正規(guī)化處理。實驗發(fā)現(xiàn),本文提出的基于基因組功能注釋的LOWESS正規(guī)化方法在三個功能區(qū)間上的正規(guī)化結(jié)果都很好,在圖3中,即是以16號染色體為例,對本文提出的新正規(guī)化方法結(jié)果進行了真實呈現(xiàn)。

3結(jié)束語

本文針對目前生物信息研究中常見的高通量測序技術(shù)Chip-seq數(shù)據(jù)的正規(guī)化問題進行了研究。分析了目前常用的TMR正規(guī)化方法和LOWESS正規(guī)化方法中沒有考慮到基因組的結(jié)構(gòu)對于生物數(shù)據(jù)分布的影響這一不足,提出了一種新的基于基因組功能注釋的LOWESS正規(guī)化方法。該方法可以根據(jù)基因組本身不同的生物學(xué)功能的差異,分區(qū)域分類別進行數(shù)據(jù)正規(guī)化處理,更符合基因組的生物學(xué)特征,也具有更高的可靠性。同時還可以針對不同研究目的,依據(jù)不同的功能區(qū)域注釋信息有針對性地對該區(qū)域進行正規(guī)化,結(jié)果展示了更高的特異性、靈活性以及更低的時間和空間復(fù)雜度。經(jīng)過與傳統(tǒng)Chip-seq高通量數(shù)據(jù)正規(guī)化方法的比較,尤其是與傳統(tǒng)LOWESS方法的比較,驗證了本文提出的這種新的基于基因組功能注釋的LOWESS正規(guī)化方法具有更為良好的正規(guī)化效果。

參考文獻:

[1] BUSTIN S A. Why the need for qPCR publication guidelines?--The case for MIQE [J]. Methods, 2010, 50(4): 217-226.

[2] BUSTIN S A, BENES V, GARSON J A, et al. The MIQE guidelines: minimum information for publication of quantitative real-time PCR experiments [J]. Clinical chemistry, 2009, 55(4): 611-622.

[3] HO J W, BISHOP E, KARCHENKO P V, et al. ChIP-chip versus ChIP-seq: lessons for experimental design and data analysis [J]. BMC genomics, 2011, 12(134).

[4] KAUFMANN K, MUINO J M, OSTERAS M, et al. Chromatin immunoprecipitation (ChIP) of plant transcription factors followed by sequencing (ChIP-SEQ) or hybridization to whole genome arrays (ChIP-CHIP) [J]. Nature protocols, 2010, 5(3): 457-472.

[5] SCHULZ S, HAUSSLER S. Chromatin immunoprecipitation for ChIP-chip and ChIP-seq [J]. Methods in molecular biology, 2014, 1149:591-605.

[6] LANDT S G, MARINOV G K, KUNDAJE A, et al. ChIP-seq guidelines and practices of the ENCODE and modENCODE consortia [J]. Genome research, 2012, 22(9): 1813-1831.

[7] PARK P J. ChIP-seq: advantages and challenges of a maturing technology [J]. Nature reviews Genetics, 2009, 10(10): 669-680.

[8] ZHONG M, NIU W, LU Z J, et al. Genome-wide identification of binding sites defines distinct functions for Caenorhabditis elegans PHA-4/FOXA in development and environmental response [J]. PLoS genetics, 2010, 6(2): e1000848.

[9] CLEVELAND W S. LOWESS: A program for smoothing scatterplots by robust locally weighted regression [J]. American Statistician, 1981.

猜你喜歡
生物學(xué)生物區(qū)域
生物多樣性
生物多樣性
上上生物
谷稗的生物學(xué)特性和栽培技術(shù)
第12話 完美生物
航空世界(2020年10期)2020-01-19 14:36:20
初中生物學(xué)糾錯本的建立與使用
初中生物學(xué)糾錯本的建立與使用
關(guān)于四色猜想
分區(qū)域
PEDF抗腫瘤的生物學(xué)作用
主站蜘蛛池模板: 香蕉网久久| 亚洲精品第五页| 国内99精品激情视频精品| 国产精品xxx| 亚洲va精品中文字幕| 精品久久综合1区2区3区激情| 亚洲色图综合在线| 婷婷六月综合| 美女免费精品高清毛片在线视| 亚洲第一色视频| 亚洲欧美日本国产综合在线 | 精品剧情v国产在线观看| AV不卡无码免费一区二区三区| 国产激情影院| 国产成人精品一区二区免费看京| 亚洲午夜天堂| 国产三区二区| 国产小视频a在线观看| 午夜日韩久久影院| 亚洲啪啪网| 国产在线91在线电影| 99视频在线看| 久久综合婷婷| 日韩黄色精品| 亚洲人成网站18禁动漫无码| 伊人久久精品亚洲午夜| 日韩中文字幕免费在线观看| 热久久这里是精品6免费观看| 欧美日韩亚洲综合在线观看| 免费播放毛片| 9丨情侣偷在线精品国产| 热re99久久精品国99热| 日本人妻一区二区三区不卡影院 | 青青久久91| 中文字幕日韩久久综合影院| 国产91线观看| 在线欧美日韩国产| 亚洲日韩久久综合中文字幕| 国产不卡一级毛片视频| 亚洲大尺码专区影院| 国产在线观看一区二区三区| 国产麻豆va精品视频| 精品自拍视频在线观看| JIZZ亚洲国产| 91免费国产在线观看尤物| 精品夜恋影院亚洲欧洲| 欧美成人看片一区二区三区| 国产一级视频在线观看网站| 国产精品欧美在线观看| 日韩精品欧美国产在线| 欧美色图久久| yjizz视频最新网站在线| 丰满人妻久久中文字幕| 免费女人18毛片a级毛片视频| 国产精品区视频中文字幕| 亚洲一区二区三区在线视频| 好吊色国产欧美日韩免费观看| 亚洲天堂777| 国产超薄肉色丝袜网站| 亚洲欧洲日本在线| 日韩视频精品在线| 亚洲乱码在线视频| 国产精品浪潮Av| 婷婷色一区二区三区| 亚洲伊人电影| 玩两个丰满老熟女久久网| 亚洲性视频网站| 日本午夜影院| 精品国产自在现线看久久| 色丁丁毛片在线观看| 五月婷婷丁香综合| 国产精品毛片在线直播完整版| 亚洲国产理论片在线播放| 免费人欧美成又黄又爽的视频| 99精品伊人久久久大香线蕉| 日本黄网在线观看| 亚洲视频三级| 色国产视频| 中文字幕av一区二区三区欲色| 黄片一区二区三区| 中文字幕日韩久久综合影院| 爆乳熟妇一区二区三区|