999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于EST數(shù)據(jù)的水稻基因表達(dá)大規(guī)模初步分析

2016-01-15 02:01:52宋東光
生物信息學(xué) 2015年2期
關(guān)鍵詞:水稻

基于EST數(shù)據(jù)的水稻基因表達(dá)大規(guī)模初步分析

宋東光

(佛山科學(xué)技術(shù)學(xué)院園藝系,廣東 佛山 528231)

摘要:EST序列代表了組織基因表達(dá)的轉(zhuǎn)錄信號(hào),本研究嘗試開(kāi)發(fā)簡(jiǎn)單高效的大規(guī)模EST分析方法,從NCBI下載水稻(Oryza sativa) 的所有EST序列并進(jìn)行分析以獲取水稻發(fā)育過(guò)程基因表達(dá)的重要信息。通過(guò)進(jìn)行blast比對(duì)和phrap拼接分析,及利用Unix文本過(guò)濾方法,從EST序列拼接獲得了3萬(wàn)多個(gè)重疊群序列。進(jìn)一步將重疊群序列與NCBI核酸數(shù)據(jù)庫(kù)進(jìn)行比對(duì)獲得了各個(gè)序列的注釋信息。從重疊群的組織表達(dá)初步挖掘中發(fā)現(xiàn)花藥的表達(dá)數(shù)量最多,為下一步探討水稻發(fā)育器官特異表達(dá)基因調(diào)控打下了重要基礎(chǔ)。

關(guān)鍵詞:水稻;EST;Bast; Phrap; 組織特異表達(dá)

中圖分類(lèi)號(hào):Q344+.13文獻(xiàn)標(biāo)志碼:A

收稿日期:2015-01-19;修回日期:2015-04-24.

基金項(xiàng)目:國(guó)家自然

作者簡(jiǎn)介:楊紅,女,講師,研究方向:應(yīng)用數(shù)學(xué),生物信息學(xué);E-mail: yanghong19820118@163.com.

doi:10.3969/j.issn.1672-5565.2015.02.05

Large-scale preliminary analysis of rice gene expression mining from EST data

SONG Dongguang

(DepartmentofHorticulture,FoshanUniversity,FoshanGuangdong528231,China)

Abstract:EST sequences represent transcribed signals of gene expressions in tissues. In this study, a simple and effective method for large-scale EST analysis was developed using all rice(Oryza sativa) ESTs downloaded from NCBI for mining important information in rice development. After the blast alignment, phrap contig joining, and Unix command-line filtering, over 30 000 contigs were obtained from EST sequences. Annotations of these contigs were returned with further alignments to NCBI nucleotide databases. Anther expressions showed the most abundant in this preliminary mining from annotations for different tissues. This lays an important foundation for further investigating tissue-specific regulation of gene expression in rice development.

Keywords:Oryza sativa; EST; Blast; Phrap; Tissue-specific expression

隨著功能基因組學(xué)研究的廣泛開(kāi)展,闡明基因表達(dá)調(diào)控網(wǎng)絡(luò)的分子機(jī)理成為了近年來(lái)分子生物學(xué)研究的主要領(lǐng)域之一。獲得基因活動(dòng)信息的方法如EST,SAGE分析,表達(dá)芯片分析等可以提供大量的基因活動(dòng)信號(hào),并進(jìn)一步從獲得的各種表達(dá)數(shù)據(jù)分析構(gòu)建基因調(diào)控網(wǎng)絡(luò)。其中,EST分析獲得的基因表達(dá)信息真實(shí)反映了細(xì)胞內(nèi)基因活動(dòng)的情況,包括基因的組織特異表達(dá)情況。大量的EST序列可以從NCBI Genbank數(shù)據(jù)庫(kù)獲取,研究者也能夠從cDNA文庫(kù)進(jìn)行克隆快速測(cè)序獲得,面對(duì)海量的序列數(shù)據(jù)需要有效的高通量分析工具才能提取出更多的基因表達(dá)譜信息并用于構(gòu)建基因調(diào)控網(wǎng)絡(luò)[1-3]。

EST序列預(yù)處理如如去除載體序列、poly(A)尾巴等對(duì)于后續(xù)分析是很必要的,涉及EST的各種分析包括轉(zhuǎn)錄組、重疊群拼接,基因注釋?zhuān)琒SR及SNP多態(tài)性, ORF確定,選擇性剪接,microRNA及非編碼RNA分析,RNA編輯,GO查詢(xún),組織特異性表達(dá)譜分析以及構(gòu)建基因調(diào)控網(wǎng)絡(luò)等并取得了許多重要進(jìn)展[4-10]。

本文開(kāi)發(fā)了簡(jiǎn)單有效的工具以來(lái)自NCBI的水稻EST序列為材料進(jìn)行大規(guī)模初步分析,包括進(jìn)行blast比對(duì),phrap重疊群拼接與注釋?zhuān)敖M織特異表達(dá)分析,為水稻生長(zhǎng)發(fā)育過(guò)程基因表達(dá)調(diào)控網(wǎng)絡(luò)的構(gòu)建奠定重要基礎(chǔ)。

1材料與方法

1.1操作系統(tǒng)和文本過(guò)濾工具

操作系統(tǒng)為FreeBSD 10.0,由The FreeBSD Project(http://www.freebsd.org/)開(kāi)發(fā), 利用其內(nèi)嵌的Unix命令如awk、sed、tr、uniq、split、 comm、paste、 join及sort等進(jìn)行EST序列預(yù)處理[11]及其他文本挖掘工作。

1.2EST序列及格式轉(zhuǎn)換

“gz”壓縮格式的EST 序列數(shù)據(jù)從NCBI下載, 提取其中的重要信息并轉(zhuǎn)換為一行,每個(gè)字段由制表符隔開(kāi)。抽取每個(gè)EST序列及其id并轉(zhuǎn)換為FASTA格式,序列開(kāi)始及末尾的長(zhǎng)于10nt的poly(A/C/G/T)通過(guò)前面的過(guò)濾命令進(jìn)行去除。

1.3Blast比對(duì)分析

NCBI開(kāi)發(fā)的blast程序blast-2.2.22-ia32-freebsd 用于 EST序列的本地blast比對(duì)分析, 每個(gè)EST序列彼此間進(jìn)行相似性比對(duì)找出得分大于100的去除重復(fù)后合并其id于一行。

1.4重疊群拼接分析

phrap 程序(由Washington 大學(xué)的Phil Green開(kāi)發(fā), http://www.phrap.org)用于將相似性較高的EST序列重疊拼接獲得重疊群(contig)。

1.5重疊群注釋

將以上的拼接重疊群進(jìn)行遠(yuǎn)程N(yùn)CBI網(wǎng)絡(luò) blast 比對(duì)以獲得重疊群的注釋?zhuān)看慰梢赃M(jìn)行200個(gè)重疊群(FASTA格式), 返回結(jié)果保存為“.txt”格式并只提取注釋信息。

1.6組織特異表達(dá)譜分析

不同組織表達(dá)的EST可以通過(guò)比較組織表達(dá)的EST id及拼接注釋后的重疊群id得到。

2結(jié)果

2.1大規(guī)模EST分析通路

本文的EST大規(guī)模分析流程圖參照?qǐng)D1。

圖1 本文EST大規(guī)模分析流程圖(具體過(guò)程見(jiàn)方法)

EST序列下載后將其從“gz”格式解壓縮,提取必要信息并將轉(zhuǎn)換為由制表符隔開(kāi)的一行數(shù)據(jù)庫(kù)錄入格式,含6個(gè)字段即GI-GenBank數(shù)據(jù)庫(kù)中的唯一標(biāo)識(shí)號(hào), DEFINITION-EST數(shù)據(jù)定義信息,TITLE-測(cè)序記錄號(hào), /organism/-物種名, FEATURES-EST序列簡(jiǎn)單介紹, ORIGIN-EST核苷酸序列。典型的一個(gè)EST序列見(jiàn)圖2。

圖2 提取轉(zhuǎn)換格式后的一條典型EST序列,含6個(gè)字段由制表符分隔,即GI, DEFINITION, TITLE,

2.2NCBI記錄的不同物種EST序列統(tǒng)計(jì)

截止2014年2月14日從NCBI下載的所有“gz”格式的EST序列提取其GI及organism后統(tǒng)計(jì)了各個(gè)物種的EST總數(shù)。119個(gè)物種EST記錄數(shù)超過(guò)10萬(wàn)條,但其中只有63個(gè)物種數(shù)量超過(guò)了20萬(wàn)條(見(jiàn)表1,只列出了部分物種)。這其中,人(Homosapiens) 和 家鼠(Musmusculus) 記錄數(shù)最多,分別達(dá)到了8千7百萬(wàn)和4千8百多萬(wàn)條,排在第三位的是玉米(Zeamays)有2百多萬(wàn)條,水稻 (Oryzasativa)為1百多萬(wàn)條,包括了秈稻和粳稻(見(jiàn)表1)。

表1 截止2014年2月14日從NCBI下載的所有物種記錄數(shù)

2.3水稻EST序列彼此間的blast比對(duì)

水稻的125萬(wàn)條EST序列(截止2010年3月24日,包括秈稻和粳稻)經(jīng)過(guò)預(yù)處理去除了poly(A/T/G/C)后利用本地的blast程序進(jìn)行了比對(duì),比對(duì)工作連續(xù)進(jìn)行約用時(shí)1個(gè)多月,之后將彼此比對(duì)打分達(dá)到100以上的序列ids(即GI號(hào))合為一行,得到1 237 411行id組,部分示例列于圖3。

圖3 相似性比對(duì)(打分100及以上的)EST序列其id合為一行

blast比對(duì)是用水稻的每個(gè)EST序列與所有的EST進(jìn)行兩兩比對(duì)得到的結(jié)果,上述結(jié)果需要去除重復(fù)的相同行,并合并不同行中的相同ids。去除重復(fù)行得到543 460行,然后每行內(nèi)的id排序后將每行第一個(gè)id相同的行進(jìn)行合并,得到76 337行,再次進(jìn)行每行第一個(gè)id排序合并后得到39 572行。然后可以將每行內(nèi)id代表的各個(gè)序列下一步用phrap獲得重疊群,結(jié)果見(jiàn)表2.

表2 Blast比對(duì)水稻所有的EST兩兩序列并合并序列相似性打分達(dá)到100以上序列ids

2.4用phrap拼接獲得EST重疊群

根據(jù)前述方法用phrap程序從前面的blast比對(duì)結(jié)果進(jìn)行重疊群拼接,獲得只有一個(gè)重疊序列的重疊群為27 556個(gè),兩個(gè)以上超過(guò)一個(gè)重疊序列的為7 413個(gè),所有重疊群序列總數(shù)達(dá)到171 698個(gè)(見(jiàn)圖4)。為了找出更合適的比對(duì)重疊群,將獲得的重疊群兩兩進(jìn)行了blast但打分大于250,這樣獲得了34 969個(gè)比對(duì)結(jié)果,其中16 900個(gè)為單一序列(見(jiàn)圖5),這樣為下一步進(jìn)行clustalw比對(duì)分析很有幫助(本文未附)。

圖4 Blast結(jié)果用phrap進(jìn)行重疊群拼接

圖5 Phrap得到的重疊群進(jìn)行blast比對(duì),顯示了3行,每行超過(guò)一個(gè)重疊群的彼此相似性打分超過(guò)250

2.5重疊群與NCBI nt數(shù)據(jù)庫(kù)比對(duì)進(jìn)行注釋

獲取重疊群的注釋尤為重要,將重疊群與NCBI nt核酸數(shù)據(jù)庫(kù)進(jìn)行比對(duì)后從返回的信息中挖掘各個(gè)重疊群的注釋。全部的34 969個(gè)重疊群與NCBI nt數(shù)據(jù)庫(kù)進(jìn)行blast比對(duì)后,1 971個(gè)沒(méi)有返回比對(duì)結(jié)果,注釋內(nèi)容提取合為一行如圖6所示。去除重復(fù)行后注釋行總數(shù)為211 351,但其中還有相當(dāng)部分為未注釋的行,如在含有chromosome, cultivar:, genomic sequence, clone, mRNA sequence, unknown, hypothetical protein, DNA, Cosmid, vector, cDNA, BAC clone, marker等的比對(duì)結(jié)果中大部分沒(méi)有有用的注釋信息,還需要進(jìn)一步去除約只有一半為有用的注釋行,見(jiàn)圖7示例.這些注釋內(nèi)容需要與前面的重疊群進(jìn)行匹配后進(jìn)一步進(jìn)行挖掘。

圖6 重疊群與NCBI nt數(shù)據(jù)庫(kù)進(jìn)行blast比對(duì)后提取的注釋行示例

圖7 從注釋行中去除非注釋行獲得的注釋行示例,參見(jiàn)上下文分析

物種關(guān)聯(lián)的注釋可提供一些有意義的信息,尤其是對(duì)于比較基因組學(xué)分析。從比對(duì)結(jié)果中找出了939個(gè)物種與水稻重疊群有關(guān)聯(lián),只有82個(gè)物種出現(xiàn)的注釋超過(guò)100條,而其中僅僅10個(gè)超過(guò)了1 000條。玉米與水稻的比對(duì)注釋最多達(dá)到了36 804條,大多數(shù)為mRNA/cDNA/protein的注釋也許可以提供與基因功能相關(guān)的有用信息。剩下的9個(gè)中只有Brachypodium distachyon超過(guò)1萬(wàn)條,為11 610條,見(jiàn)圖8。

圖8 不同物種與水稻重疊群比對(duì)返回超過(guò)1 000條的注釋數(shù)

每個(gè)重疊群比對(duì)結(jié)果出現(xiàn)推測(cè)基因功能的注釋對(duì)于進(jìn)一步的功能基因組學(xué)分析特別是構(gòu)建基因調(diào)控網(wǎng)絡(luò)是很有幫助的,這將是我們下一步的研究目標(biāo)。

2.6水稻發(fā)育過(guò)程組織特異表達(dá)

確定組織特異轉(zhuǎn)錄譜對(duì)于分析基因表達(dá)模式及構(gòu)建基因調(diào)控網(wǎng)絡(luò)是很重要的。所有的EST記錄中見(jiàn)圖9,其中花藥的記錄數(shù)最多。從比對(duì)的39 572個(gè)EST id(見(jiàn)圖2)組找出了各個(gè)組織的表達(dá)重疊群,結(jié)果見(jiàn)圖10,雖然表達(dá)重疊群中可能含有相似的重疊群,如圖5所示。從圖10可以清楚看出,花藥的表達(dá)重疊群最多達(dá)到了最高重疊群數(shù)。這并奇怪,因?yàn)閺幕ㄋ幍腅ST總數(shù)977 141(見(jiàn)圖9)可以預(yù)見(jiàn)(分析的EST序列總數(shù)只有125萬(wàn)條),其他的組織都少于20萬(wàn)條。從以上結(jié)果尚不能完全的獲得組織特異表達(dá)譜(見(jiàn)圖10),但是很顯然組織特異表達(dá)譜對(duì)于構(gòu)建水稻發(fā)育過(guò)程基因調(diào)控網(wǎng)絡(luò)是很重要的,我們將在今后繼續(xù)進(jìn)行探討。

圖9 本文引用的NCBI來(lái)源水稻不同組織EST序列數(shù)

圖10 從比對(duì)后EST id組(見(jiàn)圖2)獲取的不同組織表達(dá)重疊群計(jì)數(shù)

3討論

EST大數(shù)據(jù)包含了大量基因表達(dá)信息,EST數(shù)據(jù)大規(guī)模分析有助于發(fā)現(xiàn)基因調(diào)控的活動(dòng)情況,并可以用于構(gòu)建基因調(diào)控網(wǎng)絡(luò)。本文從NCBI下載了水稻的125萬(wàn)條EST序列并進(jìn)行了基因表達(dá)分析。所有的分析工作都是通過(guò)FreeBSD操作系統(tǒng)完成的,主要工具包括Unix命令,及本地blast,phrap及遠(yuǎn)程blast程序(見(jiàn)方法)。經(jīng)過(guò)blast 比對(duì),phrap重疊群拼接及再比對(duì),獲得了34 969重疊群,其中約一半只有一個(gè)重疊群序列(見(jiàn)圖5)。進(jìn)一步我們將重疊群序列與NCBI全長(zhǎng)cDNA獲取的單一基因進(jìn)行比對(duì)以獲得水稻的完整轉(zhuǎn)錄組。以上結(jié)果表明,我們進(jìn)行的大規(guī)模EST分析是有效且快捷,與其他方法相比并不需要復(fù)雜的算法[3,10]。

本文初步分析了水稻的組織特異表達(dá)譜,發(fā)現(xiàn)花藥表達(dá)的EST重疊群數(shù)量最多,其他組織較少些,原因尚未進(jìn)一步分析(見(jiàn)圖10)。通過(guò)與NCBI核酸數(shù)據(jù)庫(kù)進(jìn)行遠(yuǎn)程比對(duì),從返回結(jié)果中提取了每個(gè)重疊群的注釋信息(見(jiàn)圖6~圖8),今后我們將著重挖掘特異表達(dá)基因并進(jìn)一步構(gòu)建水稻發(fā)育過(guò)程的基因調(diào)控網(wǎng)絡(luò)。

參考文獻(xiàn)(References)

[1]GIALLOURAKIS C C, BENITA Y, MOLINIE B, et al. Genome-wide analysis of immune system genes by expressed sequence Tag profiling[J]. J Immunol, 2013,190(11):5578-87.

[2]SHA A H, LI C, YAN X H, et al. Large-scale sequencing of normalized full-length cDNA library of soybean seed at different developmental stages and analysis of the gene expression profiles based on ESTs[J]. Mol Biol Rep, 2012,39(3):2867-74.

[3]MENON R, GARG G, GASSER R B, et al. TranSeqAnnotator: large-scale analysis of transcriptomic data[J]. BMC Bioinformatics, 2012,13( Suppl 17):S24.

[4]ZHU W, BUELL C R. Improvement of whole-genome annotation of cereals through comparative analyses[J]. Genome Res, 2007, 17(3):299-310.

[5]WARD J A, PONNALA L, WEBER C A. Strategies for transcriptome analysis in nonmodel plants[J]. Am J Bot, 2012, 99(2):267-76.

[6]LUO H, SUN C, LI Y, et al. Analysis of expressed sequence tags from the Huperzia serrata leaf for gene discovery in the areas of secondary metabolite biosynthesis and development regulation[J]. Physiol Plant, 2010, 139(1):1-12.

[7]FRAZIER T P, ZHANG B. Identification of plant microRNAs using expressed sequence tag analysis[J]. Methods Mol Biol, 2011, 678:13-25.

[8]VICTORIA F C, DA MAIA L C, DE OLIVEIRA A C. In silico comparative analysis of SSR markers in plants[J]. BMC Plant Biol, 2011, 11:15.

[9]XIE F, SUN G, STILLER J W, et al. Genome-wide functional analysis of the cotton transcriptome by creating an integrated EST database[J]. PLoS One, 2011, 6(11):e26980.

[10]LI Y, GONG P, PERKINS E J, et al. RefNetBuilder: a platform for construction of integrated reference gene regulatory networks from expressed sequence tags[J]. BMC Bioinformatics, 2011, 12( Suppl 10):S20.

[11]SONG D G, ZHANG H S, HUANG L X, et al. Localization, Updating and Sequence Preprocessing of EST Database under Unix Environment[J]. Chinese Journal of Bioinformatics, 2010,8(1):52-56.

*通信作者:姚玉華,男,教授,研究方向:計(jì)算生物學(xué),應(yīng)用數(shù)學(xué);E-mail: yaoyuhua@zstu.edu.cn.

猜你喜歡
水稻
水稻和菊花
幼兒100(2023年39期)2023-10-23 11:36:32
什么是海水稻
機(jī)插秧育苗專(zhuān)用肥——機(jī)插水稻育苗基質(zhì)
有了這種合成酶 水稻可以耐鹽了
水稻種植60天就能收獲啦
軍事文摘(2021年22期)2021-11-26 00:43:51
油菜可以像水稻一樣實(shí)現(xiàn)機(jī)插
中國(guó)“水稻之父”的別樣人生
金橋(2021年7期)2021-07-22 01:55:38
海水稻產(chǎn)量測(cè)評(píng)平均產(chǎn)量逐年遞增
一季水稻
文苑(2020年6期)2020-06-22 08:41:52
水稻花
文苑(2019年22期)2019-12-07 05:29:00
主站蜘蛛池模板: 亚洲色精品国产一区二区三区| 国产精品亚洲专区一区| 国产浮力第一页永久地址| 亚洲国产系列| 久久国产毛片| 在线看AV天堂| 国产女人水多毛片18| 日本精品视频一区二区| 中文字幕在线一区二区在线| 天天综合色天天综合网| 国产精品私拍在线爆乳| 91久久国产综合精品| 国产精品免费p区| 亚洲午夜久久久精品电影院| 国产亚洲一区二区三区在线| 免费人成黄页在线观看国产| 亚洲av无码久久无遮挡| 日韩午夜福利在线观看| 国产一国产一有一级毛片视频| 日韩精品资源| 一级毛片免费的| 在线播放国产99re| 国产一区二区三区夜色| 久久综合成人| 国产成人高清精品免费软件| 成人中文在线| 亚洲精品麻豆| 免费久久一级欧美特大黄| 一本视频精品中文字幕| 久久黄色影院| 久久国产精品无码hdav| 国产嫩草在线观看| 国产日韩精品欧美一区灰| 日本国产精品| 色妺妺在线视频喷水| 国产aaaaa一级毛片| 欧美天天干| 国产麻豆永久视频| 国产女人在线| a欧美在线| 在线国产91| 国产毛片基地| 久久国产精品夜色| 超碰精品无码一区二区| AV在线天堂进入| 高清无码一本到东京热| 国产成人欧美| 全部毛片免费看| 日本在线免费网站| 综合成人国产| 日韩欧美国产成人| 亚洲综合专区| 凹凸国产分类在线观看| hezyo加勒比一区二区三区| 亚洲欧美综合在线观看| 国产尤物在线播放| 亚洲高清无在码在线无弹窗| 国产精品视频观看裸模| 黄色网址手机国内免费在线观看| 亚洲一级毛片免费观看| 欧美一区二区三区欧美日韩亚洲 | 亚洲国产成人精品青青草原| 日韩一区二区三免费高清| 中文字幕亚洲综久久2021| 成人免费视频一区二区三区 | vvvv98国产成人综合青青| 久久精品免费国产大片| 国产黄色爱视频| 国模视频一区二区| 国产第一色| 欧美久久网| 18禁影院亚洲专区| 免费在线成人网| 蜜桃视频一区二区| 亚洲国产天堂久久综合226114| 久久人搡人人玩人妻精品| 麻豆精品久久久久久久99蜜桃| 国产精品欧美日本韩免费一区二区三区不卡 | 欧美日韩在线国产| 一级毛片免费不卡在线| 国产在线拍偷自揄拍精品| 欧美福利在线播放|