基于EST數(shù)據(jù)的水稻基因表達(dá)大規(guī)模初步分析
宋東光
(佛山科學(xué)技術(shù)學(xué)院園藝系,廣東 佛山 528231)
摘要:EST序列代表了組織基因表達(dá)的轉(zhuǎn)錄信號(hào),本研究嘗試開(kāi)發(fā)簡(jiǎn)單高效的大規(guī)模EST分析方法,從NCBI下載水稻(Oryza sativa) 的所有EST序列并進(jìn)行分析以獲取水稻發(fā)育過(guò)程基因表達(dá)的重要信息。通過(guò)進(jìn)行blast比對(duì)和phrap拼接分析,及利用Unix文本過(guò)濾方法,從EST序列拼接獲得了3萬(wàn)多個(gè)重疊群序列。進(jìn)一步將重疊群序列與NCBI核酸數(shù)據(jù)庫(kù)進(jìn)行比對(duì)獲得了各個(gè)序列的注釋信息。從重疊群的組織表達(dá)初步挖掘中發(fā)現(xiàn)花藥的表達(dá)數(shù)量最多,為下一步探討水稻發(fā)育器官特異表達(dá)基因調(diào)控打下了重要基礎(chǔ)。
關(guān)鍵詞:水稻;EST;Bast; Phrap; 組織特異表達(dá)
中圖分類(lèi)號(hào):Q344+.13文獻(xiàn)標(biāo)志碼:A
收稿日期:2015-01-19;修回日期:2015-04-24.
基金項(xiàng)目:國(guó)家自然
作者簡(jiǎn)介:楊紅,女,講師,研究方向:應(yīng)用數(shù)學(xué),生物信息學(xué);E-mail: yanghong19820118@163.com.
doi:10.3969/j.issn.1672-5565.2015.02.05
Large-scale preliminary analysis of rice gene expression mining from EST data
SONG Dongguang
(DepartmentofHorticulture,FoshanUniversity,FoshanGuangdong528231,China)
Abstract:EST sequences represent transcribed signals of gene expressions in tissues. In this study, a simple and effective method for large-scale EST analysis was developed using all rice(Oryza sativa) ESTs downloaded from NCBI for mining important information in rice development. After the blast alignment, phrap contig joining, and Unix command-line filtering, over 30 000 contigs were obtained from EST sequences. Annotations of these contigs were returned with further alignments to NCBI nucleotide databases. Anther expressions showed the most abundant in this preliminary mining from annotations for different tissues. This lays an important foundation for further investigating tissue-specific regulation of gene expression in rice development.
Keywords:Oryza sativa; EST; Blast; Phrap; Tissue-specific expression
隨著功能基因組學(xué)研究的廣泛開(kāi)展,闡明基因表達(dá)調(diào)控網(wǎng)絡(luò)的分子機(jī)理成為了近年來(lái)分子生物學(xué)研究的主要領(lǐng)域之一。獲得基因活動(dòng)信息的方法如EST,SAGE分析,表達(dá)芯片分析等可以提供大量的基因活動(dòng)信號(hào),并進(jìn)一步從獲得的各種表達(dá)數(shù)據(jù)分析構(gòu)建基因調(diào)控網(wǎng)絡(luò)。其中,EST分析獲得的基因表達(dá)信息真實(shí)反映了細(xì)胞內(nèi)基因活動(dòng)的情況,包括基因的組織特異表達(dá)情況。大量的EST序列可以從NCBI Genbank數(shù)據(jù)庫(kù)獲取,研究者也能夠從cDNA文庫(kù)進(jìn)行克隆快速測(cè)序獲得,面對(duì)海量的序列數(shù)據(jù)需要有效的高通量分析工具才能提取出更多的基因表達(dá)譜信息并用于構(gòu)建基因調(diào)控網(wǎng)絡(luò)[1-3]。
EST序列預(yù)處理如如去除載體序列、poly(A)尾巴等對(duì)于后續(xù)分析是很必要的,涉及EST的各種分析包括轉(zhuǎn)錄組、重疊群拼接,基因注釋?zhuān)琒SR及SNP多態(tài)性, ORF確定,選擇性剪接,microRNA及非編碼RNA分析,RNA編輯,GO查詢(xún),組織特異性表達(dá)譜分析以及構(gòu)建基因調(diào)控網(wǎng)絡(luò)等并取得了許多重要進(jìn)展[4-10]。
本文開(kāi)發(fā)了簡(jiǎn)單有效的工具以來(lái)自NCBI的水稻EST序列為材料進(jìn)行大規(guī)模初步分析,包括進(jìn)行blast比對(duì),phrap重疊群拼接與注釋?zhuān)敖M織特異表達(dá)分析,為水稻生長(zhǎng)發(fā)育過(guò)程基因表達(dá)調(diào)控網(wǎng)絡(luò)的構(gòu)建奠定重要基礎(chǔ)。
1材料與方法
1.1操作系統(tǒng)和文本過(guò)濾工具
操作系統(tǒng)為FreeBSD 10.0,由The FreeBSD Project(http://www.freebsd.org/)開(kāi)發(fā), 利用其內(nèi)嵌的Unix命令如awk、sed、tr、uniq、split、 comm、paste、 join及sort等進(jìn)行EST序列預(yù)處理[11]及其他文本挖掘工作。
1.2EST序列及格式轉(zhuǎn)換
“gz”壓縮格式的EST 序列數(shù)據(jù)從NCBI下載, 提取其中的重要信息并轉(zhuǎn)換為一行,每個(gè)字段由制表符隔開(kāi)。抽取每個(gè)EST序列及其id并轉(zhuǎn)換為FASTA格式,序列開(kāi)始及末尾的長(zhǎng)于10nt的poly(A/C/G/T)通過(guò)前面的過(guò)濾命令進(jìn)行去除。
1.3Blast比對(duì)分析
NCBI開(kāi)發(fā)的blast程序blast-2.2.22-ia32-freebsd 用于 EST序列的本地blast比對(duì)分析, 每個(gè)EST序列彼此間進(jìn)行相似性比對(duì)找出得分大于100的去除重復(fù)后合并其id于一行。
1.4重疊群拼接分析
phrap 程序(由Washington 大學(xué)的Phil Green開(kāi)發(fā), http://www.phrap.org)用于將相似性較高的EST序列重疊拼接獲得重疊群(contig)。
1.5重疊群注釋
將以上的拼接重疊群進(jìn)行遠(yuǎn)程N(yùn)CBI網(wǎng)絡(luò) blast 比對(duì)以獲得重疊群的注釋?zhuān)看慰梢赃M(jìn)行200個(gè)重疊群(FASTA格式), 返回結(jié)果保存為“.txt”格式并只提取注釋信息。
1.6組織特異表達(dá)譜分析
不同組織表達(dá)的EST可以通過(guò)比較組織表達(dá)的EST id及拼接注釋后的重疊群id得到。
2結(jié)果
2.1大規(guī)模EST分析通路
本文的EST大規(guī)模分析流程圖參照?qǐng)D1。

圖1 本文EST大規(guī)模分析流程圖(具體過(guò)程見(jiàn)方法)
EST序列下載后將其從“gz”格式解壓縮,提取必要信息并將轉(zhuǎn)換為由制表符隔開(kāi)的一行數(shù)據(jù)庫(kù)錄入格式,含6個(gè)字段即GI-GenBank數(shù)據(jù)庫(kù)中的唯一標(biāo)識(shí)號(hào), DEFINITION-EST數(shù)據(jù)定義信息,TITLE-測(cè)序記錄號(hào), /organism/-物種名, FEATURES-EST序列簡(jiǎn)單介紹, ORIGIN-EST核苷酸序列。典型的一個(gè)EST序列見(jiàn)圖2。

圖2 提取轉(zhuǎn)換格式后的一條典型EST序列,含6個(gè)字段由制表符分隔,即GI, DEFINITION, TITLE,
2.2NCBI記錄的不同物種EST序列統(tǒng)計(jì)
截止2014年2月14日從NCBI下載的所有“gz”格式的EST序列提取其GI及organism后統(tǒng)計(jì)了各個(gè)物種的EST總數(shù)。119個(gè)物種EST記錄數(shù)超過(guò)10萬(wàn)條,但其中只有63個(gè)物種數(shù)量超過(guò)了20萬(wàn)條(見(jiàn)表1,只列出了部分物種)。這其中,人(Homosapiens) 和 家鼠(Musmusculus) 記錄數(shù)最多,分別達(dá)到了8千7百萬(wàn)和4千8百多萬(wàn)條,排在第三位的是玉米(Zeamays)有2百多萬(wàn)條,水稻 (Oryzasativa)為1百多萬(wàn)條,包括了秈稻和粳稻(見(jiàn)表1)。

表1 截止2014年2月14日從NCBI下載的所有物種記錄數(shù)
2.3水稻EST序列彼此間的blast比對(duì)
水稻的125萬(wàn)條EST序列(截止2010年3月24日,包括秈稻和粳稻)經(jīng)過(guò)預(yù)處理去除了poly(A/T/G/C)后利用本地的blast程序進(jìn)行了比對(duì),比對(duì)工作連續(xù)進(jìn)行約用時(shí)1個(gè)多月,之后將彼此比對(duì)打分達(dá)到100以上的序列ids(即GI號(hào))合為一行,得到1 237 411行id組,部分示例列于圖3。

圖3 相似性比對(duì)(打分100及以上的)EST序列其id合為一行
blast比對(duì)是用水稻的每個(gè)EST序列與所有的EST進(jìn)行兩兩比對(duì)得到的結(jié)果,上述結(jié)果需要去除重復(fù)的相同行,并合并不同行中的相同ids。去除重復(fù)行得到543 460行,然后每行內(nèi)的id排序后將每行第一個(gè)id相同的行進(jìn)行合并,得到76 337行,再次進(jìn)行每行第一個(gè)id排序合并后得到39 572行。然后可以將每行內(nèi)id代表的各個(gè)序列下一步用phrap獲得重疊群,結(jié)果見(jiàn)表2.

表2 Blast比對(duì)水稻所有的EST兩兩序列并合并序列相似性打分達(dá)到100以上序列ids
2.4用phrap拼接獲得EST重疊群
根據(jù)前述方法用phrap程序從前面的blast比對(duì)結(jié)果進(jìn)行重疊群拼接,獲得只有一個(gè)重疊序列的重疊群為27 556個(gè),兩個(gè)以上超過(guò)一個(gè)重疊序列的為7 413個(gè),所有重疊群序列總數(shù)達(dá)到171 698個(gè)(見(jiàn)圖4)。為了找出更合適的比對(duì)重疊群,將獲得的重疊群兩兩進(jìn)行了blast但打分大于250,這樣獲得了34 969個(gè)比對(duì)結(jié)果,其中16 900個(gè)為單一序列(見(jiàn)圖5),這樣為下一步進(jìn)行clustalw比對(duì)分析很有幫助(本文未附)。

圖4 Blast結(jié)果用phrap進(jìn)行重疊群拼接

圖5 Phrap得到的重疊群進(jìn)行blast比對(duì),顯示了3行,每行超過(guò)一個(gè)重疊群的彼此相似性打分超過(guò)250
2.5重疊群與NCBI nt數(shù)據(jù)庫(kù)比對(duì)進(jìn)行注釋
獲取重疊群的注釋尤為重要,將重疊群與NCBI nt核酸數(shù)據(jù)庫(kù)進(jìn)行比對(duì)后從返回的信息中挖掘各個(gè)重疊群的注釋。全部的34 969個(gè)重疊群與NCBI nt數(shù)據(jù)庫(kù)進(jìn)行blast比對(duì)后,1 971個(gè)沒(méi)有返回比對(duì)結(jié)果,注釋內(nèi)容提取合為一行如圖6所示。去除重復(fù)行后注釋行總數(shù)為211 351,但其中還有相當(dāng)部分為未注釋的行,如在含有chromosome, cultivar:, genomic sequence, clone, mRNA sequence, unknown, hypothetical protein, DNA, Cosmid, vector, cDNA, BAC clone, marker等的比對(duì)結(jié)果中大部分沒(méi)有有用的注釋信息,還需要進(jìn)一步去除約只有一半為有用的注釋行,見(jiàn)圖7示例.這些注釋內(nèi)容需要與前面的重疊群進(jìn)行匹配后進(jìn)一步進(jìn)行挖掘。

圖6 重疊群與NCBI nt數(shù)據(jù)庫(kù)進(jìn)行blast比對(duì)后提取的注釋行示例

圖7 從注釋行中去除非注釋行獲得的注釋行示例,參見(jiàn)上下文分析
物種關(guān)聯(lián)的注釋可提供一些有意義的信息,尤其是對(duì)于比較基因組學(xué)分析。從比對(duì)結(jié)果中找出了939個(gè)物種與水稻重疊群有關(guān)聯(lián),只有82個(gè)物種出現(xiàn)的注釋超過(guò)100條,而其中僅僅10個(gè)超過(guò)了1 000條。玉米與水稻的比對(duì)注釋最多達(dá)到了36 804條,大多數(shù)為mRNA/cDNA/protein的注釋也許可以提供與基因功能相關(guān)的有用信息。剩下的9個(gè)中只有Brachypodium distachyon超過(guò)1萬(wàn)條,為11 610條,見(jiàn)圖8。

圖8 不同物種與水稻重疊群比對(duì)返回超過(guò)1 000條的注釋數(shù)
每個(gè)重疊群比對(duì)結(jié)果出現(xiàn)推測(cè)基因功能的注釋對(duì)于進(jìn)一步的功能基因組學(xué)分析特別是構(gòu)建基因調(diào)控網(wǎng)絡(luò)是很有幫助的,這將是我們下一步的研究目標(biāo)。
2.6水稻發(fā)育過(guò)程組織特異表達(dá)
確定組織特異轉(zhuǎn)錄譜對(duì)于分析基因表達(dá)模式及構(gòu)建基因調(diào)控網(wǎng)絡(luò)是很重要的。所有的EST記錄中見(jiàn)圖9,其中花藥的記錄數(shù)最多。從比對(duì)的39 572個(gè)EST id(見(jiàn)圖2)組找出了各個(gè)組織的表達(dá)重疊群,結(jié)果見(jiàn)圖10,雖然表達(dá)重疊群中可能含有相似的重疊群,如圖5所示。從圖10可以清楚看出,花藥的表達(dá)重疊群最多達(dá)到了最高重疊群數(shù)。這并奇怪,因?yàn)閺幕ㄋ幍腅ST總數(shù)977 141(見(jiàn)圖9)可以預(yù)見(jiàn)(分析的EST序列總數(shù)只有125萬(wàn)條),其他的組織都少于20萬(wàn)條。從以上結(jié)果尚不能完全的獲得組織特異表達(dá)譜(見(jiàn)圖10),但是很顯然組織特異表達(dá)譜對(duì)于構(gòu)建水稻發(fā)育過(guò)程基因調(diào)控網(wǎng)絡(luò)是很重要的,我們將在今后繼續(xù)進(jìn)行探討。

圖9 本文引用的NCBI來(lái)源水稻不同組織EST序列數(shù)

圖10 從比對(duì)后EST id組(見(jiàn)圖2)獲取的不同組織表達(dá)重疊群計(jì)數(shù)
3討論
EST大數(shù)據(jù)包含了大量基因表達(dá)信息,EST數(shù)據(jù)大規(guī)模分析有助于發(fā)現(xiàn)基因調(diào)控的活動(dòng)情況,并可以用于構(gòu)建基因調(diào)控網(wǎng)絡(luò)。本文從NCBI下載了水稻的125萬(wàn)條EST序列并進(jìn)行了基因表達(dá)分析。所有的分析工作都是通過(guò)FreeBSD操作系統(tǒng)完成的,主要工具包括Unix命令,及本地blast,phrap及遠(yuǎn)程blast程序(見(jiàn)方法)。經(jīng)過(guò)blast 比對(duì),phrap重疊群拼接及再比對(duì),獲得了34 969重疊群,其中約一半只有一個(gè)重疊群序列(見(jiàn)圖5)。進(jìn)一步我們將重疊群序列與NCBI全長(zhǎng)cDNA獲取的單一基因進(jìn)行比對(duì)以獲得水稻的完整轉(zhuǎn)錄組。以上結(jié)果表明,我們進(jìn)行的大規(guī)模EST分析是有效且快捷,與其他方法相比并不需要復(fù)雜的算法[3,10]。
本文初步分析了水稻的組織特異表達(dá)譜,發(fā)現(xiàn)花藥表達(dá)的EST重疊群數(shù)量最多,其他組織較少些,原因尚未進(jìn)一步分析(見(jiàn)圖10)。通過(guò)與NCBI核酸數(shù)據(jù)庫(kù)進(jìn)行遠(yuǎn)程比對(duì),從返回結(jié)果中提取了每個(gè)重疊群的注釋信息(見(jiàn)圖6~圖8),今后我們將著重挖掘特異表達(dá)基因并進(jìn)一步構(gòu)建水稻發(fā)育過(guò)程的基因調(diào)控網(wǎng)絡(luò)。
參考文獻(xiàn)(References)
[1]GIALLOURAKIS C C, BENITA Y, MOLINIE B, et al. Genome-wide analysis of immune system genes by expressed sequence Tag profiling[J]. J Immunol, 2013,190(11):5578-87.
[2]SHA A H, LI C, YAN X H, et al. Large-scale sequencing of normalized full-length cDNA library of soybean seed at different developmental stages and analysis of the gene expression profiles based on ESTs[J]. Mol Biol Rep, 2012,39(3):2867-74.
[3]MENON R, GARG G, GASSER R B, et al. TranSeqAnnotator: large-scale analysis of transcriptomic data[J]. BMC Bioinformatics, 2012,13( Suppl 17):S24.
[4]ZHU W, BUELL C R. Improvement of whole-genome annotation of cereals through comparative analyses[J]. Genome Res, 2007, 17(3):299-310.
[5]WARD J A, PONNALA L, WEBER C A. Strategies for transcriptome analysis in nonmodel plants[J]. Am J Bot, 2012, 99(2):267-76.
[6]LUO H, SUN C, LI Y, et al. Analysis of expressed sequence tags from the Huperzia serrata leaf for gene discovery in the areas of secondary metabolite biosynthesis and development regulation[J]. Physiol Plant, 2010, 139(1):1-12.
[7]FRAZIER T P, ZHANG B. Identification of plant microRNAs using expressed sequence tag analysis[J]. Methods Mol Biol, 2011, 678:13-25.
[8]VICTORIA F C, DA MAIA L C, DE OLIVEIRA A C. In silico comparative analysis of SSR markers in plants[J]. BMC Plant Biol, 2011, 11:15.
[9]XIE F, SUN G, STILLER J W, et al. Genome-wide functional analysis of the cotton transcriptome by creating an integrated EST database[J]. PLoS One, 2011, 6(11):e26980.
[10]LI Y, GONG P, PERKINS E J, et al. RefNetBuilder: a platform for construction of integrated reference gene regulatory networks from expressed sequence tags[J]. BMC Bioinformatics, 2011, 12( Suppl 10):S20.
[11]SONG D G, ZHANG H S, HUANG L X, et al. Localization, Updating and Sequence Preprocessing of EST Database under Unix Environment[J]. Chinese Journal of Bioinformatics, 2010,8(1):52-56.
*通信作者:姚玉華,男,教授,研究方向:計(jì)算生物學(xué),應(yīng)用數(shù)學(xué);E-mail: yaoyuhua@zstu.edu.cn.