李喜蓮,郭建林,黃振遠,慎佩晶,施偉達,顧志敏
(農業部淡水漁業健康養殖重點實驗室/浙江省淡水水產遺傳育種重點實驗室/浙江省淡水水產研究所,浙江湖州 313001)
紅螯螯蝦(Cherax quadricarinatus)又被稱作澳洲淡水龍蝦,外形與海中龍蝦十分接近,是一種全球最珍奇的淡水經濟蝦,澳大利亞為其初始產地。其蝦體呈現為褐綠色,有一個膜質鮮紅帶位于發育成熟的雄蝦的螯的外部頂端,十分漂亮,所以又被賦予了紅螯螯蝦的美稱[1]。其不但生長速度快、適應性極強,而且在食物的攝取方面并無特殊偏好,可生存于3~35 ℃的水溫中,而且肉質佳、可耐干運,具有較佳的經濟效益,它是我們國家引入的第二個淡水品種。I 齡(6月齡)的紅螯螯蝦一般在秋季上市,而克氏原螯蝦主要在夏季,正好填補螯蝦市場秋季的空白[2]。
盡管紅螯螯蝦的經濟價值極高,然而其分子生物學探究活動所獲取的成果并不樂觀,基因數據庫的資源也非常少。近年來,高通量測序技術的發展步入高速期,為蝦類基因表達的研究貢獻了重要支持,不單使測序的時間及成本大大減少,而且能夠收獲大量的有效數據,對于螯蝦生長發育及其抗逆性能等的研究極有幫助。截至現階段,尚未出現有關于新一代高通量測序技術開展螯蝦種質資源創新及開發的資料。
轉錄組是指生物體的細胞或組織在特定的狀態下基因組所轉錄的全部mRNA,其反映了基因在不同生命階段、生理狀態、組織類型以及環境條件下表達的情況[3]。本研究第一次在紅螯螯蝦轉錄組研究活動中選擇運用Illumina HiSeq 2000 高通量測序技術,把獲取的數據加以拼接及組裝,針對所得到的Unigene,參考生物信息學方法剖析基因功能注釋和分類、代謝方式等,以功能基因組水平為視角,對紅螯螯蝦生長發育期間關鍵基因的表達加以探究,同時也為深層次的分子標記開發及基因功能研究提供有效數據。
試驗用的紅螯螯蝦來源于浙江省淡水水產研究所八里店綜合試驗基地,選取同一生活環境下的同齡紅螯螯蝦,分別采集3 個個體的肝臟、精巢和卵巢組織,于-80 ℃超低溫冰凍保存備用。采用Illumina TruseqTMRNA sample prep Kit 方法構建文庫,使用Illumina HiSeq 2000 進行測序。
測序接頭序列、N 率較高序列、長度過短序列、低質量讀段都涵蓋在Illumina Hiseq 的原始測序數據當中,這將嚴重影響后續組裝的質量。為了使后期生物信息剖析具有較高的精準度,先對此類數據加以篩選,以使獲取的測序數據(clean data)品質較高,從而為后期的剖析活動做好準備,步驟及順序如下:①將reads 當中的接頭序列加以清除,同時將因為接頭自連等原有造成未順利插進片段的reads加以清除;②剪掉序列尾端(3 端)品質較差(質量值小于20)的堿基,倘若余留部分的該數值依舊有低于10 的,那么就需要清除掉整條序列剔除;反之,則留存;③去除含N 比率超過10%的reads;④舍棄adapter 及質量修剪后長度小于70 bp 的序列。
在無參考基因組的轉錄組的探究方面,在將RNA-seq 高品質測序數據獲取之后,需將全部測序讀段進行從頭組裝,以得到單一序列(singleton)以及重疊群(contig),只有完成此剖析之后才能夠順利地繼續后期活動。Trinity(http://trinityrnaseq.sourceforge.net/,版本號:trinityrnaseq-r2013-02-25)是目前適用于Illumina 短片段序列組裝的一款比較權威的軟件,使用該軟件對所有clean data 進行從頭組裝。
完成對借助拼接而獲取的isogene 序列的注釋,同時和string、NR 及gene 數據庫加以比較對照。
1.4.1 Nr 注釋
借助比較對照,對比所獲取序列和NCBI 的數據庫(Nr 庫),完成提交比較對照的序列的功能標注解釋,將對比的數據經由列表展現出來。
1.4.2 GO 注釋
GO(gene ontology)是一個數據庫,由基因本體論聯合會所創立,在物種的類型方面沒有過多的傾向性,基本上都比較適合使用,對基因及蛋白功能展開約束及闡述。對其加以應用,能夠依據基因參與的生物學經過、結構細胞的具體成分等展開具體的類型劃分。所以,GO 注釋能夠有效助力于基因生物學價值的探究。
1.4.3 COG 注釋
比較對照數據庫,將COG 注釋獲取,分類統計全部的基因。
1.4.4 KEGG pathway 注釋
KEGG 庫(kyoto encyclopedia of genes and genomes數據庫)。剖析功能基因的代謝路徑,能夠更加全面地獲悉物種的代謝及合成狀況,從而為現實生產活動供應參考。基于國際公認的代謝網絡數據庫KEGG(http://www.genome.jp/kegg/),對所剖析基因組的基因可能參與全部可能的代謝路徑加以供應。
由表1可知,通過Illuminate Hiseq 2000 高 通量測序共獲得了147 915 744 條高質量短讀序片段,總長度為21 891 279 947 bp,Q 20 值為98.30%,GC 含量占比為40.75%。由Trinity 軟件組裝,共組裝67 369 個Unigene,總長度為69 887 464 bp,平均長度為1 218 bp,N50 長度為1 376 bp。對Unigene 的長度分布特征進行分析可知(圖1),在總Unigene 中,0~400 bp 區段所含的Unigene 比例為12.6%,共8 489 個;400~600 bp 區段的Unigene 比例最高為32.38%;601~800 bp 區段的Unigene 占16.26%。經拼接后,共有Unigenes 67 369 個,總長度69 887 464 bp;總isoform 數為93 411 個,從長度為12 690 867.4 bp,平均長度1 037.38bp,最大isoform 長度為34 002 bp(見表2~3,圖2)。

表1 質控后數據量統計Table 1 Data analysis of clean reads

圖1 組裝序列長度分布Figure 1 Size distribution of transcripts and Unigenes

表2 紅螯螯蝦轉錄組拼接結果統計Table 2 Transcript assembly statics for Cherax quadricarinatus

圖2 4 個數據庫注釋的韋恩圖Figure 2 Venn diagram annotated on 4 dataset

表3 Mapping 比率統計Table 3 The statistical result of mapping rate
基因注釋主要基于蛋白序列比對。比對基因的序列及各個數據庫,以將相呼應的功能注釋信息所獲取。為了剖析工作更加簡單,還需整合上述各類信息,以使選出的注釋具有最佳的精準度。可以先借助程序來選出比對接近度最高、形式最佳的注釋信息,而后在完成少許的人工校對改正。

表4 Unigene 功能注釋Table 4 Function annotation of Unigenes
借助BLAST 程序對組裝所獲取的Unigene 和Nr、GO、COG、KEGG 數據庫加以比較,完成Unigene的序列相似性剖析。結果顯示,在Nr 數據庫當中(見表4),有20 768 個Unigene 能夠尋覓到近似序列,約占Unigene 數的30.83%;在GO 數據庫當中,有16 989 個Unigene 獲取了注釋,約為總數的25.22%;在COG 和KEGG 數據庫匯中獲得注釋的Unigene 數量都在1 000 個以下,分別為4 697(占總體數的6.97%)和9 842(占總體數的14.61%)。
基因本體論(gene ontology,GO)是一個基因功能類型劃分數據庫,其具有國際標準性,可對各類基因的生物學特點進行較為詳盡的闡述。將其運用于紅螯螯蝦的Unigene 功能類型劃分方面,可以將宏觀視角上該生物表達基因的功能排列特點加以獲取。通過GO 分析(見圖3),16 989 個Unigene 被分成了生物學過程(biological process)、細胞組分(cellular component)和分子功能(molecular function)3 個主要類別。
在“生物學過程”當中,就Unigene 數目而言,代謝過程(1 389 個Unigene)功能組居于首位;在“細胞組分”類別中,細胞(762 個Unigene)和細胞部分(761 個Unigene)功能組所含Unigene 數量最多;在“分子功能”類別中,催化活性(1 308 個Unigene)所含Unigene 數量最多。

圖3 Unigenes 的GO 功能分類Figure 3 Gene ontology (GO)classification of Unigene
COG 數據庫通常運用于同源蛋白注釋,由NCBI所研發。其按照蛋白質序列的近似性將后者劃分成多個不一樣的類,并分別給予特定的COG 編號,用以對一種同源蛋白加以表示。同時,將所有的同源蛋白再分成25 個大類。為了對Unigene 的整體度及注釋的有效性展開深度判定,對67 369 個Unigene 加以COG 注釋及類型劃分,共獲得24 個種類,真核細胞的細胞外結構(W)在Unigene 中存在數為0。在24 個COG 注釋中,一般功能預測(R)為最大類,共有809個Unigene;然后是轉錄(K),共有380 個Unigene;原子核功能為最小類,只有1 個Unigene(見圖4)。

圖4 COG 數據庫分類與功能注釋Figure 4 Classification and function in COG dataset
KEGG 是一個對基因組、化學以及系統功能信息加以整理合并的數據庫。其最為突出的特點即為將已完成整體測序的基因組中所獲取的基因目錄關聯于等級更高的細胞、物種及生態系統水準的系統功能。為了識別紅螯螯蝦中活性高的代謝通路,對67 369 個Unigene 進行KEGG 代謝途徑分析(見圖5),將其根據參與的KEGG 代謝通路分為5 個分支:細胞過程(A,cellular processes,4 650 個Unigene),環境信息處理(B,environmental information processing,1 412 個Unigene),遺傳信息處理(C,geneticinformation processing,1 207 個Unigene),代謝(D,metabolism,1351 個Unigene),有機系統(E,organismal systems,2 183 個Unigene)。331 個通路當中排列了9 842 個Unigene,而代謝方式所涵蓋的Unigene 數目達到了1 534,居于首位(見圖6)。

圖5 Unigene 功能注釋Figure 5 Function of Unigene annotation

圖6 顯著富集的KEGG 通路Figure 6 Significantly enriched KEGG terms
近幾年,全新一代高通量測序技術被多個領域所運用,而有關于動物基因組的研究也因此而獲取了突破性成果。轉錄組技術在蝦類的研究上應用廣泛,用于蝦類微衛星的篩選[4]、特異相關基因的發掘[5-9]、發育生物學[10-11]等方面。轉錄組測序的優勢在于:①對檢測轉錄本量無上限要求,既可以檢測單個堿基差異也可以檢測不同轉錄本的表達。②相比傳統微陣列雜交,RNA-Seq 不存在背景噪音問題,信號覆蓋動態變化范圍大。③高靈敏度,能夠檢測到樣品中只有與幾個bp 的稀有轉錄本,同時能檢測到新的轉錄本,發現未知基因。④無須參考基因組,可分析任意物種的轉錄組信息[12]。轉錄組技術的發展大大推進了蝦類分子水平的研究。然而與紅螯螯蝦基因組相關的探究數據卻極為少見。Illumina高通量測序不但數據數量龐大、速度較高,而且實效性強、經濟性佳,在該物種轉錄組測序探究活動中尤為適合使用。基于功能基因組學研究當中轉錄組學的關鍵性,本研究借助上述技術完成紅螯螯蝦轉錄組的測序,以對其基因表達譜加以深層次探究,同時對其生長發展期間的關鍵表達基因進行發掘。
近年來,高通量測序技術的發展和成熟為各種分子標記的開發提供了大量的資源,加快了各種引物開發的效率,并能達到批量開發分子標記的目標。本研究通過SSR 位點查找發現了單核苷酸重復(>11)位點11 673 個,雙堿基重復(>6)位點5 822個,三堿基重復(>5)位點4891 個,四堿基重復(>5)位點290 個,五堿基重復(>5)位點25 個,六堿基重復(>5)位點26 個。本研究還從肝臟、精巢和卵巢組織轉錄組數據中獲得SNP 位點20 654 個(6 097+7 469+7 088),缺失位點12 343 個(3 654+4 437+4 252),插入位點5 611 個(2 443+ 3 032+2 836)。這些分子標記的獲得,為開發紅螯螯蝦遺傳多樣性分析奠定了分子標記基礎,同時也為紅螯螯蝦QTL 定位、遺傳結構分析及基因克隆等研究提供了有效的理論基礎。本研究是國內第一次借助Illumina HiSeq 2000 高通量測序技術創建的紅螯螯蝦轉錄組數據庫,得到了龐大的轉錄本資料,同時剖析了表達基因的序列組裝、功能注釋以及代謝路徑,為后續的深度研究供應了有效的數據支持,并且上述轉錄組信息還能夠當作后期該物種基因組的參照序列,為此物種的分子生物學研究供應了有較高價值的數據。