方輝+蔣勝理+曲俊杰+周思泓+潘鳳英



摘要:利用毛葡萄葉片高通量轉錄組測序數據進行簡單重復序列(simple sequence repeat,簡稱SSR)搜索并對其所在的序列進行注釋,從而為毛葡萄分子標記開發提供有效信息。從35 238條質量較高的unigene中搜索到4 428個SSR位點,對這些序列進行基因本體(gene ontology,簡稱GO)、同源蛋白質簇(cluster of orthologous groups of proteins,簡稱COGs)和京都基因與基因組百科全書(Kyoto encyslopedia of genes and genomes,簡稱KEGG)分類,給出功能注釋和Pathway注釋,共注釋了3 197條unigene。COG數據庫將SSR序列分成25類,通過GO分類和KEGG富集性分析,將SSR序列分別歸類于38個GO類別和103條通路。這些序列涉及了許多重要的生物功能和代謝途徑,預示著這些潛在的標記可能與重要的生物功能有關,這些信息為毛葡萄分子標記的開發和應用奠定了基礎。
關鍵詞:毛葡萄;轉錄組;高通量測序;簡單重復序列(SSR)
中圖分類號: S663.101 文獻標志碼: A 文章編號:1002-1302(2017)20-0064-04
野生毛葡萄(Vitis quinquangularis Rehd)是葡萄科(Vitaceae)葡萄屬(Vitis)真葡萄亞屬(Euvitis)東亞種群的一個種,產于中國,是我國葡萄屬東亞種群中分布最廣的一個野生種,主要集中分布在廣西的桂中、桂北、桂西的喀斯特地貌地區[1]。野生毛葡萄含有各種氨基酸、礦物質、多種維生素,還含有豐富的超氧化物歧化酶、白藜蘆醇和花色素雙糖苷,具有抗衰老、防癌、軟化血管的作用[2]。大部分野生毛葡萄表現出抗逆性強、耐旱耐瘠、耐病性好、耐高溫潮濕天氣等優良特性,是南方“石漠化治理、生態重建”的優良樹種,具有重要的經濟價值[3]。
簡單重復序列(simple sequence repeat,簡稱SSR)又名微衛星(microsatellites),是基因組中以少數幾個核苷酸(一般為2~6個)為重復單元串聯重復組成的長度為幾十個堿基的核苷酸序列,其中最常見的是雙核苷酸重復[4]。SSR標記廣泛分布于各種生物基因組上,因其重復單元不同和重復數的差異,構成了SSR序列的多態性。SSR標記具有多態性豐富、保守性高、共顯性遺傳的特點,成為當前應用較廣泛的分子標記之一。以往的SSR標記開發方法一般利用基因組文庫雜交測序,花費時間長且效率低,不適于短時間內開發大量的標記用于遺傳學應用研究。隨著高通量測序技術的快速發展,即使一次性對上百萬條DNA分子進行序列測定也不再是問題。目前SSR標記在葡萄遺傳多樣性、遺傳圖譜、品種鑒定和親緣關系等方面已經得到了廣泛的應用。
目前,國內外對于高通量測序后檢測獲得的大量SSR序列,主要分析SSR重復基元分布特征和重復序列組成規律,對SSR序列進行功能注釋和功能分類的研究較少。此外,對葡萄進行種質資源和親緣關系分析是利用已知或通用的SSR,沒有進一步篩選和擴展SSR分子標記[5-6]。本研究數據來源于毛葡萄葉片的轉錄組數據,轉錄組SSR源自基因組編碼可表達的序列,直接與功能基因相關,保守程度更高,轉移概率較大。研究含有SSR的轉錄組序列信息,有利于獲得SSR序列相關功能注釋信息,從而獲得更有針對性的SSR分子標記,以便更有效地為基因定位、遺傳多樣性研究及分子育種提供有效手段。
1 材料與方法
1.1 材料
植物材料為毛葡萄五峒-1,生長于廣西壯族自治區河池市都安瑤族自治縣高嶺鎮五峒村,樹齡10年,生長旺盛,葉片生長狀況良好,果實產量高,經調查與試驗發現其對多種病害高抗或免疫。采集樣品后用液氮速凍,并轉移至-80 ℃保存備用。
1.2 方法
1.2.1 野生毛葡萄測序 采取野生毛葡萄的嫩葉并提取總RNA,送到北京諾禾致源生物信息科技有限公司進行文庫構建和RNA高通量測序,測序平臺為Illumina HiSeqTM 2000,每個樣品的測序量約為4.75Gb。
1.2.2 測序數據的組裝 對測序后得到的原始數據進行質量分析,去除重復、含接頭、測序質量低的reads,獲得clean reads。使用短序列組裝軟件Trinity[7]進行轉錄組從頭組裝,首先將含有一定長度區域重疊的reads連成更長的片段,然后通過reads重疊關系得到組裝片段的contig,再將reads比對回contig,再通過paired-end reads來確定來自同一轉錄本的不同contig以及這些contig之間的距離,將這些contig連在一起,最后得到兩端不能再延長的序列,即為unigene。
1.2.3 SSR位點的篩選 利用MISA軟件在所有unigene中搜索SSR位點,設置二核苷酸重復次數最少為6次,三核苷酸重復次數最少為5次,四核苷酸、五核苷酸和六核苷酸重復次數都設置為至少4次。
1.2.4 功能注釋 利用BLASTx將含有SSR的unigene序列與GenBank中的無冗余(Nr)蛋白質序列數據庫(non-redundant protein sequence database in GenBank)、Swiss-Prot(經過注釋的蛋白質序列數據庫)、京都基因與基因組百科全書(Kyoto encyclopedia of genes and genomes,簡稱KEGG)和同源蛋白質簇(cluster of orthologous groups of proteins,簡稱COGs)數據庫的優先級順序進行比對(E值<10-5),獲取最高序列相似性的蛋白,從而獲得該unigene的蛋白功能注釋信息。根據Nr注釋信息,使用Blast2GO軟件[8]進行GO注釋,得到每個含有SSR的unigene的GO信息后,用WEGO軟件[9]進行GO功能分類統計。endprint
2 結果與分析
2.1 轉錄組測序和組裝
通過Illumina HISeqTM 2000平臺測序,總計產出 56 374 280 條reads,去除低質量的和含有接頭的reads以后,得到 53 697 490 條clean reads,共計5 369 749 000個核苷酸(nucleotides,簡稱nt),GC含量45.52%、Q20(在高通量測序中,每測1個堿基會給出1個相應的質量值,用來衡量測序準確度。堿基的質量值為13、20、30時,錯誤率分別為5%、1%、0.1%。Q20則表示質量值≥20的堿基所占百分比)為9563%。利用Trinity軟件對這些reads進行組裝得到35 238條unigene,平均長度為1 081 nt,N50[將所有unigene從長到短排序,并依次累加長度,當累加片段長度達到總片段長度(所有unigene 的長度)的50%時,對應那個片段的長度即為N50]為1 735 nt。長度大于1 000 nt的unigene有13 651條,占全部unigene的38.74%。這些數據說明,本研究中轉錄組文庫的測序和組裝結果都較好,可以進行后續生物信息學研究。
2.2 SSR分析
利用MISA軟件在毛葡萄的35 238條unigene中搜索發現3 571條unigene序列含有SSR,占unigene序列總數的 10.13%,共搜索到4 428個SSR位點,平均每8.6 kb長度出現1個SSR,其中包含2個及2個以上SSR的unigene共有576條,含有SSR序列的unigene序列平均長度為1 684 nt,大于總unigene的平均長度,其中大于1 000 nt的序列數為 2 419 個。從圖1的分布特征來看,含有SSR的序列分布較均勻,與總unigene的分布規律類似,說明SSR是隨機分布的。由表1可知,二核苷酸和三核苷酸重復類型的SSR數量最多,其中二核苷酸1 906個,三核苷酸1 762個,而五核苷酸、六核苷酸重復類型在毛葡萄轉錄組序列中數量較少,分別僅有165、201個,除此之外,不同核苷酸的重復次數也有很大的變化。在檢測到的SSR中出現頻率最高的5類基序為AG/CT(1 425個)、AAG/CTT(552個)、AT/TA(345個)、ATC/ATG(247個)、AGC/CTG(235個)。對上述SSR分布特征進行分析有助于開展毛葡萄及其同屬物種的通用性標記開發和遺傳圖譜構建的研究。
2.3 功能注釋
為了預測含有SSR的unigene功能,分別將unigene與Nr、Swiss-Prot、COG、KEGG等生物學數據庫進行比對,通過BLAST搜索比對可知,共有3 197條unigene獲得了基因注釋,占所有unigene的86.06%,有518條unigene(13.94%)未被注釋(表2),這些未被注釋的基因被認為可能是新基因。
將所有含有SSR的unigene基因與COG、GO數據庫比對進行功能注釋與分類,有1 798條unigene被注釋到25個COG類別中(圖2),其中一般功能基因是最大類別,包含467條unigene,占被注釋unigene總數的25.98%;其次是信號轉
導機制類,包含313條unigene(占比為 17.41%);其余依次為轉錄類(263條,占總數的14.63%),以及翻譯后修飾、蛋白質翻轉、分子伴侶類(235條,占總數的13.07%)。
在已經得到的Nr注釋信息基礎上,通過Blast2GO數據庫獲得毛葡萄含有SSR的unigene的GO分類信息,共有 1 669 條unigene得到GO注釋。在GO分類體系中,生物學過程、細胞組分和分子功能這3個大的類別又被劃分為詳細的38個小的類別,其中“代謝過程”(1 050條,占比為 62.91%)、“細胞過程”(1 026條,占比為61.47%)和“結合”(977條,占比為58.54%)這3個類群占了主要部分,而“運動”(1條)、“胞外區”(1條)和“節律過程”(3條)僅有非常少的基因歸入,在細胞組件大類中缺少了病毒和病毒核心的部分,在分子功能大類中缺少了受體活性的相關序列。這一分類結果顯示的含有SSR的unigene序列基因表達譜的總體情況見圖3。
2.4 代謝通路分析
對野生毛葡萄葉片的轉錄組進行KEGG分析發現,有789條unigene被注釋到KEGG數據庫中,分布于103條已知的通路中。注釋序列數量較多的5個通路分別是代謝途徑(170條,ko01100)、次生代謝產物的生物合成(75條,ko01110)、植物激素信號轉導(42條,ko04075)、剪接體(35條,ko03040)和內質網中的蛋白質處理(28條,ko04141)(表3)。新陳代謝途徑和次生代謝產物的生物合成涉及的序列最多,這2個途徑是生物體內最重要的代謝途徑,往往涉及比較多的基因。
3 結論與討論
基于高通量測序技術的轉錄組學研究是一種高效、可靠的發掘功能基因的手段,Illumina高通量測序的數據量大、速度快、成本低、效率高,基于轉錄組數據信息進行SSR分子標記開發是一種經濟有效的方法。本研究在35 238條unigene中共搜索到4 428個SSR位點,二核苷酸、三核苷酸重復類型的SSR數量最多,其中二核苷酸1 906條(43.04%),三核苷酸1 762條(39.79%)。前人的研究結果顯示,有些物種二核苷酸占優勢,另一些物種三核苷酸占優勢,這種現象的出現與MISA搜索時相關參數的設置有很大的關系[10]。
結合生物信息學分析方法對毛葡萄unigene中含有SSR的基因序列與Nr、Swiss-Prot、COG、KEGG數據庫進行比對,進行序列相似性比對和功能注釋分析。在KEGG分析中,有789條unigene被注釋到103條代謝通路。這些標記如果能夠用于感興趣的性狀定位,則可以賦予它們對應的基因轉錄產物的相關信息,此外,在對這些數據庫的分析中,含有SSR的基因轉錄產物在各個功能組中的注釋比例和所有基因轉錄產物在各個功能組中的注釋比例非常接近,說明SSR并沒有集中在某一類功能的基因轉錄產物的分布偏好,而是隨著某一類功能的基因轉錄產物的增加而增加。endprint
在毛葡萄葉片轉錄組中這些SSR信息為開發基因內部SSR標記奠定了基礎,而且對含有這些SSR的序列進行注釋為后續研究提供了相關基因信息。在注釋中筆者發現,這些序列涉及了許多生物功能和重要代謝途徑,預示著這些潛在的標記可能與重要的生物功能有關[11]。這些潛在的標記還將豐富葡萄的分子標記類型,由于其來自于基因內部,所以具有很好的可轉移性,甚至可以廣泛地應用于葡萄屬種間的更多物種。在遺傳多樣性研究中,這些SSR標記將幫助研究者了解樣本中相關基因資源的多樣性。在基因定位上,一旦某一標記與感興趣的性狀相關,此標記所在的基因以及基因相關信息會幫助研究者更快地了解此基因與表現型的內在聯系。因此,本研究結果對葡萄屬植物的遺傳學研究具有重要意義。后續可對這些SSR序列進行引物設計和擴增檢測,篩選出多態性好、擴增穩定、條帶清晰的引物,為進一步開發新的SSR標記奠定基礎。
參考文獻:
[1]林 玲,張 瑛,盧 江,等. 中國葡萄屬野生資源毛葡萄的研究與利用進展[J]. 中外葡萄與葡萄酒,2015,2(2):66-69.
[2]涂 佳,鄧學良,周文化,等. 野生毛葡萄常規營養成分和原花青素含量分析[J]. 食品與機械,2010,26(2):82-85.
[3]鄒 瑜. 野生毛葡萄種質資源及利用研究進展[J]. 廣西農業科學,2008,39(5):664-667.
[4]尹 玲,張 晨,向 江,等. 我國新育成葡萄品種SSR指紋圖譜的建立[J]. 果樹學報,2015,32(3):366-373.
[5]Jiang B,Xie D,Liu W,et al. De novo assembly and characterization of the transcriptome,and development of SSR markers in wax gourd (Benicasa hispida)[J]. PLoS One,2013,8(8):e71054.
[6]郭 磊,上官凌飛,房經貴,等. 葡萄EST-SSR標記的開發及其應用[J]. 南京農業大學學報,2011,34(4):23-30.
[7]Haas B J,Papanicolaou A,Yassour M,et al. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis[J]. Nature Protocols,2013,8(8):1494-1512.
[8]Conesa A,Gítz S,García-Gómez J M,et al. Blast2GO:a universal tool for annotation,visualization and analysis in functional genomics research[J]. Bioinformatics,2005,21(18):3674-3676.
[9]Ye J,Fang L,Zheng H,et al. WEGO:a web tool for plotting GO annotations[J]. Nucleic Acids Research,2006,34(Web Server issue):W293-W297.
[10]Wei W,Qi X,Wang L,et al. Characterization of the sesame (Sesamum indicum L.) global transcriptome using Illumina paired-end sequencing and development of EST-SSR markers[J]. BMC Genomics,2011,12(1):451.
[11]李小白,向 林,羅 潔,等. 建蘭轉錄本的微衛星序列和單核苷酸多態性信息分析[J]. 浙江大學學報(農業與生命科學版),2014,4(4):463-472.endprint