李雪松,劉紹雄,孫達鋒,張俊波,馬 明,羅孝坤,岳萬松,華 蓉**
(1.云南云菌(集團)有限公司,云南 昆明 650221;2.云南省食用菌產業發展研究院,云南 昆明 650221;3.中華全國供銷合作總社昆明食用菌研究所,云南 昆明 650221)
大球蓋菇(Stropharia rugosoannulata Farl. ex Murrill) 別名皺環球蓋菇、酒紅色球蓋菇、皺球蓋等,商品名為赤松茸[1-2],是一種營養豐富、味道鮮美的食用菌,也是極具開發潛力的藥用真菌[3-4]。大球蓋菇多糖對大鼠的精神疲勞、運動疲勞和免疫力、抗氧化、抗病毒等方面有積極影響,同時對癌細胞有極顯著的抑制作用[5-8]。此外,大球蓋菇凝集素對肝癌Hep-G2細胞和白血病L1210 細胞均有抗增殖活性[9-10]。
大球蓋菇的市場需求在逐年擴大,現在普遍售賣的品種菌蓋為紅褐色至葡萄酒紅色,或暗褐色品種。金黃色大球蓋菇品種“中菌金球蓋1 號”是大球蓋菇新品種,具有菌蓋顏色鮮艷、菌褶顏色淺、產量高等優良性狀,市場潛力巨大[11]。目前對大球蓋菇的研究,主要集中于其化學成分、胞外酶、生物學特性、原生質體再生和單核化、栽培、加工方法等方面[12]。對于大球蓋菇各栽培種之間的遺傳關系,不同品種的產量、顏色、出菇溫度等具有較大差異的性狀的控制基因,以及這些基因的遺傳機理的相關研究尚未見報道[13]。
基因組是一個細胞或一個生物體的所有遺傳信息的集合,這些信息可以闡明生物有機體與其所處環境之間的協調機制,讓研究者可以通過某一物種特定的遺傳背景上直接去分析相關的生物學問題。目前,隨著高通量測序技術的快速發展,在大型真菌中已有近323 種(其中315 種分屬于70 個科,另外有8 個種不確定科別) 已完成或部分完成基因組測序和基因組大小評估[14]。通過高通量測序技術,對金黃色大球蓋菇品種“中菌金球蓋1 號”(ZJJQG001) 的基因組大小、雜和率、(G+C) 含量及等信息進行評估,為后續大球蓋菇全基因組的測序策略以及高質量完整基因組圖譜的繪制打下基礎,同時對大球蓋菇顏色調控基因的挖掘、菌株篩選等研究具有重要意義。
試驗材料為金黃色大球蓋菇“中菌金球蓋1號”。樣品于2021 年6 月采自中華全國供銷合作總社昆明食用菌研究所寶峰基地實驗大棚,帶回實驗室后取組織塊放置于凍存管內,液氮速凍30 min 以上,后置于-80℃超低溫冰箱保存,備用。
采用改良CTAB 法提取基因組DNA,使用德國Qiagen Q13343 試劑盒純化。用NanoDrop 檢測儀和Qubit 檢測儀檢測濃度和純度。采用0.7%瓊脂糖凝膠脈沖電泳檢測,Marker 使用日本寶生物公司(TaKaRa) 15 kb DNA Marker 和λDNA /HindIII。
隨機打斷大球蓋菇的DNA 樣品,構建1 個片段大小為500 bp 的文庫。構建好的文庫通過武漢希望組生物科技有限公司的MGI PE150 測序平臺進行雙末端測序。
原始數據需要進行質控處理,過濾低質量序列。首先利用軟件fastp 對原始數據進行過濾,過濾標準包括:去掉reads 接頭序列;截掉reads 兩端測序不準確的左右各5 個堿基;去除當中含有N 的reads;當一條reads 中超過20%的堿基質量分數小于20%,則舍棄該reads 所對應的一對reads。然后使用軟件FastQC 對有效數據(clean data) 進行質控,若質控合格,則進行后續分析。
隨機取100 000 條質控后的reads,利用BLASTN 將其與NT 數據庫進行比對[15],統計reads在NT 庫中的具體比對物種及分布比例,以此來判斷數據的污染情況。
利用findGSE 軟件[16]對序列文件中長度為k 的短序列(K-mer) 進行計數和統計;隨后,使用python 的scipy 包,根據擬南芥的基因組測序數據,模擬目標序列對應深度下的雜合度,預估基因組大小和雜合度。
采用K-mer=17 構建Contigs 和Scaffold,利用高質量數據進行SOAP de novo[17]組裝,得到Scaffold 序列后用SOAP 將過濾后的reads 比對到該組裝序列上直接拼接,獲得原始基因組序列及堿基深度[15]。對組裝的基因組序列以5 kb 為窗口,無重復計算片段的平均(G+C) 含量和平均深度并作圖,可以根據此圖判斷出測序數據的(G+C) 偏向性和存在污染等問題。
金黃色大球蓋菇“中菌金球蓋1 號”的子實體經過基因組DNA 提取后,獲得107 uL 的提取液。經NanoDrop 檢 測 質 量 濃 度 為447.1 ng·μL-1,OD260/280 比值為1.89,OD260/230 比值為2.32;Qubit 檢測質量濃度為326.0 ng·μL-1,DNA 總量為34.9 ng。提取的基因組DNA 的Nc/Qc(NanDrop 檢測質量濃度/Qubit 檢測質量濃度) 的比值為1.37,說明提取DNA 質量較好。
采用0.7%瓊脂糖凝膠脈沖電泳檢測。樣本DNA主帶在20 000 bp 以上,輕微斷裂,輕微降解,點樣孔中有輕微殘留,滿足建庫測序所需質量要求。
提取的基因組DNA 測序獲得7.87 Gb 的原始數據(raw data),經過質控后得到約7.25 Gb 的有效數據(clean data)。正、反向測序數據分別為read1、read2,數據質量良好,可用于后續基因組大小估計、contigs 序列構建等分析。測序產出的原始read(raw read) 為52 442 796 條,過濾后的有效read(clean read) 為52 173 844 條,Q30 值為91.63%、(G+C)含量為47.25%。經過分析獲得金黃色球蓋菇的基因組的測序深度為140×。
在開展進一步分析前,可通過4 個堿基的含量與平均(G+C) 含量分布,初步判斷數據的質量。質控后堿基含量分布見圖1,平均(G+C) 含量分布見圖2。

圖2 平均(G+C) 含量分布圖Fig.2 Distribution diagram of average (G+C) content
如圖1 所示,由于第二代高通量測序技術本身特性的限制,導致測序的前十幾個堿基含量會有一定的波動。但在十幾個堿基以后,A 與T、G 與C含量基本一致,表明數據堿基含量合格。平均(G+C) 含量分布是否符合正態分布是判斷測序數據污染或部分reads 構成子集偏差的重要標準之一。如圖2所示,所得質控數據的平均(G+C) 含量分布曲線形狀接近正態,說明數據質量良好。
隨機取100 000 條質控后的reads,利用BLASTN將其與NT 數據庫進行比對,統計reads 在NT 庫中的具體比對物種及分布比例[15],結果見表1。
由表1 中可以看出,質控后的數據有93%未在數據庫中找到對應序列,但比對匹配到的物種都是與試驗材料近緣的大型真菌。其中,可以匹配上的數據中有一半以上都能比對到大球蓋菇的片段,表明測序數據無污染,獲得的數據就是大球蓋菇的基因組數據。
果然,當我推開家里的門時,穎春正站在門口像迎接貴賓一樣等著我,而且,屋子里擺滿了鮮花。穎春笑瞇瞇地對我說,歡迎孫局長回家。我卻沒好氣地說,現在,你該滿意了吧?穎春一把擁住我說,怎么能說滿意呢?那不是一般的滿意,而是相當的滿意。我卻推開了她說,穎春,可能要讓你失望了,今天下午,我已經找周書記辭職了。穎春聽了,像看著一個癲子一樣看著我,然后,便哭著一枝枝地撕碎了那些擺在屋子里的鮮花。

表1 物種比對統計Tab.1 Species comparison statistics
用K-mer=17 進行分析時使用的是質控后的有效數據(7.25 Gb),獲得了1 548 216 004 個K-mer,深度為140×,得出其頻率分布詳見圖3。

圖3 金黃色大球蓋基因組K-mer 為17 的分布曲線及雜合率模擬曲線Fig.3 The frequency distribution of K-mer=17 and simulation curves of heterozygosity in S. rugosoannulat(golden yellow)
從圖3 可以看出,深度為29×時出現的頻率最高,分布曲線成峰的情況較好,即在29×附近有個主峰值。基因組中雜合子和重復序列的存在影響了K-mer 深度分布[18]。在最高峰值的一半左右會出現一個小峰,因此判斷大球蓋菇基因組具有一定的雜合率。利用KMC 進行評估,并利用模式物種擬南芥(雜合率0.80%) 的基因組模擬對應深度的短片段數據,在雜合率不同梯度組合情況下進行K-mer 曲線擬合來估計大球蓋菇的雜合率[15],最終得到其雜合率為0.80%。
根據Survey 分析的結果,在深度為29×附近是主峰值,通過公式計算得到金黃色大球蓋菇的初步基因組大小為53.39 Mb 左右。
金黃色大球蓋菇基因組組裝分析結果見表2。

表2 金黃色大球蓋基因組組裝結果統計Tab.2 Genome assembly results of S. rugosoannulata(golden yellow) genome
如表2 所示,初步組裝后的金黃色大球蓋菇基因組大小為55.20 Mb,Contig N50 和Scaffold N50 為14 943 bp;scaffold 長度為55 195 731.00 bp,scaffold 數量為25 802.00 條;contig 長度為55 195 731.00 bp,contig 數量為25 802.00 條,其中最長為361 801 bp,總長為55 195 731 bp。金黃色大球蓋菇的基因組信息顯示該基因組為具有一定雜合率的復雜基因組,后續的測序和組裝需要考慮采用更長的測序讀長和更精確的測序方法來克服基因組的雜合問題。
金黃色大球蓋菇的(G+C) 含量和覆蓋深度見圖4。
由圖4 可知,大球蓋菇的基因組堿基深度主要分布在50×~80×和100×~160×;基因平均(G+C)含量主要分布在40%~60%。基因組(G+C) 含量無明顯分離的聚團現象,基因組堿基深度有少量分離,說明基因組中無明顯其他外源污染,大球蓋菇為高雜合的物種。
如表3 所示,目前球蓋菇屬已有1 種紅色大球蓋菇[19]完成了全基因組測序,基因組大小為50.41 Mb,(G+C) 含量為47.8%。本研究中,基于第二代高通量測序技術的金色大球蓋菇的基因組大小為55.20 Mb,與紅色大球蓋菇的基因組大小相近,比其略大,在整個科的基因組中屬于中等大小。

表3 大球蓋菇基因組組裝結果與12 個球蓋菇科基因組比較Tab.3 Comparison of Stropharia rugosoannulata assembly results with twelve Strophariaceae genomes
同時,結合圖4 可知,金黃色大球蓋菇基因組的(G+C) 含量為47.25%,與目前已測的球蓋菇科近緣物種基因組的含量相近[20-23]。雖然,球蓋菇科的各個物種的(G+C) 含量存在一定的差異,但(G+C)含量都位于46%~51%之間,沒有明顯的過高或過低的現象。本次測序獲得的數據的覆蓋度為140×,在整個球蓋菇科物種中屬于高覆蓋度的物種,僅次于紅韌黑傘(Hypholoma sublateritium)[24]和古巴光蓋傘(Psilocybe cubensis),結果是較為準確和可靠的。

圖4 金黃色大球蓋菇的(G+C) 含量和覆蓋深度Fig.4 (G+C) content and average depth of Stropharia rugosoannulata
菌類在自然界中占據重要的生態位,同時又是人類的食用和藥用資源的重要來源[13];同時,具有豐富的生物多樣性,包括物種多樣性、遺傳多樣性和生態多樣性。但在我國食用菌產業的高速發展過程中,也出現了許多的科學問題[25],其中一些問題需要運用遺傳學的方法來進行解答。目前隨著高通量測序、遺傳轉化、基因編輯等分子生物學技術廣泛、成功地運用于遺傳學多個方面的研究,食用菌遺傳學正在成為一個研究熱點領域[25]。
通過對金黃色大球蓋菇品種“中菌金球蓋1號”進行全基因組調查,獲得了7.87 Gb 的高通量測序數據,基于K-mer 為17 進行Survey 分析。金黃色球蓋菇的基因組大小約為55.20 Mb ,GC 含量為47.25%,雜合率為0.80%,與球蓋菇屬的多脂鱗傘、磚紅韌黑傘[23]、古巴光蓋傘等物種的基因組特征相似。但由于大球蓋菇的雜合度為0.80%,后續考慮采用三代測序(Nanopore) 結合二代測序(Illumina) 以及光學圖譜(Bio-NANO) 的策略來獲得高質量的基因組精細圖,甚至是染色體級別的基因組完成圖。
上述研究得到的金黃色大球蓋菇Survey 分析結果,將為高質量基因組完成圖譜的繪制提供重要的科學依據。同時,為下一步金黃色球蓋菇的顏色調控等遺傳機理研究和菌株篩選等提供了一定的理論基礎。