肖 宇,劉 洋,劉建軍,盧海強,桑亞新,孫紀錄,*
(1.河北農業大學食品科技學院,河北 保定 071000;2.山東省食品發酵工業研究設計院,山東 濟南 250013)
殼聚糖是堿性多糖,可作為食品添加劑,在肉制品[1]、果蔬制品[2]和海產品[3]中起保鮮作用,此外,還具有澄清果汁[4]、延緩淀粉老化和增加面包持水性[5]等功能,從而改善食品風味和質感。蝦蟹殼富含幾丁質,是制備殼聚糖的優良原料。全球每年產生(6~8)×106t廢棄蝦蟹殼,這些廢棄的蝦蟹殼通常是被傾倒在垃圾填埋場或海洋中,不僅造成了嚴重的環境污染[6],也造成了巨大的浪費。我國是海洋大國,如何高效利用海洋資源,已成為我國重要的研究熱點。
目前,工業生產中主要利用濃堿(40% NaOH)加熱法從幾丁質制備殼聚糖[7],此傳統化學方法不僅會造成嚴重的環境污染,而且過程不易控制,生成的殼聚糖為脫乙酰度不同的混合物,質量不穩定,反應過程耗時長、耗能高[8],增加了生產成本。利用幾丁質脫乙酰酶(chitin deacetylase,CDA,E.C.3.2.1.41)脫去幾丁質的乙酰基是一種綠色、高效的方法。該方法具有高度特異性,可定向得到所需的降解產物,產物的聚合度、脫乙酰度、脫乙酰化模式單一[9]。該酶是目前已知的唯一一類可以使幾丁質轉化成殼聚糖的酶[10]。到目前為止,研究報道的CDA主要來源于真菌,關于細菌產CDA的報道較少[11]。并且,在眾多微生物中產生的CDA基本為胞內酶。岳紅霞等[12]篩選出1 株產CDA活力較高且性能穩定的菌株11-3,并鑒定為紅球菌(Rhodococcussp.)。
目前報道的CDA產生菌主要為真菌,包括卷柄根霉(Rhizopus circinans)[13]、釀酒酵母(Saccharomyces cerevisiae)[14]、菜豆炭疽菌(Colletotrichum lindemuthianum)[15]等。與真菌相比,細菌所需培養時間更短,產酶速度更快,因此在生物法中產CDA細菌是比真菌更好的選擇。但是,目前產CDA細菌報道較少,只有Rhodococcus qingshengii[16]、枯草芽孢桿菌(Bacillus subtilis)[17]等。紅球菌11-3具有優良的幾丁質脫乙酰能力,目前已開展了一些研究,如劉麗[18]通過優化紅球菌11-3菌株的產酶培養基及培養條件,將其CDA活力由最初的58 U/mL提高到5 890 U/mL,提高了近100 倍。該菌株與已報道較部分菌株如卷柄根霉[13]和短桿菌(Brevibacterium)[19]等相比,其所產的CDA具有較好的熱穩定性,45 ℃保溫1 h仍能保持90%以上的活力,最適作用溫度為50 ℃;最適作用pH 7.0,在pH 7.0~10.0之間有較高的活性。由此可見,紅球菌11-3是一個具有開發潛力的CDA生產菌株。然而,迄今為止,關于該類菌產生CDA的研究報道還較少,缺乏基因組信息是進一步研究該菌的關鍵限制之一。為深入挖掘紅球菌降解幾丁質的酶類資源,亟需對紅球菌的相關降解途徑基因進行深入研究。
因此,本研究采用Illumina HiSeq第2代測序技術,對1 株高產CDA的紅球菌11-3菌株進行全基因組測序,并對其基因組序列進行系統的生物信息學分析,以期為該菌株的功能基因組學研究提供基礎。研究結果將為進一步挖掘紅球菌降解幾丁質的潛力及其遺傳多樣性提供理論依據,繼而推動和擴大殼聚糖在食品工業方面的應用。
紅球菌菌株11-3,山東省食品發酵工業研究設計院劉建軍教授惠贈。
DNA抽提試劑盒(細菌)Wizard?Genomic DNA Purification Kit、Wizard?基因組DNA純化試劑盒 美國Promega公司;二代建庫試劑盒NEXTflexTMRapid DNASeq試劑盒 美國Bioo Scientific公司;其他試劑均為分析純或生化試劑。
PHS-3DW型pH計 安徽合肥橋斯儀器設備有限公司;TG16-WS臺式高速離心機 湖南湘儀實驗室儀器開發有限公司;FA1004電子天平 上海越平科學儀器有限公司;XL-100型馬弗爐 河南省鶴壁市億欣儀器儀表有限公司;ZWY-2102C恒溫培養振蕩器 上海智城分析儀器制造有限公司;HH-4數顯恒溫水浴鍋 金壇市良友儀器有限公司;WP25AB臺式電熱恒溫培養箱天津市泰斯特儀器有限公司;GeneAmp?9700型聚合酶鏈式反應(polymerase chain reaction,PCR)儀 美國ABI公司;JY600 C電泳儀 北京市六一儀器廠;ABSON MIFLY-6小型離心機、5424R高速臺式冷凍離心機德國Eppendorf公司;NanoDrop2000(純度)分光光度計美國Thermo公司;TBS-380熒光儀、Illumina HiSeq測序儀 美國Illumina公司;Covaris M220粉碎儀 中國香港基因有限公司;高通量粉碎研磨儀 上海萬柏生物科技有限公司。
1.3.1 菌株總DNA的提取
從低溫(4 ℃)保藏的斜面培養基上刮取適量待測菌株,接種于100 mL液體培養基中,于30 ℃培養24 h后,按照Wizard?基因組DNA純化試劑盒說明書進行基因組DNA提取。純化的基因組DNA采用TBS-380熒光儀進行定量。高質量的DNA(OD260nm/OD280nm=1.8~2.0,DNA總量≥1 μg,質量濃度≥20 ng/μL)被用于之后的建庫測序。
1.3.2 Illumina文庫構建
取至少1 μg基因組DNA,利用Covaris破碎儀進行基因組DNA片段化,將DNA樣本剪切成約400 bp的片段,使用NEXTflexTMRapid DNA-Seq試劑盒進行文庫制備。具體步驟如下:連接A&B接頭;篩選去除接頭自連片段;使用瓊脂糖凝膠電泳進行片段篩選,保留一端是A接頭、一端是B接頭的片段;使用氫氧化鈉變性,產生單鏈DNA片段;橋式PCR擴增。
1.3.3 全基因組測序及數據質控分析
制備的文庫在Illumina HiSeq×10儀器上進行雙端測序(2×150 bp)。具體步驟如下:加入改造過的DNA聚合酶和帶有4 種熒光標記的dNTP,每次循環只摻入單種堿基;用激光掃描反應板表面,讀取每條模板序列第1輪反應所聚合上去的核苷酸種類;將“熒光基團”和“終止基團”化學切割,恢復3′端黏性,繼續聚合第2個核苷酸;統計每輪收集到的熒光信號結果,獲知模板DNA片段的序列。
利用Illumina平臺生成的數據進行生物信息學分析。所有分析均在上海美吉生物醫藥科技有限公司的I-Sanger云平臺(www.i-sanger.com)上進行。具體程序如下:基因組組裝,Illumina平臺將測序圖像信號經CASAVA堿基識別轉換成文字信號,并將其以FASTQ格式儲存作為原始數據。對原始數據進行質量剪切,具體步驟如下:去除reads中的adapter序列[20];剪切去除5’端非A、G、C、T的堿基;修剪測序質量較低的reads末端(測序質量值小于Q20);去除含N比例達到10%的reads;舍棄去adapter及質量修剪后長度小于25 bp的小片段。利用組裝軟件SOAPdenovo2對優化序列進行拼接[21],得到最優的組裝結果。
1.3.4 基因預測及注釋
利用Glimmer[22]對基因組中的編碼序列(coding sequence,CDS)進行預測,獲得功能基因的核酸序列和氨基酸序列,用于后續功能和系統進化分析。使用tRNAscan-SE進行tRNA預測,使用Barrnap進行rRNA預測。利用BLAST、Diamond、HMMER等序列比對工具,從非冗余蛋白庫(Non-Redundant Protein Database,NR)、Swiss-Prot[23]、Pfam[24]、基因本體論(Gene Ontology,GO)、直系同源群集(Clusters of Orthologous Groups,COG)[25]、京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)[26]數據庫中對預測到的CDS進行蛋白功能注釋。
1.3.5 碳水化合物活性酶(carbohydrate-active enzymes,CAZy)注釋
紅球菌11-3中的CAZy通過HMMER(version3.0)預測軟件,在CAZy數據庫[27]中比對得到。
1.3.6 幾丁質降解相關酶基因的生物信息學分析
在NCBI數據庫中對CDA、幾丁質酶和殼聚糖酶的基因序列進行比對;使用ProtParam軟件分別對目的蛋白基本性質(相對分子質量、等電點、不穩定系數)進行分析;使用ProtScale軟件分別分析目的蛋白親疏水性;使用TMHMM軟件分別對目的蛋白的跨膜結構進行預測;使用SOPMA軟件分別對目的蛋白二級結構進行分析。
使用SOAPdenovo(Version 2.04)進行二代測序數據組裝;使用CGView(Version 2)進行圈圖繪制。使用Excel 2019處理GO、COG、KEGG注釋,結果用條形統計圖呈現;利用Prism 8處理CAZy注釋基因,結果用條形統計圖呈現。
紅球菌11-3基因組測序結果見圖1。最外圈為基因組大小的標識,紅球菌11-3的完整基因組為包含6 089 866 bp的環狀染色體,第2圈和第3圈為正鏈、負鏈上的CDS,不同的顏色表示CDS不同的COG的功能分類,編碼基因的數量為5 904 個,其中COG注釋的基因為4 866 個,占編碼基因的82.42%。第4圈為所含rRNA和tRNA數量,紅球菌11-3基因組中含有5 個rRNA操縱子,分別由2 個5S rRNA、1 個16S rRNA、2 個23S rRNA組成,含有55 個tRNA基因,分別轉運Ala、Gly、Arg、Leu等20 種不同的氨基酸。第5圈為GC含量,向外的紅色部分表示該區域GC含量高于全基因組平均GC含量,峰值越高表示與平均GC含量差值越大,向內的藍色部分表示該區域GC含量低于全基因組平均GC含量,峰值越高表示與平均GC含量差值越大,基因組平均GC含量為70.514%。最內一圈為GC-Skew值,具體算法為(G-C)/(G+C),可以輔助判斷前導鏈和后滯鏈,一般前導鏈GC-Skew大于0,后滯鏈GC-Skew小于0,也可以輔助判斷復制起點(累計偏移最小值)和終點(累計偏移最大值),尤其對環狀基因組最為重要。基因組圈圖可以使研究者對菌株基因組的特征有更全面、更直觀的認識。

圖1 紅球菌11-3基因組圖Fig.1 Whole genome map of Rhodococcus sp.11-3
2.2.1 基因的GO功能注釋
紅球菌11-3在GO數據庫中注釋到4 244 個基因,占基因總數的71.88%。菌株的GO注釋結果見圖2。

圖2 紅球菌11-3基因組GO功能注釋分類Fig.2 Classification of GO functional annotations of genome of Rhodococcus sp.11-3
由圖2可見,注釋到與分子功能相關的基因最多,有3 510 個,表明該菌株的基因產物主要集中在分子功能方面。其次是與生物過程相關的基因,有3 185 個,而與細胞組成相關的基因有1 496 個。在分子功能上,最主要的途徑是DNA結合(GO:0003677;489 個基因),ATP結合(GO:0005524;368 個基因),金屬離子結合(GO:0046872;203 個基因),水解酶活性(GO:0016787;172 個基因),轉錄因子活性、序列特異性DNA結合(GO:0003700;158 個基因)。氧化還原過程(GO:0055114;902 個基因)和轉錄調控(GO:0006355;396 個基因)是生物過程中的主要途徑。膜組分(GO:0016021;956 個基因)、細胞質(GO:0005737;252 個基因)和質膜(GO:0005886;159 個基因)是細胞組分中的主要通路。此外,分析確定了67 個與碳水化合物代謝有關的GO注釋,可能與幾丁質代謝有關,包括GO:0004553(水解O-糖基化合物的水解酶活性),GO:0005975(碳水化合物代謝過程)和GO:0016787(水解酶活性)。
2.2.2 基因的COG功能注釋
通過COG數據庫對該菌基因組進行BLAST比對分析(E-value<10-5),成功獲得 COG功能注釋的有4 866 個蛋白基因(圖3)。

圖3 紅球菌11-3基因組COG數據庫比對分析結果Fig.3 COG functional annotations of genome of Rhodococcus sp.11-3
由圖3可見,具有未知功能的注釋結果最為豐富,共1 713 個,占注釋基因總數的35.20%。其次為具有轉錄功能和與能量產生與轉化密切相關的注釋結果,分別為451 個和365 個,分別占注釋基因總數的9.27%和7.50%。與脂質轉運與代謝、氨基酸轉運與代謝、無機離子轉運與代謝等功能相關的基因也得到較多的注釋結果,分別為361、330 個和245 個。
為了在基因水平上闡明紅球菌11-3在幾丁質降解中的功能,分析了參與碳水化合物代謝的特定COG。總共有241 個基因被注釋到碳水化合物的代謝中,包括125 個COG,其中最豐富的COG是ENOG410XP7I(轉運蛋白)、COG0477(主要促進者超家族)、COG2301(檸檬酸裂解酶)、COG1940(ROK家族)、COG3839(ABC轉運蛋白)。此外,該菌株還注釋到COG366、COG2814。COG366編碼一種作用于淀粉和糖原的α-淀粉酶,將多糖水解為葡萄糖和麥芽糖[28]。COG2814參與某些化合物(如碳水化合物和氨基酸)的細胞運輸。輔助活性轉運蛋白COG0477有助于催化各種底物的轉運[29-30]。此外,注釋了碳水化合物代謝中的其他重要COG,例如,COG0395參與了碳水化合物的吸收[31],而COG1109則催化了6-磷酸氨基葡萄糖的轉化[32]。功能注釋的高度多樣性表明,紅球菌11-3在幾丁質降解方面可能具有強大的能力。
2.2.3 基因的KEGG功能注釋
對該菌株的2 249 個基因進行了KEGG注釋,結果見圖4,占總基因的38.09%。

圖4 紅球菌11-3基因組KEGG功能分類Fig.4 KEGG function classification of genome of Rhodococcus sp.11-3
由圖4可見,紅球菌11-3的2 249 個KEGG注釋基因分為六大類型:細胞過程(6.31%)、環境信息處理(10.67%)、遺傳信息處理(8.80%)、人類疾病(3.65%)、代謝(92.31%)和生物體系統(3.07%)。其中每一類型又包含有各自的亞型。在菌株的KEGG代謝注釋中,碳水化合物類代謝和氨基酸類代謝被認為是其主要功能,分別包含555 個和511 個基因。對于這些代謝,某些途徑占主導地位,例如碳代謝(ko01200)、ABC轉運蛋白(ko02010)以及氨基酸的生物合成(ko01230)。在代謝通路中,發現有1 個與幾丁質代謝能力相關的基因,即gene5619,且只有1 個KO被注釋到,K03791并未包含在代謝通路中。
CAZy數據庫[27]是關于合成或分解復雜碳水化合物和糖復合物的酶類的專業數據庫。根據蛋白質結構域中氨基酸序列的相似性,可將不同物種來源的CAZy分成糖苷水解酶(glycoside hydrolases,GHs)[33]、糖基轉移酶(glycosyl transferases,GTs)[34]、多糖裂合酶(polysaccharide lyases,PLs)[35]、碳水化合物酯酶(carbohydrate esterases,CEs)[35]、碳水化合物結合模塊(carbohydrate-binding modules,CBMs)、輔助氧化還原酶(auxiliary activities,AAs)[36]六大類蛋白質家族。紅球菌11-3共注釋到165 個CAZy基因,如圖5所示。

圖5 紅球菌11-3不同CAZy基因分布情況Fig.5 Distribution of different CAZy genes in Rhodococcus sp.11-3
由圖5可見,紅球菌11-3注釋到的CAZy基因包括59 個CEs基因、42 個GTs基因、36 個GHs基因和28 個AAs基因。在基因組中鑒定出參與幾丁質降解的1 個CDA基因(gene4907),其屬于CE4家族;4 個幾丁質酶(EC 3.2.1.14)基因(gene1286、gene1287、gene3810、gene4754),均屬于GH23家族;2 個殼聚糖酶(EC 3.2.1.132)基因(gene4921、gene5362)。因此,該菌株具有高效降解幾丁質和殼聚糖潛力。
紅球菌11-3的CDA基因gene4907長度為894 bp,編碼氨基酸數量為297 個。其與已報道的CDA氨基酸序列比對結果如圖6所示。由圖6可見,紅球菌11-3的CDA與已報道的CDA的氨基酸序列一致性為26.60%~32.43%,其中,與來源于海洋的節細菌(Arthrobacter)的ArCE4A(GenBank LT630322)[37]的序列一致性最高,為32.43%,兩者有相似的分子質量、理論等電點及二級結構。ArCE4A以幾丁質為底物時,其脫乙酰度為0.003%~0.006%,以乙酰木聚糖為底物時,其脫乙酰度可高達18.9%[37]。與卷柄根霉的RcCDA(GenBank EU086737)[13]的序列一致性最低,為26.60%。因此,紅球菌11-3的CDA為一種新型的CDA,這很可能是該菌株高效脫乙酰的關鍵。

圖6 不同CDA的氨基酸序列對比分析Fig.6 Alignment of amino acid sequences of different CDAs
通過TMHMM在線工具預測紅球菌11-3的CDA跨膜結構,發現該蛋白無跨膜結構域。通過SignalP 4.0在線工具對其信號肽序列進行分析,發現其含有29 個氨基酸長度的信號肽,成熟蛋白含有267 個氨基酸殘基。通過ProtParam工具對其基本性質進行分析,發現其計算分子質量為30.57 kDa,等電點為5.22,含量最高的氨基酸為丙氨酸(15.5%)。通過ProtScale工具對其親疏水性進行分析,發現在整條鏈中,最高分值為1.626,為排在24位的亮氨酸,代表疏水性最強;最低分值為-1.685,為排在167位的酪氨酸,代表親水性最強。總平均親水性(grand average of hydropathy,GRAVY)值被定義為序列中所有氨基酸親水值的總和與氨基酸數量的比值,負值越大表示親水性越好,正值越大表示疏水性越強。紅球菌11-3的CDA的GRAVY值為0.005,表明該蛋白質是一種不溶性蛋白。利用SOPMA法對其二級結構進行分析,發現其二級結構由50.17%的無規卷曲、26.94%α-螺旋、16.84%延伸鏈和6.06%β-轉角組成。
與上述對紅球菌11-3CDA基因gene4907的分析方法相同,對該菌株的幾丁質酶基因(gene1286、gene1287、gene3810、gene4754)和殼聚糖酶基因(gene4921、gene5362)進行生物信息學分析,結果如表2所示。
分別將表2中各基因的核苷酸序列翻譯成氨基酸序列,用NCBI中的BLASTp功能,與數據庫中的蛋白序列進行比對。在數據庫中,并沒有相似的幾丁質酶蛋白和殼聚糖酶蛋白。其原因可能是該基因來源的菌株比較新穎,其產生的酶有較大可能是新酶。

表2 紅球菌11-3的幾丁質酶和殼聚糖酶基因及其表達蛋白的特征預測Table 2 Predicted characteristics of chitinase and chitosanase genes and proteins of Rhodococcus 11-3
紅球菌菌株11-3基因組大小為6 089 866 bp,是一種GC含量高達70.514%的微生物類群,預測到5 904 個編碼基因,其中編碼基因總長度為5 502 237 bp,平均長度為931.95 bp,平均密度為0.97 個/kb,基因中包含5 個rRNA操縱子和55 個tRNA。
從功能預測的角度看,紅球菌11-3基因組中能夠注釋到GO信息的基因數目為4 244 個,包含了40多種功能特性,占所有編碼基因的71.88%。能夠注釋到COG信息的基因數目為4 866 個,注釋基因占比為82.42%。在KEGG數據庫中共有2 249 個基因分別在代謝、遺傳信息處理、環境信息處理、細胞過程、生物體系統、人類疾病6大功能41 個通路上得到功能注釋,還發現1 個與幾丁質代謝通路相關的基因。預測到可能的毒力基因360 個,耐藥基因266 個。此外,該菌株在CAZy數據庫中注釋到1 個CDA基因、4 個幾丁質酶基因和2個殼聚糖酶基因。3 種酶基因編碼的氨基酸序列與數據庫中的CDA氨基酸序列一致性普遍較低,其原因可能是這些基因來源的菌株比較新穎,其產生的酶有較大可能是一些新酶。
值得注意的是,該菌株還有相當多的未知功能基因,具有極大的研究價值。因此,本研究得到了紅球菌11-3的大量基因組學信息,為該菌株的功能基因挖掘及改造提供了堅實依據。