





摘" 要:為研究鰳魚(Ilisha elongata)的遺傳演化概況,對鰳魚基因組進行了高通量測序并開展了survey分析和基因組范圍內的遺傳標記開發。K-mer分析結果顯示,鰳魚基因組大小約為692.8 Mb,雜合率為0.18%,重復序列比例為39.6%。基因組初步組裝Scaffold N50為27 694 bp,Contig N50為6 306 bp。利用MISA軟件對鰳魚基因組的微衛星標記(simple sequence repeat,SSR)進行檢索和分析,總共檢測到786 123個SSR位點,相對豐度為1 204個/Mb。在所有類型中,重復最多的是二堿基,占SSR總量的75.94%,其SSR重復頻率主要集中在6~28次;其次為單堿基和四堿基,分別占SSR總量的15.31%和4.25%。對二堿基類型而言,AC型具有最多的重復數量,為131 732個,單堿基重復數量最多的則是A型,有48 775個。研究結果表明,鰳魚基因組經組裝后可得到高質量的全基因組序列,經過篩選的SSR位點可為后續的遺傳分子標記開發提供有力支持,研究結果可為鰳魚種質資源管理和保護、生物進化和群體遺傳等研究工作提供基礎資料。
關鍵詞:鰳魚;全基因組survey;微衛星標記;高通量測序;生物遺傳
doi:10.16446/j.fsti.20230700110
收稿日期:2023-07-10
作者簡介:高魯修(1998—),男,碩士研究生,研究方向為分子生態學。E-mail:736857968@qq.com
通信作者:劉炳艦(1984—),男,副教授,研究方向為海洋生物學分子生態學。E-mail:liubingjian@zjou.edu.cn
項目資助:國家自然科學基金項目(41806156);國家級大學生創新創業訓練計劃項目(202110340031);浙江省自然科學基金項目" (LY22D060001amp;LY20C190008);舟山市科技項目(2020C21016)。
目前,人類已進入了組學時代并見證了空前規模的遺傳信息積累。為深入了解和研究遺傳信息,研究人員采用了多種先進的科學技術,其中高通量測序技術[1](high-throughput sequencing)因其準確度高、運行成本低等特點而成為目前主流的測序技術之一,為大規模的組學研究提供了技術支持,并被稱作“下一代”測序技術(“next-generation” sequencing technology,NGS)。根據NCBI(national center for biotechnology information)數據庫(https://www.ncbi.nlm.nih.gov/genome)和IGSR(the international genome sample resource)數據庫(https://www.internationalgenome.org)中的數據顯示,截至目前,全球約有100 000種生物進行了基因組測序,其中魚類有1 200多種。基于NGS的基因組survey分析,是指利用小片段文庫的低深度測序數據(50~100X),運用K-mer分析方法對基因組展開研究,包括評估基因組大小、雜合度、GC堿基含量等。基因組survey分析是了解某一生物遺傳特性的有效方法,相關結果可為后續的建庫及高質量基因組組裝策略的制定提供資料,并對全基因組微衛星標記(simple sequence repeats,SSR)的開發發揮重要作用。研究表明,SSR均勻分布在真核生物基因組中,目前已被應用于種群遺傳多樣性、親緣關系識別、構建遺傳圖譜等研究領域[2-4]。相對于常規的SSR開發流程,高通量測序數據下的SSR開發工作具備低成本、高效率、高生產率的優勢。趙蕊蕊等[5]對絨杜父魚(Hemitripterus villosus)全基因組進行了分析,獲得約710 Mb的基因組序列,其雜合度和重復序列占比分別為38.61%和0.26%,鑒定獲得SSR位點583 498個,為絨杜父魚進化生物學和遺傳學等研究提供了基礎資料。Kim等[6]對南極冰魚(Chionobathysscus dewitti)基因組測序數據進行了評估,得出南極冰魚基因組大小為880 Mb,其誤差率、雜合度和重復率依次為0.317%、0.421%和0.738%,同時從組裝數據中鑒定出2 252 265個SSR位點,其中二堿基重復序列比例最高。Xu等[7]對褐菖鲉(Sebastiscus marmoratus)的全基因組進行了分析,獲得800 Mb左右的基因組序列,其中重復序列為39.65%,雜合度為0.17%,并通過全基因組數據開發出191 592個SSR位點,為其他相關研究提供了參考。Li等[8]的研究顯示,羅布麻(Apocynum venetum)基因組大小為254.40 Mb,重復序列占比為40.87%,雜合度約為0.63%,同時挖掘出101 918個SSR位點,為今后羅布麻遺傳信息識別以及分析棉麻纖維合成的關鍵基因等工作提供了基礎資料。
鰳魚(Ilisha elongata)又稱白鰳魚,隸屬于鯡形目(Clupeiformes)、鋸腹鰳科(Pristigasteridae),主要分布于太平洋西部、爪哇海海域[9],在中國南海、東海、黃海以及渤海均有分布[10],為亞熱帶及暖溫帶近海洄游性中上層魚類,主要以蝦類、魚類和毛顎類等為食,是我國沿海重要的經濟魚類[11]。鰳魚肉質鮮美,富含蛋白質、脂肪及鈣等營養物質,是我國漁業史上最早的捕撈對象之一,距今已有5 000多年的歷史[12]。近年來,由于過度捕撈以及海洋生態環境惡化[13]等因素,鰳魚資源量急劇下降,因此亟需開展鰳魚種質資源調查和保護工作。目前,有關鰳魚的研究工作主要集中在食品加工[14-19]和形態特征[20-23]等方面,有關遺傳分析方面的研究[24-26]相對較少,限制了鰳魚生物進化、遺傳多樣性研究和種質資源保護等工作的開展。本研究對鰳魚進行高通量測序,展開全基因組的survey分析和識別SSR,對鰳魚基因組大小、雜合度、GC含量等進行有效評估,以期為后續鰳魚資源管理和保護、生物進化和遺傳多樣性研究方法的選用提供基本資料。
1" 材料和方法
1.1" 樣本采集與測序
本研究鰳魚樣品于2023年2月采自浙江舟山近海水域。經形態學特征[27]進行物種鑒定后,剪取適量樣品肌肉組織裝入含有95%(體積分數)乙醇溶液的凍存管中固定,然后于-80 ℃冰箱中保存待用。
采用常規方法(苯酚-氯仿法)提取鰳魚基因組DNA,并委托北京百邁客生物科技有限公司進行高通量測序文庫構建和測序,原始數據(raw data)經質控和過濾后,所獲得的有效數據(clean data)可用于后續的相關分析。將原始數據上傳至NCBI數據庫,注冊登錄號為PRJNA967191。
1.2" 全基因組數據處理
測序后得到的鰳魚有效數據通過GCE 1.0.2軟件的K-mer分析工具來評估其基因組的大小、雜合度、GC含量等基本特征信息[28]。利用SOAPdenovo 2.0軟件進行基因組初步組裝[29],并計算Contig和Scaffold(K=47)大小。基因組組裝完畢后,使用MISA腳本的默認參數值(即單堿基至六堿基的最小重復序列次數分別為10、6、5、5、5和5)對序列中的SSR位點進行篩選。利用Primer 3軟件進行SSR引物批量設計[30],引物委托生工生物工程(上海)股份有限公司制備。經聚合酶鏈式反應(PCR)擴增后,采用瓊脂糖凝膠電泳分析法對引物和SSR的有效性進行檢驗。
2" 結果
2.1" 數據量統計與K-mer分析
利用Illumina NovaSeq 6000平臺測序,經質控和過濾后得到有效數據為155.80 Gb,其中GC含量為42.92%,錯誤率為0.02%,Q20為99.57%,Q30為97.39%,測序質量符合后續分析要求(見表1)。通過與NCBI數據庫中相關物種[太平洋鰳(Ilisha furthii)、縱帶鰳(Ilisha striatula)、西非鰳(Ilisha africana)等]序列進行BLASTn分析,比對結果無異常,表明測序數據不存在污染情況。使用K-mer分析評估有效數據,設定K-mer值為18,基因組的預估結果為:鰳魚基因組大小約為692.8 Mb,重復序列占比39.6%,雜合率0.18%,可對其展開進一步研究和分析,包括基因組裝和SSR篩選等工作。
2.2" 基因組初步組裝
鰳魚全基因組初步組裝結果見表2。利用KmerGenie軟件進行有效數據分析[31],得出最佳基因組組裝值K=47。通過SOAPdenovo軟件初步組裝鰳魚全基因組,最終獲得基因組大小約為556 914 471 bp。進一步分析結果顯示,Scaffold N50長度為27 694 bp,Contig N50長度為6 306 bp。Scaffolds最長序列為47 402 bp,有110 255個序列不小于2 000 bp,有536 946個序列不小于100 bp,表明鰳魚全基因組初步組裝結果較好。
2.3" 微衛星位點篩選
基因組初步組裝完成后,通過MISA軟件挖掘SSR位點,在全部Scaffolds中篩選獲得SSR位點786 123個,相對豐度為1 204個/Mb。進一步分析結果顯示,在不同的堿基類型中,二堿基重復類型最多(596 970個),約占SSR總量的75.94%,六堿基重復最少(880個),約占SSR總量的0.11%。這與趙蕊蕊等[5]、Tóth等[32]、王耀嶸等[33]的研究結果類似,即在堿基類型所占比例中,二堿基占比最高,六堿基占比最低。其余的堿基類型占比依次是單堿基(120 368個,15.31%),四堿基(33 347個,4.25%),三堿基(28 249個,3.59%)和五堿基(6 309個,0.80%)。對SSR位點進行分析,其重復范圍在5~103次,主要集中次數為6~28次。對單堿基而言,重復次數大多集中于10~28次,約占單堿基SSR總量的99.30%。二、三堿基重復主要集中在6~28次和5~15次,約占其SSR總量的99.58%和99.63%。四堿基、五堿基和六堿基的重復次數則分別集中于5~11次、5~9次和5~7次,約各占SSR總量的98.72%、99.06%和97.84%(見圖1)。
鰳魚全基因組SSR重復次數分布情況見圖2。在單堿基重復類型中,A/T類型與C/G類型相比重復單元較高,為93 801個,約占單堿基SSR總量的77.93%,C/G類型為26 567個,約占單堿基SSR總量的22.07%。二堿基重復類型中,以AC/GT型重復單元最多,為449 474個,約占二堿基SSR總量的75.29%,占比第二的是AG/CT型,為136 861個,約占22.93%,其余依次是AT/AT型(10 123個,1.70%)、CG/CG型(512個,0.09%)。
三堿基結果顯示(見圖3),AAT/ATT型重復單元最多,為10 347個,約占三堿基SSR總量的36.63%,重復單元最少的是ATC/ATG型,為2 629個,約占其總量的9.31%,其次是AGG/CCT型(4 261個,15.08%)、AAC/GTT型(2 685個,9.51%)。對四堿基重復而言,以AGAT/ATCT型重復單元最多,為7 756個,約占四堿基SSR總量的23.26%,其余依次是ACAG/CTGT型(4 863個,14.58%)、AAAG/CTTT型(4 276個,12.82%)、ACTC/AGTG型(2 853個,8.56%)。五堿基和六堿基中,重復單元最多的是AGAGG/CCTCT型(1 491個,23.63%)和ACACGC/CGTGTG型(86個,9.77%)(見圖4)。
通過PCR擴增和瓊脂糖凝膠電泳檢測法對隨機選取的15個SSR位點進行有效性驗證,結果顯示,PCR擴增成功率在95%以上,滿足后續的研究工作要求。
3" 討論
3.1" 鰳魚全基因組的基本特征
NGS的發展為基因組和轉錄組研究提供了一種相對經濟的方法。本研究通過survey分析對鰳魚全基因組數據進行評估,開發出了豐富的SSR標記,研究結果可為后續鰳魚漁業資源管理保護和生物遺傳等研究工作提供基礎資料。
K-mer分析顯示,鰳魚的基因組大小約為692.8 Mb,小于南極冰魚[6](880 Mb)、斑魚祭(Setipinna tenuifilis)[34](797 Mb)、黃鯽(Setipinna tenuifilis)[35](815 Mb)和大西洋鯡(Clupea harengus)[36](850 Mb),與歐洲沙丁魚(Sardina pilchardus)[37]
(625~637 Mb)、卵形鯧鲹(Trachinotus ovatus)[38](642.68 Mb)相似。基因組大小的不同是由物種間的差異性造成的,并且可能與物種的基因組重復比例相關。鰳魚基因組的重復序列比例為39.6%,處于中低水平,高于絨杜父魚[5](38.61%)和卵形鯧鲹[38](30.19%),與褐菖鲉[7](39.65%)、斑魚祭[34](39.22%)和黃鯽[35](39.69%)相似,但低于條紋斑竹鯊(Chiloscyllium plagiosum)[39](63.53%)。此外,鰳魚測序數據的雜合率為0.18%,GC含量為42.92%,低于絨杜父魚[5](0.26%,43.13%)和南極冰魚[6](0.412%,49.9%),但與褐菖鲉[7](0.17%,41.3%)和斑尾刺蝦虎魚(Acanthogobius ommaturus)[40](0.17%,40.88%)相當。根據基因組大小、重復序列比、雜合度等survey分析指標判斷,鰳魚的基因組應屬于簡單型。這一結果可為后續鰳魚的高質量基因組組裝工作提供參考。
本研究初步組裝結果顯示,Scaffold N50大小為27 694 bp,Contig N50大小為6 306 bp。組裝后的Scaffold大小為556 914 471 bp,數目為536 946條,平均長度為1 038 bp。其長度與絨杜父魚[5](577 386 707 bp)相當,但低于南極冰魚[6](897 784 561 bp)、褐菖鲉[7](609 456 819 bp)、斑魚祭[34](800 444 663 bp)和黃鯽[35](798 382 266 bp)等。考慮到組裝的N50和N90長度較短,可能會導致鰳魚基因組初步組裝質量、連續性和完整性較低,不能滿足其生物進化相關的研究工作,建議通過多種技術相結合的方法(例如Illumina測序與PacBio和Hi-C相結合)來進行基因組序列的構建。盡管如此,本次組裝得到的序列仍然可以用于后續SSR位點、SNP位點開發以及鰳魚群體基因組學等研究。
3.2" 鰳魚全基因組SSR分布特征
重復序列比例(鰳魚為39.6%)通常被認為與基因組所含的SSR數量成正比,本試驗從組裝好的鰳魚Scaffolds中共篩選出786 123個SSR位點,與其他物種[5-8,33-35,38-41]相比處于中等水平。其中,重復最少的是六堿基,僅為SSR總量的0.11%(880個),二堿基則重復最高,為596 970個,約占SSR總量的75.94%。這與其他海洋魚類,如絨杜父魚[5]、南極冰魚[6]、褐菖鲉[7]、金錢魚(Scatophagus argus)[33]、斑魚祭[34]、黃鯽[35]、卵形鯧鲹[38]、條紋斑竹鯊[39]、斑尾刺蝦虎魚[40]和巨魚丕(Bagarius yarrelli)[41]等的研究結果相一致,均體現出二堿基重復數量較多、六堿基最少的特征,可以作為后續相關研究的參考資料。在單堿基重復中以A/T類型為主,與前人[5-7,33-35,38-41]的研究結果相同。相關研究表明,A/T堿基含量與物種基因組中SSR數量呈正相關,即A/T堿基所占比例越高,SSR數量越多。此外,還可能與DNA聚合酶在DNA復制過程中的錯誤率和甲基化的CpG位點相關。二堿基重復中,AC/GT類型占主要優勢,與絨杜父魚[5]、南極冰魚[6]、條紋斑竹鯊[39]一致,但與褐菖鲉[7]、卵形鯧鲹[38](AC/TG為主)和巨魚丕[41]、斑點叉尾魚回(Ictalurus punctatus)[42](AC/AG為主)略有不同。這可能與物種差異或堿基重復頻率有關,但與大多數魚類二堿基類型中都是以AC型為主[43]這一觀點相吻合。特定堿基重復的相對豐度在重復序列中具有較高的變異性,鰳魚全基因組中,二堿基、三堿基、四堿基、五堿基和六堿基的重復頻率分布范圍分別為6~28次、5~15次、5~11次、5~9次和5~7次,表明堿基重復次數隨重復長度的增加而逐漸減少,這可能是由重復長度越長、突變率越高所導致的。Wierdl等[44]和Chen等[45]也報道了重復次數與重復長度呈負相關的研究結果,本研究結果也證實了這一模式。
4" 結論
利用高通量測序技術結合survey分析得出,鰳魚基因組大小約為692.8 Mb,重復序列比例為39.6%,雜合率為0.18%,GC含量為42.92%,錯誤率為0.02%,組裝后的Scaffold大小為556 914 471 bp。識別鰳魚全基因組SSR序列共786 123個,蘊含豐富的遺傳信息,不僅有助于開展鰳魚種質資源評估保護和遺傳分子標記優選等工作,而且可以為其數量性狀基因座(QTL)定位、種群基因分析、遺傳基因多樣化水平鑒別等工作提供參考。
參考文獻
[1]SCHUSTER S C. Next-generation sequencing transforms today’s biology[J].Nature Methods,2008,5(1):16-18.
[2]SONG H,GUO X M,SUN L N,et al. The hard clam genome reveals massive expansion and diversification of inhibitors of apoptosis in Bivalvia[J].BMC Biology,2021,19(1):15.
[3]VIEIRA M L C,SANTINI L,DINIZ A L,et al. Microsatellite markers:what they mean and why they are so useful[J].Genetics and Molecular Biology,2016,39(3):312-328.
[4]OLUBUNMI O O. Application of microsatellite in fish biotechnology:Prospects and drawback-review[J].Bioengineering and Biotechnology,2019,4(3):37-43.
[5]趙蕊蕊,徐勝勇.絨杜父魚全基因組survey分析及微衛星分布特征[J].中國水產科學,2022,29(7):994-1001.
[6]KIM J,LEE S J,JO E,et al.Whole-genome survey and microsatellite marker detection of Antarctic crocodile icefish,Chionobathyscus dewitti[J].Animals,2022,12(19):2598.
[7]XU S Y,SONG N,XIAO S J,et al.Whole genome survey analysis and microsatellite motif identification of Sebastiscus marmoratus[J].Bioscience Reports,2020,40(2):20192252.
[8]LI G Q,SONG L X,JIN C Q,et al.Genome survey and SSR analysis of Apocynum venetum[J].Bioscience Reports,2019,39(6):20190146.
[9]BLABER S J M,STAUNTON-SMITH J,MILTON D A,et al.The biology and life-history strategies of Ilisha (Teleostei:Pristigasteridae) in the coastal waters and estuaries of Sarawak[J].Estuarine,Coastal and Shelf Science,1998,47(4):499-511.
[10]謝漢陽.東海區兩種經濟魚類的資源動態分析[D].寧波:寧波大學,2011.
[11]蔣日進,薛利建,張洪亮,等.東海區鰳魚的攝食習性[J].海洋漁業,2013,35(2):168-175.
[12]王世光,王瑞瑞,陳瑜,等.淺談舟山海鮮之舟山鰳魚[J].食品安全導刊,2019(15):173-174.
[13]HALPERN B S,LONGO C,HARDY D,et al.An index to assess the health and benefits of the global ocean[J].Nature,2012,488(7413):615-620.
[14]陳慧,黃建聯,周文果,等.鰳魚魚糜與常見魚糜凝膠品質對比[J].食品與機械,2022,38(5):19-23.
[15]吳佳佳,王思齊,戴志遠.咸鰳魚中產組胺菌的分離與鑒定[J].食品與發酵工業,2019,45(3):71-76.
[16]劉檾菘,湯海青,歐昌榮.固態發酵過程中鰳魚品質及抗氧化能力的研究[J].安徽農業大學學報,2018,45(2):214-218.
[17]湯海青,歐昌榮,宋玉玲,等.清酒乳桿菌固態發酵鰳魚過程中的品質變化[J].核農學報,2017,31(10):1938-1945.
[18]劉敏,夏松養.腌制條件對鰳魚腌制品品質的影響研究[J].安徽農業科學,2014,42(35):12655-12657.
[19]賀林娟.發酵鰳魚的制作工藝及揮發性風味成分的研究[D].寧波:寧波大學,2013.
[20]盧振彬,周金福,顏尤明,等.閩江口鰳魚生殖群體的生態特性[J].水產科技情報,1998,25(4):158-162.
[21]倪海兒.東海鰳魚雌雄性狀比較及其鑒別[J].浙江水產學院學報,1994,13(2):93-98.
[22]陳必哲,張澄茂.廈門近海鰳魚生殖群體生長與資源狀況[J].福建水產,1993,15(4):35-38.
[23]陳大剛,王啟華,劉長安.山東南部沿海鰳魚產卵群體的生物學特征[J].海洋通報,1988,7(1):49-55.
[24]王倩.基于核基因數據重建鯡形目魚類系統發育關系和太平洋西部鰳魚群體遺傳多樣性分析[D].上海:上海海洋大學,2019.
[25]李鵬飛,賀舟挺,徐開達,等.基于COⅠ基因和D-loop序列的東海鰳魚種質資源遺傳變異研究[J].浙江海洋學院學報(自然科學版),2013,32(2):93-98.
[26]呂振明,許逸天,吳常文,等.中國沿海鰳不同地理群體16S rRNA基因的遺傳變異分析[J].中國水產科學,2010,17(3):463-470.
[27]陳大剛,張美昭.中國海洋魚類[M].青島:中國海洋大學出版社,2015.
[28]LIU B H,SHI Y J,YUAN J Y,et al.Estimation of genomic characteristics by analyzing k-mer frequency in de novo genome projects[J].arXiv preprint:1308.2012,2013.
[29]LUO R B,LIU B H,XIE Y L,et al.SOAPdenovo2:an empirically improved memory-efficient short-read de novo assembler[J].GigaScience,2012,1(1):18.
[30]ROZEN S,SKALETSKY H.Primer3 on the WWW for general users and for biologist programmers[M].Bioinformatics Methods and Protocols.New Jersey:Humana Press,2003.
[31]CHIKHI R,MEDVEDEV P.Informed and automated k-mer size selection for genome assembly[J].Bioinformatics,2014,30(1):31-37.
[32]TTH G,GSPRI Z,JURKA J.Microsatellites in different eukaryotic genomes:survey and analysis[J].Genome Research,2000,10(7):967-981.
[33]王耀嶸,楊尉,任席林,等.金錢魚基因組微衛星分布特征分析及多態性標記開發[J].廣東海洋大學學報,2020,40(4):7-14.
[34]張坤.斑魚祭全基因組組裝及基于微衛星的群體遺傳學研究[D].舟山:浙江海洋大學,2022.
[35]LIU B J,LI J S,PENG Y,et al.Chromosome-level genome assembly and population genomic analysis reveal evolution and local adaptation in common hairfin anchovy(Setipinna tenuifilis)[J].Molecular Ecology,2024,33(10):17067.
[36]BARRIO A M,LAMICHHANEY S,FAN G Y,et al.The genetic basis for ecological adaptation of the Atlantic herring revealed by genome sequencing[J].eLife,2016,5:12081.
[37]MACHADO A M,TRRESEN O K,KABEYA N,et al.“Out of the can”:a draft genome assembly,liver transcriptome,and nutrigenomics of the European sardine,Sardina pilchardus[J].Genes,2018,9(10):485.
[38]張永德,文露婷,羅洪林,等.卵形鯧鲹基因組調研及其SSR分子標記的開發應用[J].南方農業學報,2020,51(5):983-994.
[39]ZHAO R R,CAI S S,LU D F,et al.Genomic comparison and genetic marker identification of the white-spotted bamboo shark Chiloscyllium plagiosum[J].Frontiers in Marine Science,2022,9:936681.
[40]CHEN B J,SUN Z C,LOU F R,et al.Genomic characteristics and profile of microsatellite primers for Acanthogobius ommaturus by genome survey sequencing[J].Bioscience Reports,2020,40(11):20201295.
[41]楊汶珊,唐榮葉,蘇孟園,等.巨魚丕(Bagarius yarrelli)全基因組微衛星分布特征分析[J].南京師范大學學報(工程技術版),2021,21(3):62-68.
[42]唐榮葉,蘇孟園,楊汶珊,等.斑點叉尾魚回全基因組微衛星分布特征分析[J].漁業科學進展,2022,43(2):89-97.
[43]劉士力,劉一諾,李飛,等.3種鲌亞科魚類全基因組微衛星分布特征分析[J].上海海洋大學學報,2023,32(6):1176-1183
[44]WIERDL M,DOMINSKA M,PETES T D.Microsatellite instability in yeast:dependence on the length of the microsatellite[J].Genetics,1997,146(3):769-779.
[45]CHEN M,TAN Z Y,ZENG G M,et al.Comprehensive analysis of simple sequence repeats in pre-miRNAs[J].Molecular Biology and Evolution,2010,27(10):2227-2232.
Whole-genome analysis and microsatellite distribution of Ilisha elongata
GAO Luxiu1, CHEN Shiyi2, FENG Taobo2, LIU Bingjian2, LIU Yifan2, SHEN Haodi2, HUANG Wenhua2, LIANG Xudong2
(1. National Engineering Research Center for Marine Aquaculture,Zhejiang Ocean University,Zhoushan" 316022,China;
2. Marine Science and Technology College,Zhejiang Ocean University,Zhoushan" 316022,China)
Abstract: To study the genetic evolutionary profile of Ilisha elongata, high-throughput sequencing was performed on the I. elongata genome,and survey analysis and genome-wide genetic marker development were conducted.Results showed that the genome size of I. elongata,as determined by K-mer analysis,was approximately 692.8 Mb,with a heterozygosity rate of 0.18% and the repeated sequence rate of 39.6%.The preliminary genome assembly results showed that the Scaffold N50 was 27 694 bp and the Contig N50 was 6 306 bp.The simple sequence repeats(SSRs) of I. elongata genome were searched and analyzed using MISA software,and a total of 786 123 SSR loci were detected, with a relative abundance of 1 204 per Mb.Among all types,dinucleotides were the most abundant repeats,which accounting for 75.94% of the total SSRs and the SSR repeat frequencies mainly concentrated between 6 and 28 times.This was followed by mononucleotide and tetranucleotide repeats,accounting for 15.31% and 4.25% of the total SSRs,respectively.For dinucleotide repeats,type AC had the highest number of repeats at 131 732,while type A had the highest number of mononucleotide repeats at 48 775.The results showed that the genome of I. elongata could be assembled to obtain high-quality whole genome sequences,and the SSR loci could provide strong support for the subsequent genetic molecular marker development,as well as basic information for research work on germplasm resource management and conservation,biological evolution and population genetics of I. elongata.
Key words: Ilisha elongata; whole-genome survey; microsatellite marker; high-throughput sequencing; biogenetics