999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種面向功能基因挖掘的動(dòng)物多組學(xué)數(shù)據(jù)集

2025-04-06 00:00:00劉洪竇婧王越廖勇劉小磊李新云趙書(shū)紅付玉華
關(guān)鍵詞:深度學(xué)習(xí)

摘要:?jiǎn)我坏慕M學(xué)數(shù)據(jù)難以全面揭示基因調(diào)控性狀的復(fù)雜分子機(jī)制,整合不同類(lèi)型和層次的生物組學(xué)數(shù)據(jù)對(duì)于理解生物體內(nèi)復(fù)雜的分子網(wǎng)絡(luò)具有重要的意義。本數(shù)據(jù)集提供了包含21個(gè)動(dòng)物物種的61191個(gè)個(gè)體水平組學(xué)數(shù)據(jù)(WGS、RNA-Seq、ChIP-Seq和ATAC-Seq)和基因組注釋信息,有效數(shù)據(jù)規(guī)模為2.8 TB。此外,本數(shù)據(jù)集還收錄了基于深度學(xué)習(xí)算法得到的基因與表型實(shí)體識(shí)別數(shù)據(jù)。總的來(lái)說(shuō),該多組學(xué)數(shù)據(jù)集可用于農(nóng)業(yè)重要性狀的基因發(fā)掘和功能驗(yàn)證,能夠?yàn)榭缥锓N比較研究提供有價(jià)值的資源,也可更好地服務(wù)于動(dòng)物經(jīng)濟(jì)性狀關(guān)鍵基因識(shí)別模型構(gòu)建以及算法研究。

關(guān)鍵詞:多組學(xué)數(shù)據(jù);跨物種;功能基因挖掘;個(gè)體水平;深度學(xué)習(xí)

數(shù)據(jù)摘要:

1 "引言

近年來(lái),圍繞中心法則的多組學(xué)整合分析策略被用于代替單一組學(xué)策略[1],通過(guò)各種組學(xué)數(shù)據(jù)從多個(gè)角度來(lái)全面地探索遺傳物質(zhì)的整體變化規(guī)律,從而實(shí)現(xiàn)不同組學(xué)層面的相互印證、補(bǔ)充和解釋[2]。然而,多組學(xué)數(shù)據(jù)的挖掘仍存在著一些關(guān)鍵性的問(wèn)題。與小鼠等模式動(dòng)物相比,家畜動(dòng)物(如豬)、伴侶動(dòng)物(如貓)、野生動(dòng)物(如虎)的多組學(xué)整合研究進(jìn)展遠(yuǎn)遠(yuǎn)落后[3]。此外,各種類(lèi)型的復(fù)雜數(shù)據(jù)源和不同的數(shù)據(jù)描述明顯增加了數(shù)據(jù)收集和清洗的難度。最后,海量的組學(xué)數(shù)據(jù)需要高效的數(shù)據(jù)分析和存儲(chǔ)方法[4]。因此,目前仍缺乏著覆蓋大規(guī)模物種、個(gè)體級(jí)別、高質(zhì)量的多組學(xué)數(shù)據(jù)集,建立這樣的數(shù)據(jù)集既是一項(xiàng)巨大的挑戰(zhàn),也是一種迫切的需求。

基于以上背景,本文建立了一種面向功能基因挖掘跨物種多組學(xué)數(shù)據(jù)集。該數(shù)據(jù)集涵蓋了21種動(dòng)物的個(gè)體級(jí)別組學(xué)數(shù)據(jù),包括基因組(WGS,全基因組測(cè)序)、轉(zhuǎn)錄組(RNA-Seq,RNA測(cè)序)和表觀組(ChIP-Seq,染色質(zhì)免疫沉淀結(jié)合高通量測(cè)序,以及ATAC-Seq,高通量測(cè)序的轉(zhuǎn)座酶可及染色質(zhì)分析)。此外,該數(shù)據(jù)集還收錄了大量文獻(xiàn)摘要信息,利用深度學(xué)習(xí)模型建立起基因與性狀的聯(lián)系。每種組學(xué)數(shù)據(jù)采用了統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行清洗、分析和結(jié)構(gòu)化,為解析重要性狀的復(fù)雜生物學(xué)機(jī)制提供了數(shù)據(jù)支撐。

2 "數(shù)據(jù)采集與處理

2.1""數(shù)據(jù)來(lái)源

通過(guò)收集21個(gè)動(dòng)物物種(小鼠、豬、牛、雞、恒河猴等)的基因組、高通量組學(xué)數(shù)據(jù)和文獻(xiàn)信息,構(gòu)建跨物種、個(gè)體級(jí)別的多組學(xué)數(shù)據(jù)集。由于小鼠的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超過(guò)其他物種,本研究通過(guò)排除高度相似的樣本,選取了一定數(shù)量的代表性樣本。相反,其他物種的數(shù)據(jù)盡可能全面地進(jìn)行了收集。所有物種的基因組序列和注釋來(lái)自Ensembl數(shù)據(jù)庫(kù)[5],高通量測(cè)序數(shù)據(jù)從SRA[6]和EBI[7]數(shù)據(jù)庫(kù)下載,文獻(xiàn)摘要通過(guò)Entrez接口從NCBI[8]數(shù)據(jù)庫(kù)獲取(表1)。

2.2 "數(shù)據(jù)處理方法

2.2.1 "基因功能注釋

從Ensembl[5]數(shù)據(jù)庫(kù)下載的基因組和注釋文件中解析所有物種基因的位點(diǎn)、序列、結(jié)構(gòu),同時(shí)為了更好地理解動(dòng)物的基因功能,本研究采用統(tǒng)一的生信流程對(duì)21個(gè)物種的570628個(gè)蛋白編碼基因進(jìn)行了功能注釋?zhuān)⊿wiss-Prot[9]、KEGG[10]、GO[11]、Pfam[12]、InterPro[13]和KOG[14]數(shù)據(jù)庫(kù)等六個(gè)主流蛋白功能注釋庫(kù)。

2.2.2 "基因組數(shù)據(jù)的分析

基因組數(shù)據(jù)的分析主要包括格式轉(zhuǎn)換(SRA Toolkit[6])、質(zhì)控(fastp[15])、比對(duì)(bwa[16])、變異檢測(cè)(Sentieon[17])以及變異注釋?zhuān)ˋnnovar[18])等過(guò)程,最終獲取所有樣本的SNP/Indel信息及其注釋信息,基因型文件轉(zhuǎn)為plink格式儲(chǔ)存。

2.2.3 "轉(zhuǎn)錄組數(shù)據(jù)的分析

轉(zhuǎn)錄組數(shù)據(jù)通過(guò)格式轉(zhuǎn)換(SRA Toolkit[6]")、質(zhì)控(fastp[15])、比對(duì)(HISAT2[19])、定量(StringTie[20])等分析步驟,最終獲得結(jié)構(gòu)化的基因表達(dá)矩陣。

2.2.4 "表觀組數(shù)據(jù)的分析

表觀組數(shù)據(jù)通過(guò)質(zhì)控(fastp[15])、格式轉(zhuǎn)換(Chromap[21])、峰值檢測(cè)(MACS3[22])等分析步驟,最終得到bedGraph文件。再通過(guò)bedGraphToBigWig[23]轉(zhuǎn)換為BigWig格式,在JBrowser中進(jìn)行下游分析和可視化。同時(shí)本研究將基因組劃分為200"bp大小區(qū)域,統(tǒng)計(jì)每個(gè)區(qū)域的表觀信號(hào),獲得個(gè)體水平的表觀信號(hào)矩陣。

2.2.5 "文獻(xiàn)組信息的分析

建立BioBERT[24]和AutoNER[25]模型對(duì)文獻(xiàn)數(shù)據(jù)進(jìn)行處理。對(duì)于BioBERT模型,本研究選擇在Label Studio平臺(tái)中對(duì)1760篇摘要進(jìn)行了基因和表型實(shí)體的人工標(biāo)注,并使用遷移學(xué)習(xí)構(gòu)建了經(jīng)過(guò)微調(diào)的BioBERT模型。對(duì)于AutoNER模型,本研究構(gòu)建了包含所有物種的基因ID、名稱(chēng)和描述的基因字典,以及包含哺乳動(dòng)物表型本體論和脊椎動(dòng)物特征本體論術(shù)語(yǔ)的表型字典。基于這兩個(gè)模型,在所有文獻(xiàn)摘要中識(shí)別了基因和表型實(shí)體,獲取它們的并集。

3 "數(shù)據(jù)內(nèi)容

3.1""基因功能注釋數(shù)據(jù)集

本數(shù)據(jù)集提供了包括小鼠、豬、牛、雞、獼猴等

21個(gè)物種的基因功能注釋信息,涵蓋多個(gè)蛋白注釋庫(kù)。總的來(lái)說(shuō),21個(gè)物種總基因數(shù)570628個(gè),注釋出的基因數(shù)目為403216,注釋比例為70.66%,具有Swiss-Prot、KEGG、GO、Pfam、InterPro、KOG注釋信息的基因比例分別為70.71%、55.10%、51.35%、66.15%、68.37%、63.68%。這些注釋信息不僅有助于研究人員理解這些動(dòng)物的基因功能和代謝途徑,還為進(jìn)一步的研究和比較提供了重要的基礎(chǔ)(表2)。

3.2""基因組變異數(shù)據(jù)集

本研究下載了幾乎所有的豬、牛、羊、雞以及小鼠等21個(gè)物種的重測(cè)序數(shù)據(jù),總共包含個(gè)體10835個(gè),數(shù)據(jù)平均深度17.3,共鑒定出了877.60 M的基因組變異信息(SNP和Indel)(表3)。利用這些個(gè)體水平的基因型矩陣可以展開(kāi)豐富的群體結(jié)構(gòu)分析以及功能基因位點(diǎn)挖掘研究,能為功能位點(diǎn)研究提供準(zhǔn)確的參考信息。

3.3 "基因表達(dá)數(shù)據(jù)集

本研究下載了幾乎所有的豬、牛、羊、雞以及小鼠等21個(gè)物種的轉(zhuǎn)錄組數(shù)據(jù)。利用這些樣本,本研究對(duì)21個(gè)物種的551159個(gè)基因的表達(dá)進(jìn)行了定量,得到了包含44638個(gè)體的基因表達(dá)矩陣數(shù)據(jù)。相關(guān)結(jié)果可用于下游的模型構(gòu)建以及其他研究。

為了方便樣本信息的檢索和應(yīng)用,本數(shù)據(jù)集根據(jù)組織分類(lèi)以及組織物理距離將所有樣本分為9個(gè)大類(lèi)和256個(gè)小類(lèi)。目前數(shù)據(jù)集包含豬、牛、猴等物種的轉(zhuǎn)錄組數(shù)據(jù)較多,組織分布也較為豐富,但狗、貓、老虎等伴侶/野生動(dòng)物的轉(zhuǎn)錄組數(shù)據(jù)相對(duì)較少(表4)。基于跨物種和跨組織的轉(zhuǎn)錄組分析,能為這些物種的功能基因研究提供新的視角,這將有助于科研工作者更深入地理解這些動(dòng)物的基因表達(dá)特征和生物學(xué)功能。

3.4 "表觀組數(shù)據(jù)集

本研究也對(duì)上述21個(gè)物種的表觀組數(shù)據(jù)進(jìn)行了清洗,最終保留了4512個(gè)ChIP-Seq樣本和1206個(gè)ATAC-Seq樣本。同時(shí),也將各種表觀組學(xué)數(shù)據(jù)根據(jù)樣本的抗體蛋白信息進(jìn)行了分類(lèi),共涉及124種組蛋白或轉(zhuǎn)錄因子。此外,為了比較不同樣本指定區(qū)域的富集信號(hào),本數(shù)據(jù)集將基因組分成長(zhǎng)度為200 bp的區(qū)域,對(duì)每個(gè)區(qū)域的富集信號(hào)進(jìn)行計(jì)數(shù),最終得到了個(gè)體水平的全基因組范圍內(nèi)的表觀信號(hào)矩陣(如圖1)。

3.5 "文獻(xiàn)組數(shù)據(jù)集

為了高通量地從文獻(xiàn)數(shù)據(jù)中挖掘出基因和性狀的關(guān)系,本研究對(duì)1760篇文獻(xiàn)摘要進(jìn)行了人工標(biāo)注,從中標(biāo)注出基因?qū)嶓w25785個(gè),性狀實(shí)體18328個(gè)。利用上述訓(xùn)練集,本研究結(jié)合BioBERT和AutoNER算法,對(duì)2794237篇文獻(xiàn)摘要進(jìn)行了預(yù)標(biāo)注,共識(shí)別出基因?qū)嶓w6062個(gè),性狀實(shí)體4431個(gè),準(zhǔn)確率、精確率、召回率和F1指數(shù)分別為94.54%、65.57%、78.25%和71.35%。該文獻(xiàn)組數(shù)據(jù)集提供了所有的文獻(xiàn)摘要以及包含基因、性狀實(shí)體的坐標(biāo)信息數(shù)據(jù),將有助于更深入地挖掘文獻(xiàn)中基因和性狀之間的關(guān)系(如圖2),為生物醫(yī)學(xué)研究和疾病機(jī)制的解析提供重要支持。

4 "質(zhì)量控制與技術(shù)驗(yàn)證

如何高效地收集、清洗、分析和存儲(chǔ)分布廣泛、數(shù)據(jù)格式各異、質(zhì)量參差不齊的大規(guī)模組學(xué)數(shù)據(jù),始終是一個(gè)巨大的挑戰(zhàn)。考慮到組學(xué)數(shù)據(jù)的多種特點(diǎn),本研究設(shè)計(jì)了統(tǒng)一的標(biāo)準(zhǔn)和平臺(tái)。首先,利用Docker、Nextflow[26]和"PostgreSQL等技術(shù),本研究開(kāi)發(fā)了自動(dòng)下載、分析和存儲(chǔ)組學(xué)數(shù)據(jù)的系統(tǒng),以統(tǒng)一的標(biāo)準(zhǔn)完成數(shù)據(jù)集的制備。

其次,針對(duì)需要人工清洗的高通量數(shù)據(jù)以及文獻(xiàn)數(shù)據(jù),本研究基于“眾包”思想開(kāi)發(fā)了NGS清洗程序并搭建Label Studio平臺(tái)。該工具和平臺(tái)可以充分利用不同志愿者提交的標(biāo)簽信息,通過(guò)志愿者之間的相互驗(yàn)證,糾正潛在的錯(cuò)誤,提高數(shù)據(jù)質(zhì)量

和準(zhǔn)確性。

對(duì)于高通量測(cè)序數(shù)據(jù),本研究采用了主流的生信流程,并通過(guò)聚類(lèi)、PCA等分析觀察其結(jié)果是否與預(yù)期相符,保證分析結(jié)果準(zhǔn)確可靠。對(duì)于實(shí)體識(shí)別模型,本研究對(duì)模型性能進(jìn)行了評(píng)估,發(fā)現(xiàn)準(zhǔn)確率、精確率、召回率和F1指數(shù)分別為89.95%、78.39%、32.19%和45.64%,在犧牲召回率的基礎(chǔ)上盡可能保證結(jié)果的準(zhǔn)確性。

5""數(shù)據(jù)價(jià)值與使用建議

目前,本數(shù)據(jù)集提供了包含21個(gè)動(dòng)物物種的61191個(gè)個(gè)體水平組學(xué)數(shù)據(jù)(如WGS、RNA-Seq、ChIP-Seq和ATAC-Seq)和基因組注釋信息,有效數(shù)據(jù)規(guī)模為2.8 TB。同時(shí),基于BioBERT和AutoNER算法開(kāi)發(fā)的深度學(xué)習(xí)模型,本研究通過(guò)2 794 237條摘要挖掘“基因”和“性狀”之間的關(guān)系,建立了基因與性狀相互關(guān)聯(lián)的文獻(xiàn)組數(shù)據(jù)集。總的來(lái)說(shuō),基于工程方法和眾包思想,本數(shù)據(jù)集使用統(tǒng)一的標(biāo)準(zhǔn)來(lái)清洗、分析和構(gòu)建這些組學(xué)數(shù)據(jù),為多組學(xué)研究提供了堅(jiān)實(shí)的基礎(chǔ)和豐富的資源。此外,考慮到數(shù)據(jù)規(guī)模較大,本研究還依托IAnimal知識(shí)庫(kù)[27]提供了數(shù)據(jù)集在線查詢(xún)和可視化功能,在方便用戶(hù)快速使用該數(shù)據(jù)集的同時(shí)引導(dǎo)用戶(hù)更深入地完成多組學(xué)數(shù)據(jù)的挖掘。

利用本數(shù)據(jù)集可以開(kāi)展以下研究:

(1)基因發(fā)掘和功能驗(yàn)證:基因往往以功能通路或途徑的形式相互作用,形成一個(gè)復(fù)雜的調(diào)控網(wǎng)絡(luò)。利用多組學(xué)數(shù)據(jù)集,研究人員可以以一個(gè)更全面、多維度的視角來(lái)理解生物系統(tǒng)的功能和調(diào)控機(jī)制,有助于鑒定出影響重要經(jīng)濟(jì)性狀的相關(guān)基因,加速育種進(jìn)程。同時(shí)通過(guò)深度學(xué)習(xí)模型挖掘的文獻(xiàn)組數(shù)據(jù)集,可以進(jìn)一步驗(yàn)證這些基因與性狀的關(guān)聯(lián)性。多組學(xué)數(shù)據(jù)集的應(yīng)用具有巨大的潛力,可以為改良作物和家畜的品質(zhì)、產(chǎn)量和抗病性提供重要的支持和指導(dǎo)。在本研究中,我們可以利用轉(zhuǎn)錄組數(shù)據(jù)集構(gòu)建基因調(diào)控網(wǎng)絡(luò),旨在揭示關(guān)鍵的調(diào)控路徑和網(wǎng)絡(luò)結(jié)構(gòu)。例如,搜索與IGF2相關(guān)的基因調(diào)控網(wǎng)絡(luò),可以發(fā)掘出與IGF2相關(guān)的其他基因列表(如圖3),這些基因可能在多種生物學(xué)過(guò)程中與IGF2有關(guān)聯(lián),可用于接下來(lái)的實(shí)驗(yàn)驗(yàn)證。

(2)跨物種比較研究:本研究的數(shù)據(jù)集涵蓋了多個(gè)動(dòng)物物種的組學(xué)數(shù)據(jù),包括了豬、牛、羊、雞、小鼠等21個(gè)物種的基因組、轉(zhuǎn)錄組、表觀組等數(shù)據(jù)。這為進(jìn)行跨物種比較研究提供了豐富的數(shù)據(jù)資源和機(jī)會(huì)。通過(guò)分析不同物種中共同調(diào)控的基因,可以發(fā)現(xiàn)在進(jìn)化過(guò)程中高度保守的基因調(diào)控網(wǎng)絡(luò);比較不同物種的基因表達(dá)和染色質(zhì)狀態(tài),也可以發(fā)現(xiàn)特定物種獨(dú)有的基因或染色質(zhì)修飾模式。例如,構(gòu)建基于基因表達(dá)量的基因相關(guān)系數(shù)(GCC)矩陣,可以比較兩種物種間基因集的GCC,這種比較旨在揭示兩個(gè)物種之間基因表達(dá)調(diào)控的相似性和差異性(如圖4)。

同時(shí),利用表觀組數(shù)據(jù),可以比較不同物種染色質(zhì)的修飾狀態(tài),識(shí)別在多個(gè)物種中保守/差異的表觀修飾區(qū)域,揭示基因調(diào)控機(jī)制的保守性(如圖5)。

(3)機(jī)器學(xué)習(xí)模型訓(xùn)練:研究人員可以利用提供的大規(guī)模多組學(xué)數(shù)據(jù)集,通過(guò)機(jī)器學(xué)習(xí)模型訓(xùn)練,揭示基因與性狀之間的潛在關(guān)聯(lián),從而推動(dòng)精準(zhǔn)育種和多組學(xué)研究的發(fā)展。這種方法不僅可以幫助加速育種進(jìn)程,還有助于深入理解基因在生物體內(nèi)的功能和調(diào)控機(jī)制。例如,F(xiàn)u等人基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)模型整合了來(lái)自不同研究的多組學(xué)數(shù)據(jù)[1],旨在優(yōu)先篩選與目標(biāo)性狀相關(guān)的候選基因,從而解析遺傳變異與重要經(jīng)濟(jì)性狀之間的關(guān)系(圖6)。

6 "數(shù)據(jù)可用性

開(kāi)放訪問(wèn),遵從CC BY 4.0協(xié)議。

https://cstr.cn/17058.11.sciencedb.agriculture.00024;

https://doi.org/10.57760/sciencedb.agriculture.00024。

7 "代碼可用性

流程分析參考IAnimal[27],源代碼可以從這個(gè)Github存儲(chǔ)庫(kù)中獲得:https://github.com/1044857812/"Analysis_pipeline.git。

數(shù)據(jù)作者分工職責(zé)

劉洪,數(shù)據(jù)匯總整理及論文撰寫(xiě)。

竇婧文,王越,數(shù)據(jù)采集、數(shù)據(jù)處理。

廖勇,數(shù)據(jù)匯總整理。

劉小磊,李新云,趙書(shū)紅,總體方案設(shè)計(jì)與組織實(shí)施。

付玉華,數(shù)據(jù)采集、分析及質(zhì)控與組織實(shí)施。

倫理聲明

本文數(shù)據(jù)不涉及倫理聲明相關(guān)的內(nèi)容。

利益沖突聲明

作者聲明,全部作者均無(wú)會(huì)影響研究公正性的財(cái)務(wù)利益沖突或個(gè)人利益沖突。

參考文獻(xiàn)

[1] FU Y, XU J, TANG Z, et al. A gene prioritization method based on a swine multi-omics knowledgebase and a deep learning model. Communications Biology, 2020, 3(1): 502.

[2] 劉松譽(yù),王向峰. 多組學(xué)數(shù)據(jù)關(guān)聯(lián)分析挖掘玉米抗逆基因(英文). 第二十屆中國(guó)作物學(xué)會(huì)學(xué)術(shù)年會(huì).中國(guó)湖南長(zhǎng)沙: 2023.

[3] 劉華濤,馬福平,趙卿堯,等. 聯(lián)合多組學(xué)數(shù)據(jù)鑒定豬脂肪沉積的候選基因. 中國(guó)畜牧雜志, 2023, 59(8): 123-130.

[4] 趙黃青,馬鈞,李欣淼,等. 多組學(xué)分析技術(shù)在肉牛生長(zhǎng)發(fā)育研究中的應(yīng)用. 中國(guó)畜禽種業(yè), 2023, 19(7): 43-49.

[5] CUNNINGHAM F, ALLEN J E, ALLEN J, et al. Ensembl 2022. Nucleic Acids Research, 2022, 50(D1):D988-D995. doi: 10.1093/nar/ gkab1049D988-d95.

[6] KATZ K, SHUTOV O, LAPOINT R, et al. The Sequence Read Archive: a decade more of explosive growth. Nucleic Acids Research, 2022, 50(D1): D387-D390. doi: 10.1093/nar/gkab1053.

[7] CANTELLI G, BATEMAN A, BROOKSBANK C, et al. The European Bioinformatics Institute (EMBL-EBI) in 2021. Nucleic Acids Research, 2022,50(D1):D11-D19. doi:10.1093/nar/ gkab1127.

[8] SAYERS E W, BECK J, BOLTON E E, et al. Database resources of the National Center for Biotechnology Information. Nucleic Acids Research, 2021, 49(D1): D10-d7.

[9] BOUTET E, LIEBERHERR D, TOGNOLLI M, et al. UniProtKB/ Swiss-Prot, the Manually Annotated Section of the UniProt KnowledgeBase: How to Use the Entry View. Methods in Molecular Biology, 2016,1374:23-54. doi: 10.1007/978-1-4939-3167 -5_2.

[10] KANEHISA M, GOTO S. KEGG: Kyoto encyclopedia of genes and genomes. Nucleic Acids Research, 2000, 28(1): 27-30.

[11] Gene Ontology Consortium. The Gene Ontology resource: enriching a GOld mine. Nucleic Acids Research. 2021,49(D1):D325-D334. doi: 10.1093/nar/gkaa1113.

[12] MISTRY J, CHUGURANSKY S, WILLIAMS L, et al. Pfam: The protein families database in 2021. Nucleic Acids Research, 2021,49(D1):D412-D419. doi: 10.1093/nar/gkaa913.

[13] BLUM M, CHANG H Y, CHUGURANSKY S, et al. The InterPro protein families and domains database: 20 years on. Nucleic Acids Research, 2021, 49(D1): D344-d54.

[14] TATUSOV R L, FEDOROVA N D, JACKSON J D, et al. The COG database: an updated version includes eukaryotes. BMC Bioinformatics, 2003, 4: 41. doi: 10.1186/1471-2105-4-41.

[15] CHEN S, ZHOU Y, CHEN Y, et al. Bioinformatics, 2018, 34(17): i884-i890. doi:10.1093/bioinformatics/bty560.

[16] LI H, DURBIN R. Fast and accurate short read alignment """with Burrows-Wheeler transform. Bioinformatics, 2009, 25(14): 1754-1760.

[17] ALDANA R, FREED D. Data Processing and Germline Variant Calling with the Sentieon Pipeline. Methods in Molecular Biology, 2022, 2493: 1-19.

[18] WANG K, LI M, HAKONARSON H. ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acids Research, 2010, 38(16): e164.

[19] KIM D, PAGGI J M, PARK C, et al. Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype. Nature Biotechnology, 2019,37(8):907-915. doi: 10.1038/s41587-019-0201-4.

[20] PERTEA M, PERTEA G M, ANTONESCU C M, et al. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads. Nature Biotechnology, 2015, 33(3): 290-295.

[21] ZHANG H, SONG L, WANG X, et al. Fast alignment and preprocessing of chromatin profiles with Chromap. Nature Communications, 2021, 12(1): 6566.

[22] LIU T. Use model-based analysis of ChIP-Seq (MACS) to analyze short reads generated by sequencing protein-DNA interactions in embryonic stem cells. Methods in Molecular Biology, 2014, 1150: 81-95.

[23] NASSAR L R, BARBER G P, BENET-PAGèS A, et al. The UCSC Genome Browser database: 2023 update. Nucleic Acids Research, 2023, 51(D1): D1188-D1195.

[24] LEE J, YOON W, KIM S, et al. BioBERT: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics, 2020, 36(4): 1234-1240.

[25] SHANG J, LIU L, REN X, et al. Learning named entity tagger using domain-specific dictionary. arXiv:180903599, 2018.

[26] Di TOMMASO P, CHATZOU M, FLODEN E W, et al. Nextflow enables reproducible computational workflows. Nature Biotechnology, 2017, 35(4): 316-319.

[27] FU Y, LIU H, DOU J, et al. IAnimal: a cross-species omics knowledgebase for animals. Nucleic Acids Res, 2023, 51(D1): D1312-D1324.

引用格式:劉洪,竇婧文,王越,廖勇,劉小磊,李新云,趙書(shū)紅,付玉華.一種面向功能基因挖掘的動(dòng)物多組學(xué)數(shù)據(jù)集[J].農(nóng)業(yè)大數(shù)據(jù)學(xué)報(bào),2025,7(1):96-106."DOI: 10.19788/j.issn.2096-6369.100039.

CITATION:"LIU Hong, DOU JingWen, WANG Yue, LIAO Yong, LIU XiaoLei, LI XinYun, ZHAO ShuHong, FU YuHua. A Multi-Omics Dataset for Functional Gene Mining in Animals[J]. Journal of Agricultural Big Data, 2025,7(1):96-106. DOI: 10.19788/j.issn.2096-6369.100039.

A Multi-Omics Dataset for Functional Gene Mining in Animals

LIU Hong DOU JingWen WANG Yue LIAO Yong LIU XiaoLei LI XinYun ZHAO ShuHong FU YuHua

1. Key Laboratory of Agricultural Animal Genetics, Breeding and Reproduction, Ministry of Education, College of Animal Science amp; Technology, Huazhong Agricultural University, Wuhan 430070, China; 2. Hubei Hongshan Laboratory, Wuhan 430070, China

Abstract:"Single-omics data alone is insufficient to comprehensively reveal the complex molecular mechanisms of gene regulation traits. Integrating different types and levels of biological omics data is of great significance for understanding the complex molecular networks within organisms. This dataset provides individual-level omics data (WGS, RNA-Seq, ChIP-Seq, and ATAC-Seq) and genome annotation information for 61,191 individuals from 21 animal species, with an effective data size of 2.8 TB. Additionally, this dataset includes gene and phenotype entity recognition data obtained through deep learning algorithms. Overall, this multi-omics dataset can be used for gene discovery and functional validation of agriculturally important traits, offering valuable resources for cross-species comparative studies. It also supports the construction of models for identifying key genes associated with economic traits in animals and facilitates algorithm research.

Keywords: multi-omics data; cross-species; functional gene mining; individual level; deep learning

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠(yuǎn)程開(kāi)放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
基于自動(dòng)智能分類(lèi)器的圖書(shū)館亂架圖書(shū)檢測(cè)
搭建深度學(xué)習(xí)的三級(jí)階梯
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
主站蜘蛛池模板: 黄色网在线免费观看| 最新亚洲人成无码网站欣赏网| 国产91在线|中文| 毛片免费视频| 日韩高清无码免费| 亚洲人成网址| 亚洲天堂2014| 三级国产在线观看| 国产成人精品一区二区不卡| 久久久久国产一区二区| 亚洲国产一成久久精品国产成人综合| 精品一区国产精品| 日本国产一区在线观看| 国产在线97| 国产老女人精品免费视频| 国产在线欧美| 九九九九热精品视频| 亚洲一级色| 国产二级毛片| 欧美另类精品一区二区三区| 女人一级毛片| 国产欧美日韩另类精彩视频| 亚洲无限乱码一二三四区| 天天综合网色中文字幕| 老司机精品久久| 国产成人精品18| 欧美成人免费一区在线播放| 国产亚洲精| 国产精品久线在线观看| 国产麻豆永久视频| 国产剧情一区二区| 亚洲人成人伊人成综合网无码| 免费毛片视频| 久久永久精品免费视频| 国产精品成人免费综合| 日韩中文字幕亚洲无线码| 91亚洲影院| 国产精品自在自线免费观看| 国产av无码日韩av无码网站| 亚洲精品国产精品乱码不卞| 人妻91无码色偷偷色噜噜噜| 日韩成人高清无码| 成人在线不卡视频| 日韩国产另类| 内射人妻无码色AV天堂| 乱人伦99久久| 国产国模一区二区三区四区| 国产永久在线视频| 欧美a在线看| 视频二区中文无码| 欧美在线一二区| 亚洲精品在线观看91| 精品国产一二三区| 欧美国产日产一区二区| 国产无码高清视频不卡| 亚洲第一成网站| 露脸真实国语乱在线观看| 熟妇丰满人妻av无码区| 91精品久久久久久无码人妻| 欧美福利在线观看| 九九热精品在线视频| 中文字幕av一区二区三区欲色| 国产福利在线观看精品| 黄色片中文字幕| 亚洲最新地址| 3D动漫精品啪啪一区二区下载| 免费看的一级毛片| 亚洲精品动漫在线观看| 免费亚洲成人| 美女视频黄又黄又免费高清| 人妻免费无码不卡视频| 亚洲午夜福利精品无码| 亚洲水蜜桃久久综合网站| 不卡午夜视频| 亚洲欧美另类色图| 亚洲乱码精品久久久久..| 青青草国产在线视频| 2021国产v亚洲v天堂无码| 91精品国产麻豆国产自产在线| 97久久精品人人做人人爽| 自拍偷拍欧美| 国产亚洲成AⅤ人片在线观看|