999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

作物性狀調控基因知識圖譜數據集

2025-07-19 00:00:00張丹丹趙瑞雪寇遠濤鮮國建
農業大數據學報 2025年2期
關鍵詞:物種數據庫科學

1 引言

種業作為保障國家糧食安全和重要農產品有效供給的基石,培育多種優異性狀聚合的作物新品種一直是育種學家所努力的方向。然而,調控不同性狀的基因之間常常存在此消彼長的權衡效應,使得這些優異性狀難以兼得。因此,挖掘同時調控抗旱、抗病等多個優異性狀的多效基因將有效助力于作物育種科學研究。隨著信息技術在作物育種領域中的加快應用,新技術帶來的數據激增以及作物育種對知識發現服務的新需求,驅動著作物性狀調控基因知識的發現由假設驅動的被動探索轉向數據驅動的主動知識發現。越來越多的作物育種研究工作是基于現有育種科學數據的重新分析、組織、關聯、解析與利用,通過關聯融合多維度的科學數據以提高知識獲取效率以及觸發學科知識的發現。

在作物性狀調控基因知識發現研究中,擬南芥植物因其生命力強且生育周期短等優勢特征,被作為植物研究中的典型模式植物。其大多數基因與其他復雜的作物基因具有很高的同源性,因此常被用來為其他的作物功能基因研究提供高質量的基因功能注釋,以指導作物的育種科學研究。隨著作物育種科學研究的不斷深入,多維度作物育種科學數據爆炸式增長,也涌現出了一系列支撐作物育種科學研究的領域科學數據庫。包括水稻基因組變異及功能注釋數據庫RiceVarMap(RiceVariationMap)[1]、玉米基因組和遺傳分析數據庫MaizeGDB(MaizeGeneticsandGenomicsDatabase)[2]、小麥基因組數據庫 IWGSC (International Wheat Genome SequencingConsortium)[3]、基因組注釋數據庫Phytozome[4]、蛋白質序列和功能分析數據庫UniProt(UniversalProtein)[5]以及通路注釋數據庫KEGG(KyotoEncyclopediaofGenesand Genomes)[等。這些領域科學數據庫為解析作物性狀分子調控機制提供了良好的數據基石,但其多是從單一維度對作物性狀進行分子調控機制的注釋解析,缺少跨物種多維度科學數據的關聯融合,為作物性狀調控基因知識發現帶來了挑戰。因此,構建跨物種多維度作物育種科學數據關聯融合的數據集,可實現已有學科知識的遷移復用與科學數據價值的最大化發揮,被證明是實現學科知識發現的重要基礎[7-8]。

本研究面向作物育種知識發現的現實需求,采用多路徑知識抽取的方式對多源異構的科學數據進行關聯融合。最終,形成了涵蓋水稻、玉米、小麥與擬南芥跨物種關聯融合的性狀調控基因知識圖譜數據集。該數據集為作物育種知識發現提供了重要的知識資源底座。可為作物育種知識發現提供新的研究思路,是支撐作物性狀調控基因知識發現的重要基石。

2 數據采集與處理方法

2.1 數據采集

數據獲取來源的選擇對于數據集的整體質量與后續分析應用效果是至關重要的。本研究面向作物性狀調控基因知識發現的需求,基于基因和性狀間知識層級結構所涵蓋的科學數據維度廣泛且關聯關系復雜等特征,不僅有基因符號、細胞組分等基因水平的科學數據,還有亞細胞定位、結構域等蛋白水平的科學數據以及信號通路、代謝通路等富集通路水平的科學數據[。首先,對作物育種領域科學數據庫中所涵蓋的科學數據類型和內容權威性等方面進行調研對比分析,并結合領域專家咨詢的方式選取了以下合適的數據源。選取了PubMed文獻數據庫與其他八個領域科學數據庫作為數據來源,包括Phytozome(4個物種的基因組信息)、Ensembl(European MolecularBiologyLaboratory'sEuropeanBioinformatics Institute)plants(4個物種的基因組信息)、UniProt(UniversalProtein)(4個物種的蛋白注釋信息)、水稻數據庫RGAP(RiceGenomeAnnotationProject)、STRING(4個物種的蛋白互作信息)、Pfam(protein familyanalysis andmodeling)(4個物種的蛋白質家族信息)、KEGG(Kyoto Encyclopedia ofGenesand Genomes)(4個物種的通路注釋信息)和GO(GeneOntology)(4個物種的通路注釋信息)。采集水稻、玉米、小麥與擬南芥的多維度科學數據作為基礎數據。

2.2 多路徑知識抽取

基于所采集到的結構化、半結構化與非結構化的基礎數據,本研究采用多路徑知識抽取的方式進行相關科學數據的抽取。面向結構化數據的知識抽取,本研究主要是利用pandas工具對結構化數據進行了格式轉換和數據清洗,并進一步采用映射的方式以獲取到滿足存儲格式的規則數據。面向半結構化數據的知識抽取,本研究主要利用了生物學領域中序列相似度計算工具BLAST對FASTA格式的蛋白序列數據進行蛋白同源關系的知識獲取;此外,采用ETL流程化工具

Kettle對XML格式的半結構化數據進行數據解析,并基于規則進行相關學科知識的抽取。面向非結構數據的知識抽取,本研究主要利用了大語言模型對獲取到的文本摘要數據進行知識抽取,為了確保知識抽取的準確性,后期采用人工校驗的方式獲取得到三元組。最終,整理形成CSV文件]。

2.3數據存儲

基于領域知識圖譜的應用服務需求,其數據的存儲管理也尤為重要,是查詢、檢索、推理等各類學科知識發現應用的關鍵支撐環節。Neo4j作為一種高性能的圖數據庫,具有靈活的數據模型、強大的查詢能力以及支持可視化界面等特點,為知識圖譜的存儲與管理提供了有效的解決方案。本研究選取了基于屬性圖數據模型的Neo4j圖數據庫作為作物性狀調控基因知識圖譜數據集存儲管理和應用支撐的工具,采用實體節點、實體數據屬性和實體間對象屬性的數據結構對關聯融合后的數據集進行可視化的展示。

3 數據內容

表1實體數據集內容釋義樣例

本數據集共收集和整理水稻、玉米、小麥、擬南芥跨物種關聯融合的實體數據集13個與語義關系數據集14個。實體數據集涵蓋基因水平、蛋白水平、富集通路水平與性狀水平四種科學數據類型維度共計13種實體類型,內容包含實體的名稱以及實體的數據屬性等,選取以下幾種核心實體進行舉例說明(表1)。并從基因水平、蛋白水平、富集通路水平與性狀水平分別選取基因、蛋白、生物學過程、性狀實體為例進行實體數據集內容展示(表2一表5)。語義關系數據

Table1 An example of an entity dataset content definition"

表3蛋白實體數據集內容

表2基因實體數據集內容Table3 Protein entity datasetcontent
表4生物學過程實體數據集內容Table 4Biological process entity dataset content

集作為支撐后續學科知識發現的關鍵,也是構建領域知識圖譜的核心數據集。語義關系數據集共包含14個數據集,內容包含實體-語義關系-實體三元組,選取以下核心語義關系進行舉例說明(表6),以蛋白-定位-亞細胞定位位置為例進行語義關系數據集內容展示(表7)。

表5性狀實體數據集內容

Table5 Trait entity datasetcontent
表6語義關系數據集內容釋義樣例
表7“蛋白-定位-亞細胞定位位置”語義關系數據集內容Table 7Contents of the semantic relationship dataset of protein-localization-subcellular localization

4質量控制與技術驗證

本研究從權威的PubMed文獻數據庫與八個領域科學數據庫獲取得到基礎數據,保證了數據的真實性和可靠性;數據預處理環節,通過數據清洗、知識抽取、規范化處理、人工校驗等方式,按照統一格式排版形成CSV文件,保證了數據的準確性和一致性。數據存儲環節,采用CSV格式存儲為結構化數據,該格式下的數據具有解析速度快、兼容性強等特點,便于構建知識圖譜。為了驗證該數據集的有效性,本研究采用Neo4j圖數據庫對該數據集進行存儲。最終,形成了涵蓋125591個節點和547591條語義關系的作物性狀調控基因知識圖譜,可有效支撐跨物種基因層級知識的關聯檢索。如圖是以擬南芥基因AT1G49540為例的層級知識關聯檢索示意圖(圖1)。

圖1基因AT1G49540的層級知識關聯檢索Fig.1Hierarchical knowledge association retrieval of gene ATIG49540

5數據價值與使用建議

種業作為保障國家糧食安全和重要農產品有效供給的基石,培育多種優異性狀聚合的作物新品種一直是育種學家所努力的方向。性狀主要受控于關鍵功能基因,挖掘同時調控抗旱、抗病等多個優異性狀的多效基因,明晰功能基因的分子調控機制將有效助力于作物育種科學研究。本數據集通過整合主糧作物水稻、玉米、小麥以及模式植物擬南芥的跨物種多維度的作物育種數據,建立起了跨物種基因與性狀間的關聯關系,實現了已有作物育種學科知識的遷移復用與作物育種科學數據價值的最大化發揮,為作物性狀調控基因知識發現提供了重要的知識資源底座。數據應用價值主要體現為:

(1)基于本數據集所構建的作物性狀調控基因知識圖譜,實現了跨物種間性狀調控基因的關聯發現,提高了跨物種學科知識的獲取效率,支撐了多維度科學數據尋證分析的功能基因發現結果[10]。由此可見,基于本數據集,可實現跨物種多維度科學數據的關聯檢索以及以基因為中心的層級學科知識快速關聯發現,為作物育種科學問題的解決提供科學的決策。

(2)基于本數據集所構建的知識圖譜驅動的基因調控性狀預測模型,實現了作物優異多效基因的挖掘與推薦,有效助力了作物育種學科知識發現[11]。由此可見,基于本數據集,科研人員可利用知識圖譜技術將跨物種多維度的科學數據進行關聯融合,構建面向作物性狀調控基因知識發現的智能問答系統、作物育種決策應用等。

使用建議:

在使用本數據集與其他不同來源的數據進行知識融合的過程中,需要關注實體名稱不統一或數據類型異構等問題,可通過實體消歧與語義融合等方法實現對齊。可基于本數據集構建作物育種知識庫,并通過本研究提及的公開數據庫下載基礎數據、不斷擴充知識庫,為作物育種學科知識發現提供關鍵的知識資源底座。后續研究工作中將不斷優化與完善本數據集的廣度和深度,使之更好地發揮數據的價值。

6 數據可用性

開放訪問,遵從CCBY-NC-ND4.0協議。

https://cstr.cn/17058.11.sciencedb.agriculture.00175;

https://doi.org/10.57760/sciencedb.agriculture.00175。

數據作者分工職責

張丹丹,數據分析、質量控制及論文撰寫。

趙瑞雪,組織實施與綜合管理,論文指導。寇遠濤,組織實施與綜合管理,論文指導。

鮮國建,數據收集整理、質量控制。

倫理聲明

作者聲明,當前數據不涉及倫理聲明相關的內容。

利益沖突聲明

作者聲明,全部作者均無會影響研究公正性的財務利益沖突或個人利益沖突。

參考文獻

[1] ZHAO H,LI J,YANGL,et al.An inferred functional impact map of genetic variantsin rice.Molecular Plant,2021,14(9):1584-1599.DOI: 10.1016/j.molp.2021.06.025.

[2] PORTWOODJL,WOODHOUSE MR,CANNONEK,etal. MaizeGDB 2ol8:the maize multi-genome genetics and genomics database.Nucleic Acids Research, 2018,47(D1):D1l46-D1154. DOI:10.1093/nar/gky1046.

[3] APPELSR,EVERSOLEK,FEUILLETC,etal.Shiftingthelimitsin wheat research and breeding using a fully annotated reference genome. Science,2018,361(6403):eaar7191.DOI:10.1126/science.aar7191.

[4] GOODSTEIN D M, SHU S,HOWSON R, et al.Phytozome:a comparative platform for green plant genomics. Nucleic Acids Research,2012,40:D1178-86.DOI:10.1093/nar/gkr944.

[5] CONSORTIUM T U. The Universal Protein Resource (UniProt). Nucleic Acids Research,2007,35:193-197. DOI: 10.1093/nar/ gkl929.

[6] CHENL,ZHANGYH,WANGSP,etal.Predictionand analysisof essential genes using the enrichments of gene ontology and KEGG pathways.PLoS ONE,2017,12(9): e0184129.DOI:10.1371/journal. pone.0184129.

[7]LANY,HE S,LIUK,etal.Path-based knowledge reasoningwith textual semantic information for medical knowledge graph completion. BMC Medical Informatics and Decision Making,2021,21(Suppl 9): 335.DO1: 10.1186/s12911-021-0162-7.

[8] YANG R,YE Q,CHENG C,et al.Decision-making system for the diagnosis of syndrome based on traditional Chinese medicine knowledge graph.Evidence-based complementary and alternative medicine,eCAM2022,8693937.DOI:10.1155/2022/8693937.

[9]張丹丹.基于知識圖譜的作物性狀調控基因知識發現研究.北京: 中國農業科學院,2024.

[10]張丹丹,趙瑞雪,鮮國建,等.融合跨物種科學數據的性狀調控基因 本體模型構建及應用.生物技術通報,2024,40(2):313-324.

[11] ZHANGD,ZHAO R,XIAN G, et al.A new model construction based on the knowledge graph for mining elite polyphenotype genes in crops. Frontiers in Plant Science,2024,20(15):1361716.

引用格式:張丹丹趙瑞遠濤鮮國建作物性狀調控基因知識圖譜數據集[J]農業大數據學報,225,7(2):20-226.DOI:0.1978/jisn.66369100051.

CITATION:ZHANGDnDan,ZHAOuiXue,KOUYuaTao,XIAuoia.CopraitRegulating-genesKowledgeGraphDatasets[J]alf Agricultural BigData,2025,7(2):220-226.DOI:10.19788/j.issn.2096-6369.100051.

Abstract:Asthecornerstoneofensuring national foodsecurityandtheefectivesuplyofimportantagriculturalproducts,thseed industryhasalwaysbeenthedirectionofbreders'efortstocultivatenewcropvareties withtheaggregationofavarietyof excelentraitshrefore,theexcavationofpleiotropicgenes thatregulatemutipleexcelnt ritssuchasdroughtesistaceand diseaseresistance willeetielyontrbutetotesientificsearhofopbeding.Atpresent,withteeleratedapationof informationtechnologyinthefieldofcropbreding,themuti-dimensionalscientificdatarelatedtocropbredinghasncreased exponentiallesesem-structurdandstructuredsietiicdataaedistributedinientificdatabassindierentfels,adere isalackofcrossspeciesandmulti-dimesionalsientificdatacorelationandfusiondatasets,ichndersthemigrationadrese ofexistingcropbreedingknowledgeand maximizesthevalueofcropbreedingscientificdatawhich bringschallenges tothe discoveryofcroptraitregulationgene knowledge.Basedonthereliability,practicability,andeaseofuseof thedata,PubMed literature database,Phytozome,Ensembl plants,UniProt,RGAP,STRING,Pfam,KEGGandGO wereselectedasthedata acquisitionsources,andtheentitiesandrelationshipsofscientificdataindierentdata formatswereextractedbymulti-path knowledge extractionItis mainlyorented tothemapping knowledge extractionofstructureddata;For XMLsemi-structureddata knowledge extraction basedonKetledataanalysisisadopted.ForFASTAsemi-structureddata,knowledge extractionbasedon BLASTmodelisopted.ForTextustructureddataowedge extractiobasedonlargeanguage modelsisdopted.Ontebasis of the aboveentityandrelationshipextraction,theassociationandintegrationofmult-sourecopbeding knowledgewerefurther realiedbasedontheentitymappingandspeciicatributeassciation.Finall,aknowledgegraphdatasetofcroptraitregulatory genes Wasformed,whichwasstoredasstructureddatain.csvfomat.Tedatasetconsistsof13entityatasetsand14santic relationshipdatasets.Inordertoverifythevalidityofthedataset,theNeo4jgraphdatabasewasusedfordatasetstorage.Finallya knowledge graphofroptraitregulatorygenescovering30onodesand550oosemanticelationshipswasformed,whchcould effectivelysupprt theassociationretrievalofcross-speciesgene knowledge.Theknowledgegraph datasetofcroptraitregulatory genes has providedakeysemantic modelandanimportantdatabasisforthediscoveryofcropbreeding knowledgesuchas excellnt pleiotropicgene discovery,crossspecies gene function predictionand pathwaygene network potential discovery.Based onthis dataset,relevant scientificresearchand production unitscanconstruct a knowledge baseofcroptrait regulatory genes,which provides a key knowledge resource base for the construction ofa crop breeding knowledge discovery service platform.

Ceywords: crops; knowledge graph; crop breeding knowledge discovery; elite polyphenotype genes

猜你喜歡
物種數據庫科學
吃光入侵物種真的是解決之道嗎?
英語世界(2023年10期)2023-11-17 09:18:18
科學大爆炸
小小藝術家(2019年6期)2019-06-24 17:39:44
回首2018,這些新物種值得關注
電咖再造新物種
汽車觀察(2018年10期)2018-11-06 07:05:26
數據庫
財經(2017年2期)2017-03-10 14:35:35
科學
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
瘋狂的外來入侵物種
主站蜘蛛池模板: 日韩高清中文字幕| 国产a v无码专区亚洲av| 国产精品视频系列专区| 久久美女精品| 国产免费久久精品99re不卡| 亚洲成人黄色在线| 欧美综合成人| 制服丝袜无码每日更新| 国产成人免费| 国产精品手机在线播放| 99精品免费在线| 亚洲精品无码不卡在线播放| 久久精品娱乐亚洲领先| 欧美国产菊爆免费观看 | 亚洲欧美成aⅴ人在线观看| 欧美国产日韩另类| 中文字幕欧美日韩| 欧美日韩在线成人| 国产91九色在线播放| 一本一道波多野结衣av黑人在线| 国产午夜福利片在线观看| 2021国产精品自产拍在线| 欧美区一区二区三| 国产超碰在线观看| 免费a级毛片视频| 99热这里都是国产精品| 国产成人高清精品免费5388| 亚洲av日韩av制服丝袜| 一级毛片免费观看不卡视频| 91无码国产视频| 丰满人妻中出白浆| 国产区在线观看视频| 欧美不卡在线视频| 久久国产精品波多野结衣| 草草线在成年免费视频2| 永久免费无码日韩视频| 永久毛片在线播| 亚洲va在线∨a天堂va欧美va| 日韩不卡高清视频| 久久99精品久久久久纯品| 99re在线视频观看| 久久精品aⅴ无码中文字幕| 呦女亚洲一区精品| 国产综合另类小说色区色噜噜| 噜噜噜久久| 久久99国产综合精品女同| 99精品视频在线观看免费播放| 国产午夜精品一区二区三区软件| 亚洲欧洲日本在线| 久久99国产综合精品女同| 国产久草视频| 夜色爽爽影院18禁妓女影院| 久久精品一品道久久精品| 女人18毛片久久| 亚洲免费成人网| 中文字幕色站| 欧美在线国产| 99久久精品国产麻豆婷婷| 波多野结衣一区二区三区四区视频| www.狠狠| 成人伊人色一区二区三区| 在线观看91精品国产剧情免费| 韩日午夜在线资源一区二区| 免费a级毛片18以上观看精品| 亚洲另类国产欧美一区二区| 欧美成人免费午夜全| 99草精品视频| 免费a在线观看播放| 日韩在线观看网站| 动漫精品啪啪一区二区三区| 日韩精品一区二区深田咏美| 夜夜高潮夜夜爽国产伦精品| 久久99热这里只有精品免费看| 国产在线视频福利资源站| 欧美福利在线| 亚洲一区二区三区国产精品 | 亚洲精品国产综合99| 欧美日韩午夜| 亚洲视频无码| 亚洲精品成人7777在线观看| 国产欧美专区在线观看| 三上悠亚一区二区|