999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

我國生豬產業知識圖譜構建研究

2024-11-05 00:00:00周峰竹趙剛
現代信息科技 2024年16期

摘 要:針對中國生豬產業鏈各環節關聯性弱、產業數據碎片化、數據類型復雜多樣等問題,文章研究設計了基于知識圖譜的生豬產業總體架構。通過分析生豬垂直產業領域、本體設計、數據采集、基于語義角色標注與依存句法分析的知識抽取和詞典匹配與相似度匹配相結合的知識融合、基于Neo4j數據庫的知識存儲六個步驟,構建了生豬產業知識圖譜,實現了產業鏈上各孤立環節的應用關聯,為產業知識智能檢索與智能輔助決策系統構建提供數據基礎,助力中國生豬產業數字化建設。

關鍵詞:生豬產業;知識圖譜;本體構建;產業鏈;知識圖譜構建

中圖分類號:TP391.1 文獻標識碼:A 文章編號:2096-4706(2024)16-0136-06

Research on the Construction of Knowledge Graph for Chinese Pig Industry

Abstract: In view of the problems of weak correlation between various links in Chinese pig industry chain, fragmentation of industrial data, and complex and diverse data types, this paper researches and designs the overall architecture of the pig industry based on knowledge graph. Through the six steps of analyzing the vertical industry field of pigs, ontology design, data collection, knowledge extraction based on semantic role annotation and dependency syntax analysis, knowledge fusion combining dictionary matching and similarity matching, and kJLESmAXguEJvGin3ybeRyXCUkdQruMacK/AiWS6vaqI=nowledge storage based on Neo4j database, the knowledge graph of pig industry is constructed. It realizes the application correlation of isolated links in the industrial chain, provides a data basis for intelligent retrieval of industrial knowledge and the construction of intelligent auxiliary decision-making systems, and assists the digital construction of Chinese pig industry.

Keywords: pig industry; knowledge graph; ontology construction; industrial chain; knowledge graph construction

0 引 言

我國生豬產業是農業的重要支柱產業,也是關乎我國民生大計的一大產業,其在我國畜牧產業中長期處于主導地位。中國肉類消費結構以豬肉和雞肉作為主要消費品種,牛羊肉作為補充品種,其中豬肉消費量占中國總體肉類需求的一半以上。放眼全球,中國是最大的生豬生產國,豬肉產量接近全球豬肉產量的一半,2022年,全球豬肉產量約為1.25億噸,中國豬肉產量為5 541萬噸,在全球豬肉產量中所占比重近一半,約為44.47%[1]。

總的來看,生豬產業鏈主要由上游飼料加工行業和動物保健行業、中游生豬養殖行業、屠宰加工行業以及下游肉制品加工行業組成。然而在產業鏈實際運作中涉及多個相互關聯階段的多層面內容,極具復雜性。從參與方角度來看,產業鏈上有多種不同類型的參與方,包括飼養企業、養殖戶、獸醫、監管部門、加工廠、運輸公司、批發商、職業者等,這些參與方之間往往有著復雜的合作競爭關系。從數據多樣性的角度來說,各單元環節數據獨立,帶來數據來源雜亂、數據結構不一致等問題。生豬產業數據包括養殖環境數據、飼料成分數據、疫苗記錄、獸醫檢查結果、產品質量檢測數據等,這些數據缺乏統一的數據庫進行收集并整合分析[2]。從外部環境來看,生豬產業受到了許多政策法規的影響,涉及稅收政策、貿易政策、環保政策等多個方面,各個環節都需要遵守相應的規定;在風險管理中涉及的因素也眾多,包括疫情疫病、市場供需價格波動、質量安全問題、國際貿易政策等,這些因素將對產業鏈上的各個環節產生影響[3]。

知識圖譜技術提供了一種對該產業數據進行結構化存儲及智能化處理的方法,將同一領域內的知識進行關聯整合,提供全面準確的信息支持。針對上述生豬產業鏈特點,構建生豬知識圖譜將從信息協作共享、智能決策協助以及風險管理預警等方面推動產業轉型升級,提出一條數字化賦能新型生豬產業經營體系的實施路徑,為生豬產業數字化建設帶來新的契機[4]。

1 知識圖譜應用現狀

知識圖譜作為一種以圖形化方式表示和組織知識的方法,本質上是一種語義網絡,通俗地講,就是把所有不同種類的信息連接在一起而得到的一個關系網絡,其提供了從“關系”的角度去分析問題的能力。從另一個角度來說,它是一種基于圖的數據結構,由節點(Point)、邊(Edge)和屬性(Property)組成。在知識圖譜中,每個節點表示現實世界存在的“實體”,每條邊為實體與實體之間的“關系”[5]。目前知識圖譜主要分為兩類,一種是通用型知識圖譜,此類型面向通用領域的“結構化的百科知識庫”,側重構建行業常識性的知識,主要用于搜索引擎和推薦系統;另一種為特定領域知識圖譜,即垂直知識圖譜:面向某一特定領域,可看成是一個“基于語義技術的行業知識庫”。通過構建不同行業、企業的知識圖譜,對行業企業內部提供知識化服務。本文所要構建的屬于領域知識圖譜,因此接下來主要討論后者。

在特定垂直領域深入發展的今天,以知識圖譜為技術基礎的知識服務頗受重視。王棟等人[6]從數據層、知識抽取、本體模式、知識融合以及知識應用五個層面設計構建以我國甜櫻桃產業為主題的行業知識圖譜。毛瑞彬等人[7]從產業鏈角度出發,著重介紹了產業鏈知識圖譜的構建流程與本體設計,并提出了基于領域語言模型的知識分類、抽取和融合算法。丁浩宸[8]通過對基于油茶上中下游全產業鏈相關數據的收集、分類和整理加工構建了油茶知識圖譜并開發了應用系統,實現了智能搜索、知識關聯、知識問答等功能。陳恒等人[9]抽取了疾病名稱、癥狀、就診科室等六類疾病實體及六種相應關系與屬性,結合醫療知識資源短缺的行業現狀和知識圖譜的特點構建了一個基于疾病醫療領域的知識圖譜。而本體層作為核心頂層框架,為知識圖譜的構建提供了一個清晰的結構和規范的語義。許多等[10]對農業時空進行知識建模,采用自頂向下的構建方法對水稻在施肥、營養失衡和作物農情方面的知識整理分析,構建了涵蓋作物、地塊、營養三方面,涉及農業領域27個類的精準施肥時空本體模型;Wang等人[11]采用半自動構建方法對柑橘生產知識進行整合,將技術報告和書籍中的文字、表格和圖片形式的柑橘生產知識組織并轉化為丘陵柑橘施肥和灌溉本體。基于本體,為重慶果農開發了施肥、養分失衡和灌溉排水三種柑橘決策服務。劉桂鋒等人[12]依據本體原理,運用本體構建工具Protégé,以國家農業科學數據中心的“棉麻類作物病原真菌病害數據庫”和“微生物農藥數據庫”中的數據為主要數據源,構建了棉花病害防治的知識本體。

2 生豬知識圖譜構建設計

構建生豬知識圖譜需綜合考慮到全產業鏈條,包括產業鏈上游的飼料、動物保健產品、種豬行業,中游的養殖、屠宰加工行業以及下游的銷售行業,涵蓋環節較多且涉及大量不同來源的數據和知識。由于生豬產業鏈的多環節復雜性,要有效構建生豬知識圖譜,需要獲取、整合和清理大量的數據,并解決數據格式、質量和一致性等問題。其次,涉及不同領域的知識需要建立多個知識子圖,如何對各個子圖進行合理的結構設計和關聯建模,保證知識的準確性、完整性和可用性是一大難點。本文選取靈活性較強的方法,自頂向下與自底向上相結合的方式進行構建[13]。一方面依據行業專家經驗從最頂層的概念開始構建頂層本體,然后細化概念和關系,形成結構良好的概念層次樹;另一方面從開放的多源數據中提取實體、關系、屬性等要素,對已構建好的數據層進行概念抽象,進一步完善模式層設計,擴充概念。整體的架構設計如圖1所示主要分為五個部分:數據采集層、知識抽取層、知識融合層、知識存儲層以及圖譜應用層。

2.1 本體構建

構成知識圖譜內容的除具體的實例知識外,還包括了對知識數據的描述和定義,即對生豬產業領域知識的高度概括和抽象,通常用概念,概念屬性以及概念之間的關系來描述。這部分對數據進行描述和定義的“元”數據被稱為知識體系(Schema)或本體(Ontology)。對于采用自頂向下與自底向上相結合的構建方法,首先應構建一個輕量級的知識體系,然后在此基礎上進行擴展。由于生豬產業圖譜屬于垂直特定領域的應用,對知識的精確性要求也較高,因此本文選擇人工方式進行本體描述,包括產業鏈上、中、下游一類的事實性知識以及側重于對生豬價格波動管理的經驗性知識,如供需變化、養殖成本與生豬價格變化之間的關系。初步的生豬產業模式圖設計詳如圖2所示,其中橢圓代表類別概念,矩形與菱形代表概念屬性。

2.2 數據采集

根據上文本體層的思路結合對我國生豬產業的分析可知,所需相關數據大致可分為四大類:上游數據、中游數據、下游數據以及圍繞“生豬價格”為主題的事件數據。其中,上中下游行業數據按照是否具有獨特性可細分為兩類,一類是通用的共性數據,如名稱、法人、聯系電話、辦公地址等內容,另一類是各自行業特有的數據,如屠宰加工行業里的“定點屠宰證號”、動保行業中的“規格”“用途”等內容。上述產業數據可通過B2B平臺,如“愛采購”“企查查”生豬行業門戶網站如“豬易網”“中國生豬網”等渠道進行收集整理。

最后一類事件數據分為三部分,分別是有關管理部門與機構中的政策、文件報告等非結構化數據、諸如“22省市豆粕平均價”的結構化數據以及同樣是文本類的非結構化數據:從產業相關論文、期刊以及行業研報中提取出來的與生豬價格波動有關的一系列現象,在本體層中這些現象抽象化分為“供給端現象”“需求端現象”和“其他現象”三大概念。這些事件型數據主要來源于國家統計局、國家發改委、農業農村部等國家相關部門發布的統計數據和文件報告,生豬產業研報、論文期刊以及Wind數據庫。

2.3 知識抽取

在知識圖譜的構建中,知識抽取是構建生豬產業知識圖譜的關鍵步驟,通過對文本進行深度解析,我們可以提取出豐富的文本信息,以構建具有格式化形式的知識表示,即三元組[頭實體,關系,尾實體]。對于中文文本語料語法復雜的情況,毛小麗等[14]提出了基于語義角色標注的知識抽取方法,相較于通過上下文構造特征向量的抽取方式效果有顯著提升;郭喜躍等[15]提出了一種句法分析和語義特征相結合的抽取方法,融合了句法依存關系、語義角色標注等原理。本文基于對生豬產業語料的分析,采用語義角色標注與依存句法分析相融合的方式進行三元組抽取。

語義角色標注是一種淺層語義分析技術,該方法以句子為單位,分析句子的謂詞-論元結構,不對句子所包含的語義信息進行深入分析。具體來說,語義角色標注的任務就是以句子的謂詞為中心,研究句子中各成分與謂詞之間的關系,針對句子中的(核心)謂詞來確定其他論元以及其他論元的角色。該方法基于動作施事者A0、受事者A1、時間TMP、地點DOC等語義角色的劃分,有效地捕捉到了句子中的主謂賓語。然而,在生豬產業研報中的文本中經常出現多謂詞、多賓語的復雜句,為了更全面地獲取實體間的關系,在此融合依存句法分析來彌補上述方法的不足。首先基于語義角色標注提取主語和核心謂詞后,通過三種不同的句法關系進行事實三元組提?。?)如果存在主語(SBV)和動詞的賓語(VOB)關系,那么將提取主謂賓關系的事實三元組;2)如果存在定語(ATT)關系和動賓(VOB)關系,將提取定語后置的事實三元組;3)如果同時存在主謂關系和動補關系(CMP),則提取含有介賓關系的主謂動補關系的事實三元組。

本文從生豬領域垂直網站中爬取得到143段資訊文本,采用哈工大LTP作為自然語言處理工具的核心引擎,通過調用LTP的API接口,將文本數據生成程序中進行處理,得到了句子的分詞、詞性標注、依存句法分析結果,以及語義角色的劃分,最終得到若干條三元組,如表1所示。

另一方面,此方法也存在著一些缺陷,表2是抽取得到的存在錯誤、冗余信息以及完整性不足的三元組示例。

其中,第一條的原始文本語句是“工人們正快速地完成生豬放血、噴淋清洗、摘除內臟等工序,獸醫……”。從這兩個三元組可以看出,該方法缺少了對主語、賓語之間并列(COO)關系的依存關系分析。第二條的原始文本語句是“嚴格執行相關工作人員核酸一天一檢,并突出做好檢驗檢疫、消毒、無害化處理和應急管理等工作……”,出現了核心謂詞的提取錯誤,導致三元組的語義紊亂。第三條的原始文本語句為“神農集團相關負責人表示:第三季度斷奶仔豬成本是降低的。公司的養殖成本中,仔豬成本是3.82元/千克……”。此三元組的主語缺少完整性,理想情況下應為[神農集團仔豬成本,是,3.82元/千克]。

2.4 知識融合

對構建生豬知識圖譜而言,數據來源大多基于海量的非結構化數據,即文本數據,通過知識抽取提取出三元組后獲得了最基礎的知識單元,但從上一環節獲取的三元組由于數據多元化加之語料庫重要來源之一的生豬產業研報中各產業分析師表述存在著差異化用詞,仍然存在大量冗余、錯誤、不完整的信息,因此進行知識融合是完善圖譜構建不可或缺的一個環節。實體對齊作為知識融合中最重要的子任務之一,在實體層面上從各方面整合數據,找出表示相同含義的實體,對錯誤信息進行處理從而保證圖譜的質量[16]。

本文擬采用基于詞典匹配與相似度匹配相結合的方法,首先進行輸入實體類型判斷,通過構建的命名實體詞典進行匹配查詢,如匹配成功則將實體名稱替換為詞典中主名稱,否則進入匹配相似度計算。而基于字符串相似度的實體對齊即將字符串形式的文本進行相似度分析并基于此判斷實體是否指向相同[17]。值得注意的是,對于數值類型的屬性數據,如規格、有效期等需統一處理為描述+數值范圍+單位。對剩余類型實體可采用余弦相似度算法,首先進行實體詞匯級別的向量化表示[18],然后計算這些實體與同類型實體間的余弦相似度,用向量空間中兩向量夾角的余弦值作為衡量兩個實體之間差異大小的標準:

式中:A、B表示詞向量,n表示向量維度,Ai與Bi表示詞向量中的各個分量,余弦值S越接近1,表明兩個向量的夾角越接近0度,則兩個詞向量越相似,兩實體語義越接近。反之S越接近0,則兩向量越不相似。在此基礎上設定一個閾值,若超出此數值即成為融合對象,否則創建新的實體[19]。

2.5 知識存儲

完成上述步驟后得到9 194條三元組數據,本文選擇采用Neo4j數據庫進行存儲,具體操作如下[20]:將Excel中的三元組數據轉換成CSV格式數據,文件主要為實例與關系兩部分。實例文件中包括實體名稱、地址、品名等屬性,關系文件中包含第一事件和第二事件以及連接事件的具體關系詞,如圖3、圖4所示。

上述兩類CSV文件放在Neo4j數據庫目錄import文件夾中,即可開始導入。如使用Cypher語言可以快速導入實例屬性和關系,如圖5所示。圖6、圖7分別為生豬知識圖譜局部結構與節點標簽展示。

3 結 論

本文通過剖析生豬產業中的問題,面向生豬垂直領域,提出了一套構建該產業知識圖譜的方法。從產業發展的角度來看,生豬知識圖譜通過行業專家的經驗和知識,整合歸納大量產業知識,有助于統一行業認知,解決信息不對稱的問題;知識圖譜技術在該領域的應用,整合了行業現狀、政策法規、市場需求等多方面信息,幫助發現潛在的知識聯系和規律;此外,智能化、信息化程度的提高在應對各類產業突發事件時響應速度更快,能夠為相關管理部門等提供決策支持,降低決策風險,了解行業現狀和需求并發現問題和瓶頸,尋找解決方案和技術突破點,從而推動行業的可持續發展。與此同時,本文還有諸多不足之處,如模式層設計不完善等問題,在后續研究中需對這些問題進一步補充和完善。

參考文獻:

[1] 中商情報網.2022年中國肉類產量及市場結構數據分析 [EB/OL].(2023-07-02).https://baijiahao.baidu.com/s?id=1770259179895391828&wfr=spider&for=pc.

[2] 韓智,周法國.基于知識圖譜的高鐵動車設備檢測系統的本體框架構建與維護 [J].現代電子技術,2018,41(6):11-14.

[3] 辛翔飛,王祖力,劉晨陽,等.新階段我國生豬產業發展形勢、問題和對策 [J].農業經濟問題,2023(8):4-16.

[4] 陳衛洪,王瑩.數字化賦能新型農業經營體系構建研究——“智農通”的實踐與啟示 [J].農業經濟問題,2022(9):86-99.

[5] 黃恒琪,于娟,廖曉,等.知識圖譜研究綜述 [J].計算機系統應用,2019,28(6):1-12.

[6] 王棟,周菲,李穎芳,等.我國甜櫻桃產業知識圖譜構建研究 [J].中國果樹,2023(1):104-108.

[7] 毛瑞彬,朱菁,李愛文,等.基于自然語言處理的產業鏈知識圖譜構建 [J].情報學報,2022,41(3):287-299.

[8] 丁浩宸.油茶知識圖譜構建與應用 [D].北京:中國林業科學研究院,2020.

[9] 陳恒,方潔昊,李正光,等.基于醫療百科網絡的疾病醫療知識圖譜構建研究 [J].圖書情報導刊,2023,8(4):58-65.

[10] 許多,魯旺平,許瑞清,等.基于農業時空多模態知識圖譜的水稻精準施肥決策方法 [J].華中農業大學學報,2023,42(3):281-292.

[11] WANG Y,WANG Y,WANG J,et al. An Ontology-based Approach to Integration of Hilly Citrus Production Knowledge [J].Computers and Electronics in Agriculture,2015,113:24-43.

[12] 劉桂鋒,楊倩,劉瓊.農業科學數據集的本體構建與可視化研究——以“棉花病害防治”領域為例 [J].情報雜志,2022,41(9):143-149+175.

[13] 劉嶠,李楊,段宏,等.知識圖譜構建技術綜述 [J].計算機研究與發展,2016,53(3):582-600.

[14] 毛小麗,何中市,邢欣來,等.基于語義角色的實體關系抽取 [J].計算機工程,2011,37(17):143-145.

[15] 郭喜躍,何婷婷,胡小華,等.基于句法語義特征的中文實體關系抽取 [J].中文信息學報,2014,28(6):183-189.

[16] 翟嬌嬌.面向知識圖譜構建的知識融合問題研究 [D].濟南:齊魯工業大學,2021.

[17] 楊媛.音樂領域知識圖譜構建框架研究 [J].數字圖書館論壇,2022(2):40-46.

[18] 宿愷,潘晨輝.電商領域多模態商品知識圖譜構建研究 [J].現代電子技術,2023,46(20):173-177.

[19] 辛輝,謝鎮璽,李朋駿,等.面向食品貯藏領域的知識圖譜構建方法研究 [J].計算機工程與應用,2023,59(22):329-342.

[20] 趙雪芹,楊一凡,于文靜.基于Neo4j圖數據庫的工程檔案知識圖譜構建及應用 [J].檔案與建設,2022(5):48-51.

主站蜘蛛池模板: 国产永久在线视频| 99视频精品全国免费品| 成年人久久黄色网站| 日韩午夜片| 成人在线视频一区| 亚洲成肉网| 国产免费久久精品44| 精品超清无码视频在线观看| 日韩在线影院| 欧美成在线视频| 99久久精品免费看国产电影| 日本亚洲欧美在线| 国产精品真实对白精彩久久| 精品夜恋影院亚洲欧洲| 麻豆AV网站免费进入| 中文无码伦av中文字幕| 国产第一页屁屁影院| 青青草国产免费国产| 色哟哟国产精品一区二区| 欧美亚洲第一页| 亚洲黄色高清| 热九九精品| 欧美特黄一免在线观看| 自慰高潮喷白浆在线观看| 国产日韩AV高潮在线| 狂欢视频在线观看不卡| 99久久精品国产精品亚洲| 国产国模一区二区三区四区| 欧美成人国产| 又大又硬又爽免费视频| 99偷拍视频精品一区二区| 一区二区欧美日韩高清免费| 波多野一区| 57pao国产成视频免费播放| 国产黄色视频综合| 18禁黄无遮挡免费动漫网站| 亚洲Aⅴ无码专区在线观看q| 日韩国产黄色网站| 亚洲av无码人妻| 亚洲无码视频图片| 国产极品美女在线播放| 不卡无码网| 国产97视频在线| 人妖无码第一页| 亚洲无码精彩视频在线观看| 天天干天天色综合网| 台湾AV国片精品女同性| 3D动漫精品啪啪一区二区下载| 成人噜噜噜视频在线观看| 日韩无码黄色| 国产系列在线| 欧美亚洲国产日韩电影在线| 中文字幕无码av专区久久| 一级香蕉视频在线观看| 99热最新网址| 全免费a级毛片免费看不卡| 国产 日韩 欧美 第二页| 国产91久久久久久| 久久人午夜亚洲精品无码区| 六月婷婷激情综合| 人妻无码中文字幕第一区| 一本大道无码日韩精品影视| 亚洲综合色婷婷中文字幕| 美臀人妻中出中文字幕在线| 久久婷婷综合色一区二区| 国产午夜无码专区喷水| 99久久精品国产麻豆婷婷| a毛片基地免费大全| 五月婷婷中文字幕| 成人毛片免费观看| 天堂亚洲网| 亚洲高清日韩heyzo| 成人在线天堂| 欧美激情,国产精品| 色丁丁毛片在线观看| 99热这里只有免费国产精品| 天堂成人在线| 欧美高清日韩| 午夜久久影院| 亚洲欧美在线看片AI| 久夜色精品国产噜噜| 国产成人综合在线观看|