999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向糧情決策支持的知識圖譜構建研究

2022-11-24 04:56:26李家馨
中國糧油學報 2022年10期
關鍵詞:方法模型

肖 樂, 李家馨, 葛 亮, 吳 濤

(河南工業大學信息科學與工程學院1,鄭州 450001) (國家糧食和物資儲備局信息化推進辦2,北京 100038)

我國糧食產后損失驚人,據國家糧食和物資儲備局的數據顯示,我國在糧食儲藏、運輸和加工等產后環節,每年損失量達700億斤以上,一年的糧食損失接近吉林省全年糧食產量,糧食行業“產后護理”空間巨大[1]。“減少糧食產后損失等于建設無形良田,是提高糧食安全保障水平的重要舉措。在糧食產后損耗中,有一部分是由于農戶及儲糧管理人員缺少相關知識和經驗,無法及時對糧情做出科學的決策而造成。已有研究提出構建糧情決策支持系統減少這部分糧食損耗,但當前的方法存在獲取和添加知識困難、不能有效利用先驗知識等局限性。針對這些局限性,本文提出構建知識圖譜的方法輔助決策。以知識圖譜為“專家”,指揮決策支持系統進行糧情決策,有效改善了農戶及儲糧管理人員因知識不全、經驗不足而造成的糧食損失狀況。

1 國內外糧食及相關行業決策技術進展

1.1 糧食及相關行業決策支持與專家系統進展

國外對糧食及相關行業決策系統的研究起于20世紀70年代末,第一個決策系統由美國伊利諾伊大學開發,用于診斷大豆病蟲害[2];Flinn等[3]開發了一個SAG Pro系統做糧食害蟲決策,該系統采用基于規則的方法向糧食管理者提供決策結果;Balleda等[4]提出了基于規則的專家系統-Agpest,該系統采用正向鏈接機制,有效的利用Agpest知識庫;Nascimento等[5]開發了一種病蟲害診斷工具,首先利用專家知識構建病蟲害文本與圖像知識庫,之后編寫規則和問題進行柚木害蟲診斷防治;Afzal等[6]構建了水稻領域本體,并采用基于規則的方法為農民提供水稻管理方面的決策支持。以上傳統基于規則的決策支持系統面臨獲取決策知識難度較大、依賴領域內專家構建IF-THEN規則的困境,針對基于規則的決策系統的不足,一些學者提出樸素貝葉斯算法用于構建決策支持系統。Wani等[7]提出利用樸素貝葉斯算法擬合機器學習模型進行害蟲診斷預測;Nababan等[8]建立圖像數據集,采用樸素貝葉斯方法訓練模型并對油棕植物病害進行診斷;但基于樸素貝葉斯的決策系統依賴歷史數據,能解決的決策問題有限,針對該問題,研究人員提出將人工神經網絡用于決策支持系統。Kumar等[9]利用人工神經網絡開發了一個決策支持系統,該系統利用實際作物產量數據建立預測模型。由于農業信息具有模糊性,且變量之間的關系復雜,Tay等[10]采用自適應神經模糊推理與人工神經網絡結合的方法,有效的利用了模糊的農業信息進行決策支持,為玫瑰溫室害蟲的日常風險評估創建了決策支持工具;基于人工神經網絡的決策支持系統存在需要大量訓練樣本的局限性,Prabakaran等[11]針對人工神經網絡的局限,構建了基于支持向量機與模糊邏輯的作物施肥決策支持系統,有效的提高了農業生產效率;但支持向量機需要大量特征工程,且對新問題適應性較差,針對此問題,Saleem等[12]提出了基于深度學習算法的棉花害蟲決策支持系統,該方法通過RBFN算法對環境因子進行分類,對粉虱生長環境進行精確監測。

2006年,我國原國家糧食局提出在“十一五”期間實施“安全綠色儲糧關鍵技術研究開發與示范”項目,該項目涉及了糧情測控系統。早在1998年,楊秀金等[13]就提出了安全儲糧智能決策支持系統,結合圖像處理技術與規則推理的方法進行糧情決策,較為有效地減少了糧食損失;甄彤等[14]針對儲糧通風提出儲糧機械通風控制系統,整個系統首先根據糧情檢測系統檢測的數據進行知識庫的建立,然后用推理機進行推理;張伶子等[15]將本體技術引入農業害蟲診斷系統,采用Protégé編制本體和知識庫,并構建推理規則對害蟲進行診斷;傳統基于規則的推理無法處理一些不確定性問題,針對這些不確定性,徐宏[16]開發了基于模糊理論的專家系統,用人工神經網絡獲取知識并構建糧食儲藏的知識庫用于推理;基于規則的方法獲取決策知識困難,針對此問題,孫曉全等[17]構建了基于BP神經網絡的糧情決策系統,該系統采用嵌入式AMR9的低成本傳感器平臺采集數據,并使用糧食信息加權融合與BP神經網絡對數據進行訓練以及預測。

糧食及農作物方面的知識資源分布散亂、穩定性低、數據種類多且數量大。在面對如此復雜的多源異構數據時,目前的方法存在以下局限性:基于規則的決策系統獲取知識和添加新知識都很困難,不能捕捉到數據間深層次的關聯關系,并且由于缺乏分層的知識表達造成了規則關系之間的不透明問題;基于機器學習和深度學習的決策支持系統在大規模的數據集上能得到較好的決策支持結果,但是它們難以利用先驗知識,并且依賴大規模標注數據集。另一方面,在大量實踐中,越來越多的人發現深度學習模型的結果與先驗知識相沖。這些局限性阻礙了深度學習在糧情決策支持中的發展。

表1對糧食及相關行業決策支持系統現狀進行了分析總結。

表1 糧食及相關行業決策系統與專家系統現狀的分析總結

1.2 知識圖譜應用于決策支持現狀

知識圖譜包含了大量世界上的實體和它們之間相互關系的信息[18],蘊含了人類豐富的先驗知識,獲取知識和添加新知識都較為方便且能挖掘出數據間的深層關聯,能有效地彌補深度學習算法的不足。如今,利用知識圖譜中的知識進行決策支持,從而提升決策支持系統的性能,已成為決策支持研究的重要問題之一。

目前基于知識圖譜的決策系統已廣泛用于醫療、金融等領域內,在糧食農作物方面也有了少量研究。例如,王娟[19]構建了基于知識圖譜的煙草花葉病案例推理模型,提出了一套適用的煙草花葉病防治方案。于合龍等[20]提出基于知識圖譜的水稻智能診斷系統。但是基于知識圖譜的糧情決策系統鮮有報道。本文主要研究目的為構建糧情知識圖譜,并將其用于糧情決策支持系統。

2 基于知識圖譜的糧情決策系統構建

知識圖譜,通過將數據粒度從文檔級別降到數據級別,聚合大量知識,實現知識的快速響應和推理。其基本組成單位是“實體-關系-實體”三元組,以及實體及其相關屬性的鍵值對,實體通過之間的關系相互聯結。從原始數據到知識圖譜的生成,大致要經歷知識抽取、知識融合、數據模型構建等過程。根據知識圖譜的分層結構,將知識圖譜劃分為自頂向下和自底向上構建,自頂向下是借助結構化數據源,從高質量數據中抽取本體和模式信息,加入到知識庫;自底向上是從公開采集的數據中抽取出資源模式,選擇置信度較高的新模式加入知識庫。

糧情知識圖譜與其他領域的數據特征相比,儲糧領域的數據有如下特點:數據種類多、數量大;資源分布散亂、穩定性低;各個地方采用的存儲方式和標準不同。因此,糧情知識圖譜構建面臨巨大的挑戰。本文采用自底向上的方法構建糧情知識圖譜。首先通過實體抽取以及關系抽取方法從多源異構的糧情數據中抽取出實體以及實體之間的關系,然后進行本體構建,實體以及實體之間的關系在本體框架的指導下被鏈接成知識圖譜的表現形式,并用Neo4j存儲知識圖譜。之后在知識圖譜的基礎上進行知識推理,達到輔助糧情決策的目的。糧情知識圖譜的構建框架如圖1所示。

圖1 糧情知識圖譜構建框架

2.1 知識抽取

知識抽取主要由命名實體識別和關系抽取組成,其目的為從多源異構的數據中抽取實體以及實體間的關系,在此基礎上形成本體化的知識表達。糧情知識抽取模型總體框架舉例如圖2所示。

圖2 糧情知識抽取模型總體框架舉例

2.1.1 命名實體識別

命名實體識別是指識別和區分文本中特定含義的詞匯和所屬的類別,它是知識圖譜中的基礎任務也是關鍵任務。早期基于規則的實體識別方法耗時費力,且不具有可擴展性,不能適應數據的變化。基于機器學習的命名實體識別方法主要是先訓練原始語料,之后通過訓練好的模型去識別實體。在機器學習方法中,命名實體識別也可以看作是序列標注問題[21]。通常采用的傳統的機器學習方法有:馬爾可夫模型、隱馬爾可夫模型、最大熵模型以及將上述方法結合和改進的方法等。方瑩[22]提出了C-CRF層疊條件隨機場模型抽取農業實體,充分利用了農作物特征詞典,獲得了較好的識別效果。相比于基于規則的方法,基于統計機器學習的方法構建模型所需的代價小,魯棒性好。但是基于機器學習的方法對選取的特征要求較高,對語料庫的依賴比較大,而用來構建和評估命名實體識別系統的大型語料庫又比較少。近年來,隨著深度學習的發展,不少人也將深度學習的方法應用到命名實體識別的研究中。Collobert等[23]是較早將神經網絡方法應用到NER的論文之一。Huang等[24]提出了雙向長短時記憶網絡,能有效利用序列的上下文信息。Guo等[25]提出了一種聯合多尺度局部上下文特征和注意力機制的中文命名實體識別模型抽取害蟲實體,通過CNN 提取多尺度局部特征,并采用注意力機制捕捉長距離依賴關系。實體識別準確性比Huang等[24]提出的Bilstm高了1.67%。

2.1.2 關系抽取

關系抽取主要指文本中實體之間的關系,例如語法、語義關系。通常將實體之間的關系形式化描述為。糧情領域中抽取的實體和實體之間的關系可描述為如圖2所示的<豌豆象,分布,山西>,即“豌豆象”與“山西”之間的關系為“分布”。知識圖譜中關系抽取的方法主要有3種,分別是基于規則的方法,有監督的方法和半監督或無監督的方法。基于規則的方法可移植性差。有監督的方法有核函數方法,邏輯回歸方法和條件隨機場等方法。有監督的方法主要是根據訓練數據,設計有效特征,學習各種分類模型,然后使用訓練的分類器預測關系。與基于規則的方法相比,有監督的方法在一定程度上減少了人力的耗費,但仍需要耗費大量的特征工程。半監督或無監督的方法則大大減少了特征工程,Kaushik等[26]提出了自監督算法進行農業文本關系抽取,建立了基于wordnet相似度的基線算法relxont來識別不同的關系,該法的平均精度為86.89%。樂毅等[27]提出一種PCNN模型和遠程監督關系抽取方法進行害蟲關系抽取,該模型加入了注意力機制和池化級特征注意力機制,避免了大量的人工標注。

近年來,也有學者提出聯合抽取,將實體與關系同時抽取,Zheng等[28]提出將實體和關系聯合抽取轉化為序列標注任務,此法在公共數據集上的抽取準確率超過60%,但是在此法中,抽取的實體之間只能有一種關系;Katiyar等[29]提出了將注意力機制與BiLSTM的BiLSTM-WA模型做聯合抽取,改善了Zheng等[28]提出的方法的缺陷;沈利言等[30]針對水稻病蟲害文本,在BiLSTM-WA模型的基礎上提出了雙BiLSTM與注意力機制結合的水稻病蟲害與藥劑實體關系聯合抽取的方法,其聯合抽取準確率最高達到92.90%。

2.2 糧情知識圖譜本體構建

本體是用于描述一個領域的術語集合,其組織結構為層次結構化,可以作為一個知識庫的骨架和基礎。本體構建的方式主要分為三類,分別為手動構建本體、半自動化構建本體和自動化構建本體。手動構建本體耗時費力,自動構建本體快速有效。本體自動構建目前處于起步階段,目前采用較多的方法是手工構建本體。糧食本體構建屬于特定領域本體構建,其本體構建源于2001年,聯合國糧農組織實行了農業本體服務計劃[31]。Chougule等[32]提出以OWL格式保存印度糧食害蟲自適應本體。Abrah?o等[33]提出使用UML對農業田間作業技術知識進行本體的構建。糧情知識圖譜的本體構建舉例如圖3所示。

圖3 糧食知識圖譜的本體構建舉例

2.3 知識推理

知識推理就是利用已有的知識推理出新知識的過程[34]。知識推理的方法主要分為三類:基于規則的推理、基于分布式推理和基于神經網絡的推理。早期基于規則的推理就是利用簡單的規則或統計特征對知識圖譜進行推理。Chen等[35]提出了概率知識庫,能批量用馬爾可夫邏輯網絡推理規則。然而基于邏輯規則推理的方法計算復雜度高,可擴展性差,且大部分稀疏的實體和關系嚴重影響推理性能。基于分布式推理的方法,對數據稀疏性不敏感,可擴展性更強。基于分布式推理包括張量分解、距離模型和語義匹配模型。張量分解方法以RESCAL[36]為主,RESCAL通過張量進行分解,得到實體和關系類型的嵌入式表示,反映了實體或關系領域結構的相似性,但該法效果有限。Bordes等[37]提出了TransE模型,TransE將所有的實體和關系映射為低維的向量,之后判斷兩個嵌入點平移后能否重合,若能,則關系存在。TransE效果較好,但是平移轉化要求嚴格,難以對抗噪聲。García-Durán等[38]提出語義匹配模型TATEC,主要是對知識圖譜中的二元語義和三元語義進行匹配,以此衡量關系是否合理并構建線性優化目標,但此法不能捕捉非線性語義關系。神經網絡能有效捕捉非線性語義關系,它通過非線性變換將輸入數據的特征分布從原始空間轉換到另一個特征空間,并自動學習特征表示。Shi等[39]提出了共享變量神經網絡模型進行知識推理。Neelakantan等[40]提出采用PRA來尋找邏輯關系路徑,并以遞歸神經網絡為模型來建模關系路徑。RNN的引入提高了模型的泛化能力,使其可用于處理訓練數據中未觀測到的新關系。但是由于第2個實體必須由推斷獲得,因此該法不適用于復雜任務。而Li等[41]針對這個問題提出了一種基于多代理和強化學習的路徑推理方法,即MARLPaR。2個代理分別以迭代的方式進行關系選擇和實體選擇,從而實現復雜的推理任務。

知識推理從已有的三元組中推斷出未知關系,為特定領域內的知識圖譜提供有效的關聯發現能力,輔助糧情進行決策支持。

3 實現

通過調研,本文采用聯合糧情詞典與Flat-lattice[42]的方法從多源異構數據中抽取糧情實體實現構建基于知識圖譜的糧情決策系統的第一步。

3.1 語料準備

3.1.1 文本收集

本文語料主要來源于糧食大辭典[43]與知網爬取獲得的糧食文本形成糧情數據集。糧情詞典是由新詞發現算法結合分詞工具對糧食大辭典進行分詞,之后經過篩選得到的領域內專業術語。

3.1.2 類別劃分

本文將糧情數據的中文實體類別劃分為14類。其實體類別如表2所示。

表2 實體類別

3.1.3 標注實體

選取部分語料,采用BIOES標注方法對33 346條數據進行實體語料標注。

3.1.4 特征分析

如表3所示,糧情數據集在實體類型和專業性等方面與通用數據集相比都有很大不同,除了無明確邊界外,該數據集有幾個特點:實體類別多,該數據集包含14個實體類別;專業性強、領域內未登錄詞多,在數據集中存在大量專業術語和未登錄的糧情術語,如“褐胚”、“酸敗”和“玉米象”等。而現有分詞工具對領域內專有名詞不敏感以及無法對未登錄詞進行正確分割,很容易導致分詞錯誤,從而降低實體識別精度;數據集中存在一些嵌套實體,如“玉米象”與“玉米”,很容易造成模型誤判。

針對糧情數據集的特點,本文提出了結合糧情詞典與Flat-lattice做實體抽取。糧情詞典的引入提高了Flat-lattice識別糧情領域內未登錄詞與專業名詞的性能,同時輔助Flat-lattice更好地避免分詞錯誤和充分利用詞信息。

表3 糧情數據集樣例

3.2 flat-lattice模型

漢字格結構對利用詞信息和避免分詞的錯誤傳播有很大的好處。因此將一個句子與一個詞典進行匹配,得到其中的潛詞。如圖4所示。格是一個有向無環圖,其中每個節點都是一個字符或一個潛在的字。格包括句子中的一系列字符和可能的單詞。單詞的第一個字符和最后一個字符決定了它的位置。本文采用Transformer對序列中的長距離依賴進行建模,引入序列中的每個token的位置表示保存位置信息。為1個標記(字符或單詞)分配了2個位置索引:頭位置和尾位置,通過這2個索引,既可以從1組標記重構出1個格子,也可以把1個格子壓成1個平面。如圖5所示。因此,可以直接使用Transformer對格子輸入進行完整的建模。

圖4 漢字格子結構舉例

圖5 格子轉為平面結構

算法流程為:

輸入:輸入的字符與糧情字典里的詞進行匹配,與原始文本一起形成Token,由Token映射出頭位置索引head和尾位置索引tail。

初始化可學習參數,Wr,Wq,WK,R,WK,E,u,V。

對于格子中的兩個跨xi和xj,通過式(1)~式(4)計算它們之間的區間相對位置距離,

(1)

(2)

(3)

(4)

(5)

式中:Wr是一個可學習的參數,⊕表示連接算子,Pd計算如式(6)和式(7):

(6)

(7)

式中:k為位置編碼的維數指標。

(8)

式中:Wq,WK,E,WE,R∈Rdmodel×dhead,u,V∈Rdhead是可學習參數。

Flat之后,將字符表示形式帶入輸出層,后面接條件隨機場,從而得到命名實體識別結果。

3.3 實驗結果

3.3.1 模型實驗結果

表4為基于糧情詞典和Flat-lattice的命名實體識別模型在糧情數據集上的實驗結果,并同中文命名實體識別常用的基于字符的CRF,Bilstm-CRF模型以及無糧情詞典的Flat-lattice模型的實驗結果進行了對比。與傳統的方法相比,基于糧情詞典的Flat-lattice模型的實體識別效果有了很大的提升。相對于沒有糧情詞典的Flat-lattice模型,有糧情詞典的模型能將F1值從89.96%提高到94.29%。

表4 實驗結果對比

3.3.2 糧情詞典的影響

實驗結果顯示,隨著訓練次數的增加,無糧情詞典的模型與有糧情詞典的模型F1值、準確率和召回率都逐漸提高。無糧情詞典的模型的精確率、召回率、F1值分別為93.39%、86.78%、89.96%,而加入糧情詞典后,則將精確率、召回率、F1值分別提高了2.65%、5.92%、4.33%,且有糧情詞典的模型收斂速度更快。糧情詞典對糧情實體抽取任務效果的提高起到了一定的幫助作用。

4 總結與展望

通過對以往的糧情決策支持系統的研究發現,當前糧食及相關行業的決策支持技術存在獲取和添加知識困難、難以利用先驗知識等不足。本實驗針對這些不足提出了基于知識圖譜的糧情決策支持技術,并采用糧情詞典與Flat-lattice結合的方法從多源異構數據中抽取出糧情實體用于后續構建基于知識圖譜的糧情決策支持。經過實驗,結合糧情詞典與Flat-lattice抽取實體F1值最高達到94.29%。

將知識圖譜技術用于決策支持,既能挖掘出數據間的深層關聯關系,還能有效利用先驗知識進行輔助決策。構建糧情知識圖譜決策支持系統不僅能為儲糧安全提供信息保障,為農民提供科學決策,還能為科研人員提供研究參考。同時構建基于知識圖譜的糧情決策支持也是智能農業的一部分,更是響應國家提出的“農業信息化”的號召。盡管對基于知識圖譜的糧情決策支持系統做了很多嘗試,但是還不夠深入和完善,需要更進一步的研究。未來研究團隊將探索如何從多源異構數據中自動化構建糧情知識圖譜,并深入研究如何利用知識圖譜的知識進行糧情決策。

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 又爽又大又光又色的午夜视频| 四虎影视库国产精品一区| 熟女成人国产精品视频| 国产激爽大片在线播放| 国产九九精品视频| 97人人做人人爽香蕉精品| 亚洲人成影院午夜网站| 亚洲AV无码久久精品色欲| 91麻豆国产视频| 国产精品浪潮Av| 91精品啪在线观看国产91| 国产制服丝袜91在线| jizz国产视频| 77777亚洲午夜久久多人| 欧美一区二区三区欧美日韩亚洲| 亚洲中文字幕国产av| 亚洲精品在线91| 人妻精品全国免费视频| 亚洲第一页在线观看| 欧美日韩国产系列在线观看| 青青草a国产免费观看| 国产综合精品日本亚洲777| 日本午夜精品一本在线观看 | 99免费在线观看视频| 亚洲第一网站男人都懂| 欧美有码在线| 一本无码在线观看| 久久综合干| 久久久国产精品无码专区| 日韩欧美国产另类| 国产微拍一区二区三区四区| 国产日韩欧美在线播放| 99尹人香蕉国产免费天天拍| 日韩av手机在线| 国产男女免费视频| 99精品免费欧美成人小视频| 四虎国产精品永久一区| 好吊日免费视频| 亚洲欧洲美色一区二区三区| 午夜国产理论| 免费一极毛片| 麻豆精品国产自产在线| 丝袜国产一区| 国产在线观看99| 欧美日韩国产在线观看一区二区三区 | 亚洲高清国产拍精品26u| 国产亚洲欧美在线专区| 国产在线八区| 欧美α片免费观看| 国产网站免费| 中文字幕永久在线观看| 久久久久人妻一区精品色奶水 | 91在线播放国产| 色九九视频| 毛片网站在线看| 久久精品无码一区二区国产区| 国产成人精品2021欧美日韩| 亚洲欧美另类久久久精品播放的| 日韩国产 在线| 欧美日韩中文国产| 欧美天天干| 在线亚洲精品自拍| 日本亚洲成高清一区二区三区| 成人精品午夜福利在线播放| 少妇极品熟妇人妻专区视频| 亚洲成a人在线播放www| 女人18毛片久久| 亚洲天堂区| 色视频久久| 在线无码九区| 国产成人精品免费视频大全五级| 亚洲综合色婷婷中文字幕| 99热这里都是国产精品| 国产精品大白天新婚身材| 中国精品自拍| 国产亚洲精久久久久久久91| 青青极品在线| 99re精彩视频| 2019年国产精品自拍不卡| 一级成人欧美一区在线观看| 亚洲成人黄色在线| 97青草最新免费精品视频|