999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于實體級遮蔽BERT與BiLSTM-CRF的農業命名實體識別

2022-11-13 07:57:04韋紫君胡小春陳寧江
農業工程學報 2022年15期
關鍵詞:語義農業信息

韋紫君,宋 玲,胡小春,陳寧江,3

基于實體級遮蔽BERT與BiLSTM-CRF的農業命名實體識別

韋紫君1,宋 玲2,3※,胡小春4,陳寧江1,3

(1. 廣西大學計算機與電子信息學院,南寧 530004;2.南寧學院信息工程學院,南寧 530200;3. 廣西多媒體通信與網絡技術重點實驗室,南寧 530004;4.廣西財經學院信息與統計學院,南寧 530007)

字符的位置信息和語義信息對命名方式繁雜且名稱長度較長的中文農業實體的識別至關重要。為解決命名實體識別過程中由于捕獲字符位置信息、上下文語義特征和長距離依賴信息不充足導致識別效果不理想的問題,該研究提出一種基于EmBERT-BiLSTM-CRF模型的中文農業命名實體識別方法。該方法采用基于Transformer的深度雙向預訓練語言模型(Bidirectional Encoder Representation from Transformers,BERT)作為嵌入層提取字向量的深度雙向表示,并使用實體級遮蔽策略使模型更好地表征中文語義;然后使用雙向長短時記憶網絡(Bidirectional Long Short-Term Memory,BiLSTM)學習文本的長序列語義特征;最后使用條件隨機場(Conditional Random Field,CRF)在訓練數據中學習標注約束規則,并利用相鄰標簽之間的信息輸出全局最優的標注序列。訓練過程中使用了焦點損失函數來緩解樣本分布不均衡的問題。試驗在構建的語料庫上對農作物品種、病害、蟲害和農藥4類農業實體進行識別。結果表明,該研究的EmBERT-BiLSTM-CRF模型對4類農業實體的識別性能相較于其他模型有明顯提升,準確率為94.97%,1值為95.93%。

農業;命名實體識別;實體級遮蔽;BERT;BiLSTM;CRF

0 引 言

隨著信息化技術的快速發展,農戶通過線上智能問答解決線下農業問題已成為趨勢。面對龐大的問答數據,如何對數據進行分類、關鍵詞定位、深層語義關系挖掘是實現智能問答的關鍵,同時也是自然語言處理(Natural Language Processing,NLP)和農業大數據智能研究領域的熱點研究方向[1]。命名實體識別[2](Named Entity Recognition,NER)是自然語言處理、智能問答[3]和知識圖譜構建[4]等領域的關鍵技術,其主要任務是從非結構化文本中識別出有意義的名詞或短語并加以歸類,而農業命名實體識別任務則是識別出農業文本中的相關實體,如農作物品種、病害、蟲害和農藥名稱等。當前中文農業命名實體識別存在以下兩方面的問題:一是農業知識數據尤其是標記好的數據集難以獲得,導致模型性能和準確率達不到預期效果;二是農業實體命名方式繁雜多變且名稱長度較長,并缺乏標準的數據集和構詞規范,難以對農業語料進行分詞、分類、語義挖掘等操作。

早期的命名實體識別研究大多是基于規則的方法[5-6],先根據特定領域知識手工設計規則并做成詞典,然后通過模式匹配等方式來實現命名實體識別。此類方法高度依賴人工設計規則,對語料庫與標準構詞規范的依賴性很高,難以準確識別構詞復雜的命名實體。隨著機器學習的應用,開始將命名實體識別任務建模為多分類任務或序列標注任務,訓練模型從標記好的數據中學習實體的命名模式,再對未標記數據進行命名實體預測。文獻 [7]提出基于條件隨機場(Conditional Random Field,CRF)的農作物病蟲害及農藥命名實體識別方法,利用標注后的數據訓練CRF模型并對語料進行分類。文獻[8]使用BIO(Begin, Inside, Outside)和BMES(Begin, Middle, End, Single)2種標注方式,根據不同分類進行特征選取,再基于CRF模型對農業命名實體進行識別。上述方法通常需要大規模的標注語料,而中文農業命名實體識別任務的標準語料庫難以獲得,增加了農業實體的識別難度,影響識別效果。

利用深度神經網絡自主學習深層語義特征,為命名實體識別任務提供了更多可借鑒的方法[9]。循環神經網絡(RNN,Recurrent Neural Network)+CRF和卷積神經網絡(CNN,Convolutional Neural Network)+RNN+CRF 2種網絡結構開始被廣泛應用于命名實體識別任務。RNN+CRF結構[10-11],將帶有語義信息的字符嵌入輸入到RNN(如雙向長短時記憶網絡(Bidirectional Long Short-Term Memory,BiLSTM)、雙向門控神經網絡)中,進一步學習文本的長序列語義特征;再使用CRF輸出全局最優的標注序列。文獻[12]利用連續詞袋模型預訓練字向量,并引入文檔級注意力機制獲取實體間的相似信息,基于BiLSTM-CRF模型構建農業命名實體識別框架,解決農業中分詞不準確和實體標注不一致的問題。文獻[13]針對漁業領域命名實體長度較長的特點,使用長短時記憶網絡(LSTM,Long Short-Term Memory)學習長距離依賴信息,并將標記信息融入CRF模型,構建Character+LSTM+CRF漁業實體識別模型,解決漁業實體較長造成識別效果較差的問題。CNN+RNN+CRF結構[14-15],通常是在RNN+CRF結構的基礎上,先利用CNN提取具有漢字偏旁部首特征信息的部首嵌入,再將部首嵌入與帶有語義信息的字符嵌入相結合作為最終的輸入,同時考慮中文字符的部首信息和語義信息。文獻[16]采用基于部首嵌入和注意力機制的農業病蟲害命名實體識別模型,將部首嵌入與字符嵌入結合作為輸入,采用不同尺寸窗口的卷積神經網絡提取不同尺度的局部上下文信息,基于BiLSTM-CRF框架對農業病蟲害實體進行識別,緩解了農業中內在語義信息缺失的問題。上述方法均使用Word2Vec[17-18]模型作為嵌入層,而Word2Vec輸出的是上下文無關的淺層特征向量,因此無法表征一詞多義。中文里不少詞匯都具有一詞多義,并且中文農業命名實體具有構詞復雜和實體長度較長的特點,因此字符的位置和上下文依賴信息至關重要,而上述方法無法充分考慮以上2種信息,就會影響識別效果。預訓練語言模型(BERT[19]、ERNIE[20]等),通過預訓練字向量的深度雙向表示,進一步提高了命名實體識別的性能。文獻[21]基于外部詞典和BERT模型,利用特征向量拼接的方式融合字級特征和詞典特征對農業領域的5類實體進行識別,提高了農業命名實體識別的性能。該方法利用外部詞典來輔助提取詞級特征,但基于詞典提取的詞級特征向量是固定的,即對于具有一詞多義的詞匯來說其不同語義得到的是相同的特征表示,因此并不能很好的區分其間的語義差異。并且基于詞典的方法具有一定的局限性,不能很好地處理輸入句子中出現詞典中不存在的詞。文獻[22]采用基于BERT+BiLSTM+Attention模型,利用BERT預訓練字向量,再融合BiLSTM與注意力機制去重點關注文本中的主要特征,解決中醫病歷文本有效信息識別和抽取困難的問題。文獻[23]采用融合注意力機制與BERT+BiLSTM+CRF模型,利用BERT提高模型語義表征能力和使用注意力機制計算序列詞間相關性,解決漁業標準定量指標識別準確率不高的問題。上述方法針對特定領域和具有明顯實體特征的命名實體識別效果較好,但不同領域的實體特征間存在差異,并且在農業中存在具有邊界模糊特點的命名實體,因此無法將以上方法直接應用于農業領域。

基于以上農業命名實體識別任務中缺少標準語料庫、模型無法充分表征中文語義和名稱長度較長的實體識別準確率低的問題,本文做了以下工作:1)基于權威農業信息網站的相關信息,構建一個中文農業命名實體識別語料庫;2)使用預訓練語言模型BERT作為嵌入層,從無標簽的文本中預訓練出字向量的深度雙向表示,并根據中文的特點改進原有的語言遮蔽方法,使用實體級遮蔽策略讓模型對文本中的完整實體進行遮蔽和預測,使模型更好地表征中文的語義;3)使用焦點損失函數緩解樣本分布不均衡問題,提高模型對難識別樣本的識別能力;4)使用BiLSTM-CRF模型作為下游任務模型,將BERT中獲取的字向量深度雙向表示序列輸入到雙向長短時記憶網絡(BiLSTM)中做進一步的語義編碼,學習文本的長序列語義特征;最后通過CRF層輸出概率最大的標注序列,實現農業命名實體的準確識別。并通過對比試驗,驗證本文方法對中文農業命名實體的有效識別。

1 數據集構建

1.1 數據獲取

本文語料是在各大權威農業信息網站(如中國作物種質信息網、中國農業信息網、中國農業知識網等)爬取的包含農作物病蟲害、農作物品種和農藥品種相關的文本。原始數據中包含大量非結構化數據,因此在數據標注前對原始數據進行預處理,包括非文本數據、鏈接及特殊字符刪除和去停用詞等操作,從而得到一個規范的語料庫。該語料庫包含37 243個農業領域的中文句子,29 790個農業類實體,共約180萬個中文字符。其中訓練集、驗證集和測試集按7:2:1的比例進行分配。語料庫信息如表1所示。

表1 語料庫信息

1.2 標注體系

本文采用BIO體系對語料進行標注,共設計9個標簽,分別是“B-CROP”、“I-CROP”、“B-DIS”、“I-DIS”、“B-PEST”、“I-PEST”、“B-PC”、“I-PC”、“O”。其中“B”表示實體名稱的開始,“I”表示實體名稱的內部,“O”表示非實體部分。實體類型表示如下:“CROP”表示農作物品種,“DIS”表示農作物病害,“PEST”表示農作物蟲害,“PC”表示農藥品種。語料標注示例如圖1所示。標注后的數據集有29 790個命名實體,其中農作物實體11 057個,農藥實體8 121個,病害實體4 505個,蟲害實體6 107個。

圖1 語料標注示例

2 農業命名實體識別方法的設計

2.1 方法流程及模型架構

農業命名實體識別方法流程如圖2所示,該方法主要分為中文農業命名實體識別語料庫構建、預訓練和下游NER模型訓練3個部分。該方法在預訓練中根據中文語義的特點改進了語言遮蔽方法,使用實體級遮蔽策略代替單個字符遮蔽策略,使訓練得到的模型能夠更好地表征中文語義。

圖2 農業命名實體識別方法流程

使用EmBERT-BiLSTM-CRF模型實現中文農業命名實體識別任務,模型由輸入層、BERT層、BiLSTM層和CRF層4部分組成。其中BERT層用于生成字向量的深度雙向表示;BiLSTM層用于挖掘文本的長序列語義信息,使模型充分考慮上下文語境;CRF層用于學習標注約束規則,并對BiLSTM的輸出進行標注合法性檢驗,最終輸出全局最優的標注序列,模型輸出的不是獨立的標簽序列,而是考慮規則和順序的最佳序列。模型結構如圖3所示。

2.2 BERT層和實體級遮蔽策略

BERT[19]是基于Transformer[24]的深度雙向預訓練語言模型,能夠通過對所有層的上下文進行聯合調節,從無標簽文本中預訓練出特征的深度雙向表示,使特征向量可充分表征上下文語義信息,可有效解決傳統Word2Vec模型無法解決的一詞多義問題。多數中文農業實體的命名方式繁雜多變且名稱長度較長,其識別過程中,每個字符的位置和語義信息是關鍵。BERT模型的輸入表示由字符的位置嵌入、段嵌入與token嵌入3種特征嵌入表示求和來構建的,充分考慮了字符的位置信息。預訓練期間使用遮蔽語言模型,使訓練得到的特征向量攜帶上下文語義信息,因此本文使用BERT作為模型的嵌入層。

圖3 EmBERT-BiLSTM-CRF模型結構

為訓練出深度雙向表示,采用對輸入文本進行隨機遮蔽的方式,讓模型預測那些被遮蔽的字符。BERT原有的遮蔽方法是使用單個[MASK]標志對文本中的單個字符進行遮蔽,但中文的一個實體往往是由多個中文字符組成的,如果依然使用原有的遮蔽方法則無法將整個實體完整遮蔽,導致模型在預測被遮蔽詞時會產生偏差,從而無法準確預測。因此本文將改進BERT原有的語言遮蔽方法,使用實體級遮蔽策略(Entity-level Masking,EM)對中文文本進行遮蔽。EM首先對文本進行中文分詞和利用實體詞典進行實體分析,然后使用多個連續的[MASK]標志對整個中文實體進行遮蔽,再讓模型預測完整實體中被[MASK]標志替換的所有字符,獲得實體級的特征信息,從而緩解在進行中文預測時因語義不完整造成的偏差。在訓練過程中,模型對全文中的實體進行隨機遮蔽,組成所有被遮蔽實體的中文字符共占全文總字符的15%。被選中遮蔽的實體中,80%被連續的[MASK]標志替換,10%被語料庫中任意的實體替換,10%保持不變。EM方法如圖4所示,示例如表2所示。

注:x1~ xn表示輸入序列中的字符。[MASK]表示當前字符被遮蔽。

表2 實體級遮蔽示例

由于使用了遮蔽策略,訓練過程中Transformer編碼器并不知道將預測哪些字符或哪些字符已經被替換,所以保留了所有字符的上下文分布表示,使每一個字符最終攜帶其上下文語義信息。并且實體級遮蔽策略能讓模型學習到實體級的特征信息,對于不同語義的同一實體或一個句子中不同位置的同一實體都能產生不同的特征向量,從而有效緩解中文中一詞多義的問題。

2.3 BiLSTM層

農業領域的實體命名中有不少病害和蟲害實體長度為8個或以上中文字符,例如“水稻東格魯病毒病”、“水稻菲島毛眼水蠅”、“水稻顯紋縱卷葉螟”等;農藥實體長度為7個或以上中文字符,例如“丁硫克百威乳油”、“吡蟲啉可濕性粉劑”等。農業命名實體具有較大的上下文長距離依賴性,因此利用BiLSTM網絡學習文本的長序列語義特征。

LSTM[27]只能捕獲當前時刻狀態之前的信息,無法捕獲之后的信息,因此無法同時考慮文本的上下文語境。雙向長短時記憶網絡(BiLSTM)[28-29]由前向LSTM和后向LSTM構成,前向LSTM利用上文的信息來預測當前詞,后向LSTM利用下文的信息來預測當前詞,因此可同時利用文本上下文信息,學習文本的長序列語義特征,提高模型的識別能力。

2.4 焦點損失函數

構建語料庫時,數據為基于爬蟲技術從網絡中爬取的各種文本信息,數據存在一定的隨機性,導致語料庫通常存在樣本分布不均衡的問題。例如語料庫中某一種標簽的樣本數量遠多于其他標簽的樣本數量,導致訓練過程中損失函數的分布失衡,使模型在訓練過程中傾向于樣本數量多的標簽,造成樣本數量少的標簽的識別性能較差。

為了緩解樣本分布不均衡帶來的問題,本文利用焦點損失函數[30](Focal Loss,FL)在訓練過程中平衡樣本的權重,通過減少易識別樣本在損失函數中的權重,讓模型更關注于難識別樣本。FL在交叉熵損失函數的基礎上加入權重參數和調制因子來平衡樣本分布,算法見公式(7)。

2.5 CRF層

BiLSTM的輸出相互獨立,無法考慮相鄰標簽之間的信息,直接使用BiLSTM的輸出結果預測標簽容易出現非法標注的問題,如表3所示。因此,本文在BiLSTM層之上加入CRF層來緩解標注偏置問題,從而提高序列標注的準確性。利用條件隨機場[31](CRF)在訓練數據中自動學習標注的約束規則,例如標注序列只能以“B-”或“O”開頭,不能以“I-”開頭;實體標注序列只能以“B-”開頭,不能以“O”或“I-”開頭;標注序列“B-label1 I-label2 I-label3...”中的labe1、label2、label3...應該為同一種標簽等,CRF將學習到的約束規則在預測時用于檢測標注序列是否合法。

表3 非法標注序列示例

序列標注中,CRF不僅考慮當前時刻的觀察狀態,也考慮之前時刻的隱藏狀態,因此能夠充分利用相鄰標簽之間的信息,使最終的輸出不是獨立的標簽序列,而是考慮規則和順序的最佳序列。設={1,2,3,…,x}為輸入的觀察序列,={1,2,3,…,y}為對應的輸出標注序列,CRF層在給定需要標注的觀察序列的條件下,計算整個序列的聯合概率分布,最終輸出一個全局最優的標注序列,算法見公式(8)。

3 試驗與結果分析

試驗數據集采用第1小節構建的農業命名實體識別語料庫,其中訓練集、驗證集和測試集的比例為7:2:1。采用實體級遮蔽策略的BERT模型(EmBERT),網絡層數為12層,隱藏層維度為768,多頭注意力機制中自注意力(Self Attention)頭的數量為12。下游模型中使用的雙向長短時記憶網絡(BiLSTM)的隱藏層維度(lstm_dim)為128。為預防過擬合同時提高模型的泛化能力,在模型中引入了Dropout[32]機制。

3.1 試驗設置

試驗過程中需要優化調整的參數主要有學習率(learning_rate)、失活率(dropout_rate)、批處理規模(batch_size)和迭代次數(epochs)。學習率過大容易導致模型的損失增大、準確率降低;學習率過小則容易導致模型的收斂速度下降,因此合適的學習率是模型整體獲得良好性能的保證。失活率是模型訓練時神經元不更新權重的概率,用于防止模型過擬合,通常失活率設置為0.5。批處理規模即每批次訓練的樣本數量,其在一定程度上影響模型的數據處理速度和收斂精度;batch_size過大模型容易收斂到一些較差的局部最優點上,batch_size過小則容易導致模型不收斂或需要很大的epochs才能收斂。epochs為模型進行全數據訓練的次數(如1個epoch表示模型完整訓練一次),通常需要多個epochs來保證模型獲得最好的學習效果。經過多次對比試驗得到的最優參數設置如下,使用Adam[33]優化器,learning_rate為7e-5,dropout_rate為0.5,batch_size為32,epochs為150。

3.2 評價指標

試驗采用召回率、準確率和1值來衡量模型的性能,評價指標計算公式如下:

式中TruePositive為準確識別的農業實體個數,ActualPositive為數據集中存在的農業實體總數,PredictPositive為識別出的農業實體總數。

3.3 結果與分析

面向農業領域4類實體(農作物、農藥、病害、蟲害),利用構建的農業命名實體識別語料庫,設置3組對比試驗驗證分析本文提出的農業命名實體識別方法的有效性。

1)不同遮蔽策略性能的比較分析

為驗證實體級遮蔽策略對提高中文農業命名實體推理和識別能力的有效性,分別對不使用遮蔽策略(No Masking)的模型Word2Vec+BiLSTM+CRF、使用字符級遮蔽策略(Word-level Masking(Chinese character))的模型Word-level Masking BERT+BiLSTM+CRF和使用實體級遮蔽策略(Entity-level Masking)的模型Entity-level masking BERT+BiLSTM+CRF進行對比試驗,試驗結果如表4所示。

表4 不同遮蔽策略試驗結果

由表4可看出,使用實體級遮蔽策略的模型性能最好,準確率達到了94.56%。此外,使用實體級遮蔽策略相較于使用字符級遮蔽策略,模型的準確率、召回率和1值分別提高了2.59、1.7和2.15個百分點;相較于不使用遮蔽策略,模型的準確率、召回率和F1值分別提高了5.79、2.08和4個百分點。不使用遮蔽策略時,模型輸出的字向量不包含上下文語義信息,難以解決一詞多義的問題,因此模型識別性能相對較弱,準確率僅為88.77%。使用字符級遮蔽策略,通過對文本中的字符進行隨機遮蔽,再讓模型預測被遮蔽的字符,使編碼器保留了每個字符的上下文分布表示,通過利用上下文信息在一定程度上解決了一詞多義的問題,因此模型識別性能有較好的提升,準確率為91.97%。與字符級遮蔽策略相比,實體遮蔽策略是對文本中的完整實體進行隨機遮蔽,再讓模型預測被遮蔽實體中所有被[MASK]標志替換的中文字符,使模型可以學習到完整的實體級語義信息,提高對中文語義的推理和表征能力,因此模型的性能得到了進一步的提升,準確率為94.56%。

2)不同損失函數性能的比較分析

為驗證焦點損失函數對提高中文農業命名實體識別能力的有效性,分別利用不同損失函數在EmBERT-BiLSTM-CRF模型上進行消融試驗,試驗結果如表5所示。

表5 不同損失函數試驗結果

注:CE為交叉熵損失,CRF為條件隨機場損失,FL為焦點損失。“√”表示模型中用到的損失函數。

Note: CE is the cross entropy loss, CRF is the conditional random field loss, FL is the focal loss. “√” indicates that the loss function is used in the model.

由試驗結果可看出,使用CRF損失+FL的模型識別性能最好,1值為95.93%。其中,使用交叉熵損失(Cross Entropy,CE)的模型在樣本分布不均衡時,損失函數的分布發生傾斜,使模型在訓練過程中傾向于樣本數量多的標簽,導致樣本數量少的標簽的識別效果較差,模型的整體識別性能較差,1值為91.20%。使用焦點損失(FL)的模型,在CE的基礎上加入權重參數和調制因子來在增大數量少的標簽樣本在損失函數中的權重,讓模型在訓練過程中傾向于難識別樣本,提高了模型對難識別樣本的識別能力,緩解了樣本分布不均衡導致數量少的標簽樣本識別效果較差的問題,因此相較于CE其識別性能有所提升,模型1值為91.89%。使用CRF損失的模型,通過計算標簽間的轉移分數來建模標簽轉移路徑,然后訓練模型最大化真實路徑的概率,讓模型利用相鄰標簽的信息來輸出最優的標注序列,因此相較于單獨使用CE和FL的模型,其識別性能有較大提升,模型1值達到95.50%。使用CRF損失+FL的模型涵蓋了CRF損失和FL的優點,不僅能緩解樣本分布不均衡帶來的問題還能利用相鄰標簽之間的信息,因此其識別性能優于上述所有模型,模型1值為95.93%。同時本文通過對FL中和的不同取值進行對比試驗,由試驗結果得出=0.25,=2.0時模型獲得最優性能,試驗結果如表6所示。

表6 FL不同α和γ的試驗結果

注:為權重因子,為聚焦參數。

Note:is the weighting factor,is the focusing parameter.

3)不同模型性能的比較分析

為驗證EmBERT-BiLSTM-CRF模型對中文農業命名實體識別的性能,分別與BiLSTM、LSTM-CRF[13]、BiLSTM-CRF[28]和BERT-BiLSTM-CRF模型進行對比試驗,試驗結果如表7所示。由試驗結果可看出,本文模型的識別性能優于其他對比模型。

表7 不同模型試驗結果

注:EmBERT-BiLSTM-CRF*為使用了實體級遮蔽策略但沒有使用FL的模型。EmBERT-BiLSTM-CRF為使用了實體級遮蔽策略和FL的模型。

Note: EmBERT-BiLSTM-CRF* is a model that uses an entity-level masking strategy but does not use FL. EmBERT-BiLSTM-CRF is a model that uses an entity-level strategy and FL.

BiLSTM模型的輸出相互獨立,在進行標簽預測時會出現標注偏置問題,因此其識別效果相對較差,模型1值為89.55%。LSTM-CRF和BiLSTM-CRF模型在LSTM和BiLSTM模型的基礎上增加了CRF層,通過學習標注約束規則和利用相鄰標簽的信息,獲得一個全局最優的標注序列來緩解標注偏置問題,與模型①相比,增加了CRF層的模型②③識別效果有所提升,1值分別為91.04%、91.50%。BERT-BiLSTM-CRF模型在BiLSTM-CRF模型的基礎上引入了BERT預訓練語言模型作為嵌入層,使模型更充分的考慮了字符的位置信息和上下文語義信息,與模型①②③相比其識別效果有所提升,1值為93.35%。

EmBERT-BiLSTM-CRF*模型不僅使用了BERT作為嵌入層學習字符的深度雙向表示,并且根據中文語義的特點改進了語言遮蔽方法,使用實體級遮蔽策略(EM)對文本中的實體進行完整的遮蔽和預測,使模型能更好地表征中文語義,其識別效果相較于模型①②③④有了較大提升,1值為95.50%。EmBERT-BiLSTM-CRF模型在EmBERT-BiLSTM-CRF*的基礎上引入焦點損失函數來緩解樣本分布不均衡問題,通過增大數量少的標簽樣本在損失函數中的權重,讓模型在訓練過程中更關注難識別樣本,提高模型對難識別樣本的識別能力,模型的識別效果優于上述所有模型,1值為95.93%。試驗驗證了在中文農業命名實體識別的過程中,字符的位置信息和提高模型對實體完整語義的推理能力,對于農業實體的準確識別起到重要作用。

圖5為不同模型對于農業領域4類命名實體識別的效果。從圖5中可以看到,在所有實體類別中各個模型對農作物、農藥和蟲害實體的識別效果相對較好,對病害實體的識別效果相對較差。通過分析得到,蟲害和農藥實體的識別效果較好是因為農藥實體大多以“劑”、“乳油”等字詞結尾,蟲害實體大多以“虱”、“蟲”、“蟬”、“蚜”等字結尾,這兩類實體均具有較為明顯的實體特征,從而使模型對于這兩類實體的識別效果較好。農作物實體的長度相對較短,大多為2至3個中文字符,因此模型對農作物實體特征的捕獲更完整,對其識別效果也相對較好。病害實體中存在一些類似于“水稻倒伏”、“小麥混雜退化”、“花生爛種”等實體特征不太明顯的實體,并且大多數病害實體存在實體嵌套的現象,例如“玉米圓斑病”、“水稻惡苗病”、“水稻東格魯病毒病”等,這使得模型對于病害實體識別的效果相對較差。本文的EmBERT-BiLSTM-CRF模型對病害實體的識別準確率均高于其他幾個模型,說明使用實體級遮蔽策略對實體進行完整遮蔽和預測,使模型更充分地捕獲和表征字符的完整語義信息,從而提高農業命名實體的識別效果。

圖5 不同模型對4類農業命名實體識別結果

4 結 論

本文針對中文農業命名實體長度較長且命名方式繁雜多變,導致識別準確率較低的問題,提出基于EmBERT-BiLSTM-CRF模型的農業命名實體識別方法。通過使用BERT(Bidirectional Encoder Representation from Transformers)預訓練語言模型作為嵌入層,充分考慮字符的位置信息和上下文語義信息,并根據中文語義的特點改進了BERT原有的語言遮蔽方法,使用實體級遮蔽策略讓模型對中文實體進行完整遮蔽,學習獲得實體級的特征信息,從而緩解模型在預測時因語義不完整造成的偏差,增強模型對中文語義的表征能力。同時在訓練過程中使用焦點損失函數,增大數量少的標簽樣本在損失函數中的權重,提高模型對難識別樣本的識別能力。利用雙向長短時記憶網絡學習文本的長距離依賴信息,再使用條件隨機場去獲得全局最優標注序列,使得整個模型的識別效果得到了明顯提升。模型的準確率為94.97%,召回率為96.92%,1值為95.93%。由于農業實體中存在著實體嵌套和實體特征不明顯的問題,因此本文的下一步研究方向將著重于對實體特征不明顯、實體邊界模糊的實體的識別方法的研究。

[1] 金寧,趙春江,吳華瑞,等. 基于BiGRU_MulCNN的農業問答問句分類技術研究[J]. 農業機械學報,2020,51(5):199-206.

Jin Ning, Zhao Chunjiang, Wu Huarui, et al. Classification technology of agricultural questions based on BiGRU_MulCNN[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(5): 199-206. (in Chinese with English abstract)

[2] Li J, Sun A, Han J, et al. A survey on deep learning for named entity recognition[J]. IEEE Transactions on Knowledge and Data Engineering, 2020, 34(1): 50-70.

[3] Mollá D, van Zaanen M, Smith D. Named entity recognition for question answering[C]// Proceedings of the Australasian Language Technology Workshop 2006, Carlton, Vic, Australasian Language Technology Association, 2006: 51-58.

[4] 吳賽賽,周愛蓮,謝能付,等. 基于深度學習的作物病蟲害可視化知識圖譜構建[J]. 農業工程學報,2020,36(24):177-185.

Wu Saisai, Zhou Ailian, Xie Nengfu, et al. Construction of visualization domain-specific knowledge graph of crop diseases and pests based on deep learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(24): 177-185. (in Chinese with English abstract)

[5] Hanisch D, Fundel K, Mevissen H T, et al. ProMiner: Rule-based protein and gene entity recognition[J]. BMC Bioinformatics, 2005, 6(1): 1-9.

[6] Kim J H, Woodland P C. A rule-based named entity recognition system for speech input[C]// Sixth International Conference on Spoken Language Processing, Beijing, China, ISCA, 2000: 521-524

[7] 李想,魏小紅,賈璐,等. 基于條件隨機場的農作物病蟲害及農藥命名實體識別[J]. 農業機械學報,2017,48(S1):178-185.

Li Xiang, Wei Xiaohong, Jia Lu, et al. Recognition of crops, diseases and pesticides named entities in Chinese based on conditional random fields[J]. Transactions of the Chinese Society for Agricultural Machinery, 2017, 48(S1):178-185. (in Chinese with English abstract)

[8] 王春雨,王芳. 基于條件隨機場的農業命名實體識別研究[J]. 河北農業大學學報,2014,37(1):132-135.

Wang Chunyu, Wang Fang. Study on recognition of chinese agricultural named entity with conditional random fields[J]. Journal of Agricultural University of Hebei, 2014, 37(1): 132-135. (in Chinese with English abstract)

[9] Zhai F, Potdar S, Xiang B, et al. Neural models for sequence chunking[C]//Proceedings of the AAAI Conference on Artificial Intelligence, San Francisco, California, USA, AAAI, 2017: 3365-3371.

[10] Gridach M. Character-level neural network for biomedical named entity recognition[J]. Journal of Biomedical Informatics, 2017, 70: 85-91.

[11] Dong C, Zhang J, Zong C, et al. Character-based LSTM-CRF with radical-level features for Chinese named entity recognition[M]//Natural Language Understanding and Intelligent Applications. Cham: Springer, 2016: 239-250.

[12] 趙鵬飛,趙春江,吳華瑞,等. 基于注意力機制的農業文本命名實體識別[J]. 農業機械學報,2021,52(1):185-192.

Zhao Pengfei, Zhao Chunjiang, Wu Huarui, et al. Research on named entity recognition of Chinese Agricultural based on attention mechanism[J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(1): 185-192. (in Chinese with English abstract)

[13] 孫娟娟,于紅,馮艷紅,等. 基于深度學習的漁業領域命名實體識別[J]. 大連海洋大學學報,2018,33(2):265-269.

Sun Juanjuan, Yu Hong, Feng Yanhong, et al. Recognition of nominated fishery domain entity based on deep learning architectures[J]. Journal of Dalian Ocean University, 2018, 33(2): 265-269. (in Chinese with English abstract)

[14] Shen Y, Yun H, Lipton Z C, et al. Deep active learning for named entity recognition[C]//Proceedings of the 2nd Workshop on Representation Learning for NLP, Vancouver, Canada, Association for Computational Linguistics, 2017: 252-256.

[15] 李麗雙,郭元凱. 基于CNN-BLSTM-CRF模型的生物醫學命名實體識別[J]. 中文信息學報,2018,32(1):116-122.

Li Lishuang, Guo Yuankai. Biomedical named entity recognition with CNN-BLSTM-CRF [J]. Journal of Chinese information Processing, 2018, 32(1):116-122. (in Chinese with English abstract)

[16] 郭旭超,唐詹,刁磊,等. 基于部首嵌入和注意力機制的病蟲害命名實體識別[J]. 農業機械學報,2020,51(S2):335-343.

Guo Xuchao, Tang Zhan, Diao Lei, et al. Recognition of chinese agricultural diseases and pests named entity with joint adical-embedding and self-attention mechanism[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(S2): 335-343. (in Chinese with English abstract)

[17] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[EB/OL]. (2013.09.07) [2022.06.29]. https://doi.org/10.48550/arXiv.1301.3781.

[18] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]// Advances in Neural Information Processing Systems, Lake Tahoe, US: MIT Press, 2013, 26: 3111-3119.

[19] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Minneapolis, Minnesota, 2019: 4171-4186.

[20] Sun Y, Wang S, Li Y, et al. Ernie: Enhanced representation through knowledge integration[EB/OL]. (2019.04.09) [2022.06.29]. https://doi.org/10.48550/arXiv.1904.09223.

[21] 趙鵬飛,趙春江,吳華瑞,等. 基于 BERT 的多特征融合農業命名實體識別[J]. 農業工程學報,2022,38(3):112-118.

Zhao Pengfei, Zhao Chunjiang, Wu Huarui, et al. Recognition of the agricultural named entities with multi-feature fusion based on BERT[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(3): 112-118. (in Chinese with English abstract)

[22] 杜琳,曹東,林樹元,等. 基于BERT與Bi-LSTM融合注意力機制的中醫病歷文本的提取與自動分類[J]. 計算機科學,2020,47(S2):416-420.

Du Lin, Cao Dong, Lin Shuyuan, et al. Extraction and automatic classification of TCM medical records based on attention mechanism of BERT and Bi-LSTM[J]. Computer Science, 2020, 47(S2): 416-420. (in Chinese with English abstract)

[23] 任媛,于紅,楊鶴,等. 融合注意力機制與BERT+ BiLSTM+CRF模型的漁業標準定量指標識別[J]. 農業工程學報,2021,37(10):135-141.

Ren Yuan, Yu Hong, Yang He, et al. Recognition of quantitative indicator of fishery standard using attention mechanism and the BERT+BiLSTM+CRF model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(10): 135-141. (in Chinese with English abstract)

[24] Ashish V, Noam S, Niki P,et al.Attention is all you need[C]//Advances in Neural Information Processing Systems, Long Beach, California, USA, Curran Associates Inc, 2017: 6000-6010.

[25] Hasim A, Andrew S, Fran?oise B. Long short-term memory based recurrent neural network architectures for large vocabulary speech recognition[J]. Computer Science, 2014, 4(1):338-342.

[26] Felix A, Jürgen S. Lstmrecurrent networks learn simple context-free and context-sensitive languages[J]. IEEE Transactions on Neural Networks, 2001, 12(6): 1333-1340.

[27] Hammerton J. Named entity recognition with long short-term memory[C]//Proceedings of the Seventh Conference on Natural language learning at HLT-NAACL 2003, Edmonton, Canada, Association for Computational Linguistics, 2003: 172-175.

[28] Graves A, Mohamed A, Hinton G. Speech recognition with deep recurrent neural networks[C]//2013 IEEE International Conference on Acoustics, Speech and Signal Processing, Vancouver, BC, Canada, IEEE, 2013: 6645-6649.

[29] Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF models for sequence tagging[J]. Computer Science, 2015, 4(1): 1508-1519.

[30] Lin T, Priya G, Ross G, et al. Focal Loss for Dense Object Detection[C]// 2017 IEEE International Conference on Computer Vision (ICCV), Venice, Italy, IEEE, 2017: 2999-3007.

[31] Lafferty J, McCallum A, Pereira F C N. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]// Proceedings of the 18th International Conference on Machine Learning 2001, San Francisco, CA, USA, Morgan Kaufmann Publishers Inc, 2001: 282-289.

[32] Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: A simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research, 2014, 15(1): 1929-1958.

[33] Kingma D, Ba J. Adam: A method for stochastic optimization[C]// Proceedings of the 3rd International Conference on Learning Representations, San Diego, CA, 2015: 1-15.

Named entity recognition of agricultural based entity-level masking BERT and BiLSTM-CRF

Wei Zijun1, Song Ling2,3※, Hu Xiaochun4, Chen Ningjiang1,3

(1.530004; 2.530200,;3530004; 4.530007)

An intelligent question-answering of agricultural knowledge can be one of the most important parts of information agriculture. Among them, named entity recognition has been a key technology for intelligent question-answering and knowledge graph construction in the fields of agricultural domain. It is also a high demand for the accurate identification of named entities. Furthermore, the Chinese named entity recognition can be confined to the location and semantic information of characters, due to the long length of agricultural entity and complex naming. Therefore, it is very necessary to improve the recognition performance in the process of named entity recognition, particularly for the sufficient capture of character position, contextual semantic features, and long-distance dependency information. In this study, a novel Chinese named entity recognition of agriculture was proposed using EmBERT-BiLSTM-CRF model. Firstly, the Bidirectional Encoder Representation from Transformers (BERT) pre-trained language model was applied as the layer of word embedding. The context semantic representation of the model was then improved to alleviate the polysemy, when pre-training the depth bidirectional representation of word vectors. Secondly, the language masking of BERT was enhanced significantly, according to the characteristics of Chinese. An Entity-level Masking strategy was utilized to completely mask the Chinese entities in the sentence with the consecutive tokens. The Chinese semantics was then better represented to alleviate the bias caused by incomplete semantics. Thirdly, the Bidirectional Long Short-Term Memory Network (BiLSTM) model was adopted to learn the semantic features of long-sequence using two LSTM networks (forward and backward), considering the contextual information in both directions at the same time. The long-distance dependency information of text was then captured during this time. Finally, the Conditional Random Field (CRF) was used to learn the labelling constraint in the training data. Among them, the learned constraint rules were used to detect whether the label sequence was legal during prediction. After that, the CRF also utilized the information of adjacent labels to output the globally optimal label sequence. Thus, the output of the model was a dependent label sequence, but an optimal sequence was considered the rules and order. A focal loss function was also used to alleviate the unbalanced sample distribution. A series of experiments were performed to construct the corpus of named entity recognition. As such, the corpus contained a total of 29 790 agricultural entities after BIO labelling, including 11 057 crops, 8 121 pesticides, 4 505 diseases, and 6 107 pest entities, in which the training, validation, and test set were divided, according to the ratio of 7:2:1. Four types of agricultural entities from the text were identified, including the crop varieties, pesticides, diseases, and insect pests, and then to label them. The experimental results show that the recognition accuracy of the EmBERT-BiLSTM-CRF model for the four types of entities was 94.97%, and the F1 score was 95.93%. Which compared with the models based on BiLSTM-CRF and BERT-BiLSTM-CRF, the recognition performance of EmBERT-BiLSTM-CRF is significantly improved, proved that used pre-trained language model as the a word embedding layer can represent the characteristics of characters well and the Entity-level Masking strategy can alleviate the bias caused by incomplete semantics, thereby enhanced the Chinese semantic representation ability of the model, so that enabling the model to more accurately identify Chinese agricultural named entities. This research can not only provide arelatively high entity recognition accuracy for tasks such as agricultural intelligence question answering, but also offer new ideas for the identification of Chinese named entities in fishery, animal husbandry, Chinese medical, and biological fields.

agriculture; named entity recognition; entity-level masking; BERT; BiLSTM; CRF

10.11975/j.issn.1002-6819.2022.15.021

TP391

A

1002-6819(2022)-15-0195-09

韋紫君,宋玲,胡小春,等. 基于實體級遮蔽BERT與BiLSTM-CRF的農業命名實體識別[J]. 農業工程學報,2022,38(15):195-203.doi:10.11975/j.issn.1002-6819.2022.15.021 http://www.tcsae.org

Wei Zijun, Song Ling, Hu Xiaochun, et al. Named entity recognition of agricultural based entity-level masking BERT and BiLSTM-CRF[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(15): 195-203. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.15.021 http://www.tcsae.org

2021-12-20

2022-06-29

國家重點研發計劃課題(2018YFB1404404);廣西重點研發計劃項目(桂科AB19110050);南寧市科技重大專項(20211005)

韋紫君,研究方向為自然語言處理。Email:1034268781@qq.com

宋玲,教授,研究方向為物聯網及大數據計算。Email:731486203@qq.com

猜你喜歡
語義農業信息
國內農業
今日農業(2022年1期)2022-11-16 21:20:05
國內農業
今日農業(2022年3期)2022-11-16 13:13:50
國內農業
今日農業(2022年2期)2022-11-16 12:29:47
擦亮“國”字招牌 發揮農業領跑作用
今日農業(2021年14期)2021-11-25 23:57:29
語言與語義
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 国产精品一老牛影视频| 亚洲人成成无码网WWW| 亚洲第一页在线观看| 国产欧美综合在线观看第七页| 成人综合久久综合| 国产日韩欧美在线视频免费观看| 中文字幕一区二区视频| 欧美不卡视频在线| 国产美女精品在线| 久热re国产手机在线观看| 国产成人综合亚洲欧洲色就色| 亚洲欧洲天堂色AV| 欧美日韩高清在线| 亚洲欧洲国产成人综合不卡| 国内精品视频在线| 国产精品蜜芽在线观看| 国产剧情国内精品原创| 日韩在线1| 99激情网| 久久成人国产精品免费软件| 欧美色丁香| 国产精品私拍99pans大尺度| 毛片免费观看视频| 亚洲第七页| 一级片一区| 人人爽人人爽人人片| yjizz国产在线视频网| 国产精品免费p区| 国产精品视频猛进猛出| 亚洲女人在线| 亚洲中文字幕国产av| 欧美成人精品在线| 狠狠色丁婷婷综合久久| 77777亚洲午夜久久多人| 久久久久久久久亚洲精品| 69国产精品视频免费| 久久精品中文字幕免费| 亚洲不卡av中文在线| 国产麻豆福利av在线播放| 久久网综合| 99精品视频九九精品| 日韩黄色大片免费看| 久久黄色一级视频| 国产av一码二码三码无码| 国产人成乱码视频免费观看| 中文字幕日韩久久综合影院| 精品人妻无码区在线视频| 国产草草影院18成年视频| 91福利一区二区三区| 亚洲色精品国产一区二区三区| 亚洲天堂久久| 老司国产精品视频| 日本不卡视频在线| 欧美成人一区午夜福利在线| 曰AV在线无码| 97久久精品人人做人人爽| 少妇极品熟妇人妻专区视频| 亚洲有无码中文网| 国产午夜无码片在线观看网站| 国产在线自揄拍揄视频网站| 精品国产www| 永久免费av网站可以直接看的| 精品伊人久久久久7777人| 日韩资源站| 国产欧美视频在线观看| 日韩无码视频播放| 日韩欧美国产成人| 亚洲天堂区| 亚欧乱色视频网站大全| 综合色区亚洲熟妇在线| 青草91视频免费观看| 午夜精品国产自在| 四虎国产在线观看| 亚洲天堂精品视频| 香港一级毛片免费看| 日韩精品专区免费无码aⅴ| 亚洲精品不卡午夜精品| 色婷婷综合激情视频免费看| 日韩高清一区 | 国产精品亚洲αv天堂无码| 国产最爽的乱婬视频国语对白| 国产产在线精品亚洲aavv|