999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT-CBG-BiLSTM-CRF 的羊養殖命名實體識別

2023-05-24 09:06:34李仁港王天一
智能計算機與應用 2023年5期
關鍵詞:文本信息模型

王 凱,李仁港,王天一

(貴州大學 大數據與信息工程學院,貴陽 550025)

0 引言

隨著人工智能的發展,傳統手工、非實時的記錄方式已經跟不上時代的步伐。中國作為一個羊業大國,養殖智能化能方便農戶更精準、高效的管理養殖,促進養殖業的發展,減少人工成本。知識圖譜作為養殖智能化中關鍵一環,其在知識歸納、推理、問答等方面有著舉足輕重的地位。

目前,基于深度學習的命名實體識別逐漸受到關注[1]。與需要人工選取特征的基于傳統機器學習的方法和耗時長且難以移植的基于規則的方法相比,基于深度學習的命名實體識別得到了廣泛的應用[2]。仇增輝等[3]使用條件隨機場(Conditional Random Field,CRF)、雙向長短期記憶網絡(Bidirectional Long Short-Term Memory,BiLSTM)為基礎網絡對網購評論進行識別,得到不錯的識別效果;張帆等[4]用深度學習的方法對醫療文本進行實體識別,得到了比傳統方法更高的準確率和召回率;阿依圖爾蓀·喀迪爾[5]用神經網絡強化電子病歷識別,為醫療提供了更加精準的服務;王學峰等[6]基于深度學習命名實體識別,在軍事語料庫識別的準確率、召回率、F1 值都得到很大提高;方紅等[7]提出一種融合注意力機制的卷積神經網絡(Convolutional Neural Network,CNN)和雙向門限 控循環單元(Bidirectional Gated Recurrent Unit,BiGRU)結合的網絡模型,對產品質量檢測進行識別,準確率和F1值都在74.7%以上。

由以上可知,基于深度學習的命名實體識別相較于基于規則和基于機器學習來說,有著更高的識別率。在羊養殖領域,文本數據來源繁多,沒有特定的規則,各種實體定義、關系類別、屬性連接都需要人為定義,這導致實體識別難度較大。

為了解決羊養殖知識圖譜構建中的命名實體識別問題,本文利用預先訓練的語言模型,通過預訓練語言模型,充分利用詞左右兩邊的信息,獲取詞的分布式表示,連接卷積神經網絡與雙門控循環單元層(Convolutional Neural Network and Bidirectional Gated Recurrent Units,CBG);在CBG 層,通過卷積神經網絡CNN 提取羊養殖文本的字向量信息,利用雙門控循環單元BiGRU 網絡訓練詞向量,提取文本語義信息;其次,對兩者訓練出的詞向量結果進行拼接;利用BiLSTM 網絡訓練進一步獲得文本特征;最后,利用CRF 層得到最大概率的輸出序列,從而識別出實體。

1 數據獲取與標注

1.1 數據獲取

本試驗所采用的資料主要來自于羊養殖相關書籍,以及其他有關羊的資料,結合百度百科,維基百科兩大平臺。經過整理、歸納得到相關的羊養殖數據,共計13 859 個句子,532 484 個字符。

1.2 數據標注

本文采用BIO(Beginning Inside and Outside)標注,數據集共包含實體17 451 個,各類標注實體數量見表1。

表1 標注實體數量Tab.1 Number of labeled entities

2 模型框架

本文先使用文本數據輸入BERT(Bidirectional Encoder Representations from Transformers,BERT)模型,進行預訓練處理,增加文本的泛化能力;其次,將訓練好的字、詞向量分別送入CNN 網絡和Bi-GRU網絡,提取字向量信息和上下文信息,并且將兩者訓練出的詞向量結果進行拼接;由于文本較大,為保證長文本語義信息的依賴,將拼接的詞向量送入BiLSTM 網絡,通過訓練學習到輸入向量的雙向信息;最后,把BiLSTM 層學習到的特征輸入到CRF 層中,得到輸出序列。BERT-CBG-BiLSTM-CRF 模型整體結構如圖1 所示。

圖1 BERT-CBG-BiLSTM-CRF 模型結構Fig.1 BERT-CBG-BiLSTM-CRF model structure

2.1 BERT 層

BERT 模型有別于傳統的預訓練模型只能單向訓練,突破傳統語言預訓練模型桎梏,通過MLM(Masked Language Model)及其本身特殊的結構—雙向Transformer 編碼,能更深層次獲取文本的深層表征。因此,BERT 由于其獨特的結構和其預訓練任務的創新性,在自然語言處理預訓練中取得驚人的效果,其模型結構示意如圖2 所示。

圖2 BERT 結構示意圖Fig.2 Schematic diagram of the BERT structure

2.2 CBG 層

CBG 層是由CNN 網絡模型和BiGRU 網絡模型拼接而成。通過CNN 訓練BERT 輸入的字符集特征和BiGRU 網絡訓練的詞語的語義特征,把兩者結果進行組合,不僅得到字向量的信息,還得到包含上下文語義信息的詞向量。CBG 結構示意圖如圖3所示。

圖3 CBG 結構示意圖Fig.3 Schematic diagram of CBG structure

2.2.1 CNN

字符級CNN 用于命名實體識別,利用子詞信息消除對形態標記或人工特征的需要并生成新單詞,本文基于CNN 的字符集分布式輸入特征表示如圖4 所示。

圖4 基于CNN 的字符級分布式輸入特征表示Fig.4 CNN-based representation of a character-level distributed input feature

該模型主要包含4 個結構,即輸入層、卷積層、池化層和全連接層。

輸入層輸入的是文本矩陣,通過BERT 預訓練模型得到字、詞向量。

自向量進入神經網絡,神經網絡的核心是卷積層,通過多層卷積計算,對輸入的向量進行特征提取,再經過池化層,最后把提取的特征向量進行拼接。CNN 卷積層的計算如式(1):

其中,v為輸入向量;k為卷積核大??;w為權重矩陣;S為輸出值;b表示偏置。

經過卷積計算后得到的特征向量進入池化層,池化層繼續將這些特征進行選擇和過濾。全連接層再把這些特征進行分類,最后拼接。

本文采用CNN 網絡來訓練字向量,通過卷積、池化、全連接,最后得到新的詞級別的特征向量E'c。

2.2.2 Bi-GRU

羊養殖文本較長,若選用RNN 網絡來進行序列處理,可能因為序列較長引起梯度消失和梯度爆炸,不能保證學習到長距離的依賴特征。本文選用結構跟LSTM 類似的GRU 網絡,把遺忘門和輸入門合二為一,變成新的一個門即更新門,又同時混合細胞狀態和隱藏狀態。Bi-GRU 能將當前時刻的輸入與前一時刻的狀態都能與后一時刻的狀態產生聯系,從而達到很好的學習效果,使羊養殖文本具有連貫性,避免訓練空泛。GRU 編碼單元如圖5 所示。

圖5 GRU 結構Fig.5 GRU structure

GRU 的計算方式:在t時刻,Zt為更新門,用來控制當前狀態中前序記憶與候選記憶所占的比例,如式(2):

rt為重置門,用于控制當前內容是否被記憶,計算如式(3):

ht代表隱藏層,計算如式(5):

其中,Wr、Wz、W、Ur、UZ、U都是GRU 的權重值;σ代表sigmoid激活函數;ht-1為t -1 時刻隱含狀態的輸入。

將輸入詞向量Ew通過BiGRU 網絡訓練,即可得到初步提取過語義信息的詞向量hcbg,將其與CNN 的輸出E'C拼接;在CBG 層獲得了拼接后的詞向量Ecbg,融合了初步提取的上下文語義和詞語語義;將其輸到BiLSTM 網絡訓練,提取深層特征,由前向后的拼接所得的輸出將會產生BiLSTM 層的輸出h'cbg,將其引入CRF 層,經過CRF 得到最大概率輸出序列。

2.3 BiLSTM 模型

經過CBG 網絡的訓練,從CNN 網絡得到訓練好的詞向量,又從BiGRU 網絡得到深層特征的詞向量,但對于羊養殖文本而言,經過這兩個網絡并沒有考慮到詞語在文本中的前后順序,也沒有考慮詞語之間的依賴關系。如“關中奶山羊”,經過訓練只知道“奶山羊”,而不知“關中”這個限定。因此,本文加了BiLSTM 網絡對文本進行訓練。

BiLSTM 網絡主要有兩個作用:一是可以考慮前后句子之間的相互關系,對文本向前和向后兩個方向進行訓練,在訓練過程中學到保存哪些信息,遺棄哪些信息;二是對更微小的分類進行限定,更好地捕獲句子之間的語義信息。門機制中各個門和記憶細胞的表達式介紹如下:

在t時刻遺忘門Ft的表達式(6):

在t時刻輸入門It的表達式(7):

在t時刻記憶門Ct的表達式(8):

在t時刻輸出門Ot的表達式(9):

最后的輸出為Ht,表達式(10):

其中,σ代表sigmoid激活函數;tanh 為雙曲正切激活函數;Wf、Wi、Wc、Wo、分別代表遺忘門權重矩陣、輸入門權重矩陣、當前輸入單元權重矩陣和輸出門權重矩陣;Xt為t時刻的輸入向量;Ht-1為t -1時刻的輸出向量;bf、bi、bc、bo分別為遺忘門偏置向量、輸入門偏置向量、當前輸入單元偏置向量和輸出門偏置向量。

2.4 CRF 模塊

通過BiLSTM 網絡輸出的是經過標注標簽的預測值,但這些預測值雜亂無序,為了知道輸出的標簽對應實體,需要將這些預測值輸入CRF 層。

CRF 模塊主要作用就是考慮相鄰數據的標記信息,自動對BiLSTM 網絡輸出的預測分值進行約束,確保盡量輸出的是合法序列,降低非法序列輸出概率。

對于輸入序列X =(x1,x2,…,xn)預測輸出序列Y =(y1,y2,…,yn)的得分可以用式(12)表示,即轉移概率和狀態概率之和。

其中,A表示轉移矩陣,P表示BiLSTM 的輸出得分矩陣。

再利用softmax 求得標簽序列Y的概率值,式(13):

CRF 網絡中的每個節點都代表一個預測值,在BiLSTM 輸出的預測序列的基礎上,該方法在網絡中找到最有可能的路徑,以確定所輸出的指定實體的標簽,以實現標識實體的標識。因而訓練的目標就是最大化概率P(y |X),可通過對數似然的方式實現,式(14):

最后利用維比特算法預測解碼,得到求解的最優路徑,式(15):

3 實驗結果分析

實驗采用Pytorch1.7.1 框架,實驗環境設置為:Intel(R)Core(TM)i7-9700K CPU 6 核處理器;GPU 為RTX 2080,運行內存32 G。

3.1 實驗設置

本文實驗參數具體設置見表2。

表2 參數設置Tab.2 Parameter settings

3.2 評價指標

本文采用精確率、召回率和F1 值作為評價指標,如式(16)~式(18):

其中,TP表示正確把正樣本預測為正;FP表示錯誤把負樣本預測為正;FN表示錯誤把正樣本預測為負。

3.3 實驗結果

本文把數據集分為訓練集和測試集,比率為7 ∶3。各種實體相互獨立,確保實驗的獨立性。各種實體信息見表3。

表3 實體信息Tab.3 Entity information

3.4 不同模型的性能比較

為了驗證不同模型對于羊養殖數據集識別效果,本文做了4 組實驗,用當前比較熱門的模型和本文提出的模型作對比,實驗結果見表4。

表4 4 種模型實驗Tab.4 Four model experiments

通過表4 可知,BiLSTM-CRF 模型F1 值為93.03%,識別效果最差;本文提出的BERT-CBGBiLSTM-CRF 模型的F1 值為95.86%,識別效果最好;BiLSTM-CRF 模型沒有對數據進行預訓練,導致識別效果不佳;BERT-LSTM-CRF 模型雖然對數據進行了預訓練,只使用單向長短期記憶網絡,訓練只能從一個方向訓練,丟失了部分句子之間的語義信息。本文提出的BERT-CBG-BiLSTM-CRF 模型在CBG 層通過CNN 網絡進行字向量的訓練,又通過Bi-GRU 網絡訓練詞向量,充分學習到文本數據的上下文信息特征,從而達到很好的學習效果,使羊養殖文本具有連貫性,較BERT-BiLSTM-CRF 模型提高了1.07%。

3.5 不同實體實驗結果比較

對不同的網絡模型進行了識別實驗后,本文又對數據集進行了不同的實體分類,并將其送入本文模型進行命名實體識別,實驗結果見表5。

表5 BERT-CBG-BiLSTM-CRF 模型下不同實體識別Tab.5 Identification of different entities under the BERT-CBGBiLSTM-CRF model

通過表5 可以看出,相較于特征、產地、建設和繁殖,經濟價值和產區環境的準確率、召回率和F1值都較低。原因有兩點:一是由于某些不成功的實體是未登錄的,如:“關中奶山羊的皮毛和骨等為毛紡、制革、化工提供原料”中,“制革”在實體識別中就屬于未登錄詞,因此實體識別有很大概率識別不出來;二是不同來源的知識說法不一致,語料新舊不同,導致未能識別出來。比如“奶質優良”,有的說法是“奶中含有多種營養物質”。

3.6 非數據集實體識別驗證

本文還對非數據集內容進行實體識別驗證,結果見表6,可以看出,對于非數據集內容,本文模型仍然可以將其識別出來。

表6 實體識別結果Tab.6 Entity Recognition Results

4 結束語

在構建羊養殖知識圖譜過程中,針對羊養殖實體識別效果不佳的問題,本文提出了改進的命名實體識別模型BERT-CBG-BiLSTM-CRF,該模型在已有模型的基礎上增加了CBG 層,通過對字詞向量的訓練,且將訓練結果進行拼接,最終的識別結果F1值為95.86%。

猜你喜歡
文本信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 美女一区二区在线观看| 99国产精品免费观看视频| 国产91九色在线播放| 在线另类稀缺国产呦| 久久99国产精品成人欧美| 亚洲中字无码AV电影在线观看| 一级一毛片a级毛片| 色综合久久久久8天国| 国产91丝袜| 中文字幕天无码久久精品视频免费 | 日韩一级毛一欧美一国产| 久久久久久久久亚洲精品| 91精品最新国内在线播放| 亚洲无码37.| 国产综合精品一区二区| 国产毛片久久国产| 亚洲专区一区二区在线观看| 成人精品在线观看| 国产精品久久久久鬼色| 国产免费网址| 国产精品无码影视久久久久久久| 免费A级毛片无码免费视频| 激情综合婷婷丁香五月尤物| 色婷婷电影网| 999国内精品视频免费| 国产美女91呻吟求| 亚洲一级毛片在线观播放| 日韩国产精品无码一区二区三区| 永久免费无码成人网站| 老熟妇喷水一区二区三区| 欧美狠狠干| 天天爽免费视频| 中文字幕 日韩 欧美| 波多野结衣久久高清免费| 国产欧美日韩综合一区在线播放| 国产精品私拍99pans大尺度 | 一本久道久久综合多人| 亚洲娇小与黑人巨大交| 亚洲欧美精品一中文字幕| 欧美国产在线看| 五月天香蕉视频国产亚| 在线观看91精品国产剧情免费| 亚洲区欧美区| 免费视频在线2021入口| 日韩精品高清自在线| 五月天在线网站| 国产美女一级毛片| 91最新精品视频发布页| 成年人福利视频| 亚洲美女久久| 天天激情综合| 日本不卡在线播放| 久久精品无码一区二区日韩免费| 狠狠色狠狠综合久久| 亚洲欧美日韩另类在线一| 国产在线自在拍91精品黑人| 国产在线精品美女观看| 亚洲欧洲日产国码无码av喷潮| 亚洲女同一区二区| 亚洲精品大秀视频| 99在线视频免费观看| 日本不卡在线| 国产成人精品亚洲日本对白优播| 久久国产精品影院| 免费毛片视频| 久久久久无码精品| 永久免费无码成人网站| 天天做天天爱夜夜爽毛片毛片| 亚洲国产精品一区二区高清无码久久| 波多野结衣在线se| 国产在线精品人成导航| 99精品在线看| 热久久这里是精品6免费观看| 国产jizzjizz视频| 成人精品亚洲| 亚洲精品欧美重口| 亚洲娇小与黑人巨大交| 18禁黄无遮挡免费动漫网站| 深爱婷婷激情网| 97精品国产高清久久久久蜜芽| 色丁丁毛片在线观看| 亚洲第一页在线观看|