999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據增強的MRC水利領域命名實體識別模型研究

2024-09-23 00:00:00朱永明邢丹艷
人民黃河 2024年9期

關鍵詞:水利領域;命名實體識別;數據增強;機器閱讀理解

中圖分類號:TP391.1;TV21 文獻標志碼:A doi:10.3969/ j.issn.1000-1379.2024.09.023

引用格式:朱永明,邢丹艷.基于數據增強的MRC 水利領域命名實體識別模型研究[J].人民黃河,2024,46(9):156-160.

隨著我國水利信息技術的發展,水利行業積累了大量數據,然而這些數據沒有被有效利用。水利知識涵蓋范圍廣,涉及河流、湖泊、水庫等多種管理對象,以及水旱災害防御、水資源管理、水土保持等多種業務,知識來源有結構、半結構、非結構化數據[1] 。自然語言處理技術具有強大的語義處理能力,可以將非結構化數據轉化為結構化數據,充分發掘數據的價值,實現水利信息資源的高效利用。命名實體識別是信息處理的基礎,通過命名實體識別技術可以充分利用文本中的寶貴信息。水利領域命名實體識別是指識別水利文本中具有特定意義的實體,包括河流(RIV)、湖泊(LAK)、水庫(RES)、水電站(HYD)、大壩(DAM)等。科研人員利用命名實體識別技術識別出重要信息,這些信息可以服務于水利智能問答系統構建[2] 、水利知識圖譜構建[3] 等。

神經網絡具有自動提取特征、能夠找到更深層次和更加抽象的特征的優點,因此基于神經網絡的命名實體識別在各個領域逐漸得到廣泛應用。劉雪梅等[4] 基于水利工程巡檢文本,利用BERT-BiLSTMCRF模型智能識別巡檢文本中的風險事件、工程等實體。顧干暉等[5] 利用BERT 預訓練語言模型對自建水利文本語料進行訓練,并引入FreeLB 增強訓練模型的泛化能力,最后通過條件隨機場(CRF)識別水利實體。段浩等[1] 在2021 年提出了水利綜合知識體系的描述方法,使用BiLSTM-CRF 模型識別非結構化和半結構化實體。伴隨著ChatGPT、文心一言、訊飛星火等大模型的出現,學者們陸續把研究重心放到大模型上。清華大學開源了一個具有62 億參數的支持中英雙語對話的語言模型ChatGLM - 6B。百川智能公司基于Transformer 結構在大約1.2 萬億tokens 上訓練了一個具有70 億參數的大規模預訓練語言模型baichuan-7B。學者們針對各個領域任務微調這些大模型,取得了不錯的效果。然而,已有方法在預測精度和適應性上還有提升空間,沒有充分利用水利文本中一些潛在特征信息,比如詞匯特征信息和實體類型標簽特征信息。本文以MRC 模型為主架構,結合數據增強技術,提出MRC-WLE 命名實體識別模型,基于水利文本數據集驗證MRC-WLE 模型的有效性,以期更好地服務于水利智能問答系統、水利知識圖譜構建等。

1相關理論介紹

1.1機器閱讀理解(MRC)

MRC 是一種自然語言處理技術,讓機器能夠理解文本內容并回答問題,針對某一問題在文本中提取答案所在片段,即預測答案所在片段的開始位置和結束位置。

MRC 步驟如下:1)將傳統的命名實體識別數據集的標注格式轉換為三元組格式( Query, Answer,Context)。對于每種實體類型都用一個自然語言問題進行描述,將Context(文本)與Query(實體類型描述)進行拼接,若有m 種實體類型,則構造m 種實體類型描述,從而生成m 條新文本。2)用預訓練模型對生成的文本進行編碼。3)通過2 個全連接層識別每條文本中實體的頭和尾,譯碼匹配采用就近原則,頭位置索引找離它最近的尾位置索引,從而構造出一個實體。

1.2長短期記憶網絡(LSTM)

LSTM[6-8] 對循環神經網絡(RNN)進行了一定改進,主要用來解決長距離依賴問題。LSTM 在RNN 的基礎上增加了門控機制和一個單元狀態(cell state),用來獲得長期的序列狀態,其結構見圖1。

1.3BERT模型

傳統的word2vec 無法處理一詞多義問題。BERT(Bidirectional Encoder Representation from Transform?ers)[9] 模型采用捕捉語義能力更強的雙向編碼器Transformer 進行訓練,可以獲得每一層文本雙向特征信息,有效解決一詞多義問題。Transformer 是一種新的序列建模方法,采用self-attention 機制替代傳統的卷積神經網絡(CNN)或RNN,這種機制能夠更好地捕捉序列中的依賴關系。Transformer 具有可并行計算、長距離依賴建模等性能,目前被廣泛應用于自然語言處理的各個下游任務,并取得較好的效果。

BERT模型的輸入根據下游任務確定,模型結構見圖2,其可將中文字符用向量表示。

圖2 中以“[CLS]小浪底水庫庫區[SEP]”為例,[CLS]用于標記文本的開頭,[SEP]表示文本結尾,E表示字符的向量表示,T 表示Transformer。

3MRC-WLE模型性能測試及評價

3.1測試數據

采用中國水利水電科學研究院在中國工程科技知識中心水利專業知識服務系統開放的水利標注數據測試MRC-WLE 模型的性能,其中:水利文本數據共4 919條,命名實體類型共10 類。10 類命名實體概況見表1。水利領域命名實體識別實驗中使用隨機分層抽樣的方式將數據集劃分為訓練集、驗證集、測試集,三者數據量比例為8∶1∶1。

3.2設置訓練參數及評價指標

水利領域命名實體識別實驗使用的編程語言為Python,深度學習框架為Pytorch、Transformers,批數據量為8,訓練次數為10 次,學習率為2×10-5,損失函數采用交叉熵損失函數。評價模型時選用微平均F1 值作為主要評價指標,以精準度(Precision) 和召回率(Recall)作為輔助評價指標。

3.3模型測試和評價結果

為更好地評價模型的性能,引入BERT -CRF、BERT - CRF - Word、BERT - BiLSTM - CRF、BERT -BiLSTM- CRF - Word、BERT - Cascade、ChatGLM - P -Tuning 模型作為對照。模型的評價指標對比見表2,可以看出,MRC-WLE 模型的評價指標值整體高于其他模型的。

各模型的優缺點如下:BERT-CRF 和BERT-BiL?STM-CRF 模型不能很好地利用文本信息,識別實體的時候會出現實體斷鏈現象。BERT-Cascade 模型是基于多任務學習方法的命名實體識別模型,其任務是抽取實體和判斷實體類型,該模型雖縮減了標簽詞表規模,但是先抽取實體會出現實體傳播錯誤問題,導致后續判斷實體類型錯誤。BERT-CRF-Word 和BERTBiLSTM-CRF-Word 模型雖然同時對字符和詞匯進行編碼,有效地利用字符級信息和詞匯級信息,但是分詞工具不能完全適用于水利領域,因此會造成實體詞匯錯誤傳播,進而容易造成識別錯誤。ChatGLM -P -Tuning 模型是對ChatGLM-6B 基座大模型進行領域微調,具有強大的對話能力,因此ChatGLM-P-Tuning 模型能根據指令從文本中抽取出完整的實體。MRCWLE模型針對每種實體類型都生成一條新文本,在每一條文本中只識別Query 對應的實體,并且該模型能夠利用實體類型的先驗知識,很好地解決實體易混淆問題。此外,MRC-WLE 模型同時對字符和詞匯進行編碼,提高了模型識別實體邊界的準確率,召回更多的實體。

不同模型識別不同實體的微平均F1 值見圖5。相較于其他模型,MRC-WLE 模型識別湖泊、人名、機構、大壩、水利術語、水庫實體類型的F1 值最高。原因是這些實體內部都有一定的構成規則,比如湖泊類型的實體大部分以湖結尾,MRC-WLE 模型引入實體類型嵌入,輸入一定的指令,能較好地將實體識別出來。此外,所有模型識別OTH 的F1 值都為0%,這可能與該類型實體數量較少且構成規律比較復雜有關。

為研究詞匯特征信息和實體類型標簽特征信息對模型的影響,基于數據集對MRC-WLE 模型進行消融實驗,評價指標見表3。與MRC-WLE 模型相比,去掉詞嵌入模塊( - Word)、實體類型標簽嵌入模塊(-Lable)后微平均F1 值都有所降低,去掉詞嵌入模塊(-Word) 的降幅較大。與MRC 模型相比,MRCWLE模型的微平均F1 值提高了0.85%。

4結論

本文針對水利領域命名實體識別提出了一種基于數據增強的MRC 模型,在編碼層引入詞匯特征信息和實體類型標簽特征信息,通過學習字符與字符、詞匯與詞匯、詞匯與實體類型標簽之間的內在相關性,獲得文本語義特征信息,提高了水利領域命名實體邊界和類型識別的準確性。基于機器閱讀理解的方法可以較好地引入知識信息,今后將引入部首、字形、拼音等多粒度語言學特征信息,將多任務學習納入機器閱讀理解框架,以提升模型識別長實體的能力。

主站蜘蛛池模板: 久久婷婷五月综合97色| av在线无码浏览| 亚洲国产天堂久久九九九| 福利在线不卡一区| 国产成人综合日韩精品无码首页| 国产精品短篇二区| 成人午夜久久| 亚洲成人一区二区三区| www精品久久| 精品在线免费播放| 国产美女一级毛片| 婷婷久久综合九色综合88| 欧美日韩中文国产va另类| 97国产在线播放| 第九色区aⅴ天堂久久香| 99在线视频免费观看| 亚洲区第一页| 青青操国产视频| 午夜啪啪福利| 91热爆在线| 亚洲v日韩v欧美在线观看| 成人亚洲国产| 视频一区视频二区中文精品| 免费高清自慰一区二区三区| 亚洲福利片无码最新在线播放| 国产精品亚洲日韩AⅤ在线观看| 亚洲综合天堂网| 九九九九热精品视频| 亚欧乱色视频网站大全| 久996视频精品免费观看| 国产AV毛片| 国产麻豆另类AV| 极品尤物av美乳在线观看| 911亚洲精品| 亚洲成人高清在线观看| 四虎影视8848永久精品| 欧美视频在线播放观看免费福利资源 | a级毛片毛片免费观看久潮| 亚洲人成日本在线观看| www亚洲精品| 精品人妻一区无码视频| av在线人妻熟妇| 国内精品久久久久鸭| 成年A级毛片| 国产一级片网址| 亚洲欧洲日韩久久狠狠爱| 亚洲美女一级毛片| 国产91av在线| 亚洲欧美成人在线视频| 一级片免费网站| 99这里只有精品免费视频| 3p叠罗汉国产精品久久| 57pao国产成视频免费播放| a级毛片视频免费观看| 日韩午夜福利在线观看| 55夜色66夜色国产精品视频| 国产成人资源| 欧美亚洲国产精品久久蜜芽| 色综合成人| 日韩欧美国产三级| 国产最爽的乱婬视频国语对白| 久久婷婷五月综合色一区二区| 国产福利影院在线观看| 99免费视频观看| 亚洲—日韩aV在线| www.91在线播放| yjizz视频最新网站在线| 国产精品人人做人人爽人人添| 久久久久九九精品影院| 国产黄网永久免费| 日韩高清中文字幕| 成色7777精品在线| 午夜一级做a爰片久久毛片| 在线国产综合一区二区三区| 国产va免费精品| 亚洲码在线中文在线观看| 57pao国产成视频免费播放| 久久国产拍爱| 亚洲中文字幕久久精品无码一区| 亚洲欧美日韩精品专区| 99re视频在线| 亚洲狼网站狼狼鲁亚洲下载|