999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT—BiLSTM—CRF模型的運營商文本命名實體與關系聯合提取

2023-04-29 00:00:00戴勝林周天偉楊國鋒張國成
中國新通信 2023年7期

摘要:本文使用大規模預訓練漢語模型的 BERT-BiLSTM-CRF 方法,從運營商的非結構化文本數據中聯合提取命名實體與關系。首先,通過運營商非結構化文本數據建立運營商文本語料庫,對語料進行文本標簽標注;然后,提出一種基于運營商文本命名實體與關系提取的 BERT-BiLSTM-CRF 模型方法。實驗結果表明,該技術在運營商文本命名實體與關系聯合提取中適用性較強,在運營商文本的命名實體與關系聯合提取中,F1 值高達 93.2%,可以將該方法應用到實際問題解決中。

關鍵詞:BERT;BiLSTM;CRF;實體識別;詞嵌入

一、引言

隨著信息化發展和數據積累,電信運營商擁有數量巨大的用戶,沉淀了海量結構化和非結構化數據,作為非結構化的對話文本是運營商辦理客戶業務和處理客戶問題的重要數據資源。運營商非結構化的對話文本數據具有非結構化、口語化、業務性強等特點,對該數據進行數據挖掘和實體與關系的抽取可以有效利用其中包含的語義信息,推動運營商智能化發展。

實體和關系抽取研究如何自由文本中抽取所需命名實體和關系的技術,但中文自然語言具有表達的靈活性,運營商文本信息具有專業性的特點,進行運營商的文本信息提取是當前研究的難點問題,探索相關有效的信息提取方法具有重要價值。

二、相關工作

對運營商領域知識提取的方法研究主要涉及兩個方面:①運營商非結構化中文語料庫構建與運營商領域文本詞嵌入技術;②運營商命名實體識別與關系提取技術。

(一)中文運營商語料庫與詞嵌入技術

詞向量是一種表示自然語言中詞的方法,把每個詞都表示為一個N維空間內的點,即一個高維空間內的向量。通過這種做法,把自然語言計算轉換為向量計算。詞嵌入技術(Word Embeddings)是一種將文本中的每個字符、詞、句封裝為向量表達式的技術,是機器學習算法執行自然語言處理的基礎。然而,在運營商領域的中文語料庫和詞嵌入技術研究較少,缺乏運營商領域詞嵌入技術,故使用通用的中文詞嵌入技術作為替代方案,如Word2Vec、BERT等。尤其是BERT作為一個Word2Vec的替代者,其在NLP的11個領域相較于其他模型方法預測精度有較大提升且效果很好。本方法包含研究BERT模型詞嵌入技術在運營商命名實體與關系提取中的應用。

(二)運營商命名實體識別與關系提取

運營商領域文本命名實體與關系提取從最早期開始,主要有依賴專家的詞典與規則的方法,對于繁雜的非結構化文本的效果較差;隨后是基于統計的方法,提取效果有一定提升但并非很理想。

在非結構化的運營商中文語料研究方面,學者們開展了基于專家詞庫與規則的運營商知識提取;學者們開展傳統的統計方法應用于運營商命名實體和關系的提取主要有條件隨機場模型(CRF)。運營商領域命名實體提取應用CRF模型提取實體的F1值達到72.55%的識別結果。隨著人工智能技術的進步,使用深度學習方法提取文本語義信息逐漸成為一種趨勢,如LSTM、BiLSTM—CRF、BiGRU—CRF模型等。BiLSTM—CRF模型對運營商命名實體識別結果取得了90.04%的F1值。BiGRU—CRF模型對運營商命名實體識別也取得了F1值90.19的識別結果。

在電信運營商文本命名實體識別領域,應用深度學習框架進行實體提取獲得了較好的效果,但目前關于聯合提取運營商命名實體與關系研究的工作較少。

三、數據來源及語料標注

本次話術文本所涉及的實體涵蓋了業務類、動作類和問題類三大類別。話術文本語料是通過“BIO+命名實體”的方法進行實體標注的。其中,B代表實體的頭部;I代表實體的中間部分或尾部;O代表非實體部分。由于話術文本多為圍繞某種營銷場景展開,本次話術文本語料中的實體關系采用“BIO+關系”的標注方式。通過這種方式可以實現實體與關系聯合提取任務向序列標注任務轉換。如表1所示。根據BIO方式對編碼后的文本進行標注,B代表流程動作開始部分,I代表流程動作結束部分,O代表流程動作部分。如:流程動作“不能微信”標注為繳費環節異常。

最終選取了5個場景對話文本進行實體與關系的標注工作。使用BIO標注方法標注文本語料3000個句子。標注的運營商語料按照8 :1:1的比例隨機劃分為訓練集、測試集和驗證集。

四、基于BERT-BiLSTM-CR模型的運營商命名實體與關系提取

本文是通過BERT-BiLSTM-CRF模型對運營商文本數據進行數據建模,完成運營商話術文本中實體提取和關系抽取。構建模型以BERT的詞嵌入層(BERT-Embedding Layer)構建字向量,通過對掩蓋信息預測學習文本上下文的語義變化表示;使用雙向長短期記憶模型(BiLSTM Layer)處理上下文信息,進行文本的文本提取;最后使用條件隨機場模型(CRF Layer)進行標簽的預測。基于運營商大規模語料對預訓練語言模型BERT進行訓練,首先導入BERT字典處理話術文本,轉換為字符編碼,然后利用BERT模型訓練字向量、詞嵌入表示、特征標志和位編碼信息進行輸出。BERT模型主要是通過學習輸入的話術文本的字符級概率分布來學習命名實體與關系標簽之間的規律特征。BiLSTM是由多層循環神經網絡堆疊而成的,通過雙向傳播同時處理上下文的信息提取到文本中的特征,添加CRF層作為模型的最后輸出。條件隨機場CRF模型通過轉移概率評分的模式學習標簽之間的聯系,建立相鄰命名實體和關系標簽之間的轉移規則,提高模型預測結果的準確性,如“B—不能微信”為動作實體的開頭部分,一般后面會接上“I—不能微信”。句子的頭部應為“B—”或“O—”標簽,“I—”標簽只能作為句子的干部或者尾部,通過標簽轉移規則的學習實現最終的實體與關系預測。根據對語料的整體長度分析,BETRT模型的輸入文本最大長度設定為256;BiLSTM模型隱藏層層數設置為128;詞向量維度設置為512。

五、實驗與分析

(一)實驗設計

本文采用“BIO+實體與關系”的方法對運營商大規模話術文本語料數據標注,其中B作為標注的實體開頭部分,I代表實體的中間部分,O表示非實體部分。實現了提取任務到序列標注任務的轉換。

本文采用F1值判斷模型的預測性能,同時也計算分析了召回率R和精確率P的具體值,具體計算如下:

P=Correct / Predict×100%

R=Correct / Gold×100% (1)

F1=2PR / (P+R)×100%

其中,Correct表示模型預測正確的實體與關系數量,Predict表示實體與關系總數量,Gold表示模型識別到的實體與關系總數量。P表示模型精準率,R表示模型召回率,F1值表示模型預測的性能指標。

(二)實驗環境

本實驗采用Linux操作系統,基于Pytorch平臺搭建訓練,訓練環境如表2所示。

(三)實驗結果

為驗證模型有效可行,首先基于BERT模型進行微調實驗。選取BERT-fine-tuning模型第11個epoch時取得最優F1值進行可視化展示。

為了驗證BERT-BiLSTM-CRF模型在運營商數據集上的優勢,該實驗對比分析了CRF模型、LSTM模型、BiLSTM-CRF模型的F1值,結果顯示BERT-BiLSTM-CRF模型有較為明顯的優勢。

通過對比不同神經網絡模型的F1值顯示,本文采用的BERT-BiLSTM-CRF模型比傳統CRF模型提高了5.6%,LSTM和BiLSTM-CRF模型也比CRF模型有一定的改進,說明神經網絡在文本特征提取方面發揮了重要作用。BiLSTM模型對LSTM進行雙向訓練,雙向網絡結構能夠更好地學習文本特征,捕捉更多的序列信息。從模型的預測效果看出,F1對比提升了2.2%,說明使用雙向訓練效果更佳。從BERT-BiLSTM-CRF模型和BiLSTM模型的實驗結果對比發現,F1值提升了1.7%,由于BERT使用中文動態預訓練模型,更充分地提取字符級、詞級和句子級的文本特征,使得模型的精度更高,預訓練的詞向量能更好地表達語義信息,獲得更好的預測效果,提高模型預測性能。

六、結束語

針對運營商文本實體和關系提取任務,本文基于預訓練語言模型(BERT)訓練大量的運營商文本數據,從中獲取文本詞向量,作為神經網絡模型(BiLSTM-CRF)的輸入,從而構建BERT—BiLSTM—CRF模型進行運營商非結構化文本實體和關系的提取訓練與預測。對比CRF、LSTM和BiLSTM-CRF,本文BERT—BiLSTM—CRF模型在模型性能評估指標上有較大的優勢。其中的BERT模型是基于大量的運營商數據訓練的,可以學習到上下文語境,通過學習文本詞語、句法結構等文本特征實現上下文語義理解,另外,BiLSTM對詞向量做進一步預處理,再引入CRF強大的實體識別能力,使得該模型相較于其他模型在運營商文本實體和關系提取領域取得更好的效果。

作者單位:戴勝林 周天偉 楊國鋒 張國成 中國電信安徽分公司省智慧營銷和業務管理中心

參" 考" 文" 獻

[1]屈倩倩, 闞紅星. 基于Bert-BiLSTM-CRF的中醫文本命名實體識別[J]. 電子設計工程, 2021, 29(19):40-43,48.

[2]李長遠. 面向運營商資費知識圖譜的信息抽取技術研究與應用[D]. 北京郵電大學, 2019.

[3]李佳媛, 劉曉蒙, 羅思明. 一種基于Bert+BiLSTM+CRF的知識元自動抽取方法:,CN112836501A[P]. 2021.

[4] Yu J ," Sun J ," Dong Y , et al. Entity recognition model of power safety regulations knowledge graph based on BERT-BiLSTM-CRF[C]// 2021 IEEE International Conference on Power Electronics, Computer Applications (ICPECA). IEEE, 2021.

主站蜘蛛池模板: 欧美另类一区| 五月天综合网亚洲综合天堂网| 国产日韩精品一区在线不卡| 日韩不卡高清视频| 一级一级特黄女人精品毛片| 国产成人狂喷潮在线观看2345| 超薄丝袜足j国产在线视频| 99国产精品一区二区| 免费xxxxx在线观看网站| 国产精品亚欧美一区二区| 国产精品成| 中文字幕在线看| 日韩资源站| h视频在线播放| 福利小视频在线播放| 色综合a怡红院怡红院首页| 久久中文字幕av不卡一区二区| 丁香六月激情综合| 一级全黄毛片| 国产一区二区网站| Jizz国产色系免费| 91丝袜乱伦| 国产精品女在线观看| 91外围女在线观看| 欧美一区二区三区不卡免费| 日韩成人免费网站| 亚洲欧美自拍中文| 日韩在线影院| 一级在线毛片| 91精品啪在线观看国产| 欧美亚洲网| 久久精品亚洲中文字幕乱码| 国产又粗又猛又爽| 丝袜高跟美脚国产1区| 一区二区三区高清视频国产女人| 亚洲欧美在线精品一区二区| 麻豆国产精品一二三在线观看| 2020国产精品视频| 青青青国产视频手机| 色偷偷男人的天堂亚洲av| 天堂网亚洲系列亚洲系列| 一本久道久综合久久鬼色| 2021精品国产自在现线看| 日本色综合网| 国内精品久久人妻无码大片高| 亚洲欧美日韩成人在线| 国产制服丝袜91在线| 依依成人精品无v国产| 国产成人一区在线播放| 国产亚洲欧美另类一区二区| 日本午夜视频在线观看| 婷婷亚洲天堂| 欧美成人a∨视频免费观看| 91久久国产综合精品女同我| 精品少妇人妻av无码久久| 国产在线视频二区| 久久久精品国产亚洲AV日韩| 欧美激情第一欧美在线| 国产麻豆va精品视频| 国产成人综合亚洲欧洲色就色| 久久熟女AV| www.91在线播放| 久久成人18免费| 丝袜高跟美脚国产1区| 一本大道香蕉中文日本不卡高清二区 | 一级一毛片a级毛片| 精品国产免费观看| 在线国产91| 成人亚洲国产| 日韩色图在线观看| 99这里精品| 国产精品性| 亚洲天堂.com| 欧洲极品无码一区二区三区| 91色老久久精品偷偷蜜臀| 久久9966精品国产免费| 久久精品国产精品国产一区| 在线亚洲小视频| 亚洲天堂区| 亚洲精品综合一二三区在线| 青青草原国产| 欧美亚洲香蕉|