

摘要:本文使用大規模預訓練漢語模型的 BERT-BiLSTM-CRF 方法,從運營商的非結構化文本數據中聯合提取命名實體與關系。首先,通過運營商非結構化文本數據建立運營商文本語料庫,對語料進行文本標簽標注;然后,提出一種基于運營商文本命名實體與關系提取的 BERT-BiLSTM-CRF 模型方法。實驗結果表明,該技術在運營商文本命名實體與關系聯合提取中適用性較強,在運營商文本的命名實體與關系聯合提取中,F1 值高達 93.2%,可以將該方法應用到實際問題解決中。
關鍵詞:BERT;BiLSTM;CRF;實體識別;詞嵌入
一、引言
隨著信息化發展和數據積累,電信運營商擁有數量巨大的用戶,沉淀了海量結構化和非結構化數據,作為非結構化的對話文本是運營商辦理客戶業務和處理客戶問題的重要數據資源。運營商非結構化的對話文本數據具有非結構化、口語化、業務性強等特點,對該數據進行數據挖掘和實體與關系的抽取可以有效利用其中包含的語義信息,推動運營商智能化發展。
實體和關系抽取研究如何自由文本中抽取所需命名實體和關系的技術,但中文自然語言具有表達的靈活性,運營商文本信息具有專業性的特點,進行運營商的文本信息提取是當前研究的難點問題,探索相關有效的信息提取方法具有重要價值。
二、相關工作
對運營商領域知識提取的方法研究主要涉及兩個方面:①運營商非結構化中文語料庫構建與運營商領域文本詞嵌入技術;②運營商命名實體識別與關系提取技術。
(一)中文運營商語料庫與詞嵌入技術
詞向量是一種表示自然語言中詞的方法,把每個詞都表示為一個N維空間內的點,即一個高維空間內的向量。通過這種做法,把自然語言計算轉換為向量計算。詞嵌入技術(Word Embeddings)是一種將文本中的每個字符、詞、句封裝為向量表達式的技術,是機器學習算法執行自然語言處理的基礎。然而,在運營商領域的中文語料庫和詞嵌入技術研究較少,缺乏運營商領域詞嵌入技術,故使用通用的中文詞嵌入技術作為替代方案,如Word2Vec、BERT等。尤其是BERT作為一個Word2Vec的替代者,其在NLP的11個領域相較于其他模型方法預測精度有較大提升且效果很好。本方法包含研究BERT模型詞嵌入技術在運營商命名實體與關系提取中的應用。
(二)運營商命名實體識別與關系提取
運營商領域文本命名實體與關系提取從最早期開始,主要有依賴專家的詞典與規則的方法,對于繁雜的非結構化文本的效果較差;隨后是基于統計的方法,提取效果有一定提升但并非很理想。
在非結構化的運營商中文語料研究方面,學者們開展了基于專家詞庫與規則的運營商知識提取;學者們開展傳統的統計方法應用于運營商命名實體和關系的提取主要有條件隨機場模型(CRF)。運營商領域命名實體提取應用CRF模型提取實體的F1值達到72.55%的識別結果。隨著人工智能技術的進步,使用深度學習方法提取文本語義信息逐漸成為一種趨勢,如LSTM、BiLSTM—CRF、BiGRU—CRF模型等。BiLSTM—CRF模型對運營商命名實體識別結果取得了90.04%的F1值。BiGRU—CRF模型對運營商命名實體識別也取得了F1值90.19的識別結果。
在電信運營商文本命名實體識別領域,應用深度學習框架進行實體提取獲得了較好的效果,但目前關于聯合提取運營商命名實體與關系研究的工作較少。
三、數據來源及語料標注
本次話術文本所涉及的實體涵蓋了業務類、動作類和問題類三大類別。話術文本語料是通過“BIO+命名實體”的方法進行實體標注的。其中,B代表實體的頭部;I代表實體的中間部分或尾部;O代表非實體部分。由于話術文本多為圍繞某種營銷場景展開,本次話術文本語料中的實體關系采用“BIO+關系”的標注方式。通過這種方式可以實現實體與關系聯合提取任務向序列標注任務轉換。如表1所示。根據BIO方式對編碼后的文本進行標注,B代表流程動作開始部分,I代表流程動作結束部分,O代表流程動作部分。如:流程動作“不能微信”標注為繳費環節異常。
最終選取了5個場景對話文本進行實體與關系的標注工作。使用BIO標注方法標注文本語料3000個句子。標注的運營商語料按照8 :1:1的比例隨機劃分為訓練集、測試集和驗證集。
四、基于BERT-BiLSTM-CR模型的運營商命名實體與關系提取
本文是通過BERT-BiLSTM-CRF模型對運營商文本數據進行數據建模,完成運營商話術文本中實體提取和關系抽取。構建模型以BERT的詞嵌入層(BERT-Embedding Layer)構建字向量,通過對掩蓋信息預測學習文本上下文的語義變化表示;使用雙向長短期記憶模型(BiLSTM Layer)處理上下文信息,進行文本的文本提取;最后使用條件隨機場模型(CRF Layer)進行標簽的預測。基于運營商大規模語料對預訓練語言模型BERT進行訓練,首先導入BERT字典處理話術文本,轉換為字符編碼,然后利用BERT模型訓練字向量、詞嵌入表示、特征標志和位編碼信息進行輸出。BERT模型主要是通過學習輸入的話術文本的字符級概率分布來學習命名實體與關系標簽之間的規律特征。BiLSTM是由多層循環神經網絡堆疊而成的,通過雙向傳播同時處理上下文的信息提取到文本中的特征,添加CRF層作為模型的最后輸出。條件隨機場CRF模型通過轉移概率評分的模式學習標簽之間的聯系,建立相鄰命名實體和關系標簽之間的轉移規則,提高模型預測結果的準確性,如“B—不能微信”為動作實體的開頭部分,一般后面會接上“I—不能微信”。句子的頭部應為“B—”或“O—”標簽,“I—”標簽只能作為句子的干部或者尾部,通過標簽轉移規則的學習實現最終的實體與關系預測。根據對語料的整體長度分析,BETRT模型的輸入文本最大長度設定為256;BiLSTM模型隱藏層層數設置為128;詞向量維度設置為512。
五、實驗與分析
(一)實驗設計
本文采用“BIO+實體與關系”的方法對運營商大規模話術文本語料數據標注,其中B作為標注的實體開頭部分,I代表實體的中間部分,O表示非實體部分。實現了提取任務到序列標注任務的轉換。
本文采用F1值判斷模型的預測性能,同時也計算分析了召回率R和精確率P的具體值,具體計算如下:
P=Correct / Predict×100%
R=Correct / Gold×100% (1)
F1=2PR / (P+R)×100%
其中,Correct表示模型預測正確的實體與關系數量,Predict表示實體與關系總數量,Gold表示模型識別到的實體與關系總數量。P表示模型精準率,R表示模型召回率,F1值表示模型預測的性能指標。
(二)實驗環境
本實驗采用Linux操作系統,基于Pytorch平臺搭建訓練,訓練環境如表2所示。
(三)實驗結果
為驗證模型有效可行,首先基于BERT模型進行微調實驗。選取BERT-fine-tuning模型第11個epoch時取得最優F1值進行可視化展示。
為了驗證BERT-BiLSTM-CRF模型在運營商數據集上的優勢,該實驗對比分析了CRF模型、LSTM模型、BiLSTM-CRF模型的F1值,結果顯示BERT-BiLSTM-CRF模型有較為明顯的優勢。
通過對比不同神經網絡模型的F1值顯示,本文采用的BERT-BiLSTM-CRF模型比傳統CRF模型提高了5.6%,LSTM和BiLSTM-CRF模型也比CRF模型有一定的改進,說明神經網絡在文本特征提取方面發揮了重要作用。BiLSTM模型對LSTM進行雙向訓練,雙向網絡結構能夠更好地學習文本特征,捕捉更多的序列信息。從模型的預測效果看出,F1對比提升了2.2%,說明使用雙向訓練效果更佳。從BERT-BiLSTM-CRF模型和BiLSTM模型的實驗結果對比發現,F1值提升了1.7%,由于BERT使用中文動態預訓練模型,更充分地提取字符級、詞級和句子級的文本特征,使得模型的精度更高,預訓練的詞向量能更好地表達語義信息,獲得更好的預測效果,提高模型預測性能。
六、結束語
針對運營商文本實體和關系提取任務,本文基于預訓練語言模型(BERT)訓練大量的運營商文本數據,從中獲取文本詞向量,作為神經網絡模型(BiLSTM-CRF)的輸入,從而構建BERT—BiLSTM—CRF模型進行運營商非結構化文本實體和關系的提取訓練與預測。對比CRF、LSTM和BiLSTM-CRF,本文BERT—BiLSTM—CRF模型在模型性能評估指標上有較大的優勢。其中的BERT模型是基于大量的運營商數據訓練的,可以學習到上下文語境,通過學習文本詞語、句法結構等文本特征實現上下文語義理解,另外,BiLSTM對詞向量做進一步預處理,再引入CRF強大的實體識別能力,使得該模型相較于其他模型在運營商文本實體和關系提取領域取得更好的效果。
作者單位:戴勝林 周天偉 楊國鋒 張國成 中國電信安徽分公司省智慧營銷和業務管理中心
參" 考" 文" 獻
[1]屈倩倩, 闞紅星. 基于Bert-BiLSTM-CRF的中醫文本命名實體識別[J]. 電子設計工程, 2021, 29(19):40-43,48.
[2]李長遠. 面向運營商資費知識圖譜的信息抽取技術研究與應用[D]. 北京郵電大學, 2019.
[3]李佳媛, 劉曉蒙, 羅思明. 一種基于Bert+BiLSTM+CRF的知識元自動抽取方法:,CN112836501A[P]. 2021.
[4] Yu J ," Sun J ," Dong Y , et al. Entity recognition model of power safety regulations knowledge graph based on BERT-BiLSTM-CRF[C]// 2021 IEEE International Conference on Power Electronics, Computer Applications (ICPECA). IEEE, 2021.