陳彥妤 杜明
文章編號: 2095-2163(2018)03-0111-04中圖分類號: 文獻標志碼: A
摘要: 關鍵詞: (Schoo of Computer Science and Technology, Donghua University, Shanghai 201620, China)
Abstract: Because the insurance name is long and there are a lot of abbreviations and ambiguities in the user's query, identifying the insurance naming information in the user question becomes a research problem in insurance intelligent question answering. In this paper, a model (Bi-LSTM-CRF) combining Conditional Random Field (CRF) with two-way long-term memory networks(Bi-LSTM)is proposed. Then pre-trained word embedding vectors are added to train this model. The experiment result shows that: compared with the traditional method of machine learning, Bi-LSTM-CRF has a better performance in insurance Name Entity Recognition.
Key words:
作者簡介:
收稿日期: 引言
社會保險作為現代經濟的分支產業和風險管理的基本手段,是衡量經濟發達程度和國民生活水平的有效標志。但是目前大部分民眾對于保險領域相關知識卻甚少涉獵。在參保人面臨選擇、產生問題時,如何利用智能問答[1]相關技術,準確理解用戶的查詢意圖,為其提供專業、精準的問答服務,更好地輔助參保人做出選擇即已成為互聯網保險領域的熱門趨勢。
但保險行業是一個門類龐雜、內容泛化的實踐領域。且保險領域內的許多專有名詞,例如保險名稱,字數普遍較多,且構成較為復雜。所以人們在提出問題時常常不能準確地表達出完整的保險名稱,而是使用簡寫、別名等方式進行描述,甚至常常會發生錯別字、歧義等混淆事件。這種情況給用戶問句的理解帶來了很大的困難。同時,句子內的標點符號、句子構成方式、空格等都會對保險名稱的識別造成重大影響。綜上分析可知,研究識別用戶問句中的保險名稱則有著不可忽視的實際應用價值。
1相關工作
目前,學術界對于命名實體識別[2]的研究,根據模型和算法的不同,現已陸續推出了成效可觀的各類技術成果,對其可給出如下重點表述。
規則和詞典相結合的方法最早應用于命名實體識別中。該方法的規則主要是人工構造規則模版,以字符串匹配的算法來設計展開命名實體的識別。這類方法的性能很大程度上將依賴于優質的人工構造規則和完整的詞典。賈自艷等就是通過單字和多字的組合規則模型來實現命名實體的識別[3]。在保證這一前提的基礎上,基于詞典和規則的方法往往可以獲得優良性能。但此類方法的人工成本較大,可移植性不高。
基于統計的機器學習算法是近年來獲得學界高度矚目與廣泛應用的命名實體識別算法。這類方法多依托于統計學模型,并基于半監督的機器學習方法識別實體。主要的方法有最大熵(ME)[4]、隱馬爾可夫模型(HMM)[5]、條件隨機場(CRF)等。Zhao等通過最大熵模型對4類名詞進行實體識別,獲得了77.87%的準確率[6]。另有陳霄采用SVM模型提出了中文組織機構名的實體識別,準確率達到了81.68%[7]。其中,CRF自2001年由Lafferty[8]等人研發提出后,就廣泛應用于命名實體識別領域。在中文實體識別領域,相較于其它的統計學算法,也取得了更好的效果。
隨著命名實體識別的研究日趨深入,學術界正嘗試將現階段焦點性的深度學習技術應用于中文命名實體的識別中。如卷積神經網絡(CNN)[9]、循環神經網絡(RNN)等。其中,解決了RNN的長依賴問題的LSTM模型已獲證實在命名實體識別中有更好的效果。在命名實體識別中,相較于其它深度學習算法,LSTM可以更為完善地存儲句子中前后信息,同時也可以擬合非線性神經網絡,這些特點都可以較好地彌補基于統計的CRF等模型的缺陷。因此,近一時期以來,學術界開始致力于將深度學習與機器學習結合起來,通過綜合多種算法的優點來提高實體識別的效果。
基于以上問題,本文開展了如下研究工作:
(1)用保險領域語料預訓練字向量,將句子按字標注,將預訓練的字向量代替常規詞向量作為模型的輸入。實驗證明在保險這一特殊專業詞匯較多的領域中,預訓練的字向量相比詞向量取得了更好的效果。
(2)將雙向的LSTM神經網絡結合CRF的模型應用到保險名稱的命名實體識別中。這樣將雙向LSTM可以保存句子前后信息的優勢與CRF相結合,仿真實驗最終表明該模型在保險名稱實體識別中具有更加優越的性能表現。
2基于BI-LSTM-CRF實現保險名稱實體識別
2.1CRF
研究可知,CRF是對最大熵模型(HMM)的改進。根據給定的輸入序列,CRF可以推測出對應的最優標記序列,因此CRF可以應用于命名實體的識別。這里,通過研究可得線性鏈條件隨機場即如圖1所示。
2.2Bi-LSTM
LSTM是一種解決序列標注中出現的長依賴問題的RNN模型。一般LSTM包含3個門,分別是:輸入門(Input Gate)、忘記門(Forget Gate)、輸出門(Output Gate),通過這3個門來控制細胞狀態。其中,輸入門決定保留當前輸入的多少信息,忘記門決定保留上一個隱層傳來的多少信息,輸出門決定將輸出多少的信息。每個門通過sigmoid層和pointwise層的操作來對輸入到門的信息進行選擇和刪除。例如sigmoid層通過產生一個0~1之間的參數用來選擇相應比例的信息。
Bi-LSTM相較LSTM又引入了一定程度上的優化。Bi-LSTM不僅可以保存前面的信息,同時也可以考慮到之后的信息,對于中文這種語義受上下文影響較大的語言來說,Bi-LSTM已獲證實可以在中文序列標注中取得更好的效果。
如圖2所示,結合預訓練生成的字向量,通過word embedding層轉化為字向量序列X1-i,將其作為Bi-LSTM的輸入。前向LSTM從左到右輸入,得到一組輸出h1-i;后向LSTM從右到左輸入得到一組輸出hi-1。這樣得到了2組元素長度均為hidden size的輸出,最后將2組輸出的Ht相加得到Bi-LSTM的輸出。
2.3基于Bi-LSTM-CRF識別保險名稱實體
在本文中,研究結合Bi-LSTM和CRF這2種模型,通過Bi-LSTM層獲得之前和未來的輸入特征,利用深度學習解決CRF中的序列特征提取問題。
首先采用了BIO經典標注法來對用戶語料按字進行標注,標注后結果可見表1。
然后將利用word2vector[10]結合爬取到的保險問題語料展開字向量的預訓練,并結合預訓練字向量和標準化處理后的語料集即可以開始模型訓練。
標注句子標注句子標注句子標注請O福I-BXN年O么O問O的O齡O?O平B-BXN投O是O安I-BXN保O什O如圖3所示,在每一次訓練過程中,可將用戶問句按字符分開,并將字求得向量化,再作為模型的輸入。將雙向LSTM的輸出htl和htr相加,傳入Liner層和Log-Softmax層進行非線性操作得到ht,同時將ht傳入CRF層。定義上述輸出的分數矩陣為n*k的矩陣P。其中,n為句子中字向量的個數,k為需要識別的所有標簽個數,Pi,t表示的是整個句子中第t個詞標簽是i的分數。過程中將該矩陣作為CRF層的輸入,CRF層可以引進句子局部特征的線性加權值,獲得句子級別標簽信息。通過狀態轉移矩陣參數的作用,可以有效利用前后標簽來預測當前標簽,優化整個序列。為此,可定義這個狀態轉移為(k+2)*(k+2)的矩陣A,其中Ai, j表示在一個連續的時間序列中,第i個標簽轉移到第j個標簽的分數[11]。對于輸入序列x,預測的標簽序列y的分數的公式表述為:sx,y=∑ni=0Ayi, yi+1+∑ni=1Pi,yi(1)
再用softmax層計算出所有可能標簽的概率,在訓練過程中不斷收斂,最大程度地提高正確預測序列的分數。研究推得數學運算公式如下:py|x=es(x,y)1Yxexp (∑y∈Yes(x,y)x)(2)
logpy|X=1K[sx,y-log∑y∈Yxλiesx,y](3)其中,λ表示向量維度;K為句子字數;Y為所有可能的標簽序列。
至此,CRF層會輸出一個得分最高的標記序列。多次訓練后,不斷調整網絡參數,得分最高的序列會逐步向預先標記的正確序列靠近,綜上就是模型的訓練過程。得到一個效果較優的模型后,當面對輸入問題:請問平安福的投保年齡是什么?模型可以將保險名稱:“平安福”這一實體識別出來。
3實驗
3.1實驗數據集
為了對本文提出的方法進行有效性評估,本文從專業化保險服務平臺沃保網和向日葵保險專家網站上爬取并整理了11 456條用戶問題數據,并按字對其進行手工標注。其中,7 320條左右作為訓練集,3 019條作為測試集,剩下1 117條作為交叉驗證集。
本文中字向量[12]由Google開源工具word2vec中的skip-gram模型,結合事先爬取的保險領域問句進行字向量訓練,由此形成100維的字向量。對比實驗采用的詞向量借助jieba分詞處理,再使用word2vec訓練,維度也為100維。
3.2實驗參數設置
本文實驗中,字向量維度為100維,LSTM隱層單元數為100,丟棄率(dropout rate)為0.6,學習率為0.001。
3.3實驗結果分析
為了更好地討論信息統計與結果分析,從數據集中隨機選取定量記錄進行樣本分析,并獲取準確率P、召回率R和F1度量值。這3個指標具體定義公式如下:P=識別正確的實體數識別的實體總數(4)
R=識別正確的實體數文本中包含的實體總數(5)
F1=2*P*RP+R(6)基于如上3個指標,就可以較全面地評價模型性能。利用本文的保險問題數據集來設計生成對比實驗,最終實驗結果可見表2。
結論:
(1)通過對比Bi-LSTM-CRF+ Pre-trained Word和Bi- LSTM-CRF + Pre-trained Character模型的數據,進一步分析后發現,采用預訓練的字向量作為輸入比用詞向量效果更好。相應的準確值、召回率、以及F1值都有較大的提高。對于保險領域問句來說,句子中含有較多的領域專業詞匯,且句子較短,噪聲較大。采用jieba對句子進行分詞很容易產生歧義。若采用字向量作為分詞則可以避免這種歧義情況,在保險名稱實體識別中可以獲得更好的效果。
(2)通過對比CRF、Bi-LSTM+ Pre-trained Character和Bi- LSTM-CRF + Pre-trained Character模型的評價指標,處理分析后發現,本文提出的基于預訓練字向量的Bi-LSTM-CRF在保險名稱實體識別中可以取得更好的效果。Bi- LSTM-CRF 結合預訓練字向量,利用Bi-LSTM為 CRF選取最優特征工程,利用CRF句子級別的標簽信息優化Bi-LSTM結構。結合兩者可以獲得更佳的識別效果。
4結束語
保險領域的智能問答技術設計與實現已然成為當下人工智能與社會保險相契合的熱點研究項目。不同于以往建立問答語料庫,并通過計算問句相似度來查詢相近答案的方法,本文是從自然語言角度出發,能夠更加貼切、充分地理解用戶查詢意圖。實驗表明,對比當下學術界流行的各個模型,在真實的保險領域問句數據中,本文的模型在保險名稱命名實體的識別上取得了較好效果。未來將考慮引入attention機制,根據各種字符的不同重要程度分配相應的權重,動態地利用字向量信息[13]。
參考文獻
[1] 毛先領,李曉明. 問答系統研究綜述[J]. 計算機科學與探索,2012,6(3):193-207.
[2] NADEAU D, SEKINE S. A survey of named entity recognition and classification[J]. Journal of Linguisticae Investigations, 2007, 30 (1) :1-20.
[3] 賈自艷,史忠植. 基于概率統計技術和規則方法的新詞發現[J]. 計算機工程,2004,30(20):19-21,83.
[4] BERGER A L, PIETRA V J D, PIETRA S A D. A maximum entropy approach to natural language processing[J]. Computational linguistics, 1996, 22 (1) :39-71.
[5] RABINER L, JUANG B. An introduction to hidden Markov models[J]. IEEE ASSP Magazine, 1986, 3 (1) :4-16.
[6] ZHAO Jian. Research on conditional probabilistic model and its application in Chinese Named Entity Recognition[D]. Harbin:Harbin Institute of Technology,2006.
[7] 陳霄. 基于支持向量機的中文組織機構名識別[D]. 上海:上海交通大學,2007.
[8] LAFFERTY J,MCCALLUM A,PEREIRA F. Conditional random fields: Porbabilistic models for segmenting and labeling sequence data[C]//Proceedings of the 18th International Conference on Machine Learning. Williamstown, MA, USA:Williams College,2001: 282-289.
[9] COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch[J]. The Journal of Machine Learning Research, 2011, 12 (1):2493-2537.
[10]MIKOLOV T, SUTSKEVER I, CHEN Kai, et al. Distributed representations of words and phrases and their compositionality[J]. arXiv preprint arXiv:1310.4546, 2013.
[11]HUANG Zhiheng, XU Wei, YU Kai. Bidirectional LSTM-CRF models for sequence tagging[J]. arXiv preprint arXiv:1508.01991v1, 2015.
[12]WANG Ling, LUS T, MARUJO L,et al. Finding function in form: Compositional character models for open vocabulary word representation[J]. arXiv preprint arXiv:1508.02096v1, 2015.
[13]REI M, CRICHTON G K O, PYYSALO S. Attending to characters in neural sequence labeling models[J]. arXiv preprint arXiv:1611.04361,2016.