基于多特征融合的意圖識別算法研究

2020-08-21 17:21:37周權陳永生郭玉臣

電腦知識與技術 2020年21期

周權陳永生郭玉臣

摘要：針對中文口語短文本缺少上下文信息、語法不規范和噪聲較大等特征造成語義模糊，進而導致用戶意圖識別準確率不高的問題，提出了一種基于多特征融合的意圖識別算法。算法對傳統Bi-LSTM（Bi-directional Long Shot-Term Memory）文本分類算法進行改進，將原始文本的字向量、詞向量、詞性向量和實體知識庫向量進行融合，結合字級別的意圖識別模型，在人工標注的實際場景下的用戶意圖數據集上進行訓練和測試。實驗結果表明，改進后的用戶意圖識別算法在實際場景中準確率等評價指標有明顯提高。

關鍵詞：意圖識別;短文本分類;多特征融合;詞嵌入;深度學習;Bi-LSTM

中圖分類號：TP391 文獻標識碼：A

文章編號：1009-3044（2020）21-0028-04

開放科學（資源服務）標識碼（OSID）：

1 引言

近年來，隨著“AI賦能”“智能+”等概念的不斷提出，人工智能技術推動傳統產業向數字化、智能化方向升級，使人們的生活方式發生了翻天覆地的變化。即時通訊、智能客服、語音助理等應用應運而生，極大地方便了人們的生活，在這些人機交互系統中，能夠正確識別用戶意圖是做出合理回應的基礎，一旦用戶意圖判斷錯誤，那么機器回應就會出現答非所問的情況，十分影響用戶體驗。針對中文字符缺少空格來分割語義，口語語法靈活多變等特點，本文提出了一種基于多特征融合的意圖識別算法。該算法主要針對文本向量化表示和意圖分類模型兩方面進行改進，實現更高精度的短文本分類算法，從而準確識別用戶意圖。

2 相關工作

意圖識別的一般流程是將輸入的文本轉換成結構化的向量表示，再通過機器學習或深度學習等算法給出句子X對應的最佳意圖Z，通常作為標準的多分類問題進行處理。如對問句“東方衛視這周天有什么節目”進行分類，得到意圖識別結果“影視領域一節目單意圖”。

2.1 文本表示

文本表示是自然語言處理領域中一個很基礎的研究工作。只有先將文本表示成計算機可以理解的形式，才能使用機器學習等方法進行后續的處理。常見的文本表示方法分為離散表示和分布式表示兩種。從分詞粒度角度來看，又可以分為詞向量和字向量兩種類型。

NLP中最常用、最傳統的此特征表示方式是采用One-Hot編碼[1]，即每一個特征詞都被表示成一個很長的向量，其長度等于詞表大小，當前詞對應位置為1，其他位置為0。當時One-Hot編碼這種表示方式會導致不同次之間總是正交的，無法衡量不同詞之間的相似關系，而且只能反映每個詞是否出現，無法突出詞之間重要性的區別，丟失了很多語義上的信息。

分布式表示也被稱為詞嵌入（Word Embedding），1986年由Hinton提出[2]。分布式表示把信息分布式的存儲在指定維度的向量的各個維度中，區別于傳統的離散表示方法，由于在模型訓練過程中考慮了單詞的上下文語義信息和語義環境等，因此生成的詞向量包含豐富的潛在語義信息。常用的模型有2013年Google開源的Word2Vec[3]、2014年Jeffrey Pennington等人提的GIoVe[4]和2016年Facebook開源的FastText[5]等。

2.2 意圖識別

用戶意圖識別是人機交互系統中關鍵性技術之一[6]，意圖識別的結果直接影響到交互系統做出回復的合理性[7]。意圖識別本身也是一個文本分類問題，其方法和模型與文本分類大同小異，常用的有基于詞典模板的規則分類、基于機器學習和基于深度學習的文本分類。

傳統的意圖識別方法，一般通過樸素貝葉斯、支持向量機（SVM）、隱馬爾科夫（HMM）和決策樹（DT）等機器學習方法，在有標簽的意圖文本上訓練分類模型，進行意圖識別。在簡單的意圖識別任務中取得了一定的效果，但隨著意圖類別的增加，這類基于人工特征的分類模型并不能有效提取文本的深層語義信息，尤其是在口語短文本這類意圖識別問題上，數據表示更為稀疏，使得算法準確率難以提高。

近年來，深度學習模型在計算機視覺和語音識別中取得了顯著的成果。在自然語言處理中，使用CNN、LSTM、RCNN等深度學習算法來學習單詞向量表示，進行文本特征提取，在意圖識別任務中取得了不錯的效果。2014年Yoom Kim提出TextCNN[8]，使用預先訓練好的詞向量作為Embedding Layer，通過不同尺寸的卷積核提取文本的局部相關性信息，在進行分類。TextCNN對文本的淺層特征抽取能力強，且速度很快，但由于主要依靠Filter窗口來抽取特征，在長距離建模方面能力受限，且對語序不敏感。同年，Chung J等人提出TextRNN[9]，RNN模型由于具有短期記憶功能，因此天然就比較適合處理自然語言的序列問題，尤其是引入門控制機制后的LSTM，能夠解決長期依賴問題，捕獲輸入樣本之間的長距離聯系，但在狀態轉移過程中，容易遺忘位置相對靠前的詞。2015年Tex-tRCNN[10]，將CNN的卷積層替換為雙向RNN，結合了CNN對重要特征的提取能力和RNN對句子上下文信息的捕獲能力，在文本分類任務上取得了不錯的效果。

近兩年Attention Model在自然語言處理領域大放異彩，Peng Zhou等人在Bi-LSTM的模型上加入Attention層[11]，先計算每個時序的權重，然后將所有時序的向量的加權和作為特征向量，再進行softmax分類，實驗的評測結果表明，Attention能夠提高模型的性能表現。

綜上所述，國內外學者在文本表示與意圖識別方面已經做了大量的研究工作，并取得了一些進展。但是對于用戶意圖識別這類中文短文本分類任務，由于中文不同于英文，缺少顯式的單詞分割和專有名詞標識;而且口語化的文本一般長度較短，噪聲較大，不完全符合語法規范等，這些特點導致在某些領域上使用傳統短文本分類算法的用戶意圖識別效果較差。因此，本文在傳統Bi-LSTM短文本分類算法的基礎上，從豐富文本特征信息和增強分類模型魯棒性兩個角度，提出了一種基于多特征融合的意圖識別算法，使用戶意圖分類算法更具有判別性。

3 基于多特征融合的意圖識別模型

在本部分中，我們將介紹本文提出的針對中文短文本意圖分類問題的深度學習模型，以及多特征融合的具體方式。整個模型由Input Layer、Embedding Layer、Bi-LSTM Layer、Token-level Intent Detection Layer和Intent Detection Layer五部分組成，下圖1展示了模型的整體結構。

3.1 Word Embedding多特征融合

對于基于深度學習的自然語言處理任務，Word Embedding是最基本的輸入組成之一。針對字向量和詞向量的局限性，將字向量、詞向量和詞性向量進行拼接，組成字一詞向量，在不丟失詞特征的同時，降低由分詞錯誤對意圖識別帶來的嚴重影響。在字一詞向量的基礎上，再拼接實體知識庫向量，組成多特征融合向量，作為Word Embedding輸入模型，為模型提供了一定的先驗知識。各向量的拼接方式如下圖2所示：

其中實體知識庫部分，我們維護了一個包括影視劇名、地名和人名等信息的實體字典，采用5 -gram的方式構造實體知識庫向量。以“播放澳門風云”這個句子為例，分別判斷每一個字符、字符所在詞及左右5-Gram的字符串是否在實體知識庫中，若存在，則在向量對應位置上給予標記，最終生成一個長度為10的實體知識庫向量，下圖3具體展示了“澳”字的實體知識庫向量構成。

3.2 意圖識別

在Bi-LSTM模型的每一個隱層狀態中都融合了整個句子的信息，我們不僅將最后一個隱層狀態作為模型輸出向量進行分類，而是綜合利用每一個隱層狀態的輸出，對每個單詞分類，得到每個單詞的意圖分類結果。

對一個含有m個字符的句子，給定其編碼表示E，經過雙向LSTM進行編碼，得到隱層狀態：

4 實驗及結果分析

4.1實驗環境

硬件環境，如下表1所示：主要軟件環境，如下表2所示：

4.2 實驗數據

本實驗數據來源于某影視公司語音助手業務非公開數據，共計62438條記錄，包括影視搜索、節目單查詢、控制指令、影視信息查詢、明星關系查詢、生活技能等20個意圖。

4.3 實驗過程與結果分析

本項目訓練集、驗證集和測試集按照7：2：1比例進行劃分，采用十折交叉驗證的方式選擇合適的超參數。本實驗測試結果如下表4所示：

最終結果表明，我們提出的模型在宏平均準確率，宏平均召回率和準確率上相比Bi-LSTM和Char-CNN等基準模型有明顯的提高，充分證明了模型的有效性。

5 總結

針對用戶意圖識別任務，本文提出了一種基于多特征融合的意圖分類模型。該模型通過融合字向量、詞向量、詞性向量和實體知識庫向量等豐富了Word Embedding的語義信息。同時對每一個字符均進行意圖識別，最后使用投票機制確定整個句子的最終意圖，增強了模型的泛化能力。但從算法的推理時間來看，還需進一步優化，以應用于實際業務場景。

參考文獻：

[1] Turian J，Ratinov L，Bengio Y.Word representations：a simpleand general method for semi-supervised learning[C]. Proceed-ings of the 48th Annual Meeting of the Association for Compu-tational Linguistics， Uppsala， Sweden， Association for Compu-tational Linguistics： Uppsala， Sweden. 2010：384 394.

[2] Hinton G E.Learning distributed representations of concepts[C]. Proceedings of the eighth annual conference of the cogni-tive science society， Amherst， Mass： 1986：1-12.

[3] Mikolov T，Chen K，Corrado G，et aI.Efficient estimation of wordrepresentations in vector space[EB/OL].2013： arXiv：1301.3781[cs.CL].

https ：//arxiv.org/abs/ 1301.3 7 81

[4] Pennington J，Socher R，Manning C D. Glove： Global vectors forword representation[C]. Proceedings of the 2014 conference onempirical methods in natural language processing （EMNLP），2014; pp 1532-1543.

[5] Joulin A，Grave E，Bojanowski P，et aI.Bag of tricks for efficienttext classification[EB/OL]. 2016： arXiv： 1607.01759[cs. CL].https：//arxiv.org/ab s/ 1607.0175 9

[6] Liu， B.; Lane， l. Attention-based recurrent neural networkmodels for joint intent detection and slot filling[J]. arXiv pre-print arXiv：1609.01454 2016.

[7]靳小波.文本分類綜述[J].自動化博覽，2006，23（z1）：24-29.

[8] Sarikaya R，Hinton G E.Ramabhadran B. Deep belief nets fornatural language call-routing[C]. 2011 IEEE International con-ference on acoustics， speech and signal processing （lCASSP），lEEE： 2011：5680-5683.

[9] Reinforcement Learning[C]. The Thirty-Second AAAI Confer-ence on Artificial Intelligence （AAAI-18）， 2018：6053-6060.

[10] Lai S，Xu L，Liu K，et al. Recurrent Convolutional Neural Net-works for Text Classification[C]. the Twenty-Ninth AAAI Con-ference on Artificial Intelligence， 2015：2267-2273.

[11] Zhou P， Shi W， Tian J， et al. Attention-based bidirectionallong short-term memory networks for relation classification[C].Proceedings of the 54th annual meeting of the association forcomputational linguistics （volume 2： Short papers）， 2016：207-212.

作者簡介：周權（1995-），男，山東濱州人，學生，研究生，主要研究方向為自然語言處理。