999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多特征融合的意圖識別算法研究

2020-08-21 17:21:37周權陳永生郭玉臣
電腦知識與技術 2020年21期
關鍵詞:深度學習

周權 陳永生 郭玉臣

摘要:針對中文口語短文本缺少上下文信息、語法不規范和噪聲較大等特征造成語義模糊,進而導致用戶意圖識別準確率不高的問題,提出了一種基于多特征融合的意圖識別算法。算法對傳統Bi-LSTM(Bi-directional Long Shot-Term Memory)文本分類算法進行改進,將原始文本的字向量、詞向量、詞性向量和實體知識庫向量進行融合,結合字級別的意圖識別模型,在人工標注的實際場景下的用戶意圖數據集上進行訓練和測試。實驗結果表明,改進后的用戶意圖識別算法在實際場景中準確率等評價指標有明顯提高。

關鍵詞:意圖識別;短文本分類;多特征融合;詞嵌入;深度學習;Bi-LSTM

中圖分類號:TP391 文獻標識碼:A

文章編號:1009-3044(2020)21-0028-04

開放科學(資源服務)標識碼(OSID):

1 引言

近年來,隨著“AI賦能”“智能+”等概念的不斷提出,人工智能技術推動傳統產業向數字化、智能化方向升級,使人們的生活方式發生了翻天覆地的變化。即時通訊、智能客服、語音助理等應用應運而生,極大地方便了人們的生活,在這些人機交互系統中,能夠正確識別用戶意圖是做出合理回應的基礎,一旦用戶意圖判斷錯誤,那么機器回應就會出現答非所問的情況,十分影響用戶體驗。針對中文字符缺少空格來分割語義,口語語法靈活多變等特點,本文提出了一種基于多特征融合的意圖識別算法。該算法主要針對文本向量化表示和意圖分類模型兩方面進行改進,實現更高精度的短文本分類算法,從而準確識別用戶意圖。

2 相關工作

意圖識別的一般流程是將輸入的文本轉換成結構化的向量表示,再通過機器學習或深度學習等算法給出句子X對應的最佳意圖Z,通常作為標準的多分類問題進行處理。如對問句“東方衛視這周天有什么節目”進行分類,得到意圖識別結果“影視領域一節目單意圖”。

2.1 文本表示

文本表示是自然語言處理領域中一個很基礎的研究工作。只有先將文本表示成計算機可以理解的形式,才能使用機器學習等方法進行后續的處理。常見的文本表示方法分為離散表示和分布式表示兩種。從分詞粒度角度來看,又可以分為詞向量和字向量兩種類型。

NLP中最常用、最傳統的此特征表示方式是采用One-Hot編碼[1],即每一個特征詞都被表示成一個很長的向量,其長度等于詞表大小,當前詞對應位置為1,其他位置為0。當時One-Hot編碼這種表示方式會導致不同次之間總是正交的,無法衡量不同詞之間的相似關系,而且只能反映每個詞是否出現,無法突出詞之間重要性的區別,丟失了很多語義上的信息。

分布式表示也被稱為詞嵌入(Word Embedding),1986年由Hinton提出[2]。分布式表示把信息分布式的存儲在指定維度的向量的各個維度中,區別于傳統的離散表示方法,由于在模型訓練過程中考慮了單詞的上下文語義信息和語義環境等,因此生成的詞向量包含豐富的潛在語義信息。常用的模型有2013年Google開源的Word2Vec[3]、2014年Jeffrey Pennington等人提的GIoVe[4]和2016年Facebook開源的FastText[5]等。

2.2 意圖識別

用戶意圖識別是人機交互系統中關鍵性技術之一[6],意圖識別的結果直接影響到交互系統做出回復的合理性[7]。意圖識別本身也是一個文本分類問題,其方法和模型與文本分類大同小異,常用的有基于詞典模板的規則分類、基于機器學習和基于深度學習的文本分類。

傳統的意圖識別方法,一般通過樸素貝葉斯、支持向量機(SVM)、隱馬爾科夫(HMM)和決策樹(DT)等機器學習方法,在有標簽的意圖文本上訓練分類模型,進行意圖識別。在簡單的意圖識別任務中取得了一定的效果,但隨著意圖類別的增加,這類基于人工特征的分類模型并不能有效提取文本的深層語義信息,尤其是在口語短文本這類意圖識別問題上,數據表示更為稀疏,使得算法準確率難以提高。

近年來,深度學習模型在計算機視覺和語音識別中取得了顯著的成果。在自然語言處理中,使用CNN、LSTM、RCNN等深度學習算法來學習單詞向量表示,進行文本特征提取,在意圖識別任務中取得了不錯的效果。2014年Yoom Kim提出TextCNN[8],使用預先訓練好的詞向量作為Embedding Layer,通過不同尺寸的卷積核提取文本的局部相關性信息,在進行分類。TextCNN對文本的淺層特征抽取能力強,且速度很快,但由于主要依靠Filter窗口來抽取特征,在長距離建模方面能力受限,且對語序不敏感。同年,Chung J等人提出TextRNN[9],RNN模型由于具有短期記憶功能,因此天然就比較適合處理自然語言的序列問題,尤其是引入門控制機制后的LSTM,能夠解決長期依賴問題,捕獲輸入樣本之間的長距離聯系,但在狀態轉移過程中,容易遺忘位置相對靠前的詞。2015年Tex-tRCNN[10],將CNN的卷積層替換為雙向RNN,結合了CNN對重要特征的提取能力和RNN對句子上下文信息的捕獲能力,在文本分類任務上取得了不錯的效果。

近兩年Attention Model在自然語言處理領域大放異彩,Peng Zhou等人在Bi-LSTM的模型上加入Attention層[11],先計算每個時序的權重,然后將所有時序的向量的加權和作為特征向量,再進行softmax分類,實驗的評測結果表明,Attention能夠提高模型的性能表現。

綜上所述,國內外學者在文本表示與意圖識別方面已經做了大量的研究工作,并取得了一些進展。但是對于用戶意圖識別這類中文短文本分類任務,由于中文不同于英文,缺少顯式的單詞分割和專有名詞標識;而且口語化的文本一般長度較短,噪聲較大,不完全符合語法規范等,這些特點導致在某些領域上使用傳統短文本分類算法的用戶意圖識別效果較差。因此,本文在傳統Bi-LSTM短文本分類算法的基礎上,從豐富文本特征信息和增強分類模型魯棒性兩個角度,提出了一種基于多特征融合的意圖識別算法,使用戶意圖分類算法更具有判別性。

3 基于多特征融合的意圖識別模型

在本部分中,我們將介紹本文提出的針對中文短文本意圖分類問題的深度學習模型,以及多特征融合的具體方式。整個模型由Input Layer、Embedding Layer、Bi-LSTM Layer、Token-level Intent Detection Layer和Intent Detection Layer五部分組成,下圖1展示了模型的整體結構。

3.1 Word Embedding多特征融合

對于基于深度學習的自然語言處理任務,Word Embedding是最基本的輸入組成之一。針對字向量和詞向量的局限性,將字向量、詞向量和詞性向量進行拼接,組成字一詞向量,在不丟失詞特征的同時,降低由分詞錯誤對意圖識別帶來的嚴重影響。在字一詞向量的基礎上,再拼接實體知識庫向量,組成多特征融合向量,作為Word Embedding輸入模型,為模型提供了一定的先驗知識。各向量的拼接方式如下圖2所示:

其中實體知識庫部分,我們維護了一個包括影視劇名、地名和人名等信息的實體字典,采用5 -gram的方式構造實體知識庫向量。以“播放澳門風云”這個句子為例,分別判斷每一個字符、字符所在詞及左右5-Gram的字符串是否在實體知識庫中,若存在,則在向量對應位置上給予標記,最終生成一個長度為10的實體知識庫向量,下圖3具體展示了“澳”字的實體知識庫向量構成。

3.2 意圖識別

在Bi-LSTM模型的每一個隱層狀態中都融合了整個句子的信息,我們不僅將最后一個隱層狀態作為模型輸出向量進行分類,而是綜合利用每一個隱層狀態的輸出,對每個單詞分類,得到每個單詞的意圖分類結果。

對一個含有m個字符的句子,給定其編碼表示E,經過雙向LSTM進行編碼,得到隱層狀態:

4 實驗及結果分析

4.1實驗環境

硬件環境,如下表1所示:主要軟件環境,如下表2所示:

4.2 實驗數據

本實驗數據來源于某影視公司語音助手業務非公開數據,共計62438條記錄,包括影視搜索、節目單查詢、控制指令、影視信息查詢、明星關系查詢、生活技能等20個意圖。

4.3 實驗過程與結果分析

本項目訓練集、驗證集和測試集按照7:2:1比例進行劃分,采用十折交叉驗證的方式選擇合適的超參數。本實驗測試結果如下表4所示:

最終結果表明,我們提出的模型在宏平均準確率,宏平均召回率和準確率上相比Bi-LSTM和Char-CNN等基準模型有明顯的提高,充分證明了模型的有效性。

5 總結

針對用戶意圖識別任務,本文提出了一種基于多特征融合的意圖分類模型。該模型通過融合字向量、詞向量、詞性向量和實體知識庫向量等豐富了Word Embedding的語義信息。同時對每一個字符均進行意圖識別,最后使用投票機制確定整個句子的最終意圖,增強了模型的泛化能力。但從算法的推理時間來看,還需進一步優化,以應用于實際業務場景。

參考文獻:

[1] Turian J,Ratinov L,Bengio Y.Word representations:a simpleand general method for semi-supervised learning[C]. Proceed-ings of the 48th Annual Meeting of the Association for Compu-tational Linguistics, Uppsala, Sweden, Association for Compu-tational Linguistics: Uppsala, Sweden. 2010:384 394.

[2] Hinton G E.Learning distributed representations of concepts[C]. Proceedings of the eighth annual conference of the cogni-tive science society, Amherst, Mass: 1986:1-12.

[3] Mikolov T,Chen K,Corrado G,et aI.Efficient estimation of wordrepresentations in vector space[EB/OL].2013: arXiv:1301.3781[cs.CL].

https ://arxiv.org/abs/ 1301.3 7 81

[4] Pennington J,Socher R,Manning C D. Glove: Global vectors forword representation[C]. Proceedings of the 2014 conference onempirical methods in natural language processing (EMNLP),2014; pp 1532-1543.

[5] Joulin A,Grave E,Bojanowski P,et aI.Bag of tricks for efficienttext classification[EB/OL]. 2016: arXiv: 1607.01759[cs. CL].https://arxiv.org/ab s/ 1607.0175 9

[6] Liu, B.; Lane, l. Attention-based recurrent neural networkmodels for joint intent detection and slot filling[J]. arXiv pre-print arXiv:1609.01454 2016.

[7]靳小波.文本分類綜述[J].自動化博覽,2006,23(z1):24-29.

[8] Sarikaya R,Hinton G E.Ramabhadran B. Deep belief nets fornatural language call-routing[C]. 2011 IEEE International con-ference on acoustics, speech and signal processing (lCASSP),lEEE: 2011:5680-5683.

[9] Reinforcement Learning[C]. The Thirty-Second AAAI Confer-ence on Artificial Intelligence (AAAI-18), 2018:6053-6060.

[10] Lai S,Xu L,Liu K,et al. Recurrent Convolutional Neural Net-works for Text Classification[C]. the Twenty-Ninth AAAI Con-ference on Artificial Intelligence, 2015:2267-2273.

[11] Zhou P, Shi W, Tian J, et al. Attention-based bidirectionallong short-term memory networks for relation classification[C].Proceedings of the 54th annual meeting of the association forcomputational linguistics (volume 2: Short papers), 2016:207-212.

作者簡介:周權(1995-),男,山東濱州人,學生,研究生,主要研究方向為自然語言處理。

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 国产成人高清在线精品| 国产视频自拍一区| 欧美第二区| 五月天丁香婷婷综合久久| 亚洲区第一页| 在线免费无码视频| 伊人色在线视频| 国产精品网拍在线| 一本一道波多野结衣av黑人在线| 在线观看国产精品一区| 欧美高清三区| 成人福利在线视频免费观看| 国产国模一区二区三区四区| 国产综合色在线视频播放线视| 老司机精品99在线播放| 国产成人精品在线| 黄色污网站在线观看| 久久久黄色片| 亚洲成a人片在线观看88| 国产美女在线观看| 欧美成人在线免费| 天天摸夜夜操| 黄色网址免费在线| 亚洲日本www| 精品无码日韩国产不卡av| 香蕉国产精品视频| 99久久人妻精品免费二区| 亚洲国产成人麻豆精品| 五月天综合网亚洲综合天堂网| 欧美亚洲第一页| 国产高清色视频免费看的网址| 久久精品66| 午夜免费小视频| 91网红精品在线观看| 久草视频福利在线观看| 日本成人福利视频| 亚洲欧洲日韩国产综合在线二区| 国产亚洲精品91| 亚洲欧美自拍视频| 伊人91在线| 亚洲国产清纯| 久久久久久尹人网香蕉| 91小视频在线| 亚洲人成影院午夜网站| 日本欧美视频在线观看| 久久综合色视频| 国产91av在线| 99视频在线观看免费| 澳门av无码| 精品国产网站| 在线观看网站国产| 中文字幕欧美日韩高清| 白丝美女办公室高潮喷水视频| 亚洲全网成人资源在线观看| 欧美综合成人| 亚洲成年网站在线观看| 国产一级毛片网站| 91精品日韩人妻无码久久| 在线欧美日韩| 国产天天射| 中文字幕亚洲专区第19页| 国产97视频在线| 国产精品美女自慰喷水| 亚洲无码高清一区| 久久黄色一级视频| 四虎影视8848永久精品| 永久成人无码激情视频免费| 国产成人三级在线观看视频| 久久人妻xunleige无码| 国产精品视频第一专区| 婷婷综合亚洲| 激情国产精品一区| 高清欧美性猛交XXXX黑人猛交| 尤物国产在线| 一区二区影院| 亚洲国产清纯| 亚洲天堂网在线观看视频| 国产男女XX00免费观看| 午夜精品久久久久久久99热下载| 91久草视频| 亚洲精品国偷自产在线91正片| 国产91九色在线播放|