孫緒瑞 常遠 舒言 劉川 戴心雨
摘要:本文提出了一種基于Bi-LSTM和CNN的混合模型,并引入自注意力機制,使模型更好地理解幽默文本的語義,完成幽默計算的兩個任務。通過實驗,本文模型將中文幽默計算兩個任務的F1值分別提高了近2%和5%。
關鍵詞:幽默計算;長短時記憶網絡;自注意力機制;卷積神經網絡;文本分類
中圖分類號:TP391.1;TP181 ? 文獻標識碼:A ?文章編號:1007-9416(2020)06-0000-00
1研究背景
幽默可以分為不同的類型,如反轉、諧音、諧義等,并且幽默往往還存在著強弱之分。雖然主觀性較強,仍可以以一定的規則進行計算。幽默計算可以進一步揭示人類使用幽默的方式和機制,形成涵蓋幽默機制的認知模型,實現更為智能的人機交互。同時,建立基于幽默的計算模型,有助于賦予計算機更深層次的人類認知。
2相關工作
本文對中文幽默的計算任務主要有兩個,一是將包含有幽默的語料分成諧音,諧義,反轉這三個基本類別,二是將一條幽默語料按照幽默強度進行二等級劃分,即分為強幽默或者弱幽默。
對于傳統的文本分類方法目前已經比較成熟,祁小軍等人[1]將貝葉斯,KNN以及SVM算法這幾種方法成功應用到海量新聞抓取有用信息上來,并對比分析了這幾種方法的效果;丁世濤等人[2]以文本標題作為突破口,并使用word2vec進行分詞詞向量的訓練,快速將文本對應到分類標簽上。但是這幾種方法都難以避免人工提取規則的開銷,而且遷移性差也成為傳統文本分類任務的瓶頸。
因此,利用神經網絡來自動提取特征的方法逐漸過渡到文本分類任務上來。孫明敏[3]使用改進的TF-IDF算法提取文本特征,將其與FastText模型結合,一定程度上提高了分類準確率,但是其提取文本特征依舊局限于詞語級別,而忽略了句子之間的依賴關系;孫嘉琪等人[4]先使用了RNN來解決文本語義的長期依賴問題,但是由于RNN所存在的梯度消失這一問題,又使用了LSTM的方法加以改進。朱文峰[5]為了提升算法時間效率并兼顧準確度,結合卷積模型中的注意力機制并行連接長短時記憶網絡以及門控循環單元構建一個深度模型。
注意力機制模擬了人腦在觀察事物時會重點關注某些特定區域以精準快速地獲取需要的信息的機制。2017年Google團隊的Vaswani等人[6]提出一種基于多頭自注意力機制的編碼器-解碼器模型用于機器翻譯任務,取得出色的效果。自注意力機制對于序列化的文本輸入來說通過詞語對周圍詞分配不同的權重來進行詞的表示學習,能更好地捕獲到詞與詞之間的關聯,因此本文中引入了一層自注意力機制來捕獲詞與詞之間的關系。
基于以上研究,我們發現,不同的神經網絡對文本的不同粒度特征的提取各有優勢。因此,本文構建了一種組合式的神經網絡模型,模型主要由嵌入層、雙向長短時記憶層、自注意力層、卷積神經網絡層和輸出層五個部分組成。
3本文模型
本文結合了長短時記憶網絡捕獲文本上下文全局特征的特性,自注意力機制調整詞與詞之間權重分配的特性和卷積神經網絡捕獲文本不同位置的局部相關性的特性,提出基于Bi-LSTM,Self-Attention和CNN的組合模型。
模型的嵌入層將輸入的幽默文本序列映射為詞向量序列,這些向量將與模型一起參與訓練;雙向長短時記憶層負責對詞向量序列提取上下文的長距離依賴特征,使模型能夠識別幽默文本序列存在的全局上下文模式,有助于模型辨別諸如前后反轉造成的幽默效果,同時使模型具有識別文本中是否存在加強幽默效果的關鍵句的能力。自注意力層在雙向長短時記憶層的基礎上,通過文本序列中每個位置的詞語對其他位置詞語分配注意力權重,動態地調整詞向量序列,使每個詞語更加關注文本序列中有限的若干個詞語,對模型捕獲文本中存在的諧音、諧義和反義等關系有重要作用。卷積神經網絡層中通過卷積操作進一步提取文本中的局部相關性特征,并通過平均池化來整合特征以及降低特征維度。輸出層經過全連接層與卷積神經網絡層相連,用于輸出分類類別。
4實驗
4.1實驗數據
本文實驗所使用的數據為CCL2018 Task4由大連理工大學信息檢索實驗室提供的的評測數據集。任務一數據集共有9123條幽默文本,任務二數據集共有10058條幽默文本,其中幽默文本的類別分布與現實情況基本一致。
對于輸入模型的語料,需要進行一些預處理的工作:使用正則表達式去除語料中的標點符號、特殊符號,并使用python中的jieba庫對文本進行分詞處理,將每個幽默文本轉化為詞語序列的表示。
4.2實驗結果及分析
本文實驗中,選取CNN和Bi-LSTM模型作為對比模型,用以證明本文模型在幽默計算任務中的有效性。我們使用F1值、準確率和召回率作為評價指標。由于任務一為三分類任務,因此均使用宏平均的指標。
在任務一中,經過對比我們可以發現,CNN模型對于幽默識別任務來說能達到一個相對較高的準確率,而在召回率上表現較差。而Bi-LSTM模型在召回率上有所提升,但是準確率卻相對于CNN有所下降。本文模型在達到了較高召回率的同時,也保持了相對高的準確率,并在宏平均F1值上相較于其他兩個模型提高了近2%。在任務二中,經過對比我們可以發現Bi-LSTM在準確率和召回率上相較于CNN均有提升,本文模型在準確率上相較于Bi-LSTM略有提升,而在召回率上提升幅度較大,并在F1值上達到3%-5%的提升。
5結語
對于本文的幽默類型及幽默等級分類任務,我們通過使用Bi-LSTM與CNN組合,并加入自注意力機制調整詞語對周圍詞的注意力權重的方法,更好地捕捉到了幽默文本中的語義信息以及長距離諧音、諧義、反轉的特征信息,從而在原有的使用簡單神經網絡分類基礎上準確率進一步提高。
目前將機器識別幽默運用到實際中還需要更深入的研究。在未來的學習與工作中,我們將嘗試將外部知識庫融入模型中,輔助模型進行幽默的識別和分類,從而能實現幽默機制真正意義上的現實應用。
參考文獻
[1] 祁小軍,蘭海翔,盧涵宇,等.貝葉斯、KNN和SVM算法在新聞文本分類中的對比研究[J].電腦知識與技術,2019,15(25):220-222.
[2] 丁世濤,盧軍,洪鴻輝,等.基于SVM的文本多選擇分類系統的設計與實現[J].計算機與數字工程,2020,48(1):147-152.
[3] 孫明敏.基于TF-IDF的FastText文本分類算法研究[D].揚州:揚州大學,2019.
[4] 孫嘉琪,王曉曄,周曉雯.基于神經網絡模型的文本分類研究綜述[J].天津理工大學學報,2019,35(5):29-33.
[5] 朱文峰.基于支持向量機與神經網絡的文本分類算法研究[D].南京:南京郵電大學,2019.
[6] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems,2017:5998-6008.
收稿日期:2020-05-06
作者簡介:孫緒瑞,男,江蘇連云港人,本科,研究方向:人工智能與大數據處理。