深度學習在答案選擇句意表示上的應用研究

2018-04-24 07:54:31張世西丁祝祥

現代計算機 2018年7期

張世西，丁祝祥

（四川大學計算機學院，成都610065)

0 引言

自動問答系統是自然語言處理領域（NLP）一個重要的研究課題，該課題可被形式化地表示為計算機和人通過人類的語言進行交互，并幫助用戶完成簡單的任務。該課題早在上世紀60年代就被提出，并在80年代因圖靈實驗[1]而風靡一時，但由于當時實驗條件的限制，自動問答一直被限制在特殊領域的專家系統，發展緩慢。隨著網絡和信息技術的快速發展，用戶期待系統可以更快更精準地定位意圖，給出高質量的回答，促使自動問答系統再次成為NLP領域的一個研究熱點。

近年來，隨著大數據時代的到來以及GPU等高速計算設備的發展，深度學習在圖像分類、語音識別等任務上取得了突出效果，其在自動學習抽象知識表達上的優異表現使得越來越多的研究人員將其應用在NLP領域的各項任務中，包括自動問答，機器翻譯，文章摘要等。本文的研究主要基于自動問答系統中的答案選擇子任務，重點集中在問答語句語義表示任務上，探究了主流的深度學習算法，包括卷積神經網絡（CNN）、循環神經網絡（RNN）等在答案選擇中的應用，并通過實驗證明結合了兩者的混合深度神經網絡在問答系統語義表示上取得的效果要好于單一網絡。

1 問題描述

答案選擇是自動問答系統中的一個關鍵步驟，該問題可描述為：給定問題q及其對應的候選答案集表示該問題對應的候選答案集的大小，任務目標是從候選答案集中選出最佳答案ak，若ak屬于該問題的正確答案集合（一個問題的合理答案可以有多個），則認為該問題被正確回答，否則判定該問題沒有被正確回答[2]。該問題的一種解決方案是獲取問題和答案的語義表示，通過衡量語義表示的匹配度來選擇最佳答案。本文采取上述方案，則所需考慮的兩個問題是：一是如何實現問句及答案的語義表示。二是如何實現問題答案間的語義匹配。故而目標任務可分解為兩個步驟：第一，利用深度學習算法，如RNN，CNN等將問題序列q以及候選答案集序列轉化為向量,分別記為；第二，利用相似度衡量標準衡量中每個向量的相似度，相似度越高，則問題與答案越匹配，該答案排序越靠，反之，問題與答案匹配度越低，該答案排序越靠后。

2 算法描述

2.1 詞向量

將深度學習應用于NLP領域的第一步是需要將詞語轉換為向量，并且向量之間的距離可以表示詞語的語義相似度。傳統的one-hot詞向量不僅無法表示詞語的語義相似度，而且會造成維度災難。近幾年，NLP領域多采用分布式稠密實數向量來表示詞語的語義特征，如Word2Vec[3],GloVe[4].本文采用的是GloVe算預訓練好的模型（Common Crawl,840B tokens），每個單詞表示為一個300維的向量[5]。本文實驗中直接將詞向量初始化后的問題答案向量進行相似性度量，在實驗數據集上有一定的效果，網絡結構如圖1所示。

圖1 基于GloVe詞向量嵌入的答案選擇網絡結構

2.2 循環神經網絡（RNN）

RNN已被證明在NLP領域的很多任務中表現突出，是當下主流的深度學習模型之一[6]。在NLP領域，一個句子的單詞之間是相互關聯的，單詞因上下文不同而具有不同的含義。然而，傳統的神經網絡通常假設所有的輸入和輸出是相互獨立的，這對很多NLP領域任務來說是不合理的。RNN的提出正是為了利用句子的這種序列信息。RNN依賴之前的計算結果，并對序列的每個節點執行相同的操作，每個節點的輸入除了當前的序列節點還包括之前的計算結果，相當于擁有一個“記憶單元”來記錄之前的信息[7]。RNN算法可簡單表示為，給定輸入，其中xt表示t時刻的序列輸入，用ht-1表示t-1時刻的計算結果，則t時刻的計算公式為，其中U，W為參數矩陣，在訓練過程中學習；f為非線性激活函數，一般可以用tanh或者ReLU。上述簡單RNN在訓練過程中容易導致梯度爆炸或者梯度消失，因此研究者們在簡單RNN的基礎上進行改進，提出了很多變體，常用的包括長短時記憶網絡（LSTM）[8]和門限循環單元網絡（GRU）[9]。

LSTM針對RNN的處理節點進行了改進，引入了細胞狀態值Ct和“門機制”，包括輸入門ft，忘記門it以及輸出門ot，其單元內部計算公式如下：

GRU在LSTM基礎上做了一些簡化，將忘記門和輸入門合成了一個單一的更新門。同樣還混合了細胞狀態和隱藏狀態，和其他一些改動，其單元內部計算公式如下：

上述式子中σ表示sigmoid激活函數，tanh表示tanh激活函數，*表示矩陣逐點相乘，W,U均為訓練過程中學習的參數矩陣。

網絡結構圖如圖2所示。

圖2 基于RNNs(LSTM/GRU)的答案選擇網絡結構

2.3 卷積神經網絡（CNN）

CNN最早被用在計算機視覺領域，提取圖像特征。與傳統神經網絡相比，卷積神經網絡（CNN）包含了一個由卷積層和子采樣層構成的特征抽取器。在CNN的卷積層中，一個神經元只與部分鄰層神經元連接，CNN的一個卷積層通常包含若干個特征平面，每個特征平面由一些矩形排列的神經元組成，同一特征平面的神經元共享權值，以減少網絡各層之間的連接，同時又降低過擬合的風險。近年來，隨著Word2Vec,GloVe等詞向量技術的發展，很多NLP領域任務的輸入也可以看作是詞語序列與詞向量構成的“像素矩陣”，因而很多研究人員也開始將CNN應用于NLP的任務中[10]。不同于圖像處理的卷積，CNN對NLP的卷積核大小有要求，一般來說，卷積核的長度和詞向量的維度應該是一致的。例如一個詞向量是N維的，卷積核就為X*N維的，X一般可取1，2，3，表示提取1個詞、2個詞、3個詞之間的特征。本文實驗中，CNN卷積核數目為1000，CNN窗口大小分別取值為2,3,5,7，并將所得向量做一個拼接，最后經過一層max-pooling得到句子的最終表示，網絡結構如圖3所示。

圖3 基于CNN的答案選擇網絡結構

2.4 混合神經網絡（Con vLSTM）

RNN的模型設計可以很好地為序列建模，尤其是LSTM和GRU模型可以很好地保留遠距離依賴的信息，但容易忽略局部的最近幾個詞之間的關系，同時，若序列過長，LSTM和GRU訓練的時間代價將難以忍受。而CNN中的卷積核大小遠小于輸入大小，強調的是局部最近幾個詞之間的關系，同時其訓練時間代價也小于LSTM。因而將兩種模型結合起來使用，對解決NLP領域任務更有幫助。本文實驗的模型結構如圖4。

3 實驗部分

3.1 實驗數據

本實驗基于開放數據集Ubuntu Dialog Corpus（UDC,Paper[11],GitHub[12]），該數據集是目前已公開的最大的對話數據集之一，它抽取互聯網中繼聊天Internet Relay Chat（IRC）中的 Ubuntu 聊天室記錄，文獻[11]中詳細介紹了該數據集的產生過程。該數據集被劃分為訓練集，驗證集以及測試集，訓練集包含1000000個樣例，驗證集包含195600個樣例，而測試集包含189200個樣例。訓練集的每一個樣例包含一個問題,一個回答和一個標簽，其中500000為正例（標簽為1），500000為負例（標簽為0）。正例表明該答案與問題匹配，負例表示不匹配，數據樣例如圖5。驗證集和測試集的格式與訓練集不同，驗證集和測試集的每一個樣例包括一個問題,1個正確答案（ground truth utterance）和9個干擾項，即錯誤答案（錯誤答案來自于驗證和測試集中其他問題的答案），數據樣例如圖6。值得注意的是數據集的產生腳本中已經對數據做了一些預處理，包括分詞、取詞根、英文單詞變形歸類等。此外，例如人名、地名、組織名、URL鏈接、系統路徑等專有名詞也做了替代。表1給出了訓練集問題答案長度統計信息。

圖4 基于混合模型Conv-RNN的答案選擇網絡結構

圖5 UDC訓練集示例

圖6 UDC驗證集/測試集示例

表1 UDC訓練數據集問題（context）和響應（utterance）長度統計

3.2 數據預處理

本文數據預處理主要包括兩個部分，一是文本序列化以及序列填充；二是重構驗證集和測試集，保證驗證集和測試集數據格式與訓練集相同，便于驗證和測試。在第一步中，首先建立詞表（將詞語和某個整數一一對應），并將句子轉換為整數序列；本文通過對訓練集問題和回答的長度統計分析，綜合考慮長度統計信息以及模型訓練時長，最終選擇最大序列長度為160，若句子序列長度大于160，則將超過的部分截斷；若不足160，則在句子后面以0填充。在第二步中，本文擴充了驗證集和測試集中的問題數目，使得每個正確的回答和干擾項都對應一個問題，并為正確回答打上標簽1，干擾項打上標簽0。

3.3 實驗設置

本文實驗中問題和回答的相似度計算公式為：

式（10）中，Vq表示經過深度神經網絡學習后的上下文向量，Va表示經過深度神經網絡學習后的響應向量，*表示逐點相乘，Vq*Va表示Vq和Va的相似度向量，經sigmoid函數轉換成值為（0,1）的一個相似度概率，此概率越接近于1表明相似度越大，上下文于答案越匹配；越接近于0表明相似度越小，上下文與響應越不匹配。

本文實驗中模型的目標函數選擇的是對數損失函數（binary cross-entropy loss）,計算公式如下：

其中y'表示預測標簽，y表示真實標簽，訓練目的為最小化該損失函數。

模型其他參數設置如下：詞向量維度為300維；LSTM隱藏層大小設置為300；CNN卷積核數目為1000，混合模型中CNN卷積核數目取500，CNN窗口大小取值為2,3,5,7；batch_size為256，模型優化器為Adam優化器[13]。

3.4 實驗結果及分析

本文采用的評價標準為recall@k in n,其中n表示候選答案集的大小，k表示正確答案在top_k中，如re?call@2 in 10表示給定的候選答案集大小為10，從其中選擇得分最高的前兩個答案，正確答案出現在前兩個答案中，則認為回答正確，計算回答正確的樣例占數據集總樣例的比例。

實驗結果如表2所示，文獻[11]中給出的基準實驗結果如表3所示。通過實驗表2和表3的對比發現，LSTM和GRU在答案選擇任務上的表現突出，且效果不相上下，CNN在該任務上的表現不如前兩者，而將LSTM與RNN組合使用的混合模型Conv-LSTM在該任務該數據集上的表現要好于單獨使用LSTM或者CNN，由表2表3可以看出，Conv-LSTM比CNN在Re?call@1 in 10上提升了9.2%，比LSTM提升了2.3%,比文獻[11]中提供的LSTM基準提升了3.2%。

表2 實驗結果

4 結語

本文針對深度學習在問答系統中的句意表示子任務上進行了研究，通過實驗對比發現LSTM和GRU等RNN模型相比于CNN在該任務上的表現更為突出，而將LSTM與CNN結合后的混合模型Conv-LSTM效果更好。目前針對問答系統依據答案來源分為兩種解決方案，一種是如本文所述的檢索式模型，即給定了答案集合，從中檢索出正確的答案；另一種是生成式模型，即不依賴于預先定義的回答集，模型自動生成回答的句子，如深度學習中的sequence to sequence架構[14]便可用于這種生成式任務。另外，在檢索式或生成式模型中引入注意力機制[15]也是最近的研究熱點；本文所述研究集中在單輪對話任務上，而用戶所期待的對話系統往往需要處理多輪對話任務，這可作為未來的一個研究方向。

參考文獻：

[1]https://en.wikipedia.org/wiki/Turing_test.

[2]MinweiFeng,Bing Xiang,MichaelR.Glass,LidanWang,Bowen Zhou.Applying Deep Learning To Answer Selection:AStudy And An Open Task.arXiv:1508.01585v2[cs.CL]2Oct2015.

[3]Mikolov,Tomas，Chen,Kai，Corrado,Greg，Dean,Jeffrey.Efficient Estimation of Word Representations in Vector Space.arXiv:1301.3781v3.

[4]Jeffrey Pennington,Richard Socher,Christopher D.Manning.GloVe:Global Vectors forWord Representation.In EMNLP,2014

[5]https://nlp.stanford.edu/projects/glove/.

[6]https://karpathy.github.io/2015/05/21/rnn-effectiveness/

[7]L.R.Medskerand L.C.Jain.Recurrent neural networks.Design and Applications,2001.

[8]Alex Graves.Supervised Sequence Labelling with Recurrent Neural Networks.Textbook,Studies in Computational Intelligence,Springer,2012.

[9]K.Cho,B.V.Merrienboer,C.Gulcehre,D.Bahdanau,F.Bourgares,H.Schwenk,and Y.Bengio.2014.Learning Phrase Representations Using Rnn Encoder-Decoder for Statistical Machine Translation.In arXiv preprintarXiv:1406.1078.

[10]Yoon Kim.ConvolutionalNeuralNetworks for Sentence Classification.arXiv:1408.5882v2[cs.CL].

[11]Ryan Lowe*,Nissan Pow*,Iulian V.Serbany，Joelle Pineau*.The Ubuntu Dialogue Corpus:A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems.arXiv:1506.08909v3[cs.CL]4 Feb 2016.

[12]https://github.com/rkadlec/ubuntu-ranking-dataset-creator

[13]KINGMAD,BA J.Adam:AMethod for Stochastic Optimization[J].arXiv preprintarXiv:1412.6980,2014.

[14]Ilya Sutskever,Oriol Vinyals,Quoc V.Le.Sequence to Sequence Learning with Neural Networks.arXiv:1409.3215v3.

[15]C.Santos,M.Tan,B.Xiang,and B.Zhou.2016.Attentive Pooling Networks.In arXiv:1602.03609.