基于深度學(xué)習(xí)的問答匹配方法

2017-12-14 05:22:16榮光輝黃震華

計算機應(yīng)用 2017年10期

關(guān)鍵詞：語義深度特征

榮光輝,黃震華

(同濟大學(xué) 計算機科學(xué)與技術(shù)系,上海 201800) (*通信作者電子郵箱huangzhenhua@tongji.edu.cn)

基于深度學(xué)習(xí)的問答匹配方法

榮光輝,黃震華*

(同濟大學(xué) 計算機科學(xué)與技術(shù)系,上海 201800) (*通信作者電子郵箱huangzhenhua@tongji.edu.cn)

面向中文問答匹配任務(wù)，提出基于深度學(xué)習(xí)的問答匹配方法，以解決機器學(xué)習(xí)模型因人工構(gòu)造特征而導(dǎo)致的特征不足和準確率偏低的問題。在該方法中，主要有三種不同的模型。首先應(yīng)用組合式的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)與卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型去學(xué)習(xí)句子中的深層語義特征，并計算特征向量的相似度距離。在此模型的基礎(chǔ)上，加入兩種不同的注意力機制，根據(jù)問題構(gòu)造答案的特征表示去學(xué)習(xí)問答對中細致的語義匹配關(guān)系。實驗結(jié)果表明，基于組合式的深度神經(jīng)網(wǎng)絡(luò)模型的實驗效果要明顯優(yōu)于基于特征構(gòu)造的機器學(xué)習(xí)方法，而基于注意力機制的混合模型可以進一步提高匹配準確率，其結(jié)果最高在平均倒數(shù)排序(MRR)和Top-1 accuray評測指標上分別可以達到80.05%和68.73%。

問答匹配;深度學(xué)習(xí);循環(huán)神經(jīng)網(wǎng)絡(luò);卷積神經(jīng)網(wǎng)絡(luò);注意力機制;機器學(xué)習(xí)

0 引言

隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,大量的文本數(shù)據(jù)不斷產(chǎn)生,人們能夠通過搜索引擎檢索到豐富的信息。然而傳統(tǒng)的搜索引擎僅僅返回與結(jié)果相關(guān)的網(wǎng)頁,導(dǎo)致難以讓用戶獲取準確的關(guān)鍵信息。相比之下,智能問答系統(tǒng)能夠以一問一答的自然語言形式,通過與用戶進行交互,精確定位用戶意圖,從而能夠高質(zhì)量地快速滿足用戶的信息需求,降低網(wǎng)站運行成本。目前,智能問答系統(tǒng)已經(jīng)是自然語言處理領(lǐng)域中一個非常重要的研究熱點[1-2],具有重大的應(yīng)用價值。

對于問答匹配任務(wù),早期的方法主要是基于機器學(xué)習(xí)模型,其需要依賴人工構(gòu)造的規(guī)則特征。這些基于統(tǒng)計機器學(xué)習(xí)的模型通常會定義包括詞法、句法、語法等相關(guān)特征(例如BM25、Edit Distance、詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency, TFIDF)等),并借助機器學(xué)習(xí)分類器(例如K近鄰(K-Nearest Neighbor,KNN)、貝葉斯分類、支持向量機(Support Vector Machine, SVM)等)來得到問答對之間的匹配關(guān)系。這種基于特征構(gòu)造的方法是一種淺層學(xué)習(xí)模型,其結(jié)果往往依賴特征提取的質(zhì)量高低,對于不同領(lǐng)域的數(shù)據(jù)泛化能力較差,缺乏對數(shù)據(jù)深層語義信息的學(xué)習(xí)能力。

近年來,深度學(xué)習(xí)模型在圖像處理、語音識別等領(lǐng)域的相關(guān)任務(wù)上取得了優(yōu)異的表現(xiàn),并逐漸在自然語言處理任務(wù)上取得了一些不錯的研究成果。深度學(xué)習(xí)主要是以深度神經(jīng)網(wǎng)絡(luò)為主,主要包括卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)。在2014年,Johnson等[3]提出基于卷積神經(jīng)網(wǎng)絡(luò)的短文本分類模型,將文本分類的準確率提高到了新的層次。Zhang等[4]應(yīng)用卷積深度信念網(wǎng)絡(luò)來學(xué)習(xí)詞匯和句子兩個層面的潛在特征。在機器翻譯上,Sutskever等[5]利用兩個循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)分別作為編碼器和解碼器,構(gòu)造出從序列到序列(sequence to sequence, seq2seq)的語言翻譯框架,提升了機器翻譯模型的質(zhì)量。因此,應(yīng)用深度學(xué)習(xí)模型可以對問答對中細粒度的深層語義匹配關(guān)系進行有效的表示學(xué)習(xí)建模。

由于深度學(xué)習(xí)模型在自然語言任務(wù)中具有強大的表示學(xué)習(xí)能力[6],為了能夠?qū)W習(xí)到問答對中細致的語義匹配關(guān)系,在不依賴人工構(gòu)造特征的情況下,本文改進了一般的深度神經(jīng)網(wǎng)絡(luò)模型,提出了3種不同的實驗?zāi)Ｐ?使其更加適合于問答匹配任務(wù)。通過基于深度神經(jīng)網(wǎng)絡(luò)的模型,并結(jié)合注意力機制的方法,將文本信息向量化,可以學(xué)習(xí)到句子中更加抽象的語義特征以及問答對之間關(guān)鍵的語義匹配信息,從而選擇出正確的候選答案。

1 相關(guān)工作

問答匹配任務(wù)的目標是給定一個問題和候選答案集,從中選擇出語義關(guān)系最為匹配的答案,其關(guān)鍵在于讓相關(guān)模型能夠?qū)W習(xí)到文本中深層的語義特征和細粒度的匹配關(guān)系。以前的相關(guān)模型多是基于機器學(xué)習(xí)的淺層模型,例如IBM Waston部門的Gondek等[7]使用了答案融合和特征排序的方法,Wang等[8]提出了基于關(guān)系主題空間特征的多核SVM分類模型。為了得到更豐富的特征,這些相關(guān)模型中會引入如語義知識庫(Freebase)和語義詞典(WordNet)等外部資源信息[9-10],以此來提高問答句之間的語義匹配精度。然而這些模型都缺少強大的表示學(xué)習(xí)能力，且往往需要依賴大量的特征工程。

近年來,深度學(xué)習(xí)模型逐漸開始應(yīng)用到問答匹配任務(wù)中,Wang等[11]提出了基于多層長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)模型訓(xùn)練問答對的聯(lián)合特征向量,把問答匹配問題轉(zhuǎn)換為分類或排序?qū)W習(xí)問題。Feng等[12]提出了基于共享卷積神經(jīng)網(wǎng)絡(luò)來訓(xùn)練問答對,并在此基礎(chǔ)上進行語義相似度計算,該模型在InsuranceQA英文數(shù)據(jù)集上取得了突破性的實驗效果。另外,基于注意力機制的模型方法在一系列自然語言處理相關(guān)任務(wù)中也取得了顯著的效果提升,其主要是仿照人腦的注意思維,通過自動加權(quán)的方式對整體信息進行局部重點關(guān)注。因此在問答匹配任務(wù)上可以嘗試使問題更加關(guān)注到答案中某些語義特性與其更加相關(guān)的詞語,重點將這些關(guān)鍵的詞語參與到答案的特征表示計算。例如在文本蘊含領(lǐng)域上,Rocktaschel等[13]使用一種word-by-word attention方法,根據(jù)假設(shè)自適應(yīng)地學(xué)習(xí)前提的表示,能夠更好地判斷假設(shè)與前提的蘊含關(guān)系。Yin等[14]提出一種基于注意力機制的多層卷積神經(jīng)網(wǎng)絡(luò)模型來對兩個文本語義表示建模,并在答案匹配、釋義識別和文本蘊含任務(wù)上都達到了很好的實驗效果。注意力機制主要分為Soft Attention與Hard Attention兩種形式。其中Soft Attention是指對每一個特征都分配一個注意力權(quán)值,認為是個概率分布；而Hard Attention在選取特征組合時,并不是對所有的特征都生成權(quán)值,可能只選取一個或者多個。本文所提出的注意力模型是將門限循環(huán)單元(Gated Recurrent Unit, GRU)[15]與Soft Attention機制相結(jié)合的混合學(xué)習(xí)模型。

2 基于深度學(xué)習(xí)的問答匹配模型

2.1 基于循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的問答匹配模型

循環(huán)神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于處理可變長的文本序列輸入,因為可以學(xué)習(xí)到句子的詞序特征,其關(guān)鍵的結(jié)構(gòu)是一個記憶單元(Memory Unit)。記憶單元可以記憶某時間段的信息,對于一個句子則可以選擇性記住前一時刻詞語的信息。列如一個問句:“騰訊在線教育由哪幾個部分組成?”,其中“在線教育”這個詞所對應(yīng)的隱藏單元輸入可以更多地保留來自詞語“騰訊”所傳遞的上文信息。當前循環(huán)神經(jīng)網(wǎng)絡(luò)主要有兩種不同的變體LSTM和GRU,它們都能解決傳統(tǒng)RNN存在的長期距離依賴與梯度消失問題。相對于LSTM的網(wǎng)絡(luò)結(jié)構(gòu),GRU內(nèi)部的隱藏單元少一個控制門,參數(shù)少,收斂較快,在保證模型效果的同時,模型的結(jié)構(gòu)也得到了有效簡化,所以本文使用GRU深度層次神經(jīng)網(wǎng)絡(luò)來代替LSTM。給定句子輸入x={x1,x2,…,xT},其中：xt∈Rd表示t時刻句子的預(yù)訓(xùn)練的詞向量,前一個時刻的隱藏層輸出表示為ht-1,則t時刻的GRU內(nèi)部記憶單元狀態(tài)如下。

遺忘門:

ft=σ(Wxfxt+Uhfht-1)

更新門:

zt=σ(Wxzxt+Uhzht-1)

t時刻內(nèi)部狀態(tài):

t時刻輸出:

其中:σ是sigmoid激活函數(shù);⊙代表逐元素(element-wise)相乘;W與U為參數(shù)矩陣。由于單向GRU在t時刻無法學(xué)習(xí)到在它之前和之后的上下文語義信息,所以本文模型中使用雙向門限循環(huán)層次單元(Bidirectional Gated Recurrent Unit, BGRU),即將輸入序列從正向和反向兩個GRU層分別輸入,把兩個方向在t時刻的隱層輸出串接為一個新向量ht∈R2H，其中每一個隱藏單元的維度為H。相對于單向的GRU層,BGRU模型能夠使一個詞向量表示包含更豐富的信息,從而構(gòu)造出更好的句子特征表示,其模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1 雙向門限循環(huán)單元神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

為了能夠?qū)W習(xí)到句子中更深層次的潛在局部特征,本文將BGRU層的輸出接入到一個卷積層。卷積層的操作就是將句子中連續(xù)的詞向量串接為一個向量,再把這個向量通過某種函數(shù)映射為一個新的特征向量。模型中設(shè)置卷積窗口大小為k,拼接相鄰的k個向量得到矩陣S∈R|k*2H|×L,卷積核filter的數(shù)目為c,整個卷積操作計算過程如式(1)所示:

G=f(WgcS+b)

(1)

其中:f是relu激活函數(shù),可以加速模型的收斂,更易于優(yōu)化；權(quán)重Wgc和偏差b隨機初始化為均勻分布U(-0.05,+0.05)。不同于傳統(tǒng)單一粒度的卷積核,在實驗中本文使用多粒度的卷積核,即有不同大小的卷積核,每一種粒度的卷積核都可以學(xué)習(xí)到句子的一種n-gram特征。卷積操作后經(jīng)max-pooling得到固定大小的句子特征向量,串接所有的向量得到句子的最終表示。另外為了防止模型出現(xiàn)過擬合現(xiàn)象,訓(xùn)練過程中使用了Dropout[16],整個BGRU-CNN模型結(jié)構(gòu)如圖2所示。

圖2 基于循環(huán)卷積神經(jīng)網(wǎng)絡(luò)模型的問答匹配

2.2 基于注意力機制的問答匹配混合模型

在BGRU-CNN模型中,對于答案的每個詞向量其實都是同等對待。問題和答案在特征學(xué)習(xí)的過程中并沒有任何語義上的交互影響,也沒有考慮到一些具有關(guān)鍵特征的詞語在答案構(gòu)造表示中對句子語義匹配的重要性。另外一般句子中都存在很多無關(guān)的干擾詞,它們對語義匹配的貢獻度很小,甚至?xí)档推ヅ涞臏蚀_度。而基于注意力機制的混合深度學(xué)習(xí)模型能夠使問題關(guān)注到答案語句中更為重要的特征詞語,讓這些關(guān)鍵詞語更多地參與答案的特征表示計算中。

Soft Attention機制就是對句子的局部重要特征進行重點關(guān)注,在模型中為每個詞向量特征設(shè)置不同大小的注意力權(quán)值系數(shù),不同的權(quán)值反映出語義重要性的大小,如以下的一個問答匹配對。

Q:你知道在上海,有哪些非常好玩的著名景點?

A:上海是中國最大的經(jīng)濟城市,這里交通發(fā)達,是國際化的大城市,旅游景點也很發(fā)達,主要有東方明珠、外灘、南京路步行街等游玩景點。

根據(jù)這個問題去匹配候選答案時,則“東方明珠”“外灘”“南京路步行街”這些詞語的語義與問題表述更為相關(guān),所以在模型中應(yīng)當增強這些詞語的特征表示作用。為了能夠重點關(guān)注到答案句子中與問題語義最相關(guān)的有效詞語,本文提出的第一個基于注意力機制的問答匹配混合模型叫作AR-BGRU,其主要借鑒Hermann等[17]在閱讀理解相關(guān)任務(wù)中所提出的一種注意力機制方法稱為AR(Attentive Reader),相對于Tan等[18]提出的Attention-LSTM模型,本文基于BGRU網(wǎng)絡(luò)的注意力模型在復(fù)雜度上和訓(xùn)練代價上都更有優(yōu)勢,AR-BGRU模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

答案中每一個詞向量的所對應(yīng)的注意力權(quán)值根據(jù)問題決定。從BGRU層輸出的問題詞向量矩陣經(jīng)max-pooling得到問題特征向量rq,答案句子t時刻的輸出ht所對應(yīng)的權(quán)值計算方式如式(2)所示:

(2)

其中：Pa,(t)就是h(t)對應(yīng)的注意力權(quán)值,通過rq對h(t)加入注意力使其更新為新的特征向量ha,(t)。h(t)與rq在語義層面越匹配,Pa,(t)所表示的重要性程度系數(shù)也就越大。這種方式可以突出答案中那些與問題相關(guān)的詞語,使具有關(guān)鍵特征的詞語在答案表示中發(fā)揮著更大的作用。

圖3 基于AR-BGRU注意力模型的問答匹配

AR-BGRU模型訓(xùn)練注意力重要性系數(shù)的方式存在著參數(shù)多、結(jié)構(gòu)復(fù)雜的問題,導(dǎo)致模型訓(xùn)練的代價大；而且max-pooling往往只選取最重要的特征,從而會丟失一些其他較為重要的信息。因此本文提出另外一種基于注意力機制的混合模型,稱作AP-BGRU,不是簡單使用max-pooling去得到最終的答案表示,而是依據(jù)不同的注意力權(quán)值系數(shù)通過加權(quán)求和的方式去表示答案。與AR-BGRU相比,模型的結(jié)構(gòu)得到簡化,實驗的效果也有所提升,可以更好地在語義層面上匹配到正確的候選答案。AP-BGRU網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

圖4 基于AP-BGRU注意力模型的問答匹配

從BGRU隱藏層輸出得到答案詞向量矩陣A=(a1,a2,…,aT),根據(jù)問題向量rq計算t時刻答案詞向量at的注意力權(quán)值系數(shù)?t,其計算方式如式(3)所示:

(3)

其中Pt表示at對問題rq的重要性程度函數(shù)，其計算公式為：

(4)

其中：W是參數(shù)矩陣。所以答案的特征向量表示為ra每個更新后的詞向量做加權(quán)求和運算。ra的計算公式為：

(5)

通過為不同的詞語設(shè)置不同的權(quán)值系數(shù),使得與問題無關(guān)的詞向量at在最終的答案特征表示中發(fā)揮較小的作用。

3 實驗與分析

3.1 詞向量

深度學(xué)習(xí)在自然語言處理任務(wù)中普遍應(yīng)用基于分布式的K維稠密實數(shù)向量來表示詞語的特征,通過詞語在向量空間上的距離來判斷它們之間的語義相似度。相對于One-hot語言模型,這種方法不會出現(xiàn)維數(shù)災(zāi)難。Google在2013年發(fā)布強大開源工具Word2Vec[19]就是一種分布式的詞表征方式。本文使用Word2Vec來預(yù)訓(xùn)練詞向量,訓(xùn)練語料主要來自爬取的百度百科相關(guān)網(wǎng)頁數(shù)據(jù),去除特殊字符和標點符號后,語料庫大小大約有22 GB,所訓(xùn)練的詞向量維數(shù)d設(shè)置為300,句子最大的長度設(shè)置為50。

3.2 實驗設(shè)置

模型的目標函數(shù)定義為:

L=max{0,m-cos(q,a+)+cos(q,a-)}

其中:a+為正確答案向量;a-為隨機選取的負向答案向量;m是為了優(yōu)化目標函數(shù)而設(shè)置的閾值參數(shù)。目標函數(shù)的意義就是讓正確答案和問題之間的cos值要大于負向答案和問題的cos值。模型的優(yōu)化器設(shè)置為Adam[20]來更新神經(jīng)網(wǎng)絡(luò)模型中的參數(shù),Dropout rate設(shè)置為0.2,卷積核數(shù)c設(shè)置為200。實驗環(huán)境是基于Spark 集群的CentOS 6.5服務(wù)器,每個CPU有16個核,4塊型號為TITAN X的顯卡,每個顯存大小為12 GB,支持Nvidia Cuda深度學(xué)習(xí)運算平臺。

3.3 數(shù)據(jù)集

數(shù)據(jù)集為NLPCC-ICCPOL 2016 評測任務(wù)DBQA所提供的開放域問答數(shù)據(jù)集,數(shù)據(jù)集分為訓(xùn)練集與測試集。訓(xùn)練集有8 772個問題,共181 882問答對;測試集有5 997個問題,共122 530個問答對。本文在預(yù)處理階段去除了一些常見無意義的停用詞,如“啊”“吧”“的”等。

3.4 實驗結(jié)果

本文實驗采用了兩種評測指標:準確率(Top-1 accuracy)和平均倒數(shù)排序(Mean Reciprocal Rank, MRR)。實驗結(jié)果如表1所示。

表1 多個模型的實驗評測結(jié)果 %

實驗數(shù)據(jù)集主要是NLPCC-ICCPOL 2016 DBQA Task所提供的中文開放域問答數(shù)據(jù),為了驗證本文模型的有效性,在相同數(shù)據(jù)集下將其他模型的實驗對比結(jié)果如表2所示。

從表2中的實驗結(jié)果對比可以看出,就Wu等[21]基于傳統(tǒng)的人工構(gòu)造特征(如:TF、Edit distance等)模型而言,基于深度學(xué)習(xí)的雙向長短期記憶網(wǎng)絡(luò)(BLSTM)模型在問答匹配上的實驗效果要明顯優(yōu)于基于機器學(xué)習(xí)的SVM分類排序方法。而本文BGRU-CNN模型與BLSTM相比,MRR指標提高了將近9個百分點,可以推斷出在雙向門限循環(huán)神經(jīng)網(wǎng)絡(luò)加卷積層能夠進一步學(xué)習(xí)到句子中更深層次的語義特征,從而可以提高語義匹配的準確率。在與Wang等模型[22]的實驗對比結(jié)果中可以看出,BGRU-CNN實驗效果要比基于Word overlap和Average word embedding特征構(gòu)造的模型要好很多。這兩個方法存在的共同點就是無法像深度神經(jīng)網(wǎng)絡(luò)那樣可以學(xué)習(xí)到句子中抽象的語義信息。相對于Embedding-based feature方法,BGRU-CNN模型的效果也有一定的提升,MRR指標大約提高了0.7個百分點。從表1～2可以看出,引入注意力機制的AR-BGRU與AP-BGRU模型的實驗效果都要優(yōu)于BGRU-CNN模型,MRR指標分別提高了2.35個百分點和4.73個百分點,從而可以說明基于注意力機制的深度學(xué)習(xí)混合模型在問答匹配任務(wù)上的有效性,它們都可以增強答案特征中與問題最相關(guān)的表示部分。另外可以發(fā)現(xiàn)AP-BGRU比AR-BGRU的匹配效果提高了約2.4個百分點,間接地說明基于注意力機制的加權(quán)特征構(gòu)造方式與max-pooling池化方式相比,可以更好地表示答案特征。與Wang等組合多種構(gòu)造特征(All feature)并通過回歸或者排序?qū)W習(xí)模型去選取候選答案的方法相比,本文AP-BGRU的效果要稍微差一點,推測這是整個訓(xùn)練樣本受限的原因。

表2 與其他相關(guān)模型的MRR比較

4 結(jié)語

針對問答匹配任務(wù),本文提出了三種基于深度學(xué)習(xí)的模型去改善機器學(xué)習(xí)方法中存在的不足,實驗結(jié)果驗證了本文模型在中文開放域問答數(shù)據(jù)集上的有效性。在不依賴人工構(gòu)造復(fù)雜特征的情況下,本文的模型取得了良好的實驗效果,尤其是在引入注意力機制后,模型的準確率能夠得到進一步的提升。目前中文問答系統(tǒng)的語料相對來說還是欠缺,除了收集和標記更多的語料之外,還可以嘗試如何在深度學(xué)習(xí)模型中有效地融合傳統(tǒng)的特征提取方法。另外目前基于注意力機制的模型大多數(shù)都是在詞匯級別(word-level)上,而短語級別(phrase-level)的文本可能包含更豐富的語義信息,如何將注意力機制應(yīng)用到短語級別,更加有效地學(xué)習(xí)句子的潛在抽象特征,將是未來的重點研究方向。

References)

[1] 王元卓, 賈巖濤, 劉大偉, 等. 基于開放網(wǎng)絡(luò)知識的信息檢索與數(shù)據(jù)挖掘[J]. 計算機研究與發(fā)展, 2015, 52(2): 456-474. (WANG Y Z, JIA Y T, LIU D W, et al. Open Web knowledge aided information search and data mining[J]. Journal of Computer Research and Development, 2015, 52(2): 456-474.)

[2] ZHOU T C, LYU M R, KING I. A classification-based approach to question routing in community question answering[C]// Proceedings of the 21st International Conference on World Wide Web. New York: ACM, 2012: 783-790.

[3] JOHNSON R, ZHANG T. Effective use of word order for text categorization with convolutional neural networks[EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1412.1058.pdf.

[4] ZHANG D, WANG D. Relation classification via recurrent neural network[EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1508.01006.pdf.

[5] SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks[C]// NIPS 2014: Proceedings of the 27th International Conference on Neural Information Processing Systems. New York: ACM, 2014: 3104-3112.

[6] HU B, LU Z, LI H, et al. Convolutional neural network architectures for matching natural language sentences[C]// NIPS 2014: Proceedings of the 27th International Conference on Neural Information Processing Systems. New York: ACM, 2014: 2042-2050.

[7] GONDEK D C, LALLY A, KALYANPUR A, et al. A framework for merging and ranking of answers in DeepQA[J]. IBM Journal of Research and Development, 2012, 56(3): 399-410.

[8] WANG C, KALYANPUR A, FAN J, et al. Relation extraction and scoring in DeepQA[J]. IBM Journal of Research and Development, 2012, 56(3): 339-350.

[9] KASNECI G, SUCHANEK F M, IFRIM G, et al. NAGA: harvesting, searching and ranking knowledge[C]// Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2008: 1285-1288.

[10] YIH W T, CHANG M W, MEEK C, et al. Question answering using enhanced lexical semantic models[EB/OL]. [2017- 01- 10]. https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/QA-SentSel-Updated-PostACL.pdf.

[11] WANG D, NYBERG E. A long short-term memory model for answer sentence selection in question answering[C]// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2015: 707-712.

[12] FENG M, XIANG B, GLASS M R, et al. Applying deep learning to answer selection: a study and an open task[C]// Proceedings of the 2015 IEEE Workshop on Automatic Speech Recognition and Understanding. Piscataway, NJ: IEEE, 2015: 813-820.

[13] ROCKTASCHEL T, GREFENSTETTE E, HERMANN K M, et al. Reasoning about entailment with neural attention [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1509.06664.pdf.

[14] YIN W, SCHUTZE H, XIANG B, et al. ABCNN: attention-based convolutional neural network for modeling sentence pairs [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1512.05193.pdf.

[15] CHUNG J, GULCEHRE C, CHO K H, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1412.3555.pdf.

[16] SRIVASTAVA N, HINTON G E, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929-1958.

[17] HERMANN K M, KOCISKY T, GREFENSTETTE E, et al. Teaching machines to read and comprehend [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1506.03340.pdf.

[18] TAN M, SANTOS C, XIANG B, et al. LSTM-based deep learning models for non-factoid answer selection [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1511.04108.pdf.

[19] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1301.3781.pdf.

[20] KINGMA D, BA J. Adam: a method for stochastic optimization [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1412.6980.pdf.

[21] WU F, YANG M, ZHAO T, et al. A hybrid approach to DBQA[C]// Proceedings of the 5th CCF Conference on Natural Language Processing and Chinese Computing, and the 24th International Conference on Computer Processing of Oriental Languages. Berlin: Springer, 2016: 926-933.

[22] WANG B, NIU J, MA L, et al. A Chinese question answering approach integrating count-based and embedding-based features[C]// Proceedings of the 5th CCF Conference on Natural Language Processing and Chinese Computing, and the 24th International Conference on Computer Processing of Oriental Languages. Berlin: Springer, 2016: 934-941.

Questionanswermatchingmethodbasedondeeplearning

RONG Guanghui, HUANG Zhenhua*

(DepartmentofComputerScienceandTechnology,TongjiUniversity,Shanghai201800,China)

For Chinese question answer matching tasks, a question answer matching method based on deep learning was proposed to solve the problem of lack of features and low accuracy due to artificial structural feature in machine learning. This method mainly includes 3 different models. The first model is the combination of Recurrent Neural Network (RNN) and Convolutional Neural Network (CNN), which is used to learn the deep semantic features in the sentence and calculate the similarity distance of feature vectors. Moreover, adding two different attention mechanism into this model, the feature representation of answer was constructed according to the question to learn the detailed semantic matching relation of them. Experimental results show that the combined deep nerual network model is superior to the method of feature construction based on machine learning, and the hybrid model based on attention mechanism can further improve the matching accuracy where the best results can reach 80.05% and 68.73% in the standard evaluation of Mean Reciprocal Rank (MRR) and Top-1 accuracy respectively.

question answer matching; deep learning; Recurrent Neural Network (RNN); Convolution Neural Network (CNN); attention mechanism; machine learning

2017- 05- 03;

2017- 07- 09。

中央高校基本科研業(yè)務(wù)費專項資金資助項目(1600219256);上海市青年科技啟明星計劃項目(15QA1403900);上海市自然科學(xué)基金資助項目(17ZR1445900);霍英東教育基金會高等院校青年教師基金資助項目(142002)。

榮光輝(1992—),男,安徽六安人,碩士研究生,主要研究方向:深度學(xué)習(xí)、自然語言處理; 黃震華(1980—),男,福建泉州人,教授,博士,CCF會員,主要研究方向:數(shù)據(jù)分析、數(shù)據(jù)挖掘、機器學(xué)習(xí)。

1001- 9081(2017)10- 2861- 05

10.11772/j.issn.1001- 9081.2017.10.2861

TP183

This work is partially supported by the Fundamental Research Funds for the Central Universities (1600219256), the Sponsored by Shanghai Rising-Star Program (15QA1403900), the Shanghai Natural Science Foundation (17ZR1445900), the Fok Ying-Tong Education Foundation for Young Teachers in the Higher Education Institutions of China (142002).

RONGGuanghui, born in 1992, M. S. candidate. His research interests include deep learning, natural language processing.

HUANGZhenhua, born in 1980, Ph. D., professor. His research interests include data analysis, data mining, machine learning.