杜中方 侯躍 陸浩東
(北方工業(yè)大學(xué)信息學(xué)院,北京 100144)
隨著計算機技術(shù)的發(fā)展,大量數(shù)據(jù)以文本的方式存在于互聯(lián)網(wǎng)中。能夠快速從大量文本中篩選出重要信息顯得尤為重要。與傳統(tǒng)問答系統(tǒng)相比,智能問答系統(tǒng)是一種針對自然語言處理的新型信息檢索系統(tǒng),允許用戶用自然語言輸入問句,并以自然語言形式返回,避免了需要用戶輸入關(guān)鍵詞并自己篩選信息的麻煩。本文中的基本答案選擇模型采用基于注意力機制的BiLSTM模型。并在此基礎(chǔ)之上采用原注意力機制和主題注意力機制結(jié)合的混合注意力機制為深度學(xué)習(xí)模型動態(tài)補充主題特征。實驗結(jié)果表明,改進(jìn)后的答案選擇模型優(yōu)于基本模型。
LDA在主題模型中占有非常重要的地位,常用來進(jìn)行文本分類。作為主題模型,它可以將文檔集中文本的主題以概率分布的形式呈現(xiàn)出來。另外,L D A 采用詞袋模型,即考慮一個詞匯是否出現(xiàn)時,不考慮其出現(xiàn)的順序。LDA屬于無監(jiān)督貝葉斯模型,訓(xùn)練只需要文檔集和主題個數(shù),通過自動訓(xùn)練即可得到概率分布。因此,在自然語言處理任務(wù)中,引入L DA 模型有助于解決語義理解難題。
一篇文檔,可以看作一組有N 個詞的序列,并且服從“文檔-主題”概率分布,對于一個主題而言,服從“主題-詞語”概率分布。L D A 模型屬于生成模型,通過不斷取樣生成文本。某篇文檔中出現(xiàn)某個詞語的概率可以通過同一主題下詞語出現(xiàn)的概率和同一文檔下某個主題出現(xiàn)的概率相乘獲得。
由此可定義L D A 主題模型的生成過程:選擇一篇文檔,從狄利克雷分布中取樣生成文檔的主題分布;再從主題分布中取樣生成文檔對某一特定詞語的主題;再從狄利克雷分布中取樣生成主題對應(yīng)的詞語分布;最后即可從詞語多項式分布中得到最終的生成詞語。
詳細(xì)過程如下:如圖1所示,若數(shù)據(jù)集中包含K個主題和T 篇文檔,文檔中的所有詞匯都包含在有N 個詞匯的詞集中。θt表示生成第t個文本時抽取的“文本-主題分布”,zt,n表示本篇文本中第n 個詞語的主題編號。βk表示“主題-詞語”概率分布。wt,n表示生成的詞匯。因為在L DA 中采用詞袋模型,T 篇文檔對應(yīng)T 個獨立的狄利克雷多項式分布共軛結(jié)構(gòu)。同樣地,K 個主題也分別有本身獨立的共軛結(jié)構(gòu)。對βk,θt,分別采樣K次和T次,對文本中詞wt,n采樣主題多項式分布zt,n~ Multi(θt)。同時采樣wt,n~Multi(βk)得到對應(yīng)主題下的詞匯。得到LDA模型對應(yīng)的概率分布后,通過極大似然估計確定參數(shù)α和η。從而實現(xiàn)根據(jù)詞頻wt,n來推斷文本集所對應(yīng)的主題結(jié)構(gòu)的效果。

圖1 LDA 的變量關(guān)系圖Fig.1 Variable relation diagram of LDA

圖2 結(jié)合主題特征的深度問答模型Fig.2 A question answering model based on topic features
本文中模型的評測數(shù)據(jù)集為開放域問答數(shù)據(jù)集,LDA的訓(xùn)練通過Python中的gensim工具包進(jìn)行相似度計算和信息檢索。按照LDA主題模型的要求輸入處理后的文本,設(shè)定主題數(shù)并編號。不斷掃描語料庫,對每一個詞進(jìn)行采樣,求出主題,并在語料中更新,直到收斂得到topic-word分布,即為L D A 模型。問題、答案的主題特征向量化表示便是在所得主題上的分布情況。
為了在一定程度上彌補深度學(xué)習(xí)模型的不足,本文采用注意力混合機制,即在原本的注意力機制基礎(chǔ)上引入主題特征,將主題信息應(yīng)用于問答模型,達(dá)到為答案特征向量的生成動態(tài)補充相應(yīng)主題信息的效果[1]。
混合注意力機制由原始注意力與主題注意力兩部分組成。原始注意力采用答案選擇模型中采用的注意力機制實現(xiàn), 而主題注意力的實現(xiàn)則先利用L D A 模型得到topicq與topica即問題和答案的主題特征向量,再通過公式獲取問題答案的主題注意力權(quán)重。然后通過對兩個權(quán)重加權(quán)獲得混合注意力機制權(quán)重。最后利用混合注意力機制對原始答案隱藏層向量進(jìn)行更新并獲得新的輸出向量[2]。問答模型大致過程如圖2所示。
通過對基于注意力機制的答案選擇模型和結(jié)合主題特征的混合注意力機制答案選擇模型在M R R 、M A P 、AC C@1三個指標(biāo)上進(jìn)行測評,實驗結(jié)果表明后者比前者在測評指標(biāo)上都得到了一定的提升,說明混合注意力機制相比于原始注意力機制在拓展主題信息方面有一定的提升。