馮月春,陳惠娟
(1.寧夏理工學(xué)院 計(jì)算機(jī)學(xué)院,寧夏 石嘴山 753000; 2.西安工程大學(xué) 計(jì)算機(jī)學(xué)院,陜西 西安 710000)
文本語(yǔ)義相似度對(duì)各種語(yǔ)言處理任務(wù)來說至關(guān)重要[1]。由于語(yǔ)言表達(dá)的多樣性,語(yǔ)義文本相似度(semantic textual similarity,STS)的檢測(cè)具有挑戰(zhàn)性,并且該相似度檢測(cè)需要從多個(gè)層次(如單詞、短語(yǔ)、句子)進(jìn)行。近年來,在自然語(yǔ)言處理中,大量學(xué)習(xí)模型將詞的語(yǔ)義特征編碼成低維向量嵌入文本[2]。文獻(xiàn)[3]在釋義數(shù)據(jù)集PPDB上訓(xùn)練單詞嵌入模型,然后將單詞表示應(yīng)用于單詞和二元語(yǔ)法相似性任務(wù)。
現(xiàn)有的文本相似度建模研究大多依賴于特征,如機(jī)器翻譯度量的特征、基于依賴關(guān)系的特征等[4,5]。文獻(xiàn)[6]利用依賴樹提出了一種單語(yǔ)對(duì)齊器,并成功地將其應(yīng)用于STS任務(wù),該方法在語(yǔ)義文本相似度、多文檔摘要冗余消除方面取得了很好的效果。文獻(xiàn)[7]提出了一些基于維基百科結(jié)構(gòu)特征的語(yǔ)義計(jì)算方法,其具有更好的文本相關(guān)性。目前,深度學(xué)習(xí)模型成為了單詞/句子連續(xù)向量的有效表示方法。文獻(xiàn)[8]提出一種結(jié)合HowNet語(yǔ)義相似度和隱含狄利克雷分配模型的主題聚類方法,該方法在一定程度上提高了文本分類的準(zhǔn)確性,然而忽視了上下文信息。
此外,對(duì)于句子的建模,構(gòu)圖方法取得了廣泛的應(yīng)用。文獻(xiàn)[9]提出了用于句子建模的層次化卷積神經(jīng)網(wǎng)絡(luò)-長(zhǎng)短期記憶(convolutional neural network-long short term memory,CNN-LSTM)架構(gòu),其中CNN被用作編碼器編碼句子編碼,而LSTM被用作解碼器[10]。文獻(xiàn)[11]提出了一種基于卷積濾波器的N-gram單詞嵌入方法,以增強(qiáng)用于捕獲上下文信息的傳統(tǒng)單詞嵌入表示,該方法在多語(yǔ)言情感分析中取得了良好的性能。
由于不同的單詞嵌入模型捕獲語(yǔ)言屬性的不同方面,并且在不同的數(shù)據(jù)集上,嵌入模型的性能也會(huì)有所差異[12,13]。為此,提出了一種改進(jìn)Bi-LSTM的文本相似度計(jì)算方法。其創(chuàng)新點(diǎn)總結(jié)如下:
(1)現(xiàn)有方法在編碼文本時(shí)需要維度一致,而所提方法將輸入的句子轉(zhuǎn)換成含有多個(gè)嵌入向量的多個(gè)單詞向量,簡(jiǎn)單而有效地組合不同維度的各種預(yù)訓(xùn)練單詞嵌入。
(2)為了能夠結(jié)合上下文信息處理長(zhǎng)文本相似度問題,采用了Bi-LSTM方法,并且引入注意力機(jī)制,用來為關(guān)鍵的影響因素配置更多的計(jì)算資源,提高方法計(jì)算的效率。
所提模型主要由3部分組成,如圖1所示。首先將輸入的句子轉(zhuǎn)換成多個(gè)單詞向量,其中每個(gè)單詞向量里包含多個(gè)嵌入向量[14]。然后通過Bi-LSTM提取出每個(gè)單詞向量中的最佳詞特征,用于表示句子。最后,對(duì)兩個(gè)句子分別從詞與詞、句子與句子、詞與句子這3個(gè)層面進(jìn)行多級(jí)比較,并加權(quán)計(jì)算得到其最終的相似度。

圖1 所提方法的模型

(1)

(2)
(3)
式中:σ為logistic sigmoid函數(shù)。
長(zhǎng)短時(shí)記憶(long-short term memory,LSTM)神經(jīng)網(wǎng)絡(luò)是一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò),其包含了輸入門it、 輸出門ot、 忘記門ft和記憶單元ct, 將門和記憶單元組合可極大地提升LSTM處理長(zhǎng)序列數(shù)據(jù)的能力[16]。LSTM的函數(shù)表示為

(4)
式中:ht為t時(shí)刻隱藏狀態(tài),Wf、Wi、Wo、Wc為L(zhǎng)STM的權(quán)重矩陣,bf、bi、bo、bc為L(zhǎng)STM的偏置量,δ(·) 為激活函數(shù)。


(5)
為了合理分配計(jì)算資源,減小非關(guān)鍵因素的影響,在Bi-LSTM中引入注意力模型。
Attention機(jī)制模擬人腦注意力的特點(diǎn),核心思想是:對(duì)重要的內(nèi)容分配較多的注意力,對(duì)其它部分分配較少的注意力。根據(jù)關(guān)注的區(qū)域產(chǎn)生下一個(gè)輸出?;谧⒁饬δP偷腖STM模型結(jié)構(gòu)如圖2所示。

圖2 基于注意力模型的LSTM模型結(jié)構(gòu)
在該模型中,Bi-LSTM層的輸出H(t) 經(jīng)過隱藏層B,隱藏層狀態(tài)值為ut,A=[a1,a2,…,an] 為歷史輸入的隱藏狀態(tài)對(duì)當(dāng)前輸入的注意力權(quán)重,最后的特征輸出v為不同注意力權(quán)重的隱藏狀態(tài)的總和

(6)
式中:uw為上下文向量;在訓(xùn)練過程中隨機(jī)初始化并不斷學(xué)習(xí);at為注意力向量。
利用改進(jìn)Bi-LSTM獲得詞特征后,從詞與詞、句子與句子、詞與句子這3個(gè)層面進(jìn)行多層比較,并加權(quán)計(jì)算獲得其最終的相似度。
(1)字詞比較

(7)

(2)句子比較
給定兩個(gè)輸入句子s1和s2, 將其編碼為兩個(gè)句子嵌入vs1和vs2, 為了計(jì)算兩個(gè)嵌入量之間的相似性,引入了3個(gè)比較指標(biāo):
余弦相似性εcos
(8)
乘法矢量εmul和絕對(duì)差εabs
εmul=vs1⊙vs2,εabs=|vs1-vs2|
(9)
神經(jīng)差異
εnd=Wnd(vs1⊕vs2)+bnd
(10)
式中:Wnd和bnd分別為權(quán)重矩陣和偏差參數(shù)。
因此,句子相似度向量simsent計(jì)算如下
simsent=σ(Wsent(εcos⊕εmul⊕εabs⊕εnd)+bsent)
(11)
式中:Wsent和bsent分別為權(quán)重矩陣和偏差參數(shù)。
(3)詞句比較


(12)

(4)文本相似度
句子對(duì)的目標(biāo)分?jǐn)?shù)計(jì)算如下

(13)

由于采用皮爾遜相關(guān)r評(píng)估所提模型,因此 [1,K] 范圍內(nèi)句子對(duì)的相似度計(jì)算替換為

(14)

滿足z=rTp的稀疏目標(biāo)分布p計(jì)算如下
(15)
對(duì)于i∈[1,K],z為相似性得分。

(16)
式中:m為訓(xùn)練句子對(duì)的數(shù)目,θ為模型參數(shù)。采用梯度下降優(yōu)化學(xué)習(xí)模型參數(shù),并在訓(xùn)練階段保持預(yù)訓(xùn)練單詞嵌入的固定。
所提方法采用SMTeuroparl、MSRvid和MSRpar這3種數(shù)據(jù)集用于評(píng)測(cè)文本的相似度。其中SMTeuroparl和MSRpar文本長(zhǎng)度長(zhǎng),但SMTeuroparl不符合語(yǔ)法,而MSRpar結(jié)構(gòu)復(fù)雜,符合語(yǔ)法。MSRvid長(zhǎng)度最短且結(jié)構(gòu)簡(jiǎn)單。實(shí)驗(yàn)中,由3個(gè)預(yù)先訓(xùn)練的單詞嵌入組成的單詞嵌入維度,并作為Bi-LSTM尺寸;bdc、bsent、bws和bws′的維數(shù)分別為50、5、5和100。
采用3種數(shù)據(jù)集和fastText、Glove、SL999以及Baroni這4種預(yù)訓(xùn)練的單詞嵌入模型評(píng)估所提方法的效率,并將所提方法與其它方法進(jìn)行比較分析。
將使用多個(gè)預(yù)訓(xùn)練單詞嵌入方法與使用1個(gè)、2個(gè)和3個(gè)預(yù)訓(xùn)練單詞嵌入方法的效率進(jìn)行比較,結(jié)果見表1。其中采用的兩個(gè)評(píng)估指標(biāo)為:z為相似性得分, |V|avai為預(yù)先訓(xùn)練的單詞嵌入中可用詞匯的比例。所有方法采用相同的目標(biāo)函數(shù)和多層次比較,將Bi-LSTM的維數(shù)和卷積濾波器的數(shù)目設(shè)置為相應(yīng)字嵌入的長(zhǎng)度。

表1 不同數(shù)據(jù)集上不同數(shù)量預(yù)訓(xùn)練單詞嵌入方法的評(píng)估結(jié)果
從表1中可看出,使用4個(gè)預(yù)訓(xùn)練單詞嵌入的方法優(yōu)于使用其它數(shù)量單詞嵌入的方法。其中 |V|avai是預(yù)先訓(xùn)練的單詞嵌入中可用詞匯的比例,MSRvid數(shù)據(jù)集忽略了慣用的多詞表達(dá)式和命名實(shí)體,因此MSRvid的 |V|avai相當(dāng)高。由于SL999的嵌入經(jīng)過了釋義數(shù)據(jù)庫(kù)的訓(xùn)練,且具有較高的 |V|avai, 因此加入SL999單詞嵌入,其可用詞匯增多且相似度會(huì)提高。
在MSRpar和SMTeuroparl中,由于SMTeuroparl不符合語(yǔ)法,而MSRpar結(jié)構(gòu)復(fù)雜,且符合語(yǔ)法,因此對(duì)于不符合語(yǔ)法的文本語(yǔ)法分析樹和依存關(guān)系樹可能是錯(cuò)誤的,從而導(dǎo)致實(shí)驗(yàn)結(jié)果偏低。當(dāng)采用4種預(yù)先訓(xùn)練的單詞嵌入方式時(shí),其 |V|avai明顯提高,因此文本相似度的度量性能也隨之提升。
為了全面論證所提方法的性能,選擇MSRvid和MSRpar兩個(gè)數(shù)據(jù)集分別從詞、句等多層相似性進(jìn)行論證。
(1)MSRvid
采用生活中的一些相似文本對(duì)所提方法的性能進(jìn)行評(píng)估,結(jié)果見表2。

表2 用于文本相似度分析的典型文本
從表2的樣本#1中可看出,在樣本#1的上下文中,people和spectators不能交換,詞的相似度必須考慮上下文信息。而所提方法采用Bi-LSTM能夠很好的基于上下文信息計(jì)算文本相似度,從而判定#1中語(yǔ)句相似度不高。所提方法中引入注意力機(jī)制,能注重比較整個(gè)上下文的意義而不是每個(gè)詞的強(qiáng)表現(xiàn)力。在樣本#3中,可看出這兩個(gè)句子對(duì)共享一些短語(yǔ)(如a good idea)。雖然這對(duì)詞有相同的短語(yǔ),但為其分配的相似度很低,這與所提方法相矛盾,因此#3相似度僅為0.9。而樣本#2的相似度較高,其值為8.8。在這些樣本中,每個(gè)單詞或短語(yǔ)對(duì)句子的貢獻(xiàn)程度不同,如 “just”通常對(duì)其句子意義貢獻(xiàn)不大,但在樣本#3中,其改變了整個(gè)句子的含義。因此,在評(píng)價(jià)句子的相似性或語(yǔ)法蘊(yùn)涵時(shí),應(yīng)考慮每個(gè)詞在句子中的作用。由此可知,所提方法能夠較為準(zhǔn)確地辨識(shí)文本相似度。
(2)MSRpar
本文采用的改進(jìn)Bi-LSTM方法有效結(jié)合了文本詞語(yǔ)的上下文,考慮了局部語(yǔ)境。為了理解局部語(yǔ)境對(duì)句子相似度的相關(guān)性,研究了不帶局部語(yǔ)境的Bi-LSTM,并將其與所提方法進(jìn)行了比較,使用不同長(zhǎng)度的局部語(yǔ)境:3、5、7和9,結(jié)果見表3。

表3 測(cè)試集的皮爾遜r和斯皮爾曼ρ相關(guān)系數(shù)和均方誤差
最初的Bi-LSTM只考慮單詞的一般上下文來分析句子,正如預(yù)期的那樣,根據(jù)皮爾遜相關(guān)系數(shù)和均方誤差(mean square error,MSE)對(duì)單詞的一般和局部上下文進(jìn)行句子分析。短或長(zhǎng)的局部上下文沒有產(chǎn)生最好的結(jié)果,這表明短的局部上下文(3個(gè)詞)沒有得到足夠的關(guān)于詞鄰域的信息,長(zhǎng)的局部上下文(7個(gè)詞)包含了不相關(guān)的信息。因此,在設(shè)置局部上下文詞匯數(shù)為5時(shí),算法性能最佳。
為了論證語(yǔ)境對(duì)文本相似度的影響,表4和表5在詞匯層面上展示了一對(duì)釋義的相似性:“她的一生跨越了女性不可思議的變化?!焙汀艾旣惤?jīng)歷了一個(gè)解放女性改革的時(shí)代?!?對(duì)于兩個(gè)句子中的每一對(duì)詞,由余弦距離度量一般詞嵌入的相似度,結(jié)果見表4,長(zhǎng)度為5的局部上下文相似度見表5。其中需要注意的是,因?yàn)楦髯源聿煌木S度空間,這兩個(gè)表具有不同的值范圍。

表4 余弦距離度量一般詞嵌入的相似度結(jié)果

表5 長(zhǎng)度為5的局部上下文相似度結(jié)果
從表4中可以看出,單詞嵌入保留了單詞的一般語(yǔ)義和句法關(guān)系。在本例中,這些詞與具有類似語(yǔ)義(1-“Her”和2-“Mary”、1-“l(fā)ife”和2-“l(fā)ived”、1-“reform”和2-“change”)或具有類似句法角色(1-“of”和2-“for”)的詞更為相似。表5強(qiáng)調(diào)了單詞的局部上下文有基于其窗口中單詞的語(yǔ)義和句法特征;例如,最接近1-“l(fā)ife”的上下文是2-“Mary”,2-“l(fā)ived”,2-“through”,因?yàn)檫@些局部上下文有直接(2-“l(fā)ived”)和間接(2-“Mary”)相似的語(yǔ)義。這一分析類似于語(yǔ)境的句法特征,例如最近的當(dāng)?shù)卣Z(yǔ)境1-“for”是2-“l(fā)ived”,2-“of”。當(dāng)所提方法分析短語(yǔ)動(dòng)詞或詞義強(qiáng)烈依賴于其前一個(gè)詞和后一個(gè)詞的多個(gè)詞的表達(dá)時(shí),當(dāng)?shù)卣Z(yǔ)境的關(guān)聯(lián)性得到加強(qiáng)。
所提方法對(duì)于MSRpar數(shù)據(jù)集中多層次相似的文本相似度見表6。
表6中的#1句子對(duì)描述了一個(gè)主動(dòng)語(yǔ)態(tài)和被動(dòng)語(yǔ)態(tài),意思相同,因此相似度為8.8。#2句子對(duì)是肯定句和否定句,相似度較低。而對(duì)于#3句子對(duì),所提方法能夠確定短語(yǔ)動(dòng)詞“wipe off”和動(dòng)詞“clean”的語(yǔ)義關(guān)系,因此相似度較高,為7.6。在MSRpar數(shù)據(jù)集中的相似度測(cè)試結(jié)果與實(shí)際值相近,由此論證了所提方法的準(zhǔn)確性。局部語(yǔ)境不僅有助于更好地識(shí)別相似的句子,而且有助于更好地識(shí)別否定句和不同意義的句子。這些局部信息為改進(jìn)Bi-LSTM提供了一個(gè)更平滑的單詞分析,以及它們?cè)诰渥又械倪B接方式。

表6 MSRpar數(shù)據(jù)集中用于文本相似度分析的典型文本
本章將MSRvid、MSRpar和SMTeuroparl這3個(gè)數(shù)據(jù)集中的所有文本按長(zhǎng)度分類,分別統(tǒng)計(jì)相似度計(jì)算性能。將所提方法與文獻(xiàn)[6]、文獻(xiàn)[7]和文獻(xiàn)[9]所提方法在文本長(zhǎng)度從10-70之間的MSRvid上進(jìn)行相似度對(duì)比計(jì)算,結(jié)果如圖3所示。當(dāng)句長(zhǎng)大于70或者小于10時(shí)文本長(zhǎng)度稀疏化,不具代表性。

圖3 不同句長(zhǎng)下的相似度計(jì)算結(jié)果
從圖3中可以看出,隨著文本長(zhǎng)度變長(zhǎng),4種算法相關(guān)度計(jì)算性能略有下降。尤其在句長(zhǎng)為20-35字時(shí)下降較為明顯,但所提方法性能仍較優(yōu)于其它文獻(xiàn)所提方法。當(dāng)句長(zhǎng)大于35時(shí),4種方法的相關(guān)度計(jì)算性能均有所上升,且在45字句長(zhǎng)后再次出現(xiàn)下降。文獻(xiàn)[6]與文獻(xiàn)[9]所提方法相關(guān)度計(jì)算性能大體相似,文獻(xiàn)[7]所提方法在長(zhǎng)句長(zhǎng)條件下相關(guān)度計(jì)算性能下降最為明顯。由圖可知,所提方法相關(guān)度計(jì)算性能整體優(yōu)于文獻(xiàn)[6]、文獻(xiàn)[7]和文獻(xiàn)[9]所提方法。
將所提方法與文獻(xiàn)[6]、文獻(xiàn)[7]和文獻(xiàn)[9]所提方法在MSRvid、MSRpar和SMTeuroparl這3個(gè)數(shù)據(jù)集上進(jìn)行對(duì)比分析,結(jié)果如圖4所示。

圖4 不同數(shù)據(jù)集上不同方法的計(jì)算結(jié)果
從圖4中可看出,所提方法在不同數(shù)據(jù)集的文本相似度計(jì)算上都具有較大的改善。特別是在STS任務(wù)中,所提方法在MSRpar和SMTeuroparl兩個(gè)數(shù)據(jù)集上相較于其它文獻(xiàn)所提方法都具有明顯優(yōu)勢(shì)。由于MSRpar包含了復(fù)雜的樣本,因此4種方法的相似度計(jì)算性能均較低。文獻(xiàn)[9]所提算法在MSRvid數(shù)據(jù)集中表現(xiàn)較好的相似度計(jì)算性能,略優(yōu)于所提方法,但所提方法性能仍略優(yōu)于文獻(xiàn)[6]和文獻(xiàn)[7]所提方法。在SMTeuroparl數(shù)據(jù)集中不使用詞嵌入,盡管文獻(xiàn)[9]所提方法在句子分類上很強(qiáng),需要提取顯著特征來預(yù)測(cè)目標(biāo),但由于該方法忽略了詞序的屬性,在捕捉需要兩個(gè)句子整體意義的句子間的關(guān)系效果不佳。而所提方法通過改進(jìn)Bi-LSTM捕捉這一特性,并應(yīng)用了多層相似加權(quán),因此相比于其它方法,其獲得的相似度最高。
此外,MSRvid長(zhǎng)度最短且結(jié)構(gòu)簡(jiǎn)單,因此不同方法在該數(shù)據(jù)集上表現(xiàn)的性能均較為理想。
所提方法使用多個(gè)預(yù)訓(xùn)練單詞嵌入和多層次比較以測(cè)量語(yǔ)義文本相似關(guān)系。其中Bi-LSTM能在處理長(zhǎng)本文的同時(shí)結(jié)合上下文提取特征,并且引入注意力機(jī)制減小非關(guān)鍵因素的影響,提高了方法的效率,而采用多層相似加權(quán)能得到更為準(zhǔn)確的計(jì)算結(jié)果。在MSRvid、MSRpar和SMTeuroparl這3個(gè)數(shù)據(jù)集上對(duì)所提方法進(jìn)行了對(duì)比論證,結(jié)果表明了多個(gè)預(yù)訓(xùn)練單詞嵌入的高效性,通過提高可用詞匯的比例提高文本相似度計(jì)算效率,并且允許使用多個(gè)不同維度的預(yù)訓(xùn)練單詞嵌入。此外,相比于其它方法,所提算法的對(duì)于文本相似度的計(jì)算性能更佳。
但所提方法未考慮一些非規(guī)范化的口語(yǔ)化的表達(dá)方式,由于句法、語(yǔ)義分析系統(tǒng)的局限性,其對(duì)文本內(nèi)容的影響不能準(zhǔn)確反映在相似度計(jì)算結(jié)果中。如何提高對(duì)于非規(guī)范化文本的句法、語(yǔ)義分析,是以后研究工作中需要關(guān)注的問題。另外,可將所提方法應(yīng)用到遷移學(xué)習(xí)任務(wù)中,拓展其使用范圍。