999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Bi-LSTM和分布式表示的網(wǎng)頁主題相關(guān)度計算

2018-07-25 11:21:40蔡東風(fēng)王鐵錚
計算機應(yīng)用與軟件 2018年7期
關(guān)鍵詞:實驗模型

王 鋒 白 宇 蔡東風(fēng) 王鐵錚

(沈陽航空航天大學(xué)計算機學(xué)院 遼寧 沈陽 110136) (遼寧省知識工程與人機交互工程技術(shù)研究中心 遼寧 沈陽 110136)

0 引 言

計算網(wǎng)頁主題和特定主題的相關(guān)度能輔助技術(shù)人員在海量的互聯(lián)網(wǎng)數(shù)據(jù)中發(fā)現(xiàn)與特定主題相關(guān)的網(wǎng)頁。目前最普遍的相關(guān)度計算的模型是向量空間模型[1](VSM),而最典型的向量空間模型是Bag-of-Words,因為它具備簡單性、有效性和經(jīng)常令人驚奇的準確性。該方法以文本中的詞作為特征項形成向量表示,并且特征權(quán)重以詞的TF-IDF值的形式表示。盡管Bag-of-Words經(jīng)常被使用,但它有兩個主要缺點:一是失去了詞的順序,二是忽略了詞的語義。當(dāng)詞的順序丟失時,不同的句子可以具有完全相同的表示,只要使用相同的詞即可。即使n-grams在短時間內(nèi)考慮了單詞順序,它也受到數(shù)據(jù)稀疏和高維度的影響。Bag-of-Words和Bag-of-n-Gram對于這些詞的語義或單詞之間的距離幾乎沒有意義。這意味著“高鐵”、“動車”和“沈陽”同樣遙遠,盡管語義上“高鐵”應(yīng)該比“沈陽”更接近“動車”。

本文綜合現(xiàn)有方法的優(yōu)缺點,提出一種基于雙向LSTM[2]和分布式表示的網(wǎng)頁主題相關(guān)度計算方法。首先將查詢關(guān)鍵詞通過分布式表示和雙向LSTM表示成向量形式,然后在詞向量空間中找出與其語義上相近的詞,并將其添加到查詢關(guān)鍵詞中,再將搜索到的網(wǎng)頁通過基于文檔的分布式表示方法形成網(wǎng)頁向量與主題關(guān)鍵詞進行相關(guān)度計算。本文將上述方法實現(xiàn)并在搜狗實驗室公開的測試數(shù)據(jù)集上進行了測試。

1 相關(guān)研究

1.1 詞的向量表示

自然語言處理中,將詞的向量表示的最簡單方法是One-hot 表示方法。其主要思想是將詞形成一個與詞表長度一致的稀疏向量,除詞所在維度為1,其余維度都為0。比如:“動車”和“高鐵”,“動車”表示為[0,0,1,0,0,…,0,…],“高鐵”表示為[0,0,0,0,1,0,…,0,…]。如果采用稀疏方式存儲,會非常簡單。但“動車”和“高鐵”是語義上近似的詞,而這種方法表示出的向量卻無法反映這點[3]。這種方法存在兩個缺點,一方面是向量的維度會隨著文本中詞匯數(shù)目的增加而增加;另一方面是任意兩個詞語都是獨立存在,沒有語義層面的表示[4]。

1.2 相關(guān)度計算

早在20世紀70年代,Salton等就提出來VSM算法來計算文檔間的相似度。VSM是一種簡單有效的計算文檔相似度的方法,VSM常采用TF-IDF算法計算文檔特征詞的權(quán)重,然后將文檔表示成向量形式就可以用余弦公式[5]來計算文檔相似度了。但是這種方法丟失了詞序且沒有考慮詞語背后的語義信息,忽視了詞與詞之間的相似度。人們?yōu)榱烁珳实赜嬎阄谋鞠嗨贫龋岢隽艘恍┗谡Z義的相似度計算方法,如文獻[6]利用WordNet語義詞典研究局部相關(guān)性信息以此來確定文本之間的相似性。上述方法采用領(lǐng)域知識庫來構(gòu)建詞語間的語義關(guān)系,與基于統(tǒng)計學(xué)的方法相比準確率有提高,但是知識庫的建立是一項復(fù)雜而繁瑣的工程,需要耗費大量人力。

網(wǎng)頁主題相關(guān)度計算的研究是為了提高特定主題相關(guān)網(wǎng)頁的發(fā)現(xiàn),隨著研究的深入,研究者們提出來許多網(wǎng)頁主題相關(guān)度計算方法。文獻[7]提出了基于VSM的計算方法,根據(jù)向量空間模型思想,結(jié)合網(wǎng)頁結(jié)構(gòu)和概念層次關(guān)系,優(yōu)化網(wǎng)頁特征和權(quán)重,以提高網(wǎng)頁主題相關(guān)度計算的準確性。綜合上述的網(wǎng)頁主題相關(guān)度計算方法的優(yōu)缺點,本文提出一種基于雙向LSTM和分布式表示的網(wǎng)頁主題相關(guān)度計算方法,通過將詞的分布式表示應(yīng)用到查詢關(guān)鍵詞擴展中,同時將文檔的分布式表示應(yīng)用到網(wǎng)頁主題相關(guān)度計算上,提升了相關(guān)網(wǎng)頁識別的精度。

2 基于雙向LSTM和分布式表示的網(wǎng)頁主題相關(guān)度計算

本文在傳統(tǒng)的VSM的基礎(chǔ)上,在進行主題關(guān)鍵擴展時采用了基于雙向LSTM和詞的分布式向量表示的查詢擴展方法,在進行網(wǎng)頁主題相關(guān)度計算時采用了基于文檔的分布式向量表示的網(wǎng)頁相關(guān)度計算方法。

2.1 分布式表示

2.1.1 詞的分布式表示

詞的分布式表示[8]是指將詞表中的詞映射為一個稠密的、低維的實值向量,深度學(xué)習(xí)中一般用到的詞向量就是用分布式表示的一種低維實數(shù)向量。詞的分布式向量表示可以通過上下文中給出的其他單詞來預(yù)測下一個詞。在分布式表示中,每個詞被映射到由矩陣W中的列表示的唯一向量,該列通過詞在詞匯表中的位置進行索引。然后將向量的連接或平均值作為特征來預(yù)測句子中的下一個詞。如圖1所示,使用三個詞(“小明”,“提交”和“一篇”)的上下文來預(yù)測第四個單詞(“論文”)。將輸入詞映射到矩陣W的列以預(yù)測輸出詞。

圖1 詞的分布式向量表示的學(xué)習(xí)框架

訓(xùn)練時,詞向量模型的目的是使平均對數(shù)概率L如式(1)最大化(分類器是Softmax),其中p(wt|wt-k,…,wt+k)如式(2),y如式(3)所示:

(1)

(2)

y=b+Uh(wt-k,…,wt+k;W)

(3)

詞分布式表示的訓(xùn)練方法有很多,Bengio等[9]提出FFNNLM模型(Feed-Forward Neural Net Language Model)可以訓(xùn)練出詞的向量表示形式,不過FFNNLM并非是專門用來訓(xùn)練詞向量的。相比較FFNNLM模型,Word2Vec運行速度更快。Word2vec作為一種高效地將詞表示為低維實數(shù)向量的詞向量工具,使用神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)分布式向量表示,每個單詞由在上下文中與其他單詞向量連接或平均的向量表示,并且所得到的向量用于預(yù)測上下文中的其他單詞[10]。例如“動車”的分布式向量表示為[0.452,-2.194,1.095,2.094,…],“高鐵”的分布式向量表示為[2.831,-1.369,-0.350,-1.202,…]。

2.1.2 文檔的分布式表示

文檔的分布式向量表示可以從可變長度的文本片段(如句子、段落和文檔)中學(xué)習(xí)固定長度的特征表示,通過密集的向量表示每個文檔,該向量被訓(xùn)練來預(yù)測文檔中的單詞[11]。文檔的分布式向量表示無監(jiān)督為文本片段學(xué)習(xí)連續(xù)的分布式向量表示。文本可以是可變長度,從句子到文檔。即該方法可以應(yīng)用于可變長度的文本段,從短語或句子到大型文檔的任何內(nèi)容。

每個段落被映射到由矩陣D中的列表示的唯一向量,并且每個單詞也被映射到由矩陣W中的列表示的唯一向量。段落向量記住當(dāng)前上下文中丟失的內(nèi)容或段落的主題,即PV-DM模型如圖2所示。該模型的唯一變化是在式(1)中,其中h由W和D構(gòu)成。算法本身有兩個關(guān)鍵的階段:第一是訓(xùn)練以獲得已經(jīng)看到的段落的單詞向量W,Softmax權(quán)重U、b和段落向量D。第二是通過在D中添加更多的列和在D上梯度下降來獲得新段落的段落向量D,同時保持W、U、b固定。

圖2 文檔的分布式向量表示的學(xué)習(xí)框架(PV-DM)

文檔的分布式向量表示的一個重要優(yōu)點是它們是從沒有標簽的數(shù)據(jù)中學(xué)習(xí)的,且包含語義信息和詞序。上述方法考慮了段落向量與詞向量的連接以預(yù)測文本窗口中的下一個詞。另一種方法是PV-DBOW模型如圖3所示,在給定段落向量的情況下形成一個分類任務(wù),而不是前面PV-DM模型,在PV-DBOW模型中段落向量被訓(xùn)練以預(yù)測小窗口中的詞。在本文中,每個段落向量是兩個向量的組合:一個向量是分布式記憶的標準段向量模型(PV- DM模型),一個向量是沒有詞序信息的分布式詞袋模型(PV-DBOW模型)。

圖3 文檔的分布式向量表示學(xué)習(xí)框架(PV-DBOW)

在進行網(wǎng)頁主題相關(guān)度計算時采用文檔的分布式表示即用Doc2Vec[12]生成網(wǎng)頁的分布式向量表示和主題關(guān)鍵詞計算網(wǎng)頁主題相關(guān)度,確定其相關(guān)度閾值φ,由φ來判斷網(wǎng)頁是否相關(guān),相似度計算小于φ的網(wǎng)頁則認為不相關(guān)。

2.2 雙向LSTM

詞嵌入(詞的分布式表示)可以在緊湊低維的詞向量表示中捕獲單個詞的語義和句法信息,但是預(yù)訓(xùn)練的詞嵌入所包含的關(guān)于詞與句子語境作為一個整體的信息是有限的,多數(shù)都是對詞窗口內(nèi)的詞有所傾向性的。而雙向RNN尤其是LSTM,適用于在更大范圍的句子語境中學(xué)習(xí)內(nèi)在表示,可以有效學(xué)習(xí)長句的語境向量。將整個句子語境和目標詞嵌入到同一低維空間,進一步優(yōu)化以反映目標詞和其整個句子語境作為整體的內(nèi)部依賴關(guān)系。

為了從詞周圍可變長度的句子語境學(xué)習(xí)一個通用的嵌入函數(shù),如圖4所示,在Word2Vec的CBOW模型中,將它原來在固定窗口內(nèi)的詞嵌入取平均作為語境模型,替換成一個更有效的神經(jīng)網(wǎng)絡(luò)模型——雙向LSTM。

圖4 Word2vec的CBOW模型

兩個模型都同時學(xué)習(xí)語境和目標詞的分布式表示,通過一同嵌入低維向量空間,目的是用上下文語境預(yù)測目標詞,通過一個對數(shù)線性模型。不同的是,雙向LSTM更能有效地捕捉句子語境的本質(zhì)。

圖5說明了雙向LSTM是如何表示句子語境的,把句子中的詞從左到右輸入一個LSTM,從右往左輸入另一個LSTM,這兩個網(wǎng)絡(luò)的參數(shù)是完全分開的,包括兩個獨立的從左至右和從右至左的語境詞向量。

給定一個句子w1:n,我們對目標詞wi的雙向LSTM語境表示定義為以下向量連接:

biLS(w1:n,i)=lLS(l1:i-1)⊕rLS(rn:i+1)

(4)

式中:l/r表示句子中詞的從左到右和從右到左詞嵌入,和標準的雙向LSTM不同,我們并不將目標詞wi本身輸入到LSTM中。

圖5 雙向LSTM

為表示句子中目標詞的語境(例如,“小明 [提交] 畢業(yè) 論文”) ,首先將LSTM輸出的從左到右語境(“小明”)的向量表示和從右到左(“畢業(yè) 論文”)的向量表示連接起來,這樣做的目的是獲得句子語境中的相關(guān)信息,即使有時它離目標詞很遠。

接下來,對左右語境表示的連接使用非線性函數(shù)。

MLP(x)=L2(ReLU(L1(x)))

(5)

式中:MLP代表多層感知機,ReLU[13]是激活函數(shù),Li(x)=Wix+bi是全連接線性操作。將連接后的向量輸入到多層感知機,就可以表示兩側(cè)文本的重要依賴。將此層的輸出作為目標詞整個連接句子語境的嵌入。雙向LSTM和Word2Vec的CBOW模型之間的唯一差別是CBOW模型是對目標詞語境表示為周圍一定窗口內(nèi)語境詞的簡單平均,雙向LSTM則使用了語境的全句神經(jīng)表示。讓c=(w1,…,wi-1,-,wi+1,…,wn)代表目標詞wi的句子語境。目標詞及其語境的向量維度相同,語境向量C:

C=MLP(biLS(w1:n,i))

(6)

式中:求和遍歷訓(xùn)練語料中的每一個詞t和它所對應(yīng)的句子語境c、σ表示sigmoid函數(shù)[14]。采用word2vec中的負采樣目標函數(shù)如式(7)來學(xué)習(xí)語境嵌入網(wǎng)絡(luò)的參數(shù)、目標詞向量和語境向量。可以根據(jù)詞向量的余弦相似度找出與其語義上相近的詞,在本文中主要是根據(jù)詞的分布式表示和雙向LSTM來做查詢擴展。

(7)

3 實驗及結(jié)果分析

3.1 查詢擴展實驗

查詢擴展分別是基于詞的分布式表示和雙向LSTM的,詞的分布式表示實驗使用Word2Vec工具,搜狗實驗室公開的搜狗全網(wǎng)新聞數(shù)據(jù)作為詞向量訓(xùn)練語料,使用Skip-gram模型訓(xùn)練且訓(xùn)練的窗口大小為5,生成200維的詞向量,基于雙向LSTM的查詢擴展實驗使用相同的訓(xùn)練語料生成詞向量。設(shè)計了三個實驗,實驗1是比較查詢擴展詞的個數(shù)對檢索性能的影響,得到擴展詞后,逐漸增加擴展次數(shù),比較檢索結(jié)果;實驗2是比較查詢擴展詞的相關(guān)度閾值對檢索性能的影響,同時和實驗1的結(jié)果作比較;實驗3是把本文方法和其他查詢擴展方法做個比較。

為了精確地判定擴展查詢結(jié)果的準確度,用平均準確率MAP和n位置的準確率Pn來評測。MAP是所有標準相關(guān)網(wǎng)頁的所有查詢的AP平均值,檢索到的相關(guān)網(wǎng)頁位置越靠前,那么MAP值便會越靠前,如公式所示:

(8)

式中:r為標準相關(guān)網(wǎng)頁數(shù);wi為第i個相關(guān)網(wǎng)頁;n(wi)為第i個相關(guān)網(wǎng)頁的排序。

Pn是指對一個排序結(jié)果,返回前n個結(jié)果的準確率。有時用戶使用搜索引擎時可能只對返回的前n個網(wǎng)頁感興趣,Pn就是從這樣的角度對檢索性能進行衡量的評價標準,如公式所示:

(9)

式中:n是返回的前n個網(wǎng)頁,Wn是前n個網(wǎng)頁的相關(guān)與否。

從圖6中可以看出,擴展詞數(shù)量在0到6之間時,隨著查詢擴展詞數(shù)的增加,檢索性能MAP和Pn都有一定幅度的提高,當(dāng)擴展詞數(shù)達到6時,檢索性能達到最優(yōu)。當(dāng)擴展詞數(shù)達到6之后。增加擴展詞個數(shù)并沒有繼續(xù)增加檢索性能,反而性能有一定的下降。由此可見,查詢擴展詞數(shù)應(yīng)該選擇6的時候檢索性能最好,太多的話會引入噪聲。

圖6 不同擴展詞個數(shù)的實驗結(jié)果

為了進一步驗證實驗1,對查詢擴展的相關(guān)度閾值設(shè)置進行實驗,如圖7所示,當(dāng)查詢擴展的相關(guān)度閾值大于0.6時,MAP和Pn的檢索性能達到最優(yōu),平均閾值為0.6時,檢索性能最優(yōu),這時的擴展詞數(shù)也是接近6,驗證了實驗1的查詢擴展詞數(shù)。

圖7 不同相關(guān)度閾值的實驗結(jié)果

實驗3是把本文擴展方法和其他查詢擴展方法做了比較,相同實驗參數(shù)下,查詢擴展詞數(shù)為6個時,基于HowNet[15]語義詞典的查詢擴展方法為W1,基于本體和局部共現(xiàn)的查詢擴展方法[16]為W2,本文基于雙向LSTM和詞的分布式表示方法為W3,實驗3的平均準確率和n位置的準確率如圖8所示。

圖8 不同擴展方法的實驗結(jié)果

從圖8中可以看出,本文的方法和其他查詢擴展方法相比較平均準確率和n位置的準確率都有一定的提高。這主要是因為詞的分布式表示和雙向LSTM生成的詞向量都包含了語義相關(guān)的信息,同時也包含了上下文及詞序信息,這使得查詢擴展方法的效果有所提升。

3.2 網(wǎng)頁主題相關(guān)度計算實驗

查詢擴展在基于詞分布式表示和雙向LSTM的關(guān)鍵詞擴展后得到最終的主題關(guān)鍵詞集合,再做進一步的實驗。本文提出的基于分布式表示的網(wǎng)頁主題相關(guān)度計算方法在Sogou實驗室的評測數(shù)據(jù)中的國際類、體育類、社會類和娛樂類語料上進行測試。文檔的分布式表示實驗采用DBOW模型,訓(xùn)練的窗口大小為8,迭代200次生成200維的文檔向量。

文檔的分布式表示實驗使用Doc2Vec生成文檔向量計算網(wǎng)頁主題相關(guān)度,與查詢擴展后基于VSM和LDA[17]的網(wǎng)頁主題相關(guān)度計算形成對比。

根據(jù)實驗設(shè)定網(wǎng)頁主題相關(guān)度閾值φ=0.28,計算查詢關(guān)鍵詞和網(wǎng)頁的余弦相似度大于φ時,則網(wǎng)頁與查詢關(guān)鍵詞主題相關(guān),否則不相關(guān)。

用正確率式(10)、召回率式(11)和F值式(12)來評測分別基于VSM和LDA的網(wǎng)頁主題相關(guān)度計算和本文方法的實驗對比結(jié)果。

(10)

(11)

(12)

如表1和表2所示為基于VSM、LDA的網(wǎng)頁主題相關(guān)度計算在Sogou評測數(shù)據(jù)上四類語料上述指標下的實驗結(jié)果,表3為本文方法在Sogou評測數(shù)據(jù)上四類語料上述指標下的實驗結(jié)果。從表中可以看出基于雙向LSTM和分布式表示的網(wǎng)頁主題相關(guān)度計算(Bi-LSTM and DP)在準確率、召回率和F值上相較基于VSM和基于LDA的網(wǎng)頁主題相關(guān)度計算都有了明顯的提高,主要是因為考慮了特征詞和文檔在語義層次上的相關(guān),同時還沒有丟失詞序的信息。

表1 基于VSM的網(wǎng)頁主題相關(guān)度計算

表2 基于LDA的網(wǎng)頁主題相關(guān)度計算

表3 基于Bi-LSTM和分布式表示的網(wǎng)頁主題相關(guān)度計算

4 結(jié) 語

用戶通過查詢關(guān)鍵詞得到相關(guān)網(wǎng)頁時,VSM僅從查詢關(guān)鍵詞的詞頻等統(tǒng)計信息與網(wǎng)頁進行余弦相似度計算,從而判斷網(wǎng)頁相關(guān)與否,沒有考慮到查詢關(guān)鍵詞的語義相關(guān)以及關(guān)鍵詞的上下文語境。本文通過雙向LSTM和詞的分布式表示來擴展查詢關(guān)鍵詞,對最終的主題關(guān)鍵詞集合與搜索網(wǎng)頁進行余弦相關(guān)度計算,得到主題相關(guān)網(wǎng)頁。本文的查詢擴展方法根據(jù)查詢詞的上下文語境可以得到其語義相關(guān)詞,同時還包含了詞的語序。進行余弦相似度計算時將文檔的分布式表示應(yīng)用到網(wǎng)頁主題相關(guān)度計算上,考慮了網(wǎng)頁中的段落信息,可以提高主題相關(guān)網(wǎng)頁計算的準確率。

猜你喜歡
實驗模型
一半模型
記一次有趣的實驗
微型實驗里看“燃燒”
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉(zhuǎn)化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 日韩久草视频| 色网站免费在线观看| 高清精品美女在线播放| 精品国产三级在线观看| 国产jizz| 中字无码av在线电影| 国产亚洲欧美日韩在线一区二区三区| 久久精品这里只有精99品| 久久黄色视频影| 午夜福利视频一区| 国产日韩欧美成人| 亚洲国产av无码综合原创国产| 国产精品亚洲αv天堂无码| 亚洲国产日韩在线成人蜜芽| 日韩欧美视频第一区在线观看| 98精品全国免费观看视频| 九色在线视频导航91| 欧美激情首页| 日韩第九页| 91人妻在线视频| 亚洲欧洲日本在线| 国产第三区| 国产门事件在线| 一级毛片免费不卡在线| a色毛片免费视频| 69视频国产| av尤物免费在线观看| 中文国产成人久久精品小说| jizz亚洲高清在线观看| 国产成人三级| 国产成年无码AⅤ片在线 | 免费无码网站| 免费看a毛片| 亚洲另类国产欧美一区二区| 国产免费久久精品99re不卡| 她的性爱视频| 亚洲欧美自拍中文| 国产乱视频网站| 久久熟女AV| 欧美亚洲网| 国产成a人片在线播放| 亚洲午夜综合网| 成人在线综合| 亚洲国产午夜精华无码福利| 一级毛片无毒不卡直接观看| a毛片免费观看| 国产丝袜无码一区二区视频| 免费观看男人免费桶女人视频| 中文字幕免费播放| 欧美国产日韩另类| 久久婷婷综合色一区二区| 国产精品永久不卡免费视频| 欧美在线综合视频| 欧美性猛交一区二区三区| 91在线激情在线观看| 91视频99| 亚洲Aⅴ无码专区在线观看q| 久久久久久久久18禁秘| 色屁屁一区二区三区视频国产| 国内老司机精品视频在线播出| 国产精品永久在线| 5555国产在线观看| 91九色最新地址| 免费A∨中文乱码专区| 国产成人亚洲日韩欧美电影| 国产精品亚洲五月天高清| 99热这里只有免费国产精品 | 国产99精品视频| 亚洲国产成人超福利久久精品| 亚洲天堂视频在线观看免费| 亚洲国产日韩在线成人蜜芽| 国产成人精品亚洲日本对白优播| 久久成人免费| www.99在线观看| 国产精品视频导航| 超碰aⅴ人人做人人爽欧美| 日韩A级毛片一区二区三区| 国产成人AV大片大片在线播放 | 日韩精品一区二区三区免费| 国产一线在线| 欧美午夜视频在线| 国产视频欧美|