999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于帶權詞格的循環神經網絡句子語義表示建模

2019-04-18 05:15:26張祥文陸紫耀王鴻吉蘇勁松
計算機研究與發展 2019年4期
關鍵詞:融合模型

張祥文 陸紫耀 楊 靜 林 倩 盧 宇 王鴻吉 蘇勁松

1(廈門大學 福建廈門 361000)2 (江蘇省計算機信息處理技術重點實驗室(蘇州大學) 江蘇蘇州 215006)

如何生成高質量的句子語義表示一直是自然語言處理的核心問題之一.由于現實中自然語言句子的數量是無限的,因此,我們訓練好的模型往往需要處理從未在訓練語料中出現過的句子.對此,傳統方法通常以高頻詞或多元詞串為基礎來表示句子,然后在此基礎上進行各種運算,以獲得表示句子語義的向量.然而,這些方法往往需要人工事先定義特征,所以建模效率較為低下.近年來,隨著深度學習研究及其應用的快速發展[1],學術界和產業界將目光轉向了神經網絡,通過構建深度神經網絡來學習句子的語義表示[2],以應用到后續的自然語言處理任務中.

在基于深度學習的句子語義表示建模方面,循環神經網絡(recurrent neural networks, RNNs)[3]得到了廣泛應用.相比于傳統的非神經網絡模型,RNN能夠保存序列的歷史信息,因此對長序列文本具有更好的建模能力.特別地,RNN的一些變種,例如LSTM(long short term memory)[4]和GRU(gated recurrent unit)[5],進一步引入門機制(gating mechanism)來控制信息流動,提高捕獲序列內部長距離依賴的能力.針對中文等沒有天然詞語分隔符的語言,神經網絡模型有2種實現句子語義建模的方案:第1種方案直接建模字序列.該方法忽略詞語的邊界信息,不需要分詞,而這一信息對于建模字、詞之間的組合關系至關重要;第2種方案則先進行分詞,然后以詞為單位來建模.該方法同樣存在缺陷:一方面,分詞工具產生的錯誤分詞對句子的結構造成破壞,并通過錯誤傳播的形式對后續的表示建模產生負面影響;另一方面,使用單一的詞序列來表示句子,使得文本表示建模缺乏靈活性.因此,對于中文等語言,如何利用RNN來提高句子語義表示建模的質量是一個有待深入研究的重要問題.

針對上述問題,本文提出基于帶權詞格的循環神經網絡模型.詞格是一個能夠容納多種分詞結果的壓縮數據結構,與單一分詞結果相比,它具有豐富的表示能力.目前,詞格已經廣泛地應用于許多自然語言處理任務當中,并取得了很好的效果,例如機器翻譯[6]和語音識別[7].通過基于帶權詞格進行句子語義表示建模,我們期望提出的模型可以減輕分詞錯誤造成的錯誤傳播,同時也能使句子語義表示建模具備更強的靈活性.在本文工作中,我們提出了2種基于帶權詞格的GRU神經網絡模型:1)基于帶權詞格的淺層融合循環神經網絡模型(shallow weighted word lattice RNN, SWWL-RNN),該模型直接對多個分詞輸入和相應的前隱狀態進行融合,再輸入到標準的RNN單元生成當前隱狀態;2)基于帶權詞格的深層融合循環神經網絡模型(deep weighted word lattice RNN, DWWL-RNN).不同于SWWL-RNN,該模型先根據每個分詞輸入和相應的前隱狀態分別產生各自的當前隱狀態,然后再對這些隱狀態進行融合,生成最終的當前隱狀態.顯然,2種模型都以融合函數為核心.因此,針對隱狀態的融合函數,本文嘗試了4種不同的融合策略:

1) 池化(pooling)融合函數;

2) 門機制融合函數;

3) 基于詞格邊權重的融合函數;

4) 融入詞格邊權重的門機制融合函數.

最后,我們在情感分類和問句分類實驗上,分析對比了2種模型、4種融合策略的效果.實驗結果表明,基于帶權詞格的RNN模型的性能明顯超過傳統的RNN變體模型和現有的其他模型.

1 背 景

本節介紹本文工作的基礎:帶權詞格[6]和GRU[5]循環神經網絡.

1.1 帶權詞格

帶權詞格[6]是一種包含指數級別分詞結果的壓縮數據結構.圖1所示為1個句子根據3種不同的分詞標準進行分詞的結果及相對應的詞格結構.3種分詞標準,分別來自北京大學(Peking University, PKU)、中文樹庫(Chinese treebank, CTB)和微軟研究院(Microsoft Research, MSR)公開的分詞語料訓練的分詞模型.如圖1(d)所示,給定由N個字組成的1個序列c1:N=c1c2…cN,帶權詞格在形式上表現為1個帶權重的有向圖G=V,E.這里,V表示結點的集合,其中結點vi∈V(i=1,2,…,N-1)表示ci和ci+1之間的位置.此外,詞格還包含2個特殊的結點:1)v0,該結點在c1之前,表示字序列的開始位置;2)vN,該結點在cN之后,表示字序列的結束位置.E表示邊的集合,以邊ei:j為例,它以vi為起點,并指向vj,同時覆蓋了字序列ci:j,ci:j對應潛在的一個候選分詞.而ei:j對應的權重weightei:j,則代表ci:j被作為候選分詞的可能性.

Fig. 1 A weighted word lattice圖1 一個句子的帶權詞格

詞格中的邊權重可以使用前后向算法[8-9]來計算.具體而言,對于結點vi,我們首先遞歸遍歷它左邊的前序結點,以迭代方式累加計算出從v0到vi的路徑數目αvi,即:

(1)

其中,vik是結點vi的第k個前序結點.然后,對于結點vj,我們遞歸地遍歷它右邊的后序結點,同樣以迭代累加的方式計算出從vN到vj的路徑數目βvj,即:

(2)

其中vjk是結點vj的第k個后序結點.最后,weightei:j可定義為

(3)

如圖1(d)所示,從v0指向v3的邊e0:3,覆蓋了c1到c3的字序列,表示一個候選詞“下雨天”,其權重為0.33.邊權重在一定程度上體現了不同分詞標準的一致性.權重越大,邊覆蓋的字序列被切分為詞的可能性就越高.同時,邊權重也增強了詞格的容錯性,使詞格結構的信息表示更加豐富,從而得以有效應用于各種自然語言處理任務中.

1.2 GRU循環神經網絡模型

RNN[1]雖然具有較好的文本序列建模能力,但仍然面臨著模型參數梯度消失和爆炸的難題[10-12].對此,研究者引入了帶有門機制的LSTM[4]和GRU[5]來控制網絡信息流動,以提高RNN在長序列文本上的建模能力.由于GRU與LSTM性能相同,同時所需參數更少.因此,本文選擇GRU作為循環神經網絡單元進行文本建模.需要說明的是,本文方法同樣適用于LSTM等其他RNN的變種模型.

如圖2所示,與RNN相同,GRU在每個輸入單元循環地應用1個轉移函數,以生成當前時刻的隱狀態表示.

具體來說,時刻t的隱狀態向量ht∈d,由當前輸入向量xt∈d和前一時刻的隱狀態向量ht-1生成:

ht=f(xt,ht-1),

(4)

其中,f(*)通常定義為一個仿射變換及雙曲正切函數tanh.對于文本序列而言,xt是句子中第t個詞的向量表示,ht則代表到時刻t為止的詞序列向量.

正如本節第1段所述,GRU在RNN的基礎上,進一步引入了重置門和更新門來控制信息流動.圖2所示為一個時刻t的GRU單元,其轉移函數定義為

rt=σ(W(r)xt+U(r)ht-1+b(r)),

(5)

zt=σ(W(z)xt+U(z)ht-1+b(z)),

(6)

(7)

(8)

2 基于帶權詞格的GRU循環神經網絡

受現有工作[6,13-14]的啟發,本節對基于詞格的循環神經網絡[15]進行擴展,提出了基于帶權詞格的GRU循環神經網絡,以學習句子語義表示,用于后續的自然語言處理任務.顯然,與詞序列相比,帶權詞格具有更為豐富的信息和更為復雜的網絡拓撲結構.以它為基礎來進行神經網絡建模將面臨著2個難題:1)在帶權詞格中,一個句子通常會存在許多分詞結果,這意味著當前單元可能會同時存在多個輸入和多個前隱狀態,傳統循環神經網絡[4-5]無法建模這樣的結構;2)帶權詞格的邊權重能夠較好地區別不同分詞結果的可能性.如何在本文所提出的模型中體現出不同分詞結果在句子建模過程中作用的差異,是本文研究工作的一個關鍵問題.

在建模過程中,我們的模型以句子的字序列為輸入,逐字地讀取句子.在時刻t,對于當前結點vt,我們首先確定以字ct為結尾的一個入度邊集合,即{etk:t=(xtk,htk)|0≤tk

2.1 淺層帶權詞格

淺層帶權詞格GRU模型的單元結構如圖3所示:

Fig.3 A SWWL-GRU unit圖3 淺層帶權詞格GRU單元

形式上,該單元的建模函數定義為

(9)

(10)

(11)

(12)

(13)

(14)

2.2 深層帶權詞格

深層帶權詞格GRU循環神經網絡的單元結構如圖4所示:

Fig. 4 A DWWL-GRU unit圖4 深層帶權詞格GRU單元

與淺層帶權詞格GRU單元相比,深層模型在更細粒度的語義表示層次上,對多種分詞結果進行分詞狀態的融合生成.淺層模型選擇融合循環單元的輸入,而深層模型采取對循環單元的輸出進行融合的方式.簡單來說,兩者的具體區別在于選取融合操作的時機不同.從時間復雜度來考慮,深層模型的時間復雜度為O(KN),即關于句子的字數和邊的最大個數成正比;而淺層模型的時間復雜度為O(N),與基于字的普通RNN模型相等.這2個模型涉及到融合函數的部分,時間代價可以忽略不計.

形式上,該單元的建模函數定義為

rtk=σ(W(r)xtk+U(r)htk+b(r)),

(15)

ztk=σ(W(z)xtk+U(z)htk+b(z)),

(16)

(17)

(18)

(19)

其中,xtk,htk與2.1節公式符號的含義相同.式(15)~(18)用于生成第k個分詞對應的隱狀態,式(19)采用語義融合函數g(*)生成ht.

2.3 融合函數

在常見的基于字或詞的模型中,句子可以被視為一個特殊的有向無環圖,其中每個結點的入度和出度均為1.然而,對于詞格,每個結點的入度和出度則至少為1,因此基于RNN的序列建模模型[4-5]無法處理詞格結構的輸入數據[6-7].

在淺層、深層帶權詞格模型的基礎上,我們進一步提出了使用融合函數來融合循環單元的輸入或輸出,生成單一的壓縮表示,以轉換成標準循環單元能夠接受的輸入形式.這里,本文在文獻[15]中2種融合函數的基礎上,進一步提出2種基于詞格邊權重的融合函數.為了不失一般性,本文以深層帶權詞格中的ht為例,描述在帶權詞格GRU單元中如何使用這些融合函數.需要注意的是,這些定義同樣適用于生成其他向量,例如xt.

首先介紹文獻[15]中2種基礎的融合函數:池化融合函數與門機制融合函數;接著,介紹本文提出的以門機制為基礎的2種新融合函數.

1) 池化融合函數

(20)

其中,max(*)是一個逐元素最大值函數.

池化融合函數忽略了詞格的邊權重信息,直接通過聚集入度邊集合對應的隱狀態來獲取最重要的特征.

2) 門機制融合函數

目前,門機制已經大量應用于神經網絡中,用以自動學習不同輸入信息的權重.與文獻[16]相似,該融合函數在形式上定義為

(21)

其中,u(g)和b(g)分別是門機制融合函數的參數向量和偏置項標量,上標g表示門.

門機制融合函數則計算每個隱狀態的歸一化分數,作為邊的權重,對隱狀態進行加權平均.這個分數可以視為動態生成的邊權重,表示模型將該邊作為候選分詞的置信度.

3) 基于詞格邊權重的融合函數

帶權詞格的一大特點是邊權重可以有效區分不同分詞結果的可能性.基于詞格邊權重,我們將ht定義為不同分詞結果的隱狀態的加權和,即:

(22)

其中,weightetk:t是根據式(3)計算出的邊權重.顯然,在這種融合方式中,融合權重主要取決于詞格本身,而獨立于網絡模型.

與門機制融合函數不同,基于詞格邊權重的融合函數使用1.1節所述算法計算的詞格邊權重,對隱狀態進行加權平均.同門機制生成的動態權重相比,詞格邊權重是靜態的,可以直接表示邊上的詞作為候選分詞的可能性.

4) 融入詞格邊權重的門機制融合函數

該融合函數與2)基于門機制的融合函數相類似.不同的地方在于,門機制融合函數是無監督的,直接受模型訓練目標影響,而相比之下,基于詞格邊權重的門機制融合函數則利用詞格邊權重作為外部監督信息來改進門機制學習到的融合權重.具體而言,我們要求門機制學習到的融合權重與詞格邊權分布盡量接近.為此,本文進一步引入門機制權重與詞格邊權重的歐式距離來作為懲罰項:

(23)

融入詞格邊權重的門機制融合函數進一步使用靜態邊權重作為正則化項,指導動態邊權重的生成,這一方法可以視為門機制融合函數與基于詞格邊權重的融合函數的結合.

上述4種融合函數,各自以遞進的方式,從靜態和動態到動靜態結合地利用詞格邊權重,從而充分發揮模型的運算能力和利用詞格結構提供的監督信息.

3 模型目標和訓練

基于帶權詞格的GRU模型的訓練過程與標準RNN相同.模型目標函數與后續所應用任務緊密相關.對于分類任務,本文模型首先建模學習句子語義表示,然后通過一個softmax層來預測句子的標簽分布:

(24)

其中,θ代表模型參數;hNs∈d是句子s在時刻t的隱狀態,作為句子的向量表示;W(y)和b(y)分別是softmax層的參數矩陣和偏置項向量,上標y表示該層的輸出用于預測標簽.設數據中共有L個候選標簽,L為模型建模的概率分布,并且滿足給定訓練數據D,模型的目標函數最終定義為

(25)

其中,pl(s)是句子真實標簽的one-hot向量的第l個分量,Rgate是根據式(23)定義的懲罰項.當本文模型使用前3種融合函數時,λ=0;反之,當使用第4種融合函數時,λ為一個大于0的常數.

本文采用基于Adadelta[17]的隨機梯度下降算法來優化模型.此外,本文在訓練過程中使用dropout[18]和最大范數正則化[19]來防止模型訓練過擬合.

4 實驗與分析

為了驗證本文模型的有效性,我們將2種基于帶權詞格的GRU循環神經網絡和4種融合策略,分別應用于情感分類和問句分類任務,與傳統GRU及現有的其他模型進行比較.

4.1 任務和數據集

本文將在情感分類和問句分類2個數據集上測試我們提出的方法.下面從數據集大小和數據特點等方面分別介紹這2個數據集.

1) 情感分類

數據集來自于新浪微博,為了保證數據信息的充分性,我們刪除長度不足6個字的句子,然后安排2名標注人員對句子按照不同的情感(消極、中性和積極)傾向進行獨立標注,最后保留標注結果完全一致的數據作為實驗數據.按照上述方式,本任務實驗數據集共包含消極情感句子4 454條、中性情感句子5 100條和積極情感句子5 594條.然后,本文采取分層抽樣的方式,按照7∶1∶2的比例從每個類別隨機抽取樣本,將數據劃分為訓練集(10 603條實例)、驗證集(1 514條實例)和測試集(3 031條實例).句子的平均長度17.19個詞或25.69個字.

① https://code.google.com/archive/p/fudannlp/

2) 問句分類

數據來自FudanQuestionBank①提供的中文問句分類數據集.為了降低數據類別不均衡問題的影響,本文只選取數據量最大的5個分類.該數據包含1 517,4 987,1 101,3 185,2 174條文本,對應的類別分別為枚舉、事實、評價、推薦和需求.同樣,本文對該數據集按照7∶1∶2的比例劃分為訓練集(9 075條實例)、驗證集(1 297條實例)和測試集(2 592條實例).平均長度為9.33個詞或14.60個字.

3) 帶權詞格生成

本文使用北京大學(PKU)、賓州大學中文樹庫(CTB)以及微軟研究院(MSR)的分詞語料分別訓練3個分詞模型,然后按照1.1節中所述方法生成每個句子的帶權詞格.

4.2 實驗設置

本文所考察的對比模型包括:

1) GRU

GRU[5]的最后一個序列狀態作為句子語義表示用于預測句子標簽.另外,除了最簡單的單層單向GRU模型之外,本文還同時比較了3個GRU的簡單變種模型:雙層單向(2 layer GRU, 2L-GRU)、單層雙向(bidirectional GRU, BiGRU)和雙層雙向(2 layer bidirectional GRU, 2L-BiGRU)模型.

2) LSTM

LSTM[4]的實驗設置與GRU模型相同.這一對比實驗的目的是驗證GRU與LSTM的性能,證明2個RNN的變種模型在本文2個任務上的效果相近.

3) CNN

卷積神經網絡(convolutional neural network, CNN)[20]使用不同大小的窗口處理輸入序列,能夠獲得句子在不同粒度,包括字、詞語甚至短語級別的語義信息.本文參考Kim[20]的實驗設置,使用單層卷積神經網絡模型.

4) DCNN

動態卷積神經網絡(dynamic convolutional neural network, DCNN)[21]通過利用動態k最大池化操作,具有與RNN相似的處理變長序列,以及捕捉句子內部長短距離依賴關系的能力.DCNN使用2個卷積層,k最大池化操作的k=4.

5) RAE

RAE(recursive autoencoder)[22]通過貪婪方式構造文本序列的樹結構,并將樹的根結點作為該句子的向量表示.RAE能夠建模序列中詞與詞之間的組合順序關系,學習句子內部成分的結構特征.模型參數參考Socher等人[22]的實驗設置.

6) MulSrc

MulSrc(multiple source)獨立地建模句子的字序列及詞序列,最終通過2.3節所述的融合函數將句子表示進行一次融合,生成句子的語義表示.MulSrc可以同時基于字和詞建模,是本文模型的簡化版本.與詞格不同,由于不存在句子級別的權重,我們簡單地使用平均分布作為加權系數(Avg),模擬2.3節中基于邊權重的融合函數,與本文所提出的帶權詞格GRU模型進行對比.

7) SWWL-GRU和DWWL-GRU

本文提出的基于帶權詞格的GRU循環神經網絡模型在4種融合函數上進行了實驗,相應的模型分別記為SWWL(Pool),SWWL(Gate),SWWL(Weight),SWWL(wGate),DWWL(Pool),DWWL(Gate),DWWL(Weight),DWWL(wGate).

此外,字序列與詞序列相比,是更簡單的一種句子表示形式.為了研究這種表示是否有助于文本語義建模,本文同樣引入字序列到SWWL-GRU和DWWL-GRU的詞格中,并與之進行對比實驗與分析.

在實驗參數方面,本文統一使用dropout[18]防止模型訓練過擬合,并根據驗證集結果對dropout值進行選擇.我們根據驗證集挑選式(22)中調節懲罰項的λ值,將其設為1.0.詞表由語料中出現次數在2次及以上的高頻詞構成.詞向量和隱狀態的維度分別為50和300維.所有模型均使用基于隨機梯度下降的Adadelta算法[17]實現優化,批梯度更新的大小為1.每個模型分別訓練5次,根據開發集的效果選擇最優模型,并取測試集上的平均準確率作為最終結果.

4.3 實驗結果分析

表1和表2分別給出了基線模型與本文模型在情感分類和問句分類任務上的實驗結果.從表1和表2中數據可以看出,本文模型的分類效果要顯著高于單一字序列或詞序列的模型.

從表1和表2可得出5條結論:

1) GRU和LSTM的性能相近

GRU[5]與LSTM[4]模型,是針對梯度消失和梯度爆炸問題[10-12]所提出的2個RNN[3]變種模型.在本文實驗中,GRU和LSTM在2個數據集上的性能沒有表現出顯著差異,然而GRU模型具有更少的參數,因此在某種程度上降低了過擬合的風險.

Table 1 Results of Baseline Models on Sentiment Classification and Question Classification表1 基線模型的情感分類和問句分類實驗結果 %

Notes:The values in boldface indicate the best accuracy in that experimental group.

Table 2 Results of Our Work on Sentiment Classification and Question Classification表2 本文模型的情感分類和問句分類實驗結果

Notes:The values in boldface indicate the best accuracy in that experimental group.

2) 基于詞序列的GRU及其變種模型一致地優于基于字序列的模型

分詞在中文等沒有詞語分隔符的自然語言處理任務中具有非常重要的作用,這是因為分詞可以在一定程度上消除純字序列存在的語義歧義現象.相比之下,基于字序列的模型忽略了句子中的詞語邊界信息,從而無法消除句子中存在的語義歧義,導致模型學習到的句子語義表示不能很好地服務于分類任務.然而,模型在問題分類任務上的結果并沒有明顯地反映出這一趨勢.據統計結果顯示,GRU具備強大的捕捉長短期依賴的能力,但對于短序列而言,短期依賴則占據了主要地位.這使得循環神經網絡無法發揮其建模長期依賴關系的優勢,從而對以短句為主的問句分類任務,弱化了基于詞序列與基于字序列的模型在結果上的差異.

3) 基于CNN的模型效果弱于基于RNN的模型

正如文獻[23]所示,相比于CNN,RNN模型對長序列文本的建模優勢較為明顯.盡管CNN在速度上具有明顯優勢,但在性能表現上卻難以取代RNN.就表1中實驗結果來說,CNN由于同時使用多個卷積核,使其在某種程度上能夠捕捉所有的多元詞串,從而與本文所提出的模型一樣具備建模不同分詞結果的能力.然而,并非所有多元詞串都能表示一般意義上的有效詞語,因此CNN也同時引入了更多的錯誤分詞,導致基于CNN的模型在2個任務上的表現均明顯不如RNN模型

4) 基于帶權詞格的模型優于基于字、詞序列以及MulSrc的模型

相比于對比模型,本文提出的2個模型在情感分類和問句分類任務上均一致取得了更高的準確率.首先,只基于字和詞建模的模型,缺乏表達分詞多樣性的能力;其次,同時基于字和詞建模的MulSrc模型,由于僅在句級別融合句子語義表示,使得句子的最小單元無法在字、詞序列間進行交互.此外,在大部分情況下,DWWL-GRU性能超過SWWL-GRU,取得了2個任務上的最好結果,這證明深層次的語義融合比淺層次的語義融合效果更好.此外,本文提出的2個模型在使用融入詞格邊權重的門機制融合函數上均取得最好結果,其次分別是門機制融合函數,以及基于詞格邊權重的融合函數.這一實驗結果與我們的直覺相符.首先,門機制是無監督的權重學習,而基于詞格邊權重的融合函數則直接根據詞格邊權重來進行加權融合.相比之下,融入詞格邊權重的門機制融合函數,有效結合了上述2種融合機制的特點,進一步提高了所生成權重的質量,從而得到了更好的融合文本語義表示.

Fig. 5 The semantic modeling of an example sentence圖5 一個例句的語義建模

5) 融合函數的建模能力影響模型性能

引入字信息后,基于帶權詞格的模型在問句分類任務上的效果得到進一步提升,但情感分類任務的效果卻降低.直觀上看,字信息的引入能夠有效擴充詞格的信息量.但實際而言,情感分類的詞表大小為42 685,問句分類則只有11 634,因此情感分類任務的詞表更大,更難學習到有效的句子表示.在情感分類上引入字后,詞格模型所要建模的分詞組合數量進一步增加.我們的融合函數無法充分建模所有相應的分詞情況,從而加劇了數據稀疏問題的影響.問句分類任務則恰恰相反,單純就詞表大小而言,即使引入字,詞格模型中可能的分詞組合數量也遠遠低于情感分類.因此與Words相比,我們的模型對于問句分類任務可以在Char+Words上更有效地建模,充分利用引入字后的詞格信息增益,進而提升模型效果.實際上,本文提出的4種融合函數中最復雜的wGate融合函數,依然只包含一個與隱狀態同等維度的參數向量,所以建模能力有限.因此,一個更復雜的融合函數應當能夠在情感分類的Char+Words上進一步改進模型的性能.但為了證明基于帶權詞格的循環神經網絡模型相對于傳統基于詞序列模型的有效性,我們在盡量不引入額外參數的前提下,保證融合函數足夠簡單.本文的討論范圍限于驗證基于帶權詞格模型的有效性,因此我們將對具有更強學習能力的融合函數的研究放到未來工作中深入探討.

為了探究所提出模型的工作機制,以性能最好的DWWL(wGate)為例,我們在圖5中展示了一個句子的文本建模結果.在所示詞格中,每條邊標注有一個分數,該分數為模型動態生成的權重,表示該邊所對應的詞,在特定上下文中被作為一個候選分詞的可能性,該權重直接影響模型的文本語義表示建模質量.

圖5中所示為句子:“不然肯定是納稅人白花冤枉錢.”的建模結果.句中存在歧義的部分集中在v8~v13部分,即“白花冤枉錢”這一片段,根據上下文,我們判斷其正確的分詞結果應當為“白花冤枉錢”或“白花冤枉錢”.圖5中粗邊表示錯誤的候選分詞,實邊表示正確的候選分詞.可以觀察到,詞格中存在來自不同分詞模型產生的錯誤分詞,如“白花冤”和“枉錢”.結點v13有3條入度邊,分別對應:“錢”、“枉錢”、“冤枉錢”3個候選分詞.其中,正確的分詞“錢”和“冤枉錢”被作為候選詞的置信度p為0.36和0.35;而錯誤分詞“枉錢”的置信度p只有0.29.盡管“白花冤”在結點v11的置信度為1.00,但由于錯誤分詞“枉錢”存在于“白花冤”的分詞路徑中,因此該路徑依然得到了更低的分數.我們可以將模型建模的邊置信度視為概率,通過路徑的概率來更好地理解這一示例.圖5中包含錯誤分詞“白花冤枉錢”的路徑,其概率p(false)=1.00×0.29=0.29.而包含正確分詞“白花冤枉錢”和“白花冤枉錢”的路徑,通過將其概率相加,可知正確路徑的總概率為p(true)=1.00×1.00×0.36+1.00×0.35=0.71.因而在示例中正確路徑的置信度是遠高于錯誤路徑的.不難看出,詞格模型具有容錯的能力,當錯誤的候選分詞被賦予低權重后,錯誤路徑的權重被降低,而正確路徑所產生的影響通過高權重放大,從而減輕純詞序列中分詞錯誤傳播的問題.另一方面,單純基于字和詞序列的建模方法,則易受到錯誤分詞的影響,而基于帶權詞格的模型則能夠利用其容錯能力來保證即使存在錯誤分詞,模型仍然能夠學習到高質量的句子語義表示.

5 相關工作

目前,基于深度神經網絡的文本語義表示學習已經成為自然語言處理的熱門研究方向.其中,神經詞袋(bag-of-words)模型是最為簡單的一個模型,它對句子中所有詞的詞向量取平均直接得到句子的語義表示向量.顯然,這種建模方式忽略了對文本語義表示極為重要的詞序信息.因而,許多研究者轉向研究考慮詞序信息的模型,包括序列神經網絡模型和拓撲神經網絡模型等.典型的序列神經網絡模型包括RNN[3],LSTM[4,24-30],以及帶門機制的其他變形[31-33].而與序列神經網絡模型不同,拓撲神經網絡模型依賴給定的詞間拓撲結構來建模生成文本語義表示[22,34-36].例如句子的依存和組合范疇語法可被作為骨架用于學習句子語義表示[28,37-39].進一步,一些研究者提出多維度的神經網絡模型,該類模型將文本組織成一個多維網格而非序列作為輸入[40-41].此外,除了上述模型,卷積神經網絡也被用于句子建模[20-21].該類網絡也是以詞向量序列作為輸入,建模過程中通過多層的卷積和池化操作來得到句子語義表示.

在上述工作中,與本文較為相關的工作主要有文獻[15,27-28]中所提出的模型.文獻[27-28]在本質上屬于拓撲神經網絡模型,分別將序列LSTM擴展到樹結構和森林結構的網絡.文獻[40]提出了基于網格的LSTM,把LSTM單元按照多維網格的方式排列,以應用到一維、二維甚至更多維度的序列數據的語義建模學習.此外,文獻[42]提出在生成當前隱狀態時,對RNN中多個前隱狀態使用與本文門機制相似的方式分別計算權重,然后將多個前隱狀態加權輸入到RNN單元.文獻[15]提出基于詞格的循環神經網絡,通過Pooling運算和門機制來融合生成詞格單元的輸入.不同于這些網絡,本文工作在文獻[15]的基礎上進行擴展,引入了帶權詞格來提高句子建模的能力,更重要的是本文模型引入詞格權重來指導融合函數的建模學習,進一步提高詞格循環神經網絡語義表示的學習效果.

6 總 結

文本提出了2種基于帶權詞格的GRU循環神經網絡模型,用于句子的語義表示建模.2種模型均以帶權詞格為基礎,利用任意數量的輸入詞和前隱狀態信息來融合生成當前隱狀態,最終得到句子語義表示.在以句子語義表示為基礎的情感分類和問句分類2個任務上的實驗結果證明了本文模型的有效性.

未來,我們將在下面3個研究方向展開工作:

1) 研究如何把帶權詞格集成到其他神經網絡中,例如卷積神經網絡等;

2) 融入詞格邊權重的門機制融合函數雖然取得最好效果,但與其他融合函數相比優勢有限,如何設計其他更加有效融合函數也是下一步工作的重點之一;

3) 本文所使用構造詞格的方法較為簡單,因此,我們將嘗試使用其他的語言學信息構造詞格,以進一步提升模型性能.

猜你喜歡
融合模型
一半模型
一次函數“四融合”
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
重要模型『一線三等角』
寬窄融合便攜箱IPFS500
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 欧美曰批视频免费播放免费| 日本黄网在线观看| 一级看片免费视频| 国产精品香蕉在线| 久久网欧美| 亚洲二三区| 久99久热只有精品国产15| 国产日本欧美亚洲精品视| 久久精品无码中文字幕| 欧美成人一区午夜福利在线| 中字无码精油按摩中出视频| 久久久久久久蜜桃| 日韩无码白| 制服无码网站| 亚洲女同欧美在线| 农村乱人伦一区二区| 国产第一页第二页| 91在线日韩在线播放| 永久免费无码成人网站| 精品三级网站| 午夜a级毛片| 久久综合色视频| 成人年鲁鲁在线观看视频| 国产手机在线小视频免费观看| 亚洲天堂网视频| 一级毛片a女人刺激视频免费| 亚洲精品欧美重口| 日韩免费毛片| 亚洲日韩国产精品综合在线观看| 国产色网站| 国产精品高清国产三级囯产AV| 精品福利国产| 99久久国产综合精品2020| 亚洲无线视频| 黄色网站在线观看无码| 国产视频一二三区| 在线观看的黄网| 自偷自拍三级全三级视频| 国产v精品成人免费视频71pao| 91美女视频在线| 女人一级毛片| 日韩 欧美 国产 精品 综合| 欧美激情视频一区| 色综合激情网| 亚洲欧美日韩高清综合678| 国产自在自线午夜精品视频| 亚洲欧美日韩中文字幕一区二区三区 | 国产欧美日韩在线在线不卡视频| 老熟妇喷水一区二区三区| 欧美日韩国产在线人| 欧美日韩精品一区二区在线线 | 麻豆国产精品视频| 亚洲国产日韩欧美在线| 久久国产免费观看| 欧美A级V片在线观看| 国产白浆一区二区三区视频在线| 久一在线视频| 91久久偷偷做嫩草影院精品| 久久婷婷综合色一区二区| 伊人久久大香线蕉影院| 亚洲国产天堂久久九九九| 久久人人97超碰人人澡爱香蕉| 国产黄色片在线看| 91精品福利自产拍在线观看| 嫩草国产在线| 精品国产免费第一区二区三区日韩| 8090成人午夜精品| 欧美a在线看| 中国国产A一级毛片| 91精品国产91久无码网站| 亚洲小视频网站| 欧美亚洲日韩中文| 永久免费无码日韩视频| 亚洲视频三级| 国产真实二区一区在线亚洲| 在线观看免费黄色网址| 天天色综网| 亚洲国产日韩在线成人蜜芽| 日韩国产无码一区| 一区二区三区国产精品视频| 国产亚洲精品自在线| 欧洲高清无码在线|