999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于序列到序列的中文短文本省略補全

2019-01-22 03:32:10周國棟
中文信息學報 2018年12期
關鍵詞:實驗模型

鄭 杰,孔 芳,周國棟

(蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006)

0 引言

省略是一種很常見的語言現象,需要通過上下文來理解被省略的內容。省略現象在中文、英文等多種語言中都存在。據Kim[1]統計在中文和英文的語料中,英文大約有96%是顯式主語,而在中文中卻只有64%。由此可見,中文是一種省略現象十分頻繁的語言。特別是在問答、對話等短文本中,因參與問答、對話雙方的語言習慣、表達方式各有差異,故會導致表達的內容呈現出隨意和不規范的特點。因此,省略現象在這類短文本中尤為突出。由于缺少談話雙方的背景知識,當機器在面對這類會出現大規模省略現象的短文本時,若不經過省略恢復處理,機器將很難理解短文本的含義。進而導致在問答、對話等系統中給出“錯誤”的回復,用戶體驗欠佳。因此,對中文文本,特別是對話、問答這種中文短文本進行省略恢復工作有著非常重要的意義。

本文的主要工作是針對中文短文本中的省略進行補齊,結合深度學習的網絡模型提出了一種基于序列到序列[2]的省略檢測和補全模型。

本文后續內容安排如下: 第1節簡要介紹了中英文省略恢復的研究現狀;第2節詳細介紹了引入注意力機制的序列到序列的神經網絡模型;第3節是實驗過程及實驗結果分析;第4節給出了總結。

1 相關工作

目前英文的省略恢復研究主要針對動詞短語進行,并取得了一定的成果。代表性工作有: Dalrymple等[3]和Shieber等[4]對英文進行語言學分析,在英文動詞短語省略恢復方面建立了一套語言學理論體系;Nielsen等[5]首次提出一種端到端的可計算的系統來對原始輸入文本進行英文動詞短語省略恢復;Liu等[6]繼續Nielsen的工作,提出一種目標檢測、先行詞詞首消解以及先行詞邊界識別的動詞短語省略識別步驟。

中文方面,相關研究主要集中在主語位置的省略和空語類的恢復方面。代表性工作包括: Kong等[7-8],Chen等[9-11]在標準公開中文數據集上進行中文零指代的研究;Cai等[12],Kong等[13],Xue等[14]在中文標準公開數據集上進行關于中文空語類省略恢復研究。但這些研究多關注省略的恢復,同時對于省略的檢測多采用規則方法。

在問答、對話等短文本的省略研究方面,代表性工作包括: Huang等[15]對中文口語對話系統中的省略現象進行研究。此中文口語對話系統是清華大學的校園導航EasyNav,對話的形式一般是用戶主導的連續型請求模式。Huang等基于此中文口語對話系統提出了一種基于主題結構的省略恢復方法。但他們提出的方法一方面是基于他們的導航系統EasyNav,不具有通用性;另一方面,他們提出的方法也只是停留在理論基礎上,并沒有提出一種具體的可計算模型。Yin等[16]主要針對對話中的零代詞省略進行恢復,提出了零代詞恢復和零代詞消解的框架,并采用聯合模型減少管道模型帶來的誤差傳播。但其采用的OntoNote 4.0語料,是經過標注的具有句法規范的語料,無法體現中文口語對話的隨意性和不規范性,并不具有代表性。Kumar等人[17]針對英文問答中指代消解問題分別構建了基于句法和語義的序列到序列模型,并結合這兩種模型生成的聯合模型來學習英文問句的語義和語言學的模式。

綜上所述,我們發現在中文方面,相關工作大都集中于規范的長文本數據集,而關于中文短文本的省略恢復研究很少;此外,這些研究工作都是基于傳統機器學習方法。本文首次針對中文不規范的短文本中的省略識別及恢復任務展開,提出了一個完整的端到端的神經網絡模型,并通過實驗驗證了該模型在短文本的省略檢測和恢復上的有效性。

2 省略恢復模型

本節主要介紹本文應用在中文短文本省略識別和恢復任務中的序列到序列的神經網絡模型。序列到序列模型是在2014年被提出的,起初應用在機器翻譯中,之后在摘要生成、語音翻譯等其他領域都得到了廣泛應用。

本文首次將序列到序列模型應用到中文短文本省略補全的研究中,從實驗結果可以看出該模型在實驗任務中也取得了不錯的表現。圖1是本文模型的一個神經網絡結構圖,該框架主要包含三個層次,即嵌入層、編碼層和解碼層。接下來本文將從模型的這三個層面分別展開進行模型詳細細節的說明。

圖1 序列到序列的省略補全模型

2.1 嵌入層

嵌入層(embedding)的主要作用是獲得詞的分布式表示。它會維護一個嵌入矩陣D∈V*f,其中V表示詞表長度,f表示詞向量的維度。如圖1所示,假設輸入序列為{“吃”,“了”,“嗎”},在預處理中首先會將該輸入序列用填充符“”補全到batch最大長度: {“吃”,“了”,“嗎”,“”,“”}。之后,該序列會被詞典映射為標簽序列,如式(1)所示。

其中,x1,…,xm表示輸入序列中的單詞在詞典里的序號,這里m=5。 嵌入層會根據標簽序列的值xj從嵌入矩陣D中找到序號所對應的向量wj∈f,最終標簽序列X都會對應一個分布式表示,也就是詞向量,如式(2)所示。

2.2 編碼層

2.2.1 LSTM

循環神經網絡(RNN)因其能夠捕捉時序信息而在自然語言處理任務中得到廣泛應用。但面對較長的序列時,循環神經網絡會出現梯度消失和梯度爆炸的問題。而LSTM[18]于(Long Short-Term Memory)1997年被提出,作為RNN的一個變體,可以解決梯度消失的問題。一個LSTM神經單元由3個門組成。分別為輸出門,輸入門和遺忘門。這三個門會控制傳輸到下一個時序信息的多少。一般地,LSTM神經單元在t時刻的更新規則如式(3)~式(8)所示。

其中,σ是sigmoid函數,⊙是對應元素相乘,Xt是t時刻的輸入(經過嵌入層后的向量),ht是t時刻隱層狀態向量。Ui,Uf,Uc,Uo表示輸入X的權重矩陣,Wi,Wf,Wc,Wo表示隱層狀態的權重矩陣,bi,bf,bc,bo表示偏置。

2.2.2 Bi-LSTM

一般的單向LSTM網絡只能學習歷史信息,而Bi-LSTM的思想是將前向傳播的狀態和后向傳播的狀態進行拼接,并且已有實驗[19]證明這種雙向結構可以捕捉歷史信息和未來信息,如圖2所示。

圖2 編碼層雙向LSTM結構圖

在本文的序列到序列模型中,用編碼層來獲取源端句子的語義表征。Bi-LSTM模型可以獲得源端序列的歷史信息和未來信息,能夠更好地表征句子的語義信息。所以,在編碼層我們采用Bi-LSTM的神經網絡結構。它的具體運算過程如下。

標簽序列X在經過嵌入層得到的詞向量序列W。在Bi-LSTM中,前向和后向LSTM網絡都是單獨計算的。故而,W會分別傳給前向和后向LSTM作為輸入向量。假設在第i時刻(i≤m),前向LSTM中,第i時刻的輸出如式(9)所示。

在后向LSTM中,第i時刻的輸出如式(10)所示。

圖1中,編碼層最終將輸入序列{“吃”,“了”,“嗎”,“”,“”}編碼成向量h1,h2,…,h5。

2.3 解碼層

2.3.1 注意力機制

注意力機制最初是指人的心理活動指向或集中于某些事物的能力,引入到神經網絡中就是指神經網絡模型對一些輸出向量“注意”,對另一些輸出向量“忽略”。而模型的這種“注意”和“忽略”是用權重來動態模擬的,與當前狀態相關的向量會被分配高權重,不相關的向量會被分配低權重。那些被分配高權重的向量在數值計算中影響較大,而被分配低權重的向量對數值運算的結果影響較小,這就是模型會動態選擇“注意”相關的內容而忽視不相關內容的原因。注意力機制的原理[20]如圖3所示。

圖3 注意力機制原理圖

2.3.2 解碼

根據RNN網絡結構具有捕捉時序狀態信息的特點,傳統的編碼解碼(Encoder-Decoder)模型認為編碼層最后一個時序的輸出向量可以作為源端序列的語義表征。這種做法存在兩種弊端,一方面,是在對長序列進行處理時,很難把握長句的依賴關系,不可避免會造成語義信息的丟失;另一方面,是這種表征方式也無法獲得源端序列的焦點信息。因此,我們采用了Bahdanau Attention,對編碼層的輸出向量計算求得注意力權重,并得到上下文向量(Context Vector)加入到解碼層的輸入。具體做法如下:

首先,在解碼第一步,序列開始標志符“”在經過字典映射到標簽y1并通過嵌入層得到詞向量w1。c1表示第1時刻的上下文向量,要計算c1首先需要計算得分ei1,如式(13)所示。

k≤m,m是源端序列的最大長度,在圖1中的最大長度為5。所以,上下文向量c1通過式(15)計算得到:

同時,第一個時序的預測標簽作為第二個時序的輸入標簽,如式(17)所示。

圖1中,第一步解碼預測標簽通過詞典映射后就是符號“你”。

至此,第一步解碼計算完成,之后解碼步驟類似,直到輸出結束符號“”為止。最后可以得到編碼端輸出標簽y=y1,y2,…,yt,在圖1中經過字典映射后就是序列{“你”,“吃”,“飯”,“了”,“嗎”,“”}。

在訓練模式中本文采用式(18)negative log-likelihood來計算損失。

在推理模式下,本文模型采用的標簽選擇策略是beam search算法,在下面的章節中會詳細介紹。

2.3.3 Beam Search

在推理過程中,常用的方法使用的是貪心算法搜索。這種方法實現簡單,但是結果往往不是最優解。因此,為了增加候選預測序列集合,提高模型的性能,我們采用了一種beam search的解碼方法。假設beam size大小為K,詞典維度為V,它的思想是每次從概率分布中選擇最高的K個值所對應的標簽作為預測結果。設第i時刻的最高的K個得分結果按照式(19)計算為:

在下面的實驗章節中我們會選取不同的beam size進行實驗,并分析選取不同的beam size后對系統的性能影響情況。

3 實驗

3.1 數據集

本文使用的實驗數據集是通過網絡以及其他各種途徑搜集的問答和一些真實場景中的單輪短文本對話,以此為基礎人工標注形成的。最終的語料包括14 000多個短文本問題/回答對,經過人工標注后得到的省略情況如表1所示。

表1 短文本語料中省略分布情況統計

從表1中可以看到,包含省略的實例在全部語料中的總占比為61.7%,無省略的實例在全部語料中總占比為38.3%,包含省略和無省略樣例的比例約為1.6∶1,正負樣例比例較為均衡。

表2給出了摘自標注語料庫的部分示例,其中省略成份以“(*)”表示。

表2 中文短文本省略樣例

3.2 實驗設置

在語料的預處理工作中,為了方便模型訓練,本文在一個batch中將長度不足最大長度的短句填充零元素標識符“”到batch中最大句子長度。為了能夠讓模型識別句子的起始位置和結束位置的信息,本文分別在句子的開頭處添加開始標志“”,且在句子的結尾添加句子結束標志“”。模型在解碼層預測可能的標簽序列時,如果預測結果為“”就停止預測。

關于實驗中超參數的設置。實驗中設置隱層神經元個數為1 536個,編碼端神經網絡層數為2層,batch size大小為50,學習速率為初始值0.001的指數衰減。每50步進行一次衰減,衰減速率為0.98。每個神經單元的dropout為0.2,訓練集、驗證集、測試集以8∶1∶1進行分割,迭代次數為200次。

關于評價指標,由于在省略恢復任務中,沒有一個統一的評價標準。我們借鑒了閱讀理解SQuAD中完全匹配的方法,即預測結果必須和標準答案完全一致才算一個正確預測,并采用準確率對模型性能進行衡量。具體方法如式(20)所示。

其中,有省略預測正確是指模型補全后的實例和標準補全后的實例一致,無省略預測正確是指模型未補全的實例和標準未補全的實例一致,具體會在下一小節進行詳細的解釋。

3.3 實驗結果

首先,為了研究不同beam size對模型實驗結果的影響,本文選取了beam size從1到20并分別進行實驗。實驗結果如圖4所示,橫坐標表示beam size大小,縱坐標表示準確率。

從圖4中可以看出,在解碼層加入了beam search后系統性能有從0.451到0.550的大約十個百分點的明顯提升,這也證明了beam search確實可以增加模型預測結果集合,提高模型的性能。但是,從beam size為2開始,準確率的提升就逐漸放緩。當beam size到17時,準確率幾乎沒有變化。這說明已經達到模型的性能上限,繼續增加beam size只會增加模型訓練時間。對于圖4中出現的準確率抖動現象,一方面這是由于模型中可學習的變量參數都是隨機初始化的,不同的初始化參數通過梯度下降可能會得到不同的局部最優值;另一方面為了節省模型訓練時間,本文采用了一種神經網絡訓練中常用的方法early stop。即在模型訓練時,同時觀察驗證集的損失變化。當驗證集損失到達最小時,會提前結束訓練。這也就會導致當提前結束時,模型可能沒有得到充分學習,從而帶來準確率抖動的情況。

圖4 不同beam size對模型準確率的影響

另外,本文除了對beam search進行實驗,為了能夠客觀地反映本文中的省略恢復模型的性能,我們還將beam size設置為1。即采用簡單的貪心搜索策略,采用語料集上十折交叉驗證的評測策略。十折交叉驗證的結果分布如表3所示,準確率如表4所示。

表3 十折交叉驗證結果分布表

表4 十折交叉驗證準確率

表3中,有省略預測正確是指訓練樣例中目標端序列是存在省略現象的,且模型預測后的補全結果和目標端完全一致,算一次正確的預測;無省略預測正確是指訓練樣例中目標端沒有省略現象,且模型的預測結果并沒有對源端序列進行省略補全,與目標端序列完全一致,算一次正確的預測;有省略沒有補是指訓練樣例中目標端序列存在省略,但模型的預測結果并沒有進行補全操作,和目標端結果不一致,算錯誤預測;有省略補錯是指訓練樣例中目標端序列是存在省略的,模型對源端序列進行補全操作后與目標端序列不一致,即補錯的情況,算錯誤預測;無省略預測錯誤是指目標端序列不存在省略現象,而模型卻進行了省略恢復操作,算錯誤預測。下面本文通過從表5到表9中分別用一個例子來對這五種類別進行更直觀的解釋。

表5 有省略預測正確的樣例

表6 無省略預測正確的樣例

表7 有省略沒有補的樣例

表8 有省略補錯

表9 無省略預測錯誤

由表3可見,在十次實驗結果中,有省略補錯的現象占有很高的比例。由表8可見,模型在預測時,沒有考慮句子的語義信息,故存在“病句”情況,這也在很大程度上制約了模型的性能。另外,從省略恢復結果中可以看出,省略補全的內容大多以主語等語法結構單元為主。這雖符合中文表達的特征,但考慮到省略恢復是為其他任務服務的,對于語義信息的補全可能會比語法結構的補全更加重要。這些問題在后續工作中會重點考慮。

4 總結

本文首次提出了一種基于序列到序列的中文短文本省略恢復模型。該模型在編碼層采用Bi-LSTM學習源端序列的抽象表征,在解碼層采用beam search算法進行解碼,并引入注意力機制讓模型自動學習焦點信息。最后,在中文短文本問答和對話語料上的實驗表明序列到序列的模型在處理中文短文本省略恢復問題上有較好的表現。

之后的工作會重點處理預測結果中出現“病句”的情況。一方面考慮在模型訓練中增加規則限制;另一方面在beam size一定的情況下借助語言生成的相關策略通過后處理對答案進行二次評估,選擇更符合要求的結果。

猜你喜歡
實驗模型
一半模型
記一次有趣的實驗
微型實驗里看“燃燒”
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 欧美国产菊爆免费观看| 久久久久青草线综合超碰| 久久99精品久久久久纯品| 亚洲丝袜第一页| 午夜国产精品视频| 香蕉国产精品视频| 人妻丰满熟妇av五码区| 中文字幕无码av专区久久| 制服无码网站| 手机精品福利在线观看| 国产成人精品视频一区视频二区| 日韩二区三区无| 天天做天天爱夜夜爽毛片毛片| 成人第一页| 青青久在线视频免费观看| 日本精品影院| www.亚洲一区| 亚洲视频影院| 性网站在线观看| 久久99久久无码毛片一区二区| 国产大全韩国亚洲一区二区三区| 欧美亚洲欧美| 亚洲视频在线青青| 国产真实乱子伦精品视手机观看 | 青草视频在线观看国产| 日韩 欧美 小说 综合网 另类| 亚洲国产无码有码| 中字无码av在线电影| 天堂岛国av无码免费无禁网站| 成年人久久黄色网站| 高清码无在线看| 伊人成人在线| 五月六月伊人狠狠丁香网| 性视频一区| 高清欧美性猛交XXXX黑人猛交| 毛片久久久| 国产精品毛片一区视频播| 无码久看视频| 亚洲无码高清视频在线观看| 无码福利视频| 91免费国产高清观看| 99re热精品视频中文字幕不卡| 亚洲欧美h| 国产噜噜噜| 99精品久久精品| 九色国产在线| 男人天堂伊人网| 日本影院一区| 国产精品无码在线看| 国产99视频精品免费观看9e| 蜜桃视频一区| 91在线国内在线播放老师| 国产精品手机在线观看你懂的| 欧美成人精品在线| 91免费在线看| 亚洲伊人电影| A级毛片无码久久精品免费| 成年片色大黄全免费网站久久| 国产亚洲欧美在线专区| 亚洲日韩高清在线亚洲专区| 国产麻豆福利av在线播放| 欧美国产综合视频| 日韩视频福利| 日韩久久精品无码aV| 成人午夜免费视频| 国产国产人成免费视频77777| 亚洲国产综合精品一区| 亚洲成AV人手机在线观看网站| A级全黄试看30分钟小视频| 一级做a爰片久久免费| 日韩中文精品亚洲第三区| 亚洲 成人国产| 亚洲综合极品香蕉久久网| 一级高清毛片免费a级高清毛片| 欧美特级AAAAAA视频免费观看| 久久这里只有精品国产99| 高清色本在线www| www.91在线播放| 四虎免费视频网站| 亚洲三级影院| 97久久精品人人做人人爽| 国产高清在线观看91精品|