999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞向量的維吾爾語(yǔ)詞項(xiàng)歸一化方法

2018-03-02 09:22:53羅延根蔣同海楊雅婷
計(jì)算機(jī)工程 2018年2期
關(guān)鍵詞:語(yǔ)言方法模型

羅延根,李 曉,蔣同海,楊雅婷,周 喜,王 磊

(1.中國(guó)科學(xué)院新疆理化技術(shù)研究所,烏魯木齊 830011;2.中國(guó)科學(xué)院新疆民族語(yǔ)音語(yǔ)言信息處理重點(diǎn)實(shí)驗(yàn)室,烏魯木齊 830011; 3.中國(guó)科學(xué)院大學(xué),北京 100049)

0 概述

詞匯歸一化是將看起來(lái)不完全一致的多個(gè)詞條歸納成一個(gè)等價(jià)類,是眾多自然語(yǔ)言處理方面前處理的一個(gè)重要步驟。大部分自然語(yǔ)言處理的工作都要求在一個(gè)限定的詞匯表上進(jìn)行處理,這樣能夠降低模型的復(fù)雜度。例如機(jī)器翻譯、命名實(shí)體抽取、信息檢索等研究,它們處理的數(shù)據(jù)都是經(jīng)過(guò)歸一化之后的“干凈”語(yǔ)料。

近年來(lái),隨著互聯(lián)網(wǎng)的發(fā)展,社交媒體上的文本也呈爆炸式增長(zhǎng),但是社交媒體上用戶產(chǎn)生的文本并不是很正規(guī)的文本,它包含很多不合語(yǔ)法的句子、不正規(guī)拼寫的單詞等。對(duì)于這種文本進(jìn)行自然語(yǔ)言處理的相關(guān)工作就顯得特別困難,因?yàn)橛刑嗟奈吹卿浽~。在對(duì)用戶產(chǎn)生的文本進(jìn)行處理之前,詞匯歸一化就顯得特別重要。

本文提出將含有非正式維吾爾語(yǔ)用語(yǔ)的社交媒體語(yǔ)料與正規(guī)維吾爾語(yǔ)用語(yǔ)的新聞?wù)Z料結(jié)合起來(lái)用于獲取一個(gè)詞的低維向量空間,將正規(guī)用語(yǔ)的語(yǔ)料中的詞匯當(dāng)作候選詞,對(duì)于向量空間中的集外詞(OOV),首先找到向量空間中的k近鄰,再對(duì)k近鄰的正規(guī)詞進(jìn)行相似度篩選,最后選出一個(gè)n-best的候選詞匯集。對(duì)于非正規(guī)語(yǔ)料句子中的集外詞(非正規(guī)詞),從候選詞匯集中選出一個(gè)最優(yōu)的對(duì)應(yīng)的詞,類似于機(jī)器翻譯的解碼過(guò)程,采用貪心解碼器,評(píng)估指標(biāo)為綜合字符串相似度以及語(yǔ)言模型的一個(gè)評(píng)分。

1 相關(guān)工作

維吾爾語(yǔ)在形態(tài)結(jié)構(gòu)上屬于粘著語(yǔ)類型,作為粘著語(yǔ)類型的語(yǔ)言,詞的詞匯變化和各種語(yǔ)法變化都是通過(guò)在實(shí)詞詞干上綴接各種附加成分的方式來(lái)表現(xiàn)的,習(xí)慣于詞干加上后綴去表達(dá)不同的含義,例如人稱、數(shù)量、詞態(tài)及語(yǔ)氣等。維吾爾語(yǔ)由阿拉伯字母組成,字母的錯(cuò)寫、漏寫、縮寫以及詞干詞綴組合的多樣性也導(dǎo)致了維吾爾語(yǔ)中詞匯量過(guò)大的現(xiàn)象,從而造成嚴(yán)重的數(shù)據(jù)稀疏性。在大詞匯量的基礎(chǔ)上衍生出來(lái)的非正規(guī)詞的數(shù)量更是龐大,因此,日常用語(yǔ)(非新聞等官方用語(yǔ))的機(jī)器翻譯所面臨的集外詞(Out of Vocabulary,OOV)數(shù)量更多,導(dǎo)致目前維漢機(jī)器翻譯的結(jié)果中有很多UNK(遇到OOV,一般的處理方法是在譯文中用UNK表示),所以對(duì)于維吾爾語(yǔ)口語(yǔ)用語(yǔ)的詞項(xiàng)歸一化很有必要[1-2]。

詞匯歸一化作為語(yǔ)料預(yù)處理的一個(gè)關(guān)鍵步驟,一直以來(lái)吸引了很多研究者的目光。最早的也是最簡(jiǎn)單的可以用于詞匯歸一化的方法便是噪聲信道模型[3],對(duì)于非正規(guī)語(yǔ)料T與之對(duì)應(yīng)的正規(guī)語(yǔ)料S,這個(gè)模型包含2個(gè)部分:語(yǔ)言模型P(S)和一個(gè)歸一化模型P(T|S)。如果將非正規(guī)用語(yǔ)的文本當(dāng)作語(yǔ)言T,它對(duì)應(yīng)的正規(guī)文本作為S,根據(jù)P(S|T)=P(T|S)×P(S)/P(T),P(T)是固定的,那么通過(guò)求解argmaxP(T|S)×P(S)來(lái)求解對(duì)應(yīng)的S,從而求到argmaxP(S|T),S便是T歸一化后的結(jié)果。文獻(xiàn)[4]將噪聲信道模型運(yùn)用到歸一化中,之后對(duì)噪聲信道模型進(jìn)行擴(kuò)展[5],將詞的發(fā)音作為特征加入模型中。但是這種模型都是有監(jiān)督的模型,需要大量的標(biāo)注語(yǔ)料對(duì)模型進(jìn)行訓(xùn)練。文獻(xiàn)[6]對(duì)噪聲信道模型進(jìn)行無(wú)監(jiān)督訓(xùn)練擴(kuò)展。

另一個(gè)比較主流的詞歸一化方法是基于統(tǒng)計(jì)機(jī)器翻譯的方法。文獻(xiàn)[7]提出一個(gè)編碼/解碼為字符級(jí)別的短語(yǔ)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),使用非正規(guī)書寫的英語(yǔ)為源語(yǔ)言,對(duì)應(yīng)的正規(guī)書寫的英語(yǔ)為目標(biāo)語(yǔ)言,通過(guò)大量語(yǔ)料訓(xùn)練出來(lái)的這個(gè)翻譯系統(tǒng)能很好地處理歸一化問題。跟噪聲信道模型類似,訓(xùn)練階段需要大量的訓(xùn)練數(shù)據(jù),但是一一對(duì)應(yīng)的非正規(guī)和正規(guī)的語(yǔ)料是很難大規(guī)模獲取的,對(duì)于維吾爾語(yǔ)這種語(yǔ)料匱乏的小語(yǔ)種難度更大。

近年來(lái),類似于基于上下文的圖的無(wú)監(jiān)督的隨機(jī)游走[8]算法用于社交媒體上的文本的歸一化,之后研究熱點(diǎn)已經(jīng)轉(zhuǎn)向無(wú)監(jiān)督的方法。文獻(xiàn)[9]把2個(gè)詞的上下文的相關(guān)性當(dāng)作2個(gè)詞的相關(guān)性的依據(jù),從而用來(lái)做歸一化。文獻(xiàn)[10]使用類似于文獻(xiàn)[9]的方法,利用深度神經(jīng)網(wǎng)絡(luò)和word2vec進(jìn)行未登錄詞與詞典內(nèi)的正規(guī)詞進(jìn)行相似度比較,最后使用語(yǔ)言模型來(lái)篩選。本文提出的方法與文獻(xiàn)[10]方法類似,將其提出的方法引入到維吾爾語(yǔ)的歸一化中,但是考慮由于一句話中可能包含多個(gè)非規(guī)則化的詞語(yǔ),一次歸一化過(guò)程并不能完全將非正規(guī)詞歸一化,從而在文獻(xiàn)[10]方法的基礎(chǔ)上引入bootstrapping[11]重采樣策略[12-13],每一遍歸一化之后,重新采樣,迭代直到非規(guī)則化的詞替換次數(shù)未達(dá)到某個(gè)閾值停止;而且本文方法只是用于詞,由于維吾爾語(yǔ)的短語(yǔ)劃分不穩(wěn)定,短語(yǔ)級(jí)別的歸一化將作為以后的研究方向。

2 維吾爾語(yǔ)無(wú)監(jiān)督詞匯歸一化模型

本文使用貪心解碼器以及引入bootstrapping策略得到維吾爾語(yǔ)無(wú)監(jiān)督詞匯歸一化模型,模型如圖1所示。首先是對(duì)網(wǎng)絡(luò)爬取的非正規(guī)用語(yǔ)語(yǔ)料進(jìn)行初步的數(shù)據(jù)預(yù)處理,預(yù)處理操作只是最簡(jiǎn)單的篩選,將一半以上單詞都是非正規(guī)詞的句子剔除,這主要是為了保證解碼過(guò)程的正確性;然后將正規(guī)用語(yǔ)語(yǔ)料和非正規(guī)用語(yǔ)語(yǔ)料放在一起,訓(xùn)練出詞向量,再根據(jù)從正規(guī)用語(yǔ)的語(yǔ)料中抽取的正規(guī)用語(yǔ)詞典,在向量空間中找到每個(gè)非正規(guī)詞的k近鄰當(dāng)作候選表,之后使用貪心解碼器對(duì)非規(guī)則化文本中每個(gè)句子依據(jù)語(yǔ)言模型和字符串相似度選擇非規(guī)則化詞的最優(yōu)解,遍歷完了將替換之后的非正規(guī)用語(yǔ)文本跟正規(guī)用語(yǔ)文本一起重新訓(xùn)練詞向量,一直遞歸執(zhí)行直到滿足退出條件。

核心算法流程的偽代碼為:

輸入正規(guī)用語(yǔ)語(yǔ)料庫(kù)StdS={s1,s2,…,sn},非正規(guī)用語(yǔ)語(yǔ)料庫(kù)UStd={s1,s2,…,sn},評(píng)分閾值threhold

matchpair = {}

while匹配量大于閾值 do

UStd句子進(jìn)行清洗

StdS與UStd一起訓(xùn)練出word2vec模型model

StdS訓(xùn)練出語(yǔ)言模型langModel

StdS抽取生成正規(guī)詞字典NormalDict,UStd抽取生成非正規(guī)詞字典UnNormalDict

for each word in UnNormalDict do

根據(jù)model找出cosine相似度最大的topn的candidates

for each line in UStd do

根據(jù)langModel計(jì)算line的困惑度perp1

計(jì)算line將word替換為candi之后句子的困惑度perp2

根據(jù)ratio和字符串相似度的綜合評(píng)分score重排序candidates

for each word in UnNormalDict do

從其candidates里面找到符合條件的匹配,加入到matchpair中

依據(jù)matchpair替換UStd中匹配到的非正規(guī)詞迭代

end

2.1 詞向量

對(duì)詞進(jìn)行向量化表示一直是熱點(diǎn),從最初的空間向量模型,到淺層語(yǔ)義分析(Latent Semantic Analysis)、PCA等,但這些向量都是基于詞共現(xiàn)來(lái)實(shí)現(xiàn),并不能把握住語(yǔ)義信息。百度提出神經(jīng)網(wǎng)絡(luò)搭建二元語(yǔ)言模型的方法[14],文獻(xiàn)[15]提出了基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型之后,后續(xù)涌現(xiàn)出一批使用神經(jīng)網(wǎng)絡(luò)生成詞向量的方法,比較具有代表性的有g(shù)oogle提出的word2vec[16]和glove[17]。使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練出來(lái)的詞向量,考慮到了上下文信息,所以對(duì)詞意的表現(xiàn)力比之前的向量表示更加強(qiáng)[18]。對(duì)于詞匯的歸一化便可以考慮使用詞向量作為一個(gè)特征,因?yàn)槟切┢村e(cuò)了或者不同形式的詞,它們的上下文還是比較相似的。

傳統(tǒng)的將詞向量化的方法都是將詞用一個(gè)one-hot的向量表示,但是這種方法遇到的問題就是數(shù)據(jù)的稀疏,而且向量除了表示詞以外,并沒有將詞的上下文、語(yǔ)義上表達(dá)出來(lái)。詞的分布式表示提出之后,由于這種向量能很好地表達(dá)出詞之間的相似性,很快為研究者所青睞。通過(guò)訓(xùn)練將每個(gè)詞映射成K維實(shí)數(shù)向量(K一般為模型中的超參數(shù)),通過(guò)詞之間的距離(比如 cosine 相似度、歐氏距離等)來(lái)判斷它們之間的語(yǔ)義相似度。

詞的分布式表示是神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的代產(chǎn)物,神經(jīng)網(wǎng)絡(luò)語(yǔ)言思路與n-gram模型類似,使用wt-n+1,wt-n+2,…,wt-1來(lái)預(yù)測(cè)wt,C(w)是詞w對(duì)應(yīng)的詞向量,神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型使用一套唯一的詞向量,存在矩陣C中,C的大小為|V|×m,|V|是詞表大小,m是向量的維度,從詞w到C(w)就是從矩陣C中取出對(duì)應(yīng)的那一行。此模型如圖2所示,是一個(gè)三層的神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)的第1層是將窗口中的詞對(duì)應(yīng)的詞向量C(wt-n+1),…,C(wt-2),C(wt-1)拼接起來(lái),形成一個(gè)(n-1)m的向量,記為輸入x。

網(wǎng)絡(luò)的第2層就是對(duì)輸入進(jìn)行一個(gè)非線性變換:

h=tanh(d+Hx)

(1)

網(wǎng)絡(luò)的輸出層一共有|V|個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)yi表示下一個(gè)詞為i的未歸一化log概率。最后使用softmax將輸出值歸一化成概率。

y=b+Wx+Utanh(d+Hx)

(2)

此模型的目標(biāo)函數(shù)如式(3)所示,通過(guò)最大化下一個(gè)詞的概率的訓(xùn)練過(guò)程,矩陣C作為參數(shù)的一部分進(jìn)行梯度下降調(diào)優(yōu),最后這個(gè)矩陣便是詞向量。這樣訓(xùn)練出來(lái)的詞向量具有很好的語(yǔ)義表示能力。

(3)

實(shí)驗(yàn)采用的是Word2Vec工具生成的詞向量。Word2Vec有2種方式:CBOW和skip-gram,采用skip-gram、skip-gram的目的是使用一個(gè)詞來(lái)預(yù)測(cè)窗口內(nèi)的其他詞,最大化其他詞的概率。

由于通過(guò)word2vec可以將單詞投射到低維向量空間,本文采用2個(gè)詞的向量的cosine距離作為2個(gè)詞的相似度,用于候選詞的初級(jí)篩選,如圖3所示。

圖3 word2vec的2種方式

2個(gè)維度為D的向量e和f的cosine距離定義如下:

(4)

2.2 貪心解碼算法

在非正規(guī)詞聚類之后,每個(gè)非正規(guī)詞都有一個(gè)候選正規(guī)詞表,從這個(gè)詞表中選出該詞意思最近的正規(guī)詞作為此非正規(guī)詞的歸一化目標(biāo)。對(duì)于包含非正規(guī)詞的句子,從候選詞表中選擇最優(yōu)解可以類比為一個(gè)簡(jiǎn)易的機(jī)器翻譯的解碼過(guò)程,只需要針對(duì)非正規(guī)詞進(jìn)行部分解碼即可。

采用一個(gè)比較簡(jiǎn)單的貪心策略的解碼器進(jìn)行候選詞的篩選,貪心策略的評(píng)分價(jià)值采用句子的語(yǔ)言模型困惑度評(píng)分變化率以及非正規(guī)詞與其候選詞的字符串相似度的綜合考慮。選取得分超過(guò)閾值的詞。評(píng)分如式(5)所示,pp_ratio是語(yǔ)言模型困惑度變化率,lexicalsimilarity是2個(gè)詞的詞匯字符串相似度,λ1、λ2分別是模型的2個(gè)超參數(shù),在實(shí)驗(yàn)中使用手工調(diào)優(yōu)得到,手動(dòng)調(diào)參策略是固定一個(gè)threshold,將λ1、λ2均以0.5為初值,學(xué)習(xí)率為0.03,以正則化之后測(cè)試集的BLEU值作為評(píng)價(jià)指標(biāo),從而選取較優(yōu)的比例;threshold的選取則是在λ1、λ2選取之后手動(dòng)進(jìn)行調(diào)整,策略與λ1、λ2調(diào)參類似。

score(word)=λ1pp_ratio+λ2lexicalsimilarity

(5)

語(yǔ)言模型的目的是建立一個(gè)能夠描述給定詞序列在語(yǔ)言中出現(xiàn)的概率的分布,使用一個(gè)采用Kneser-Nye平滑的n=5的n-gram語(yǔ)言模型對(duì)句子進(jìn)行困惑度打分。困惑度評(píng)分如式(6)所示。

(6)

對(duì)于候選詞的困惑度pp_ratio打分為用此候選詞替換對(duì)應(yīng)的非正規(guī)詞之后的句子的困惑度變化率,計(jì)算方式如式(7)所示。

(7)

對(duì)于字符串的相似度最常被采用的是編輯距離,編輯距離又叫Levenstein距離,是指2個(gè)字串之間,由一個(gè)轉(zhuǎn)成另一個(gè)所需的最少編輯操作次數(shù)。許可的編輯操作包括將一個(gè)字符替換成另一個(gè)字符,插入一個(gè)字符,刪除一個(gè)字符。一般來(lái)說(shuō),編輯距離越小,2個(gè)串的相似度越大。

但是編輯距離并不能特別適合這種場(chǎng)景,因?yàn)橐话惴钦?guī)書寫的單詞包括很大一部分是對(duì)單詞進(jìn)行大面積的縮寫。采用文獻(xiàn)[6]所提出來(lái)的詞匯相似度值,2個(gè)單詞S1、S2的詞匯字符串相似度如式(8)所示,是2個(gè)字符串的最長(zhǎng)公共子串率與編輯距離之除,這個(gè)相似度很好地適用于縮寫的情況。

(8)

2個(gè)單詞的最長(zhǎng)公共子串率如式(9)所示,是2個(gè)字符串的最長(zhǎng)公共子串與它們的最長(zhǎng)長(zhǎng)度之除。

(9)

解碼算法的偽代碼如下:

輸入非正規(guī)用語(yǔ)語(yǔ)料庫(kù)UStd={s1,s2,…,sn},評(píng)分閾值threshold

matchpairs={}

for sentence in UStd do:

計(jì)算sentence的語(yǔ)言模型評(píng)分pp1

for 非正規(guī)詞UFword in sentence do:

計(jì)算候選集中一個(gè)正規(guī)詞FWord替換后的句子語(yǔ)言模型評(píng)分PP2

計(jì)算score(FWord)

if max(score(FWord)) > threshold do:

將UFword替換為FWord繼續(xù)當(dāng)前句子解碼

else do:

進(jìn)行下一句子解碼

end

2.3 bootstrapping

解碼器使用的都是基于很多噪聲的語(yǔ)料訓(xùn)練出來(lái)的向量空間以及上下文信息,會(huì)導(dǎo)致一些非正規(guī)詞對(duì)應(yīng)的正規(guī)詞不能聚類到top-k的候選集中,從而不能在解碼中匹配出來(lái)。為了解決這個(gè)問題,引入了bootstrapping方法。bootstrapping是統(tǒng)計(jì)學(xué)中的重采樣,本文應(yīng)用bootstrapping是帶更新的重采樣,在所有句子解碼完成后,將匹配到的非正規(guī)詞歸一化為其對(duì)應(yīng)的正規(guī)詞,將修改過(guò)的語(yǔ)料與正規(guī)語(yǔ)料一起,再重采樣,進(jìn)行遞歸來(lái)對(duì)之前歸一化過(guò)程中未能歸一化的詞進(jìn)行進(jìn)一步的歸一化。重采樣的策略采用.632自助法,對(duì)于包含d個(gè)樣本的數(shù)據(jù)集,有放回地抽樣d次,產(chǎn)生d個(gè)樣本的數(shù)據(jù)集,每次遞歸之后采取的重采樣操作一樣。

3 實(shí)驗(yàn)結(jié)果與分析

本文主要研究對(duì)象為維吾爾語(yǔ)口語(yǔ)中非正規(guī)詞,首先實(shí)驗(yàn)驗(yàn)證詞歸一化模型的準(zhǔn)確性,然后將歸一化的結(jié)果運(yùn)用于維漢機(jī)器翻譯中驗(yàn)證本文方法對(duì)機(jī)器翻譯系統(tǒng)的作用的有效性,作為對(duì)比對(duì)象,引入了文獻(xiàn)[10]提出的方法。

3.1 正確性分析

由于尚未有通用的維吾爾語(yǔ)詞歸一化方法,采用人工判定方式,使用的語(yǔ)料資源為:0.2 MB的新聞維漢雙語(yǔ)語(yǔ)料作為正規(guī)語(yǔ)料,0.2 MB的網(wǎng)絡(luò)文本作為非正規(guī)語(yǔ)料;使用的詞向量是word2vec,窗口大小為8,最小出現(xiàn)次數(shù)為10而訓(xùn)練生成的200維的向量,語(yǔ)言模型為使用kenlm[19]對(duì)此正規(guī)語(yǔ)料訓(xùn)練的N=5的N-gram語(yǔ)言模型。

使用本文方法能成功歸一化1 812次非正規(guī)詞,對(duì)歸一化成功的詞進(jìn)行準(zhǔn)確度、召回度和F1值評(píng)價(jià),結(jié)果如表1所示。

表1 歸一化詞正確性分析 %

從實(shí)驗(yàn)結(jié)果可以看出,本文方法與文獻(xiàn)[10]方法均能夠在此場(chǎng)景中有效地進(jìn)行詞的歸一化。本文方法在遞歸的進(jìn)行中,準(zhǔn)確度逐步增加,并且在遞歸3次之后就優(yōu)于文獻(xiàn)[10]方法,這說(shuō)明本文方法引入的bootstrapping策略能有效地提高歸一化的準(zhǔn)確性。在召回率上,本文方法隨著遞歸的進(jìn)行,召回率逐步降低,主要是由于前序遞歸中為正確歸一化的詞引入的噪聲,最后召回率低于文獻(xiàn)[10]方法,但總體F1值也與文獻(xiàn)[10]方法相當(dāng)。

3.2 機(jī)器翻譯實(shí)驗(yàn)驗(yàn)證

把本文提出的非正規(guī)詞歸一化方法應(yīng)用于實(shí)際的機(jī)器翻譯系統(tǒng)中,來(lái)驗(yàn)證該方法的有效性。

歸一化模塊的實(shí)驗(yàn)設(shè)置:使用的語(yǔ)料資源為0.2 MB的新聞維漢雙語(yǔ)語(yǔ)料作為正規(guī)語(yǔ)料,0.2 MB的網(wǎng)絡(luò)文本作為非正規(guī)語(yǔ)料,使用的詞向量是word2vec生成的窗口大小為8的200維的向量,語(yǔ)言模型為使用此正規(guī)語(yǔ)料訓(xùn)練的N=5的N-gram語(yǔ)言模型,超參數(shù)λ1、λ2經(jīng)過(guò)多次實(shí)驗(yàn),采用0.43、0.57效果最優(yōu)。

機(jī)器翻譯實(shí)驗(yàn)設(shè)置:采用維漢新聞?wù)Z料和未正規(guī)化的口語(yǔ)語(yǔ)料作為實(shí)驗(yàn)對(duì)象,訓(xùn)練集采用CWMT2015的維漢新聞?wù)Z料,由于尚未有公開的維漢雙語(yǔ)口語(yǔ)語(yǔ)料集,實(shí)驗(yàn)采用爬取以及標(biāo)注的網(wǎng)頁(yè)論壇語(yǔ)料作為測(cè)試集,語(yǔ)料樣本規(guī)模如表2所示。

表2 機(jī)器翻譯語(yǔ)料

實(shí)驗(yàn)的基線系統(tǒng)為moses3.0[20]訓(xùn)練的基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)[21],該系統(tǒng)基于最小錯(cuò)誤率訓(xùn)練方法優(yōu)化翻譯系統(tǒng)權(quán)重,最后采用BLEU值作為評(píng)價(jià)指標(biāo)。本文設(shè)置如下3個(gè)翻譯實(shí)驗(yàn):

1)基線:利用新聞?wù)Z料訓(xùn)練的統(tǒng)計(jì)翻譯模型直接對(duì)測(cè)試集進(jìn)行翻譯。

2)文獻(xiàn)[10]方法:對(duì)測(cè)試集使用文獻(xiàn)[10]方法進(jìn)行歸一化之后利用基線進(jìn)行翻譯。

3)本文方法:采用本文提出的歸一化方法進(jìn)行歸一化之后利用基線進(jìn)行翻譯,遞歸i表示本文方法進(jìn)行重采樣遞歸i次之后進(jìn)行歸一化的結(jié)果。

實(shí)驗(yàn)結(jié)果如表3所示,利用本文方法進(jìn)行歸一化之后的文檔的翻譯結(jié)果的BLEU值有了顯著的提升。在遞歸2次之后,本文方法的結(jié)果略優(yōu)于進(jìn)行一次解碼的文獻(xiàn)[10]提出的方法。

表3 機(jī)器翻譯實(shí)驗(yàn)結(jié)果

圖4 包含非正規(guī)詞的句子實(shí)例

圖5 歸一化之后的句子實(shí)例

本文方法的效果隨著遞歸的進(jìn)行,BLEU值逐步趨于收斂,這是由于本文方法每輪遞歸中未正確歸一化的詞所引入的噪聲導(dǎo)致后續(xù)的遞歸過(guò)程中能進(jìn)行正確歸一化的詞數(shù)量減少所導(dǎo)致的。

4 結(jié)束語(yǔ)

本文提出了一種無(wú)監(jiān)督的維吾爾語(yǔ)口語(yǔ)中非正規(guī)詞的歸一化方法,將該方法運(yùn)用于維漢機(jī)器翻譯的待翻譯句子的前編輯歸一化之后,相比于基線系統(tǒng),使用不同領(lǐng)域訓(xùn)練的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),在測(cè)試集上BLEU值提升了0.7。此外本文方法也是對(duì)文獻(xiàn)[10]方法的一種改進(jìn),引入了bootstrapping方法并且采用了另一個(gè)解碼器以及不同的打分機(jī)制,實(shí)驗(yàn)結(jié)果也證明本文方法有一定的改進(jìn),在準(zhǔn)確度上有了2.4個(gè)百分點(diǎn)的提高,由于引入重采樣策略,召回率降低了5個(gè)百分點(diǎn),在機(jī)器翻譯上,本文方法也較之在BLEU值上提高了0.2。

由于本文未能引入更多的維吾爾語(yǔ)的語(yǔ)言學(xué)特性,因此后續(xù)將在解碼器中加入部分語(yǔ)言學(xué)方面的規(guī)則,進(jìn)一步提高歸一化的召回率。

[1] 年 梅,張?zhí)m芳.維吾爾文網(wǎng)絡(luò)查詢擴(kuò)展詞的構(gòu)建研究[J].計(jì)算機(jī)工程,2015,41(4):187-189,194.

[2] MI Chenggang,YANG Yating,ZHOU Xi,et al.A Phrase Table Filtering Model Based on Binary Classification for Uyghur-Chinese Machine Translation[J].Journal of Computers,2014,9(12):2780-2786.

[3] SHANNON C E.Communication Theory of Secrecy Systems[J].Bell System Technical Journal,1949,28(4):656-715.

[4] BRILL E,MOORE R C.An Improved Error Model for Noisy Channel Spelling Correction[C]//Proceedings of the 38th Annual Meeting on Association for Computational Linguistics.[S.l.]:Association for Computational Linguistics,2000:286-293.

[5] TOUTANOVA K,MOORE R C.Pronunciation Modeling for Improved Spelling Correction[C]//Pro-ceedings of the 40th Annual Meeting on Association for Computational Linguistics.[S.l.]:Association for Computational Linguistics,2002:144-151.

[6] COOK P,STEVENSON S.An Unsupervised Model for Text Message Normalization[C]//Proceedings of Workshop on Computational Approaches to Linguistic Creativity.[S.l.]:Association for Computational Linguistics,2009:71-78.

[7] AW A T,ZHANG Min,XIAO Juan,et al.A Phrase-based Statistical Model for SMS Text Normalization[C]//Proceedings of COLING/ACL on Main Conference Poster Sessions.[S.l.]:Association for Computational Linguis-tics,2006:33-40.

[8] HASSAN H,MENEZES A.Social Text Normalization Using Contextual Graph Random Walks[C]//Proceedings of the 51st Annual Meeting Computational Linguistics Meeting.[S.l.]:Association for Computational Linguis-tics,2013:1577-1586.

[9] HAN Bo,COOK P,BALDWIN T.Automatically Con-structing a Normalisation Dictionary for Microblogs[C]//Proceedings of Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning.[S.l.]:Association for Computational Linguistics,2012:421-432.

[10] SRIDHAR V K R.Unsupervised Text Normalization Using Distributed Representations of Words and Phrases[C]// Proceedings of Workshop on Vector Space Modeling for Natural Language Processing.New York,USA:ACM Press,2015:8-16

[11] MOONEY C Z,DUVAL R D,DUVAL R.Bootstrapping:A Nonparametric Approach to Statistical Inference[J].Technometrics,1993,36 (4):435-436

[12] 羅 軍,高 琦,王 翊.基于Bootstrapping的本體標(biāo)注方法[J].計(jì)算機(jī)工程,2010,36(23):85-87.

[13] 何婷婷,徐 超,李 晶,等.基于種子自擴(kuò)展的命名實(shí)體關(guān)系抽取方法[J].計(jì)算機(jī)工程,2006,32(21):183-184.

[14] XU W,RUDNICKY A I.Can Artificial Neural Networks Learn Language Models?[D].Pittsburgh,USA:Carnegie Mellon University,2000.

[15] BENGIO Y,DUCHARME R,VINCENT P,et al.A Neural Probabilistic Language Model[J].Journal of Machine Learning Research,2003,3(2):1137-1155.

[16] MIKOLOV T,KARAFIT M,BURGET L,et al.Recurrent Neural Network Based Language Model[C]//Proceedings of Conference of the International Speech Communication Association.Berlin,Germany:Springer,2010:1045-1048.

[17] PENNINGTON J,SOCHER R,MANNING C D.Glove:Global Vectors for Word Representation[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing.Berlin,Germany:Springer,2014:1532-1543.

[18] 張為泰.基于詞向量模型特征空間優(yōu)化的同義詞擴(kuò)展研究與應(yīng)用[D].北京:北京郵電大學(xué),2014.

[19] HEAFIELD K.KEN L M:Faster and Smaller Language Model Queries[C]//Proceedings of the 6th Workshop on Statistical Machine Translation.[S.l.]:Association for Computational Linguistics,2011:187-197.

[20] KOEHN P,HOANG H,BIRCH A,et al.Moses:Open Source Toolkit for Statistical Machine Translation[C]//Proceedings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions.[S.l.]:Association for Computational Linguistics,2007:177-180.

[21] CHIANG D.Hierarchical Phrase-based Translation[M].[S.l.]:Association for Computational Linguistics,2007.

猜你喜歡
語(yǔ)言方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
語(yǔ)言是刀
文苑(2020年4期)2020-05-30 12:35:30
讓語(yǔ)言描寫搖曳多姿
累積動(dòng)態(tài)分析下的同聲傳譯語(yǔ)言壓縮
3D打印中的模型分割與打包
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
我有我語(yǔ)言
主站蜘蛛池模板: 中文字幕人成人乱码亚洲电影| 免费国产高清精品一区在线| 午夜毛片免费看| 青青青视频免费一区二区| 亚洲中文字幕无码mv| 久久综合伊人77777| 亚洲日韩欧美在线观看| 国产网站免费看| 国产喷水视频| 欧美97色| 亚洲成人精品| 国产欧美性爱网| 夜色爽爽影院18禁妓女影院| 免费精品一区二区h| 亚洲一区二区在线无码| 久久精品人人做人人爽| 中文字幕 日韩 欧美| 国产一区二区影院| 亚洲aaa视频| 成人午夜精品一级毛片| 欧美午夜一区| 久久久精品无码一二三区| 色婷婷天天综合在线| 在线日韩一区二区| 国产永久在线视频| 免费又黄又爽又猛大片午夜| 国产一级在线播放| 青草精品视频| 日韩无码视频专区| 国产黄在线免费观看| 欧美精品不卡| 91精品免费久久久| 在线国产资源| 亚洲国产AV无码综合原创| 高清不卡一区二区三区香蕉| 久久婷婷国产综合尤物精品| 欧美笫一页| 成人毛片免费在线观看| 美女视频黄又黄又免费高清| 日韩小视频在线播放| 成人毛片在线播放| 国产婬乱a一级毛片多女| 99re在线观看视频| 精品一区二区三区波多野结衣| 伊人AV天堂| 夜夜拍夜夜爽| 国产成人欧美| 亚洲AⅤ无码国产精品| 99精品视频在线观看免费播放| 久久国产热| 欧美成人二区| 四虎成人免费毛片| 欧美成人国产| 色噜噜综合网| 日韩成人高清无码| 日韩一区二区在线电影| 国产成人精品综合| 国产区成人精品视频| 91综合色区亚洲熟妇p| 久久99热66这里只有精品一| 久久久受www免费人成| 欧美一级高清视频在线播放| 色精品视频| 亚洲日韩高清在线亚洲专区| 久久福利片| 中文无码日韩精品| 国产极品美女在线播放| 色视频国产| 亚洲精品麻豆| 亚洲福利网址| 成人中文字幕在线| 中文字幕人妻无码系列第三区| 国产精品永久久久久| 亚欧美国产综合| 91精品免费久久久| 国产精品午夜福利麻豆| av一区二区三区高清久久| 黄色不卡视频| 亚洲AV永久无码精品古装片| 日韩精品成人在线| 日韩人妻少妇一区二区| 亚洲国产精品人久久电影|