999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

漢維句子對齊長度計算單位的研究

2018-12-22 07:53:38塞麥提麥麥提敏吐爾根伊布拉音
現(xiàn)代計算機 2018年33期
關(guān)鍵詞:單詞

塞麥提·麥麥提敏,吐爾根·伊布拉音

(新疆大學(xué),烏魯木齊 830046)

0 引言

機器翻譯、跨語言信息檢索等自然信息處理系統(tǒng)都需要雙語語料庫等大數(shù)據(jù)資源。在建立大型雙語語料庫中,自動句子對齊和句子長度相似度計算是重要的技術(shù)之一。自動句子對齊的方法基本上可分為三類,即基于長度的方法[1-3]、基于詞匯的方法[4-5]和混合的方法[6-7]。其中,Brown(1991)和 Gale(1993)等的基于長度的句子對齊方法最有名。該方法分別采用以單詞或字符作為句子長度計算單位,對Hansard語料庫進行英法句子的對齊試驗。其研究結(jié)果顯示,長度計算單位不同,句子對齊算法的準(zhǔn)確率有差異。

在漢維句子對齊研究方面,畢雪華[8]、牛洪梅[9]和熱西旦[10]等先后做了實驗性探索。他們的基于長度的句子對齊算法都以字符作為漢維句子長度的計算單位。將字符作為長度單位進行句子對齊是拼音文字之間可以采取的方法。維文是拼音文字,漢文則不是拼音文字,漢文字符和維文字符屬于不同層面的語言單位,其功能和特點完全不同。以字符作為句子長度單位的方法可能不太適合于漢維語的特點。因此,基于多種長度單位的漢維句子對齊算法都值得嘗試。

本文對漢語字符、漢語漢字、維語單詞、維語字符等句子長度單位的4種組合進行統(tǒng)計與實驗分析,以便確定漢維句子長度計算的最佳單位,為計算漢維雙語句子對齊的概率提供可靠的依據(jù),最終提高漢維句子對齊的效率。

1 基于長度對齊模型

基于長度的句子對齊算法可利用簡單的統(tǒng)計模型,是因為原文和譯文的長度滿足一定的比例關(guān)系,即原句子越長譯文越長,反之亦然?;谶@種考慮,句子對齊問題變成利用原文和譯文句子的長度關(guān)系,求解每一對雙語句子的互譯概率的問題。因此,在基于長度的對齊方法中,首先對已對齊的語料進行訓(xùn)練,獲取概率參數(shù),然后給每個句對分配一個概率得分,用此得分進行動態(tài)規(guī)劃,以找到最大可能的句子對齊。

于是,得到基于長度的句子對齊模型如下:

式(1)中,L(AiS)和 L(AiT)分別表示原文句子 AiS和譯文句子AiT的長度。

該對齊模型的關(guān)鍵在于求解概率:

而根據(jù)概率學(xué)中的條件概率公式有:

式(2)中,由于對于任意的 AiS、AiT、Prob(L(AiS),L(AiT))都可以認(rèn)為是一個常數(shù),因此在進行概率計算時可以略去該常數(shù)。Prob(AiSóAiT)表示不考慮長度條件下AiS和AiT互為翻譯的概率,該概率可以用雙語句子的對齊模式概率來估計。

通過這些方法確定Prob(A|S,T)的值以后,通過概率學(xué)原理可求得概率 Prob(L(AiS),L(AiT)|AiSóAiT)。

然后,采用動態(tài)規(guī)劃算法,通過計算兩個片段的最小距離的辦法確定句子對齊情況。動態(tài)規(guī)劃算法可總結(jié)為下面的遞歸等式:

其中,si,tj(i=1,2,…i;j=1,2,…,j)分別為兩個文本中的句子,算法開始時 D(i,j)=0。

2 長度計算方法與分析

2.1 長度計算方法

句子長度計算單位的確定是基于長度的句子對齊算法首要解決的問題。計算單位不同,雙語句子之間的長度關(guān)系的概率不同。對于漢語和維語而言,句子長度的計算單位不像印歐語系語言那么容易確定。漢語句子長度的計算單位有單詞、純漢字(不包括標(biāo)點符號等)、字符,維語句子長度的計算單位有單詞和字符(字母)等。理論上,漢語和維語句子的長度關(guān)系有以下六種組合:①漢語單詞/維語單詞②漢語單詞/維文字符③漢語漢字/維語單詞④漢語漢字/維語字符⑤漢語字符/維語單詞⑥漢語字符/維文字符。其中,①③⑤⑥比較適合于漢維語的特點,也有一定的比較性。因此,本文只對這4種組合進行相關(guān)的統(tǒng)計與分析。

2.2 訓(xùn)練語料

本文訓(xùn)練語料是新疆大學(xué)的“漢維雙語平行語料庫”。該語料庫一共收集550個樣本語料,總規(guī)模為4809873字(詞),其中漢文部分3174122漢字,維文部分1635751詞。按句子總數(shù)計算,一共216200句子,其中漢文句子105845,維文句子110355,句子對齊后的句對總數(shù)為100742。該語料庫包括文學(xué)、法律、公文、學(xué)術(shù)、新聞、日常會話等六種語體的雙語語料。

2.3 句子長度相關(guān)性分析

為了比較不同句子長度計算單位,對上述訓(xùn)練語料的漢維句子長度及其相關(guān)性進行統(tǒng)計,獲得基于不同長度單位的句子長度相關(guān)系數(shù)和分布圖。通過統(tǒng)計發(fā)現(xiàn),較長的漢語句子趨向于翻譯成較長的維語句子,而較短的漢語句子則趨向于翻譯成較短的維語句子。但是,計算單位不同,漢維句子的長度關(guān)系的相關(guān)性和分布不同。

圖1是以漢語單詞和維語單詞作為長度計算單位的句子長度分布圖。

圖1 子長度分布圖(漢語單詞/維語單詞)

根據(jù)圖1,以單詞作為句子長度單位時,漢維句子長度關(guān)系不太穩(wěn)定,相關(guān)系數(shù)R的平方值也較小。

圖2是以漢語字?jǐn)?shù)和維語詞數(shù)作為長度計算單位的句子長度分布圖。

圖2 子長度分布圖(漢語漢字/維語單詞)

圖3是以漢語字符數(shù)和維語詞數(shù)作為長度計算單位的句子長度分布圖。

根據(jù)圖2和圖3,與以漢字作為長度單位的分布比較,以漢語字符作為長度單位的分布相對集中,其句子關(guān)系相對穩(wěn)定。排除標(biāo)點符號、數(shù)字等非漢字字符的方法降低了句子長度關(guān)系的穩(wěn)定性。

圖3 子長度分布圖(漢語字符/維語單詞)

圖4是以漢語字符數(shù)和維語字符數(shù)作為長度計算單位的句子長度分布圖。

圖4 長度分布圖(漢語字符/維語字符)

從圖1-4可以看出,漢維句子長度的分布具有一定的規(guī)律性。以漢語詞語和維語詞語(圖1)或漢語漢子和維語詞語作為長度單位(圖2)時,漢維句子長度的分布相對稀疏。以漢語字符數(shù)和維語詞數(shù)為長度單位(圖3)時,漢維句子的長度關(guān)系更為穩(wěn)定。以漢語字符數(shù)和維語字符數(shù)作為長度單位(圖4)時,的分布相對集中,其相關(guān)系數(shù)接近于第三種組合(圖3),但是漢維句子長度比值較大時,對句子長度的變化不太敏感。

根據(jù)句子長度分布圖,可以初步判斷,在漢維句子對齊中不宜同時采用詞數(shù)(或字符數(shù))作為句子長度的計算單位,而采用漢文字符數(shù)和維文單詞作為句子長度單位是比較合適的。當(dāng)然,這一假設(shè)需要通過實驗驗證。

3 子對齊實驗與結(jié)果

3.1 參數(shù)統(tǒng)計

基于長度的對齊模型的第一個條件是式(2)中評價函數(shù) Prob(L(AiS),L(AiT))滿足標(biāo)準(zhǔn)正態(tài)分布時,該模型才可以獲得較高的準(zhǔn)確率。本文對訓(xùn)練語料進行統(tǒng)計,得到漢維句子長度比例的數(shù)學(xué)期望值c和方差S2的參數(shù)值。c是通過計算漢維句子長度比值的平均值得到,S2是通過計算(Lc-Lu*c)2Lu的平均值得到。其中,Lc為漢語句子長度,Lu為維語句子長度。相關(guān)分析結(jié)果表明,句子長度隨機變量的分布情況相當(dāng)接近于以c和S2為參數(shù)的正態(tài)分布?;诓煌渥娱L度實驗參數(shù)統(tǒng)計如表1所示。

表1 實驗參數(shù)值

根據(jù)表1,在漢維對齊的語料中,約1個漢語單詞對應(yīng)0.96個維語單詞;1個漢語字符對應(yīng)4.06個維語字符;1.76個漢字對應(yīng)1個維語單詞;1.97個漢語字符對應(yīng)1個維語單詞。

基于長度的對齊模型的第二個必要條件是:漢維句子長度滿足一定的比例關(guān)系。如表1所示,無論采用什么樣的計算單位,漢語和維語句子在長度方面高度相關(guān)(相關(guān)系數(shù)都大于0.9)。其中,以漢語字符和維語單詞為計算單位時,相關(guān)系數(shù)更接近于1。相關(guān)系數(shù)R可用以下公式計算:

式(4)中,x和y分別表示漢維句子的長度。

此外,句子對齊模型還需計算式(2)中的Prob(AiSóAiT)(句子對齊模式的概率),本文對訓(xùn)練語料進行統(tǒng)計獲得的對齊模式的概率如表2所示:

表2 對齊模式的概率統(tǒng)計

3.2 實驗結(jié)果

為了比較不同計算單位對句子對齊的影響,進一步驗證上述假設(shè),從新疆大學(xué)“漢維雙語平行語料庫”中,隨機抽取分別屬于文學(xué)、法律、公文、學(xué)術(shù)、新聞等5種語體的10個樣本(一共1482句對)作為測試語料。分別采用不同的長度計算單位,進行基于長度的句子對齊實驗。實驗評價標(biāo)準(zhǔn)如下:

實驗結(jié)果如表3所示:

表3 句子對齊實驗結(jié)果

根據(jù)實驗結(jié)果,句子長度計算單位不同,句子對齊的準(zhǔn)確率和召回率都有差異。其中,以漢語字符和維語單詞作為長度計算單位時,句子對齊的準(zhǔn)確率和召回率高于其他三種方法,分別達到94%和93.6%。文獻[13]的實驗結(jié)果也顯示,選用這種長度計算單位時,利用錨點等多種信息的混合句子對齊的準(zhǔn)確率提高了2.7%。

通過分析實驗結(jié)果,可得出以下結(jié)論:

(1)以漢語單詞作為長度計算單位進行句子對齊,準(zhǔn)確率比較低。這主要是因為漢語句子進行分詞才能計算句子長度,分詞的復(fù)雜性,往往導(dǎo)致較大誤差。此外,句子內(nèi)的單詞數(shù)相對于字符數(shù)較少,容易出現(xiàn)數(shù)據(jù)的稀疏。一旦句子詞數(shù)的計算發(fā)生誤差,便會造成句子長度比值的較大幅度改變,從而導(dǎo)致后續(xù)句子對齊的錯誤。

(2)將字符作為句子長度的計算單位是拼音文字之間可以采取的方法,可是在計算漢維句子長度時,顯然是不可取的。因為,維文是拼音文字,漢文則不是拼音文字。漢文字符和維文字符在功能和特點上很不一樣,屬于不同層面的語言單位。因此,以字符作為句子長度單位不太適合于漢維這兩種文字的特點。

(3)根據(jù)上述統(tǒng)計和實驗結(jié)果,互譯的句子中漢語字符數(shù)和維文詞數(shù)具有高度相關(guān)性,句子長度比值更近似于正態(tài)分布,漢語字符和維文詞語的功能基本相同。因此,漢文字符和維文單詞是漢維句子對齊的最佳長度計算單位。

4 結(jié)語

傳統(tǒng)的基于長度的漢維句子對齊算法大都以字符作為句子長度的計算單位。本文分別對句子長度計算的4種不同方法進行統(tǒng)計分析,根據(jù)實驗結(jié)果,漢維句子對齊的最佳長度計算單位是漢語字符和維語單詞,其準(zhǔn)確率和召回率都高于其他方法。因此,在句子對齊中,以漢語字符和維語單詞作為長度計算單位是正確的選擇。

猜你喜歡
單詞
What’s This?
Exercise 2
Exercise 4
Exercise 6
Exercise 1
Exercise 3
Exercise 5
單詞連一連
看圖填單詞
看完這些單詞的翻譯,整個人都不好了
主站蜘蛛池模板: 亚洲成人在线免费观看| 久久这里只精品热免费99| 久久99精品国产麻豆宅宅| 玖玖免费视频在线观看| 国产精品所毛片视频| 中文字幕佐山爱一区二区免费| 亚洲日韩Av中文字幕无码| 91精品久久久久久无码人妻| 国国产a国产片免费麻豆| 免费A∨中文乱码专区| 国产制服丝袜无码视频| 2022精品国偷自产免费观看| 国产原创第一页在线观看| 最新加勒比隔壁人妻| 久久人搡人人玩人妻精品| 国产亚洲精品自在线| 午夜a级毛片| 亚洲精品国产乱码不卡| 成年午夜精品久久精品| 久久香蕉国产线| 99精品久久精品| 视频一区视频二区中文精品| 国产人人射| 香蕉在线视频网站| 国产激情无码一区二区APP| 2021无码专区人妻系列日韩| 国产制服丝袜91在线| 亚洲伊人久久精品影院| 美女无遮挡免费视频网站| 免费观看成人久久网免费观看| 又黄又爽视频好爽视频| 国产亚洲精久久久久久久91| 国产一级特黄aa级特黄裸毛片| 无码高潮喷水专区久久| 亚洲va视频| 毛片三级在线观看| 成人亚洲天堂| 人人91人人澡人人妻人人爽 | 无码有码中文字幕| 国产一二视频| 亚洲色图综合在线| 亚洲a级毛片| 国产综合日韩另类一区二区| av大片在线无码免费| 国产十八禁在线观看免费| 少妇高潮惨叫久久久久久| 国产精品真实对白精彩久久| 日本精品一在线观看视频| 91成人在线观看| 中国一级特黄大片在线观看| 中文字幕日韩丝袜一区| 亚洲午夜天堂| 91蜜芽尤物福利在线观看| 四虎影视无码永久免费观看| 欧美午夜视频在线| www欧美在线观看| 成人午夜精品一级毛片| 国产sm重味一区二区三区| 九九九久久国产精品| 中文字幕调教一区二区视频| 色偷偷一区| 啪啪永久免费av| 国产欧美日韩视频一区二区三区| 日本不卡在线视频| 91无码人妻精品一区| 最新国产高清在线| swag国产精品| 日本午夜精品一本在线观看| 91外围女在线观看| 日本一区二区不卡视频| 欧美日韩另类国产| 无码福利日韩神码福利片| 成年免费在线观看| 无码福利日韩神码福利片| 香蕉视频在线观看www| 一级香蕉视频在线观看| 久久99蜜桃精品久久久久小说| 九色91在线视频| 久久久久无码精品| 国产欧美网站| 国产精品lululu在线观看| 超碰色了色|