999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多譯文的中文轉(zhuǎn)述語料庫建設(shè)及轉(zhuǎn)述評(píng)價(jià)方案

2019-01-22 08:33:50施文嫻李巖昊翁伊嘉胡俊峰
中文信息學(xué)報(bào) 2018年12期
關(guān)鍵詞:單詞詞匯模型

阮 翀,施文嫻,李巖昊,翁伊嘉,胡俊峰

(1. 北京大學(xué) 計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871;2. 北京大學(xué) 信息科學(xué)技術(shù)學(xué)院,北京 100871)

0 引言

轉(zhuǎn)述是指用不同的表達(dá)方式來傳達(dá)相同或相似語義的語言現(xiàn)象。這一現(xiàn)象在人類語言中廣泛存在,給信息檢索、剽竊檢測、機(jī)器翻譯評(píng)價(jià)等自然語言處理問題均帶來了額外的困難,而構(gòu)建轉(zhuǎn)述知識(shí)庫可以在一定程度上緩解這一困境。

建設(shè)轉(zhuǎn)述知識(shí)庫需要以轉(zhuǎn)述語料庫為基礎(chǔ)。目前學(xué)術(shù)界已有的轉(zhuǎn)述語料多為英文,例如,Quora[注]② https://data.quora.com/First-Quora-Dataset-Release-Qu-estion-Pairs、MRPC[1]和 MSCoCo[2]等。其中 Quora 是從問答網(wǎng)站中收集的一些語義重復(fù)的問題對(duì),MRPC 是從新聞?wù)Z料里挖掘出的同義句對(duì), MSCoCo 是不同人

對(duì)同一圖片的文字描述。而中文世界里目前還難以獲得類似的公開語料,因此本文以外國文學(xué)名著的多個(gè)不同中文譯本為基礎(chǔ),尤其以《簡愛》的四個(gè)譯本為例,通過句對(duì)齊算法得到轉(zhuǎn)述句對(duì),構(gòu)建了一個(gè)規(guī)模約為五萬句的中文轉(zhuǎn)述數(shù)據(jù)集,并在此基礎(chǔ)上進(jìn)行轉(zhuǎn)述知識(shí)挖掘的相關(guān)研究。

轉(zhuǎn)述現(xiàn)象可以在不同的層面上發(fā)生,小到詞匯級(jí)別, 大到篇章級(jí)別。詞匯級(jí)別的轉(zhuǎn)述現(xiàn)象最為基

礎(chǔ)和常見,一般通過同義詞或近義詞的替換來完成。現(xiàn)階段已有的中文轉(zhuǎn)述知識(shí)庫主要集中在詞匯轉(zhuǎn)述級(jí)別,本文也將重點(diǎn)關(guān)注從轉(zhuǎn)述語料里自動(dòng)提取詞匯轉(zhuǎn)述知識(shí)的方法。人工構(gòu)建的漢語轉(zhuǎn)述知識(shí)庫里較為著名的是《知網(wǎng)》[3]和《同義詞詞林》[4],盡管它們并非是為轉(zhuǎn)述研究而建立的,但是其中包含的同義詞匯關(guān)系使得它們成為了可用的中文轉(zhuǎn)述知識(shí)庫。本文將算法自動(dòng)挖掘出的詞匯轉(zhuǎn)述知識(shí)和《同義詞詞林》里的轉(zhuǎn)述知識(shí)進(jìn)行了對(duì)比,從而驗(yàn)證了本文提出的詞匯轉(zhuǎn)述知識(shí)自動(dòng)挖掘算法的有效性。

轉(zhuǎn)述評(píng)價(jià)是轉(zhuǎn)述研究的另一個(gè)重要組成部分,沒有自動(dòng)化的評(píng)價(jià)方案就難以評(píng)估轉(zhuǎn)述挖掘算法的好壞,進(jìn)而挖掘出更多,更準(zhǔn)確的轉(zhuǎn)述知識(shí)。本文首先構(gòu)建了一個(gè)轉(zhuǎn)述測評(píng)數(shù)據(jù)集,然后以機(jī)器翻譯中的 Meteor 指標(biāo)[5-8]為基礎(chǔ),將轉(zhuǎn)述知識(shí)引入到測評(píng)過程中,從而得到了轉(zhuǎn)述知識(shí)的自動(dòng)評(píng)價(jià)方案。進(jìn)一步地,本文根據(jù)中文的特點(diǎn)引入了字符重疊知識(shí),提出了更好的中文轉(zhuǎn)述評(píng)價(jià)指標(biāo)。

本文的組織結(jié)構(gòu)如下: 第1節(jié)介紹轉(zhuǎn)述知識(shí)提取和轉(zhuǎn)述評(píng)價(jià)指標(biāo)的相關(guān)工作;第2節(jié)介紹本文研究所使用的語料庫和轉(zhuǎn)述知識(shí)提取算法,并展示分析挖掘結(jié)果;第3節(jié)介紹轉(zhuǎn)述測評(píng)數(shù)據(jù)集的構(gòu)建及相應(yīng)測試結(jié)果;第4節(jié)總結(jié)全文內(nèi)容并提出未來可能的研究方向。

1 相關(guān)研究

1.1 轉(zhuǎn)述知識(shí)挖掘

詞匯轉(zhuǎn)述知識(shí)挖掘有兩大類方法,分別是從單語語料和雙語平行語料中挖掘。單語語料挖掘算法總體不夠成熟,常常需要依賴較為特殊的語言資源或其他復(fù)雜自然語言處理系統(tǒng)的輔助。例如,Wang 和 Hirst[9]觀察到字典的詞條定義往往具有固定的模式,如“甲是一種乙”可以得到“甲”和“乙”具有轉(zhuǎn)述關(guān)系。通過人工定義的正則表達(dá)式模板,可以提取出高質(zhì)量的轉(zhuǎn)述詞對(duì)。而 Turney[10]提出基于分布相似性的 PMI-IR 方法,通過使用搜索引擎檢索兩個(gè)候選詞,統(tǒng)計(jì)這兩個(gè)詞的搜索結(jié)果的共現(xiàn)情況來挖掘轉(zhuǎn)述詞對(duì)。

基于雙語平行語料的則以Bannard 和 Callison-Burch[11]提出的樞紐方法為代表。該方法首先收集當(dāng)前語言e和某種樞紐語言f的大規(guī)模平行語料,然后訓(xùn)練這兩種語言間的機(jī)器翻譯模型,得到詞匯翻譯概率表,然后通過式(1)計(jì)算兩個(gè)當(dāng)前語言的單詞e1和e2能夠進(jìn)行轉(zhuǎn)述的概率,若概率超過一定閾值就認(rèn)定轉(zhuǎn)述關(guān)系成立。

(1)

與本研究最相似的是學(xué)者 Barzilay 和 McKeown[12]的工作,他們提出了一種自舉方法,從外文小說的多個(gè)英譯本中提取轉(zhuǎn)述詞對(duì)。該方法需要訓(xùn)練兩個(gè)分類器,一個(gè)分類器用于判定上下文是否相似,另一個(gè)分類器則用于判定中心詞是否相似(是否互為轉(zhuǎn)述)。其依據(jù)便是經(jīng)典的分布性假設(shè): 如果兩個(gè)詞相似,那么它們的上下文也相似。在算法剛啟動(dòng)時(shí),首先認(rèn)定相同單詞出現(xiàn)的上下文環(huán)境是相似的,不同詞出現(xiàn)的上下文環(huán)境則不相似,構(gòu)造正負(fù)樣本訓(xùn)練上下文分類器;然后以上下文分類器為基礎(chǔ),找到相似的中心詞,訓(xùn)練優(yōu)化中心詞分類器。如此往復(fù)不斷迭代,兩個(gè)分類器都不斷變優(yōu),就能挖掘到越來越多的轉(zhuǎn)述詞對(duì)。該算法使用詞性特征來訓(xùn)練分類器,而小說語料中復(fù)雜多變的語言現(xiàn)象導(dǎo)致詞性標(biāo)注模塊準(zhǔn)確率不夠高,進(jìn)而產(chǎn)生錯(cuò)誤累積現(xiàn)象。統(tǒng)計(jì)結(jié)果表明,算法的挖掘結(jié)果中僅有 35% 為同義詞對(duì),上下位詞和兄弟詞分別占 32% 和 18%,還有 11% 的詞對(duì)不相關(guān),說明該方案噪聲較大。

1.2 轉(zhuǎn)述評(píng)價(jià)指標(biāo)

直接針對(duì)轉(zhuǎn)述任務(wù)設(shè)計(jì)的評(píng)價(jià)指標(biāo)很少,其中最有代表性的是 PEM[13]。該指標(biāo)在計(jì)算時(shí),首先需要收集當(dāng)前語言和其他某種樞紐語言的大規(guī)模平行語料,然后訓(xùn)練兩種語言間的統(tǒng)計(jì)機(jī)器翻譯模型,得到詞匯翻譯概率表。對(duì)于一對(duì)當(dāng)前語言的句子,可以將它們都翻譯為樞紐語言的句子,通過計(jì)算翻譯后句子的加權(quán)詞袋相似度來給出這對(duì)句子轉(zhuǎn)述程度的度量。該方法的缺點(diǎn)是需要收集大規(guī)模的平行語料,而且指標(biāo)測評(píng)結(jié)果與訓(xùn)練數(shù)據(jù)有關(guān),而不是一個(gè)清晰明了的公式。

由于轉(zhuǎn)述和機(jī)器翻譯具有天然的相似性,轉(zhuǎn)述可以被視作單語機(jī)器翻譯問題,也有很多學(xué)者直接借用機(jī)器翻譯的評(píng)價(jià)指標(biāo)來評(píng)測轉(zhuǎn)述句子的質(zhì)量,例如經(jīng)典的 BLEU[14]等指標(biāo)。考慮到本研究的需求,不光需要給出句對(duì)轉(zhuǎn)述質(zhì)量的評(píng)價(jià),還希望能夠和轉(zhuǎn)述知識(shí)庫相結(jié)合,反映轉(zhuǎn)述知識(shí)庫本身的質(zhì)量優(yōu)劣。因此,本研究主要以 Meteor指標(biāo)[5-8]為基礎(chǔ)進(jìn)行改進(jìn),因?yàn)樵撝笜?biāo)在計(jì)算過程中可以引入外部轉(zhuǎn)述知識(shí)。

Meteor 指標(biāo)在計(jì)算時(shí)首先需要在兩個(gè)句子之間尋找一個(gè)最優(yōu)匹配。匹配的要求有四點(diǎn),按照重要性依次遞減: ①每個(gè)單詞最多只有一個(gè)配對(duì)詞;②有盡可能多的單詞被匹配覆蓋到;③最小化匹配中塊的個(gè)數(shù);④最小化各匹配對(duì)之間的起始位置距離差的絕對(duì)值之和。由于上述條件可能無法同時(shí)滿足,實(shí)踐中通過集束搜索算法來近似找到較優(yōu)解。值得一提的是,Meteor 有四種匹配模式: 精確匹配、詞干匹配、同義詞集匹配和轉(zhuǎn)述短語匹配。其中同義詞集匹配和轉(zhuǎn)述短語匹配需要提供額外的語言資源,從而提供了比較不同來源的轉(zhuǎn)述知識(shí)庫的可能。

在得到匹配結(jié)果之后,根據(jù)式2)、式(3)計(jì)算加權(quán)后的準(zhǔn)確率P和召回率R。

(2)

(3)

其中超參數(shù)wi是第i種類型的匹配的權(quán)重,mi· 表示該種匹配覆蓋到的詞數(shù),h和r分別是指機(jī)器生成的假想譯文和人工標(biāo)注的參考譯文,下標(biāo)c和f分別是指實(shí)詞和虛詞(虛詞定義為語料庫中相對(duì)詞頻超過 10-3的詞),超參數(shù)δ用于平衡實(shí)詞和虛詞的相對(duì)重要性。

在此之后,可以計(jì)算準(zhǔn)確率和召回率的加權(quán)調(diào)和平均值Fmean,并根據(jù)匹配中包含的塊數(shù) ch、匹配覆蓋的總詞數(shù)m得到一個(gè)句子流暢性罰分,兩者相乘就是最終的 Meteor 評(píng)分(式(4)、式(5)中α,β,γ均為超參數(shù))。

2 轉(zhuǎn)述知識(shí)挖掘

本節(jié)將介紹本研究中的語料構(gòu)建和處理流程: 以《簡愛》的四個(gè)中文譯本為數(shù)據(jù)基礎(chǔ),首先構(gòu)造句對(duì)齊語料;然后進(jìn)行小句對(duì)齊和詞對(duì)齊,進(jìn)而得到詞匯轉(zhuǎn)述知識(shí)。最后展示并分析轉(zhuǎn)述知識(shí)挖掘結(jié)果。

2.1 轉(zhuǎn)述語料構(gòu)建

本研究使用的原始生語料有些是文字版,但大多數(shù)是掃描版,然后通過 OCR 轉(zhuǎn)換成文字。掃描版中時(shí)不時(shí)地會(huì)有一些文字識(shí)別錯(cuò)誤,例如,“糟蹋”可能被識(shí)別成“糟踢”。本研究的處理流程中,首先過濾掉亂碼,然后按照換行和段落信息將文本拼接和切分成句,最后使用結(jié)巴工具包[注]https://pypi.org/project/jieba/進(jìn)行分詞。分詞后的一個(gè)典型例句如下:

“ 簡 , 我 可不 喜歡 吹毛求疵 或者 尋根究底 的 人 ; 再說 , 小孩兒 這樣 打斷 長輩 的話 , 實(shí)在 可怕 。 找個(gè) 地方 去 坐下 來 。 不會(huì) 說 討人喜歡 的話 , 就別 多嘴 。 ”

由于外文小說中常有從句嵌套的現(xiàn)象,導(dǎo)致中譯本的句子長度也普遍偏長,有可能原文的一句話被拆成漢語的多個(gè)句子。因此本研究在句子劃分上較為保守,劃分出的句子有時(shí)是包含多個(gè)句子的一大段話,更接近于段落的概念。每個(gè)句子包含的平均詞數(shù)超過 50,更詳細(xì)的統(tǒng)計(jì)量如表1所示。

表1 《簡愛》語料統(tǒng)計(jì)數(shù)據(jù)

隨后本文通過微軟發(fā)布的 Bilingual Sentence Aligner[注]https://www.microsoft.com/en-us/download/details.aspx?id=52608工具包[15]進(jìn)行詞對(duì)齊,其算法首先采用基于長度的方法[16]得到粗對(duì)齊結(jié)果,然后訓(xùn)練一個(gè)統(tǒng)計(jì)機(jī)器翻譯模型 IBM 模型一[17],根據(jù)這個(gè)翻譯模型再篩選一遍語料,保留翻譯模型認(rèn)為對(duì)齊概率較大的句子。經(jīng)過上述處理,《簡愛》語料中共挖掘到共 24 858 個(gè)句對(duì),更詳細(xì)的統(tǒng)計(jì)結(jié)果如表2所示。

表2 《簡愛》句對(duì)齊語料統(tǒng)計(jì)數(shù)據(jù)

上表中兩個(gè)句子交換順序只計(jì)一次,因此可以通過交換句對(duì)將數(shù)據(jù)增廣一倍,達(dá)到近五萬對(duì)平行轉(zhuǎn)述句對(duì)。其中一個(gè)轉(zhuǎn)述句對(duì)示例如下(斜線表示各個(gè)小句之間的分隔):

句子1: “ 都 九點(diǎn) 了 。/你 是 怎么 搞 的 , /愛 小姐 ,/讓 阿黛爾 坐 得 這么久 ?/快帶 她 去 睡覺 。 ”

句子2: “ 九點(diǎn) 了 ,/愛 小姐 ,/你 讓 阿黛勒 坐 這么久 ,/究竟 是 干什么 ?/帶 她 去 睡覺 。 ”

2.2 詞匯轉(zhuǎn)述知識(shí)挖掘算法

以上述單語平行語料為基礎(chǔ),本文通過先進(jìn)行小句對(duì)齊后再進(jìn)行詞對(duì)齊的方式獲取詞匯轉(zhuǎn)述知識(shí),挖掘結(jié)果更加精確和全面。

本文延續(xù)Lacoste-Julien[18]等使用整數(shù)規(guī)劃求解詞對(duì)齊的思路,將對(duì)齊問題建模為如下優(yōu)化問題:

需要滿足的兩個(gè)約束條件分別為:

其中,變量zjk表示源句子中的第j個(gè)詞和目標(biāo)句子中的第k個(gè)詞是否匹配,sjk是匹配成功的獎(jiǎng)勵(lì)值;而變量zdj表示源語言中的第j個(gè)詞的匹配數(shù)是否達(dá)到了d次,sdj是對(duì)應(yīng)的懲罰值,sdk和zdk也與此類似;兩個(gè)限制條件是希望每個(gè)詞的總匹配次數(shù)(即zjk之和)要符合變量zdk和zdj的要求。參數(shù)sdk和sdj應(yīng)該隨著d的增大而增大,這樣才能使得模型優(yōu)先選擇度數(shù)較低的匹配。

原版整數(shù)規(guī)劃算法只針對(duì)詞對(duì)齊建模,沒有考慮小句對(duì)齊的情形;還有一個(gè)重大缺陷是超參數(shù)s的設(shè)置需要詞對(duì)齊的強(qiáng)監(jiān)督數(shù)據(jù)來訓(xùn)練。本文則通過近年來詞向量等無監(jiān)督學(xué)習(xí)技術(shù)的進(jìn)展直接設(shè)置超參數(shù)權(quán)重,無需訓(xùn)練,從而解決了詞對(duì)齊標(biāo)注數(shù)據(jù)缺乏的問題。具體而言,本文采用帶有負(fù)采樣的 Word2Vec 算法[19-20]訓(xùn)練詞向量,然后根據(jù)式(6)設(shè)置單詞x和y間的相似度。

(6)

其中,cossim 是兩個(gè)詞向量的余弦相似度,x,y,x∩y分別是單詞x、單詞y、單詞x和y重合部分的字符數(shù)。這種基于字符重合的修正方案可以有效增強(qiáng)算法的健壯性,削弱分詞錯(cuò)誤和 OCR 識(shí)別錯(cuò)誤帶來的影響。

而小句之間的相似度sjk的設(shè)置方案為: 枚舉兩個(gè)小句中的所有詞對(duì)(忽略標(biāo)點(diǎn)符號(hào)),按照上述公式計(jì)算單詞相似度。如果兩個(gè)小句長度都超過 5,則取其相似度排前n=5 的詞對(duì)的平均相似度為兩個(gè)小句的相似度。特別地,若小句相似度超過某個(gè)閾值(本研究中取 0.95),則將小句相似度sjk改成一個(gè)較大的數(shù)值(如 2.5),以保證整數(shù)規(guī)劃算法永遠(yuǎn)選擇對(duì)齊這兩個(gè)小句;否則,若較短的小句長度n<5,則取排名前n的相似詞對(duì)的平均相似度,并按照如下方式加權(quán)得到最終的句子相似度,如式(7)所示。

(7)

其中,avg_index 是該小句中單詞在語料里的平均詞頻排名,σ· 是 sigmoid函數(shù)。這兩個(gè)加權(quán)項(xiàng)可以使得短句和常用詞的權(quán)重被弱化,尤其是長度小于兩個(gè)詞和平均詞頻高于前100 的小句會(huì)有較為顯著的降權(quán),使得算法優(yōu)先考慮長句和信息量較高的小句的匹配結(jié)果。小句相似性取前幾而非取平均的動(dòng)機(jī)則是: 兩個(gè)小句里相似度最高的詞對(duì)往往是真正對(duì)齊的詞對(duì),而且截?cái)嗟角?5 可以更好地處理小句部分匹配和多匹配的情形。

最后,多匹配懲罰項(xiàng)sdj,sdk的設(shè)置較為簡單,只需根據(jù)詞向量平均相似度和多匹配在語料中出現(xiàn)的頻次設(shè)定一個(gè)經(jīng)驗(yàn)值即可。本文在實(shí)驗(yàn)中最多允許一個(gè)小句被匹配D=3 次,并把匹配 1 次到 3 次的懲罰值分別設(shè)定成 0.4,0.65 和 0.75。這里對(duì)單次匹配也進(jìn)行懲罰的原因是,有時(shí)平行句對(duì)中的某個(gè)句子會(huì)比另一個(gè)句子多一部分內(nèi)容,此時(shí)應(yīng)該讓這部分內(nèi)容留空不做匹配,而不是強(qiáng)行匹配到某個(gè)不太合適的小句上。

上述設(shè)置已經(jīng)足夠處理大部分情況,但有時(shí)會(huì)因?yàn)檎麛?shù)規(guī)劃的多解性出現(xiàn)錯(cuò)誤。例如,假設(shè)兩個(gè)句子分別是“是這樣!是這樣”和“是的!是的!”,那么合理的匹配方式是 0-0、1-1(i-j表示第一個(gè)句子的第i個(gè)小句對(duì)應(yīng)第二個(gè)句子的第j個(gè)小句,下同),但是由于匹配 0-1、1-0 也具有同樣的目標(biāo)函數(shù)值,模型有可能求得這個(gè)解作為最終結(jié)果。因此,本文提出以下兩趟匹配算法:

① 第一趟先按照上述算法進(jìn)行匹配,得到粗匹配結(jié)果;

② 修正整數(shù)規(guī)劃中的權(quán)重sjk。 具體而言,本研究共考慮兩種修正方案。其一是對(duì)角線修正: 從粗匹配結(jié)果中找到句子 1 被匹配的第一個(gè)小句和最后一個(gè)小句的位置,分別記為i1和j1;以及句子 2 被匹配的第一個(gè)小句和最后一個(gè)小句的位置,分別記為i2和j2。 然后對(duì)于任意一對(duì)小句 (i,j),根據(jù)這個(gè)點(diǎn)到 (i1,i2) 和 (j1,j2) 的連線的距離 dist 給一個(gè)額外的獎(jiǎng)勵(lì),獎(jiǎng)勵(lì)分值隨距離指數(shù)衰減: bonus=0.05*exp (-dist)。 另一種權(quán)值修正方案為鄰域強(qiáng)匹配修正: 如果某個(gè)位置的上下左右相鄰位置有一個(gè)較為確定的匹配(小句相似度高于 0.97),就給當(dāng)前位置的小句相似度加 0.1。

③ 根據(jù)修正后的小句相似度參數(shù)重新求解整數(shù)規(guī)劃問題。

這種兩趟匹配算法十分有效,整體匹配準(zhǔn)確率可以達(dá)到 95%,如2.1 節(jié)末尾舉的復(fù)雜例子也能匹配正確,匹配結(jié)果為 0-0, 1-3, 2-1, 3-2, 4-4。

在小句對(duì)齊結(jié)果的基礎(chǔ)上,本文進(jìn)一步篩選詞向量余弦相似度超過 0.75 并且共現(xiàn)超過兩次的詞對(duì)。因?yàn)樾【溟L度較短,此時(shí)詞向量余弦夾角足夠小的詞很可能就是互為轉(zhuǎn)述的詞,無須再進(jìn)行詞對(duì)齊步驟。

此外,本文還比較了另外兩種轉(zhuǎn)述詞對(duì)挖掘方案,一種是將上述整數(shù)規(guī)劃方法直接用在句對(duì)齊語料上進(jìn)行詞對(duì)齊,跳過小句對(duì)齊的步驟;另一種是使用統(tǒng)計(jì)機(jī)器翻譯模型在句對(duì)齊語料上尋找維特比詞對(duì)齊。對(duì)于前者,只需從小句對(duì)齊算法中移除取前k詞對(duì)相似度均值的操作,并把一對(duì)一匹配的懲罰值改成 0.3 即可。實(shí)驗(yàn)發(fā)現(xiàn)該方法準(zhǔn)確率較高,但是召回率相對(duì)較低。而對(duì)于后者,由于統(tǒng)計(jì)機(jī)器翻譯模型的詞對(duì)齊結(jié)果不對(duì)稱,本文訓(xùn)練兩個(gè)翻譯方向的詞對(duì)齊模型,并通過取交集來得到更準(zhǔn)確的結(jié)果。維特比詞對(duì)齊使用 GIZA++[21]工具包得到。實(shí)驗(yàn)表明,當(dāng)兩個(gè)句子語序較為一致時(shí),統(tǒng)計(jì)機(jī)器翻譯模型的詞對(duì)齊結(jié)果較為準(zhǔn)確;但當(dāng)語序差異較大時(shí),往往會(huì)出現(xiàn)一個(gè)詞對(duì)應(yīng)連續(xù)多個(gè)詞的情形,結(jié)果不盡如人意。

2.3 轉(zhuǎn)述知識(shí)挖掘結(jié)果與分析

2.2節(jié)中提到的三種轉(zhuǎn)述詞對(duì)挖掘方法結(jié)果匯總?cè)绫?所示(一對(duì)詞交換順序計(jì)兩次)。

三種方法得到的詞對(duì)質(zhì)量難以觀察到顯著的區(qū)別,但基于小句對(duì)齊和過濾具有更高的召回率。通過對(duì)三種方法的結(jié)果求并集,并人工過濾錯(cuò)誤詞對(duì),可以得到更大規(guī)模的詞匯轉(zhuǎn)述知識(shí)。人工檢查發(fā)現(xiàn),錯(cuò)誤類型主要是分詞錯(cuò)誤和 OCR 字符識(shí)別錯(cuò)誤,共計(jì)不到 100 對(duì),可見算法挖掘到的轉(zhuǎn)述詞對(duì)具有很高的準(zhǔn)確率。最終合并、校驗(yàn)過的轉(zhuǎn)述詞對(duì)樣例見表 4。

表3 三種常見轉(zhuǎn)述對(duì)挖掘方法的比較

表4 《簡愛》上挖掘到的常見轉(zhuǎn)述對(duì)

本文還將詞匯轉(zhuǎn)述關(guān)系連接拓展成網(wǎng)絡(luò),發(fā)現(xiàn)了一些有趣的子圖結(jié)構(gòu),例如極大完全子圖(稱作轉(zhuǎn)述極大團(tuán))和連通分量(轉(zhuǎn)述閉包)。連通分量可以用寬度優(yōu)先搜索算法來查找,而極大完全子圖可以用 Bron-Kerbosch 算法[22]來枚舉。經(jīng)過搜索,本研究共找到 2 841 個(gè)轉(zhuǎn)述閉包和 5 721 個(gè)轉(zhuǎn)述極大團(tuán),其中一個(gè)轉(zhuǎn)述閉包如圖 1 所示。

圖1 轉(zhuǎn)述閉包示例

顯然,表示早晨和夜晚的詞不能構(gòu)成轉(zhuǎn)述關(guān)系,但它們卻出現(xiàn)在了同一個(gè)轉(zhuǎn)述閉包中。通過對(duì)轉(zhuǎn)述極大團(tuán)的分析可以發(fā)現(xiàn),轉(zhuǎn)述關(guān)系網(wǎng)絡(luò)中存在“夜晚”—“今晚”—“今天”—“早上”—“早晨”這樣一條路徑,使得閉包中詞匯的語義逐漸發(fā)生了轉(zhuǎn)移。尤其是中間兩個(gè)步驟: 從“今晚”到“今天”發(fā)生了詞義的擴(kuò)大,而“今天”到“早上”又發(fā)生了詞義的縮小,最終導(dǎo)致了詞義轉(zhuǎn)移現(xiàn)象的產(chǎn)生。

由此也能看出,轉(zhuǎn)述閉包和轉(zhuǎn)述極大團(tuán)的語言學(xué)性質(zhì)確實(shí)略有不同。轉(zhuǎn)述極大團(tuán)因?yàn)閮蓛砷g的轉(zhuǎn)述關(guān)系都得到了語料的確認(rèn),因而集合內(nèi)部的聯(lián)系更加緊密;而轉(zhuǎn)述閉包則可能由于多次轉(zhuǎn)述發(fā)生詞義的擴(kuò)大、縮小或偏移等現(xiàn)象,進(jìn)而包含僅僅是話題相同但是不能互相轉(zhuǎn)述的詞。

3 轉(zhuǎn)述知識(shí)評(píng)價(jià)

本節(jié)將對(duì)本文算法挖掘到的詞匯轉(zhuǎn)述知識(shí)進(jìn)行測評(píng),并和《同義詞詞林》等已有語言資源進(jìn)行對(duì)比。同時(shí)針對(duì)中文特點(diǎn),利用詞匯重疊知識(shí)優(yōu)化轉(zhuǎn)述自動(dòng)評(píng)價(jià)指標(biāo)。

3.1 轉(zhuǎn)述測評(píng)數(shù)據(jù)集構(gòu)建

以四個(gè)版本的《簡愛》語料為基礎(chǔ),本文選取各版本中能夠兩兩對(duì)齊的句子組,隨機(jī)指定其中一條語句為原句(查詢語句),將剩下三條語句視為原句的轉(zhuǎn)述句。然后以四個(gè)版本《簡愛》中的全部句子為文檔集,計(jì)算每個(gè)句子和查詢語句的相似度(相似度為兩個(gè)句子的 TF-IDF 向量的余弦相似度乘以長度懲罰項(xiàng)1-abs(lq-l)/max {lq,l},其中l(wèi)和 lq 分別為候選語句和查詢語句包含的詞數(shù)),取相似度最高的前 5 個(gè)句子為負(fù)樣本。

本研究還通過三個(gè)轉(zhuǎn)述生成模型為查詢語句生成三個(gè)更具迷惑性的負(fù)樣本。本研究選取的基本轉(zhuǎn)述生成模型是 Luong 等[23]提出的 global attention model,唯一的區(qū)別只是將編碼器部分從單向 LSTM 換成了雙向,模型結(jié)構(gòu)如圖 2 所示,其中輸入語句為 “ABCD”,輸出語句為“XYZ”( 是用于表示句子結(jié)束的特殊符號(hào)),左側(cè)為編碼器,右側(cè)為解碼器。其他模型超參數(shù)為: 編碼器和解碼器分別為 3 層和 2 層,LSTM 隱層和詞向量的維度均為 256,詞表大小為 4.5 萬。該模型可以通過對(duì)目標(biāo)句子的負(fù)對(duì)數(shù)似然做梯度下降來學(xué)習(xí)模型參數(shù),如式(8)所示。

其中,x,y分別表示源句子和目標(biāo)句子(參考轉(zhuǎn)述句),Ty是目標(biāo)句子中的詞數(shù)。

圖2 基本轉(zhuǎn)述生成模型結(jié)構(gòu)示意圖

在基本轉(zhuǎn)述生成模型之上,本研究還嘗試了兩種改進(jìn)版模型。其一基于最近提出的詞袋損失[24],用于對(duì)不同于訓(xùn)練集中目標(biāo)句子的正確轉(zhuǎn)述句進(jìn)行鼓勵(lì)。該輔助損失函數(shù)認(rèn)為,一個(gè)不同于參考轉(zhuǎn)述句的正確轉(zhuǎn)述句的詞袋應(yīng)該和參考轉(zhuǎn)述句的詞袋有較大的重合,因此只要模型生成了參考轉(zhuǎn)述句里的單詞(無須考慮它是在哪一步翻譯出的),就應(yīng)該適當(dāng)給予鼓勵(lì)。其數(shù)學(xué)公式表述,如式(9)、式(10)所示。

其中,wi代表詞表中的任意一個(gè)詞,sti代表解碼器在第t個(gè)時(shí)間步預(yù)測的單詞wi的 logits 值(未經(jīng)過 softmax 歸一化的概率值)。

將詞袋損失和普通的負(fù)對(duì)數(shù)似然損失加權(quán)求和,便可以得到第二個(gè)轉(zhuǎn)述生成模型。進(jìn)一步地,可以將轉(zhuǎn)述知識(shí)引入上述詞袋損失中,將目標(biāo)句中單詞的所有轉(zhuǎn)述詞形成的詞袋作為輔助損失計(jì)算的標(biāo)準(zhǔn),可以對(duì)更多潛在的正確候選轉(zhuǎn)述句進(jìn)行獎(jiǎng)勵(lì),得到第三個(gè)轉(zhuǎn)述生成模型,如式(11)、式(12)所示。

其中Pp是所有轉(zhuǎn)述詞對(duì)組成的集合。同樣,該模型的總損失函數(shù)是負(fù)對(duì)數(shù)似然損失和上述轉(zhuǎn)述詞袋損失的加權(quán)和。

有了上述損失函數(shù),通過梯度下降即可訓(xùn)練模型。三個(gè)轉(zhuǎn)述生成模型的訓(xùn)練語料來源于《簡愛》及《罪與罰》多個(gè)譯本互相對(duì)齊的句對(duì)(去掉了用于構(gòu)建轉(zhuǎn)述測評(píng)數(shù)據(jù)集的句子),規(guī)模為接近6萬個(gè)句對(duì)。所有模型均使用 Adam 算法[25]訓(xùn)練 10 輪;在后兩個(gè)模型的訓(xùn)練過程中,負(fù)對(duì)數(shù)似然的權(quán)重恒為1,而詞袋損失的初始權(quán)重為 0.1,之后每一輪增加 0.1,最終增加到 1.0。

經(jīng)過訓(xùn)練,三個(gè)模型都能生成有意義的轉(zhuǎn)述句,而且迷惑性依次變強(qiáng)。一組具體的樣例見表5中的最后一部分。

表5 轉(zhuǎn)述測評(píng)數(shù)據(jù)集示例

最終構(gòu)建好的轉(zhuǎn)述測評(píng)數(shù)據(jù)集共包含 315 組數(shù)據(jù),其中每組有 12 個(gè)句子: 1條查詢語句、3條真轉(zhuǎn)述語句、5條 TF-IDF 負(fù)樣本(由于空間限制,表5只展示了其中一條)和3條轉(zhuǎn)述生成模型產(chǎn)生的負(fù)樣本。

3.2 轉(zhuǎn)述測評(píng)方法

本節(jié)通過使用轉(zhuǎn)述評(píng)價(jià)指標(biāo)進(jìn)行信息檢索來比較不同轉(zhuǎn)述評(píng)價(jià)指標(biāo)的好壞。特別地,在轉(zhuǎn)述評(píng)價(jià)指標(biāo)不變的情況下,通過改變其中轉(zhuǎn)述知識(shí)的來源就可以比較轉(zhuǎn)述知識(shí)的質(zhì)量。

具體而言,對(duì)于某種轉(zhuǎn)述評(píng)價(jià)指標(biāo),本文用它計(jì)算每組測試數(shù)據(jù)中查詢語句和任何一個(gè)候選語句的轉(zhuǎn)述相似度,然后對(duì)結(jié)果進(jìn)行排序,根據(jù)三個(gè)真轉(zhuǎn)述語句出現(xiàn)的位置計(jì)算平均正確率均值(mean average precision)。該指標(biāo)越高越好。

本研究中考慮三種方案: ①不提供轉(zhuǎn)述知識(shí),僅使用精確匹配模式計(jì)算 Meteor 指標(biāo);②將《同義詞詞林》中的底層詞類作為轉(zhuǎn)述知識(shí)引入 Meteor 指標(biāo)中,使用精確匹配和轉(zhuǎn)述匹配兩種模式;③將本文挖掘到的轉(zhuǎn)述知識(shí)加入到 Meteor 指標(biāo)中,使用精確匹配和轉(zhuǎn)述匹配兩種模式。使用 Meteor Universal[8]中的超參數(shù),即精確匹配和轉(zhuǎn)述詞匹配的權(quán)重分別為 1 和 0.6,本研究得到的實(shí)驗(yàn)結(jié)果如表6所示。

表6 轉(zhuǎn)述測評(píng)實(shí)驗(yàn)結(jié)果

可見效果最好的是 Meteor 加上本文挖掘到的詞匯轉(zhuǎn)述知識(shí)。《同義詞詞林》中收錄詞語近 7 萬條,而本文挖掘到的轉(zhuǎn)述詞表中只有約 9 000對(duì),卻能取得更好的性能。這固然與本文進(jìn)行的是封閉測試有關(guān),但是也說明了本文算法挖掘到的轉(zhuǎn)述知識(shí)庫的有效性。

由于中文是孤立語,難以利用 Meteor 中針對(duì)印歐語設(shè)計(jì)的詞干匹配模式。考慮到中文里相當(dāng)一部分雙字和多字詞都符合“組合語義假設(shè)”,即詞義等于字義之和,兩個(gè)詞有重疊的漢字往往意味著他們具有相似的語義。因此,本研究在 Meteor 的四種匹配模式外引入新的“字符重疊匹配模式”: 如果組成兩個(gè)單詞的漢字存在重疊,就認(rèn)為這兩個(gè)詞也能互相匹配。這種處理方式的缺點(diǎn)是沒有分析單詞的內(nèi)部結(jié)構(gòu),有可能會(huì)匹配上偶然出現(xiàn)重合漢字的詞對(duì),并且有些漢字存在一字多義的情況。目前已有一些相關(guān)工作對(duì)漢語復(fù)合詞的內(nèi)部結(jié)構(gòu)進(jìn)行更詳盡的分析,例如,CCWE[26]使用《同義詞詞林》中的義類對(duì)漢語中的雙字詞進(jìn)行標(biāo)注,然后根據(jù)兩個(gè)漢字的義類距離整個(gè)單詞的義類的遠(yuǎn)近來學(xué)習(xí)字向量和詞向量的組合關(guān)系;SCWE[27]使用機(jī)器翻譯系統(tǒng)將多字詞內(nèi)的每個(gè)字翻譯成英文,然后分析每個(gè)字的翻譯結(jié)果和整個(gè)詞的翻譯結(jié)果的相似度,據(jù)此對(duì)字向量進(jìn)行自適應(yīng)的加權(quán)。這些方案都有不錯(cuò)的效果,但模型稍顯復(fù)雜。考慮到詞向量也能蘊(yùn)含詞義信息,本文根據(jù)兩個(gè)詞的詞向量余弦夾角進(jìn)行簡單的過濾,只保留詞向量相似度超過一定閾值的詞對(duì),這樣也能排除掉一定比例的偶然出現(xiàn)的漢字重疊詞對(duì)。事實(shí)上,本研究也確實(shí)在實(shí)驗(yàn)中發(fā)現(xiàn),詞向量夾角校驗(yàn)排除掉了類似“要是—要求”這樣的隨機(jī)詞對(duì),提升了轉(zhuǎn)述指標(biāo)的效果。具體的實(shí)驗(yàn)結(jié)果如表7所示(“詞匯重疊匹配模式”的權(quán)重和詞向量過濾閾值分別為 0.9 和 0.13,均通過網(wǎng)格搜索確定)。

表7 優(yōu)化后的轉(zhuǎn)述測評(píng)實(shí)驗(yàn)結(jié)果

4 總結(jié)與展望

本文借助外國文學(xué)名著的多個(gè)譯本構(gòu)造出較大規(guī)模的中文轉(zhuǎn)述平行語料,填補(bǔ)了目前學(xué)術(shù)界的這項(xiàng)空白。本文提出了一個(gè)健壯的、無監(jiān)督的詞匯轉(zhuǎn)述知識(shí)提取流程,對(duì)語料中的噪聲有較好的耐受能力,而且有較高的準(zhǔn)確率和召回率。本文還構(gòu)建了一個(gè)轉(zhuǎn)述測評(píng)數(shù)據(jù)集,可供比較不同的轉(zhuǎn)述評(píng)價(jià)指標(biāo)。本文對(duì) Meteor 指標(biāo)進(jìn)行了改造,使其更加適合于中文轉(zhuǎn)述句子評(píng)價(jià)。

本研究以《簡愛》語料的多個(gè)譯本為數(shù)據(jù)基礎(chǔ),但是提出的算法并不依賴于具體的語料。本研究還在持續(xù)收集其他語料,如《罪與罰》等,不斷補(bǔ)充擴(kuò)大轉(zhuǎn)述知識(shí)庫的規(guī)模。本研究后續(xù)也將繼續(xù)關(guān)注中文轉(zhuǎn)述評(píng)價(jià)指標(biāo)的優(yōu)化工作,例如,將第3節(jié)末尾提到的漢語內(nèi)部構(gòu)詞信息考慮進(jìn)來。最后,本研究還計(jì)劃探索人工轉(zhuǎn)述知識(shí)和算法挖掘到的轉(zhuǎn)述知識(shí)相結(jié)合的方案,以及嘗試把轉(zhuǎn)述知識(shí)的挖掘擴(kuò)展到短語級(jí)別。

5 致謝

轉(zhuǎn)述語料庫的建設(shè)研究得到了中央民族大學(xué)曾立英教授團(tuán)隊(duì)的支持和幫助。

猜你喜歡
單詞詞匯模型
一半模型
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
單詞連一連
本刊可直接用縮寫的常用詞匯
看圖填單詞
3D打印中的模型分割與打包
本刊一些常用詞匯可直接用縮寫
主站蜘蛛池模板: 国产婬乱a一级毛片多女| 国产成人高清在线精品| 久久美女精品国产精品亚洲| 少妇极品熟妇人妻专区视频| 伊人久久婷婷五月综合97色| 亚洲精品第一在线观看视频| 亚洲AV无码一区二区三区牲色| 国产成人精彩在线视频50| 久热精品免费| 中文字幕欧美成人免费| 国产永久在线视频| 欧美亚洲日韩不卡在线在线观看| 在线免费看片a| 亚洲一级毛片免费观看| 97国产精品视频人人做人人爱| 2021国产乱人伦在线播放| 无码专区第一页| 亚洲天堂日韩在线| 亚洲人成色77777在线观看| 视频二区亚洲精品| 欧美日在线观看| 精品91在线| 第九色区aⅴ天堂久久香| 日本三区视频| 幺女国产一级毛片| 国产精品刺激对白在线| 中文字幕久久亚洲一区| 日韩第一页在线| 成人一级免费视频| 国产日韩精品一区在线不卡| 国产丝袜丝视频在线观看| 午夜啪啪福利| 国产丝袜丝视频在线观看| 亚洲不卡影院| 无码国产伊人| 婷婷综合在线观看丁香| 爱爱影院18禁免费| 69视频国产| 内射人妻无码色AV天堂| 沈阳少妇高潮在线| a毛片在线| 国产美女免费| 成人国产精品网站在线看| 亚洲欧洲一区二区三区| 国产欧美在线观看一区| 婷婷综合色| 国产网站免费| 国产综合欧美| 无码免费视频| 人妻少妇久久久久久97人妻| 欧美日韩亚洲国产主播第一区| 2022国产无码在线| vvvv98国产成人综合青青| 色九九视频| 毛片最新网址| 精品自拍视频在线观看| 久久人妻xunleige无码| 亚洲欧美人成人让影院| 亚洲婷婷丁香| 又猛又黄又爽无遮挡的视频网站| 日本五区在线不卡精品| 曰AV在线无码| 欧美精品亚洲日韩a| 国产日韩精品一区在线不卡 | 青青国产在线| 一区二区偷拍美女撒尿视频| 经典三级久久| 久久一色本道亚洲| 国产成人av大片在线播放| 韩国v欧美v亚洲v日本v| 欧美区一区二区三| 国产小视频网站| 久热中文字幕在线| 亚洲aaa视频| 正在播放久久| 少妇精品网站| 伊人激情综合| 国产精品久久国产精麻豆99网站| 97人妻精品专区久久久久| 白丝美女办公室高潮喷水视频| 无码国产偷倩在线播放老年人 | 国产精品污污在线观看网站|