基于HMM與詞典的漢維詞對齊研究

2017-12-18 03:08:40李萍楊勇任鴿賽買提艾力

現代計算機 2017年31期

關鍵詞：方法模型

李萍，楊勇，任鴿，賽買提·艾力

（新疆師范大學計算機科學技術學院，烏魯木齊 830054）

基于HMM與詞典的漢維詞對齊研究

李萍，楊勇，任鴿，賽買提·艾力

（新疆師范大學計算機科學技術學院，烏魯木齊 830054）

詞對齊被廣泛的用于基于短語的統計機器翻譯中，詞對齊效果的好壞直接影響了機器翻譯的質量。提出將隱馬爾科夫模型用于漢維詞對齊時，由于漢維雙語標記的數據量比較大而且標記數據也還沒有公開，導致漢維詞對齊的質量較差，也沒有辦法進行評價，提出采用基于詞典的方法進行對齊評價，實現漢維雙語詞典的構建系統，實驗表明，該方法的效果較好，并同時構建漢維雙語語料庫。

隱馬爾科夫模型；詞對齊；詞典；語料庫

0 引言

在統計機器翻譯中，詞對齊是一個重要的組成部分。在詞對齊的研究中，經典的非監督詞對齊方法主要是基于IBM模型1-IBM模型5[1]詞對齊方法和基于HMM模型的詞對齊方法[2]。這六種模型可以將他們分類，IBM1、IBM2和HMM分為一類，這類模型比較容易處理和實現，IBM模型3、IBM模型4和IBM5分為一類，這類模型不容易處理，但是準確性更高。GIZA++軟件工具將這兩種模型都進行了實現，因此很多的研究者都使用GIZA++來進行詞對齊，本文也將使用此工具進行漢維詞對齊的實驗。

在IBM5模型和HMM模型基礎上，對詞對齊的研究，很多的學者也提出了一些其他方法，文獻[3]沒有采用統計的方法，而是考慮將語言學知識融入詞對齊過程中，語言學知識包括語義、詞性等，初步的對齊是在基于詞典的方法上，這種方法需要計算雙語詞語的語義相似度；文獻[4]提出了基于錨點詞對的詞對齊方法，這種方法獨立于前六種模型，實現較簡單，但其依賴于詞典，在初步對齊時，如果詞典的數量不夠，則對齊就比較粗糙；文獻[5]提出了加權二部圖的漢日詞對齊方法，此方法也是在基于詞典的基礎上，首先根據雙語詞典判斷雙語是否對齊，在不對齊的情況下，再根據相似性、詞性等特征來計算兩個詞語的相似性，從而判斷是否對齊；文獻[6]為了提高漢維之間的詞對齊質量，提出了對維吾爾語進行形態分析，將詞干和詞綴進行分離。

這些方法中有些未考慮到未登錄詞的情況，有的比較依賴于雙語詞典，對詞典的構建要求較高，將維吾爾語詞干和詞綴進行分離后，對齊的效果不是特別明顯，而且增加了對齊的負責性，對于對齊后詞典的再次構建也不是很有利，另外有些方法沒有解決詞語之間的一對多或多對多的情況。

鑒于漢語維吾爾語關于詞對齊之間的標記語料較少的情況，本文提出了將HMM模型應用于漢維詞對齊中，對于對齊后的評價采用基于詞典的方式進行評價，對于詞對齊后的結果，再次修改雙語詞典，使得雙語詞典更豐富。

1 基于HMM的詞對齊

1.1 HMM 模型介紹

隱馬爾科夫模型由一個五元組構成：

其中S為狀態的集合，K為輸出符號的集合，π，A，B分別為初始狀態的概率分布，狀態轉移概率，符號發射概率[7]。

在詞對齊問題中，源語言為隱馬爾科夫模型中觀察符號，目標語言為狀態，對齊位置a為內部狀態序列。其中隱馬爾科夫模型的初始狀態概率，狀態轉換概率和符號發射概率都可以通過HMM的參數估計得到。

1.2 HMM的參數估計

在進行詞對齊時，首先需要對隱馬爾科夫模型進行參數估計，這里采用期望最大化方法EM進行參數估計，具體實現EM方法時，采用前向后向算法。

在t時刻位于狀態si，在t+1時刻位于狀態sj的概率：

模型 μ的參數可以采用下面三個公式循環估計，直到所有的參數收斂為止：

在時間t位于狀態si的概率為：

1.3 維特比算法

通過隱馬爾科夫模型的參數估計運算，得到模型，然后根據源語言即觀察序列和模型，使用維特比算法得到最佳的解釋序列，即最佳的內部狀態，內部狀態序列即為對齊位置a。

2 雙語詞典的自動化構建

由于漢維語料較少，人工標注工作量大，公開的漢維雙語詞典更少，為了漢維的自動化翻譯，漢維雙語詞典的構建尤其重要，本文利用基于HMM的詞對齊方法，將對齊的結果與已有的詞典進行相似度計算，反過來作用于雙語詞典，讓雙語詞典更豐富。為了構建初步的雙語詞典，利用互聯網上的雙語詞典檢索系統，構建本地雙語詞典庫。

本地雙語詞典檢索系統截圖：

圖1 漢維雙語詞典檢索系統

目前已經構建了農業領域的3萬個漢維雙語詞典，如圖2所示，構建了以大連理工大學信息檢索實驗室的情感詞為基礎，構建了3萬個漢維雙語情感詞詞典，如圖3所示。

圖2 農業領域的雙語詞典

圖3 情感詞雙語詞典

本地漢維雙語詞典自動化構建算法描述：

步驟1：從漢維雙語檢索系統的首頁獲取查詢詞或詞對齊結果。

步驟2：與詞典里的數據進行匹配，若匹配成功，將對應的維語顯示在系統上，詞典查詢結束。若匹配失敗，進入步驟3。

步驟3：根據查詢詞從網站izda上抓取網頁數據。

步驟4：網頁數據預處理，并且使用正則表達式匹配對應的漢維雙語。

步驟5：將獲取到的漢維雙語存入到漢維雙語詞典庫中，并將結果顯示在漢維雙語檢索系統中。

3 實驗

3.1 詞對齊評價模型

目前詞對齊的評價主要是三方面的，一個是召回率prec，一個是準確率rec，還有一個是對齊錯誤率AER[8-9]。本文根據對齊的結果和已構建的詞典，將對齊的結果與詞典里的詞動態比較，判斷其正確性，將詞語入庫，重新構建詞典，同時得到維吾爾語的詞綴，以便于后續研究。

3.2 漢維詞對齊實驗

本文采用giza++來進行漢維詞對齊，進行詞對齊之前，先獲取漢維雙語平行語料，部分平行語料如表1所示：

在詞對齊之前，需要對漢語進行分詞，分詞后的結果如表2所示：

表2

詞對齊結果如下圖所示：

圖4 詞對齊結果

4 結語

本文采用基于HMM的漢維詞對齊方法，對平行語料進行漢維詞對齊，將對齊的結果存入詞典中，并且在沒有標注語料的情況下，通過相似性比較，來對詞對齊結果的正確性進行判斷，最后得到漢維雙語詞典，構建和實現了漢維雙語詞典，為以后的研究提供語料基礎。本文在一些方面還存在不足，例如對齊的質量方面，對齊的質量也會影響詞典的質量，詞典和對齊的結果互相依賴，在以后的研究中還有待提高。

[1]F Brown,Peter&Della Pietra,Stephen&Della J Pietra,Vincent&Mercer,Robert.（1993）.The Mathematics of Statistical Machine Translation：Parameter Estimation.Computational Linguistics.19.263-311.

[2]Vogel S,Ney H,Tillmann C.HMM-Based Word Alignment in Statistical Translation[C].Conference on Computational Linguistics.DBLP,1996：836-841.

[3]晉薇,黃河燕,夏云慶.基于語義相似度并運用語言學知識進行雙語語句詞對齊[J].計算機科學，2002（11）：44-47.

[4]張孝飛,陳肇雄,黃河燕,王建德.基于錨點詞對的雙語詞對齊算法[J].小型微型計算機系統，2006（02）：330-334.

[5]吳宏林,劉紹明,于戈.基于加權二部圖的漢日詞對齊[J].中文信息學報，2007（05）：101-106.

[6]麥熱哈巴·艾力,王志洋,吐爾根·依布拉音.一種提高維吾爾語-漢語詞語對齊的方法研究[J].小型微型計算機系統，2012，33.（11）：2551-2555.

[7]宗成慶.統計自然語言處理[M].北京：清華大學出版社，2013：110-111.

[8]Och F J,Ney H.Improved Statistical Alignment Models[C].Meeting on Association for Computational Linguistics.Association for Computational Linguistics,2000：440-447.

[9]黃書劍,奚寧,趙迎功,戴新宇,陳家駿.一種錯誤敏感的詞對齊評價方法[J].中文信息學報,2009,23（03）：88-94.

Research on Chinese-Uyghur Word Alignment Based on HMM and Lexicon

LI Ping，YANG Yong，SAI Mai Ti·Ai Li，REN Ge
（College of Computer Science and Technology，Xinjiang Normal University,Urumqi 830054）

Word alignment is widely used in statistical machine translation phrase based on phrase.The effect of word alignment directly affects the quality of machine translation.Puts forward using a hidden Markov model for Chinese-Uyghur word alignment,because of the large amount of bilingual marker data and the lack of labeled data,resulting in poor quality of Chinese Uyghur word alignment,there is no way to evaluate.Puts forward the evaluation method based on the alignment dictionary and constructs a bilingual dictionary system.The experiment shows that the effect is good and the Chinese Uighur bilingual corpus is constructed.

Hidden Markov Model;Word Alignment;Lexicon;Corpus

新疆師范大學優秀青年教師科研啟動基金項目（No.XJNU201420）

1007-1423（2017）31-0007-04

10.3969/j.issn.1007-1423.2017.31.002

李萍（1989-），女，湖南株洲人，碩士，講師，研究方向為自然語言處理、機器學習

楊勇（1979-），男，陜西漢中人，副教授，博士，研究方向為自然語言處理

賽買提·艾力（1983-），男，新疆烏魯木齊人，講師，碩士，研究方向為自然語言處理

任鴿（19-），女，新疆烏魯木齊人，講師，碩士，研究方向為自然語言處理

2017-10-20

2017-11-03