潘一榮,李 曉 ,楊雅婷,米成剛,董 瑞
(1.中國科學院 新疆理化技術研究所,烏魯木齊830011; 2.中國科學院大學,北京100049;3.新疆民族語音語言信息處理實驗室,烏魯木齊830011)
(* 通信作者電子郵箱 xiaoli@ms.xjb.ac.cn)
在統計機器翻譯的研究中,不論是基于詞還是基于短語的翻譯模型,調序都是其中的重點與難點。由于不同的語種間存在句法結構差異性,需要對目標語言端的詞序進行調整,使之更加接近目標語言的表達形式,保證翻譯結果的準確性和流暢性。傳統的詞匯化調序模型[1-2]基于詞和短語的對齊結果對調序信息進行建模,并使用統計學方法構建調序模型,對于解決局部調序問題具有較好的效果,但忽略詞和短語在特定語境中的調序類別,存在上下文無關性及稀疏性問題[3]。
在漢語到維語的統計機器翻譯中,針對調序問題主要有句法形態信息處理[4]、基于句法調序[5]、調序表過濾[6]等方法。前兩者利用漢維雙語的語言學及形態學知識,在漢語端進行預調序,使之在詞序上接近維語的語法結構;同時在維語端進行詞干詞綴切分等操作,使之以詞素形式參與翻譯系統的訓練過程。后者引入深度學習方法,利用遞歸自動編碼機對漢維調序規則進行特征表示,從中獲取調序概率并依據其與初始得分之間的差值,對調序表進行規則過濾。
近幾年來,統計學調序模型與神經網絡方法相結合成為研究熱點:楊南等[7]提出基于神經網絡的預調序模型,利用神經網絡獲取詞匯的向量表示,將源單詞間的調序問題建模為排序問題,實現源語言端的預調序;Li等[8]利用遞歸神經網絡進行語言建模,基于雙語句對的特征向量進行調序概率預測,構建神經調序模型并作為額外特征加入至解碼部分。
本文延續深度學習方法在統計機器翻譯領域中的研究思路,提出基于語義內容進行調序方向及概率預測的調序表重構模型。該模型首先使用連續分布式表示方法,從大規模未標注的維語文本中學習詞匯和短語的特征向量,對調序表中的維語規則進行表示,將具有語義相似性的調序規則映射至向量空間中的相近位置;然后通過循環神經網絡(Recurrent Neural Network,RNN)對向量化表示的規則進行調序概率預測,結合反向傳播算法優化網絡參數,最小化初始調序類別與神經網絡中學習到的調序類別的交叉熵,獲取更加合理的調序概率分布;最后過濾并重構調序表,賦予調序規則優化后的調序概率,并對原始調序表中的規則進行篩選,保留準確度及匹配度較高的規則,同時降低調序表規模,提高后續解碼速率。本文在漢維機器翻譯任務中進行了相關實驗。實驗結果表明,面向漢維機器翻譯的調序表重構模型可以明顯提高翻譯性能。
對于詞匯化調序模型中存在的數據稀疏性等問題,將其作為分類任務進行處理較為普遍。Green等[9]使用判別式扭曲代價模型來預測詞匯在譯文中的移動距離;Nguyen等[10]引入基于最大熵的層次化調序模型,融入句法信息進行調序方向預測;Hadiwinoto等[11]提出基于依賴關系的調序模型,預測相互依賴的源單詞在目標端中是否保持原始相對位置。
深度學習方法需要對數據進行預處理,將其表示為固定維度的特征向量,對于文本分析相關任務,詞袋模型(Bag of Words,BOW)[12]較常用,它基于詞頻信息對文本進行表示,但忽略特定單詞的語義內容及單詞間的排列順序,并且存在稀疏性和超維度等問題。隨著神經網絡向量表示技術的發展,從 Mikolov等提出的詞向量表示[13-14]到短語級、語句級[15-16]等大規模文本表示方法,神經網絡語言模型的研究日趨成熟。本文引用Le等[17]提出的連續分布式表示方法,將漢維調序表中的維語規則映射為低維稠密的實值特征向量,并在此基礎上進行調序方向及概率預測。
在漢維統計機器翻譯中,以 MSD(Monotone,Swap,Discontinuous)雙向調序模型生成的調序表為例,如圖1所示,它由源語言短語、目標語言短語、雙向調序概率分布三部分組成,其中最大概率所在類別作為該條規則的調序方向(維吾爾語從右至左書寫)。

圖1 漢維機器翻譯MSD雙向調序模型Fig.1 MSD bidirectional reordering model for Chinese-Uyghur machine translation
在基于短語的機器翻譯系統中,當給定源語言語句f、目標語言短語序列e={e1,e2,…,en}、短語對齊信息a={a1,a2,…,an}時,其中ai表示目標短語ei對應于源短語fai,詞匯化調序模型對于調序方向o={o1,o2,…,on}的概率估計由式(1)所得,oi在不同的調序模型中具有不同的調序類別。

在基于短語的MSD前向調序模型中,包含3個調序方向:單 調 (Monotone, M)、交 換 (Swap, S)、非 連 續(Discontinuous,D)。調序類別由當前目標短語與其前面短語所對應的源短語對齊信息進行判定,具體如式(2)所示:


圖2 漢維翻譯MSD前向調序實例Fig.2 MSD forward reordering example for Chinese-Uyghur translation
詞匯化調序模型基于當前短語對中的單詞進行調序概率估計,使用統計學方法構建調序概率信息,如式(3)所示,賦予調序表固定的概率分布值,因此對于特定的詞匯和短語忽略語義內容以及上下文信息,無法獲取高質量的調序模型。

如圖3所示,維吾爾語一般為主賓謂結構,漢維短語對[學習,]在不同的語義環境中具有不同的調序方向。

圖3 漢維短語對在不同語義環境中的調序方向Fig.3 Reordering orientations of Chinese-Uyghur phrase pairs in different semantic environments
2.2.1 調序方向及概率預測
針對詞匯化調序模型的不足,提出了基于語義內容進行調序方向及概率預測的調序表重構模型,如式(4)所示:

其中:ci表示當前目標短語語義信息的特征向量。本模型引入當前短語的語義內容以及單詞的上下文信息,對詞匯化調序模型中的調序概率重新進行預測及評估。
2.2.2 調序表過濾及重構策略
對于各個調序規則,本文將調序模型的初始概率分布oi與預測的概率分布pi進行對比:若兩者的調序類別c相同,則賦予該條規則預測的調序概率;否則不再考慮當前規則。通過調序表過濾及重構,去除掉詞匯化調序模型中概率分布不合理的調序規則以提高調序信息準確度,同時降低調序表規模,加快后續解碼速率。

維語詞向量表示和短語向量表示框架如圖4所示。通過連續分布式短語向量表示方法,可以將具有相似語義的維語規則映射至向量空間中的相近位置,并使用低維稠密的實值特征向量進行表示,同時認為它們具有相同的調序類別。連續分布式向量表示中蘊含了調序規則的語義內容和上下文信息,在此基礎上應用深度學習方法,對于各個規則的調序信息進行分析,賦予調序模型更加合理的調序方向以及概率分布。

圖4 維語詞向量和短語向量表示框架Fig.4 Vector representation framework of Uyghur word and phrase
2.3.1 詞向量表示
連續分布式詞向量表示方法通過給定上下文單詞序列進行后續詞匯的預測。具體來說,單詞被存儲在詞矩陣W的列向量中,并且根據其在詞匯表中的位置進行索引;詞序列中的詞向量按序進行合并構成上下文特征矩陣,以預測后續可能出現的單詞。
給定一個長度為T的詞序列,詞向量表示模型的目標為最大化平均對數概率,如式(6)所示:

詞預測任務由softmax函數進行多類概率值輸出,U和b為softmax參數,h為該序列中詞向量組合而成的矩陣,具體如式(7)所示:

2.3.2 短語向量表示
延續詞向量表示方法思路,引入分布式記憶模型對短語向量表示進行學習。該模型從訓練語料中隨機抽取固定長度的詞序列進行后續詞匯預測,并且使用Phrase ID進行索引,將其作為記憶模塊以識別該序列中的缺失內容。
在該模型中,詞向量表示存儲在詞矩陣W中,短語向量存儲在短語矩陣P中。詞序列由定長滑動窗口在訓練語料中進行隨機采樣,將采樣得到的詞序列的Phrase ID與該序列中的所有詞向量按序進行合并,作為特征矩陣以預測后續詞匯。詞向量具有全局性,相同詞匯在不同序列中共享向量表示;只有在相同語句中采樣的詞序列共享Phrase ID。該模型使用無監督方法進行訓練,避免人工標注的繁瑣性與不確定性,同時考慮詞匯在特定上下文中的語義內容,且保留詞序信息。
對于預測類任務,如語音識別[18]、文本序列生成[19]等,循環神經網絡(RNN)可以獲得較好的實驗效果,結構如圖5所示。RNN可被視為由同一個神經網絡經過多次復制而成的深度前饋網絡,該網絡中所有神經單元共享權重。由于具有深層循環結構,RNN能夠維護隱藏層的歷史狀態并保持信息記憶的持久性,在給定上下文信息的前提下,有效地預測該序列中后續內容的概率分布。

圖5 循環神經網絡結構Fig.5 Structure diagram of RNN
本工作利用RNN學習序列化數據的高效性,對向量化表示的維語規則進行調序方向及概率預測,流程如圖6所示。

圖6 循環神經網絡預測調序概率分布值流程Fig.6 Flow diagram of RNN for reordering probability distribution prediction
首先將維語規則的特征向量以矩陣形式輸入至RNN中;然后在網絡輸出層添加softmax函數用于輸出多類調序概率,最大值所在類別為該規則的調序方向;之后與初始調序類別計算交叉熵,使用隨機梯度下降(Stochastic Gradient Descent,SGD)和反向傳播算法更新網絡參數直至結果收斂;最后輸出預測的調序概率分布值,用于調序表重構模型中。
在給定當前短語的語義內容及上下文信息時,調序概率分布值由式(8)所得:

其中:ci為當前短語的連續分布式特征向量,Mo為權重矩陣,bo為偏置向量,Mo和bo為RNN中的網絡參數。
本文使用2015年全國機器翻譯研討會評測中公開的漢維雙語語料數據,結合斯坦福大學開發的分詞器[20]對漢語語料進行分詞。實驗數據分為訓練集(11萬句對)、開發集(1095句對)、測試集1(1000句對)和測試集2(1000句對)。
本文從新聞網站(http://uy.ts.cn)中抓取78萬行維語文本,作為訓練數據進行學習。實驗建立在機器翻譯平臺Moses系統[21]上;使用 GIZA++工具[22]進行漢維平行語料的詞對齊操作;使用SRILM工具[23]對五元語言模型進行訓練;使用大小寫不敏感的BLEU值[24]作為翻譯結果的評價標準。
1)維語短語向量表示學習。采用skip-gram模型[25]和分層采樣方法[26];設置初始學習速率alpha=0.025;設置上下文采樣窗口window=5;設置最小詞頻min-count=3;設置短語向量維度size=128。
2)RNN預測調序概率。設置優化器Optimizer=SGD,初始學習速率lr=0.001,動量參數momentum=0.9,并且每輪更新后lr的衰減值decay=1E-4;設置目標函數為多類交叉熵loss=categorical_crossentropy;設置性能評估函數metrics=categorical_accuracy;采用分批數據進行訓練,batch_size=200;設置shuffle=True進行隨機數據訓練;訓練輪數epoch=500,此時可以產生收斂的交叉熵值,輸出調序概率分布值。
3)多層感知機(Multilayer Perceptron,MLP)預測調序概率。本文設置兩種不同的網絡結構以對比實驗效果。MLP相當于將多個前饋神經網絡串聯,該結構由隱藏層及其中的神經元節點構成,在輸出層添加softmax激活函數進行多類調序概率值輸出,其他網絡參數設置與RNN保持一致。
對于漢維MSD前向調序模型,考慮當前短語與其前短語所對應的源短語對齊信息;對于后向調序模型,考慮當前短語與其后短語所對應的源短語對齊信息。漢維MSD雙向調序實例如圖7所示。

圖7 漢維翻譯MSD雙向調序實例Fig.7 MSD bidirectional reordering examples of Chinese-Uyghur translation

表1 漢維翻譯中MSD雙向調序規則分布Tab.1 MSD bidirectional reordering rule distribution of Chinese-Uyghur translation
由表中數據可以看出,三類調序規則分布嚴重不均,若應用深度學習技術,會導致實驗結果明顯偏重于訓練數據規模龐大的調序類別[27]。有實驗證明,隨機下采樣方法可以有效地解決數據失衡問題,例如:利用支持向量機(Support Vector Machine,SVM)方法結合隨機下采樣[28]實現時間序列分類;利用AdaBoost集成策略結合隨機下采樣[29]實現蛋白質殘留物的預測等。因此,本文保留最小規模類別中的全部調序規則,對其他各類規則進行隨機下采樣,并且保證以上三類訓練樣本的均衡分布。
本文設置以下幾組對比實驗,用于分析不同調序模型對于翻譯結果的影響,實驗結果如表2所示(規則表示調序規則數目,測試集1和測試集2表示機器翻譯在兩個測試集上的BLEU值,均值表示兩個測試集BLEU值的平均值)。

表2 不同調序模型的實驗結果對比Tab.2 Experimental result comparisons of different reordering models

85 Word-based MSD+MLP 1642684 30.30 29.34 29.82 Word-based MSLR+MLP 1645026 30.27 29.38 29.83 Phrase-based MSD+MLP 2587407 30.28 29.33 29.81 Word-based MSD+RNN 1642684 30.42 29.36 29.89 Word-based MSLR+RNN 1645026 30.49 29.33 29.91 Phrase-based MSD+RNN 2587407 30.18 29.51 29.
1)Distance-based。基于移動距離的調序模型,該模型對詞和短語的移動幅度進行線性評估,并且不產生調序表,作為本實驗的基線系統。
2)Word-based MSD。基于詞的MSD雙向調序模型,該模型由詞對齊結果進行調序方向判別以及調序概率估計。
3)Word-based MSLR。基于詞的MSLR雙向調序模型,該模型由詞對齊結果進行調序方向及調序概率估計,共包含monotone、swap、discontinuous-left、discontinuous-right四個調序類型,相當于將MSD詞匯化調序模型中的非連續調序(D)進行細分。
4)Phrase-based MSD。基于短語的MSD雙向調序模型,該模型由短語對齊結果進行調序方向判別以及調序概率估計。
5)Word-based MSD+MLP。基于詞的MSD雙向調序模型,結合MLP重構調序表。
6)Word-based MSLR+MLP。基于詞的MSLR雙向調序模型,結合MLP重構調序表。
7)Phrase-based MSD+MLP。基于短語的MSD雙向調序模型,結合MLP重構調序表。
8)Word-based MSD+RNN。基于詞的MSD雙向調序模型,結合RNN重構調序表。
9)Word-based MSLR+RNN。基于詞的MSLR雙向調序模型,結合RNN重構調序表。
10)Phrase-based MSD+RNN。基于短語的MSD雙向調序模型,結合RNN重構調序表。
由以上實驗結果對比可以看出,與基于移動距離Distance-based的調序模型(29.49)相比,基于詞的MSD調序模型、基于詞的MSLR調序模型和基于短語的MSD調序模型可以獲得更好的機器翻譯效果,其中基于短語的MSD調序模型(29.80)表現最好,說明考慮短語間的調序信息可以明顯提高系統對于調序方向類型的預測能力,且以短語對齊結果作為調序方向判別基準,可以顯著增強系統對于長距離調序問題的處理性能。不論是基于詞還是基于短語的詞匯化調序模型,兩者都基于短語對齊結果進行解碼,故加入短語的語義信息進行調序方向及概率預測,可以有效緩解上下文無關性及數據稀疏性問題,從而賦予調序表更加合理的調序概率值,提高機器翻譯質量。
將本文提出的調序表重構模型應用至以上三種詞匯化調序模型生成的調序表中,并且設置MLP方法進行對比,用以驗證連續分布式表示方法和RNN預測調序方向及概率分布在本工作中的有效性。實驗結果表明,結合MLP重構的調序表BLEU值平均提高0.073;結合RNN重構的調序表BLEU值平均提高0.138。RNN效果明顯優于MLP。
結合RNN對基于詞的MSLR調序模型生成的調序規則進行過濾及重構時,可以顯著降低調序表規模,在測試集1上的表現最好(30.49),BLEU值提升0.39,且在本實驗中的綜合效果最佳;而結合RNN方法重構基于短語的MSD調序模型生成的調序表,在測試集2上的表現最好(29.51),造成此結果的原因可能在于:測試集1和測試集2屬于不同領域的測試語料,因此對于不同的翻譯模型具有不同的語料匹配程度,從而造成實驗結果中測試集1的翻譯準確率明顯高于測試集2的現象;重構的調序表在該測試集上包含較多相關的調序信息,具有較高的領域匹配度,由此產生明顯的BLEU值提升。對于MSLR詞匯化調序模型生成的調序表,結合MLP(29.83)和RNN(29.91)進行過濾及重構,可以獲得明顯的BLEU值提升,可能因為MSLR調序模型中包含了足夠多的調序類別,故在調序方向判別及概率預測上具有較好的表現。
在過濾不同調序模型生成的調序規則時,MLP和RNN保留相同規模的規則條目,并且這些規則中的短語對齊信息相同,只是調序概率分布值有差異。本文認為神經網絡具有學習調序信息的能力,故兩者都可以將某一規則分類至最有可能的調序類別中,但對其賦予不同的調序概率,因而造成翻譯性能的差異。根據實驗結果可知,RNN具有更好的預測調序方向及調序概率的能力,歸因其深度循環結構,可以更高效地分析并評估調序信息,從而顯著地提高機器翻譯性能。
實驗證明,使用MLP和RNN重新預測調序概率分布值,并且在此基礎上對原始調序表進行過濾及重構,可以有效地提高漢維調序模型中調序信息的準確度,并降低原始調序表規模,加快后續解碼速率。
本文提出一種基于語義內容進行調序方向及概率預測的漢維調序表重構模型。該模型首先在大規模未標注的維語文本中學習維語詞匯和短語的向量表示,并且在此基礎上對調序表中的維語規則進行特征表示預測;然后利用RNN對調序規則的調序方向進行預測,并重新評估調序概率分布值;最后對漢維調序表進行過濾及重構,并將優化后的調序模型加入后續解碼進程中。實驗結果表明,調序表重構模型可以明顯提高漢維機器翻譯系統性能。
沿著目前的研究方向,在后續工作中有以下思路。第一,融入維吾爾語的語言學以及形態學知識,對維語進行詞干詞綴切分、命名實體識別等操作,提高漢維機器翻譯中詞和短語對齊結果的準確度;第二,學習調序表中雙語規則的特征表示,以捕獲更多的調序信息和對齊信息。