999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞向量的句子相似度計算及其應用研究

2016-04-12 00:00:00郭勝國邢丹丹
現代電子技術 2016年13期

摘 要: 目前計算機輔助翻譯在相似度計算方面存在很大的局限性,精度較低。針對特定領域,收集領域相關的訓練語料,采用Google的word2vec進行英語和漢語的詞向量模型構建,設計并實現漢語句子的相似度計算方法,提出基于詞向量Jaccard相似度與基于詞向量依存句法相結合的相似度計算方法,實驗結果顯示其效果比傳統方法有較大提升。最后,將相關英漢句子相似度算法以接口的形式封裝,作為商品化軟件華建IAT系統的相似度計算模塊投入實際應用。

關鍵詞: 計算機輔助翻譯; 相似度計算; 詞向量; IAT系統

中圖分類號: TN711?34; TM417 文獻標識碼: A 文章編號: 1004?373X(2016)13?0099?04

Abstract: Currently, the computer aided translation has great limitation on similarity calculation, and its accuracy is low. For the specific field, the training corpus about the field was collected, and the word vector model of English and Chinese was constructed by using word2vec developed by Google to design and implement the similarity calculation method of Chinese sentences. The similarity calculation method of combining word vector Jaccard similarity with word vector dependent syntax is proposed. The experiment results show that effect of the proposed method has more improvement than that of the traditional method. The similarity algorithm of relevant English and Chinese sentences is packaged by means of interface form. The similarity calculation module of Huajian IAT system was put into practical application as a commodity software.

Keywords: computer aided translation; similarity calculation; word vector; IAT system

近年來,機器翻譯的需求量越來越大。從學術文獻翻譯到搜索引擎跨語言檢索,機器翻譯都呈現出巨大的需求空間。但是傳統的機器翻譯一直都存在較大的問題,就是準確率過低。通過前期調查,現有的機器翻譯無法滿足實際需求,同時隨著 “大數據”時代的到來,越來越多的學者將目光轉向了計算機輔助翻譯[1?2]。

計算機的翻譯結果僅僅作為一個輔助性的參考,最終的結果由使用者根據候選結果的好壞進行修改取舍,實例語料庫可以結合具體領域進行分門別類的應用,使得其翻譯效果進一步提升,從而更加契合用戶的需要。由于領域性的差異,尤其是專業術語較多的時候,這一優點在特定領域的翻譯中顯得更加突出[3]。

1 計算機輔助翻譯及句子相似度計算

1.1 計算機輔助翻譯技術

計算機輔助翻譯系統涉及到的技術構成如圖1所示。在翻譯系統的整體構成上,相似度計算模塊是計算機輔助系統的核心部分[4]。它主要完成輸入句子與翻譯記憶庫的匹配并為用戶提供參考功能。而翻譯記憶庫則是計算機輔助翻譯的基礎構成,它主要用來對已翻譯的句子進行存儲和檢索。

2 基于詞向量的句子相似度計算算法

2.1 英語句子相似度計算算法設計

在進行改進的華建IAT系統上,英語句子的原相似度計算算法是基于共現詞匯相似度即Jaccard相似度和編輯距離相結合的方式設計的[6]。將詞向量引入到相似度計算上,本文設計的英語相似度計算算法由兩部分構成:基于詞向量的Jaccard相似度計算算法;基于詞向量和編輯距離的相似度計算算法。

2.1.1 基于詞向量的Jaccard相似度計算算法

式(5)中用來計算兩個詞對應的詞向量和的余弦相似度,即為詞向量的維度。式(6)中,分別是用戶當前輸入的句子和系統從翻譯記憶庫中檢索到的句子。是計算句子中所有詞對應的詞向量與對應的詞向量的余弦相似度中的最大值。參數用來調整兩個詞向量之間余弦相似度的放大系數,因為根據不同語料訓練出來的詞向量模型是不同的,其計算結果也就會有一定的浮動,可以根據得到的詞向量的不同進行設定調整。為了防止放大系數的放大效果超出實際表示范圍[-1,1],所以對其最大值進行了門限設置。

基于詞向量的Jaccard相似度計算和基于語義詞典的Jaccard相似度計算有異曲同工之處,但前者表示的語義范圍要遠超過語義詞典的表示范圍,比如“worker”和“work”之間在WordNet中是找不到其語義關系的,但是在詞向量中,其余弦相似度達到0.452之多,而這在語義詞典中是很少有做到的。其他諸如語義詞典的不可擴展性等弊病在詞向量中是不存在的,這也是詞向量的優勢所在。

2.1.2 基于詞向量和編輯距離的相似度算法

2.1.3 綜合相似度計算

對于英語相似度計算主要由以下兩部分構成[8?9]:基于詞向量的Jaccard相似度主要考量了相關詞匯的共現程度,其中既有表層的相似度又有詞義的相似度;而基于詞向量的編輯距離不僅考慮了詞匯本身的語義、語境相關性,還考量了句子結構的相似性[10]。所以,盡管算法構成上比較簡單,但是包含的相似度計算因素是多樣的,綜合兩種算法的優勢,將其加權求和構成英語句子最終的相似度計算算法:

2.2 漢語句子相似度計算算法設計

(1) 依存句法

首先對輸入句子和進行句法分析,得到句法分析結果Ipar和Ppar。將兩個句法分析結果中的依存對提取出來,保存為三元組的依存對deppair,其中deppair[0]和deppair[2]為依存詞,deppair[1]為依存關系。在兩個句子依存對集合中,依存關系相同的依存對進行余弦相似度計算,deppairI[0]和deppairR[0]表示詞匯對應的詞向量。SimilarityThreshold是設定的詞匯之間語義相似度的閾值,可以根據模型的精度進行調整。當依存對中的兩個詞語義相似度都達到閾值要求時,按照下式進行句子的相似度計算。

將上述依存對中的詞分別求余弦相似度,選取相似度最大的一組,對該組相似度求取算術平均值并用放大系數放大作為依存對的相似度。

(2) 漢語句子的綜合相似度計算

同英語句子的相似度計算一致,漢語句子的綜合相似度計算采用兩部分加權求和的方式進行。除了基于詞向量的依存句法,相似度還有基于詞向量的Jaccard相似度,二者共同構成本文提出的漢語句子相似度計算算法。公式如下:

3 算法實現和實驗分析

3.1 詞向量模型訓練

使用的word2vec需要相應的語料進行詞向量模型的訓練。首先是word2vec的訓練命令,對于得到的詞向量模型,需要根據詞向量的精度進行詞匯之間相似度的閾值判定。這里根據常用同、近義詞的余弦相似度測試結果進行設定。最終得到的閾值分別為:

英語:相似度應當分成幾檔對待,[0,0.2) 為不相似,[0.2,0.3) 為相似,[0.3,0.4) 為較強相似,[0.4,1]基本相同;

漢語:[0,0.25) 為不相似,[0.25,0.4) 為相似,[0.4,0.5)為非常相似,[0.5,1]基本等同。

之所以漢語的各檔相似度閾值設定得比英語高一點,是因為漢語的訓練語料更多,相應地,詞匯之間的相似度比英文更加貼近實際情況。另一方面又可以看出英語和漢語的最低相似度閾值都很低,因為詞向量的訓練過程是結合具體語料進行的,語料的質量和方法本身的統計思想決定了方法相比人工判定是比較粗糙的。

3.2 系統組成結構

系統的組成結構如圖2所示。翻譯開始后,首先選定語言種類,因為要根據語言選擇相應的詞向量模型,也便于系統更有針對性地進行實例檢索。選定語言后,針對語言種類分別進行詞向量模型的讀取和加載。對于英語,下一步要對輸入句子和檢索出的TopN的實例句子進行預處理,包括刪除標點、大寫還原等。特別要說明的是,由于華建IAT系統的商用保密性原因,實驗不能直接在該系統的實例庫上進行。故本實驗另外單獨搭建系統進行效果測試,針對結果進行改進并最后將算法運用到華建IAT系統上。在實驗系統中,使用基于詞共現的Jaccard相似度(沒有使用詞向量)進行檢索,返回Top50的實例。漢語的檢索過程與此相同,只是在輸入句子和檢索的Top50實例的預處理上多了分詞。為了使實驗結果和實際使用效果盡量保持一致,分詞使用了華建內部提供的分詞工具。

3.3 相似度計算實驗

3.3.1 實驗數據

為了盡量讓實驗結果客觀、可信,本文英語的相似度計算實驗數據來自LDC2的收費語料LDC2013T03。該語料來自NIST 2012年的機器翻譯評測。本文將這些同義句全部按組抽取排列。為了在長短句中有所均衡,隨機從中抽取了100組,得到最后的測試語料,形式如下所示:

1. White dragon fruit has a reddish purple peel and white flesh; it has tiny black seeds distributed through the middle and is of so?so quality when eaten fresh.

2. White pitayas have purple?red skin and white flesh, with tiny black seeds distributed throughout and the quality is okay if eaten uncooked.

3. White dragon fruit with purple reddish skin and white meat, with tiny black seeds distributed, average quality for eating fresh.

4. A white pitaya is mauve?skinned with white flesh containing fine black seeds, and of average quality when eaten fresh.

1. At least they don′t go out of their way to fleece Chinese people.

2. At least they don′t specifically rip off Chinese people.

3. At least they don′t exclusively rip off Chinese people.

4. At least they do not rip off Chinese only.

選取每組中的第一句作為基準句,其他三句作為第一句的相似句,用于測試。所有這400句先與8 336句同樣是NIST 2012的評測句子進行混合作為一組英文測試語料,然后又與9 600句華建語料庫中的句子混合,共計10 000句,作為第二組英文測試語料。

漢語的測試語料由于沒找到和英語類似的同義或近義句,所以采取了常用的相似度研究方法。從華建公司的語料庫中隨機選取100個句子,并自行構建100句對應的相似句子,即100組相似句對。將這200句相似句和另外來自華建語料庫的其他9 800句混合,共計10 000句作為漢語的測試語料。

3.3.2 測試標準

3.3.3 實驗結果及數據分析

在相似度算法中的參數包括六個:SimilarityThreshold,SimilarityThreshold表示相似度閾值,通過對英漢的詞向量模型進行分析比較,英語的相似度閾值設定為0.2,漢語的為0.25。為詞向量之間余弦相似度的放大系數,主要是幫助進行誤差修正。通過對詞向量的相似度精度進行測試,英語設定為2.5,漢語為2。其他兩組參數為英漢句子相似度計算中Jaccard相似度和另一部分各占的比重。

通過分析實驗可以發現,詞向量對算法效果的提升非常明顯?;谠~的相似度在不同語料庫之間的表現差異(命中率之差)要比基于詞向量的方法大一些,這表明基于詞向量的方法不僅在性能上更好,同時其在不同領域語料之間的穩定性和適應性也更強。

3.4 方法實現及應用

本文提出的方法是對華建IAT系統進行針對性的設計和實現。為了便于后續的維護,最終以接口的形式將相關方法整合給輔助翻譯系統進行使用??紤]到系統在實際運行中對時效性的要求,采用IronPython完成平臺上接口的實現,以保留Python對文本處理的優勢。主要函數構成如下:

W2V_Main(InputSentence,RetrivalSentencePairs,LanguageType,ReturnNum) ;

EnSimilarityCompute(InputSentence,CompareSentence) ;

ChSimilarityCompute(InputSentence,CompareSentence) 。

其中,W2V_Main()是.NET平臺進行調用的入口函數,參數含義依次為:InputSentence表示用戶輸入句子;RetrivalSentencePairs為翻譯記憶庫檢索出的TopN個待排序實例句對;LanguageType為輸入句子的語言種類;ReturnNum表示需要返回的已排序句子的數目。通過調用英漢對應的相似度計算模塊,其返回結果為ReturnNum個已排序譯文構成的數組。

EnSimilarityCompute()是英文句子相似度計算模塊的入口,其作用是返回用戶輸入句子InputSentence和系統檢索到的句子CompareSentence(句對中的源語言句子)之間的相似度。ChSimilarityCompute()則是漢語句子相似度計算模塊的入口函數。這兩個句子相似度計算函數會調用英漢對應的預處理函數、Jaccard相似度函數(公用)、編輯距離相似度函數(英語)、依存句法相似度函數(漢語,通過os.system()進行調用并接收返回的分析結果),最后返回兩部分加權求和得到的相似度計算結果。

4 結 論

本文采用基于詞向量的相似度計算算法進行英漢雙語的句子相似度計算,并根據兩種語言在使用習慣、句式變化和句子長度等方面的不同進行有針對性的算法設計。詞向量的語境相似度在很大程度上增加了句子相似度計算的深度和廣度,并且其優秀的語義相關性也可以將同、近義詞的使用納入到相似度考慮的范疇。同時,漢語句子的依存句法很好地規避了漢語句式多變和句子長度對相似度的影響,在句子的整句范圍內進行更加深入的相似性度量。

參考文獻

[1] 侯宏旭,劉群.基于實例的漢蒙機器翻譯[J].中文信息學報,2011,21(4):65?72.

[2] LI Y N, LI H S, CAI Q, et al. A novel semantic similarity measure within sentences [C]// Proceedings of 2012 2nd International Conference on Computer Science and Network Techno?logy. Changchun, China: IEEE, 2012: 1176?1179.

[3] 李丹,許霄羽,楊悅.基于語義網技術的網絡機器翻譯研究[J].現代電子技術,2011,34(4):107?109.

[4] 王榮波,池哲儒.基于詞類串的漢語句子結構相似度計算方法[J].中文信息學報,2005,19(1):21?29.

[5] 黃河燕,陳肇雄.基于多策略的交互式智能輔助翻譯平臺總體設計[J].計算機研究與發展,2012,41(7):1266?1272.

[6] 李素建.基于語義計算的語句相關度研究[J].計算機工程與應用,2012,38(7):75?76.

[7] 張民,李生,趙鐵軍,等.一種漢語句子間相似度的度量算法和實現[J].計算機語言學進展與應用,1995(7):152?158.

[8] 梁晗,陳群秀,吳平博.基于事件框架的信息抽取系統[J].中文信息學報,2006,20(2):40?46.

[9] 秦兵,劉挺,王洋,等.基于常問問題集的中文問答系統研究[J].哈爾濱工業大學學報,2013,35(10):1179?1182.

[10] 梁紅玉,張平.LEX在ATLAS?C翻譯器設計中的應用[J].現代電子技術,2004,27(24):102?104.

主站蜘蛛池模板: 国产亚洲欧美日韩在线观看一区二区| 国产麻豆另类AV| 国产另类乱子伦精品免费女| 精品成人一区二区| 一级毛片免费高清视频| 欧美激情福利| 国产精欧美一区二区三区| 久久婷婷国产综合尤物精品| 欧美色图久久| 国产一级片网址| 久久综合九色综合97婷婷| 欧美激情视频二区| 国产va欧美va在线观看| 国产91麻豆免费观看| 亚洲欧美不卡| 亚洲综合片| 伊人色综合久久天天| 久久五月天综合| 色哟哟精品无码网站在线播放视频| 久久这里只精品热免费99| 91免费在线看| 丝袜亚洲综合| 国产精品夜夜嗨视频免费视频| 国产第四页| 国产乱人视频免费观看| 久久免费精品琪琪| 国产人成乱码视频免费观看| 亚洲色图欧美激情| 日韩欧美国产中文| 欧美精品H在线播放| 亚洲精品手机在线| 国产人碰人摸人爱免费视频| 亚洲国产成人精品一二区| 国产精品2| 国产精品久久久免费视频| 四虎永久在线视频| 国产精品不卡永久免费| 亚洲美女一区| 亚洲精品午夜无码电影网| 97超级碰碰碰碰精品| 91精品小视频| 日韩成人在线视频| 亚洲福利片无码最新在线播放| 香蕉在线视频网站| 视频二区中文无码| 天堂成人在线视频| 区国产精品搜索视频| 另类欧美日韩| 午夜成人在线视频| 成人毛片免费观看| a级毛片在线免费| 亚洲国产欧美国产综合久久 | 97视频在线精品国自产拍| 色综合综合网| 国产视频大全| 在线看免费无码av天堂的| 黄色不卡视频| 手机成人午夜在线视频| 伊人网址在线| 亚洲欧美另类久久久精品播放的| 国产日韩丝袜一二三区| 伊人久久久大香线蕉综合直播| 免费看黄片一区二区三区| 日本精品影院| 播五月综合| 小蝌蚪亚洲精品国产| 欧美啪啪一区| 一本二本三本不卡无码| 在线视频亚洲色图| 91精品啪在线观看国产91九色| 小说 亚洲 无码 精品| 国产麻豆91网在线看| 亚洲三级视频在线观看| 亚洲码在线中文在线观看| 国产丝袜91| 成人韩免费网站| 粉嫩国产白浆在线观看| 国内精品视频| 在线色国产| 国产精品女在线观看| 日本a级免费| 国产精品极品美女自在线看免费一区二区 |