999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于維基百科的多語種翻譯詞匯自動抽取方法

2016-05-30 21:19:03溫家凱
企業(yè)科技與發(fā)展 2016年7期

溫家凱

(廣西達(dá)譯商務(wù)服務(wù)有限責(zé)任公司,廣西 南寧 530007)

【摘 要】多語種翻譯詞匯是解決跨語言信息檢索中未登錄詞問題的有效途徑,而高質(zhì)量的翻譯詞匯特別是專有名詞、新詞和命名實體難以在普通詞典中找到。文章提出一種從維基百科中自動抽取出多語種翻譯詞匯的方法,主要通過在維基百科離線數(shù)據(jù)文件中根據(jù)其文件結(jié)構(gòu)特征進(jìn)行抽取。實驗證明,該方法能夠有效獲取高質(zhì)量的多語種翻譯詞匯。

【關(guān)鍵詞】多語種翻譯詞匯;信息自動抽取;維基百科

【中圖分類號】TP391.3 【文獻(xiàn)標(biāo)識碼】A 【文章編號】1674-0688(2016)07-0129-05

0 引言

隨著世界經(jīng)濟(jì)一體化的進(jìn)展,各國之間互聯(lián)網(wǎng)交流更為廣泛、頻繁,互聯(lián)網(wǎng)信息的多語種特點,給交流帶來的語言障礙日顯突出。為解決語言障礙問題,跨語言信息檢索(CLIR)[1]技術(shù)應(yīng)運而生。跨語言信息檢索給用戶提供了一種使用自己熟悉的語言提交查詢,檢索其他語言文檔的途徑。跨語言信息檢索技術(shù)讓使用各種語言的信息用戶也可以方便地利用日益豐富的多語種信息資源,解決不同語種間的交流障礙。根據(jù)解決查詢條件和文檔集的語言障礙的技術(shù)路線,把跨語言信息檢索技術(shù)主要分為查詢表達(dá)式翻譯(Query Translation)、文獻(xiàn)翻譯(Document Translation)、不翻譯(No Translation)和中間語種轉(zhuǎn)換(Interlingual Representation)[2]。其中,查詢翻譯是CLIR中采用最廣泛的方法,實現(xiàn)簡單,速度快。該方法將用戶提交的查詢請求翻譯成系統(tǒng)支持的多種語言,然后對不同語言的文檔集進(jìn)行檢索。但由于查詢中有很多詞為專有名詞,有很多新詞、專業(yè)詞匯和命名實體無法在系統(tǒng)詞典中找到,導(dǎo)致對查詢請求的翻譯質(zhì)量受到影響,這種現(xiàn)象被稱為未登錄詞(Out of Vocabulary,OOV)問題。新詞和專業(yè)詞匯一般都是通過擴(kuò)充雙語詞典來解決,而命名實體是一個開放集,無法通過擴(kuò)充詞典的方式來解決[3]。

維基百科(Wikipedia)是一個基于維基技術(shù)的全球性多語言百科全書協(xié)作計劃,其大部分頁面都可以由任何人使用瀏覽器進(jìn)行閱覽和修改。這本全球人民參與編寫,自由、開放的在線百科全書是知識社會條件下用戶參與、大眾創(chuàng)新、開放協(xié)同的生動詮釋[4]。截至2015年11月1日,維基百科條目數(shù)第一的英文維基百科已有500萬個條目,所有版本共突破3 700個條目,已發(fā)展成為互聯(lián)網(wǎng)上規(guī)模最大、使用最廣泛的百科全書,也成為最大的資料來源網(wǎng)站之一,這為未登錄詞的挖掘提供了有利的條件。維基百科擁有253種不同語言的版本,無形中已經(jīng)具備非常豐富的翻譯資源。并且,由于其自由、人人均可編輯的特點,往往能夠找到比較新、比較流行的詞語。由于維基百科中有很多條目都存在著對應(yīng)的多種語言版本,因此維基百科可以用于雙語或多語詞典的自動構(gòu)建,進(jìn)而應(yīng)用于機(jī)器翻譯、跨語言信息檢索等。經(jīng)過實驗證實,使用維基百科能夠有效地抽取多語種的翻譯詞匯,幫助解決跨語言檢索中未登錄詞的問題,進(jìn)而提升檢索的準(zhǔn)確度。

1 基本原理

在維基百科的內(nèi)容頁面中,有可能存在鏈接到不同語言版本維基百科的“跨語言鏈接”,這樣讀者可以很方便地查看另一語言內(nèi)當(dāng)前主題的相關(guān)內(nèi)容。由于這些鏈接是以半人工的方式添加到頁面,詞匯的翻譯質(zhì)量比較高。維基百科內(nèi)容頁面如圖1所示。

以英漢翻譯詞匯獲取為例,在英文維基百科中輸入關(guān)鍵詞“Fifteen puzzle”進(jìn)行查詢,在返回結(jié)果頁面的左下角區(qū)域為“Languages”,即鏈接到其他語言版本的鏈接,該鏈接的HTML信息中已經(jīng)包含了經(jīng)翻譯后的詞匯,抽取出來就是我們所想要的結(jié)果。

2 具體實現(xiàn)

具體的實現(xiàn)有2種途徑:一是在線方式,即遍歷詞典,構(gòu)造維基百科的URL,下載其內(nèi)容頁面實時分析抽取;二是先下載離線數(shù)據(jù)庫,分析其文本結(jié)構(gòu)再抽取。下面詳細(xì)描述這2種方法。

2.1 在線方式

在線方式必須先分析清楚維基百科的URL結(jié)構(gòu)和返回結(jié)果頁面的HTML構(gòu)成,然后使用程序遍歷詞典模擬請求得到返回結(jié)果頁面,從中抽取出詞條翻譯結(jié)果。

2.1.1 構(gòu)造查詢請求

查詢請求為:“http://”+語言代碼+“.wikipedia.org/wiki/”+URI編碼詞條。

其中,“語言代碼”為維基百科中的語言代碼,見表1。

“URI編碼詞條”是指經(jīng)過URI編碼的關(guān)鍵詞。

此外,由于中文有簡體和繁體等幾種版本的維基百科,與上述查詢URL有此不同。

簡體版本:http://zh.wikipedia.org/zh-cn/+URI編碼詞條;繁體版本:http://zh.wikipedia.org/zh-tw/+URI編碼詞條。

2.1.2 查詢結(jié)果頁面HTML分析

主要是分析頁面中“語言列表”部分的HTML結(jié)構(gòu)。該部分結(jié)構(gòu)如下:每一種語種都是用一個

2.1.3 具體實現(xiàn)過程

下面以使用Perl程序?qū)崿F(xiàn)模擬維基百科Web請求獲取漢語詞條的越南語翻譯詞匯為例。

(1)漢語詞典中取出中文詞條AAA。

(2)對該中文詞條進(jìn)行URI編碼:去除詞條首尾空格,將非空格串用URI模塊進(jìn)行編碼轉(zhuǎn)換。

(3)構(gòu)造維基百科網(wǎng)站關(guān)于該詞條的中文簡繁版Web請求的URL。

簡體版:http://zh.wikipedia.org/zh-cn/XXX;繁體版:http://zh.wikipedia.org/zh-tw/XXX。

首先嘗試下載繁體版本的頁面。注意使用LWP::UserAgent(并設(shè)置代理信息)來下載,不能簡單使用LWP::Simple來下載,因為維基百科有可能會拒絕沒有代理信息的客戶端訪問。

如果失敗則嘗試下載簡體版本頁面。

(4)解析請求返回結(jié)果頁面,分析頁面中“語言列表”部分的HTML代碼。使用模塊HTML::TreeBuilder::Xpath解析整個網(wǎng)頁,通過如下指定xql取出相應(yīng)Html結(jié)點:

/html/body/descendant::li[@class="interwiki-vi"]/a

該xql模式表示解析器尋找頁面中所有class=interwiki-vi 的結(jié)點下的超鏈接結(jié)點

另外一個方法是從維基百科的重定向數(shù)據(jù)文件包redirect.sql.gz中抽取。例如:viwiki-20100627-re-

direct.sql.gz,解壓后得到的是sql文件,導(dǎo)入數(shù)據(jù)庫后得到數(shù)據(jù)庫表redirect,該表中保存有所有的詞條目重定向記錄。但由于數(shù)據(jù)字段是以“條目A的page_id->重定向到的條目B的標(biāo)題”形式存在,因此需要用程序進(jìn)行轉(zhuǎn)換提取。

2.2.5 具體操作步驟

(1)從網(wǎng)上搜索下載維基百科公開的離線數(shù)據(jù)文件,不同語言版本的維基百科有不同的數(shù)據(jù)文件。根據(jù)用戶需求下載不同版本的數(shù)據(jù)文件。

(2)解壓數(shù)據(jù)文件。數(shù)據(jù)文件解壓后得到非常龐大的XML文本文件。

(3)考慮到系統(tǒng)內(nèi)存限制,需要使用腳本程序?qū)?shù)據(jù)庫文件切分成多個小文件以便進(jìn)行下一步的處理。

(4)讀入待處理文件內(nèi)容到內(nèi)存,刪除所有換行符。

(5)使用正則表達(dá)式找出所有page節(jié)點,即

ge>和

主站蜘蛛池模板: 四虎成人在线视频| 久久精品aⅴ无码中文字幕 | a毛片免费观看| 狠狠色丁香婷婷| 天天躁夜夜躁狠狠躁躁88| 无码专区在线观看| 曰AV在线无码| 精品国产成人a在线观看| 精品国产一区91在线| 亚洲综合片| 国产亚洲精久久久久久无码AV| 久久美女精品| 精品国产香蕉在线播出| 日本午夜影院| 国产青青草视频| 色偷偷一区二区三区| 2018日日摸夜夜添狠狠躁| 欧美.成人.综合在线| 日韩精品一区二区三区大桥未久| 九九视频免费看| 免费全部高H视频无码无遮掩| 欧美午夜在线观看| 国产精品播放| 试看120秒男女啪啪免费| 午夜限制老子影院888| 91九色视频网| 99视频有精品视频免费观看| 国产欧美精品专区一区二区| 亚洲三级成人| 国产精品福利在线观看无码卡| 国产精品欧美日本韩免费一区二区三区不卡| 免费国产好深啊好涨好硬视频| av在线人妻熟妇| 成人一级免费视频| 亚洲精品成人福利在线电影| 午夜三级在线| 久久综合色视频| 亚洲综合色婷婷中文字幕| 久久精品亚洲专区| 狠狠色丁香婷婷| 欧美不卡二区| 午夜国产精品视频黄| 亚洲成人免费在线| 亚洲黄网视频| 国模极品一区二区三区| 91啦中文字幕| 91福利免费| 欧美成人国产| aaa国产一级毛片| 9cao视频精品| 日韩一级毛一欧美一国产| 精品中文字幕一区在线| 精品99在线观看| 日本一区二区不卡视频| 亚洲成a人片77777在线播放| 18禁黄无遮挡免费动漫网站| 国产成人在线小视频| 四虎成人精品| 国产电话自拍伊人| 亚洲AV免费一区二区三区| 特级做a爰片毛片免费69| 四虎精品免费久久| 情侣午夜国产在线一区无码| 精品91在线| 国产精品xxx| 欧美精品黑人粗大| 国模粉嫩小泬视频在线观看 | 毛片网站在线看| 国产91小视频在线观看| 国模私拍一区二区三区| 亚洲精品成人福利在线电影| 国产精品亚洲片在线va| 青青操视频免费观看| 亚洲精品va| 色婷婷亚洲综合五月| 国产欧美日韩免费| 精品人妻AV区| 色婷婷亚洲综合五月| 国产一级二级三级毛片| 54pao国产成人免费视频| 亚洲有无码中文网| 国产精品女人呻吟在线观看|