999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種消歧框架信息技術研究

2016-05-14 22:11:11劉金輝
數(shù)字技術與應用 2016年7期

劉金輝

摘要:隨著互聯(lián)網(wǎng)上海量文本的涌現(xiàn),自動文本處理已經(jīng)成為一項重要的研究課題。為了正確地處理漢語文本,必須對其中的歧義詞匯進行消歧。本文給出了一種基于多種語言學知識的詞義消歧框架。結合《同義詞詞林》,抽取歧義詞匯的上下文中的多種語言學知識作為消歧特征,使用貝葉斯模型來確定它的語義。同時,將自動消歧結果應用于檢索引擎、機器翻譯系統(tǒng)和文語轉(zhuǎn)換系統(tǒng)。

關鍵詞:歧義詞匯 詞義消歧 上下文 消歧特征 貝葉斯模型

中圖分類號:TP391.2 文獻標識碼:A 文章編號:1007-9416(2016)07-0092-01

1 概述

詞義消歧是指使用計算機自動地確定歧義詞匯在上下文環(huán)境中所具有的真實含義。目前,詞義消歧是自然語言處理領域中的一個基礎性研究課題,它對信息檢索[1]、機器翻譯[2]和文本處理具有重要的支持作用。隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡上涌現(xiàn)了大量的自然語言文本,迫切需要開發(fā)高質(zhì)量的自然語言文本處理工具。而詞義消歧則是提高自然語言文本處理質(zhì)量的關鍵性技術。目前,詞義消歧方法主要分為3類:有監(jiān)督的詞義消歧、無監(jiān)督的詞義消歧和半監(jiān)督的詞義消歧[3]。

在歧義詞匯的上下文中,蘊藏著不同類型的語言學知識,諸如:詞形、詞性、句法、長度和語義信息。本文利用這些不同類型的語言學知識來為詞義判別過程提供指導信息。同時,使用詞義消歧結果來改善相關文本處理系統(tǒng)的性能。

2 基于多種語言學知識的消歧框架

本文綜合利用了歧義詞匯上下文中的詞形、詞性和語義信息,結合貝葉斯模型給出了一種漢語詞義消歧系統(tǒng)的框架結構,如圖1所示。

在這一框架中,主要包括以下模塊:漢語分詞模塊、漢語詞性標注模塊、語義類別標注模塊和消歧特征提取模塊。漢語詞性標注模塊的作用是:為每個漢語單詞添加詞性標注。語義類別標注模塊的作用是:查閱《同義詞詞林》,根據(jù)出現(xiàn)頻度來標注漢語詞匯的語義類別。消歧特征提取模塊的作用是:提取左、右詞匯的詞形、詞性和語義類別作為判別特征。詞義消歧模塊采用了貝葉斯模型,其輸入是消歧特征分量出現(xiàn)的概率,輸出結果是該歧義詞匯的語義類別。詞義消歧過程如公式(1)所示。

(1)

對于待消歧的歧義詞匯而言,共包含n個語義類別:S1, S2, …, Sn。在貝葉斯模型中,主要包括兩個參數(shù):語義類別出現(xiàn)的先驗概率P(Si)和語義類別-特征向量出現(xiàn)的后驗概率P(Si|Feature)。

以該框架為基礎,可以實現(xiàn)一個面向Web的漢語詞義消歧系統(tǒng)。系統(tǒng)分為客戶端和服務器兩個部分。客戶端利用JSP語言來實現(xiàn),使用Myeclipse作為開發(fā)工具。采用了Tomcat服務器。所實現(xiàn)的系統(tǒng)可以視為一個B/S結構,詞義消歧系統(tǒng)部署在服務器上。

3 詞義消歧框架的應用

互聯(lián)網(wǎng)上存在著海量的漢語文本信息。要想從網(wǎng)上找到感興趣的文字資料,必須采用檢索引擎。但是,常用的檢索引擎都是利用關鍵字匹配的方式來檢索漢語文本。在這一過程匯中,使用了字符串匹配的方法,沒有考慮到關鍵字的語義信息。其檢索的精確率受到了一定程度的影響,經(jīng)常會得到大相徑庭的檢索結果。首先,使用該漢語詞義消歧系統(tǒng)來確定查詢關鍵字的語義類別。然后,采用該漢語詞義消歧系統(tǒng)來確定檢索到的文本中的關鍵字的語義類別。最后,根據(jù)查詢關鍵字的語義類別,檢索引擎可以自動地選出用戶所需要的漢語文本資料,這將大大地提高檢索的性能。

隨著對外貿(mào)易的快速發(fā)展,漢語資料的翻譯工作變得越來越繁重。單純依靠人來完成翻譯工作,將消耗大量的人力、物力和財力。因此,很多翻譯任務需要借助機器翻譯系統(tǒng)來完成。在翻譯轉(zhuǎn)換之前,使用該漢語詞義消歧系統(tǒng)根據(jù)上下文來確定歧義詞匯的語義類別,將會大大地提高機器翻譯系統(tǒng)的譯文輸出質(zhì)量。同時,將會降低人工編輯自動譯文輸出結果的工作量。

在人們的日常生活中,文語轉(zhuǎn)換技術已經(jīng)越來越普及了。在很多智能手機和幼兒識字學習機上,都安裝了文語轉(zhuǎn)換軟件,將文本信息變?yōu)檎Z音信號朗讀出來。目前,文語轉(zhuǎn)換所面臨的一個難題是難以對文本句子實施正確地詞匯切分,所朗讀出來的語音很生硬,經(jīng)常會出現(xiàn)斷句的錯誤。在詞匯切分之后,使用該漢語詞義消歧系統(tǒng)根據(jù)上下文來確定歧義詞匯的語義類別,糾正自動分詞結果中的錯誤。這將會大大地改善語音朗讀的效果。

4 結語

目前,詞義消歧是自然語言處理領域中的一個研究熱點。本文介紹了國內(nèi)外現(xiàn)有的詞義消歧方法。對于輸入的漢語句子,分別進行分詞處理和詞性標注處理。查閱《同義詞詞林》來提取詞義消歧特征,結合貝葉斯模型來確定歧義詞匯的語義類別。給出了基于多種語言學知識的詞義消歧框架及其實現(xiàn)方案。同時,使用該詞義消歧系統(tǒng)來改善檢索引擎、機器翻譯系統(tǒng)和文語轉(zhuǎn)換系統(tǒng)的性能。

參考文獻

[1]張霖,張宇航.基于粗糙本體的信息檢索[J].信息化建設,2015,11: 246~246.

[2]宋柔,葛詩利.面向篇章機器翻譯的英漢翻譯單位和翻譯模型研究[J].中文信息學報,2015,29(5):125~135.

[3]全昌勤.基于語料庫的漢語詞義消歧方法研究[D].華中師范大學,博士學位論文.2005.

主站蜘蛛池模板: 在线国产欧美| 久996视频精品免费观看| 日韩最新中文字幕| 呦系列视频一区二区三区| 亚洲婷婷六月| 欧美a在线| 日韩精品视频久久| 国产本道久久一区二区三区| 成人日韩视频| 国产va在线观看免费| 亚洲人成色77777在线观看| 亚洲无码视频图片| 国产爽歪歪免费视频在线观看 | 人妻无码中文字幕一区二区三区| 激情国产精品一区| 亚洲日韩国产精品无码专区| 国产成人在线无码免费视频| 五月婷婷伊人网| 国产欧美专区在线观看| 亚洲高清免费在线观看| 欧美亚洲中文精品三区| 亚洲动漫h| 中文精品久久久久国产网址| 日韩高清无码免费| 好久久免费视频高清| 亚洲一区第一页| 亚洲男人的天堂视频| 久久国产高清视频| 99r在线精品视频在线播放| 国产性生交xxxxx免费| 午夜国产理论| 国产XXXX做受性欧美88| 国产小视频网站| 国产97视频在线观看| 国产成人无码AV在线播放动漫| 国产亚洲精久久久久久无码AV| 99在线视频精品| 九色视频最新网址 | 国产成人三级| 无码aaa视频| 国产一级毛片在线| 日韩精品一区二区三区中文无码| 亚洲第一视频网| 狠狠色综合网| 久久综合久久鬼| 久久久久久高潮白浆| 成人韩免费网站| 久久中文电影| 亚洲日本www| 青青久久91| 精品视频一区二区三区在线播| 丁香五月亚洲综合在线| 国模私拍一区二区| 日韩av资源在线| 久久国产乱子伦视频无卡顿| 国产十八禁在线观看免费| 国产美女在线免费观看| 一级毛片免费高清视频| 亚洲精品成人片在线观看| 国产成人无码综合亚洲日韩不卡| 久久久久国产一级毛片高清板| 丁香综合在线| 亚洲男人的天堂在线观看| 国产成人久久综合777777麻豆| 亚洲欧美日韩另类| 欧美人与动牲交a欧美精品| 亚洲人成影院午夜网站| 欧美在线天堂| 2020国产精品视频| 综合久久五月天| 91黄色在线观看| 一本久道久综合久久鬼色| 成人国产精品一级毛片天堂 | 亚洲国产中文精品va在线播放 | 久草性视频| 国产爽妇精品| 55夜色66夜色国产精品视频| 成人av专区精品无码国产| 精品无码一区二区在线观看| 亚洲A∨无码精品午夜在线观看| 亚洲男女天堂| 青青热久麻豆精品视频在线观看|