999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

詞語相似度計算方法分析

2012-03-19 14:02:17崔韜世麥范金
網絡安全技術與應用 2012年5期
關鍵詞:語義詞匯概念

崔韜世 麥范金

桂林理工大學 廣西 541004

0 引言

詞語相似度計算研究的是用什么樣的方法來計算或比較兩個詞語的相似性。詞語相似度計算在自然語言處理、智能檢索、文本聚類、文本分類、自動應答、詞義排歧和機器翻譯等領域都有廣泛的應用,它是一個基礎研究課題,正在為越來越多的研究人員所關注。筆者對詞語相似度計算的應用背景、研究成果進行了歸納和總結,包括每種策略的基本思想、依賴的工具和主要的方法等,以供自然語言處理、智能檢索、文本聚類、文本分類、數據挖掘、信息提取、自動應答、詞義排歧和機器翻譯等領域的研究人員參考和應用。詞語相似度計算的應用主要有以下幾點:

(1) 在基于實例的機器翻譯中,詞語相似度主要用于衡量文本中詞語的可替換程度。

(2) 在信息檢索中,相似度更多的是反映文本與用戶查詢在意義上的符合程度。

(3) 在多文檔文摘系統中,相似度可以反映出局部主題信息的擬合程度。

(4) 在自動應答系統領域,相似度的計算主要體現在計算用戶問句和領域文本內容的相似度上。

(5) 在文本分類研究中,相似度可以反映文本與給定的分類體系中某類別的相關程度。

(6) 相似度計算是文本聚類的基礎,通過相似度計算,把文檔集合按照文檔間的相似度大小分成更小的文本簇。

1 基于語料庫的詞語相似度計算方法

基于統計方法計算詞語相似度通常是利用詞語的相關性來計算詞語的相似度。其理論假設凡是語義相近的詞,它們的上下文也應該相似。因此統計的方法對于兩個詞的相似度算建立在計算它們的相關詞向量相似度基礎上。首先要選擇一組特征詞,然后計算這一組特征詞與每一個詞的相關性(一般用這組詞在實際的大規模語料中在該詞的上下文中出現的頻率來度量),于是,對于每一個詞都可以得到一個相關性的特征詞向量,然后計算這些向量之間的相似度,一般用向量夾角余弦的計算結果作為這兩個詞的相似度。

Lee利用相關熵,Brown采用平均互信息來計算詞語之間的相似度。李涓子(1999)利用這種思想來實現語義的自動排歧;魯松(2001)研究了如何利用詞語的相關性來計算詞語的相似度。PBrownetc采用平均互信息來計算詞語之間的相似度。基于統計的定量分析方法能夠對詞匯間的語義相似性進行比較精確和有效的度量。基于大規模語料庫進行的獲取受制于所采用的語料庫,難以避免數據稀疏問題,由于漢語的一詞多義現象,統計的方法得到的結果中含有的噪聲是相當大的,常常會出現明顯的錯誤。

2 基于本體庫的詞語相似度計算方法

2.1 常用本體庫

關于 Ontology的定義有許多,目前獲得較多認同的是R.Studer的解釋:“Ontology是對概念體系的明確的、形式化的、可共享的規范說明”。在最簡單的情況下,本體只描述概念的分類層次結構;在復雜的情況下,本體可以在概念分類層次的基礎上,加入一組合適的關系、公理、規則來表示概念間的其它關系,約束概念的內涵解釋。

WordNet是一個聯機英語詞匯檢索系統,由 Prince-ton大學研制。它作為語言學本體庫同時又是一部語義詞典,在自然語言處理研究方面應用很廣。它采用語義網絡作為其詞匯本體的基本表示形式。在 WordNet中,網絡節點由字形(Wordform)標識,分為名詞、動詞、形容詞、副詞和功能詞等5種。節點之間的關系分為同義關系(Synonymy)、反義關系(Antonymy)、繼承關系(Hypony-my)、部分/整體關系(Meronymy)、形態關系(Morpholog-icalrelation)等。WordNet提供了很好的概念層次結構。

知網是一個以漢語和英語詞語所代表的概念為描述對象、以揭示概念與概念之間以及概念所具有屬性之間的關系為基本內容的常識庫和知識庫。其中包含豐富的詞匯語義知識和本體知識,這些關系都隱含在知網的知識詞典和義原的特征文件中。知網中有以下兩個主要的概念:

(1) 義項。它是對詞匯語義的一種描述,每一個詞可以表達為幾個義項。義項是用一種知識表示語言來描述的,這種知識表示語言所用的詞匯叫做義原。

(2) 義原。它是用于描述一個概念的最小意義單位,從所有詞匯中提煉出的可以用來描述其他詞匯的不可再分的基本元素。

與一般的語義詞典(如同義詞、詞林或 WordNet)不同,知網并不是簡單地將所有的概念歸結到一個樹狀的概念層次體系中,而是試圖用一系列的義原來對每一個概念進行描述。

知網的漢語知識庫中每個詞匯由一個四元組表示:

DEF部分是表示詞與義原的關系,也是詞匯描述中最重要的部分,可以簡單地認為詞是由義原通過某種關系構成的。

2.2 相似度計算方法分析

根據本體知識來計算。主要是基于按照概念間結構層次關系組織的語義詞典方法,根據概念之間的關系來計算詞語的相似度。這類方法通常依賴于比較完備的大型語義詞典,一般詞典都是將所有的詞組織在一棵或幾棵樹狀的層次結構中,在一棵樹型圖中,任何兩個節點之間有且只有一條路徑,這條路徑的長度就可以作為這兩個概念的語義距離的一種度量。

傳統基于本體的概念之間相似度計算模型主要有基于距離的語義相似度計算模型、基內容的語義相似度計算模型和基于屬性的語義相似度計算模型3種。

劉群等人利用知網作為語義詞典計算漢語詞匯的相似度;Rada等人和Lee等人通過計算在WordNet中詞節點之間上下位關系構成的最短路徑來計算詞語之間的相似度。許多學者考慮到其他因素對語義距離的影響,如Resnik根據兩個詞的公共祖先節點的最大信息量來衡量兩個詞的語義相似度;Agirre等人在計算詞語的語義相似度時,除了節點間的路徑長度外,還考慮到概念層次樹的深度和區域密度的影響。張瑞霞等人提出了一種基于知識圖的漢語詞匯相似度計算方法,該方法以知識圖為知識表示方法,在構造詞圖的基礎上對詞匯概念中的義原進行分類,通過計算不同類型義的相似度得到概念的相似度。

3 比較與總結

這兩種方法各有特點。基于世界知識的方法簡單有效,無需用語料庫進行訓練,也比較直觀,易于理解,但這種方法得到的結果受人的主觀意識影響較大,有時并不能準確反映客觀事實。另外,這種方法比較準確地反映了詞語之間語義方面的相似性和差異,而對于詞語之間的句法和語用特點考慮得比較少。基于語料庫的方法比較客觀,綜合反映了詞語在句法、語義、語用等方面的相似性和差異。但是,這種方法比較依賴于訓練所用的語料庫,計算量大,計算方法復雜,另外,受資料稀疏和資料噪聲的干擾較大。

[1]秦春秀,趙捧未,劉懷亮.詞語相似度計算研究[J].信息系統.2007.

[2]余超.基于知網的詞匯語義計算研究及應用[D].遼寧:沈陽航空工業學院.2007.

[3]劉紫玉,黃磊.基于領域本體模型的概念語義相似度計算研究[J].計算機技術與發展.2010.

[4]http://wordnet.princeton.edu/.

[5]http://www.keenage.com/.

[6]孫海霞,錢慶,成穎.基于本體的語義相似度計算方法研究綜述[J].知識組織與知識管理.2010.

[7]劉群,李素建.基于《知網》的詞匯語義相似度計算[J].計算語言學及中文信息處理.2002.

[8]Resnik O.Semantic Similarity in a Taxonomy:An Information-Based Measure and Its Application to Problems of Ambiguity and Natural Language[J].Journal of A rtificial Intelligence Research.1999.

猜你喜歡
語義詞匯概念
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
本刊可直接用縮寫的常用詞匯
學習集合概念『四步走』
聚焦集合的概念及應用
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 亚洲精品无码抽插日韩| 国产自在线播放| www.91中文字幕| av色爱 天堂网| 青青青国产精品国产精品美女| 日本人真淫视频一区二区三区| 黄色在线网| 久久国产精品国产自线拍| 久久天天躁狠狠躁夜夜躁| 国产精品一老牛影视频| 国产在线无码一区二区三区| 亚洲欧美成人影院| 国产精品手机在线播放| 日韩一级二级三级| 精品视频91| 亚洲香蕉伊综合在人在线| 伊人天堂网| 亚洲精品桃花岛av在线| 午夜无码一区二区三区在线app| 欧美日韩在线亚洲国产人| 国产午夜福利亚洲第一| 成人午夜天| 伊人久久青草青青综合| 精品国产中文一级毛片在线看 | 日本爱爱精品一区二区| 欧美高清视频一区二区三区| 亚洲二区视频| 国产成人免费手机在线观看视频| 国产精品成人免费视频99| 欧美日韩成人在线观看 | 亚洲中文字幕国产av| 国产一级特黄aa级特黄裸毛片| 亚洲无码高清一区| 成人国产免费| 波多野结衣的av一区二区三区| 91亚洲国产视频| 国产区免费| 色成人综合| 国产欧美高清| 老司机午夜精品网站在线观看 | 中文字幕在线日本| 天天躁夜夜躁狠狠躁躁88| 亚洲美女一区| 免费观看亚洲人成网站| 亚洲人成网18禁| 久久国产高清视频| 国产精品自在线天天看片| 午夜国产理论| a天堂视频| 无码中文字幕精品推荐| 又爽又大又黄a级毛片在线视频| 青草视频免费在线观看| 在线观看网站国产| 四虎成人精品在永久免费| 国产一级毛片网站| 成人伊人色一区二区三区| 国产精品一线天| 国产亚洲精品在天天在线麻豆| 久草青青在线视频| 欧美精品一区二区三区中文字幕| 日韩中文精品亚洲第三区| 毛片网站在线播放| 国产情侣一区二区三区| 亚洲永久免费网站| 无码乱人伦一区二区亚洲一| 亚洲欧美综合精品久久成人网| 欧美日韩在线观看一区二区三区| 国产网站免费观看| av天堂最新版在线| 免费一看一级毛片| 欧美一区二区啪啪| 国产女人综合久久精品视| 亚洲综合狠狠| 人妻丝袜无码视频| 色综合久久久久8天国| 国产激爽爽爽大片在线观看| 狠狠五月天中文字幕| 蝴蝶伊人久久中文娱乐网| 午夜福利免费视频| 少妇露出福利视频| 日韩精品一区二区三区中文无码| 3344在线观看无码|