999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于不同語義資源的詞語相似度算法綜述

2016-03-04 23:31:52蔡輝虎
山東工業(yè)技術(shù) 2016年5期

摘 要:詞語相似度研究作為人工智能領(lǐng)域中一項(xiàng)重要研究,被廣泛應(yīng)用于信息檢索,詞義消歧,機(jī)器翻譯,語音自動摘要,分類和聚類等方面。現(xiàn)有的詞語相似度算法主要分為基于語義資源和基于統(tǒng)計(jì)兩類方法,第一種也被稱為基于本體的詞語相似度算法,主要根據(jù)詞語所處的語境來反應(yīng)詞語的詞義,即根據(jù)不同的層次結(jié)構(gòu)組織中詞所處的上下位與同位關(guān)系來計(jì)算詞語的相似度。另一種也被稱為基于大規(guī)模語料庫的算法,研究上下文環(huán)境中各個詞語之間出現(xiàn)的某種規(guī)律,利用統(tǒng)計(jì)技術(shù)計(jì)算的一種無監(jiān)督機(jī)器學(xué)習(xí)的方法。本文重點(diǎn)介紹基于不同的語義資源的詞語相似度算法,對詞語相似度算法的未來做了展望。

關(guān)鍵詞:詞語相似度;語義資源;維基百科

DOI:10.16640/j.cnki.37-1222/t.2016.05.211

1 引言

隨著云時代的來臨,大數(shù)據(jù)越來越受人們關(guān)注。伴隨著辦公室無紙化推行,人們逐漸習(xí)慣于利用計(jì)算機(jī)進(jìn)行數(shù)字化處理數(shù)據(jù),自然語言處理的研究也飛速發(fā)展。詞語是自然語言處理的最小單位,詞語相似度的計(jì)算在自然語言處理的各個領(lǐng)域占有很重要的地位。詞語相似度計(jì)算研究的是計(jì)算兩個詞語相似度的方法,詞語之間有著非常復(fù)雜的關(guān)系,應(yīng)用中常常將這種復(fù)雜的關(guān)系用簡單的數(shù)量來度量。可見詞語相似度研究有廣闊的應(yīng)用前景和重大研究價(jià)值。本文綜合介紹了近年來基于幾種常見語義資源的詞語相似度算法和最新研究成果,對該領(lǐng)域的發(fā)展前景做出了展望。

2 基于Wordnet的方法

Wordnet是由普林斯頓大學(xué)的心理學(xué)家,語言學(xué)家和計(jì)算機(jī)工程師聯(lián)合設(shè)計(jì)的一個在線詞典參考系統(tǒng),在認(rèn)知語言學(xué)理論下推動形成的覆蓋范圍非常廣闊的詞匯語義網(wǎng)。Wordnet不像傳統(tǒng)的在線詞典按照字母排序構(gòu)造而成,這個系統(tǒng)中的詞語根據(jù)同義關(guān)系,反義關(guān)系,部分關(guān)系聚類分為代表某一類詞匯概念的相關(guān)集合。并在這些聚類后形成的集合之間建立起不同關(guān)系。

Wordnet主要代表算法是通過計(jì)算兩個詞語在本體結(jié)構(gòu)分類的路徑長度,本體庫的統(tǒng)計(jì)特征,概念層次樹上下位關(guān)系和同位關(guān)系或?qū)υ~語涉及的邊進(jìn)行處理。例吳思穎等[1]利用語義網(wǎng)同義詞集上下位關(guān)系圖中,引入了距離,密度,深度3個因素來估計(jì)同義詞集之間的相似度,采用一個自適應(yīng)的方案來解決候選同義詞集組合的權(quán)重和取舍問題。實(shí)現(xiàn)了一個可以計(jì)算英-英,漢-英,漢-漢詞語之間相似度的算法。基于wordNet算法的主要優(yōu)點(diǎn)是覆蓋范圍寬廣,數(shù)據(jù)足夠密集,減少數(shù)據(jù)中無法解釋的數(shù)據(jù)變動的干擾。主要缺點(diǎn)受個人偏見或局限性影響較大,對客觀現(xiàn)實(shí)的反應(yīng)不夠準(zhǔn)確。

3 基于知網(wǎng)的方法

<知網(wǎng)>(英文名稱HowNet)是著名機(jī)器翻譯專家董振東[2]先生創(chuàng)建的相對豐富的語義知識詞典,它所所描述的對象是以詞語為代表的概念,概念之間的關(guān)系用關(guān)系義原或者關(guān)系符號來表示,并且描述了多種概念的屬性與屬性之間的關(guān)系,具有種類多,數(shù)量廣并且多樣化的關(guān)系層次詞匯語義知識。

“概念“和”義原“是《知網(wǎng)》結(jié)構(gòu)中有兩個最主要的概念,”義原“是用來描述”概念“的”知識表示語言“,”義原“還是描述”概念”不可分割的基本單位。一個概念可以描述一個詞,或者多個概念組合描述一個詞,利用基本義原,語法義原和關(guān)系義原來描述概念,也是詞語的某一部分特性,計(jì)算出義原的相似度就可以求出詞語的相似度。例王斌[3],劉群等[4],Li等[5]根據(jù)《知網(wǎng)》中樹形圖由義原上下位關(guān)系構(gòu)成,分別計(jì)算出其中節(jié)點(diǎn)之間路徑的方法,或者利用集合,特征結(jié)構(gòu)整體計(jì)算得到語義距離并進(jìn)行轉(zhuǎn)換的方法,提出各種基于《知網(wǎng)》義原關(guān)系計(jì)算的詞語相似度算法。《知網(wǎng)》提供了更加直觀,結(jié)構(gòu)化的詞匯語義信息,但是隨著知識語言發(fā)展,未登錄詞語越來越多,暴露了覆蓋的詞匯有限的局限性。

4 基于同義詞詞林的方法

1983年梅家駒等[6]人為了加速創(chuàng)作和翻譯工作,對同義詞語進(jìn)行收集匯編分類,由此編纂了 《同義詞詞林》。這本詞典最主要的是包括大部分詞的同義詞,當(dāng)然也包含了一定數(shù)量的廣義相關(guān)詞。依照樹狀層次結(jié)構(gòu)把所有收錄的詞條組織到一起,把詞匯分成大中小三類,采用層級體系,具有五層結(jié)構(gòu)。

基于《同義詞詞林》的詞語相似度算法主要采用概念切分法,節(jié)點(diǎn)路徑計(jì)算法,或者綜合算法。例天久樂等[7]從詞語的語義出發(fā),根據(jù)兩個詞語的義項(xiàng)在同義詞詞林中的位置,算出相對距離,用具體的實(shí)數(shù)值表示,并且結(jié)合兩個詞語在相類似語境中相互替換或者共現(xiàn)的可能性計(jì)算出相關(guān)性,具有高相關(guān)性的詞語具有相似性的程度也相應(yīng)較高,導(dǎo)入一定的測試函數(shù)計(jì)算出詞語的合理相似度。呂立輝等[[]]通過兩個單詞在詞林書中相距的路徑長,以及所在分支詞義密度來計(jì)算兩個中文單詞間的相似度,利用皮爾遜線性相關(guān)系數(shù)來評價(jià)該方法。基于同義詞詞林詞語相似度算法的優(yōu)缺點(diǎn)與基于Wordnet,并且同義詞詞林?jǐn)?shù)據(jù)更新緩慢。

5 基于維基百科的方法

維基百科是一個基于Web2.0技術(shù)的全球性多語言合作型語料庫,同時也是作為詞語相似度計(jì)算的網(wǎng)絡(luò)百科全書,其目標(biāo)及宗旨是由全人類提供的自由的百科全書,維基百科中使用語義解釋豐富的詞條來表示主題,每篇文章都可以歸類于某一類主題。詞條之間具有上下位關(guān)系,這種獨(dú)特的結(jié)構(gòu)方式使維基百科成為最新詞匯語義信息的重要來源。

基于維基百科的詞語相似度算法主要利用維基百科中詞條豐富的語義解釋,層次的上下位關(guān)系,文章之間借助內(nèi)容的超鏈接相互關(guān)聯(lián)反映的詞匯間詞義關(guān)系進(jìn)行相似度計(jì)算。例Strube等[9]最早提出Wikerelate!算法,比較不同詞性的詞語之間的語義相似度,隨后 Gabrilovich等[10]提出了基于維基百科文章內(nèi)容的顯性語義分析法.把文本內(nèi)容的詞語含義通過機(jī)器學(xué)習(xí)技術(shù)表達(dá)為維基百科概念的加權(quán)向量。MiLine[11]提出了利用維基百科文章集合中內(nèi)容的超鏈接信息計(jì)算詞語相似度的方法WLVM,該方法只利用了文章中內(nèi)容超鏈接結(jié)構(gòu)和文章維基類別等信息來計(jì)算相似度,而沒有利用維基百科中所有的文本內(nèi)容,計(jì)算方式簡便,速度也提高了,但卻已犧牲了準(zhǔn)確性高為代價(jià)。基于維基百科的詞語相似度算法主要的優(yōu)點(diǎn)是維基百科提供了最新的語義信息和獨(dú)特的信息結(jié)構(gòu)。主要缺點(diǎn)是維基百科是并不像前面提到的三種語義資源由專業(yè)的人士或者團(tuán)隊(duì)收集而來,缺乏專業(yè)性質(zhì)

6 總結(jié)

詞語相似度的計(jì)算在自然語言處理領(lǐng)域有著非常重要的意義,是信息檢索,文本分類等相關(guān)領(lǐng)域的基礎(chǔ)。綜上對基于四種不同語義資源的算法,前三種均存在更新緩慢的缺點(diǎn),維基百科的出現(xiàn)彌補(bǔ)了這一點(diǎn)。與傳統(tǒng)的語義詞典相比,維基百科含有豐富的語義信息,涉及的知識面廣闊,獨(dú)特的信息組織方式的優(yōu)點(diǎn),同時其語義資源更新頻率高,有效地提高了詞語相似度計(jì)算的準(zhǔn)確率。有機(jī)地融合維基百科和其他背景信息,能夠在多種不同類別的詞匯語義信息來源中取長補(bǔ)短,提高計(jì)算的準(zhǔn)確性。所以,針對維基百科和通過融合方法的詞語相似度算法將成為詞語相似度研究今后的發(fā)展趨勢。

參考文獻(xiàn):

[1]吳思穎,吳揚(yáng)揚(yáng).基于中文WordNet的中英文詞語相似度計(jì)算[J].鄭州大學(xué)學(xué)報(bào),2010(06):42-2.

[2]董振東,董強(qiáng).知網(wǎng)[EB/OL].[2012-03-20].www.keenage.com

[3]王斌.漢英雙語語料庫自動對齊研究[D].北京:中國科學(xué)院計(jì)算技術(shù)研究所,1999.

[4]劉群,趙捧未,劉懷亮.詞語相似度計(jì)算研究[J].情報(bào)理論與實(shí)踐,2007,30(01):105-108

[5]Li S J,Huang X,et al.Semantic Computation in Chinese Quertion-Answering Systm[J]. Journal of Computer science and Technology,2002,17(6):933-939.

[6]梅家駒,竺一鳴,高蘊(yùn)琦等.同義詞詞林[M].上海:上海辭書出版社,1983.

[7]田久樂,趙蔚 基于同義詞詞林的詞語相似度計(jì)算方法[J].吉林大學(xué)學(xué)報(bào),2010(11):28-6.

[8]呂立輝,梁維薇,冉蜀陽.基于詞林的詞語相似度的度量[J].研究與開發(fā),2013(01).

[9]Strube M,Ponzetto S P。WikiRelate! Computing Semantic Related Using Wikipedia [C].In: Proceedings of the 21st National Conference on Artificial Intelligence (AAAI06).AAAI Press,2006:1419-1424.

[10]David MiLne.Computing semantic relatedness using Wikipedia link structure[C].In Proceedings of the New Zealand Computer Science Research Student Conference(NZCSRSC07),2007.

作者簡介:蔡輝虎(1988-),男,福建泉州人,碩士研究生,研究方向:數(shù)據(jù)挖掘。

主站蜘蛛池模板: 欧美无专区| 国内毛片视频| 成人在线观看不卡| 亚洲天堂色色人体| 国产激情无码一区二区APP| 国产二级毛片| 99这里只有精品免费视频| 日本人妻一区二区三区不卡影院| 欧美伊人色综合久久天天| 国产一级毛片网站| 久久窝窝国产精品午夜看片| 亚洲swag精品自拍一区| 毛片在线看网站| 午夜福利网址| 国产香蕉97碰碰视频VA碰碰看| 午夜小视频在线| 亚洲国内精品自在自线官| 无码免费试看| 欧美国产菊爆免费观看 | 女人天堂av免费| 国产国语一级毛片在线视频| 四虎免费视频网站| 播五月综合| 国产精品漂亮美女在线观看| 狠狠久久综合伊人不卡| 国产Av无码精品色午夜| 国内精品一区二区在线观看| 高清精品美女在线播放| 91无码视频在线观看| 久久国语对白| 欧美精品不卡| 色综合中文| 欧美激情伊人| 国产欧美日韩18| 91视频首页| 国外欧美一区另类中文字幕| 欧美日韩午夜| 亚洲国内精品自在自线官| 成年av福利永久免费观看| 久草视频福利在线观看| 欧美劲爆第一页| 亚洲男人的天堂网| 无码精油按摩潮喷在线播放| 亚洲美女视频一区| 日韩国产亚洲一区二区在线观看| 国产一级二级在线观看| 91极品美女高潮叫床在线观看| 亚洲精品国产日韩无码AV永久免费网| a级毛片免费在线观看| 在线网站18禁| 这里只有精品在线| 99精品热视频这里只有精品7| 国产精品夜夜嗨视频免费视频| 亚洲一级毛片免费看| 一级毛片在线免费看| 久久网综合| 青青操视频在线| 熟妇丰满人妻av无码区| 国产精品久久久久久久伊一| 欧美性天天| 黄色福利在线| 国产91丝袜在线播放动漫| 国产不卡一级毛片视频| 国产免费网址| 三级视频中文字幕| 激情无码字幕综合| 最新加勒比隔壁人妻| 一级毛片基地| 久久精品无码专区免费| 亚洲性日韩精品一区二区| 亚洲精品成人福利在线电影| 一级不卡毛片| 亚洲精品成人福利在线电影| 国产91丝袜| 一区二区理伦视频| 欧美午夜视频在线| 欧美乱妇高清无乱码免费| 久久久精品无码一区二区三区| 国产成人综合日韩精品无码不卡| 精品无码人妻一区二区| 青青青视频91在线 | 国产精品久久久久婷婷五月|