999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺議語義相似度計算

2015-05-30 22:54:45楊凡
今日湖北·下旬刊 2015年1期

楊凡

摘 要 語義相似度研究的是兩個詞語的相似性,被廣泛應用于信息檢索、信息提取、文本詞義消歧、機器翻譯等領域中。本文介紹幾種主要的語義相似度計算方法,以供大家參考。

關鍵詞 語義相似度 詞義相似度 語義距離

一、引言

自然語言的詞語之間關系比較復雜,我們又時常要把這種復雜關系進行比較,所以要將其轉化為簡單的數量關系,再進行比較。語音相似度計算正是這樣的方法。

詞語的語義相似度計算有3種方法:基于知識體系的方法、基于語料庫的方法、基于網絡的方法。基于知識體系的方法,大多以WordNet作為基礎。WordNet是語義字典,它根據詞條的意義將詞語分組,每一個具有相同意義的字條組稱為一個synset(同義詞集合)。WordNet為每一個synset提供了簡短,概要的定義,并記錄不同synset之間的語義關系。它用概念之間的語義關系形成符合常識和語法的語義關系圖。基于信息量的方法主要是通過詞語上下文的信息,用統計的方法求解。基于網絡的方法,主要是利用搜索引擎的搜索結果進行計算。

二、語義相似度概念

信息論中任何兩個詞語的相似度取決于它們的共性(Commonality)和個性(Differences)。公式如下:

其中,分子表示描述A,B共性所需要的信息量;分母表示完整地描述A,B所需要的信息量。

劉群、李素建認為語義相似度就是兩個詞語在不同的上下文中可以互相替換使用而不改變文本的句法語義結構的程度。兩個詞語,如果在不同的上下文中可以互相替換且不改變文本的句法語義結構的可能性越大,二者的相似度就越高,否則相似度就越低。對于兩個詞語W1,W2如果記其相似度為Sim(W1,W2),其詞語距離為Dis(W1,Wz),根據劉群、李素建的公式:

其中a是一個可變參數,含義是當相似度為0.5時的詞語距離值。

相似度被定義為一個0到1之間的實數,當兩個詞語完全一樣時,相似度為1;是完全不同的概念時,它們的相似度接近于0。

三、語義相似度的計算方法

常用計算方法有基于知識體系的計算,基于大規模語料庫的計算,基于網絡的計算。

(一)根據分類體系計算詞語語義距離的方法

這種方法也稱為基于樹的語義相似度計算方法,大體分為兩種:一是基于距離的語義相似性測度;二是基于信息內容的語義相似性測度。主要是利用語義詞典,我們可以把概念看做節點,關系看作邊,這樣WordNet的結構就可以看作是圖結構。

(1)基于樹狀層次計算語義相似度的基本思想

這是以邊為距離來計算語義相似度。如果樹狀語義網中所有的邊即樹的分支是等長的,那么邊的數目可以作為距離的測度。假定要確定詞語W1.W2之間的語義相似度,可以在該語義網中首先找到包含待比較詞的那些子概念(或義原)。在此情況下,兩者之間的語義相似性可以用連二者之間的最短路徑來表示。例如,在圖1(取自Wordnet本體中的一小部分)中,kid和boy之間的最短路徑是}kid一juvenile一persor一male-girl,最小路徑長度為4。而educator和boy之間的最小路徑長度為5。因此,girl比teacher在語義上更接近于boy。該測度算法在基于Wordnet的語義網中獲得了較好的計算結果。

圖1

(2)基于《知網》hownet的語義相似度計算

知網(英文名稱為HowNet)是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內容的常識知識庫。其中描述了16種關系,如上下位關系、部件-整體關系、屬性-宿主關系等。《知網》中有兩個主要的概念:“概念(義項)”與“義原”。“概念”是對詞匯語義的一種描述。每一個詞可以表達為幾個概念。“概念”是用一種“知識表示語言”來描述的,這種“知識表示語言”所用的“詞匯”叫做“義原”。“義原”是用于描述一個“概念”的最小意義單位,用多個義原對概念進行描述。目前有1500多個義原,但可以組合數量龐大的詞匯。用義原計算可以有效提高效率,并且義原的相似度也可以根據其在義原樹中的位置得出。因此它并非樹狀結構,而是一種網狀結構;同時借助義原和符號對概念進行描述。對于兩個漢語詞語a和b:,如果A有n個義項(概念):sll,Slz}...,Sln,B有m個義項(概念):Szl,Szz,...}Sz}n,則詞語A和B的相似度是各個義項相似度的最大值,義項又由義原表示,這樣就將詞語相似度轉化為兩個詞語義原之間的相似度。并且由于義原在知網中所處的層次不同,它們在整體相似性中所占的比重也不一樣,對詞語相似性的影響程度也有所有不同。

(二)利用大規模的語料庫進行統計

語料庫語言學(Corpus Linguistics)是計算語言學的分支學科。它研究機器可讀的自然語言文本的采集、存儲、檢索、統計、語法標注、句法語義分析,以及具有上述功能的語料庫在語言定量分析、詞典編纂、作品風格分析、自然語言理解和機器翻譯等領域中的應用([HCN90])。語料庫語言學研究的基礎是機器可讀的大容量語料庫和一種易于實現的統計處理模型,兩者是相輔相成、缺一不可的。從本質上講,語料庫語言學的研究采用的是一種基于統計的經驗主義處理方法,它與傳統的基于規則的理性主義處理方法是不同的。

基于語料庫的詞語相似度研究大都采用了上下文語境的統計描述方法,即認同這樣一個論斷:詞語的上下文可以為詞語定義提供足夠信息。詞語向量空間模型是目前基于統計的詞語相似度計算策略使用比較廣泛的一種,算法復雜度也能夠實現的模型。該模型事先選擇一組特征詞,然后計算這一組特征詞與每一個詞的相關性(一般用這組詞在實際的大規模語料中以該詞在上下文中出現的頻率來度量),于是對于每一個詞都可以得到一個相關性的特征詞向量,然后利用這些向量之間的相似度作為這兩個詞的相似度。

(三)基于信息量的計算方法

一種是根據語義詞典樹的信息,根據樹狀結構中兩個節點所含的信息量大小(子結點數與樹中的所有結點數的比)來計算語義相似度。另一種是把Internet作為一個大型的語料庫,以搜索引擎返的結果數作為計算的依據。公式如下:

其中,NGD介于0與1之間,表示相似度.f(x),f(y)分別表示含概念x,y的網頁數,f(x,y)表示同時含有概念的網頁數,N表示搜索引擎引用的網頁總數。以詞語horse與rider為例,搜索詞語"horse”返回46700000(記為f(x))條結果,搜索詞語“rider"返回結果數為12200000記為.f'(y)),搜索同時含“horse,rider'的網頁數是2630000(記為f(x,y)),共引用的網頁數是

N=8058044651,代人上述公式(7)求得:

NGD(horse,rider)≈0.443

四、結束語

語音相似度應用廣泛,本文主要介紹了基于分類體系的語義相似度計算方法,以及基于搜索引擎的相似度計算方法。這些方法對于論文檢測等工作很大的推進作用。

(作者單位:襄陽職業技術學院)

主站蜘蛛池模板: 99国产精品国产| 欧美日本视频在线观看| 91色爱欧美精品www| 99久久性生片| 91精品国产91久久久久久三级| 99视频在线免费| 91www在线观看| 99热国产这里只有精品无卡顿"| 啦啦啦网站在线观看a毛片 | 亚洲第一国产综合| 国产成年女人特黄特色毛片免| 高清不卡毛片| 无码一区二区三区视频在线播放| 免费在线看黄网址| 中文成人无码国产亚洲| 天堂网亚洲系列亚洲系列| 久久精品波多野结衣| 成人年鲁鲁在线观看视频| 真实国产乱子伦高清| 欧美激情综合一区二区| 久久精品一卡日本电影| 亚洲资源在线视频| 亚洲三级视频在线观看| 久久精品嫩草研究院| 日韩欧美中文字幕在线韩免费| 亚洲成人黄色在线| 岛国精品一区免费视频在线观看 | 91无码人妻精品一区二区蜜桃| 福利在线免费视频| 中美日韩在线网免费毛片视频| 国产精品一区二区久久精品无码| 三级视频中文字幕| 天天综合网色| a级毛片网| 欧美精品1区| 久久精品无码中文字幕| 97综合久久| 久久天天躁夜夜躁狠狠| 亚洲天堂福利视频| 国产在线拍偷自揄拍精品| 国产在线观看一区精品| 伊人精品视频免费在线| 色男人的天堂久久综合| 高清不卡毛片| 日韩国产欧美精品在线| 91精品国产综合久久不国产大片| 欧美亚洲另类在线观看| 波多野结衣在线se| 99久久精品国产综合婷婷| 在线国产综合一区二区三区 | 91精品国产91久无码网站| 71pao成人国产永久免费视频| 毛片在线播放网址| 五月婷婷亚洲综合| 国产成人1024精品下载| 免费三A级毛片视频| 久久婷婷六月| 日韩不卡高清视频| 福利视频久久| 亚洲丝袜第一页| 精品一区二区三区自慰喷水| 亚洲综合婷婷激情| 男女性午夜福利网站| 在线免费观看AV| 青青草久久伊人| 国产美女91呻吟求| 精品视频一区在线观看| 国产对白刺激真实精品91| 制服丝袜一区二区三区在线| 国产SUV精品一区二区| 亚洲天堂.com| 亚洲黄网在线| 亚洲精品第一在线观看视频| 婷婷午夜影院| 国产欧美在线视频免费| 69视频国产| 亚洲丝袜中文字幕| av免费在线观看美女叉开腿| 亚洲av无码片一区二区三区| 亚洲一区波多野结衣二区三区| 亚洲最大情网站在线观看| 99久久国产自偷自偷免费一区|