999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

短文本語(yǔ)義相似度計(jì)算研究

2019-10-23 11:23:20張敏
微型電腦應(yīng)用 2019年10期
關(guān)鍵詞:語(yǔ)義單詞詞匯

張敏

(西安翻譯學(xué)院 工程技術(shù)學(xué)院, 西安 710105)

0 引言

文本相似度計(jì)算方法在文本分類、信息檢索、提取摘要、機(jī)器翻譯自動(dòng)評(píng)估方法、文本摘要等大型文檔或同義詞測(cè)試等自然語(yǔ)言處理和相關(guān)領(lǐng)域的應(yīng)用中已有很長(zhǎng)的歷史,文本相似度的度量方法也被發(fā)現(xiàn)對(duì)文本一致性的評(píng)價(jià)有幫助[1]。在網(wǎng)絡(luò)信息呈爆炸性增長(zhǎng)的互聯(lián)網(wǎng)時(shí)代,如何高效利用網(wǎng)絡(luò)信息,對(duì)自然語(yǔ)言處理領(lǐng)域的研究有著更高的要求。

在文本相似度計(jì)算方面,AGI RREE[2]等人通過(guò)計(jì)算在WordNet中詞節(jié)點(diǎn)之間上下位關(guān)系構(gòu)成的最短路徑來(lái)計(jì)算詞語(yǔ)之間的相似度。許多學(xué)者也考慮到其他因素對(duì)語(yǔ)義距離的影響,如SU J等人[3]根據(jù)兩個(gè)詞的公共祖先節(jié)點(diǎn)的最大信息量來(lái)衡量?jī)蓚€(gè)詞的語(yǔ)義相似度; Dekang Lin[4]等人在計(jì)算詞語(yǔ)的語(yǔ)義相似度時(shí),除了節(jié)點(diǎn)間的路徑長(zhǎng)度外,還考慮到概念層次樹(shù)的深度和區(qū)域密度的影響。王斌[5]利用《同義詞詞林》作為語(yǔ)義詞典計(jì)算漢語(yǔ)詞匯的相似度;在語(yǔ)義相似度計(jì)算領(lǐng)域中,劉群[6]等對(duì)“知網(wǎng)”的知識(shí)描述語(yǔ)言進(jìn)行了研究。該方法采用了“整體的相似度等于部分相似度加權(quán)平均”的做法,充分利用了“知網(wǎng)”中對(duì)每個(gè)概念進(jìn)行描述時(shí)的豐富的語(yǔ)義信息,得到的結(jié)果與人的直覺(jué)比較符合。但該方法對(duì)于相關(guān)性詞語(yǔ)(如法院和警察)的相似度計(jì)算方面與人的直覺(jué)比較不符合,影響在文本分類,文本聚類,文檔自動(dòng)文摘等領(lǐng)域的應(yīng)用。此外江敏[7]等人又在劉群的基礎(chǔ)上,加入義原間的反義、對(duì)義關(guān)系來(lái)計(jì)算詞語(yǔ)的相似度。吳健[8]等人提出了一種基于本體論的詞匯相似度計(jì)算方法。

本文提出了一種利用成分詞的相似性信息來(lái)度量文本語(yǔ)義相似性的度量方法。我們描述了單詞語(yǔ)義相似度度量,并展示了如何使用它們來(lái)推導(dǎo)一個(gè)文本到文本的相似度度量。通過(guò)對(duì)釋義識(shí)別任務(wù)的評(píng)估,我們證明了這種文本語(yǔ)義相似度的度量方法優(yōu)于現(xiàn)有的相似度方法。

1 短文本語(yǔ)義相似度

給定兩個(gè)輸入文本段,我們希望自動(dòng)得出一個(gè)分?jǐn)?shù),表明它們?cè)谡Z(yǔ)義級(jí)別上的相似性,從而超越了傳統(tǒng)上用于此任務(wù)的簡(jiǎn)單詞匯匹配方法。雖然我們承認(rèn)一個(gè)綜合的文本語(yǔ)義相似度指標(biāo)也應(yīng)該考慮到文本的結(jié)構(gòu),但我們首先分析了這個(gè)問(wèn)題,并試圖將文本的語(yǔ)義相似度作為組成詞的語(yǔ)義相似度的函數(shù)來(lái)建模。我們通過(guò)將詞與詞之間的相似性和詞的特異性指標(biāo)結(jié)合到一個(gè)公式中來(lái)實(shí)現(xiàn)這一點(diǎn)。給定輸入的兩個(gè)文本段T1和T2,用公式(1)計(jì)算兩個(gè)文本段之間的相似性,如式(1)。

(1)

給定一個(gè)詞與詞之間的相似性度量和一個(gè)詞的特異性度量,我們使用一個(gè)度量來(lái)定義兩個(gè)文本段T1和T2的語(yǔ)義相似性,該度量依次結(jié)合了每個(gè)文本段相對(duì)于另一個(gè)文本段的語(yǔ)義相似性。首先,對(duì)于T1段中的每個(gè)單詞w,我們嘗試根據(jù)下一節(jié)描述的單詞間相似性度量方法之一,識(shí)別T2段中語(yǔ)義相似度最高的單詞(max(sim(w,T2)))。接下來(lái),同樣的過(guò)程被應(yīng)用于確定T1中最相似的單詞,從T2中的單詞開(kāi)始,然后,用對(duì)應(yīng)的詞的特異性對(duì)詞的相似性進(jìn)行加權(quán),求和,并根據(jù)每個(gè)文本段的長(zhǎng)度進(jìn)行標(biāo)準(zhǔn)化,最后,使用平均值將得到的相似度評(píng)分組合在一起。注意,只有開(kāi)放類單詞和基數(shù)可以參與這個(gè)語(yǔ)義匹配過(guò)程。正如前面使用基于向量的模型對(duì)文本相似性所做的工作一樣,所有虛詞都被丟棄。

這樣我們可以給兩個(gè)特定詞匯之間的語(yǔ)義匹配識(shí)別以更高的權(quán)重(例如,警察和特警),并給通用概念之間的相似性測(cè)量以較低的權(quán)重(例如,成為)。雖然單詞的特異性已經(jīng)在一定程度上由它們?cè)谡Z(yǔ)義層次中的深度來(lái)衡量,但是我們使用基于語(yǔ)料庫(kù)的單詞特異性度量來(lái)加強(qiáng)這一因素,該度量基于從大型語(yǔ)料庫(kù)中學(xué)習(xí)到的分布信息。

這個(gè)相似度得分在0和1之間,1表示相同的文本段,0表示兩個(gè)段之間沒(méi)有語(yǔ)義重疊。除了相似的單詞,我們也考慮到詞語(yǔ)特異性, 單詞的特異性是由Sparck-Jones[9]引入的逆文檔頻率(idf)確定的,它的定義是語(yǔ)料庫(kù)中的文檔總數(shù)除以包含該單詞的文檔總數(shù),然后將得到的商取對(duì)數(shù),計(jì)算公式如式(2)。

(2)

|D|:語(yǔ)料庫(kù)中的文件總數(shù),|{j:wi∈dj}|:包含詞語(yǔ)wi的文件數(shù)目(即ni,j≠0的文件數(shù)目)如果該詞語(yǔ)不在語(yǔ)料庫(kù)中,就會(huì)導(dǎo)致被除數(shù)為零,因此一般情況下使用1+|{j:wi∈dj}|

2 實(shí)驗(yàn)

通過(guò)實(shí)例說(shuō)明文本相似性度量的應(yīng)用。給定兩個(gè)文本段,如下所示,我們想要確定一個(gè)反映它們語(yǔ)義相似性的評(píng)分。為了便于說(shuō)明,我們將注意力限制在一個(gè)基于語(yǔ)體的度量上,我們還通過(guò)在數(shù)據(jù)集[10]上找到它們的覆蓋范圍,來(lái)獲得語(yǔ)義相似度度量的適用性。

文本段1:When secretary and other employees entered the office for investment intention, some functionary and investors ignored them.

文本段2: When secretary and clerks walked into the office together with investment project, civil servants and holders showed contempt for them.

從兩個(gè)文本段中的每一個(gè)開(kāi)始,對(duì)于每個(gè)開(kāi)放類單詞,確定另一個(gè)文本段中最相似的單詞。如前所述,語(yǔ)義相似性只在詞性相同的詞之間存在。從第一個(gè)文本段開(kāi)始的單詞相似性評(píng)分和單詞特異性(idf),如表1所示。

表1 短文本中詞語(yǔ)相似度值和單詞特異性idf值

利用式(1),將單詞相似性及其對(duì)應(yīng)的特異性結(jié)合起來(lái),確定兩篇文章的語(yǔ)義相似性為0.79。這個(gè)相似度評(píng)分正確地識(shí)別了兩個(gè)文本段之間的釋義關(guān)系。盡管有一些詞同時(shí)出現(xiàn)在兩個(gè)句子中(如secretary,investment),但也有一些詞是不相同的,但卻緊密相關(guān)的(如: functionary,civil servants)。與傳統(tǒng)的基于詞匯匹配的相似度度量方法不同,我們的度量方法考慮了這些單詞的語(yǔ)義相似度,從而實(shí)現(xiàn)了更精確的文本相似度度量。

3 總結(jié)

實(shí)驗(yàn)證明,將語(yǔ)義信息納入文本相似度的測(cè)量中,大大增加了對(duì)隨機(jī)基線和基于向量余弦相似度基線的識(shí)別的可能性,余弦距離使用兩個(gè)向量夾角的余弦值作為衡量?jī)蓚€(gè)個(gè)體間差異的大小,更加注重兩個(gè)向量在方向上的差異,而不是位置,適合于網(wǎng)絡(luò)短文本相似度計(jì)算。基于向量的余弦相似基線,使用一種將幾個(gè)相似度指標(biāo)結(jié)合在一起的方法來(lái)達(dá)到最佳的性能,在數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,語(yǔ)義相似度方法優(yōu)于基于簡(jiǎn)單詞匯匹配的方法,其整體精確度提高,誤差率顯著降低。

猜你喜歡
語(yǔ)義單詞詞匯
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
語(yǔ)言與語(yǔ)義
單詞連一連
本刊可直接用縮寫的常用詞匯
看圖填單詞
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語(yǔ)義模糊
本刊一些常用詞匯可直接用縮寫
最難的單詞
主站蜘蛛池模板: 一区二区自拍| 免费jjzz在在线播放国产| 老司国产精品视频91| 免费在线一区| 精品伊人久久大香线蕉网站| 亚洲,国产,日韩,综合一区| 久久黄色小视频| 亚洲人成色77777在线观看| 欧美日韩另类国产| 色婷婷综合激情视频免费看| 亚洲第一中文字幕| 欧美精品1区2区| 日韩乱码免费一区二区三区| 日本免费新一区视频| 福利一区在线| 伊人天堂网| 欧美在线视频不卡第一页| 亚洲国产精品日韩欧美一区| 日本五区在线不卡精品| 亚洲日韩欧美在线观看| 激情综合图区| 91亚洲视频下载| 国产91精品调教在线播放| 日韩高清无码免费| 好久久免费视频高清| 欧美日韩免费| 国产夜色视频| 亚洲人成网址| 亚洲欧美极品| 日韩免费中文字幕| 中文字幕第1页在线播| 精品三级网站| 亚洲天堂成人| 黄色a一级视频| 欧美精品v日韩精品v国产精品| 精品99在线观看| 在线毛片免费| 免费一级大毛片a一观看不卡| 色综合五月婷婷| 日韩高清一区 | …亚洲 欧洲 另类 春色| 国产精品一老牛影视频| 亚洲成A人V欧美综合| 五月婷婷丁香色| 国产综合欧美| 午夜小视频在线| 欧亚日韩Av| 天天躁夜夜躁狠狠躁图片| 视频二区亚洲精品| 91网站国产| 国产丝袜精品| 2020最新国产精品视频| 九色视频在线免费观看| 国产欧美中文字幕| 亚洲天堂在线免费| 日本道中文字幕久久一区| 久久久久免费看成人影片 | 91色在线观看| 九九热视频在线免费观看| 亚洲午夜18| 亚洲欧美日韩综合二区三区| 亚洲男人的天堂网| 91亚洲视频下载| 久久永久视频| 亚洲无码久久久久| 欧美亚洲国产精品第一页| 伊人91在线| 国产一区二区人大臿蕉香蕉| 久久夜色精品国产嚕嚕亚洲av| 色综合国产| 亚洲欧洲日产国产无码AV| 91精品国产丝袜| 黄色a一级视频| 欧美日韩国产成人高清视频| 国产午夜一级淫片| 亚洲久悠悠色悠在线播放| 欧美色图第一页| 午夜成人在线视频| 波多野结衣第一页| 欧洲成人在线观看| 日本少妇又色又爽又高潮| 亚洲精品第一页不卡|