999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語義與統(tǒng)計相結(jié)合的中文微博相似度計算方法

2017-05-17 18:55:07李楚貞
數(shù)字技術與應用 2017年3期
關鍵詞:語義

摘要:文本相似度在自然語言處理領域中有著廣泛的應用?;谡Z義的相似度計算方法能比較準確地反映詞語之間的復雜關系,而基于統(tǒng)計的相似度計算方法能發(fā)掘詞語中潛在的相關性。微博文本具有稀疏性、實時性、不規(guī)范性等特點,文章在綜合兩者優(yōu)勢的基礎上,提出了一種語義和統(tǒng)計相結(jié)合的中文微博相似度計算方法。實驗證明該方法在各項指標上都優(yōu)于單一的相似度計算方法。

關鍵詞:相似度計算;語義;統(tǒng)計

中圖分類號:TP391.1 文獻標識碼:A 文章編號:1007-9416(2017)03-0231-02

文本相似度計算在文本分類、文本聚類、信息檢索等自然語言處理領域有著廣泛的應用。相比詞語相似度計算,文本相似度計算不僅要識別句子結(jié)構(gòu)、語義關系,還要考慮語境問題。針對這一問題,目前許多研究是把文本相似度計算轉(zhuǎn)換為計算文本中詞語之間的相似度,它通常是通過抽取出文本中所有的名詞和動詞,再計算它們之間的相似度。

目前,常用的文本相似性計算方法主要有基于語義的相似度計算方法和基于統(tǒng)計的相似度計算方法?;谡Z義的相似度計算方法能較準確地反映出詞語之間的復雜關系,但它需要借助本體論,而本體論資源的是否完整又決定了這種計算方法的準確性?;诮y(tǒng)計的相似度計算方法計算量大,且需要大規(guī)模的文本集,而文本集質(zhì)量的好壞又直接決定計算結(jié)果的優(yōu)劣。微博文本具有稀疏性、實時性、不規(guī)范性等特點,導致傳統(tǒng)的相似度計算方法都很難適用。因此,本文把基于語義和基于統(tǒng)計的計算方法兩者結(jié)合起來,提出一種組合相似度計算方法,即語義和統(tǒng)計相結(jié)合的相似度計算方法。

1 常見相似度計算方法

1.1 基于語義的文本相似度計算

基于語義的文本相似度計算常以本體論作為背景知識。目前常用的本體論主要有Framenet、Wordnet和Hownet(知網(wǎng)),而Hownet(知網(wǎng))是最為著名的采用漢語描述的本體論。在知網(wǎng)中,用概念來對詞匯語義進行描述,每個詞可以表達為幾個概念,而概念又由義原來描述。對于同義詞、近義詞不僅用來表述它的義原是確定的,而且義原的組合形式也是確定的。在計算詞匯語義相似度時,較多是采用劉群、李建素提出的基于《知網(wǎng)》的詞匯語義相似度計算公式,即,各符號代表詳見文獻[1]。

1.2 基于統(tǒng)計的文本相似度計算

基于統(tǒng)計的文本相似度計算方法中最常用的是基于向量空間模型的TF-IDF方法。向量空間模型是1975年Salton等人提出,它是被廣泛使用的模型之一。它把每一個文本表示成一個向量,向量的每一維表示文本的一個特征[2],形式為:,其中,為特征項在文本中的權值,為特征集的大小[3]。計算特征項的權值使用TF-IDF公式,即,其中,表示特征項在文本中出現(xiàn)的次數(shù),N表示全部文本數(shù)目,表示出現(xiàn)特征項的文本數(shù)?,F(xiàn)假設有兩個文本,,則與之間的相似度計算可用下面幾種常用的方法:

2 語義與統(tǒng)計相結(jié)合的中文微博相似度計算

本文綜合基于語義和基于統(tǒng)計兩種相似度計算的優(yōu)勢,提出了語義與統(tǒng)計相結(jié)合的中文微博相似度計算方法。下面詳細介紹其算法。

2.1 算法第一步,即計算基于語義的文本相似度

在計算微博文本的相似度時,必須對每條微博文本進行預處理,如分詞、詞性過濾、停用詞過濾、詞頻統(tǒng)計。經(jīng)過預處理后,每條文本只剩下高頻的、有實際意義的動詞和名詞。本文考慮到不同詞性的詞語在語義上其相似度比較低,所以在進行語義相似度計算時先進行詞性分類表示,即把文本向量中詞性為名詞的歸為一類,詞性為動詞的歸為另一類。假設微博文本用向量表示為={},如果是名詞,是動詞,則詞性分類后該文本向量表示為={},再分別計算文本中名詞集合和動詞集合的相似度,最后加權平均,得到的就是兩條微博文本的語義相似度。

3 實驗結(jié)果與分析

在驗證算法的有效性之前需要先確定它的加權系數(shù),即和的取值。本文抓取新浪微博數(shù)據(jù)7124條,利用SinglePass算法分別計算和9種不同取值的F值。實驗結(jié)果證明,為0.4,為0.6時,F(xiàn)值最大,因此,本文提出的組合相似度計算公式中取0.4,取0.6[6]。

為了驗證組合相似度算法的有效性,本文借助SinglePass算法分別比較語義相似度、統(tǒng)計相似度和組合相似度三種不同計算策略的性能,結(jié)果如圖1所示。

通過圖1可以看出,相比語義相似度和統(tǒng)計相似度,采用組合相似度計算策略在各項性能指標上都比較好,這說明引入詞匯語義和相關度的相似度策略能夠更好地識別相關的主題。

參考文獻

[1]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[C]//第三界漢語詞匯語義學研討會.臺北,2002:59-76.

[2]Salton G,Wong A,Yang C S. A Vector Space Model for Automatic Indexing[J]. Communication of the ACM, 1975,18(11):613-620.

[3]鄭慶華,劉均,田鋒,孫霞.Web知識挖掘:理論、方法與應用[M].北京:科學出版社,2010.

[4]趙應秋,羅軍,張君艷.基于知網(wǎng)的詞語語義相關度計算[J].信息技術,2010(3):90-93.

[5]Peat H J,Willet P.The limitations of term cooccurrence data for query expansion in document retrieval systems.Journal of American Society for Information Science,1991,42(5):378-383.

[6]李楚貞.中文微博主題層次識別方法研究[D].廣東技術師范學院,2014.

猜你喜歡
語義
為什么字看久了就不認識了
語言與語義
“社會”一詞的語義流動與新陳代謝
“上”與“下”語義的不對稱性及其認知闡釋
“吃+NP”的語義生成機制研究
長江學術(2016年4期)2016-03-11 15:11:31
“V+了+NP1+NP2”中V的語義指向簡談
認知范疇模糊與語義模糊
“V+X+算+X”構(gòu)式的語義功能及語義網(wǎng)絡——兼及與“V+X+是+X”構(gòu)式的轉(zhuǎn)換
語言與翻譯(2014年2期)2014-07-12 15:49:25
“熊孩子”語義新探
語文知識(2014年2期)2014-02-28 21:59:18
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
主站蜘蛛池模板: 欧美午夜在线视频| 午夜精品久久久久久久99热下载| 亚洲最大看欧美片网站地址| 久久99国产综合精品女同| 成人毛片免费在线观看| 国产精品美女网站| aa级毛片毛片免费观看久| 中国国产高清免费AV片| 多人乱p欧美在线观看| 欧美午夜视频在线| 中文字幕天无码久久精品视频免费 | 91麻豆国产在线| 亚洲国产91人成在线| 国产精品自在线拍国产电影 | 香蕉精品在线| 蜜桃臀无码内射一区二区三区| 亚洲日本一本dvd高清| 欧美三級片黃色三級片黃色1| 久久亚洲国产视频| 国产香蕉97碰碰视频VA碰碰看| 日韩亚洲高清一区二区| 欧美亚洲日韩中文| 一级毛片在线播放免费| 白浆免费视频国产精品视频| 欧美国产日韩在线| 久久国产精品电影| 欧美另类一区| 国产成人久视频免费| 色婷婷丁香| 久久精品无码中文字幕| 亚洲欧美人成人让影院| 中字无码精油按摩中出视频| 国产成人无码播放| 国产女人爽到高潮的免费视频| 亚洲精品无码抽插日韩| 高h视频在线| 97超爽成人免费视频在线播放| 国产在线一区视频| 国产成人亚洲精品无码电影| 久久久久九九精品影院| 国产午夜福利片在线观看| 国产毛片网站| 欧美激情视频二区| 天天做天天爱夜夜爽毛片毛片| 欧美一级大片在线观看| 国产尤物视频网址导航| 伊人国产无码高清视频| 小说 亚洲 无码 精品| 老司国产精品视频91| 久久久久免费精品国产| 美女无遮挡免费视频网站| 国产成人亚洲综合A∨在线播放| 小说 亚洲 无码 精品| 成年人福利视频| 日本在线亚洲| 国产99久久亚洲综合精品西瓜tv| 91视频免费观看网站| 亚洲人成亚洲精品| 欧美午夜理伦三级在线观看| 精品视频一区二区三区在线播| 国产三级视频网站| 国产尹人香蕉综合在线电影 | 亚洲欧美自拍中文| 国产又粗又爽视频| 亚洲国产欧美目韩成人综合| 亚洲精品无码AⅤ片青青在线观看| 黄色网页在线播放| 福利一区在线| 久久公开视频| 狠狠色噜噜狠狠狠狠色综合久| 亚洲中文无码av永久伊人| 日韩精品无码不卡无码| 青青青国产在线播放| 午夜丁香婷婷| 午夜色综合| a色毛片免费视频| 丝袜国产一区| 国产乱子伦手机在线| 日韩在线永久免费播放| 国产三级国产精品国产普男人| 亚洲欧洲免费视频| 亚欧乱色视频网站大全|