999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于語義相似度的P2P數據查詢方法

2014-02-24 08:59:23南京航空航天大學210000
電子測試 2014年23期
關鍵詞:語義單詞概念

林 曉(南京航空航天大學,210000)

一種基于語義相似度的P2P數據查詢方法

林 曉
(南京航空航天大學,210000)

目前P2P網絡中數據查詢在語義方面的研究較少,而基于DHT的數據檢索只支持準確查詢,導致查詢準確率不高,但是好的索引項的建立會給查詢帶來很大的方便。本文結合了RDF和WordNet在語義方面的特點提出了一種新的簡易RDF概念列表來表示文檔,并通過計算語義相似度來決定輸出結果的P2P數據查詢方法。仿真實驗證明本文方法可以較好的提高查詢成功率。

P2P網絡;簡易RDF概念列表;語義相似度;數據查詢

0 引言

在是P2P網絡應用中,數據查詢是經常需要使用到一個基本功能,如何在大數據、大應用的P2P系統中快速準確地找到滿足給定條件的數據,是P2P網站能夠順利運行關鍵環節。但是當前許多研究都只是單純地考慮節點或文檔間的距離因素而忽略了語義對查詢結果的影響,而基于分布式哈希表DHT(Distributed Hash Table)的方法也只支持精確查詢,對文檔的搜索返回不相關的內容經常會對搜索準確率產生影響,再者由于索引不當,搜索不到有關文檔還會影響到搜索的召回率。為此,本文提出一種新的簡易RDF概念列表表示法來表示文檔,并通過基于語義相似度的計算來進行數據查詢的P2P搜索方法。使用簡易RDF概念列表來表示文檔,提高索引方面的能力,并通過計算查詢消息和表示文檔的概念列表之間的語義相似度來決定二者的匹配程度,從而提高查詢準確率。

1 文檔表示方法

1.1 現有文檔表示方法

節點上的文檔如何表示對P2P系統中的數據查詢尤為重要,因為它決定著整個查詢的索引效率。一個好的索引項的建立對于整個系統的查詢效率的提高起著舉足輕重的作用。目前大多數文檔表示方法是基于向量空間模型的,以單一向量表示一篇文檔,每個向量的元素作為文檔中單詞的出現頻率和權重。另外,文獻提出的方法未考慮單詞出現頻率對語義相似度的影響,而只是單純將名詞列表作為文檔的搜索形式。

1.2 簡易RDF概念列表表示法

本文采用簡易RDF概念列表表示法對文檔進行表示。RDF(Resource Description Framework)是一個應用程序框架,允許將資源描述為結構化的數據并在不同的應用程序之間交換和重用這些資源。它可以提供結構化的元數據來標記資源,資源擁有的屬性可以被定義為一個擁有相應屬性值的屬性類。例如我們可以把文檔所屬的類別作為文檔的一個屬性來描述,關于體育方面的文檔我們將其類別屬性標識為sports,娛樂方面的文檔我們將其類別屬性標識為entertainment等等。根據RDF的這個特殊性能,我們提出的簡易RDF概念列表把文檔表示為單詞和詞頻組成的二元組列表的形式:

2 語義相似度的計算

在WordNet對語義相似度計算的研究中,一個最顯著的特征是以單詞的含義來代替原有的拼寫形式來組織詞匯信息,單詞間的三種主要語義關系分別為:整體部分關系(meronymy)、遺傳關系(inheritance)、以及反義關系(antonymy),這些關系將對我們計算語義相似度提供很大幫助。

2.1 單詞間語義相似度的計算

文獻[4]給出了兩個單詞間的語義距離的定義

當單詞有多個含義時,單詞間的語義距離是兩個單詞中任意兩個含義間語義距離的最小值,即

2.2 查詢相似度的計算

本文中查詢相似度定義如下:

由于事先已有簡易RDF概念列表中的一項作為屬性來標識文檔主題,不屬于同一主題的文檔我們認為其相似度為0,如兩篇分別類屬于entertainment和sports的文檔,可以認為二者沒有相似性。在兩個文檔屬于同一主題的情況下比較二者的語義相似度可以避免更多的計算來提高查詢效率。

3 數據查詢過程

我們用圖1給出的圖形簡單的表示網絡拓撲結構,圖中字母標識的圓圈用來表示網絡中的節點,各圓圈之間的連線表示節點之間的連接關系,有連線的表示節點為鄰居關系,可以相互通信。把這種機制應用到P2P網絡中,可以增強節點之間的聯通性,因為節點不僅可以查詢到自己的鄰居節點信息,還可以查詢鄰居的鄰居甚至更多,將會提高查全率從而更好地提高查準率。

圖1 拓撲結構圖

3.1 相關工作

單個節點的數據表為:(1)節點自身建立的本地資源索引表LRIT(Local Resource Indexed Table),用來記錄本地文檔列表。節點A的LRIT如下表1所示:(2)與該節點相關聯的鄰居節點資源索引表NRIT(Neighbor Resource Indexed Table),用來保存鄰居節點所包含的文檔列表。節點A的NRIT如下表2所示:

表1 節點A的LRIT

表2 節點A的NRIT

3.2 查詢過程

第一步:對LRIT進行檢查,若無合適選項,則跳入步驟四;

第五步:若查詢無返回標志,則輸入NULL。

這里使用生存值TTL(Time To Live)來防止消息的無限轉發帶來的網絡堵塞問題。由查詢過程可以看出最后的返回結果可能不能包含所有用戶給出的關鍵詞,這也是區別于精確查詢的地方。

4 實驗結果與分析

為了驗證本文提出的基于語義相似度的P2P查詢方法的有效性,通過仿真實驗針對不同查詢次數下的查詢成功率與Gnutella方法做了對比,結果證明本文方法查詢成功率較高。

5 結束語

本文通過結合RDF和WordNet在語義方面的特征提出一種新的文檔表示方法——簡易RDF概念列表法,并通過計算查詢和文檔之間的語義相似度來確定查詢結果。仿真實驗證明本文方法可以很好的提高查詢成功率,但是下一步的工作還要對其在帶寬利用率和查詢路徑方面的高效性做深一步的研究,以便進一步證明該方法的實用性和科學性。

[1] John Rission,Tim Moors.Survey of research towards robust peer-to-peer networks:Search methods [J] Computer Networks 50(2006)3485-3521.

圖2 查詢成功率比較(查詢次數數量級為104)

[2] Pandya A,Bhattacharyya P.Text similarity measurement using concept representation of texts[C]//Proceedings of First International Conference on Pattern Recognition and MachineIntelligence.Berlin,Germany:Springer,2005:678-689.

[3] Roy R ,Mili H ,Blettner M .Development andapplication of a metric on semantic nets[J]. IEEE Transaction of a metric on System,Man and Cybernetics,1989,19(1):17-30

[4] Song Shaoxu,,Li Chunping.TCUAP: a novel approach of text clustering using asymmetric proximity[C]// Proceedings of the 2nd Indian International Conference on Artificial Intelligence.India: IICAI 2005:604-613

[5] 顏偉,荀恩東.基于WordNet的英語詞語相似度計算[A].第二屆全國學生計算語言學研討會[C],2004.

[6] Sai Ho Kwok.P2P Searching trends:2002-2004. Information Processing and Management 42(2006):237-247

[7] 孫爽,章勇.一種基于語義相似度的文本聚類算法[J].南京航空航天大學學報,2006,389(6):712-716.

Research of P2P Data Query Based on Semantic Similarity

Lin Xiao
(Nanjing University of Aeronautics & Astronautics,210000)

There is less research on data query of P2P network based on semantic,and data query based on DHT can only support precise query ,so the precision is not high.But a good query index can play an important role and help enhance the success ratio.This paper introduced a new data query approach,which integrated RDF with WordNet based on their semantic feature and use a new description method to describe document ,which is called simple RDF concept list.The query result is decided by the semantic similarity computed by our new formula.It is approved that the new method is advanced in improving the query success ratio.

P2P network;simple RDF concept list;semantic similarity;data quer

林曉(1979-),女,浙江溫州人,南京航空航天大學黨政辦公室對外聯絡辦公室主任,碩士,助理研究員,研究方向為高等教育管理。

中央高校基本業務費項目(NR2014024,NR2014059)

猜你喜歡
語義單詞概念
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
單詞連一連
學習集合概念『四步走』
看圖填單詞
聚焦集合的概念及應用
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
最難的單詞
主站蜘蛛池模板: 亚洲成人在线网| 美女被操黄色视频网站| 亚洲欧美在线看片AI| 国产精品尹人在线观看| …亚洲 欧洲 另类 春色| 国产国产人成免费视频77777| 手机在线免费毛片| 免费一级全黄少妇性色生活片| 国产美女主播一级成人毛片| 国产欧美高清| 毛片视频网| 亚洲人成影院在线观看| 999精品色在线观看| 无码丝袜人妻| 91色在线视频| 天天综合天天综合| 亚洲区第一页| 亚洲成网777777国产精品| 亚洲水蜜桃久久综合网站| 久久综合色88| 亚洲Av综合日韩精品久久久| 色婷婷电影网| 免费在线看黄网址| 国产欧美日韩免费| 狠狠久久综合伊人不卡| 久久精品亚洲专区| 欧洲在线免费视频| 无码人中文字幕| 在线免费亚洲无码视频| 沈阳少妇高潮在线| 国产一级在线观看www色| 天堂网亚洲综合在线| 免费人成视网站在线不卡| 亚洲欧美不卡| 麻豆精品在线| 免费一级无码在线网站| 成人夜夜嗨| 国产簧片免费在线播放| 日本人妻一区二区三区不卡影院 | 人妻无码AⅤ中文字| 99久久精品美女高潮喷水| 五月婷婷亚洲综合| 91色爱欧美精品www| 成人小视频网| 五月天婷婷网亚洲综合在线| 国产精品天干天干在线观看| 在线观看精品国产入口| 97久久免费视频| 国产成人h在线观看网站站| 亚洲国产精品久久久久秋霞影院| 成人毛片免费在线观看| 国产精品深爱在线| 激情综合婷婷丁香五月尤物 | 欧美色99| 国产精品久久久精品三级| 亚洲嫩模喷白浆| 成人久久精品一区二区三区| 久久香蕉国产线| 好吊日免费视频| 日本在线免费网站| 草逼视频国产| 在线播放精品一区二区啪视频| 福利片91| 午夜精品一区二区蜜桃| 亚洲日韩精品无码专区97| 国产免费黄| 国产成人永久免费视频| 免费国产黄线在线观看| 亚洲精品无码AV电影在线播放| 国产成人精品在线| 欧美成人综合视频| 国产激情无码一区二区APP | 国产簧片免费在线播放| 国产h视频免费观看| 日韩欧美中文字幕在线韩免费| 欧美视频在线不卡| 国产杨幂丝袜av在线播放| 国产精品亚洲欧美日韩久久| 亚洲中文在线看视频一区| 国产成人综合亚洲欧洲色就色| 久久这里只有精品66| 一区二区三区成人|