999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語(yǔ)義社交網(wǎng)絡(luò)中用戶信息提取與影響力分析

2018-07-27 01:07:00潘善亮
關(guān)鍵詞:排序語(yǔ)義用戶

邱 望,潘善亮

(寧波大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)研究所,浙江 寧波 315211)

1 引 言

21世紀(jì)是一個(gè)信息爆炸增長(zhǎng)的時(shí)代,人們能夠從外在的世界接收到豐富的信息,同時(shí)也渴望讓更多人接收到自己的信息.隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展和移動(dòng)端硬件與通信技術(shù)的快速升級(jí),人們可以非常快速和方便的獲取與傳遞各種信息.社交網(wǎng)絡(luò)由于其內(nèi)容豐富、時(shí)效性強(qiáng)、影響范圍大以及交互性強(qiáng)等特點(diǎn),在人們發(fā)布信息、溝通交流和工作生活等方面扮演著不可替代的角色.社交網(wǎng)絡(luò)主要是通過(guò)實(shí)時(shí)熱點(diǎn)、興趣點(diǎn)和名人等媒介將用戶聯(lián)系起來(lái),讓用戶愿意參與到其中從而保持活力,因此有影響力的人或事物在社交網(wǎng)絡(luò)中具有非常重要的作用.

社交網(wǎng)絡(luò)的海量數(shù)據(jù)和其巨大的關(guān)系網(wǎng)絡(luò)提供了非常大的價(jià)值,但同時(shí)也使得社交網(wǎng)站系統(tǒng)需要負(fù)擔(dān)越來(lái)越大的數(shù)據(jù)處理工作,因此需要一種更好的網(wǎng)絡(luò)關(guān)系結(jié)構(gòu)來(lái)提高系統(tǒng)的效率.語(yǔ)義網(wǎng)(Semantic Web)技術(shù)[1]為這個(gè)問題提供了一種可能的解決方案,它的思想是為每個(gè)事物添加一個(gè)或多專屬文檔,在文檔中使用結(jié)構(gòu)化的RDF(Resource Description Framework)[2]數(shù)據(jù)定義該事物與其它事物的語(yǔ)義關(guān)系,計(jì)算機(jī)可以根據(jù)給定的推理規(guī)則自動(dòng)推算出事物之間的關(guān)系.其中,F(xiàn)OAF(Friend of a friend)[3]是語(yǔ)義網(wǎng)中最受關(guān)注的項(xiàng)目之一,它被用于構(gòu)建基于語(yǔ)義社交網(wǎng)絡(luò)(Semantic Social Network).FOAF簡(jiǎn)檔(FOAF profiles)中的信息是由用戶自己添加維護(hù),其中的信息具有穩(wěn)定可靠性,所以將語(yǔ)義網(wǎng)技術(shù)用于社交網(wǎng)絡(luò)可以建立一個(gè)信任度較高的關(guān)系網(wǎng)絡(luò).要研究社交網(wǎng)絡(luò),首先需要一種能夠高效準(zhǔn)確提取信息的方法.由于RDF數(shù)據(jù)標(biāo)簽化的特點(diǎn)和FOAF簡(jiǎn)檔的隱性關(guān)系模式,提取用戶信息的關(guān)鍵就在于尋找相關(guān)聯(lián)的站點(diǎn),從站點(diǎn)中獲取FOAF文檔并解析出有效的信息.另一方面,尋找有影響力的用戶也是非常重要.為了計(jì)算用戶的影響力,需要根據(jù)FOAF簡(jiǎn)檔中不同的語(yǔ)義信息得到個(gè)體之間的不同關(guān)系,據(jù)此量化用戶站點(diǎn)的重要性.

本文通過(guò)分析語(yǔ)義社交網(wǎng)絡(luò)中各實(shí)體與資源之間的鏈接情況得到實(shí)體鏈接模型,定義了一種FOAF簡(jiǎn)檔的通用特征模式,以此為基礎(chǔ)提出一種識(shí)別和發(fā)現(xiàn)有效FOAF簡(jiǎn)檔的方法;使用RDF解析器提取出FOAF簡(jiǎn)檔中的三元組信息并根據(jù)語(yǔ)義關(guān)系轉(zhuǎn)儲(chǔ)為關(guān)系型數(shù)據(jù),對(duì)重復(fù)和冗余的數(shù)據(jù)進(jìn)行融合處理;根據(jù)實(shí)體的直接或間接的依賴關(guān)系計(jì)算依賴度權(quán)值,根據(jù)語(yǔ)義關(guān)系計(jì)算語(yǔ)義權(quán)值,據(jù)此計(jì)算出用戶站點(diǎn)的影響力大小并對(duì)其進(jìn)行排序,最終得到社交網(wǎng)絡(luò)中各用戶站點(diǎn)影響力的情況.

2 相關(guān)工作

隨著語(yǔ)義網(wǎng)技術(shù)研究的深入,語(yǔ)義社交網(wǎng)絡(luò)也受到了研究人員的關(guān)注,研究的內(nèi)容多種多樣,其中包括語(yǔ)義爬蟲、RDF數(shù)據(jù)分析、社交內(nèi)容的潛在信息、社會(huì)影響力和語(yǔ)義本體模型分析等.不同的文獻(xiàn)也從不同的研究角度提出解決的辦法.

許多文獻(xiàn)在提取用戶信息時(shí)是通過(guò)使用頁(yè)面中的超鏈接,采用類似傳統(tǒng)的HTML頁(yè)面爬蟲來(lái)抓取站點(diǎn)中的FOAF簡(jiǎn)檔,這種方法會(huì)遺漏大量相關(guān)的FOAF資源.文獻(xiàn)[4]對(duì)語(yǔ)義社交網(wǎng)絡(luò)的鏈接結(jié)構(gòu)進(jìn)行了研究分析,使用FOAF本體語(yǔ)義和語(yǔ)義Web推理技術(shù)對(duì)在線社交網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了分析.但該方法并未對(duì)RDF數(shù)據(jù)進(jìn)行分析處理,并且未對(duì)網(wǎng)絡(luò)中的實(shí)體鏈接模型進(jìn)行分析,使得FOAF中相關(guān)聯(lián)的站點(diǎn)資源沒有被搜索到,最終得到的用戶關(guān)系網(wǎng)絡(luò)較稀疏和散亂.在RDF數(shù)據(jù)解析方面,由于FOAF屬性支持自定義,因此解析的數(shù)據(jù)會(huì)有很多的不常用屬性.Petrovic G在文獻(xiàn)[5]中提出的SoNeR模型提供了一種爬取RDF數(shù)據(jù)的方法并對(duì)數(shù)據(jù)進(jìn)行排序,同時(shí)使用Levenshtein距離來(lái)判斷字符串的相似度,但是該方法爬取到的數(shù)據(jù)中包含了很多不相關(guān)的FOAF簡(jiǎn)檔,同時(shí)計(jì)算字符串相似度的方法能夠優(yōu)化.

在計(jì)算影響力方面,已有的研究工作大都是面向傳統(tǒng)結(jié)構(gòu)的社交網(wǎng)絡(luò),文獻(xiàn)[6]對(duì)已有的一些工作進(jìn)行了總結(jié),從網(wǎng)絡(luò)拓?fù)洹⒂脩粜袨楹徒换バ畔⒌榷鄠€(gè)方面總結(jié)了影響力分析的建模和度量方法,由于影響因素非常多,這些方法的準(zhǔn)確度很高,但同時(shí)也有很高的復(fù)雜度.在語(yǔ)義結(jié)構(gòu)化的社交網(wǎng)絡(luò)中可以使用更高效的方法.在已有的語(yǔ)義社交網(wǎng)絡(luò)影響力的相關(guān)研究中,很多文獻(xiàn)都是側(cè)重于語(yǔ)義關(guān)聯(lián),而沒有充分考慮到不同的語(yǔ)義屬性應(yīng)該有不同的權(quán)值.文獻(xiàn)[7]提出了一種自發(fā)的RDF收集系統(tǒng)Falcons,從Swoogle上發(fā)現(xiàn)了271 178個(gè)站點(diǎn)并進(jìn)行了排序,但該系統(tǒng)并未考慮站點(diǎn)之間語(yǔ)義屬性的影響因素,在重要度的計(jì)算和排序上可以進(jìn)一步優(yōu)化.Jennifer等在文獻(xiàn)[8]中使用了FOAF來(lái)計(jì)算社交網(wǎng)絡(luò)中用戶之間的信任度關(guān)系,該模型能夠得到間接關(guān)聯(lián)用戶之間的關(guān)系,該方法計(jì)算信任度時(shí)取0和1來(lái)代表不信任和信任,但在實(shí)際中信任度應(yīng)該是一個(gè)0到1之間的值,需要根據(jù)語(yǔ)義屬性量化出用戶影響力大小.TwitterRank[9]從用戶和鏈接結(jié)構(gòu)之間主題相似性的影響入手,以此來(lái)識(shí)別社交網(wǎng)絡(luò)中有影響力的用戶,這種方法為計(jì)算語(yǔ)義社交網(wǎng)絡(luò)用戶的影響力提供了思路.

現(xiàn)在的問題在于大多數(shù)信任度的計(jì)算方法都是基于傳統(tǒng)的超鏈接方式,很多都不適用于語(yǔ)義社交網(wǎng)絡(luò)中.這些方法從社交網(wǎng)絡(luò)中提取的RDF數(shù)據(jù)有效率較低,往往會(huì)得到大量的與用戶信息無(wú)關(guān)的FOAF簡(jiǎn)檔;由于RDF/XML格式的特點(diǎn),直接從FOAF簡(jiǎn)檔中讀取數(shù)據(jù)并進(jìn)行計(jì)算需要花費(fèi)大量的時(shí)間且效率低下;在最后計(jì)算影響力的時(shí)候應(yīng)該考慮不同語(yǔ)義屬性的強(qiáng)弱程度.因此,針對(duì)以上得問題,本文提出一種完整的方法,能夠高效的提取用戶信息并進(jìn)行過(guò)濾,同時(shí)根據(jù)語(yǔ)義信息和關(guān)聯(lián)情況計(jì)算用戶的影響力.

3 用戶站點(diǎn)的發(fā)現(xiàn)與信息提取

3.1 語(yǔ)義社交網(wǎng)絡(luò)的鏈接模型

傳統(tǒng)的社交網(wǎng)絡(luò)系統(tǒng)中數(shù)據(jù)與實(shí)體之間不存在邏輯關(guān)系,因此從中找到實(shí)體之間的關(guān)系難度較大.研究者們通過(guò)超鏈接找到其他的HTML網(wǎng)頁(yè)[10],采用信息抽取的方法,找到用戶的歷史資料和交互信息來(lái)分析用戶的特征和傾向.但由于人行為的不確定性和其他各種客觀因素,這一過(guò)程產(chǎn)生的結(jié)果往往不夠精準(zhǔn)和全面.

在語(yǔ)義社交網(wǎng)絡(luò)中,描述用戶關(guān)系的數(shù)據(jù)都存儲(chǔ)在FOAF簡(jiǎn)檔中,以實(shí)體為中心,通過(guò)各種語(yǔ)義屬性與其他實(shí)體進(jìn)行關(guān)聯(lián).語(yǔ)義社交網(wǎng)絡(luò)中各種實(shí)體的鏈接模式與傳統(tǒng)的模式不同,因此需要定義其鏈接模型,以此為基礎(chǔ)來(lái)發(fā)現(xiàn)用戶站點(diǎn)和數(shù)據(jù).定義如下的概念:

SWS(Semantic web sites):語(yǔ)義網(wǎng)站點(diǎn),它提供了語(yǔ)義網(wǎng)信息和資源.

Model:模型,語(yǔ)義網(wǎng)信息所表現(xiàn)出來(lái)的RDF模型,一般是一個(gè)FOAF簡(jiǎn)檔,由RDF語(yǔ)句來(lái)描述站點(diǎn)的信息及關(guān)系圖.

Entity:實(shí)體.FOAF簡(jiǎn)檔中定義了一組對(duì)象、概念以及這些對(duì)象、概念之間關(guān)聯(lián)的描述,這些對(duì)象和概念的集合就是一個(gè)Entity.

SWR(Semantic web resource):語(yǔ)義網(wǎng)資源,即與Entity相關(guān)聯(lián)的對(duì)象.每個(gè)SWR都有一個(gè)URI(Uniform Resource Identifier,統(tǒng)一資源標(biāo)識(shí)符),這個(gè)URI可以是鏈接,也可以是地理位置,電話號(hào)碼或字符串等.通過(guò)SWR的URI可以找到這個(gè)站點(diǎn)與其他站點(diǎn)或?qū)嶓w之間的聯(lián)系.

根據(jù)以上的概念,用戶站點(diǎn)是一個(gè)SWS,這個(gè)SWS提供了描述用戶信息的Model,以FOAF簡(jiǎn)檔的形式來(lái)表示.FOAF簡(jiǎn)檔中包含一個(gè)或多個(gè)Entity,其中描述了該用戶與其他用戶或?qū)嶓w的具體關(guān)系.Entity中的FOAF屬性表明了與其相關(guān)的URI,當(dāng)這個(gè)URI也是一個(gè)SWS時(shí),即表示這兩個(gè)站點(diǎn)相關(guān),這樣站點(diǎn)之間就有了類似于傳統(tǒng)HTML網(wǎng)頁(yè)中超鏈接的連接關(guān)系.定義其鏈接模型如圖1所示.

圖1 語(yǔ)義社交網(wǎng)絡(luò)鏈接模型Fig.1 Semantic social network linking model

根據(jù)該模型可以獲取到大部分相關(guān)聯(lián)的用戶數(shù)據(jù),但由于SWR不一定指向SWS,也可能指向不包含RDF數(shù)據(jù)的其他實(shí)體,如果用戶A和用戶B同時(shí)指向一個(gè)非SWS對(duì)象,則表明他們?cè)趯?shí)際生活中可能存在間接關(guān)系.另外,在獲取到的FOAF簡(jiǎn)檔可能會(huì)存在很多無(wú)關(guān)的文檔,例如某些項(xiàng)目和公司的文檔,同樣需要對(duì)數(shù)據(jù)進(jìn)行處理和篩選.因此,我們?cè)诖嘶A(chǔ)之上,提出一種更有效和準(zhǔn)確的識(shí)別和發(fā)現(xiàn)在線FOAF簡(jiǎn)檔的方法,并將這種方法加入到FOAF簡(jiǎn)檔的解析中.

3.2 FOAF簡(jiǎn)檔的特征模式

我們可以很容易的測(cè)試出RDF文檔是否使用了FOAF命名空間,但是仍然需要提供明確的標(biāo)準(zhǔn)來(lái)確定文檔是否是FOAF簡(jiǎn)檔.由于FOAF簡(jiǎn)檔可能由具有各種意圖的不同作者發(fā)布,所以它并沒有固定的結(jié)構(gòu).雖然FOAF詞匯可以用于描述各種信息,但我們只關(guān)注包含個(gè)人信息的部分.為了給出FOAF簡(jiǎn)檔的正式定義,我們分析了本體語(yǔ)義和FOAF詞匯在使用的過(guò)程中所隱含的特征模式.使用以下3個(gè)特征模式定義嚴(yán)格的FOAF簡(jiǎn)檔D:

1)D是有效的RDF文檔,可以由RDF解析器驗(yàn)證它是否有效.

2)D使用FOAF命名空間.

3)D包含如圖2所示的RDF圖模式.在該圖中,A和B是兩個(gè)不同的rdfs:Resource實(shí)例,而C是一個(gè)使用FOAF命名空間的rdf:Property的實(shí)例.

圖2 FOAF簡(jiǎn)檔的特征模式Fig.2 FOAF profiles feature pattern

以上的特征模式可以排除掉絕大部分不含個(gè)人信息的文檔,因此,可以將其定義為FOAF簡(jiǎn)檔的通用模式.由于RDF/ XML通常用于編碼RDF,所以在本研究中我們只考慮以RDF/ XML編碼的RDF文檔.

根據(jù)上述模式,我們可以實(shí)現(xiàn)相應(yīng)的FOAF爬蟲和RDF數(shù)據(jù)解析器.FOAF簡(jiǎn)檔發(fā)現(xiàn)是一個(gè)迭代過(guò)程,由兩個(gè)步驟組成:

(i)使用網(wǎng)絡(luò)搜索引擎發(fā)現(xiàn)FOAF簡(jiǎn)檔潛在的鏈接;

(ii)運(yùn)行爬蟲發(fā)現(xiàn)新鏈接并進(jìn)行詞匯語(yǔ)義驗(yàn)證.

由于web搜索引擎將web文檔視為自由文本,我們將以上的3個(gè)特征模式轉(zhuǎn)換為有效查詢.根據(jù)第1種模式,我們只需要查詢足夠明確的使用了RDF模式的文檔[11],即帶有.rdf,.xrdf,.owl等后綴的文檔.雖然這些后綴并不完全,但卻能夠找到大量的有效的RDF文檔.根據(jù)第2和第3種特征模式,我們使用了搜索的關(guān)鍵字的方法,即在第1種模式得到的文檔中查找滿足第2特征和第3特征的關(guān)鍵字,這些關(guān)鍵字包括FOAF命名空間,foaf:knows等.FOAF本體的語(yǔ)義表明FOAF簡(jiǎn)檔是通過(guò)foaf:knows進(jìn)行連接,通過(guò)rdfs:seeAlso添加解釋,所以這種方法可以準(zhǔn)確的找到包含個(gè)人信息的有效FOAF簡(jiǎn)檔.

3.3 RDF數(shù)據(jù)的發(fā)現(xiàn)與解析

FOAF簡(jiǎn)檔是以RDF/XML格式存儲(chǔ)的,如果直接對(duì)其進(jìn)行處理,提取信息的難度會(huì)非常大,并且需要大量的內(nèi)存空間和時(shí)間.我們希望能夠只保留RDF語(yǔ)句中有用的數(shù)據(jù)而去掉大量的標(biāo)簽和符號(hào),最理想的做法是將其轉(zhuǎn)化為關(guān)系型數(shù)據(jù).使用關(guān)系型數(shù)據(jù)可以很明確的表示出用戶各個(gè)屬性與其他用戶的關(guān)系,同時(shí)程序處理關(guān)系型數(shù)據(jù)更加快速和簡(jiǎn)單.我們使用SPARQL查詢語(yǔ)言實(shí)現(xiàn)了一個(gè)RDF解析器[12]來(lái)處理FOAF簡(jiǎn)檔中的RDF數(shù)據(jù).

SPARQL(Simple protocol and RDF query language)是一種面向RDF的查詢語(yǔ)言,Jena提供了選擇、抽取等關(guān)系數(shù)據(jù)庫(kù)的查詢處理方法,能夠快速地提取RDF文件的信息.RDF解析器可以將RDF屬性和值提取出來(lái),根據(jù)RDF Schema的信息將RDF三元組分割成若干個(gè)組[13],同一組的詞放在同一張表中,然后以RDBMS中表格的形式存儲(chǔ)到關(guān)系型數(shù)據(jù)庫(kù)中.最后使用SQL語(yǔ)句執(zhí)行查詢,將不同表中的結(jié)果組合得到最終的結(jié)果.避免直接對(duì)RDF/XML格式的數(shù)據(jù)進(jìn)行操作,能夠有效的降低數(shù)據(jù)處理的復(fù)雜度,提高效率.

抓取FOAF簡(jiǎn)檔和解析數(shù)據(jù)的過(guò)程如圖3所示.

圖3中的Crawler和Parser分別是抓取FOAF簡(jiǎn)檔和解析FOAF簡(jiǎn)檔的工具.Crawler中使用到的SPARQL語(yǔ)句片段1所示:

圖3 FOAF抓取和解析流程Fig.3 FOAF crawling and parsing process

片段1:Crawler解析URL

PREFIX foaf:

PREFIX rdfs:

SELECT ?seeAlso

WHERE {

?x foaf:knows ?knowsPerson.

?knowsPerson rdfs:seeAlso ?seeAlso.

}

其中?seeAlso是可能包含URL的字段,它是FOAF簡(jiǎn)檔中rdfs:seeAlso屬性的值.在FOAF詞匯表的定義中,rdfs:seeAlso屬性表示一個(gè)資源可能提供關(guān)于主題資源的附加信息,一般該屬性的值是一個(gè)站點(diǎn)的URL地址,以rdf:resource來(lái)表示值.這個(gè)查詢中的?knowsPerson字段使用了前綴機(jī)制,當(dāng)FOAF簡(jiǎn)檔中同時(shí)存在foaf:knows和rdfs:seeAlso才會(huì)匹配得到有效的URL.

Parser工具用于提取FOAF簡(jiǎn)檔的其他屬性.Parser中使用到的SPARQL語(yǔ)句如片段2所示:

片段2:Parser解析URL

PREFIX foaf:

SELECT ?(tag)

WHERE{

foaf:(tag) ?(tag).

}

其中tag是一個(gè)變量,在程序中由函數(shù)傳入值,一般tag的值有mbox,weblog,msnChatID等等.該查詢語(yǔ)句會(huì)根據(jù)傳入值的變化而匹配不同的語(yǔ)句.例如,當(dāng)傳入的tag值為knows時(shí),該查詢將返回?knows的結(jié)果,匹配的是foaf:knows ?knows.其中seeAlso的格式與其他格式不一樣,需要在程序中進(jìn)行額外的判斷.

通過(guò)以上的幾個(gè)步驟,我們可以從RDF數(shù)據(jù)中提取到類似表1所示的數(shù)據(jù)表:

表1 FOAF解析結(jié)果Table 1 FOAF analysis results

通過(guò)關(guān)系數(shù)據(jù)庫(kù)表格之間的聯(lián)系,我們可以得到各個(gè)站點(diǎn)或?qū)嶓w之間的關(guān)聯(lián)情況,據(jù)此計(jì)算用戶的影響力.

4 用戶的影響力計(jì)算及排序

接下來(lái)分析數(shù)據(jù)信息以及整個(gè)網(wǎng)絡(luò)的關(guān)聯(lián)情況.對(duì)于一個(gè)社交網(wǎng)絡(luò),我們需要掌握用戶站點(diǎn)之間關(guān)聯(lián)的情況,知道哪些用戶是重要的,因此需要計(jì)算站點(diǎn)的重要性并進(jìn)行排序.根據(jù)前面部分的處理,數(shù)據(jù)已經(jīng)形成了以personId代表用戶站點(diǎn),語(yǔ)義屬性將其它站點(diǎn)關(guān)聯(lián)起來(lái)的模式.通過(guò)分析用戶站點(diǎn)之間的鏈接關(guān)系,找到站點(diǎn)間的依賴關(guān)系.一般來(lái)說(shuō),一個(gè)站點(diǎn)與越多其他站相關(guān)聯(lián),其影響力就越大.

在社交網(wǎng)絡(luò)影響力的研究中,最常用的排序算法有PageRank算法和HITS(Hypertext-Induced Topic Search)算法.本文同樣適合使用這兩種方法,因此我們以這兩種方法為原型,做出相應(yīng)的改進(jìn)和變形來(lái)對(duì)處理后的數(shù)據(jù)進(jìn)行分析.

4.1 語(yǔ)義權(quán)值和依賴度

在計(jì)算頁(yè)面重要度的時(shí)候,不僅需要知道哪些頁(yè)面之間存在鏈接,往往還需要根據(jù)內(nèi)容、時(shí)間等不同的特性來(lái)添加權(quán)重因子以得到更加符合實(shí)際情況的結(jié)果,這種方法稱為加權(quán)算法.語(yǔ)義社交網(wǎng)絡(luò)很適合使用加權(quán)計(jì)算,因?yàn)檎军c(diǎn)之間的連接關(guān)系通過(guò)屬性來(lái)表示.每個(gè)站點(diǎn)使用的屬性不同,同時(shí)每個(gè)屬性本身帶有語(yǔ)義,因此站點(diǎn)之間關(guān)聯(lián)程度的強(qiáng)弱也不同.例如,foaf:workIn和foaf:knows表明的關(guān)系程度顯然不一樣,一般情況下foaf:knows要強(qiáng)于foaf:workIn,所以當(dāng)同時(shí)存在這兩種屬性從站點(diǎn)A指向站點(diǎn)B時(shí),應(yīng)該使用不同的權(quán)值進(jìn)行計(jì)算.因此我們將屬性的語(yǔ)義因素量化成權(quán)值加入站點(diǎn)重要度計(jì)算中.另一方面,站點(diǎn)之間的鏈接情況代表著站點(diǎn)的依賴情況,同樣需要將其量化.在依賴度的計(jì)算中,不考慮鏈接的語(yǔ)義情況,只考慮站點(diǎn)關(guān)聯(lián)的數(shù)量.

我們以統(tǒng)計(jì)方法中的TF-IDF(Term Frequency-Inverse Document Frequency)為基礎(chǔ),進(jìn)行相應(yīng)的變化得到語(yǔ)義權(quán)值的計(jì)算方法.屬性頻率(Properties Frequency,PF)表示某個(gè)屬性在所有鏈接關(guān)系中被使用的頻繁程度,反向?qū)傩灶l率(Inverse Properties Frequency,IPF)用于平衡屬性的頻率值,我們將使用PF和IPF來(lái)計(jì)算屬性的語(yǔ)義權(quán)值.

對(duì)于一個(gè)語(yǔ)義社交網(wǎng)絡(luò)的站點(diǎn)依賴圖G=(V,E,W),G是一個(gè)帶權(quán)有向圖,V為站點(diǎn)的集合,E為站點(diǎn)之間聯(lián)系的邊集,W是邊的權(quán)值的集合,則:

(1)

(2)

其中,vi是目標(biāo)站點(diǎn),p是vi中要計(jì)算頻率的目標(biāo)屬性,f(p,vi)為屬性元素頻率,即vi站點(diǎn)目標(biāo)屬性p出現(xiàn)的次數(shù)與所有屬性次數(shù)的比值.則目標(biāo)站點(diǎn)vi的屬性p的權(quán)值可以由公式(3)得出:

weight(p,vi)=PF(p,vi)×IPF(p,V)

(3)

以上計(jì)算方法中,PF值表示某個(gè)屬性出現(xiàn)的頻率,而IPF表示某個(gè)屬性普遍重要性的度量,最后用兩者的乘積來(lái)表示屬性p的語(yǔ)義權(quán)值.

屬性的語(yǔ)義權(quán)值僅考慮了單獨(dú)站點(diǎn)的影響,并未考慮間接相關(guān)的站點(diǎn)之間的影響,因此還需要計(jì)算站點(diǎn)的依賴度.本文通過(guò)每個(gè)站點(diǎn)中不同屬性所指向的URI之間的聯(lián)系來(lái)量化站點(diǎn)依賴度.同樣對(duì)于帶權(quán)有向圖G,vi站點(diǎn)對(duì)于vj站點(diǎn)的依賴度權(quán)重計(jì)算如下:

(4)

其中,dep(vi,vj)表示依賴度權(quán)重,u表示vj站點(diǎn)依賴的URI,dep(u,vj)表示vj站點(diǎn)對(duì)u的依賴度,它的計(jì)算方法如下:

(5)

(6)

公式(6)中,如果兩個(gè)URI是相關(guān)聯(lián)的,則規(guī)定依賴度為1,反之則為0.其中ulink_tou′表示一個(gè)站點(diǎn)依賴的u與另一個(gè)站點(diǎn)依賴的u′相關(guān)聯(lián),這種關(guān)聯(lián)關(guān)系可以是直接相關(guān),也可以是間接相關(guān).以上計(jì)算的含義是,站點(diǎn)vi對(duì)站點(diǎn)vj的依賴度由vi所依賴的URI與vj所依賴的URI的關(guān)聯(lián)情況決定,當(dāng)一個(gè)站點(diǎn)所依賴的URI與另一個(gè)站點(diǎn)所依賴的URI通過(guò)直接或間接的關(guān)聯(lián)越多時(shí),該站點(diǎn)對(duì)另一個(gè)站點(diǎn)具有越高的依賴度.通過(guò)這種方式將網(wǎng)絡(luò)中其他站點(diǎn)對(duì)目標(biāo)站點(diǎn)的影響程度量化成權(quán)值,在排序的過(guò)程中進(jìn)行加權(quán)的定量計(jì)算.

在確定語(yǔ)義權(quán)值和依賴度權(quán)值的計(jì)算方法之后,我們將其應(yīng)用于影響力計(jì)算和排序中.

4.2 SWPR和SWHITS排序

根據(jù)之前的分析,一個(gè)站點(diǎn)的重要度應(yīng)該由它所依賴屬性的語(yǔ)義權(quán)值和其他相關(guān)站點(diǎn)的依賴度共同決定,因此我們將這兩個(gè)加權(quán)因子加入到了PageRank和HITS算法中,分別稱為語(yǔ)義加權(quán)PageRank(SWPR)算法和語(yǔ)義加權(quán)HITS(SWHITS)算法.

SWPR的含義是,如果某個(gè)站點(diǎn)被越多其他站點(diǎn)依賴,則表明該站點(diǎn)越重要.在計(jì)算過(guò)程中,會(huì)根據(jù)依賴度和相關(guān)屬性的語(yǔ)義因素進(jìn)行加權(quán)運(yùn)算,以sw_PR值作為站點(diǎn)重要性的指標(biāo),sw_PR值越高代表站點(diǎn)的重要性越大.每個(gè)站點(diǎn)的sw_PR值都會(huì)被迭代計(jì)算若干次,在每一次的計(jì)算中,站點(diǎn)的語(yǔ)義權(quán)值s_weight和依賴度權(quán)值dep都會(huì)被加入,同時(shí)每次迭代計(jì)算后站點(diǎn)的sw_PR值都會(huì)發(fā)生變化,這樣間接相關(guān)的站點(diǎn)對(duì)目標(biāo)站點(diǎn)的影響就加入到了sw_PR值的計(jì)算中.迭代過(guò)程將一直持續(xù)到結(jié)果趨于收斂,最終得到所有站點(diǎn)的sw_PR值,據(jù)此進(jìn)行排序.sw_PR值的計(jì)算規(guī)則如公式(7)所示:

(7)

SWHITS分別從站點(diǎn)的入度和出度兩方面進(jìn)行計(jì)算,入度的大小代表站點(diǎn)被依賴的情況,以sw_Auth值為指標(biāo),出度的大小代表站點(diǎn)依賴其它站點(diǎn)的情況,以sw_Hubs值為指標(biāo).一個(gè)站點(diǎn)的sw_Auth越大,就表示它被越多的站點(diǎn)依賴,而sw_Hubs值越大則表示它依賴越多的其他站點(diǎn).計(jì)算規(guī)則如公式(8)和公式(9)所示:

(8)

(9)

在計(jì)算中,所有站點(diǎn)初始的sw_Auth(v)值和sw_Hubs(v)值均為1.同樣迭代計(jì)算所有站點(diǎn)的值,每次計(jì)算之后站點(diǎn)的sw_Auth值和sw_Hubs值都將發(fā)生變化.每一次迭代完成后,所有節(jié)點(diǎn)的入度值sw_Auths的平方和需要進(jìn)行標(biāo)準(zhǔn)化,出度值sw_Hubs也是如此,即:

(10)

其中t表示迭代的進(jìn)行的次數(shù),通過(guò)標(biāo)準(zhǔn)化得到第(t+1)次迭代計(jì)算的值sw_Auth(vi)(t+1)和sw_Hubs(vi)(t+1),閾值同樣設(shè)定為10-7,在計(jì)算結(jié)果小于該閾值時(shí)得到最終結(jié)果.

這兩種排序算法中,以sw_PR值得到結(jié)果與以sw_Auth值得到的結(jié)果比較接近,因?yàn)檫@兩種方法都是根據(jù)站點(diǎn)被其它站點(diǎn)依賴的情況進(jìn)行計(jì)算.SWPR排序的優(yōu)點(diǎn)在于最終的結(jié)果與實(shí)際更接近,而SWHITS排序可以知道站點(diǎn)的中心性和樞紐性情況.在原始的HITS算法中存在TKC現(xiàn)象(Tightly Knit Community effect),即如果一個(gè)網(wǎng)絡(luò)中部分站點(diǎn)形成了一個(gè)內(nèi)聚度很高的簇,則會(huì)導(dǎo)致這個(gè)簇中的節(jié)點(diǎn)在排名中會(huì)有很高的Auth值和Hubs值.它們這些特點(diǎn)可以作為最終排序結(jié)果的準(zhǔn)確性的參考標(biāo)準(zhǔn)之一.

5 實(shí)驗(yàn)與分析

實(shí)驗(yàn)用Java語(yǔ)言編寫,在JDK1.8.0的環(huán)境下運(yùn)行.實(shí)驗(yàn)所用到的核心工具包括FOAF簡(jiǎn)檔解析依賴的Apache Jena 2.1.1和關(guān)系型數(shù)據(jù)庫(kù)工具jdbc及mysql相關(guān)的jar包.數(shù)據(jù)來(lái)源于國(guó)外的一個(gè)規(guī)模較大的語(yǔ)義社交網(wǎng)站Advogato(http://www.advogato.org).該網(wǎng)站是一個(gè)軟件開發(fā)者用于交流和分享的平臺(tái),為所有用戶站點(diǎn)和項(xiàng)目提供了FOAF簡(jiǎn)檔,可用于群體信任度量和其他社交網(wǎng)絡(luò)技術(shù)的研究測(cè)試.

5.1 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)爬取了21360個(gè)FOAF簡(jiǎn)檔,包含82149個(gè)用戶,101025條關(guān)系和2413個(gè)FOAF屬性.在解析RDF文檔時(shí)我們對(duì)一些不重要的屬性進(jìn)行了刪除,即在101025條關(guān)系中出現(xiàn)次數(shù)小于101次的屬性(實(shí)際上很多屬性都只出現(xiàn)過(guò)幾次).由于社交網(wǎng)絡(luò)具有大量的無(wú)效用戶,為了計(jì)算方便,我們僅保留了4295個(gè)有效用戶和46812條關(guān)系.同時(shí)使用了基于認(rèn)知語(yǔ)言學(xué)的WordNet詞典對(duì)重復(fù)站點(diǎn)和同義屬性進(jìn)行了合并,最終剩下25個(gè)常用的屬性.

最終的排序結(jié)果分別如下所示(只展示排名最前的7位,保留5位小數(shù)).

表2 影響力排序結(jié)果Table 2 Influence ranking results

我們對(duì)排序結(jié)果進(jìn)行了分析.從表2中可以看到用戶federico,alan,miguel,rms,raph都出現(xiàn)在SWPR和SWHITS (Auths)排序的前7位中.經(jīng)過(guò)查找,我們發(fā)現(xiàn)這些用戶都是該網(wǎng)站中非常受歡迎的博主、項(xiàng)目的負(fù)責(zé)人或技術(shù)專家.他們擁有大量的關(guān)注者,很多用戶的FOAF簡(jiǎn)檔中都會(huì)指向他們的站點(diǎn)、主頁(yè)、文章和項(xiàng)目等,因而這些站點(diǎn)具有很高的SWPR值和sw_Auths值,他們?cè)谏缃痪W(wǎng)絡(luò)中有很大的影響力.而SWHITS(Hubs)中排名靠前的用戶是網(wǎng)站中活躍度很高的用戶,他們關(guān)注了很多用戶和項(xiàng)目,他們的FOAF簡(jiǎn)檔關(guān)聯(lián)了很多用戶站點(diǎn)或URI,因而這些站點(diǎn)有很高的sw_Hubs值.實(shí)驗(yàn)結(jié)果與實(shí)際相符,證明該方法能夠得到正確的結(jié)果.

5.2 對(duì)比分析

由于受到人的主觀因素和各種其他因素的影響,網(wǎng)頁(yè)最終排序結(jié)果的好壞往往沒有固定的標(biāo)準(zhǔn),大部分時(shí)候還是需要人為的查找實(shí)際數(shù)據(jù)進(jìn)行驗(yàn)證.在其他的工作中已經(jīng)有研究者用其提出的方法對(duì)收集到的數(shù)據(jù)進(jìn)行了實(shí)驗(yàn)和分析,為了檢驗(yàn)本文方法的有效性,我們將使用其他工作中的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),我們分別從以下兩個(gè)方面將本文方法與其他方法進(jìn)行對(duì)比.

1)發(fā)現(xiàn)的有效FOAF簡(jiǎn)檔占所有文檔的百分比,對(duì)比結(jié)果如圖4所示.

圖4 有效的FOAF簡(jiǎn)檔個(gè)數(shù)Fig.4 Number of valid FOAF profiles

從圖4中可以看出,直接通過(guò)語(yǔ)義社交網(wǎng)絡(luò)鏈接模型獲取FOAF簡(jiǎn)檔的有效率約為72.5%,而本文的特征模式發(fā)現(xiàn)可以達(dá)到91.8%,其中無(wú)效的部分大都是只有FOAF的定義模式而并沒有任何數(shù)據(jù)的空白文檔.有效率的提高表明,相比于原來(lái)的方法,本文的特征模式考慮了FOAF簡(jiǎn)檔的結(jié)構(gòu)特征和語(yǔ)義特征,能夠更加準(zhǔn)確的篩選出有效的簡(jiǎn)檔,過(guò)濾掉非個(gè)人信息的FOAF簡(jiǎn)檔.有效數(shù)據(jù)占比的增加能夠提高數(shù)據(jù)處理的效率和結(jié)果的可信度,同時(shí)也驗(yàn)證了該方法的可行性和有效性.

2)在評(píng)判語(yǔ)義權(quán)值與依賴度排序算法時(shí),我們選用文獻(xiàn)[15,16]中的幾種排序方法進(jìn)行對(duì)比,這些方法都只考慮兩個(gè)站點(diǎn)之間不同的關(guān)聯(lián)結(jié)構(gòu)而沒有考慮屬性的語(yǔ)義特征和整體的依賴關(guān)系.通過(guò)計(jì)算用戶站點(diǎn)之間的信任度來(lái)表示站點(diǎn)的重要性,我們采用NDCG(Normalized Discounted Cumulative Gain)來(lái)評(píng)判信任度的高低.NDCG一般用于評(píng)價(jià)搜索系統(tǒng)中排序的結(jié)果,它要考慮搜索結(jié)果的召回率和相關(guān)率.NDCG的定義為:

(11)

(12)

其中,reli表示第i個(gè)站點(diǎn)的信任度,p表示站點(diǎn)數(shù)量,IDCGp表示完美排序下DCGp的結(jié)果,最終NDCG的結(jié)果將在0-1之間,且值越大準(zhǔn)確率越高.完美排序結(jié)果通過(guò)分別計(jì)算每一個(gè)目標(biāo)站點(diǎn)的關(guān)系得出以盡量接近最準(zhǔn)確的結(jié)果,信任度則根據(jù)屬性語(yǔ)義的強(qiáng)弱賦予不同的系數(shù),由于屬性語(yǔ)義的強(qiáng)弱只能由人判定,因此我們?yōu)槠浞峙淞?-1之間不同的系數(shù).

基于以上的評(píng)判準(zhǔn)則,我們使用三種方法中結(jié)果相對(duì)更準(zhǔn)確的SWPR算法進(jìn)行計(jì)算.對(duì)若干個(gè)站點(diǎn)分別使用SWPR和文獻(xiàn)[14,15]中使用的幾種方法進(jìn)行排序,然后使用NDCG進(jìn)行打分,結(jié)果如表3所示.

表3 NDCG結(jié)果Table 3 NDCG results

其中k代表計(jì)算站點(diǎn)的數(shù)量.從表中可以看出SWPR算法具有更高的分?jǐn)?shù),雖然語(yǔ)義權(quán)值的度量本身存在人為因素,但在語(yǔ)義關(guān)系強(qiáng)弱一致的情況下,最終的結(jié)果仍然保持穩(wěn)定,因此我們可以認(rèn)為SWPR具有更好的效果.

6 結(jié)束語(yǔ)

隨著社交網(wǎng)絡(luò)的迅速發(fā)展,語(yǔ)義社交網(wǎng)絡(luò)提出了一種高度結(jié)構(gòu)化與高可信度的模式,對(duì)其特征的分析研究和構(gòu)建更健全的社交系統(tǒng)具有非常重要的意義.用戶影響力的計(jì)算和分析對(duì)研究社交網(wǎng)絡(luò)演化、個(gè)體行為特征、信息傳播模式等問題都有很大的幫助.本文主要介紹了從語(yǔ)義社交網(wǎng)絡(luò)中發(fā)現(xiàn)用戶站點(diǎn),提取和處理用戶信息,并根據(jù)用戶的語(yǔ)義關(guān)系計(jì)算影響力大小從而進(jìn)行排序的方法及其實(shí)現(xiàn).其中每一個(gè)部分都可以作為獨(dú)立的模塊應(yīng)用在其他相關(guān)的研究工作中.實(shí)驗(yàn)結(jié)果顯示,該方法能夠很好的處理語(yǔ)義社交網(wǎng)絡(luò)的數(shù)據(jù)和信息,準(zhǔn)確的分析出網(wǎng)絡(luò)中用戶和實(shí)體的關(guān)聯(lián)情況.

本文的方法還有改進(jìn)的地方,下一步的工作主要包括:進(jìn)一步優(yōu)化社交網(wǎng)絡(luò)的鏈接模型,對(duì)FOAF簡(jiǎn)檔的特征模式進(jìn)行改進(jìn),找到更準(zhǔn)確的用戶關(guān)系;考慮用戶屬性的個(gè)性化和多元化,改進(jìn)語(yǔ)義屬性合并算法;考慮不同屬性的語(yǔ)義,調(diào)整排序算法中權(quán)值和出入度的計(jì)算方法,提高排序的準(zhǔn)確度.

猜你喜歡
排序語(yǔ)義用戶
排序不等式
恐怖排序
語(yǔ)言與語(yǔ)義
節(jié)日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
認(rèn)知范疇模糊與語(yǔ)義模糊
主站蜘蛛池模板: 国产精品一线天| 九九视频免费看| 久夜色精品国产噜噜| 国产亚洲高清在线精品99| 中文字幕亚洲电影| 久久人搡人人玩人妻精品一| 黄色不卡视频| 性视频久久| 午夜福利在线观看成人| 欧美日韩一区二区在线免费观看 | 一边摸一边做爽的视频17国产| 无码福利视频| 久久国产高清视频| 福利在线一区| 久热精品免费| 欧美区一区| 亚洲成人精品久久| www.亚洲一区二区三区| 一级毛片免费观看久| 欧美一区二区人人喊爽| 丰满人妻中出白浆| 91视频国产高清| 欧美成人精品高清在线下载| 国产欧美日韩另类精彩视频| h网站在线播放| 国产精品极品美女自在线网站| 午夜福利网址| 久久 午夜福利 张柏芝| 亚洲黄色激情网站| 美女高潮全身流白浆福利区| 国产精品13页| 日韩欧美国产三级| 国产日本欧美亚洲精品视| 国产9191精品免费观看| 国产精品综合久久久| 久久成人18免费| 91福利片| 999国内精品久久免费视频| 毛片免费视频| 国产午夜精品一区二区三区软件| 亚洲妓女综合网995久久| 国产乱人乱偷精品视频a人人澡| 国产精品乱偷免费视频| 亚洲欧美日韩另类| 国产日产欧美精品| 99精品免费欧美成人小视频 | 一级毛片在线播放| 激情無極限的亚洲一区免费| 丝袜国产一区| 久久久久亚洲av成人网人人软件 | 日韩 欧美 小说 综合网 另类| 无码中文AⅤ在线观看| 极品尤物av美乳在线观看| 99这里只有精品6| 91精品aⅴ无码中文字字幕蜜桃 | 成人一区在线| 国产区免费| 国产精品美女自慰喷水| 亚洲AV一二三区无码AV蜜桃| 精品久久久久无码| 欧美伦理一区| 午夜小视频在线| 亚洲成AV人手机在线观看网站| 国产剧情一区二区| 国产无码网站在线观看| 日本亚洲欧美在线| 国产在线精品美女观看| 在线免费观看AV| 国内丰满少妇猛烈精品播| 久久免费视频6| 中国一级特黄视频| 国产91丝袜在线观看| 日韩高清无码免费| 国产三区二区| 激情综合网激情综合| 精品国产免费观看| 国产门事件在线| 日本国产在线| 青青草一区| 中文字幕无线码一区| 亚洲视频a| 在线网站18禁|