999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

RGNE:粗糙?;木W(wǎng)絡(luò)嵌入式重疊社區(qū)發(fā)現(xiàn)方法

2020-06-23 09:21:34張澤華張晨威
計算機研究與發(fā)展 2020年6期
關(guān)鍵詞:信息方法

趙 霞 張澤華 張晨威 李 嫻

1(太原理工大學(xué)信息與計算機學(xué)院 太原 030024)2(伊利諾伊大學(xué)芝加哥分校計算機科學(xué)學(xué)院 美國芝加哥 60607)

互聯(lián)網(wǎng)技術(shù)的快速演進(jìn),社交網(wǎng)絡(luò)已成為大數(shù)據(jù)時代的重要載體.通過社區(qū)結(jié)構(gòu)對網(wǎng)絡(luò)進(jìn)行描述,可簡化對整個網(wǎng)絡(luò)的功能、交互及其演化的研究.社區(qū)發(fā)現(xiàn)有助于更深地了解網(wǎng)絡(luò)的本質(zhì),獲取推薦信息、預(yù)測網(wǎng)絡(luò)的演化等.社區(qū)發(fā)現(xiàn)的目標(biāo)是利用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息或者網(wǎng)絡(luò)節(jié)點的屬性信息,從復(fù)雜的網(wǎng)絡(luò)中獲得模塊化的社區(qū)結(jié)構(gòu).社區(qū)發(fā)現(xiàn)旨在探測復(fù)雜社交網(wǎng)絡(luò)中具有共性特征或緊密關(guān)系的群體,例如有相同的愛好、屬于同一個研究領(lǐng)域等.目前它在社會學(xué)、生物醫(yī)學(xué)和計算機科學(xué)等領(lǐng)域都有廣泛應(yīng)用[1].

社區(qū)發(fā)現(xiàn)研究已有眾多工作,主要方法有:1)基于模塊度優(yōu)化的方法,主要思想是優(yōu)化模塊度Q值[2].如Newman等人[3]提出的GN算法,它雖然結(jié)果較為精確但是計算復(fù)雜度太高.2)基于譜分析的社區(qū)發(fā)現(xiàn)算法,例如Shi等人[4]提出的方法結(jié)合一種經(jīng)典的計算特征值的方法來進(jìn)行局部社區(qū)發(fā)現(xiàn).這類算法多通過將節(jié)點對應(yīng)的矩陣特征分量視為空間坐標(biāo),從而可將網(wǎng)絡(luò)節(jié)點映射到多維向量空間,再采用傳統(tǒng)的聚類算法將它們聚集成社團.但由于需要計算矩陣的特征值,通常計算開銷很大.3)基于標(biāo)簽傳播的算法(label propagation algorithm, LPA)[5-6],這類算法時間復(fù)雜度低、收斂速度快,但易受隨機游走的影響,劃分結(jié)果不穩(wěn)定.4)基于聚類的社區(qū)發(fā)現(xiàn)方法,它的基本思想是在網(wǎng)絡(luò)中增加或是刪除邊[7].以上這些硬劃分方法都有一個前提條件,就是要保證社區(qū)是易分離的,每個元素都可被劃分到某個社區(qū).然而現(xiàn)實中復(fù)雜網(wǎng)絡(luò)存在大量不確定因素,如數(shù)據(jù)含有噪聲、節(jié)點屬性不完備等,這也導(dǎo)致一些節(jié)點屬于多個社區(qū)形成重疊社區(qū)[8-9],使用硬劃分可能會造成劃分沖突現(xiàn)象.如何利用這些不確定性信息挖掘更加精確的社區(qū)結(jié)構(gòu)成為一大挑戰(zhàn).

針對社區(qū)邊界不確定社區(qū)漂移的情況,張澤華等人[10]提出了基于鄰域粗糙化的社區(qū)局部擴張方法,通過給出的結(jié)構(gòu)穩(wěn)定性度量進(jìn)行局部擴張生成重疊社區(qū).本文則進(jìn)一步考慮融合多源信息解決不確定網(wǎng)絡(luò)中的社區(qū)發(fā)現(xiàn)問題.由于社區(qū)發(fā)現(xiàn)的結(jié)果很大程度會受到節(jié)點間距離測度的影響,對于復(fù)雜空間中分布的數(shù)據(jù)使用傳統(tǒng)的距離測度方法難以取得較好的效果.為了得到良好的社區(qū)發(fā)現(xiàn)結(jié)果,節(jié)點對之間的相似性度量起重要的作用.直觀認(rèn)知若2個節(jié)點相似,則很可能會有共同或類似的鄰居節(jié)點.而本文采用網(wǎng)絡(luò)嵌入方法獲得的節(jié)點表示有效融合了網(wǎng)絡(luò)的結(jié)構(gòu)和屬性信息,可以更好地描述節(jié)點結(jié)構(gòu)和節(jié)點間的相似性.但由于現(xiàn)實不確定性的廣泛存在,噪聲數(shù)據(jù)、節(jié)點屬性或結(jié)構(gòu)不完整,均會導(dǎo)致難以進(jìn)行社區(qū)發(fā)現(xiàn)或是得到的社區(qū)結(jié)構(gòu)不準(zhǔn)確.

因此,本文提出了粗糙?;木W(wǎng)絡(luò)嵌入(network embedding based on rough granulation, RGNE)方法進(jìn)行社區(qū)發(fā)現(xiàn).首先,使用網(wǎng)絡(luò)嵌入將網(wǎng)絡(luò)節(jié)點映射到一個低維連續(xù)的特征向量空間,同時還能保持網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和節(jié)點內(nèi)容信息,這樣考慮到了多層次的信息以便于對社區(qū)結(jié)構(gòu)進(jìn)行更有意義的理解.然后,結(jié)合粗糙?;姆椒▉硖幚砩鐓^(qū)中不確定性區(qū)域.最后生成重疊社區(qū).

本文的主要貢獻(xiàn)包括3個方面:

1) 提出了融合多源信息解決不確定網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)方法RGNE,該方法采用網(wǎng)絡(luò)嵌入方法來表示節(jié)點,同時考慮了網(wǎng)絡(luò)拓?fù)浜凸?jié)點屬性等多種信息.

2) 為了解決含有不確定信息的重疊社區(qū)發(fā)現(xiàn)問題,通過將傳統(tǒng)的聚類方法與粗糙粒化方法結(jié)合來準(zhǔn)確地處理網(wǎng)絡(luò)不確定區(qū)域.

3) 在公開數(shù)據(jù)集上與傳統(tǒng)的社區(qū)發(fā)現(xiàn)算法相比,RGNE方法的有效性明顯提升,并且對主要參數(shù)進(jìn)行討論;在人工數(shù)據(jù)集上本文算法顯示出分析較大規(guī)模網(wǎng)絡(luò)的優(yōu)勢.

1 相關(guān)工作

1.1 網(wǎng)絡(luò)嵌入

復(fù)雜的信息網(wǎng)絡(luò)可以看做是由頂點和邊(鏈接)構(gòu)成的有向或是無向圖,其中可能包含數(shù)十億的頂點和邊,在這樣的網(wǎng)絡(luò)上進(jìn)行推理和分析會非常困難.因此合理地對網(wǎng)絡(luò)進(jìn)行表示學(xué)習(xí)變得尤為重要.網(wǎng)絡(luò)嵌入方法(network embedding)[11]通過將網(wǎng)絡(luò)節(jié)點映射到一個連續(xù)低維的特征空間中,得到的節(jié)點表示有利于后續(xù)的機器學(xué)習(xí)任務(wù)如社區(qū)發(fā)現(xiàn)、分類、鏈路預(yù)測、可視化等[12].近年來網(wǎng)絡(luò)嵌入的研究如火如荼.早期的降維算法SVD(singular value decomposition)[13]是將所定義的矩陣壓縮為一個較小的矩陣,但是這樣的方法只能用于線性結(jié)構(gòu)的數(shù)據(jù);后來受到深度學(xué)習(xí)的啟發(fā),基于詞向量模型的表示學(xué)習(xí)算法相繼被提出.最有代表性的是Perozzi等人[14]提出DeepWalk算法,該算法采用SkipGram模型[15]來學(xué)習(xí)節(jié)點嵌入,克服了網(wǎng)絡(luò)稀疏性問題;由于DeepWalk只適用于無權(quán)網(wǎng)絡(luò),Tang等人[16]提出適用于多種類型網(wǎng)絡(luò)的LINE模型,通過一階相似性和二階相似性來捕捉網(wǎng)絡(luò)局部和全局結(jié)構(gòu);Le等人[17]提出了一種半監(jiān)督的模型Doc2Vec,該模型利用了豐富的文本信息來對詞向量和文檔向量建模,對文本信息豐富的網(wǎng)絡(luò)具有較好的效果.然而,這些基于DeepWalk的改進(jìn)模型或是只利用了網(wǎng)絡(luò)的結(jié)構(gòu)信息,或是只利用了屬性信息,無法全面地表示整個網(wǎng)絡(luò).所以,Pan等人[18]提出了將DeepWalk和Doc2Vec結(jié)合的TriDNR模型,該模型使用網(wǎng)絡(luò)結(jié)構(gòu)信息、節(jié)點內(nèi)容信息和標(biāo)簽信息來對節(jié)點進(jìn)行表示.為了捕獲高度非線性的網(wǎng)絡(luò)結(jié)構(gòu),Wang等人[19]提出了一種半監(jiān)督的深度模型SDNE,該模型通過一組非線性函數(shù)來優(yōu)化一階相似性和二階相似性,能將數(shù)據(jù)映射到高度非線性的空間.

從上述方法看來,現(xiàn)有網(wǎng)絡(luò)嵌入方法多僅利用單一的信息,但是結(jié)合多種信息源對網(wǎng)絡(luò)能有更加精準(zhǔn)的描述,所以本文核心工作就是利用多源信息對網(wǎng)絡(luò)節(jié)點進(jìn)行建模.

1.2 粗糙集理論

1982年由波蘭數(shù)學(xué)家Pawlak[20]提出的粗糙集理論是粒計算的一大支撐理論.它將概念粒子用集合來表示,不同粒度的粒子可視為對集合的劃分.作為一種被廣泛使用的智能計算方法,粗糙集理論能夠很好地處理不確定性問題,目前已經(jīng)被廣泛應(yīng)用到分類決策、知識發(fā)現(xiàn)、人工智能等領(lǐng)域[21-25].

人類認(rèn)識事物的過程就是對事物的理解從不確定到確定的過程,不確定是客觀事物在發(fā)展過程中表現(xiàn)出的隨機性和模糊性等基本特征[26].從粗糙集理論看,在某種信息粒度層面上,確定性和不確定性存在相互轉(zhuǎn)化的關(guān)系,而且在不確定現(xiàn)象中還隱藏著一些重要的規(guī)律.所以研究如何表示不確定問題并從中獲得某些確定的規(guī)律,并且通過計算機建立模型來模擬認(rèn)知過程尤為重要.由于粗糙集可以有效處理信息不完備的情況,所以本文選擇用它來發(fā)掘不確定性數(shù)據(jù)中隱藏的相關(guān)性,獲得不確定知識的表達(dá).有關(guān)粗糙集的一些基本定義為:

定義1.等價類.設(shè)W是非空集合,R是等價關(guān)系.對于w∈W,節(jié)點w的R等價類定義為[20]

[w]R={x|x∈W,(w,x)∈R},

(1)

(2)

W/R={[w1]R,[w2]R,…,[wN]R},

(3)

其中,N是等價類個數(shù),且當(dāng)i≠1時,[wi]R∩[wj]R=?,W/R是集合W的等價劃分.

定義2.對于集合O?W的上近似集U(O)、下近似集L(O)和邊界域B(O)的定義為[20]

U(O)={w|w?W,[w]R∩O≠?},

(4)

L(O)={w|w?W,[w]R?O},

(5)

B(O)=U(O)-L(O),

(6)

顯然,它們有??L(O)?O?U(O)的關(guān)系.

2 粗糙粒化的網(wǎng)絡(luò)嵌入社區(qū)發(fā)現(xiàn)方法

粗糙粒化的網(wǎng)絡(luò)嵌入社區(qū)發(fā)現(xiàn)方法RGNE的主要思想是先通過隨機游走得到網(wǎng)絡(luò)G(無向無權(quán))的結(jié)構(gòu)信息和屬性信息,然后結(jié)合這2部分信息得到每個節(jié)點的低維向量表示;根據(jù)粗糙集理論處理不確定區(qū)域,將社區(qū)劃分為上近似集區(qū)域和下近似集區(qū)域,再通過定義的距離度量將節(jié)點劃分到近似集中,迭代至收斂得到最后的社區(qū)發(fā)現(xiàn)結(jié)果,方法主要步驟如圖1所示.

Fig.1 The schematic illustration of RGNE圖1 RGNE方法示意圖

2.1 獲得節(jié)點表示

網(wǎng)絡(luò)嵌入的目的是將節(jié)點嵌入到低維的空間中,而且能夠保留節(jié)點之間的關(guān)系,可以通過局部信息或是全局信息來捕獲節(jié)點間的關(guān)系.節(jié)點相對于其他節(jié)點的相似性稱之為上下文信息,從網(wǎng)絡(luò)結(jié)構(gòu)信息獲得的上下文稱為結(jié)構(gòu)上下文,從節(jié)點屬性信息而來的稱為屬性上下文.在網(wǎng)絡(luò)嵌入的階段主要包括3個步驟:網(wǎng)絡(luò)生成、隨機游走和學(xué)習(xí)節(jié)點表示,如算法1所示:

算法1.網(wǎng)絡(luò)嵌入算法.

輸入:網(wǎng)絡(luò)G=(V,E)的鄰接表;

參數(shù):步長ηs和ηa、步數(shù)φs和φa、窗口大小t、嵌入維度D;

輸出:節(jié)點的向量表示Ω、出現(xiàn)頻率最多的前K個節(jié)點.

步驟1.從G中獲得結(jié)構(gòu)圖Gs和屬性圖Ga.

步驟2.對于V∈Vs∪Va,初始化所有節(jié)點向量Ω(V).

步驟3.在結(jié)構(gòu)圖上進(jìn)行隨機游走,

Ws=RandomWalk(Gs,Vs,ηs,φs).

步驟4.在屬性圖上進(jìn)行隨機游走,

Wa=RandomWalk(Ga,Va,ηa,φa).

步驟5.Ω=SkipGram(Ws,Wa,t)結(jié)合式(7)~(9)學(xué)習(xí)節(jié)點的最終嵌入表示.

步驟6.返回節(jié)點表示Ω.

2.1.1 網(wǎng)絡(luò)生成

在網(wǎng)絡(luò)生成階段,將原始的網(wǎng)絡(luò)G=(V,E)分為結(jié)構(gòu)圖Gs=(Vs,E)和屬性圖Ga=(Va,A,Ea).其中Ga是一個二部圖,結(jié)構(gòu)節(jié)點Vs∈V,內(nèi)容節(jié)點Va∈V,A是屬性節(jié)點,Ea是屬性節(jié)點和內(nèi)容節(jié)點的邊.內(nèi)容節(jié)點之間的路徑包含屬性節(jié)點,形成了屬性上下文.

2.1.2 隨機游走

在隨機游走階段,通過短隨機游走同時獲得結(jié)構(gòu)上下文和屬性上下文,短隨機游走已經(jīng)被證明可以獲得較高相似度的節(jié)點上下文[14].在Gs上的隨機游走捕獲了結(jié)構(gòu)上下文信息,對于每個節(jié)點都進(jìn)行步長為ηs的φs步隨機游走并構(gòu)建節(jié)點庫S,si為隨機游走序列(節(jié)點庫S)中的第i個節(jié)點;在Ga上的隨機游走,更關(guān)注內(nèi)容節(jié)點共同出現(xiàn)的頻率,因此忽略了屬性節(jié)點A,而且根據(jù)經(jīng)驗所得,相似的節(jié)點會有更大的概率在隨機游走中一起出現(xiàn),同理,對每個內(nèi)容節(jié)點都進(jìn)行步長為ηa的φa步隨機游走并建立節(jié)點庫C,cj為隨機游走序列(節(jié)點庫C)中的第j個節(jié)點.

2.1.3 節(jié)點嵌入學(xué)習(xí)

在節(jié)點嵌入階段,借助語言建模Word2vec[27]中的Skip-Gram模型來學(xué)習(xí)節(jié)點的向量表示.由于Skip-Gram是用單詞預(yù)測上下文的模型,通過將窗口內(nèi)單詞之間的共現(xiàn)概率最大化來學(xué)習(xí)向量表示.所以借鑒這個模型,將網(wǎng)絡(luò)節(jié)點當(dāng)作語言模型中的單詞,隨機游走得到的節(jié)點序列當(dāng)作語言模型中的句子作為Skip-Gram的輸入,輸出的可以是結(jié)構(gòu)節(jié)點、屬性節(jié)點亦或是兩者的共同節(jié)點.

利用結(jié)構(gòu)上下文的嵌入學(xué)習(xí)過程為

(7)

其中,m≠i,t為窗口大小,p(sm|si)表示當(dāng)中心節(jié)點是si時第m個節(jié)點在上下文中出現(xiàn)的概率,它衡量了節(jié)點間的相似度.

利用屬性上下文的嵌入學(xué)習(xí)過程為

(8)

其中,n≠j,p(cn|cj)表示當(dāng)中心節(jié)點是cj時第n個節(jié)點在上下文中出現(xiàn)的概率.

給定一個目標(biāo)節(jié)點,假設(shè)節(jié)點的上下文節(jié)點相互獨立[11].本文的目標(biāo)是最大化結(jié)構(gòu)上下文和屬性上下文的概率,所以目標(biāo)函數(shù)為

L=Ls+Lc.

(9)

計算目標(biāo)函數(shù)的難點在于計算p(sm|si)和p(cn|cj),本文選擇使用Softmax來近似地計算這2個條件概率:

(10)

其中,γ(·)表示上下文節(jié)點,Ω(·)表示目標(biāo)節(jié)點.同理可以計算出p(cn|cj).

2.2 粗糙?;纳鐓^(qū)發(fā)現(xiàn)

傳統(tǒng)的社區(qū)發(fā)現(xiàn)方法一般將社區(qū)內(nèi)的所有節(jié)點“一視同仁”.對于一些處在不確定性區(qū)域的節(jié)點,如果使用硬劃分方法很可能會產(chǎn)生局部沖突.如圖2所示,節(jié)點被劃分為2個社區(qū)Z1和Z2,節(jié)點4和9分別是2個社區(qū)的中心,對于節(jié)點6根據(jù)現(xiàn)有的認(rèn)識無法準(zhǔn)確判斷出它屬于哪一個社區(qū).所以本文提出了結(jié)合粗糙集理論的社區(qū)發(fā)現(xiàn)算法來解決這樣的問題,該方法將社區(qū)Z分為上近似社區(qū)U(Z)和下近似社區(qū)L(Z),其中U(Z)包括核心節(jié)點和邊緣節(jié)點,L(Z)只包含核心節(jié)點,而社區(qū)的邊界B(Z)包含屬于U(Z)不屬于L(Z)的節(jié)點(如圖3所示),這樣就可以描述社區(qū)的不確定性區(qū)域.算法的主要步驟由算法2給出.

Fig.2 Community drift圖2 社區(qū)漂移

Fig.3 Rough community description圖3 粗糙社區(qū)描述

2.2.1 社區(qū)中心

社區(qū)發(fā)現(xiàn)任務(wù)中準(zhǔn)確找出中心節(jié)點Z*是一個非常重要的任務(wù),找出正確的中心節(jié)點對社區(qū)發(fā)現(xiàn)來說事半功倍,錯誤的中心節(jié)點會導(dǎo)致算法收斂速度降低,甚至?xí)玫藉e誤的社區(qū)結(jié)果.在對社區(qū)進(jìn)行初始化時,先將網(wǎng)絡(luò)嵌后獲得的前K個出現(xiàn)頻率最高的節(jié)點作為初始中心節(jié)點,由于K值需要預(yù)先指定,本文將在實驗部分討論K值對最后的社區(qū)發(fā)現(xiàn)效果產(chǎn)生的影響.

(11)

其中,|L(Zk)|表示社區(qū)Zk下近似集包含的節(jié)點數(shù),|B(Zk)|表示邊界域的節(jié)點數(shù).θL和θB分別是對應(yīng)近似域的加權(quán)參數(shù),且θL+θB=1.

認(rèn)識來源于實踐,反過來又為實踐服務(wù)。高效節(jié)水灌溉一時的挫折或失敗,是人們在實踐中還沒有充分認(rèn)識到其技術(shù)和條件適應(yīng)性的結(jié)果,這些問題會隨著人們的認(rèn)識水平不斷提高而得到解決,因此必須要勇于實踐,不斷從實踐中提高認(rèn)識水平,又反過來進(jìn)一步指導(dǎo)新的灌溉實踐。

2.2.2 社區(qū)劃分

通過判斷節(jié)點與社區(qū)中心節(jié)點的關(guān)系,可以得出節(jié)點與社區(qū)的關(guān)系,從而將其劃分到社區(qū)的近似集中.根據(jù)粗糙集理論,節(jié)點與社區(qū)的近似集之間的關(guān)系滿足3個性質(zhì)[28]:1)一個節(jié)點只能屬于一個社區(qū)的下近似集;2)如果節(jié)點屬于一個社區(qū)Z的下近似集,那么這個節(jié)點也同樣屬于社區(qū)Z的上近似集;3)如果節(jié)點不屬于任何社區(qū)的下近似集,那么它一定屬于2個或更多社區(qū)的上近似集.

首先,對每個節(jié)點向量分別計算它們與各個社區(qū)中心節(jié)點的距離d(v,Z*)和距離最近中心節(jié)點的最小距離dmin.對于節(jié)點與社區(qū)中心節(jié)點距離的計算用到了歐氏距離,歐氏距離也稱歐幾里得距離,是最常見的距離度量,衡量的是多維空間中2個點之間的絕對距離.關(guān)于節(jié)點與第k個社區(qū)的中心節(jié)點距離計算為

(12)

其中,N為節(jié)點個數(shù).用d(v,Z*i)/d(v,Z*j)來表示節(jié)點和2個社區(qū)的關(guān)系,其中1≤i,j≤K,且i≠j.然后通過節(jié)點與社區(qū)近似集之間的3條性質(zhì),得出節(jié)點與各個社區(qū)的關(guān)系.引入?yún)?shù)δ,0<δ≤1,當(dāng)dmin/d(v,Z*)≥δ時,表示該節(jié)點屬于對應(yīng)中心節(jié)點和距離最近社區(qū)的上近似集中,否則節(jié)點將屬于距離最近社區(qū)的上下近似集中.值得注意的是,參數(shù)δ的大小表示了社區(qū)邊界域的大小,隨著δ的減小,邊界區(qū)域?qū)嗟墓?jié)點.實驗中設(shè)置δ=0.8.

算法2.社區(qū)發(fā)現(xiàn)算法.

輸入:網(wǎng)絡(luò)節(jié)點向量表示Ω、社區(qū)個數(shù)K;

輸出:社區(qū)集合Z={Z1,Z2,…,ZK}.

步驟1.將算法1得出的出現(xiàn)頻率最多的前K個節(jié)點作為初始中心節(jié)點;

步驟3.根據(jù)dmin/d(v,Z*)≥δ,計算節(jié)點與社區(qū)中心的距離,并將其劃分到相應(yīng)的近似集中;

步驟4.根據(jù)社區(qū)近似集更新中心節(jié)點,

步驟5.返回社區(qū)結(jié)果Z.

3 實驗與分析

在不同規(guī)模的數(shù)據(jù)集上分別與4個適用于社區(qū)發(fā)現(xiàn)的算法進(jìn)行對比,驗證算法RGNE的有效性并且對參數(shù)設(shè)置進(jìn)行討論.又在人工數(shù)據(jù)集上分析網(wǎng)絡(luò)規(guī)模和網(wǎng)絡(luò)度分布對社區(qū)劃分結(jié)果的影響.

3.1 評測數(shù)據(jù)集

本文使用公開數(shù)據(jù)集中的DBLP數(shù)據(jù)集是從4個研究領(lǐng)域的34個會議中提取的參考書目數(shù)據(jù).將數(shù)據(jù)集中的作者作為節(jié)點,選取了60 744個節(jié)點,論文標(biāo)題作為節(jié)點內(nèi)容,將數(shù)據(jù)集中出現(xiàn)頻率3次以上的詞作為節(jié)點屬性.另外2個公開數(shù)據(jù)集是Zachary Karate Club和College Football Network.其中,Zachary Karate Club是一個空手道俱樂部的成員關(guān)系網(wǎng)絡(luò),共有34個成員和以管理員和教練為中心的2個小組;而College Football Network是2000年美國大學(xué)足球橄欖球聯(lián)盟比賽網(wǎng)絡(luò),115支隊伍被分為12個聯(lián)盟進(jìn)行比賽.數(shù)據(jù)基本情況如表1所示:

Table 1 Datasets Statistics表1 測試數(shù)據(jù)集

此外,使用LFR合成人工數(shù)據(jù)集[29],用于有向、加權(quán)或重疊社區(qū)實驗評測.LFR數(shù)據(jù)集可通過參數(shù)控制人工社區(qū)的度分布和社區(qū)大小,通過增加網(wǎng)絡(luò)節(jié)點個數(shù)和改變網(wǎng)絡(luò)度分布來分別分析網(wǎng)絡(luò)規(guī)模和社區(qū)邊比率大小對本文算法的效果影響.其中,涉及到的控制參數(shù)有:網(wǎng)絡(luò)規(guī)模N、混合參數(shù)λ(社區(qū)內(nèi)的邊與其他社區(qū)邊的平均比率).

3.2 實驗設(shè)置

在節(jié)點表示階段進(jìn)行的隨機游走過程中,設(shè)置步數(shù)φs和φa分別為10,步長ηs和ηa分別為80,Skip-Gram模型的窗口大小t=5,節(jié)點表示的維度D=128.在社區(qū)發(fā)現(xiàn)的階段,將下近似集和邊界域的權(quán)重設(shè)置為θL=θB=0.5.

3.3 評價指標(biāo)和對比方法

本文使用評價社區(qū)發(fā)現(xiàn)算法效果常用的標(biāo)準(zhǔn)化互信息(normalized mutual information,NMI)[30]和模塊度Q值作為標(biāo)準(zhǔn),分別為式(13)(14).

給定2個劃分結(jié)果X和Y,M為混淆矩陣,Mij是屬于結(jié)果X的社區(qū)i和結(jié)果Y的社區(qū)j的節(jié)點數(shù).

(13)

其中,MX是X的社區(qū)數(shù),MY是Y的社區(qū)數(shù),N為節(jié)點數(shù).NMI用來衡量2個結(jié)果的相似度,取值范圍是[0,1],數(shù)值越大代表社區(qū)發(fā)現(xiàn)的結(jié)果越好.

(14)

其中,i為所屬社區(qū)號,K是社區(qū)總數(shù),li是社區(qū)i的總邊數(shù),di是社區(qū)i節(jié)點的總度數(shù),m是整個網(wǎng)絡(luò)的總邊數(shù).Q值越大說明社區(qū)劃分效果越好,取值范圍是[-0.5,1],當(dāng)Q值在0.3~0.7之間時,說明社區(qū)發(fā)現(xiàn)的效果良好.

通過與4個社區(qū)發(fā)現(xiàn)的典型算法對比,對本文提出的RGNE算法性能進(jìn)行評估.

1) LPA[5].基于標(biāo)簽傳播的社區(qū)發(fā)現(xiàn)算法,該算法為所有節(jié)點指定一個標(biāo)簽,通過標(biāo)簽傳遞和更新.算法計算復(fù)雜度較低,易于快速收斂.

2) GN[3].算法定義一條邊的介數(shù)為網(wǎng)絡(luò)中所有節(jié)點之間的最短路徑中通過這條邊的數(shù)量,而介數(shù)高的邊要比介數(shù)低的邊更可能是社區(qū)之間的邊.每次都刪除網(wǎng)絡(luò)中介數(shù)最大的邊,直至網(wǎng)絡(luò)中的所有邊都被刪除.

3) Louvain[31].一個基于多層次優(yōu)化的啟發(fā)式算法.該算法的主要思想是將每個節(jié)點劃分到相鄰節(jié)點的社區(qū)中使得模塊度Q值不斷增大,直到Q值不再變化,此時再根據(jù)生成的社區(qū)結(jié)構(gòu)重構(gòu)網(wǎng)絡(luò).

4) DeepWalk[14].利用網(wǎng)絡(luò)結(jié)構(gòu)中隨機游走序列的信息來代替語言建模中的句子,將節(jié)點向量映射到一個低維稠密的空間中.對節(jié)點序列用SkipGram模型進(jìn)行網(wǎng)絡(luò)節(jié)點的表示學(xué)習(xí)與預(yù)測.Node2Vec[32]則采用了不同的隨機游走策略,通過定義參數(shù)p和q,同時考慮局部和宏觀的信息分別進(jìn)行廣度優(yōu)先和深度優(yōu)先搜索,其結(jié)果較依賴于參數(shù)的優(yōu)化過程.

3.4 實驗結(jié)果分析

在3.1節(jié)中公開數(shù)據(jù)集上進(jìn)行實驗,并與其他4種算法作比較驗證RGNE算法的有效性,所有方法均采用網(wǎng)絡(luò)嵌入方法得到節(jié)點的表示.由圖4和圖5可得,LPA的較差,因為該算法比較依賴初始中心節(jié)點的選取,隨機性很大.算法GN表現(xiàn)良好,但是由于要遍歷網(wǎng)絡(luò)中所有的邊,所以時間復(fù)雜度較高,只適用于小規(guī)模網(wǎng)絡(luò).Louvain采用層次凝聚的方式對網(wǎng)絡(luò)進(jìn)行聚類,它的優(yōu)點在于能夠體現(xiàn)網(wǎng)絡(luò)的不同粒度的層次結(jié)構(gòu),易于理解和計算較便捷.但值得注意的是,不同節(jié)點上的遍歷順序?qū)Y(jié)果有一定擾動,在一定程度上會影響計算時間.此外,由于Q函數(shù)的約束,GN和Louvain算法都傾向于發(fā)現(xiàn)規(guī)模相似的網(wǎng)絡(luò),對稀疏網(wǎng)絡(luò)效果一般.DeepWalk略優(yōu)于2種傳統(tǒng)的社區(qū)發(fā)現(xiàn)算法,但它只利用了網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)忽略了屬性信息,所以節(jié)點表示不夠全面.

Fig.4 Comparison of Q on three datasets圖4 3個數(shù)據(jù)集下各算法的Q值對比

Fig.5 Comparison of NMI on three datasets圖5 3個數(shù)據(jù)集下各算法的NMI對比

綜上所述,RGNE算法效果普遍優(yōu)于其他算法,在DBLP這樣的大規(guī)模數(shù)據(jù)集上更加突出.相較于傳統(tǒng)的社區(qū)發(fā)現(xiàn)算法,RGNE在處理較為稀疏的網(wǎng)絡(luò)方面具有更大的優(yōu)勢;相較于同樣是網(wǎng)絡(luò)嵌入方法的DeepWalk來說,RGNE能同時利用節(jié)點的結(jié)構(gòu)信息和屬性信息,所以社區(qū)發(fā)現(xiàn)效果更好.而且利用粗糙?;纳鐓^(qū)描述對網(wǎng)絡(luò)不確定區(qū)域的節(jié)點處理更符合實際社區(qū)分布.

Fig.6 Impact of network size on community detection圖6 網(wǎng)絡(luò)規(guī)模對社區(qū)發(fā)現(xiàn)的影響

在人工數(shù)據(jù)集上,通過增加網(wǎng)絡(luò)節(jié)點和邊的數(shù)量來生成更為復(fù)雜的網(wǎng)絡(luò),以此來驗證各個算法的可擴展性.設(shè)置混合參數(shù)λ為實驗最優(yōu)值0.3,將網(wǎng)絡(luò)規(guī)模由2.5萬個節(jié)點遞增到10萬個節(jié)點.圖6則表明,隨著網(wǎng)絡(luò)規(guī)模的增大,各種算法的NMI值出現(xiàn)了不同程度的下降,網(wǎng)絡(luò)嵌入方法的性能顯然較優(yōu),其他的算法由于計算復(fù)雜度較高,網(wǎng)絡(luò)規(guī)模倍增時算法受影響較大,RGNE算法表現(xiàn)出良好的穩(wěn)定性.

繼續(xù)在人工數(shù)據(jù)集上進(jìn)行實驗,首先固定網(wǎng)絡(luò)大小為1 000個節(jié)點,然后改變混合參數(shù)λ的大小,λ∈[0,1].圖7顯示了在不同λ值下各算法的NMI值變化.所有算法均在λ增加的情況下,即社區(qū)結(jié)構(gòu)不清晰時NMI值逐漸降低.對于較小的λ,所有算法的差別不是很大,但是當(dāng)λ≥0.3時,RGNE算法顯示出優(yōu)勢,很明顯地曲線下降趨勢緩和,而其他算法在λ增加至某一值時NMI值降為0,原因是本文的方法可以有效融合網(wǎng)絡(luò)的結(jié)構(gòu)信息和屬性信息而且同時能正確處理不確定信息.

Fig.7 Effect of λ on NMI圖7 混合參數(shù)λ對NMI的影響

3.5 參數(shù)討論

由于預(yù)先指定了社區(qū)中心個數(shù)K,確定合適的K值會對最后的社區(qū)發(fā)現(xiàn)效果產(chǎn)生很大影響,采用手肘法來確定K值,評估指標(biāo)是誤差平方和E[33].它的核心思想是:隨著劃分?jǐn)?shù)K值的增大,劃分變得更加精細(xì),每個社區(qū)內(nèi)的聚合度增加,E值會減小;當(dāng)K小于真實劃分?jǐn)?shù)時,K值增大會使每個社區(qū)內(nèi)聚合度增加,所以E的降幅增大;當(dāng)K值達(dá)到真實劃分?jǐn)?shù)后,再增大K值聚合度不會有很大改變,所以E降幅減緩趨于平緩.

(15)

其中,v是社區(qū)Zk中選取的樣本節(jié)點,Z*是Zk的中心,K越大,E越小,樣本的聚合程度越高.在Zachary和Football這2個數(shù)據(jù)集上對K值進(jìn)行討論.

由圖8可得,在達(dá)到真實的社區(qū)數(shù)前,E的降幅較大,因為劃分得更精細(xì)會使社區(qū)內(nèi)的聚合度增加;2個數(shù)據(jù)集分別在K=2和K=12時到達(dá)真實劃分?jǐn)?shù),之后曲線的降幅驟減,此時再增加K值的回報很小.

Fig.8 K analysis on two datasets圖8 在2種數(shù)據(jù)集上的K值分析

此外,社區(qū)發(fā)現(xiàn)算法中的參數(shù)δ對社區(qū)發(fā)現(xiàn)結(jié)果會有一定的影響,為了更好地了解造成的影響,本文在DBLP數(shù)據(jù)集上進(jìn)行參數(shù)分析.由于δ的值代表社區(qū)邊界區(qū)域的大小,隨著δ的減小,邊界區(qū)域?qū)嗟墓?jié)點,此時社區(qū)發(fā)現(xiàn)的難度也會增大.選擇在區(qū)間[0.5,1.0]內(nèi)討論參數(shù)影響.

由圖9可得,在參數(shù)δ=0.8時5種算法均能取得最好的效果.這是因為當(dāng)δ過小或是過大,即社區(qū)邊界域太大或太小都不利于社區(qū)發(fā)現(xiàn).當(dāng)邊界域較大時社區(qū)包含更多不確定性的節(jié)點,社區(qū)發(fā)現(xiàn)的困難增大,此時結(jié)合粗糙集理論的RGNE算法明顯優(yōu)于其他算法;當(dāng)邊界域較小時,各個社區(qū)之間的邊界模糊,社區(qū)結(jié)構(gòu)不清晰同樣難以得到良好的結(jié)果.

Fig.9 Effect of δ on Q圖9 參數(shù)δ對Q值影響

4 結(jié) 論

由于現(xiàn)實中復(fù)雜網(wǎng)絡(luò)存在不確定性數(shù)據(jù),使用傳統(tǒng)的硬劃分方法可能會造成劃分沖突.而這些不易劃分的元素在社區(qū)發(fā)現(xiàn)中是不可忽視的,利用這些不確定性元素可以挖掘出更加精確的社區(qū)結(jié)構(gòu).本文提出的RGNE算法先是通過網(wǎng)絡(luò)嵌入獲得融合結(jié)構(gòu)信息和屬性信息的節(jié)點表示,并且可以將相似的節(jié)點映射到距離相近的低維連續(xù)的向量空間.然后結(jié)合粗糙集理論來處理不確定性信息進(jìn)行社區(qū)發(fā)現(xiàn),從而得到更為精準(zhǔn)的社區(qū)發(fā)現(xiàn)結(jié)果.目前本文的研究是在中小型規(guī)模的網(wǎng)絡(luò)上進(jìn)行,在未來的工作中可以著眼于大規(guī)模網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn).

猜你喜歡
信息方法
學(xué)習(xí)方法
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
健康信息(九則)
祝您健康(1987年2期)1987-12-30 09:52:28
主站蜘蛛池模板: 婷婷综合缴情亚洲五月伊| 久久一本精品久久久ー99| 无码福利日韩神码福利片| 国产青青操| 青青草a国产免费观看| 99爱在线| 一级毛片免费不卡在线视频| 亚洲第一网站男人都懂| 久久婷婷六月| 福利国产在线| 欧美色伊人| 国产成人精品第一区二区| 一级一毛片a级毛片| 最新国产你懂的在线网址| 亚洲黄色视频在线观看一区| 4虎影视国产在线观看精品| AV片亚洲国产男人的天堂| 三上悠亚在线精品二区| 九色视频一区| 国产自在线播放| 国产69囗曝护士吞精在线视频| 99精品热视频这里只有精品7| 欧美翘臀一区二区三区| 亚洲精品在线91| 欧美视频在线观看第一页| 国产亚卅精品无码| 一本大道视频精品人妻| 欧美亚洲国产一区| 高清视频一区| 欧美日在线观看| 天堂岛国av无码免费无禁网站 | 免费又爽又刺激高潮网址| 波多野结衣在线一区二区| 久久综合色88| 欧美成人看片一区二区三区| 99在线视频免费观看| 国产鲁鲁视频在线观看| 在线国产91| 国产欧美日韩精品综合在线| a色毛片免费视频| 亚洲人成影院午夜网站| 囯产av无码片毛片一级| 亚洲免费三区| 日韩最新中文字幕| 九九久久精品免费观看| 啪啪啪亚洲无码| 亚洲免费福利视频| 在线观看无码a∨| 91九色国产porny| 国产香蕉国产精品偷在线观看| 怡红院美国分院一区二区| 色屁屁一区二区三区视频国产| 国产亚洲视频在线观看| 九九视频免费看| 国产一区二区三区在线精品专区| 色AV色 综合网站| 欧美性精品不卡在线观看| 一级在线毛片| 9啪在线视频| 久久久久夜色精品波多野结衣| 精品人妻一区无码视频| 亚洲欧洲日产国码无码av喷潮| 国产精品开放后亚洲| 在线国产毛片| 国产精品私拍在线爆乳| 国产精品3p视频| 国产办公室秘书无码精品| 欧美一级一级做性视频| 国产精品亚欧美一区二区| 18禁不卡免费网站| 久久77777| 2021最新国产精品网站| 97免费在线观看视频| 亚洲人成网7777777国产| 日韩欧美国产成人| 国产精品久久久久婷婷五月| 青青青视频91在线 | 午夜毛片免费观看视频 | 97精品伊人久久大香线蕉| 五月激情婷婷综合| 操美女免费网站| 伊人久久久久久久久久|