何 偉,胡學(xué)鋼,李 磊,林耀進,李慧宗,潘劍寒
1(合肥工業(yè)大學(xué) 計算機與信息學(xué)院,合肥 230009)2(閩南大學(xué) 計算機科學(xué)學(xué)院,福建 漳州 363000)3(安徽理工大學(xué) 經(jīng)濟與管理學(xué)院,安徽 淮南 232001)4(江蘇師范大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 徐州 221116)
復(fù)雜網(wǎng)絡(luò)是對多主體交互或關(guān)聯(lián)的有效建模手段,現(xiàn)實世界中存在著大量的復(fù)雜網(wǎng)絡(luò)系統(tǒng),如 Internet 、WWW、社交網(wǎng)絡(luò)、科學(xué)家合作網(wǎng)絡(luò)、通信網(wǎng)絡(luò)、蛋白質(zhì)相互作用網(wǎng)絡(luò)、基因調(diào)控網(wǎng)絡(luò)等.信息技術(shù)的發(fā)展和海量數(shù)據(jù)的獲取,催生了對大規(guī)模復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)分析的需求,對復(fù)雜網(wǎng)絡(luò)的相關(guān)研究提出了挑戰(zhàn).
復(fù)雜網(wǎng)絡(luò)中的社團結(jié)構(gòu)描述了一種非均質(zhì)連接特性,即網(wǎng)絡(luò)由不同的節(jié)點簇所構(gòu)成,簇內(nèi)節(jié)點連接相對緊密,而簇間的連接相對稀疏[1].作為介于網(wǎng)絡(luò)微觀結(jié)構(gòu)和宏觀結(jié)構(gòu)之間的中尺度結(jié)構(gòu),社團結(jié)構(gòu)是網(wǎng)絡(luò)中個體行為與整體功能之間的橋梁,對網(wǎng)絡(luò)的結(jié)構(gòu)和功能分析具有重要意義,針對社團結(jié)構(gòu)物理意義和數(shù)學(xué)特性的研究也成為了近年來的熱點[2].
傳統(tǒng)的社團結(jié)構(gòu)分析大多針對具有固定拓?fù)浣Y(jié)構(gòu)的靜態(tài)網(wǎng)絡(luò),實際網(wǎng)絡(luò)往往會隨著時間推移發(fā)生改變.例如,在科學(xué)家合作網(wǎng)絡(luò)中,新的研究者不斷加入,已有研究者也會退出;研究者之間的合作可能變得緊密,也可能變得稀疏;不同領(lǐng)域的研究者會開展新的合作,原有合作也可能停止.這種變化導(dǎo)致網(wǎng)絡(luò)中社團結(jié)構(gòu)的持續(xù)演化,傳統(tǒng)的靜態(tài)方法無法用于動態(tài)性分析.
社團演化預(yù)測通過分析歷史社團數(shù)據(jù)判斷社團的未來趨勢,對理解動態(tài)網(wǎng)絡(luò)結(jié)構(gòu)和功能具有重要意義.社團演化預(yù)測通常分為社團檢測、演化事件檢測、特征數(shù)據(jù)集構(gòu)造、分類器訓(xùn)練幾個基本步驟.隨著社團檢測、演化事件檢測兩類前置研究的發(fā)展,社團演化預(yù)測在近幾年受到了越來越多的關(guān)注.在社團演化預(yù)測框架中,特征集構(gòu)造是難點和核心問題之一.特征集的構(gòu)建以表示時序網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的一組矩陣數(shù)據(jù)、不同網(wǎng)絡(luò)快照中的社團隸屬為輸入,目標(biāo)是提取出能夠完整準(zhǔn)確刻畫社團結(jié)構(gòu)、時序變化的特征集合.已有研究存在兩個問題:一方面,沒有完整考慮三種尺度(微觀、介觀、宏觀)上的結(jié)構(gòu)信息;另一方面,構(gòu)造分類器時,采用固定長度的演化鏈數(shù)據(jù)作為輸入,丟失了不同長度演化鏈中蘊含的時序信息.針對上述問題,本文提出了基于多元結(jié)構(gòu)特征的社團演化預(yù)測方法,從演化數(shù)據(jù)中中提取社團的多尺度結(jié)構(gòu)特征、時序特征、行為特征,并針對多重長度演化鏈構(gòu)造集成分類器進行預(yù)測.
Leskovec 等通過追蹤網(wǎng)絡(luò)拓?fù)涮卣鞯亩攘繉W(wǎng)絡(luò)演化進行了分析,實驗結(jié)果表明,隨著時間的推移和網(wǎng)絡(luò)規(guī)模的擴大會發(fā)生一系列變化,如網(wǎng)絡(luò)變得更加稠密、度分布指數(shù)增大、有效直徑減小[3].2009年,Asur 針對動態(tài)網(wǎng)絡(luò)中的節(jié)點定義了多種關(guān)鍵事件,提出了增量式的節(jié)點事件檢測方法,并分析探討了節(jié)點事件對社團事件之間的關(guān)聯(lián)[4].
通過對科學(xué)家合作網(wǎng)絡(luò)和通話網(wǎng)絡(luò)進行動態(tài)分析,Palla 等發(fā)現(xiàn)社團的生命周期與社團內(nèi)的動態(tài)行為以及社團規(guī)模密切相關(guān),節(jié)點更替頻繁的大社團和節(jié)點穩(wěn)定的小社團能夠存在更久[5,6].同時他們首次定義了六種社團演化事件,即社團的擴張、縮小、合并、分裂、形成和消亡.Takaffoli 提出了一種社團演化追溯及事件檢測方法MODEC[7],該方法通過比較時序網(wǎng)絡(luò)中社團的相似度來追蹤演化中的社團,定義了相關(guān)規(guī)則用于判定Palla提出的六種演化事件.該研究還分析了時序網(wǎng)絡(luò)中節(jié)點行為與社團演化事件之間的關(guān)聯(lián),提出少數(shù)影響力高的節(jié)點行為與演化事件之間相關(guān)性較高.在Palla提出的演化事件基礎(chǔ)上,Bródka等提出了一種演化事件檢測方法GED[8].該方法首先采用最大團過濾算法CPM找出靜態(tài)社團結(jié)構(gòu),再通過比較連續(xù)時間片中社團的大小、相互包容度(inclusion)來發(fā)現(xiàn)連續(xù)社團.
Gliwa等定義了一組社團演化事件:穩(wěn)定、規(guī)模變化、分離、附加、分裂、合并、分裂后合并、衰退[9].同時提出了一種社團演化追蹤方法 SGCI,其基本思想是在固定長度的時間窗口中尋找持續(xù)性的社團,判斷標(biāo)準(zhǔn)為社團在特定長度時間窗口內(nèi)的存活時間超過閾值.
Bródka在GED演化事件檢測的基礎(chǔ)上提出了社團演化預(yù)測的基本流程,并在四個實際網(wǎng)絡(luò)數(shù)據(jù)上驗證了該方法的可行性[10].該研究采用前序社團的演化事件和社團尺寸作為分類特征,預(yù)測精度較低,且受參數(shù)影響大.2013年,Bródka和Gliwa等合作,在GED和SGCI兩種演化事件檢測方法的基礎(chǔ)上對博客圈進行社團演化預(yù)測[11].特征集構(gòu)造抽取了多種社團的介觀特征,包括社團的中心性、外鏈邊密度、內(nèi)聚性和尺寸,同時對比不同分類方法的預(yù)測準(zhǔn)確率.實驗表明該方法較Bródka的預(yù)測方法在準(zhǔn)確性上有所提升,針對不同事件的分類器效果存在差異.在不同網(wǎng)絡(luò)中的事件頻次統(tǒng)計表明,兩種演化事件檢測方法都存在類別傾斜的問題,SGCI方法檢測出大量的附加事件,GEB方法則檢測出大量的分裂事件.后續(xù)工作中,Saganowski等結(jié)合社團結(jié)構(gòu)信息和推文相關(guān)信息構(gòu)造特征集,改進了分類流程,加入了特征選擇和交叉驗證步驟,將預(yù)測方法擴展到了帶有向邊的社交網(wǎng)絡(luò)中[12].在構(gòu)造特征集時,除原有介觀特征外,額外考慮了社團內(nèi)節(jié)點互惠性和多種微觀特征聚合,微觀特征包括節(jié)點度數(shù)、入度、出度、介數(shù)中心性、接近中心性、奇異值中心性,聚合方式包括求和、平均、最小和最大.該研究還對采用不同長度演化鏈數(shù)據(jù)的分類準(zhǔn)確性進行了對比.對基于SGCI方法提取的連續(xù)社團,演化預(yù)測準(zhǔn)確率隨著演化鏈增長而逐漸提高;對基于GED方法提取的連續(xù)社團,準(zhǔn)確率不一定隨演化鏈增長而提高.
Diakidis等用同樣的方法對2014世界杯相關(guān)的推文信息網(wǎng)絡(luò)進行了社團演化預(yù)測,文章實驗中實驗對比了多種分類器的分類結(jié)果并分析了不同持續(xù)時間社團中各種特征的信息增益[13].
Takaffoli在MODEC演化模型的基礎(chǔ)上提出了一種綜合利用關(guān)鍵節(jié)點信息、社團結(jié)構(gòu)信息、歷史事件信息及社交網(wǎng)絡(luò)主題信息的社團演化預(yù)測方法[14].實驗采用了不同分類算法對郵件通信網(wǎng)絡(luò)和科學(xué)家合作網(wǎng)絡(luò)進行了預(yù)測,并考察了不同特征與各類演化事件的相關(guān)性.
2016年,Shahriari等采用GED方法檢測演化事件,針對社團中關(guān)鍵節(jié)點信息、社團結(jié)構(gòu)信息、時序和歷史事件信息構(gòu)造特征集并進行分類[15].通過對多類網(wǎng)絡(luò)的預(yù)測和分析,找出了不同網(wǎng)絡(luò)中持久社團的特點,以及不同特征與演化事件的相關(guān)性.
社團演化預(yù)測過程分為以下四步:提取網(wǎng)絡(luò)快照中的社團結(jié)構(gòu);檢測各時間窗口的演化事件,獲取類別標(biāo)簽;根據(jù)社團演化數(shù)據(jù)構(gòu)造特征數(shù)據(jù)集;用得到的數(shù)據(jù)集訓(xùn)練分類器,進行預(yù)測.

本文采用GED方法檢測時序快照中的連續(xù)社團和演化事件[9].GED方法定義了圖G1在圖G2中的包容度I(G1,G2)作為判斷一個圖對另一個圖的包含程度:
其中NIG1(x)為節(jié)點x在圖G1中的影響力度量.乘積的左邊項度量了圖G2節(jié)點在圖G1中所占比例,右邊項度量了G2中共同節(jié)點與G1中節(jié)點在社團中影響力聚合是否相近,兩者結(jié)合同時度量了數(shù)量和質(zhì)量上的包含程度.以該度量為基礎(chǔ),GED定義并檢測七種演化事件,包括維持、擴張、縮小、合并、分裂、形成和消亡.
為完整準(zhǔn)確地刻畫社團演化特性,本文抽取結(jié)構(gòu)、時序、行為三類特征,其中結(jié)構(gòu)特征反映三種不同尺度下的社團拓?fù)涮匦?時序特征反映從前序社團到后續(xù)社團的改變,行為特征為前一時間窗口發(fā)生的演化事件.
3.2.1 結(jié)構(gòu)特征
1)微觀結(jié)構(gòu)特征
微觀層面的節(jié)點行為是介觀層面社團和宏觀層面網(wǎng)絡(luò)演化的根源,微觀結(jié)構(gòu)特征考察社團中節(jié)點的相關(guān)特性.網(wǎng)絡(luò)中的節(jié)點占據(jù)不同的結(jié)構(gòu)位、具有不同的行為,角色是對其結(jié)構(gòu)位或行為的抽象,一些關(guān)鍵角色對社團演化有較大的影響[16].本文針對網(wǎng)絡(luò)中心、社團核心、中介三種關(guān)鍵角色抽取特征.
網(wǎng)絡(luò)中心是在整體網(wǎng)絡(luò)中具有強影響力的節(jié)點,本文用概率分布接近正態(tài)分布的接近中心度(Closeness Centrality)作為節(jié)點的影響力度量,計算所有節(jié)點的接近中心度,求出分布均值μ和方差σ,將中心度大于閾值μ+2σ的節(jié)點(正態(tài)分布的95%置信區(qū)間為[μ-2σ,μ+2σ])視作網(wǎng)絡(luò)中心.社團核心是社團內(nèi)部的高影響力節(jié)點,本文采用與網(wǎng)絡(luò)中心同樣的方法在社團子圖(僅包含內(nèi)部連邊)中進行提取.中介是連接不同社團的關(guān)鍵節(jié)點,本文采用CPM算法得到重疊社團,將重疊節(jié)點視作中介節(jié)點.表1列出了針對三類角色所構(gòu)造的微觀結(jié)構(gòu)特征.

表1 社團微觀結(jié)構(gòu)特征Table 1 Microscopic structural feature of community
2)介觀結(jié)構(gòu)特征
介觀結(jié)構(gòu)特征考察社團自身的結(jié)構(gòu)特征,表2列出了本文構(gòu)造的介觀結(jié)構(gòu)特征.
其中內(nèi)聚度為社團內(nèi)邊密度與社團外邊密度的比值,對于圖G(V,E)中的社團C(VC,EC),其與社團外節(jié)點的連接數(shù)為OEC,內(nèi)聚度計算公式為:

圖G(V,E)中節(jié)點i的集聚系數(shù)ClusterCoefi定義為i所有鄰居所構(gòu)成子圖的邊密度,全局集聚系數(shù)定義為圖中所有節(jié)點集聚系數(shù)的均值:
度數(shù)中心度用于度量網(wǎng)絡(luò)中節(jié)點度數(shù)的差異程度,圖G(V,E)的度數(shù)中心度定義如下:
其中Di為節(jié)點i的度數(shù),Dmax為所有所有節(jié)點度數(shù)的最大值.

表2 社團介觀結(jié)構(gòu)特征Table 2 Mesoscopic structural feature of community
3)宏觀結(jié)構(gòu)特征
宏觀結(jié)構(gòu)特征將社團看做整體,反映其在全局和局部環(huán)境中的影響力和相對特性,表3列出了本文抽取的宏觀結(jié)構(gòu)特征.

表3 社團宏觀結(jié)構(gòu)特征Table 3 Macroscopic structural feature of community
整體網(wǎng)絡(luò)是社團所處的全局環(huán)境,為考察社團其在整個網(wǎng)絡(luò)中的相關(guān)特性,首先構(gòu)建社團網(wǎng)絡(luò)(network of communities),即把社團看做節(jié)點,根據(jù)社團重疊與否確定節(jié)點間是否連邊,重疊節(jié)點個數(shù)作為邊的權(quán)重.本文采用社團節(jié)點在社團網(wǎng)絡(luò)中的PageRank值度量社團在全局環(huán)境中的影響力,用微觀、介觀特征在所有社團中的歸一化值度量社團的全局相對特性.
與社團相鄰的所有社團及其連邊構(gòu)成其局部環(huán)境,首先需要構(gòu)造由社團與其鄰接社團構(gòu)成的中心網(wǎng)絡(luò)(ego network).本文采用社團在中心網(wǎng)絡(luò)內(nèi)的結(jié)構(gòu)洞值[17]度量社團在局部環(huán)境中的影響力,采用微觀、介觀特征在中心網(wǎng)絡(luò)中的歸一化值度量社團的局部相對特性.
3.2.2 時序特征
時序特征包括前一時間窗口內(nèi)發(fā)生的變動、社團已存活時間、后序社團與前序社團的相似和差異(表4).

表4 社團時序特征Table 4 Sequential feature of community
3.2.3 行為特征
行為特征為當(dāng)前時間窗口的形成、維持、合并、分裂、尺寸變化(擴張和縮小)五類事件,表5列出了本文抽取的行為特征.

表5 社團行為特征Table 5 Behaviour feature of community
3.2.4 演化鏈特征樣本


表6 預(yù)測事件及類別標(biāo)簽Table 6 Prediction event and classification label

由于有多個類別標(biāo)簽,本文采用One vs Rest策略對五類事件分別構(gòu)造分類器.已有方法針對所有事件都采取固定長度演化鏈訓(xùn)練分類器,但不同長度演化鏈蘊含的時序信息有差異,最優(yōu)長度與網(wǎng)絡(luò)類型、具體演化事件相關(guān).使用固定長度演化鏈無法充分利用不同長度演化鏈中蘊含的信息,也不能適應(yīng)各類網(wǎng)絡(luò)和演化事件[12].為解決該問題,本文提出一種多長度演化鏈集成(Multi-length Evolution Chains Ensemble)分類方法,以不同長度演化鏈作為輸入,分別構(gòu)造分類器.基分類器的選擇無特殊限定,此處采用Random Forest作為基分類器(圖1).

圖1 利用不同長度演化鏈的集成分類器MECEFig.1 Ensemble classifier MECE using multi-length evolution chains

本文使用郵件通信網(wǎng)絡(luò)Enron*http://www.cs.cmu.edu/~enron/和科學(xué)家合作網(wǎng)絡(luò)DBLP*http://projects.csail.mit.edu/dnd/DBLP/兩個數(shù)據(jù)集,表7列出了數(shù)據(jù)集的基本統(tǒng)計信息.
Enron 數(shù)據(jù)集記錄了安然公司32個月內(nèi)的電子郵件通信.原始網(wǎng)絡(luò)數(shù)據(jù)為有環(huán)有向多邊無權(quán)圖,每個節(jié)點代表一位安然員工,每條邊代表一封郵件,方向為郵件發(fā)送方到接收方.本文對Enron數(shù)據(jù)集按月劃分,節(jié)點集合為整個網(wǎng)絡(luò)中最大弱連通分支中的節(jié)點,忽略邊的方向,合并節(jié)點對之間的邊并刪除所有的環(huán),每條邊的權(quán)值為當(dāng)前時間窗口內(nèi)兩點間的郵件數(shù).
DBLP記錄了32年間的計算機領(lǐng)域論文合作情況.原始網(wǎng)絡(luò)數(shù)據(jù)為無環(huán)無向多邊無權(quán)圖,每個節(jié)點代表一位科學(xué)家,每條邊代表一次論文合作.本文對DBLP數(shù)據(jù)集按年劃分,節(jié)點集合為整個網(wǎng)絡(luò)中最大連通分支中的節(jié)點,合并節(jié)點對之間的邊,每條邊的權(quán)值為當(dāng)前時間窗口內(nèi)兩位科學(xué)家的合作次數(shù).

其中γ∈(0,1)為衰減系數(shù),離當(dāng)前時間點越久遠(yuǎn)權(quán)值衰減越嚴(yán)重,此處令γ=0.5.

分別通過已有研究中的方法[10,14]與本文構(gòu)造特征集合(分別表示為F_10、F_14、F),用RandomForest方法[18]和本文MECE方法構(gòu)造分類器(分別為RF和MECE),其中RF分類器以長度為4的演化鏈作為輸入數(shù)據(jù),MECE方法中演化鏈最大長度為10,采用十折交叉驗證求出平均F1值(表8,表9).

表8 Enron數(shù)據(jù)集上不同特征和分類器組合得到的平均F1值Table 8 Average F1 scores of Enron dataset classification results combining different features and classifier

表9 DBLP數(shù)據(jù)集上不同特征和分類器組合得到的平均F1值Table 9 Average F1 scores of Enron dataset classification results combining different features and classifier
由表8、表9中前三列數(shù)據(jù)可以看出,對于Enron和DBLP的五種事件,在同樣采用RF分類器的情況下,本文所構(gòu)造的特征能更有效地刻畫社團特性,預(yù)測準(zhǔn)確率更高.研究[10]中通過歸一化和聚合節(jié)點特征獲取了多種社團結(jié)構(gòu)特征,但缺乏關(guān)鍵節(jié)點特征、時序特征(社團結(jié)構(gòu)特征與前序社團結(jié)構(gòu)特征的差異).研究[14]所構(gòu)造的介觀特征中則遺漏了社團尺寸這一關(guān)鍵特征,也沒有構(gòu)造社團的宏觀特征.由表8、表9中后兩列數(shù)據(jù)可看出,針對多重長度演化鏈的集成分類方法MECE具有更高的預(yù)測準(zhǔn)確率.
社團演化預(yù)測研究對理解網(wǎng)絡(luò)結(jié)構(gòu)和功能具有重要意義,隨著動態(tài)網(wǎng)絡(luò)數(shù)據(jù)的不斷累積,該研究將具有越來越廣泛的應(yīng)用前景.本文提出了一種基于多元特征構(gòu)造的社團演化預(yù)測方法,通過在網(wǎng)絡(luò)快照中構(gòu)造社團多尺度結(jié)構(gòu)特征、時序特征、行為特征,有效刻畫了社團的結(jié)構(gòu)和動態(tài)特性,并將不同長度的演化鏈數(shù)據(jù)用于集成分類器訓(xùn)練.實驗表明了本文特征構(gòu)造方法的有效性和分類方法的準(zhǔn)確性.
:
[1] Girvan,Michelle,and Mark EJ Newman.Community structure in social and biological networks[C].Proceedings of the National Academy of Sciences 99,2002,12:7821-7826.
[2] Fortunato,Santo.Community detection in graphs[R].Physics Reports 486,2010,3:75-174.
[3] Leskovec Jure,Jon Kleinberg,Christos Faloutsos.Graphs over time:densification laws,shrinking diameters and possible explanations[C].Proceedings of the Eleventh ACM SIGKDD International Conference on Knowledge Discovery in Data Nining,ACM,2005:177-187.
[4] Asur Sitaram,Srinivasan Parthasarathy,Duygu Ucar.An event-based framework for characterizing the evolutionary behavior of interaction graphs[C].ACM Transactions on Knowledge Discovery from Data (TKDD)3,2009,4:16.
[5] Palla Gergely,Albert-László Barabási,et al.Community dynamics in social networks[J].Fluctuation and Noise Letters 7,2007,(3):273-287.
[6] Palla Gergely,Albert-László Barabási, Tamás Vicsek.Quantifying social group evolution[J].Nature,2007,446(7136):664-667.
[7] Takaffoli,Mansoureh,Justin Fagnan,Farzad Sangi,et al.Tracking changes in dynamic information networks[C].Computational Aspects of Social Networks (CASoN),2011 International Conference on,IEEE,2011:94-101.
[8] Bródka Piotr,Stanisaw Saganowski,Przemysaw Kazienko.GED:the method for group evolution discovery in social networks[J].Social Network Analysis and Mining,2013:1-14.
[9] Gliwa Bogdan,Anna Zygmunt,Aleksander Byrski.Graphical analysis of social group dynamics[C].Computational Aspects of Social Networks (CASoN),2012 Fourth International Conference on,IEEE,2012:41-46.
[10] Bródka Piotr,Przemysaw Kazienko,Bartosz Kooszczyk.Predicting group evolution in the social network[C].International Conference on Social Informatics,Springer Berlin Heidelberg,2012:54-67.
[11] Gliwa Bogdan,Piotr Bródka,Anna Zygmunt,et al.Different approaches to community evolution prediction in blogosphere[C].Proceedings of the 2013 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining,ACM,2013:1291-1298.
[12] Saganowski Stanisaw,Bogdan Gliwa,Piotr Bródka,et al.Predicting community evolution in social networks[J].Entropy,2015,17(5):3053-3096.
[13] Diakidis Georgios,Despoina Karna,Dimitris Fasarakis-Hilliard,et al.Predicting the evolution of communities in social networks[C].Proceedings of the 5th International Conference on Web Intelligence,Mining and Semantics,ACM,2015.
[14] Takaffoli,Mansoureh,Reihaneh Rabbany,Osmar R.Za?ane.Community evolution prediction in dynamic social networks[C].Advances in Social Networks Analysis and Mining (ASONAM),2014 IEEE/ACM International Conference on,2014.
[15] Shahriari Mohsen,Stephen Gunashekar,Marven von Domarus,et al.Predictive analysis of temporal and overlapping community structures in social media[C].Proceedings of the 25th International Conference Companion on World Wide Web,International World Wide Web Conferences Steering Committee,2016.
[16] Fagnan Justin,Reihaneh Rabbany,Mansoureh Takaffoli,et al.Community dynamics:event and role analysis in social network analysis[C].International Conference on Advanced Data Mining and Applications,Springer International Publishing,2014.
[17] Burt,Ronald S.Structural hole[M].Harvard Business School Press,Cambridge,MA,1992.
[18] Breiman,Leo.Random forests[J].Machine Learning,2001,45 (1):5-32.