999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于層次信息粒表示的屬性圖鏈接預測模型

2019-03-22 03:46:50苗奪謙張志飛張遠健胡聲丹
計算機研究與發展 2019年3期
關鍵詞:信息模型

羅 晟 苗奪謙 張志飛 張遠健 胡聲丹

1(同濟大學計算機科學與技術系 上海 201804)2(嵌入式系統與服務計算教育部重點實驗室(同濟大學) 上海 201804)3 (計算機軟件新技術國家重點實驗室(南京大學) 南京 210023) (tjluosheng@gmail.com)

隨著信息技術的快速發展,越來越多的網絡應用將人們緊密地聯系在一起,形成了人與人之間的一個鏈接網絡.現有大量的復雜網絡分析相關的研究工作發表在統計物理、統計學、計算機科學和應用數學等領域[1-2].復雜網絡分析早已成為國內外學者研究的熱點問題.鏈接預測正是復雜網絡分析的一個基礎性工作,具有重要的地位.早期的鏈接預測[3]分析方法的出發點是建立在數據的網絡拓撲圖之上,這類方法較為直觀,易于解釋.除了網絡拓撲結構數據之外,結點還具有屬性信息,這類復雜網絡一般稱之為屬性圖[4].一個常見的鏈接網絡如圖1所示:

Fig. 1 A toy example of the link network圖1 一個示例鏈接網絡

然而,伴隨著計算機的存儲能力和計算能力的快速增長,以及進入Web 2.0時代之后,人們參與數據發布的積極性高漲,以至于現在的復雜網絡數據的規模越來越龐大.同時,網絡結點屬性的豐富程度也越來越高.復雜網絡數據的來源及質量得到了巨大的提升.數據的快速增長導致人們獲取的數據亦呈現大數據特點,即體量巨大(volume)、類型多樣(variety)、產生速度快(velocity)、易變性(variability)以及真實性(veracity)①https://en.wikipedia.org/wiki/Big_data等特征.這些數據特性對現有智能學習系統帶來了巨大的挑戰,特別是數據的易變性,也就是數據的不一致性,對現有數據挖掘與分析工作提出了新的要求.

本文從數據的不一致性出發,分析現有多源異構的復雜網絡不同數據,以及由此引發的信息過載所帶來的數據差異性問題;同時采用粒計算范式,克服原有計算模式的單一粒度視角,建立異構多源數據的層次粒度表示.不一致問題帶來的挑戰,其背后的主要原因是異構數據之間存在的信息間隔(infor-mation gap).為此,本文提出數據的層次粒度表示用于處理信息間隔問題.數據的層次粒度表示的主要工作是設計一個基于拓撲結構圖的統計模型;同時,以結點屬性表為基礎構建統計模型的先驗知識.最后將這些異構的淺層模型表示的數據提升至更為抽象的高層信息粒,以期望在高層信息粒層,加以一定的約束條件,多源數據能夠達到數據一致.該鏈接預測模型的動機在于,試圖在多層粒度空間上尋找鏈接預測問題的最優解.

1 相關工作

本節主要介紹與鏈接預測主題相關的研究背景以及研究現狀.

現有大量鏈接預測相關的研究,其中最簡單和直觀的方法以結點的相似性為基礎.這類方法通過計算結點之間的相似性的評分來構造結點之間存在鏈接關系的可能性.常見的相似性計算方法有公共鄰居(common neighbors, CN)[5]、杰卡得系數(Jaccard index, JI)[6]、索爾頓系數(Salton index, SI)[7]、資源分配系數(resource allocation index, RAI)[8]和adamic-adar系數(adamic-adar index, AAI)[9]等.這類方法主要使用拓撲結構上的鄰居或路徑等特征來計算結點對之間的相似程度.很明顯,這類方法的主要缺陷是缺乏考慮結點屬性以及擴展性不足.

另一類方法聚焦在最大化觀測結構的似然,建構圖的生成模型.然后,使用數據學習后的最優模型預測未知結點對之間的鏈接概率.Clauset等人[10]提出了一種從拓撲網絡結構推斷潛在層次組織結構的生成技術,并將該模型用于缺失鏈接的預測.也有一些研究工作,使用概率相關模型(probabilstic relational models, PRM)[11]描述關系數據集(rela-tional dataset, RD)的屬性聯合分布、優化分布,并將其用于結點對的鏈接關系預測.相似的工作還有Relational Markov Networks[12], Relational Depen-dency Networks[13], Local Na?ve Bayes Model[14]等.還有一類鏈接預測方法則是基于機器學習技術[15-18].

此外,對于鏈接預測問題,每個社區對于結點的鏈接關系建立過程同樣具有重要作用[19].例如對于一個中國的社交網絡鏈接預測問題來說,大部分結點都屬于中國這個社區;同時這些結點屬于或不屬于網球、游泳、足球等社區.很明顯,中國社區對于建立結點鏈接關系問題而言,影響程度小于網球社區、游泳社區、足球社區等社區.也就是說社區在結點對建立鏈接關系的過程中所處的地位及作用是不同的.相關的工作還有:王鑫等人[20]研究了交互意見和地位理論與鏈接關系的強相關性,提出了一種基于符號網絡的鏈接預測模型;劉冶等人[21]研究了主數據源與附加數據源的特性,并提出了一種基于低秩和稀疏分解的多源融合鏈接預測算法;張澤華等人[22]將粗糙集理論引入圖挖掘領域,提出了網絡社區的領域粗糙化擴張方法等等.值得注意的是,現有的這些方法,要么忽略了結點屬性,要么拓撲網絡數據與結點屬性之間存在的潛在交互性,要么忽略了社區在結點對建立鏈接關系過程中的不同作用.

為了處理以上問題,本文首先對于各個來源的數據進行粒度表示學習.具體來說,對于拓撲結點圖數據,使用一種概率生成模型對圖數據進行抽象表示(作用相當于提升數據信息粒層);對于結點屬性表,使用聚類方法對數據進行抽象表示(提升數據信息粒層).同時,對數據抽象后產生的高層數據信息粒加以一定條件的約束,以期在粒度表示的條件下,達到數據的一致,從而優化層次粒度表示模型,最終優化結點對鏈接關系預測的效果.

本文的貢獻可以概括為3點:

1) 提出了一種關于拓撲結構圖數據的概率生成模型.這個模型充分考慮潛在社區貢獻度因子,又考慮結點與社區之間的結點-隸屬關系.

2) 提出了一種基于數據層次信息粒表示的問題求解方法.該方法將原始多源異構數據抽象為不同層次結構下的信息粒,并考慮將不一致問題消除在這種層次信息粒表示的數據結構中.

3) 提出了基于粒度視角的鏈接預測方法,根據粒度計算范式,學習最優的層次粒表示模型,并將此模型用于表示缺失及觀測鏈接關系的生成概率.實驗表明這一方法相較現有方法,有較為顯著的性能提升.

2 基本知識

本節主要介紹數據的粒度表示以及信息粒在復雜網絡鏈接預測模型中降低數據不一致性的重要作用.粒計算是人們處理日常事務的一般性思維模式.人們在計算現實世界問題時,通常是從多個角度,多個層次的觀點看待問題,而不會局限于某一些局部特征,這一方法論也被稱之為粒計算[23-24].

2.1 基本定義

在處理復雜網絡數據時,根據粒計算理論,本文將網絡結構中觀測到的網絡拓撲結構數據與結點的屬性數據(特征、標簽等)歸結為原始信息粒.在原始信息粒的基礎上,又可以構造當前信息粒的一種抽象表示(如圖像處理過程中邊緣是像素的一種抽象表示),形成高層信息粒,假如當前信息粒層不適合問題求解,可以在此基礎上,繼續構造上一層信息粒,直至當前信息粒有利于問題求得最優解.由此,便形成了數據的層次粒度結構表示.

下面給出相關的定義.

Fig. 2 The framework of the HGRLPM圖2 層次粒度表示的屬性圖鏈接預測模型框架圖

定義1. 屬性圖.任意給定一個網絡拓撲圖G(V,E),其中網絡拓撲圖結點集V={vi},i=1,2,…,N,N為網絡拓撲圖的結點總數,鏈接邊集E={ei j|?i,j≤N}為V上的一個二元關系,且有

(1)

一般地,若網絡拓撲圖G(V,E)的結點具有屬性信息,則這一類型的網絡拓撲圖也稱之為屬性圖,記為G(V,E,F),其中F為結點屬性表.

(2)

其中,vfi為結點v在特征fi映射值域Vfi的一個具體屬性值.具有屬性值的網絡圖結點可以表示為屬性值向量vf=(vf1,vf2,…,vfm),所有結點屬性向量集合為結點屬性表,記為F.

定義3. 網絡社區.任意給定一個網絡拓撲圖G(V,E),其中的網絡結點根據一定的劃分規則潛在地屬于某個類簇中心,即v∈Ci,i∈{1,2,…,k}(k為類簇總數).在復雜網絡分析上下文環境中,類簇中心也稱之為網絡社區.

特別地,由網絡拓撲數據得到的網絡社區也稱之為拓撲網絡社區,記為{Ci},i∈{1,2,…,k}.

同理,給定結點的屬性表,那么根據結點的屬性相似度,潛在的存在著一個由所有結點組成的聚類族(屬性表誘導的網絡社區),記為{Qi},i∈{1,2,…,k},這類網絡社區稱之為屬性網絡社區.若結點可以同時屬于多個網絡社區,那么由這些結點所形成的社區之間,會存在結點的重疊,即2個或以上社區存在公共結點,這種類型的社區也稱之為重疊社區.

3 層次粒度表示的屬性圖鏈接預測模型

3.1 問題描述

在介紹模型之前,首先將所研究的問題做個簡單的描述.一般地,假設給定屬性圖G(V,E,F),則鏈接預測問題的主要任務是根據觀測到的現有結點間的鏈接關系集{ei j|?ei j∈E∧ei j>0}與結點屬性表F,試圖建立任意結點對之間鏈接關系的似然估計.

如圖2所示,在系統處理的原始數據中,拓撲結構圖觀測到的鏈接邊與結點屬性相似度誘導的潛在鏈接邊存在不一致的情況,即:

1) 拓撲結構圖中結點對沒有觀測到鏈接關系,而屬性表提供的結點相似度暗示著這對結點存在一條隱式鏈接;

2) 根據結點屬性表計算出結點對相似度較低,表示存在鏈接關系的可能性較低,而拓撲結構圖卻觀測到了結點對之間存在鏈接.

如果將所有對象映射至高層信息粒,即拓撲網絡社區與屬性網絡社區,則可以在這種層次粒度結構的表示下,通過粒度轉換融合異構數據,最大化地消除低層信息粒的不一致.信息粒度表示的粒層數量依賴于問題的規模及領域特點.

現有的屬性圖鏈接預測模型都忽略了這種潛在的數據不一致導致的沖突問題.基于此,不同于現有鏈接預測模型,本文提出層次粒度表示鏈接預測模型(hierarchical granular representation link prediction model, HGRLPM)將從數據的層次粒度表示出發,通過提升數據的粒度層次,消除低層次粒度的不一致性,最大化地融合異構的數據源,降低鏈接預測的不確定性,提升鏈接預測的準確性與精確性.下面引入基于層次信息粒表示的屬性圖鏈接預測模型.

3.2 層次粒度表示的屬性圖鏈接預測模型

本文的模型主要基于Breiger等人[25]與Jaewon等人[26]的工作,即每個結點依據不同的隸屬度包含在不同的網絡社區(每個結點與每個社區潛在地都具有包含關系,區別在于隸屬度不同).如果任意2個結點所屬的公共社區越多,那么它們將會以更高的概率建立鏈接關系.

同時,我們也注意到每一個網絡社區在結點對建立鏈接關系中的重要程度是不同的.換句話說,每個社區對每個結點對建立鏈接的貢獻度是不一致的.

最后,由于結點的屬性表獲取代價昂貴,所以研究數據對象以網絡拓撲結構圖為主體,而屬性表誘導的結點社區隸屬關系作為拓撲網絡結構統計模型對應隨機變量的先驗分布.

引理1. 層次粒度表示鏈接預測模型(HGRLPM)通過相應的產生概率p(u,v) 建立任意結點鏈接邊 (u,v),?u,v∈V,生成拓撲結構圖G(V,E),且

p(u,v)=1-exp(-sT(Bu⊙Bv)),

(3)

其中,sc是一個表示網絡社區c的貢獻度的隨機變量,向量s=(s1,s2,…,sk);Bu,Bv分別是結點u,v的結點-隸屬向量,代表結點-隸屬矩陣的一列;“⊙”為逐元素乘法.

(4)

其中,Poi(·)為泊松分布.根據泊松分布的性質,可知,網絡社區對結點對(u,v)的相互作用總量Tu v為

(5)

可以得到鏈接概率p(u,v)=P(Tu v>0),即

P(Tu v>0)=1-P(Tu v=0)=
1-exp(-sT(Bu⊙Bv)).

(6)

證畢.

3.2.1 拓撲結構圖對數似然

假設給定潛在因子矩陣,即結點-隸屬關系矩陣B與網絡社區貢獻度因子向量s,拓撲結構圖G生成模型的似然概率記為L(B,s),那么有:

L(B,s)=lnP(G|B,s)=

(7)

在沒有考慮結點屬性表的情況下,通過求解以下問題就可以得到最優模型,即

(8)

然而,在這種情況下,模型沒有考慮結點屬性以及拓結構圖數據與屬性數據之間潛在的不一致性.一般地,在建構一個全面、魯棒的鏈接預測模型時,不僅需要考慮集成異構數據,同時也需要考慮消除異構數據的不一致性.

3.2.2 結點-隸屬關系先驗

當我們考慮結點的屬性信息時,這表示根據某種相似度測度可以將所有的結點按照它們之間的親疏程度,劃分為k個聚類簇.這里為了保持數據整體上是一致的,假設拓撲結構以及屬性信息各自產生的數據概括是相同的,即拓撲圖產生的類簇與屬性圖產生的類簇個數是相等的.在本文中,屬性表產生的結點與聚類簇的隸屬程度記為

并將此信息作為拓撲結構圖的結點-隸屬關系矩陣的一個先驗信息.

((9)

M(·,·)一般使用歐氏距離,也可以根據數據特點選擇余弦距離、馬氏距離等.

3.2.3 社區貢獻度先驗

我們假設每一個網絡社區在結點對建立鏈接的過程中的貢獻度是不同的.例如當我們在分析中國的社交網絡鏈接問題時,如果所有結點所屬的社區都為中國,那么這個社區對于鏈接預測任務而言,貢獻度是可以忽略的;而根據某種愛好劃分的社區,如音樂、體操、乒乓球等社區對于結點間的鏈接關系建立具有很強的驅動力.

顯然,網絡社區的重要性可以從當前社區的鏈接數在全體網絡鏈接所占的比例觀察出來.這也是為什么使用拓撲結構圖的鏈接密度作為社區貢獻度的先驗,即

(10)

其中,函數φ(·)用于計算結點集所具有的鏈接邊的個數.

3.2.4 結點-隸屬關系重要度

由于社區的貢獻度不一樣,所以結點-隸屬關系成員的重要程度也不一樣.在系統建模時,應當考慮結點-隸屬關系成員的重要度.在本文中,結點-隸屬關系重要度為

Wi j=πμj,

(11)

其中,i∈{1,2,…,|V|},j∈{1,2,…,k},π為自定義常數.Wi j表示當前結點與社區中心的隸屬關系的重要度與社區在結點建立鏈接關系時的重要度成正比關系.

3.2.5 層次粒度表示

定義5. 原始信息粒、高層信息粒.一般地,信息系統所采集的經過簡單數據清洗后得到的數據被認為是信息系統輸入的原始數據.原始數據稱之為原始信息粒,記為IGL.對原始數據依據某種規則抽象之后形成原有數據的一個概括描述,即高層信息粒,記為IGH.

(12)

由此,RHI={IGL,IGH|B,D,W,s,μ}為原始數據的層次粒度表示,其中,{B,D,W,s,μ}為層次粒度表示的參數集.

2) 屬性表誘導的社區重要度與拓撲結構圖生成過程中的社區的重要度的差異也應最小化.

3) 根據最大似然估計法,我們需要最大化拓撲結構圖的對數似然.

因此,本文提出層次粒度表示鏈接預測模型,即

(13)

其中,ψ(·,·)為高層信息粒IGH成員粒之間距離度量函數,η(·,·)為s與μ的距離度量,用于測量2個輸入變量的相似程度.矩陣B和D為構建高層信息粒層的參數.

(14)

根據拉格朗日乘子法,可以將式(14)轉化為以下優化問題:

(15)

4 模型參數學習

模型所有需要學習的參數為矩陣B與向量s,記為Θ={B,s}.對于式(15)這個優化問題,當固定參數s與其他的Bv(?v∈V∧v≠u)時,我們發現(B,s)是Bu(?u∈V)的凸函數(convex function).同理,(B,s)是s的凸函數.因此,選擇塊座標梯度下降算法[27](block coordinate gradient descent algorithm, BCGDA) 來得到模型參數的最優解.

原式(13)可以分解為

(16)

(17)

式(16)的目標函數為

(18)

式(17)的目標函數為

(19)

BCGDA將迭代地按某一個順序,循環地優化式(14)和式(15).BCGDA的一個最基本的要求是必須計算式(16)和式(17)的梯度.

下面,給出每個目標函數各自相對應的梯度,它們分別為

(20)

(21)

下面給出本文提出的層次粒度表示鏈接預測模型(HGRLPM)的參數學習算法.

算法1. HGRLPM參數學習算法.

輸入:精度εtol、屬性圖G(V,E,F)、社區數k、學習率γ、重要度系數π、最大迭代次數MAXITER;

輸出:結點-隸屬關系矩陣B、社區貢獻度s.

② foru=1,2,…,|V| do

③ forc=1,2,…,kdo

④Dc u←式(9);

⑤ end for

⑥ end for

⑦ forc=1,2,…,kdo

⑧μc←式(10);

⑨ end for

⑩ foru=1,2,…,|V| do

5 層次粒度表示模型的鏈接預測

經過數據訓練后,獲得當前數據的一個層次粒度表示RHI={IGL,IGH|B*,D*,s*,μ*},其中B*,D*,s*,μ*是從數據中學習的參數最優值.模型HGRLPM將在學習好的層次粒表示RHI基礎上,執行鏈接預測任務.為此我們設計了以下預測模型.

5.1 協同預測

(22)

其中,nnb(u)為結點u最相似的n個結點集合.若v也是信息缺失,那么執行與結點u相同的處理過程.

在此基礎上,結點對(u,v)建立鏈接關系的協同預測概率p(u,v),即

(23)

特別地,當n=1時,這種協同預測策略稱之為基礎預測.

5.2 預測算法

下面給出基于層次粒度表示協同鏈接預測算法的詳細步驟:

算法2. 協同鏈接預測算法.

輸入:層次粒度表示RHI、預測結點對(u,v)、協同數n;

輸出:結點對鏈接概率p(u,v).

② 計算鏈接概率:p(u,v)← 式(23);

③ 輸出p(u,v).

6 實驗與結果

在本節中,我們設計了關于引言部分介紹的示例數據集,以及2個真實數據數據集AmazonFail[28]和Lazega[29]的實驗.同時,我們對比了HGRLPM與其他的算法的預測性能,實驗結果顯示HGRLPM模型相對于其他的方法具有較強的優越性.

6.1 數據集

示例數據集的拓撲結構圖已在引言部分介紹過了,表1給出了示例數據的結點屬性值,表2給出了所有數據集的一些基本統計信息.

AmazonFail數據集是從Amazon網站所收集的.該數據集總共有1 418個結點,每一個都代表Amazon網站出售的一件產品.3 695條鏈接邊建立了這些結點之間的相關關系.此外,這個數據集還提供了產品的屬性以及標簽信息.標簽信息用于標記用戶對該產品的不滿意度.

Lazega數據集是一個公司法律事務所關于公司法合伙關系的屬性圖.它包括該公司的71名律師(合伙人和同事)之間的網絡關系.這個數據集常用于社區網絡分析,例如有限團結、橫向控制、質量控制、知識共享、權力平衡、監管等等.

Table 1 The Attribute Information of the Toy Dataset表1 示例數據集結點的屬性信息

Table 2 Basic Statistics of Datasets表2 數據集基本統計信息

6.2 對比標準

對于模型輸出的鏈接概率,設置一個閾值ε,如果p(u,v)>ε,那么認為結點對(u,v)存在一條邊,即E(u,v)=1,反之為0.那么,使用3個指標來對比算法的性能:

(24)

其中,TP(true positive)為正確正例,TN(true negative)為正確負例,FP(false positive)為錯誤正例,FN(false negative)為錯誤負例.

6.3 案例分析

在本節將詳細分析算法在示例數據集上的性能,以及與其他算法的對比.對比的算法為第1部分介紹的杰卡得系數(JI)和資源分配系數(resource allocation index, RA)和LHNI (Leicht Holme Newman index)系數.

由上述示例數據集的背景知識,假設社區數量k=3,學習率γ=0.001,正則項系數α=0.03,β=0.005,在這些參數設定條件下,算法經過50次迭代后目標函數逐漸穩定,最終在第59次迭代后收斂于6 020.49.具體的收斂過程如圖3所示:

Fig. 5 The link prediction result of the HGRLPM model圖5 HGRLPM模型鏈接預測結果

Fig. 3 The convergence of the HGRLPM model training processes with the Toy dataset圖3 HGRLPM模型在示例數據集上的訓練收斂過程

訓練過程結束后,我們得到了用于表示模型HGRLPM的最優參數值B*,s*.圖4給出了B*和s*的參數值分布.從圖4我們可以發現每個社區參與建立結點對之間的鏈接關系的貢獻度s*是不同的,社區1的貢獻度最小,社區2的貢獻度最大,社區3的貢獻介于社區1和社區2之間.同時,社區貢獻度s*還影響著結點與社區之間的隸屬關系B*.模型HGRLPM的最優參數值也代表著:屬性表導出的結點與類簇的隸屬關系D與拓撲結構圖產生的B在B*時差異最小.這也表明通過最優化技術,低層信息粒的不一致性在高層信息粒得到了最大化的消除.

Fig. 4 The community weights and node-community affiliation relations learnt by the HGRLPM圖4 HGRLPM得到的社區重要度與結點-社區關系

通過數據訓練得到最優模型HGRLPM后,我們根據鏈接預測算法,對屬性圖的所有結點,預測其鏈接的生成概率.圖5顯示了模型HGRLPM預測的屬性圖中的示例訓練集觀測到的所有鏈接生成概率,以及潛在鏈接(生成概率大于50%的邊)的生成概率.在圖5中,虛線代表為錯誤正例,實線為正確正例,鏈接邊的數字為建立鏈接的概率.

另外,表3給出了所有的結點對的鏈接邊(觀測到的以及未觀測到的結點鏈接關系)預測概率.

Table 3 All of the Link Probability Predicted by the HGRLPM for the Node Pairs表3 HGRLPM預測的所有結點對鏈接概率

從表3可以看出,圖5中有4條邊劃分為錯誤的負例,即{(Node4,Node13):0.16, (Node2,Node4):0.38,(Node2,Node3):0.11,(Node2,Node12):0.10};同時,有3條未能觀測到的邊劃分為正例,即錯誤的正例{(Node1,Node9):0.53,(Node4,Node6):0.59,(Node4,Node10):0.58}.可以得到以下評價分:

為了驗證算法的性能,我們將原有的拓撲相似索引JI[6],RA[8],LHNI[8]進行擴展,使之能夠同時利用拓撲和屬性表信息.然后與HGRLPM進行對比.具體擴展如下:

1) 計算JI,RA,LHNI的相似度;

2) 計算屬性表中結點對的修正余弦相似度(adjust cosine similarity, ACOS), 即

(25)

3) 融合2個相似度,以JI索引為例, 融合ACOS與JI,即

δJIA(xi,xj)=θ×δJI(xi,xj)+
(1-θ)×δACOS(xi,xj),

(26)

其中,xi,xj為屬性表中的任意結點的特征向量,θ為權值參數,可以設置屬性表與拓撲結構圖的重要性.擴展后的3個算法分別記為JIA,RAA,LHNIA.

我們使用3個擴展算法和相同的對比標準,在示例數據集上可以得到表4的實驗結果:

Table 4 Performance Comparison of Toy表4 示例數據集的性能對比

表4的3個方法(JIA,RAA,LHNIA)的結果為θ取值0.3:0.05:0.7的9次計算結果的均值.這3個方法的Precision,Recall,Accuracy的方差分別為(JIA:0.224 3,0.092 4,0.026 3),(RAA:0.115 2,0.194 6,0.012 8)和(LHNIA:0.295 5,0.227 4,0.019 0).實驗結果表明:無論是Accuracy還是Precision以及Recall指標,HGRLPM模型預測的結果對比JIA,RAA,LHNIA有著顯著的提升.而且,當θ的值發生變化時,算法的性能波動較大,這主要體現在方差的變化.原因在于JIA,RAA,LHNIA等算法是建立在原始信息上的單粒度表示之上,拓撲結構圖與屬性表的原始信息融合容易出現偏差,異構數據源的沖突較為明顯.這也證明了在原始信息粒上直接處理信息融合是具有挑戰性的問題.HGRLPM充分挖掘了潛在社區變量的分布,以及社區作用的不平衡,在多層信息粒的表示下,將數據的不一致性上升到高層信息粒,可以最大化地消除原始信息粒上較難處理的融合問題.這一對比結果映證了我們的假設,也顯示了HGRLPM的優越性.

6.4 其他數據集上的結果

采取與示例數據一致的評價標準,表5和表6分別顯示了在數據集AmazonFail和Lazega數據集上的算法性能.

Table 5 Performance Comparison of AmazonFail表5 AmazonFail的性能對比

Table 6 Performance Comparison of Lazega表6 Lazega的性能對比

雖然HGRLPM能夠取得比JIA,RAA,LHNIA要好的Precison和Recall成績,但Accuracy卻提升不是很顯著,甚至在AmazonFail數據集上,Accuracy指標在還有較大的差距離,主要原因在于拓撲圖數據的結點鏈接的稀疏性.當數據集規模不大時稀疏性不會對算法性能產生很嚴重的影響,然而當數據集規模擴大到一定程度時,稀疏性將嚴重影響預測的準確性.這一現象也稱之為類別不平衡問題[30].最直觀的影響在于正例淹沒在負例的海洋.對于Precision和Recall為0,這說明RAA和LHNIA在數據集AmazonFail和Lazega上所有的判例都為負,不能識別正例,這也證實了底層原始數據源的不一致性.同時,這也說明了當數據規模擴大時,HGRLPM應該在建模時對數據的稀疏性這一數據因子加以考慮.

7 結 論

本文提出了一種融合異構數據(網絡拓撲圖與結點屬性表)的層次粒度表示模型,根據粒計算理論,對于低層信息粒中的數據不一致性,通過提升粒層的方法,在高層信息粒最大化的消除異構數據的不一致性.該方法的最大優勢在于它能捕捉數據潛在的層次粒度結構,同時也最大化的捕捉了數據的語義.實驗結果表明,層次信息粒表示的鏈模型是有效的,對比其他方法有較大優勢.

猜你喜歡
信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
一個相似模型的應用
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产一区二区网站| 人妻少妇久久久久久97人妻| 国产超碰一区二区三区| 亚洲视频欧美不卡| 国产综合精品日本亚洲777| 日韩精品亚洲精品第一页| 国产91小视频在线观看| 日本精品αv中文字幕| 中文字幕资源站| 一级毛片免费高清视频| 999精品色在线观看| 青青草91视频| 亚洲欧洲国产成人综合不卡| 亚洲天堂福利视频| 国产成人艳妇AA视频在线| 亚洲一区二区三区在线视频| 婷婷成人综合| 成人福利在线免费观看| yjizz国产在线视频网| 日韩成人在线视频| 98超碰在线观看| 中文字幕在线播放不卡| 麻豆精选在线| 99久久精彩视频| 免费观看成人久久网免费观看| 97人妻精品专区久久久久| 波多野一区| 丝袜无码一区二区三区| 亚洲AV电影不卡在线观看| 57pao国产成视频免费播放| 日本福利视频网站| 欧美国产精品不卡在线观看| 久久国产亚洲欧美日韩精品| 欧美曰批视频免费播放免费| 亚洲成肉网| 少妇精品在线| 大学生久久香蕉国产线观看| 国产91小视频在线观看| 99久久人妻精品免费二区| 91精品国产91久久久久久三级| 人妻无码一区二区视频| 免费在线色| 亚洲国产精品日韩欧美一区| 国产白浆在线观看| 中文精品久久久久国产网址| 国产精品亚洲专区一区| 久久人搡人人玩人妻精品| 中文纯内无码H| 91视频精品| 欧洲熟妇精品视频| 亚洲成人免费在线| 亚洲人成网站18禁动漫无码| 亚洲婷婷在线视频| 欧美精品一区在线看| 国产欧美视频综合二区| 欧美成人精品一级在线观看| 波多野结衣中文字幕一区| 欧美成人a∨视频免费观看| 99热这里只有精品免费国产| 亚洲色无码专线精品观看| 日韩精品一区二区三区大桥未久 | 中文毛片无遮挡播放免费| 91九色最新地址| 秘书高跟黑色丝袜国产91在线| 精品91视频| 91青青草视频| 免费人成在线观看成人片| 日本免费福利视频| 999国内精品视频免费| 欧美亚洲第一页| 国产精品亚洲片在线va| 久草视频福利在线观看| 国产91高清视频| 美美女高清毛片视频免费观看| 日韩中文字幕亚洲无线码| 99国产精品免费观看视频| 亚洲精品在线影院| 在线免费无码视频| 国产自在线播放| 激情爆乳一区二区| 精品综合久久久久久97超人| 国产在线精彩视频二区|