999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

屬性異構(gòu)信息網(wǎng)絡(luò)的半監(jiān)督協(xié)同聚類

2021-11-26 08:47:46劉嘎瓊王東升李會(huì)格
關(guān)鍵詞:信息

劉嘎瓊, 韓 斌, 王東升, 嚴(yán) 熙, 李會(huì)格

(江蘇科技大學(xué) 計(jì)算機(jī)學(xué)院, 江蘇 鎮(zhèn)江 212100)

異構(gòu)信息網(wǎng)絡(luò)(heterogeneous information networks, HINs)由多個(gè)節(jié)點(diǎn)及其之間的關(guān)系組成, 用于對(duì)復(fù)雜數(shù)據(jù)集進(jìn)行建模[1]. 與傳統(tǒng)的節(jié)點(diǎn)和邊都屬于單一類型的同構(gòu)網(wǎng)絡(luò)相比, HINs能有效地融合更多的結(jié)構(gòu)信息, 具有更豐富的語(yǔ)義[2]. 因此, 如何建立高效的HINs對(duì)于數(shù)據(jù)挖掘至關(guān)重要[3].

目前, 元路徑被廣泛用于提取HINs節(jié)點(diǎn)間異構(gòu)連接的結(jié)構(gòu)語(yǔ)義. 熊菊霞等[4]提出了獲取不同類型節(jié)點(diǎn)語(yǔ)義的元路徑, 并提出了評(píng)價(jià)HINs中相同類型節(jié)點(diǎn)相似度的路徑模型. 考慮到不同元路徑的影響, 張文凱等[5]提出了將多條元路徑的相似性度量相結(jié)合. 但這些方法都是主要利用HINs的結(jié)構(gòu)信息, 忽略了節(jié)點(diǎn)的屬性, 因此導(dǎo)致隱藏信息未得到充分挖掘. 為描述HINs中的順序?qū)傩院头诸悓傩? 一種有效的方法是將節(jié)點(diǎn)的屬性視為向量, 其中每個(gè)維度表示一個(gè)屬性. 史加榮等[6]通過(guò)將不同元路徑的節(jié)點(diǎn)相似性與權(quán)重相結(jié)合, 設(shè)計(jì)了一種無(wú)監(jiān)督的負(fù)矩陣分解算法; 朱超平等[7]通過(guò)分別構(gòu)造鏈接圖和屬性圖整合結(jié)構(gòu)信息和屬性信息. 但目前的研究主要集中在對(duì)同一類型節(jié)點(diǎn)的相似性搜索上, 而未對(duì)HINs中不同類型節(jié)點(diǎn)的聚類進(jìn)行聯(lián)合分析. 實(shí)際上, 由于不同類型節(jié)點(diǎn)之間潛在的相關(guān)性(相似性), 不同類型的聚類通常是相互關(guān)聯(lián)的.

與傳統(tǒng)聚類方法不同, 協(xié)同聚類利用特征和樣本之間的對(duì)偶性, 實(shí)現(xiàn)特征和樣本的同時(shí)聚類. 此外, 協(xié)同聚類方法能在不同節(jié)點(diǎn)類型的聚類之間獲得潛在的對(duì)應(yīng)關(guān)系, 從而使得到的聚類更具可解釋性. 董立巖等[8]將文檔視為一個(gè)二部譜圖, 然后根據(jù)圖尋找最小割點(diǎn)劃分對(duì)文檔和單詞進(jìn)行聯(lián)合聚類; 夏菁等[9]提出了同時(shí)對(duì)基于元路徑的相似度矩陣進(jìn)行因子分解, 實(shí)現(xiàn)了不同類型節(jié)點(diǎn)的聯(lián)合聚類; 周慧等[10]提出通過(guò)測(cè)量紋理視圖和顏色視圖等視圖中節(jié)點(diǎn)的相關(guān)性對(duì)多視圖數(shù)據(jù)進(jìn)行聯(lián)合聚類. 但這些模型在處理屬性HINs時(shí), 由于存在基于結(jié)構(gòu)和屬性的多個(gè)相關(guān)度量, 無(wú)法對(duì)HINs進(jìn)行聚類.

為解決上述問(wèn)題, 本文提出一種基于屬性異構(gòu)信息網(wǎng)絡(luò)的半監(jiān)督協(xié)同聚類框架(SCCAIN). 該方法利用多條元路徑和可學(xué)習(xí)的權(quán)值對(duì)結(jié)構(gòu)進(jìn)行度量關(guān)聯(lián)性和不同空間屬性的參數(shù)化屬性關(guān)聯(lián)度量. 在3個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了本文方法的有效性.

1 預(yù)備知識(shí)

定義1異構(gòu)信息網(wǎng)絡(luò)(HINs)表示為G={V,ε,T,R}, 其中V是節(jié)點(diǎn)集,ε是鏈接集,T是節(jié)點(diǎn)類型集,R是關(guān)系或鏈接類型集. 在HINs上有兩個(gè)映射函數(shù), 一個(gè)是節(jié)點(diǎn)類型映射φ:V→T, 以獲取節(jié)點(diǎn)類型, 另一個(gè)是鏈接類型映射ψ:ε→R, 以獲取鏈接類型. 其中|T|+|R|>2.

定義2屬性HINs是一種特殊類型的HINs, 其形式為G={V,ε,F}. 與傳統(tǒng)的HINs相比, 屬性HINs具有豐富的屬性信息, 即F={fv}, 其中fv是節(jié)點(diǎn)v的屬性向量.

異構(gòu)節(jié)點(diǎn)的屬性向量可能具有不同大小和含義. 以圖1為例, 有3種類型的節(jié)點(diǎn), 即T={A,P,C}, 2種類型的鏈接. 此外, 作者和會(huì)議都包含向量形式的幾個(gè)屬性. 由于作者和會(huì)議的屬性表示不同的含義, 因此分別使用平行四邊形和正方形區(qū)分.

設(shè)A,P,C分別表示作者、論文和會(huì)議, 作者的屬性是他們感興趣的研究領(lǐng)域, 包括網(wǎng)絡(luò)嵌入、異常檢測(cè)、非負(fù)矩陣分解(NMF)和共聚類, 而會(huì)議的屬性是諸如聚類、主題建模和推薦系統(tǒng)等主題.

圖1 屬性化異構(gòu)信息網(wǎng)絡(luò)示例Fig.1 Example of attributive heterogeneous information networks

如圖1所示, 元路徑A-P-C的源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)是作者和會(huì)議. 此外, 不同的元路徑將捕獲不同的語(yǔ)義, 有助于聚類. 例如,A4和C3可以通過(guò)A-P-C或A-P-A-P-C連接, 第一個(gè)元路徑表示發(fā)布, 而第二個(gè)元路徑是通過(guò)共同作者捕獲作者和會(huì)議的相關(guān)性.

屬性HINs的半監(jiān)督協(xié)同聚類問(wèn)題: 給定一個(gè)屬性HIN, 其形式為G={V,ε,F}, 一些連接源節(jié)點(diǎn)Vs和目標(biāo)節(jié)點(diǎn)Vt的元路徑, 以及一些節(jié)點(diǎn)之間的必須鏈接Mss,Mst,Mtt和不能鏈接Css,Cst,Ctt約束, 目標(biāo)是同時(shí)考慮結(jié)構(gòu)及屬性信息, 并生成具有整體相關(guān)性矩陣X的Vs和Vt的聚類. 特別地,Vs和Vt分別表示X的行實(shí)例和列實(shí)例. 此外,M/C的下標(biāo)表示約束的類型. 例如,Mst是Vs和Vt之間必須連接的約束.

2 方法設(shè)計(jì)

2.1 總體框架

圖2為SCCAIN的總體框架. 在該框架中, 首先, 分別設(shè)計(jì)基于元路徑Λ重要性的結(jié)構(gòu)相關(guān)性度量和基于潛在參數(shù)A的屬性相關(guān)性度量, 考慮到這兩種相關(guān)性, 本文將它們組合成一個(gè)整體相關(guān)性度量; 其次, 設(shè)計(jì)一個(gè)基于非負(fù)矩陣三因子分解(ONMTF)的半監(jiān)督協(xié)同聚類模型, 該模型將相關(guān)性矩陣分解為S和T這兩個(gè)聚類分布, 以及一個(gè)輔助矩陣W. 此外, 由于相關(guān)性度量和協(xié)同聚類的性能相互影響, 因此將這兩部分整合到一個(gè)聯(lián)合的框架中, 并對(duì)其進(jìn)行優(yōu)化, 從而得到最終的異構(gòu)節(jié)點(diǎn)聚類結(jié)果.

圖2 SCCAIN的總體框架Fig.2 Overall framework of SCCAIN

2.2 屬性HINs的相關(guān)性度量

2.2.1 結(jié)構(gòu)相關(guān)性

采用異構(gòu)網(wǎng)絡(luò)中相關(guān)性度量的通用框架(HeteSim)度量第i個(gè)s型節(jié)點(diǎn)與第j個(gè)t型節(jié)點(diǎn)之間的相關(guān)性, 表示為

(1)

其中vs,i和vt,j分別表示第i個(gè)源節(jié)點(diǎn)和第j個(gè)目標(biāo)節(jié)點(diǎn),HS(vs,i,vt,j|R1°…°Rl)為元路徑R1°R2°…°Rl上vs,i和vt,j之間的HeteSim值,O(vs,i|R1)為基于關(guān)系R1的vs,i的外鄰域,I(vt,j|Rl)為基于關(guān)系Rl的vt,j的內(nèi)鄰域. 如果vs,i′=vt,j′, 則HS(vs,i′,vt,j′|R(l+1)/2)=1, 否則為0. 與傳統(tǒng)的只計(jì)算同構(gòu)節(jié)點(diǎn)相似度基于元路徑的相似度算法(PathSim)或相關(guān)性不對(duì)稱的路徑約束隨機(jī)游走模型(PCRW)不同, HeteSim可以度量不同類型節(jié)點(diǎn)的相關(guān)性.

考慮到存在多個(gè)元路徑, 每個(gè)元路徑表示一種形式的結(jié)構(gòu)相關(guān)性, 如圖2所示, 這里將元路徑重要性權(quán)重λP分配給具體的相關(guān)性HS(vs,i,vt,j|P), 然后計(jì)算結(jié)構(gòu)相關(guān)性, 即

(2)

2.2.2 屬性相關(guān)性

給定第i個(gè)源節(jié)點(diǎn)的特征fs,i和第j個(gè)目標(biāo)節(jié)點(diǎn)的特征ft,j, 不可能直接度量fs,i和ft,j的相關(guān)性. 通過(guò)將不同空間中的屬性映射到同一空間中, 進(jìn)一步計(jì)算vs,i和vt,j的屬性相關(guān)性度量:

(3)

其中XA是屬性相關(guān)性矩陣,A∈RDs×Dt是不同空間的屬性向量的相關(guān)參數(shù),σ(·)是激活函數(shù), 采用ReLU函數(shù)保持屬性相關(guān)性為正.

2.2.3 整體相關(guān)性

SCCAIN綜合考慮了結(jié)構(gòu)信息和屬性信息, 根據(jù)兩個(gè)節(jié)點(diǎn)的結(jié)構(gòu)相關(guān)性和屬性相關(guān)性對(duì)節(jié)點(diǎn)的整體相關(guān)性進(jìn)行評(píng)估. 通過(guò)設(shè)置一個(gè)平衡參數(shù)α∈[0,1],vs,i與vt,j的整體相關(guān)性定義為

X(vs,i,vt,j)=αXA(vs,i,vt,j)+(1-α)XL(vs,i,vt,j|Λ).

(4)

為更有效地學(xué)習(xí)參數(shù), 本文利用附加約束指導(dǎo)優(yōu)化, 相應(yīng)的帶約束損失函數(shù)表示為

(5)

其中m表示標(biāo)簽的數(shù)量,MCi,j表示不同類型節(jié)點(diǎn)的約束. 根據(jù)給定的必須鏈接集Ms,t和不能鏈接集Cs,t, 當(dāng)Mst,i,j=1時(shí),MCi,j=1; 當(dāng)Cst,i,j=1時(shí),MCi,j=0,Xi,j=X(vs,i,vt,j). 這些約束以及對(duì)同一類型節(jié)點(diǎn)的約束, 也可以用于指導(dǎo)協(xié)同聚類.

2.3 半監(jiān)督協(xié)同聚類

本文設(shè)計(jì)了具有正交限制的半監(jiān)督非負(fù)矩陣三因子分解, 以同時(shí)對(duì)不同類型的節(jié)點(diǎn)進(jìn)行聚類:

(6)

2.4 聯(lián)合優(yōu)化

給定不同類型的節(jié)點(diǎn)Vs和Vt, 目標(biāo)是利用結(jié)構(gòu)信息和屬性信息以及一些約束同時(shí)對(duì)Vs和Vt進(jìn)行聚類. 為在該模型中同時(shí)優(yōu)化協(xié)同聚類和相關(guān)性度量, 本文設(shè)計(jì)一個(gè)聯(lián)合模型學(xué)習(xí)相應(yīng)的參數(shù), 包括元路徑的權(quán)重Λ以及聚類分布S和T.即將相關(guān)性矩陣X視為一個(gè)與參數(shù)Θ={Λ,A}有關(guān)的變量X(Θ), 損失函數(shù)表示為

L=L1(Θ)+L2(Θ)+γ(‖Θ‖2).

(7)

在SCCAIN中, 使用迭代更新方法學(xué)習(xí)參數(shù)Θ和(S,W,T), 并且每次迭代均由以下兩個(gè)步驟組成.

1) 用固定的Θ更新S,W,T.給定Θ, 該步驟的主要目標(biāo)是選擇半監(jiān)督協(xié)同聚類模型的解(S,W,T). 有固定的X, 則L可表示為

(8)

在這個(gè)函數(shù)中有3個(gè)參數(shù)帶有約束, 分別固定其中兩個(gè)參數(shù)優(yōu)化另一個(gè)參數(shù):

(9)

(10)

(11)

為獲得準(zhǔn)確的S,W,T, 迭代更新這3個(gè)參數(shù), 直到它們穩(wěn)定為止. 在更新過(guò)程完成后, 固定S,W,T以優(yōu)化相關(guān)性度量.

2) 用固定的S,W,T更新Θ.對(duì)于固定的S,W,T,L是Θ={Λ,A}的函數(shù), 全局損失函數(shù)等價(jià)于

Lrele=‖X(Θ)-SWTT‖2+γ(‖Θ‖2),

(12)

其中X(Θ)由式(4)和參數(shù)Θ計(jì)算得出,SWTT為固定值. 此外, 考慮到Λ≥0, 本文用max{0,λP}更新λP.

最后, 分別從優(yōu)化后的S和T獲得源節(jié)點(diǎn)Gs的聚類和目標(biāo)節(jié)點(diǎn)Gt的聚類. 其中,

相應(yīng)的算法描述如下.

算法1

輸入: 不同類型的節(jié)點(diǎn)Vs和Vt;

輸出: 元路徑的權(quán)重Λ以及聚類分布S和T;

步驟1) 初始化相應(yīng)參數(shù)γ

步驟2) do

步驟3) 固定Θ更新S,W,T

步驟4) 根據(jù)式(7)計(jì)算損失函數(shù)

步驟5) until收斂

步驟6) do

步驟7) 固定S更新Θ,W,T

步驟8) 根據(jù)式(7)計(jì)算損失函數(shù)

步驟9) until收斂

步驟10) do

步驟11) 固定W更新S,Θ,T

步驟12) 根據(jù)式(7)計(jì)算損失函數(shù)

步驟13) until收斂

步驟14) do

步驟15) 固定T更新S,W,Θ

步驟16) 根據(jù)式(7)計(jì)算損失函數(shù)

步驟17) until收斂

步驟18) 從優(yōu)化后的S和T獲得源節(jié)點(diǎn)Gs的聚類和目標(biāo)節(jié)點(diǎn)Gt的聚類.

3 實(shí) 驗(yàn)

3.1 數(shù)據(jù)集和指標(biāo)

表1列出了3個(gè)公共數(shù)據(jù)集的信息, 即Aminer,DBLP和一個(gè)Alibaba推薦數(shù)據(jù)集.

表1 數(shù)據(jù)集信息

1) Aminer數(shù)據(jù)集是一個(gè)公共基準(zhǔn)數(shù)據(jù)集, 由作者(A)、論文(P)和會(huì)議(C)三種類型的節(jié)點(diǎn)組成, 相應(yīng)的關(guān)系包括“發(fā)布”(P-C)、“參與”(A-C)和“寫”(A-P). 有5個(gè)主要研究領(lǐng)域: 數(shù)據(jù)挖掘、醫(yī)學(xué)信息學(xué)、理論、可視化和數(shù)據(jù)庫(kù), 每個(gè)節(jié)點(diǎn)都被分配到一個(gè)特定的領(lǐng)域. 這里專注于同時(shí)對(duì)作者和會(huì)議進(jìn)行聚類, 基于A-P-C,A-P-A-P-C和A-P-C-P-A-P-C三個(gè)元路徑計(jì)算結(jié)構(gòu)相關(guān)性. 作者和會(huì)議的屬性都是相關(guān)的論文摘要, 利用doc2vec將文本建模為密集向量.

2) DBLP數(shù)據(jù)集是一個(gè)公共子網(wǎng)絡(luò), 涉及4個(gè)研究領(lǐng)域的主要會(huì)議: 數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、人工智能和信息檢索. 有4種類型的節(jié)點(diǎn): 作者(A)、論文(P)、會(huì)議(C)和主題(T). 在該網(wǎng)絡(luò)中, 也關(guān)注作者和會(huì)議的協(xié)同聚類. 基于A-P-C,A-P-T-P-C和A-P-A-P-C三個(gè)元路徑計(jì)算結(jié)構(gòu)相關(guān)性. 這里將在20個(gè)會(huì)議上由作者撰寫的論文數(shù)量設(shè)置為作者的屬性, 并將通過(guò)元路徑C-P-A-P-C的鏈接數(shù)量設(shè)置為會(huì)議的屬性.

3.2 實(shí)驗(yàn)設(shè)置

首先將SCCAIN與其他三種協(xié)同聚類方法和兩種圖嵌入方法進(jìn)行比較; 然后通過(guò)比較SCCAIN及其改進(jìn)版本SCCAIN(L)和SCCAIN(A)分析屬性和結(jié)構(gòu)的貢獻(xiàn), 其中前者專注于屬性, 而后者專注于結(jié)構(gòu)[12].

DNMTF是一種矩陣三因子分解方法, 可在協(xié)同聚類時(shí)同時(shí)優(yōu)化矩陣因子分解和圖對(duì)偶正則化. 為公平比較, 將節(jié)點(diǎn)的k最近鄰和成對(duì)約束都設(shè)置為對(duì)偶正則化. 這里利用屬性HINs中的鏈接作為輸入矩陣. CPSSCC是一種半監(jiān)督協(xié)同聚類方法, 該方法同時(shí)利用行約束投影和列約束投影在低維空間中引導(dǎo)聚類源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn). ONMTF(HS)是一個(gè)非負(fù)矩陣三因子分解, 與文獻(xiàn)[13]中提出的傳統(tǒng)ONMTF不同, 本文利用多個(gè)元路徑的平均相關(guān)性作為相似度矩陣, 并在訓(xùn)練過(guò)程中結(jié)合成對(duì)約束討論學(xué)習(xí)相關(guān)性度量的有效性. GCN(K)是一種流行的屬性圖嵌入學(xué)習(xí)方法, 該方法聚合圖信息以重建節(jié)點(diǎn)嵌入, 利用監(jiān)督信息生成節(jié)點(diǎn)的基本嵌入, 并采用K均值方法分別對(duì)每種類型的節(jié)點(diǎn)進(jìn)行聚類. H2V(K)是一種具有K均值的異構(gòu)圖嵌入模型, H2V根據(jù)異構(gòu)邊緣對(duì)鄰居進(jìn)行采樣, 并學(xué)習(xí)節(jié)點(diǎn)和邊緣的嵌入. 在該模型中, 將成對(duì)約束整合到圖中以進(jìn)行公平比較[14].

對(duì)于SCCAIN, 將學(xué)習(xí)率設(shè)為0.001, 最大迭代次數(shù)設(shè)為200,γ設(shè)為0.01. 利用Adam最小化L1的損失. 由于必須鏈接和不能鏈接對(duì)是作為監(jiān)督信息提供的, 因此可通過(guò)交叉驗(yàn)證調(diào)整α. 對(duì)于Aminer,DBLP和Alibaba數(shù)據(jù)集, 本文分別生成固定數(shù)量的必須鏈接和不能鏈接的鄰居作為總約束, 然后采樣2.5%,5%,7.5%,10%的約束進(jìn)行學(xué)習(xí). 基線和SCCAIN都運(yùn)行10次, 并將平均值報(bào)告為性能. 采用標(biāo)準(zhǔn)化互信息NMI∈[0,1]和純度Purity∈[0,1]作為度量指標(biāo), NMI或Purity值越大, 表示性能越好.

3.3 對(duì)比分析

表2列出了3個(gè)不同尺度數(shù)據(jù)集上的NMI和Purity值. 對(duì)于DBLP和Aminer, 源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)分別表示作者和會(huì)議; 對(duì)于阿里巴巴, 源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)分別表示用戶和項(xiàng)目. 本文比較了所提出方法在源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)聚類上的性能. 圖3為協(xié)同聚類可視化, 用于描述檢測(cè)異構(gòu)集群之間潛在關(guān)聯(lián)的性能.

3.3.1 協(xié)同聚類的性能

由表2可見(jiàn), SCCAIN對(duì)于3個(gè)數(shù)據(jù)集均達(dá)到最佳性能. 與DNMTF,CPSSCC,ONMTF(HS)相比, 本文主要的改進(jìn)為可學(xué)習(xí)的整體相關(guān)性; 與GCN(K)和H2V(K)相比, 本文方法是一個(gè)同時(shí)考慮屬性和結(jié)構(gòu)的HINs統(tǒng)一模型. 此外, 由于該網(wǎng)絡(luò)的稀疏性, DNMTF和CPSSCC在Alibaba數(shù)據(jù)集上的表現(xiàn)較差.

表2 3個(gè)不同尺度數(shù)據(jù)集上的NMI和Purity值

在半監(jiān)督的情況下, 即存在約束率條件下, SCCAIN在源節(jié)點(diǎn)的聚類和目標(biāo)節(jié)點(diǎn)的聚類性能比多數(shù)方法有明顯優(yōu)勢(shì), 表明SCCAIN在沒(méi)有太多約束的情況下能極大提升聚類效果. 但其他一些模型, 如GCN(K)和DNMTF, 其性能在很大程度上依賴于監(jiān)督信息的規(guī)模, 且其增長(zhǎng)速度慢于SCCAIN. 與采用靜態(tài)相關(guān)性的ONMTF(HS)相比, SCCAIN由于采用了自適應(yīng)總體相關(guān)性度量, 因此其在半監(jiān)督條件下即可得到良好的聚類性能.

3.3.2 協(xié)同聚類可視化

本文模型是同時(shí)聚類不同類型的節(jié)點(diǎn), 可通過(guò)設(shè)置Aminer數(shù)據(jù)集上的協(xié)同聚類作為例子分析這些聚類的相關(guān)性. 由圖3可見(jiàn), 根據(jù)作者的聚類和會(huì)議的聚類, 重新排列了DNMTF,ONMTF(HS),SSCAIN的關(guān)聯(lián)矩陣, 然后顯示相應(yīng)的矩陣可視化, 色塊越深表示聚類的相關(guān)性越高. 通過(guò)比較圖3(A)~圖3(C)中的塊可見(jiàn), SCCAIN由于明顯的塊而具有更好的檢測(cè)不同類型聚類相關(guān)性的能力, 這有助于將這些信息用于推薦系統(tǒng)和其他一些有價(jià)值的任務(wù).

圖3 具有10%約束的Aminer數(shù)據(jù)集上協(xié)同聚類的相關(guān)性Fig.3 Correlation of collaborative clustering on Aminer data set with 10% constraint

3.4 模型分析

3.4.1 消融性

本文將SCCAIN與SCCAIN(L)和SCCAIN(A)的性能進(jìn)行比較, 結(jié)果如圖4所示. 由圖4可見(jiàn), 與SCCAIN(A)和SCCAIN(L)相比, 本文模型在這3個(gè)數(shù)據(jù)集上的表現(xiàn)都更好. 在Aminer數(shù)據(jù)集和DBLP數(shù)據(jù)集上, SCCAIN(L)的性能優(yōu)于SCCAIN(A), 但SCCAIN(A)在Alibaba數(shù)據(jù)集上更好. 實(shí)驗(yàn)結(jié)果表明了整合屬性信息和結(jié)構(gòu)信息進(jìn)行協(xié)同聚類的有效性. 此外, 盡管SCCAIN具有相似的結(jié)構(gòu), 但由于其具有自學(xué)習(xí)元路徑權(quán)值, 因此比ONMTF(HS)更好.

圖4 SCCAIN(A),SCCAIN(L),SCCAIN在協(xié)同聚類上的NMI性能Fig.4 NMI performance of SCCAIN(A),SCCAIN(L) and SCCAIN in collaborative clustering

3.4.2 收斂性和參數(shù)分析

為分析SCCAIN的收斂性, 本文將最大迭代次數(shù)從0增加到200, 并通過(guò)不同的監(jiān)督信息展示SCCAIN的NMI值, 結(jié)果如圖5所示. 由圖5可見(jiàn), 隨著3個(gè)數(shù)據(jù)集上監(jiān)督信息的增加, SCCAIN可更快地收斂, 這驗(yàn)證了監(jiān)督信息以及優(yōu)化框架的有效性.

為分析平衡參數(shù)α的影響, 將其從0調(diào)整為1, SCCAIN的NMI值的變化如圖6所示. 由圖6可見(jiàn), 通過(guò)比較每個(gè)數(shù)據(jù)集的性能, 發(fā)現(xiàn)合適的α可以提高聚類的NMI值. 通過(guò)比較不同數(shù)據(jù)集上的性能趨勢(shì), 可觀察到α在Aminer數(shù)據(jù)集上更敏感. 這是因?yàn)锳miner數(shù)據(jù)集上作者和會(huì)議的屬性是相關(guān)抽象向量的平均值. 此外, 若屬性相關(guān)性過(guò)強(qiáng)(即α≥0.5), 則可能很難區(qū)分作者或會(huì)議. 一方面, 一個(gè)會(huì)議的論文通常屬于多個(gè)領(lǐng)域, 因此它們屬性向量的平均值在許多不同會(huì)議中可能很相似; 另一方面, 由于語(yǔ)料庫(kù)較小, 因此在建模抽象文本的表示時(shí)可能會(huì)存在噪聲信息. 在DBLP和Alibaba 數(shù)據(jù)集上, 穩(wěn)定的性能表明可以更容易地學(xué)習(xí)節(jié)點(diǎn)屬性的相關(guān)性, 以幫助進(jìn)行協(xié)同聚類.

圖5 不同迭代次數(shù)的DBLP,Aminer,Alibaba數(shù)據(jù)集上SCCAIN的NMI值Fig.5 NMI values of SCCAIN on DBLP,Aminer,Alibaba data sets with different iterations

圖6 不同α的DBLP,Aminer,Alibaba數(shù)據(jù)集上SCCAIN的NMI值Fig.6 NMI values of SCCAIN on DBLP,Aminer,Alibaba data sets with different α

綜上所述, 為了同時(shí)利用屬性信息和結(jié)構(gòu)信息實(shí)現(xiàn)更精確的協(xié)同聚類, 本文提出了一種基于屬性異構(gòu)信息網(wǎng)絡(luò)的半監(jiān)督協(xié)同聚類框架. 通過(guò)分析數(shù)據(jù)集實(shí)驗(yàn)結(jié)果表明: 該方法在沒(méi)有太多約束的情況下能極大提升聚類效果, 實(shí)現(xiàn)良好的信息挖掘; 由于采用了自適應(yīng)總體相關(guān)性度量, 且能同時(shí)利用屬性信息和結(jié)構(gòu)信息, 因此其在半監(jiān)督條件下即可得到良好的聚類性能; 自學(xué)習(xí)元路徑權(quán)值的引入能使本文方法在不同的約束率條件下保持較好的聚類效果, 監(jiān)督信息的增加可加快收斂速度.

猜你喜歡
信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會(huì)信息
信息超市
展會(huì)信息
展會(huì)信息
展會(huì)信息
展會(huì)信息
展會(huì)信息
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 久久久久青草线综合超碰| 成人噜噜噜视频在线观看| 视频二区亚洲精品| 午夜福利网址| 国产一区二区三区视频| 国产一区在线视频观看| 欧美一区国产| 中文字幕亚洲乱码熟女1区2区| 精品剧情v国产在线观看| 国产对白刺激真实精品91| 久久国产精品影院| 国产91九色在线播放| 深夜福利视频一区二区| 国产精品亚欧美一区二区| 好吊色妇女免费视频免费| 成人国内精品久久久久影院| 高潮爽到爆的喷水女主播视频 | 国产成人精品一区二区| 中国一级毛片免费观看| 黄色在线网| 中文字幕66页| 亚洲国产亚洲综合在线尤物| 亚洲色图在线观看| 亚洲天堂精品在线| 日韩福利在线视频| 亚洲五月激情网| 成人国产免费| 亚洲无限乱码一二三四区| 色婷婷在线播放| 日韩毛片在线视频| 日韩精品中文字幕一区三区| 中文字幕无码电影| 99久久精品视香蕉蕉| 激情影院内射美女| 国产精品蜜芽在线观看| 久久香蕉国产线看观看亚洲片| 亚洲国产精品久久久久秋霞影院| 99资源在线| 国产精品美女网站| 999国内精品久久免费视频| 久久男人视频| 日本国产在线| 国产主播在线观看| m男亚洲一区中文字幕| 久久77777| 99这里只有精品在线| 日本高清免费一本在线观看| 国产日韩AV高潮在线| 无码精油按摩潮喷在线播放 | 欧美日韩国产成人高清视频| 日本少妇又色又爽又高潮| 日韩一级毛一欧美一国产| 丁香五月激情图片| 精品伊人久久久大香线蕉欧美| 精品国产欧美精品v| 性喷潮久久久久久久久| 99久久无色码中文字幕| 日本www在线视频| 国产欧美成人不卡视频| 亚洲欧美自拍中文| 一本视频精品中文字幕| 国内精品久久久久久久久久影视| 亚洲,国产,日韩,综合一区 | 蜜芽一区二区国产精品| 高潮毛片免费观看| 欧美自慰一级看片免费| 91久久国产成人免费观看| 国产综合另类小说色区色噜噜| 2020国产精品视频| 成人91在线| 国产视频自拍一区| 亚洲午夜18| 中文字幕人成乱码熟女免费| 超清无码熟妇人妻AV在线绿巨人| 亚洲人成网址| 国产专区综合另类日韩一区| 国产精品永久不卡免费视频| 国产一区二区精品高清在线观看| 国产精品浪潮Av| av免费在线观看美女叉开腿| 精品一区二区三区水蜜桃| 国产在线精品网址你懂的|