基于特征對比學習和圖卷積的社交網絡用戶分類

2024-04-23 10:13:48李政學李枝名彭德中陳杰

計算機工程 2024年4期

李政學,李枝名,彭德中,陳杰

(四川大學計算機學院,四川成都 610065)

0 引言

社交網絡是一種基于互聯網的以人類社交為核心的網絡服務形式。隨著移動設備的普及和互聯網技術的不斷發展,社交網絡在人類生活中占據了重要地位[1]。人們可以通過社交網絡平臺上傳圖片、音頻等,也可以與社交網絡上的其他用戶分享感興趣的話題[2]。由于社交網絡的開放性和連接性,許多企業家也會通過社交網絡進行商業活動[3]。在這些社交網絡平臺中,了解用戶的興趣愛好、發現他們擅長的領域,然后將興趣相同的人互相推薦為好友或者給他們推薦類似的產品,這些都可以提升社交網絡平臺的用戶體驗[4]。由于確定用戶的愛好專長是社交網絡中的用戶分類任務,因此用戶分類一直是社交網絡的研究熱點之一。

社交網絡平臺通常包括以下功能:用戶分享與自己興趣愛好相關的內容,社交平臺針對內容的性質創建對應的社區,用戶根據自己的喜好關注不同的社區,用戶訂閱其他用戶發布的內容。因此,用戶分享的內容是用戶的屬性之一,用戶根據他們的興趣愛好加入相應的社區。社交網絡用戶分類即通過用戶自身的屬性、關注關系,預測出他們的興趣愛好。例如,一個剛注冊的新用戶還未加入任何社區,但他關注了另一個老用戶,社交平臺發現老用戶加入了旅行社區,并且新老用戶發表了單車相關的內容,于是平臺預測新用戶的愛好是單車旅行,便可以邀請他加入旅行社區或者推薦相關的產品,這樣便可以提高用戶的滿意度。

在社交網絡中的每個用戶都可以視為一個節點,用戶之間的關系可以視為節點之間的邊,因此社交網絡中的用戶分類即可視為圖中的節點分類[5]。由用戶和用戶之間的關系構成的社交網絡數據結構是一個典型的圖數據結構,如何有效地利用節點的屬性信息以及網絡的結構信息對節點進行分類是一個關鍵的問題。另外,在社交網絡用戶分類的應用場景中,圖類數據集具有低同質率的特點。圖中的同質性指的是任意2個相鄰節點的相似性,即如果它們的標簽相同,則2個節點相似[6]。同質率是標簽相同的鄰居節點對占所有鄰居節點對的比例,同質率的高低決定了圖是同質的還是異質的。

基于隨機游走的方法在對圖類數據進行節點分類時取得了較好的效果[7]。PEROZZI等[8]提出的DeepWalk是一種學習網絡中節點隱表達式的算法,首先通過隨機游走獲取網絡中的節點序列,然后利用Word2Vec的思想將節點變為低維向量[9],最后用于分類。但是,DeepWalk存在以下不足:1)僅利用了圖的結構信息,但沒有使用節點的屬性信息;2)游走是一種均勻的游走,不適合處理同質率較低的圖數據集。為了解決DeepWalk只能隨機采樣的缺陷,GROVER等[10]提出在隨機游走時采用有偏策略的Node2Vec,通過p、q2個超參數來控制訪問節點的順序是偏向于深度優先還是廣度優先。該方法雖然能夠在一定程度上控制隨機游走的有偏性,但仍然存在沒有利用節點自身屬性信息的缺陷。

圖卷積神經網絡(GCN)在處理圖這類非歐氏數據時具有明顯的優勢。普通的卷積神經網絡(CNN)在處理圖像這類歐氏數據時,利用它們的平移不變性,通過卷積核來提取原始數據的特征,但圖類數據具有不規則性,所以傳統的CNN無法處理這類非歐氏數據。GCN首先通過圖上的傅里葉變換和卷積定理定義了譜域上的卷積核,然后通過一階切比雪夫多項式近似來減少計算量,最后定義了圖卷積。GILMER等[11]提出的消息傳遞神經網絡(MPNN)將圖神經網絡分為消息傳遞和讀出2個階段。GCN針對節點級的任務主要包括消息傳遞階段的聚合鄰居和更新狀態2個步驟,將得到的信息進行非線性映射,增強模型的表達能力。相比于傳統的神經網絡只能將節點屬性信息作為輸入[12],無法有效地處理圖類數據的結構信息,GCN的優勢在于同時考慮了節點的屬性信息和圖的結構信息[13]。相比于傳統的卷積神經網絡,GCN的優勢在于能夠利用圖上的卷積算子對非歐氏的圖類數據進行特征提取。

GCN模型將卷積算子擴展到圖類數據上[14],使節點分類在同質率高的圖數據集中取得了較好的效果。圖注意力(GAT)模型通過引入注意力機制[15],能夠學習更多的圖結構信息,在節點分類任務中取得了更好的效果。但是上述方法都存在只適用于高同質率圖數據集的缺陷,在處理低同質率數據集時效果會變差。例如,GCN會將各鄰居節點的特征聚合,然后使鄰居節點的表達式變得相似。針對低同質率即大多數鄰居節點與中心節點都不屬于同一類節點的情況,GCN會使異類節點的表達式也變得相似,導致分類效果較差。HE等[16]提出的塊建模引導的圖卷積神經網絡(BMGCN)通過構造塊矩陣來有區分地聚合同質圖或異質圖的特征信息,在處理低同質率數據集時分類效果較好,但是該方法僅是從聚合信息的角度出發,并沒有從節點表達式的角度考慮。

對比學習是一種自監督的學習方式[17],在沒有標簽的情況下,使模型觀察數據的相似和差異來學習數據的高級特征。YOU等[18]通過最大化子圖的不同增廣版本的相似性來學習節點的表達式,但該方法未用節點級的樣本進行對比。XU等[19]提出的對比學習模型保證了多視圖公共特征的一致性,但多視圖的對比并不適用于單視圖的圖類數據集。

針對社交網絡中圖類數據集同質率較低的問題,本文提出基于特征對比學習的圖卷積神經網絡(CLGCN)模型。CLGCN的特征對比學習模塊從節點級的樣本出發,將同類、異類的鄰居節點對分別定義為正、負樣本對,通過最小化特征對比的損失函數,使得同類節點的特征相似性更高及異類節點的特征可區分性更強。

1 相關工作

本節介紹圖卷積神經網絡和對比學習的相關工作以及常見的相似性衡量方法。

1.1 圖卷積神經網絡

近年來,由于圖神經網絡模型具有能夠有效處理圖類數據的優勢,因此它在處理圖類節點分類任務時也越來越受歡迎。KIPF等[14]在此基礎上提出了GCN,將拉普拉斯矩陣特征分解后進行的傅里葉變換定義為了圖上的卷積算子,并通過切比雪夫的一階近似減少了計算量。

經典的GCN處理半監督節點分類任務的過程如式(1)所示:

(1)

針對半監督學習的節點分類任務,GCN的最后一層(K)如式(2)所示:

(2)

其中:Z為用于分類的節點表達式。

該節點分類任務采用交叉熵作為損失函數[20],如式(3)所示:

Lgcn=CrossEntropy(Yij,Zij)=

(3)

其中:Y表示訓練集的真實標簽矩陣;C表示類別的數量。

CLGCN模型受到BMGCN[16]的啟發,具體過程如下:

1)通過多層感知機(MLP)獲取偽標簽,如式(4)所示:

L=Softmax(σ(MLP(X)))

(4)

其中:X表示節點特征。

2)為了增強偽標簽的可靠性,該模型用訓練集的真實標簽先對MLP進行預訓練,用交叉熵作為預訓練階段的損失函數,如式(5)所示:

(5)

其中:Ttrain表示訓練集中所有節點的集合;Yi表示節點vi的真實標簽;Li表示節點vi的偽標簽。

3)在得到偽標簽L后,將偽標簽與真實標簽相結合得到Yc和塊矩陣M,分別如式(6)和式(7)所示:

Yc={Yi,Lj|?vi∈Ttrain,?vj?Ttrain}

(6)

(7)

其中:A是鄰接矩陣;E是與Yc形狀相同的全1矩陣;塊矩陣M反映了任意2個類別之間有邊連接的概率。

4)構造塊相似性矩陣N,如式(8)所示。N衡量了M中類別之間的相似度,借助N構造新的鄰接矩陣,如式(9)所示。利用塊矩陣引導圖卷積,如式(10)所示。

N=MMT

(8)

(9)

(10)

5)采用交叉熵作為損失函數。損失函數的計算公式如式(11)所示:

(11)

1.2 對比學習

對比學習在無監督學習中進行特征學習和數據增廣時發揮著重要的作用。例如,XU等[19]在多視圖聚類的任務中進行特征對比學習,將多視圖樣本中的任意2個不同視圖的相同特征對作為正樣本對,將其余的特征對作為負樣本對,該方法減少了不同視圖冗余信息的干擾,保證了公共特征的一致性。

在半監督學習的節點分類任務中,由于只有有限的數據具有標簽,對比學習在圖卷積神經網絡中也可以發揮更好的作用。例如:VELICKOVIC等[21]提出的深度圖信息最大化(DGI)將圖中局部和全局的表示式進行對比,豐富了節點的表達;SUN等[22]將DGI擴展到圖級別上,對圖進行分類;THAKOOR等[23]利用對比學習的思想隨機刪除圖中的邊來進行數據增廣。

1.3 相似性衡量方法

常見的衡量向量相似性的方法有歐氏距離、集合距離、余弦相似性等。假設有2個向量a=(a1,a2)和b=(b1,b2),則它們之間歐氏距離的計算公式如下:

(12)

歐氏距離是用來衡量兩點之間的直線距離的方法,它只適用于歐氏數據,并且在數據維度較高時容易造成維度災難的問題[24],圖類數據屬于非歐氏數據,因此歐氏距離并不適用。

基于集合距離的方法有Jaccard指數、Dice指數等。Jaccard指數的計算公式如下:

(13)

其中:A、B分別表示2類向量的集合,這類方法適用于衡量集合之間的相似性。

本文是以單個向量為對象,衡量它們兩兩之間的相似性,因此基于集合距離的方法并不適用。

衡量a=(a1,a2)和b=(b1,b2)之間余弦相似性的計算公式如下:

(14)

其中:〈·,·〉表示內積運算。

余弦相似性是計算向量之間夾角的余弦值,從方向的角度來衡量向量之間的相似性,因此適用于本文中的圖類數據。

2 CLGCN模型

本節首先給出社交網絡用戶分類的問題描述,然后介紹CLGCN模型。

2.1 問題描述

一個社交網絡的圖可以用G=(V,E,X,A)來表示,其中,V表示社交網絡中的節點,即用戶集合,E表示節點之間的邊,即用戶之間的相互關注,X∈n×F表示節點特征向量構成的矩陣,A∈{0,1}n×n表示社交網絡中所有節點之間關系的鄰接矩陣,n=|V|表示節點的數量,F表示節點特征向量的維度。通常地,將社交網絡中的用戶分類視為半監督的節點分類問題。在訓練集中已知標簽的節點集合Ttrain表示已經明確喜好的老用戶,對應的標簽集合用Y∈n×C表示。在測試集中未知標簽的節點集合Ttest表示未明確喜好、剛剛注冊的新用戶。社交網絡用戶分類即通過用戶之間的關注關系、用戶自身屬性,預測新用戶的興趣愛好。

2.2 圖卷積神經網絡模型

CLGCN模型結構如圖1所示,主要包括預訓練、圖卷積和對比學習3個部分:第1個部分先通過預訓練獲取未知標簽節點的偽標簽,再將偽標簽與真實標簽組合;第2個部分先通過結構相似性矩陣構造新的鄰接矩陣,再進行圖卷積;第3個部分有7個節點,其中,0號節點為中心節點,其余1～6號節點為鄰居節點,1號節點與0號節點為同類,其余節點與0號節點為異類,同類節點構成的節點對作為正樣本,例如〈v0,v1〉,異類節點構成的節點對作為負樣本,例如〈v0,v6〉,以此選取所有的正負樣本來構造特征對比學習的損失函數?？偟膿p失函數由3個部分的損失函數組成。

圖1 CLGCN模型結構Fig.1 Structure of CLGCN model

2.2.1 基于相似性矩陣的圖卷積

1)通過預訓練得到的偽標簽矩陣L與真實矩陣Y組成組合標簽矩陣Yc,如式(15)所示。通過Yc∈n×C可以構造一個塊矩陣M∈C×C,M在一定程度上描述了圖中各類的結構特征,即M矩陣中每一行的向量表示了該類的結構信息,如式(16)所示。

Yc={Li,Yj|?vi?Ttrain,?vj∈Ttrain}

(15)

(16)

其中:A∈n×n為鄰接矩陣;Mij表示第i類中的節點與第j類中的節點相連的邊數。

2)在得到塊矩陣M后,由于其每行反映了圖中各類的結構信息,于是可以用它構造一個類別相似性矩陣,用于衡量類與類之間結構的相似性,本文采用余弦相似性來衡量圖中各類之間的相似度,如式(17)所示:

Nij=|cos(Mi,Mj)|

(17)

類別相似性矩陣N衡量了類與類之間的相似性,同類和結構相似類之間的節點應當傳播更多的信息。首先用偽標簽L和類別相似性矩陣N計算權重矩陣LNLT,然后用該權重矩陣來構造更完善的新鄰接矩陣,新鄰接矩陣的作用是指導節點利用自身和鄰居的特征信息來更新自身的特征表達。新鄰接矩陣的構造方式如式(18)所示:

(18)

其中:β是一個超參數;I∈n×n是一個單位矩陣。

(19)

4)最后一層節點的特征表示如式(20)所示:

(20)

5)圖卷積部分的損失函數如式(21)所示:

(21)

2.2.2 鄰居節點對的特征對比學習

2)將圖中每個節點與自身類別相同、不同的鄰居節點對分別作為正、負樣本對,目的是使同類樣本的表達式相似性更高,異類樣本的表達式可區分性更強。此處,采用余弦相似性來衡量樣本表達式的相似程度,如式(22)所示:

(22)

其中:Zi是節點vi的最終表達式;〈·,·〉是內積運算。

3)定義節點vi的鄰居節點對中正樣本對的相似性的和如式(23)所示,節點vi的鄰居節點對中負樣本節點對的相似性的和如式(24)所示。由此得到節點vi的對比學習損失函數如式(25)所示。

(23)

(24)

(25)

4)總的對比學習損失函數如式(26)所示,通過最小化損失函數式(26),鄰居節點對中正樣本對的相似性會更高,負樣本對的可區分性會更強。

(26)

可見,特征對比學習的引入可以有效減輕社交網絡數據集同質率較低的問題對GCN模型的限制。

2.2.3 訓練過程

1)通過預訓練獲取所有節點的偽標簽L,此部分的損失函數如式(27)所示:

(27)

2)將偽標簽L與真實標簽Y相結合得到組合標簽Yc。

3)通過組合標簽Yc構造衡量類別之間結構相似性的矩陣N。

6)模型總的損失函數如式(28)所示:

Ltotal=Lmlp+Lgcn+λLcontrastive

(28)

其中:λ是人為設定的超參數。

算法1CLGCN模型訓練算法

輸入特征矩陣X∈n×F,鄰接矩陣A∈n×n,標簽矩陣Y∈ntrain×C

輸出節點表達式Z∈n×C

1) 通過式(15)和式(27)預訓練多層感知機獲得組合標簽Yc。

2) 通過式(16)計算M。

3) 通過式(17)計算相似性矩陣N。

5) 通過式(19)和式(20)進行圖卷積。

6) 通過式(22)～式(25)進行正負樣本對的特征對比。

7) 通過式(21)、式(26)、式(27)分別計算Lgcn、Lcontrastive、Lmlp。

8) 通過式(28)最小化L更新整個網絡的參數。

3 實驗結果與分析

將CLGCN模型在3個同質率較低的社交網絡數據集上進行節點分類實驗,并與其他先進的模型進行性能對比。

3.1 數據集

采用3個公開的社交網絡數據集BlogCatalog、Flickr和Uai2010。這3個數據集的信息統計如表1所示。

表1 數據集信息統計Table 1 Dataset information statistics

1)BlogCatalog數據集。BlogCatalog是一個在線的社交網絡平臺,許多用戶用它上傳博文,并且博主之間可以相互關注,博主之間的關注關系形成了一個社交網絡。BlogCatalog數據集用每個用戶博客中的關鍵字作為用戶的屬性信息,標簽來自用戶的興趣愛好,共劃分了6類節點。

2)Flickr數據集。Flickr是一個存放圖像和視頻的網站,用戶之間可以通過分享圖片和視頻來相互交流。Flickr數據集將用戶對圖片、視頻的興趣愛好的關鍵字作為屬性信息,將用戶所在的分組作為標簽,共劃分了9類節點。

3)Uai2010數據集。Uai2010數據集是一個用于社區檢測的網絡數據集,共有3 067個節點和28 311條邊。

3.2 對比模型

將CLGCN與以下6種先進的用于節點分類的模型進行比較:

1)DeepWalk[8]。該模型是一種隨機游走和Word2Vec相結合的模型,通過隨機游走獲取節點序列,再通過Word2Vec獲取向量表達式,僅利用了圖的結構信息。

2)GCN[14]。該模型是一種經典的圖卷積神經網絡模型,將節點的屬性信息和網絡的結構信息作為輸入,通過聚合鄰居節點的信息來學習節點的表達式。

3)GAT[15]。該模型將自然語言處理中的注意力機制引入圖數據結構,通過計算節點之間邊的重要性,使得信息傳播更加有效。

4)正交圖卷積神經網絡(OrthGCN)[25]。該模型是一種用于解決標準GCN過平滑問題而提出的改進模型,利用一種新穎的正交特征變換方式,提升了模型訓練過程的穩定性。

5)MixHop[26]。該模型是一種針對標準GCN只能聚合低階鄰居信息而提出的改進模型,通過混合不同階數鄰居節點的特征表達,使傳遞的信息更加豐富。

6)BMGCN[16]。該模型通過計算圖數據集中類別之間的結構相似性來引出塊矩陣,然后通過塊矩陣引導的圖卷積方法能較好地處理低同質率的數據。

3.3 評價指標

實驗的主要任務是對圖數據集中的節點進行半監督分類,采用準確率作為評價指標。

3.4 實驗設置

實驗對社交網絡數據集進行半監督節點分類,因此數據集分為已知標簽的訓練集、未知標簽的驗證集和測試集。BlogCatalog和Flickr數據集采用與GAug[27]中相同的劃分,訓練集占10%、驗證集占20%、測試集占70%。Uai2010數據集來源于AM-GCN[28],也同樣按照半監督節點分類的慣例將其劃分為訓練集占10%、驗證集占20%、測試集占70%。

CLGCN模型是在BMGCN上進行修改并且引入特征對比學習得到的改進模型。CLGCN和BMGCN對BlogCatalog數據集進行訓練時:共有的隱藏層單元數設置為16、32、64、128、256、512,學習率設置為0.050、0.030、0.010、0.001和丟棄率(dropout)設置為0、0.1、0.2、0.3、0.4、0.5,CLGCN獨有的參數λ設置為0、0.1、0.3、0.5、0.7、0.9;對Flickr數據集進行訓練時,共有的隱藏層單元數設置為16、32、64、128、256、512,學習率設置為0.001 0、0.000 9、0.000 8、0.000 7、0.000 6、0.000 5、0.000 4、0.000 3、0.000 2、0.000 1和dropout設置為0、0.1、0.2、0.3、0.4、0.5,CLGCN獨有的參數λ設置為0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0;對Uai2010數據集進行訓練時,共有的隱藏層單元數設置為32、64、128、256、512,學習率設置為0.001 0、0.000 9、0.000 7、0.000 5、0.000 3、0.000 1和dropout設置為0、0.1、0.2、0.3、0.4、0.5,CLGCN獨有的參數λ設置為0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0。其他模型則是在參考原文獻中最佳參數的基礎上,對學習率、隱藏層單元數、dropout進行微調。

3.5 結果分析

3.5.1 節點分類分析

表2展示了在3個低同質率社交網絡數據集上的半監督節點分類的實驗結果,其中最優指標值用加粗字體標示,下同。由表2可以看出,CLGCN模型在BlogCatalog、Flickr和Uai2010 3個數據集上的準確率分別達到了93.5%、81.4%和67.9%,高于對比模型,具體表現為:基于隨機游走的DeepWalk由于只考慮圖類數據的結構信息而忽略了節點的屬性信息,因此準確率較低;GCN和GAT同時考慮了圖結構信息和節點屬性信息,準確率要高于DeepWalk,但存在無法有效處理低同質率數據集的缺陷;MixHop同時聚合了低階和高階鄰居的特征信息,使學習的特征表達式更加豐富,因此準確率更高,但同樣無法有效處理低同質率數據集;BMGCN通過計算出的塊矩陣來引導圖卷積,能夠較好地處理低同質率數據集,準確率要高于GCN、GAT和MixHop;CLGCN將同類鄰居節點對作為正樣本對、異類鄰居節點對作為負樣本對及運用特征對比來處理低同質率數據集,在3個數據集上的準確率均高于BMGCN。

表2 社交網絡節點分類結果Table 2 Results of the node classification of social networks %

3.5.2 參數分析

在BlogCatalog、Flickr和Uai2010 3個數據集上,分析GCN卷積層數、隱藏層單元數對CLGCN模型性能的影響。

1)GCN卷積層數。在隱藏層單元數、丟棄率、學習率等超參數不變的情況下,測試CLGCN中GCN卷積層數分別為1、2、3、4、5、6的情況下節點分類的準確率,如表3所示。

表3 在不同卷積層數下的CLGCN分類結果Table 3 Classification results of CLGCN with different numbers of convolutional layers

由表3可知,隨著卷積層數的增加,模型準確率逐漸提升,當卷積層數為3時,模型性能最好,但隨著卷積層數繼續增加,模型準確率會逐漸變差。這是因為GCN實際上是一個低通濾波器,層數過高會導致過平滑問題。原始GCN模型超過2層性能就會急劇下降,而CLGCN在4層卷積層時仍能保持較好的性能,這是因為特征對比模塊使異類節點對的表達特征可區分性更強,在一定程度上緩解了CLGCN中的過平滑問題。

2)隱藏層單元數。在GCN卷積層數、丟棄率、學習率等超參數不變的情況下,測試CLGCN中隱藏層單元數分別為32、64、128、256、512的情況下節點分類準確率,如表4所示。

表4 在不同隱藏層單元數下的CLGCN分類結果Table 4 Classification results of CLGCN with different numbers of hidden layer units

由表4可知,當CLGCN隱藏層單元數為128、256、512時,CLGCN的節點分類效果較好,但在其他情況下CLGCN的性能也相對穩定,說明了其對隱藏層單元數有較強的魯棒性。

3.5.3 可視化分析

為了更直觀地展示CLGCN模型的有效性,以同質率最低的Flick數據集為例,用t-SNE對GAT、BMGCN和CLGCN最后一層輸出的節點表達式進行可視化。Flick數據集共分為9類,其節點分類的可視化結果如圖2所示,其中不同顏色和樣式的點表示不同標簽的節點。

圖2 在Flickr數據集上節點分類的可視化結果Fig.2 Visualization results of node classification on Flickr datasets

由圖2的可視化結果可知:GAT由于無法有效處理低同質率的數據集,因此許多不同標簽的節點都混合在一起;BMGCN通過塊矩陣引導圖卷積,能在一定程度上處理低同質率的數據集,可視化結果要比GAT好很多;CLGCN的特征對比學習模塊能夠從樣本表達式的角度有效處理低同質率的數據集,因此可視化結果中可以清楚地看出節點分為9類,且其同類節點的分布更加密集?？梢?CLGCN的可視化結果進一步證明了特征對比學習模塊的有效性。

3.5.4 消融實驗

為了進一步地驗證CLGCN特征對比學習模塊在低同質率數據集中節點分類的有效性,進行消融實驗。將去掉特征對比學習模塊的CLGCN用CLGCN*表示,將CLGCN*和CLGCN在所有數據集上進行比較,結果如表5所示。

表5 對比學習模塊的消融實驗結果Table 5 Ablation experimental results of contrastive learning module %

消融實驗結果顯示,有特征對比學習模塊的CLGCN在3個數據集上的準確率均高于沒有特征對比學習模塊的CLGCN*。CLGCN的特征對比學習模塊從樣本表達式的角度構造特征的對比損失函數,使同類鄰居節點對的特征表達相似性更高及異類鄰居節點對的特征表達可區分性更強,最終在處理低同質率數據集時節點分類的效果更好。該實驗證明了特征對比學習模塊的有效性。

3.5.5 相似性衡量方法對比

該實驗對樣本表達式的相似性衡量方法進行對比。由于基于集合的距離衡量方式不能較好地滿足本文的要求,因此對余弦相似性和歐氏距離2種衡量方法進行比較。

表6展示了相似性衡量方法的對比結果,在3個數據集上,基于余弦相似性的實驗結果遠好于基于歐氏距離的實驗結果,主要原因為:1)社交網絡的圖類數據屬于非歐氏數據,歐氏距離無法有效衡量圖類數據;2)在面對高維數據時,由于維度災難的原因,因此歐氏距離的測度會失去意義。可見,針對社交網絡數據集非歐氏及高維的特性,余弦相似性比歐氏距離更加合適。

表6 相似性衡量方法的對比結果Table 6 Comparison results of similarity measurement methods %

4 結束語

針對社交網絡數據集的低同質率問題,本文提出一種基于特征對比學習的CLGCN模型,通過定義同類節點對為正樣本對、異類節點對為負樣本對,最小化特征對比的損失函數,使得同類節點特征的相似性更高、異類節點特征的可區分性更強。實驗結果表明,CLGCN在社交網絡用戶分類時相比于其他模型效果更好。但由于不同的社交網絡數據集涉及的用戶自身屬性有所不同,因此未來將考慮根據不同情況采用不同的方法來衡量節點特征的相似性。