




































摘 要:針對困難樣本挖掘的圖聚類算法是最近的研究熱點,目前算法存在的主要問題有:對比方法和樣本對加權策略缺少良好的融合機制;采樣正樣本時忽略了視圖內部的“假陰性”樣本;忽視圖級信息對聚類的幫助。針對上述問題,提出困難樣本采樣聯合對比增強的圖聚類算法。首先使用自編碼器學習嵌入,根據計算的偽標簽、相似度、置信度信息為表示學習設計一種自加權對比損失,統一不同視圖下節點對比和困難樣本對加權策略。通過調整不同置信區域樣本對的權重,損失函數驅動模型關注不同類型的困難樣本以學習有區分性的特征,提高簇內表示的一致性和簇間表示的差異性,增強對樣本的判別能力。其次,圖級表示經聚類網絡投影,通過聚類對比損失最大化不同視圖下聚類的表示一致性。最后聯合兩種對比損失,利用自監督訓練機制進行迭代優化,完成聚類任務。該算法在5個真實數據集上與9個基準聚類算法對比,在4個權威指標上達到最優,聚類性能出色。消融實驗表明兩個對比模塊的有效性和可遷移性。
關鍵詞:圖表示學習; 屬性圖聚類; 對比學習; 困難樣本挖掘
中圖分類號:TP311.13;TP181 文獻標志碼:A
文章編號:1001-3695(2024)06-024-1769-09
doi:10.19734/j.issn.1001-3695.2023.10.0521
Deep graph clustering with hard sample sampling joint contrastive augmentation
Abstract:The graph clustering algorithm for hard samples mining is a recent research hotspot. In the current algorithm, the main problems include the lack of a fusion mechanism for comparing methods and a sample pair weighting strategy; the algorithms ignore “false negative” samples within the view when sampling positive samples and disregarding the help of graph-level information for clustering. To address the issues above, this paper proposed a graph clustering algorithm based on hard sample sampling joint contrast augmentation. Initially,it utilized an autoencoder to learn embeddings,designed a self-weighted contrast loss for representation learning by utilizing the calculated pseudo-label, similarity, and confidence information, and unified the strategies of node comparison and hard sample pair weighting across different views. By adjusting the weights of sample pairs in different concJL75m6eWy/OomSwA/tN/g==fidence regions, the loss function derived the model to focus on different types of hard samples to learn discriminative features, improving the consistency of intra-cluster representation and the distinctiveness of inter-cluster representation and enhancing the ability to discriminate samples. Additionally, the clustering network projected the graph-level representation to maximize the representation consistency of clusters under different views through cluster contrast loss. Finally,combining the two comparison losses, the self-supervised training is used for iterative optimization to complete clustering. In the comparison with 9 benchmark algorithms on 5 real datasets, this algorithm achieves superior performance on 4 authoritative indicators, highlighting its excellent clustering capabilities. Ablation experiments demonstrate the effectiveness and transferability of the two contrasting modules.
Key words:graph representation learning; attributed graph clustering; contrastive learning; hard sample mining
0 引言
圖數據作為描述現實世界的工具之一,在引文網絡[1]、社交網絡[2]、推薦系統[3]等領域發揮了重要作用。屬性圖提供一種結構化的方式表示屬性實體間的關系。屬性圖聚類是數據挖掘領域的一項重要問題,目的是以無監督的方式將圖中的節點劃分成多個組,使得同一簇中的節點具有相似的屬性。
傳統的聚類算法(如K-means、Spectral)面向高維數據時聚類效果不夠理想。近年來,基于深度學習的聚類方法達到了最佳性能。其中GCN[4]可學習屬性圖的結構信息和節點特征來嵌入低維表示。VGAE[5]采用GCN編碼器和重構解碼器,利用節點表示完成聚類。Pan等人[6]在GAE框架的基礎上引入對抗性正則化器,開發對抗性正則化圖自編碼器網絡(ARGA)完成聚類。Wang等人[7]受深度嵌入聚類DEC[8]的啟發,通過聚類導向網絡最小化聚類分布與聚類間的不匹配。雖然已有了長足的進步,但它們往往是通過聚類導向的損失函數使得生成的樣本擬合預先生成的聚類分布,初始化的簇中心會影響模型的整體性能,且面臨著數據依賴、過擬合、高計算復雜度等問題。
近年來,對比學習在計算機視覺[9]、圖表示學習[10]等領域表現出強大的性能。受此啟發,最近的一些研究[10~12]通過對比損失函數來取代聚類引導的損失函數,從而消除了初始簇中心所帶來的人工誤差。例如,GCA[10]在文獻[11]的基礎上提出了一種帶有節點中心性度量的自適應圖增強方法,增強圖信息以實現節點表征同圖級表征的對比;SCGC[12]設計了一種面向鄰居的對比目標函數,促使跨視圖相似性矩陣逼近自環鄰接矩陣,使得模型可以保持跨視圖的一致性,增強了網絡的判別能力。
對比學習的成功取決于正樣本對和負樣本對的設計,例如SCGC中將節點的鄰居作為正樣本構造目標函數;AFGRL[13]挖掘圖中共享局部結構信息和全局語義的節點對來構造對比學習的正、負樣本實現對比。但這些方法往往忽略了困難樣本的存在。在對比學習中尋找錨點附近的困難樣本能夠提供顯著的梯度信息[14],最近的研究[15~17]也表明,在對比過程中挖掘困難樣本十分有效。例如,HCL[14]開發了一系列選擇困難負樣本的抽樣方法;MoCHi[15]混合困難負樣本來合成更多的困難樣本;ProGCL[16]首先對假陰性樣本進行過濾,借助樣本相似性設計了一種更好的量化樣本為負的概率和困難度的方案;HSAN[17]通過結構信息和屬性信息計算相似度以輔助困難度的測量,同時關注困難的正、負樣本并動態地調整樣本對的權重。
雖然這些工作的有效性得到驗證,但仍存在以下缺陷:a)困難樣本的評估與對比機制缺少有效的融合機制[15~17],現有困難樣本挖掘方法在使用對比損失指導圖表示學習時,只為樣本對賦予權重,忽略了樣本對在不同難度下與正負樣本對比策略的結合;b)傳統的圖對比學習通過不同的增強方案將原始圖擴展為兩個視圖[18],將一個節點在兩種不同增強下的表示視為正對,其余作負對,這種設計忽略了每個視圖內存在的正樣本,違背了“物以類聚”的聚類初衷;c)大多方法僅利用節點信息面向任務。然而對比表示學習中,跨視圖對比圖表示和節點表示在聚類上已經取得了良好成效,圖級信息不應被忽略。
針對上述問題,本文提出一個困難樣本采樣聯合對比增強的深度圖聚類方法(deep graph clustering with hard sample sampling joint contrastive augmentation,HSCA)。首先,對原始數據濾波并經由簡單的MLP編碼器獲得低維嵌入表示,在精心計算的相似度、置信度樣本集合、偽標簽信息下,提出了一種新的困難樣本對調權策略,加權函數根據訓練難度調整不同置信區域正、負樣本對的權重;其次,根據低維嵌入構造圖級表示,將其投影至聚類層,在兩個視圖間學習類別的一致性;最后,聯合優化自加權對比損失和聚類對比損失以實現更優的聚類性能。
本文的主要貢獻如下:
a)提出一個基于困難樣本采樣聯合對比增強的聚類模型HSCA。通過巧妙的樣本困難度計算方案,對高置信區域中的節點對,HSCA提高困難對的權重,降低容易對的權重;在低置信區域額外關注偏差節點對,引導網絡自適應地采樣多類型的樣本對并調制權重。
b)為了消除傳統對比學習中視圖內“假陰性樣本”的問題,通過偽標簽和相似度的交叉信息,在視圖內為錨點采樣K個最相似的同簇節點作為正樣本。跨視圖融合正負樣本采樣和困難樣本對的調權策略,提出一個自加權對比損失函數。
c)提出一個聚類表示對比方案。以往的節點聚類僅關注節點級特征而忽略了全局信息。HSCA構造圖級表示并投影聚類層,在視圖間學習聚類表示的一致性,利于模型優化。
d)在五個數據集上的大量實驗證明了本文方法的優越性和有效性。
1 相關工作
1.1 深度圖聚類
深度圖聚類是近年來備受關注的研究方向,其目的是用神經網絡對節點編碼,并將其劃分為不相交的多個類。現有方法可分為重構方法(TGC[19],DAGC[20])、對抗性方法(AGAE[21],JANE[22])和對比式的方法三類。本文著重于最后一類。對比圖聚類首先經深度網絡將樣本嵌入低維空間,然后基于對比策略將正樣本聚集在一起的同時推開負樣本來提高對樣本特征的辨別力。對比方法關心屬性信息的同時通過樣本之間有意義的關系(如相似度)構建自監督信號。AGE[23]設計一個自適應編碼器實現節點級的對比學習。MVGRL[18]采用雙參數非共享GCN編碼器和共享MLP作為主干,然后在不同視圖間學習節點表示和圖表示的一致性,而本文的HSCA在圖、節點表示兩個層面上都設計了可靠的對比方案。文獻[24]根據聚類層生成的偽標簽解決了對比過程中負樣本隨機選擇的問題,從負樣本集合中根據偽標簽刪除與當前節點標簽一致的節點。HSCA相比前者通過偽標簽增強方案得到了更優質的偽標簽,并將其巧妙地應用于困難度計算過程和對比學習中。文獻[25]考慮不同深度的節點之間的影響,加入了結構信息,將R跳鄰域內的節點作為當前節點的正樣本,并將其與所有節點進行對比。AFGRL通過樣本局部結構信息和全局語義信息捕捉到更可靠的正樣本集合。本文綜合考慮top-K近鄰和偽標簽信息,在跨視圖的條件下選取到了更可靠的正樣本。傳統的對比聚類雖然設計了巧妙的對比策略并以對比損失引導模型優化,但大多方法將容易和困難的樣本一視同仁,導致不易區分。本文考慮挖掘困難樣本來提高對比學習在聚類任務上的應用性能,設計了一種高效的困難度度量方案。
1.2 困難樣本挖掘
計算機視覺[26,27]中的工作表明,區分困難樣本和容易樣本雖然具有一定的挑戰性,但對于對比學習十分有效。受此激勵,研究人員開始關注對圖中困難樣本的挖掘。困難樣本是表示學習過程中不好劃分的樣本,一種常用方法是負樣本挖掘(negative sample mining)[15,16]。該方法在每一輪訓練中選擇最難區分的負樣本以提高模型的泛化能力。Xia設計了一個概率估計器,為負樣本的困難度和相似性建立起合適的一個度量,更關注屬于同類但相似度較低的樣本,但忽略了困難的正樣本也值得關注。CuCo[28]將圖級對比學習的負樣本按相似性從易到難進行分類,并利用課程學習自動選擇和訓練負樣本的方法。與此相反,本文研究了實例間消息傳遞的節點級對比學習。HSAN提出一個正負樣本對的加權策略以引導網絡,同時關注困難的正樣本和負樣本,從而實現更好的聚類效果。與之前的方法相比,HSAN同時關注了困難的正負樣本,但是在正負樣本的采樣方式上仍延續了傳統方式,將錨點在另外一個視圖下的表示視作正樣本,其余為負樣本。本文則設計了一個高效的對比策略,跨視圖為每個樣本選取更合理的正負樣本集合,并聯合困難度評估,將兩者融為一體;其次,將聚類表示應用對比學習來進一步提升聚類性能。
2 困難樣本采樣聯合對比增強的深度圖聚類模型
HSCA網絡架構由特征增強及編碼模塊、自加權對比表示學習模塊和對比增強模塊組成。
本對調權策略,在高置信區域提高困難節點對的權重,降低容易節點對的權重,在低置信區域中關注不同類型的困難樣本對,保持偏差節點對HE的權重最高。在對比表示的過程中調整不同難度的樣本對權重是為了驅動網絡學習區分性的特征,從而提高對比學習的性能。根據正負樣本采樣策略和加權策略形成的自加權對比損失進行迭代訓練,促使同一個簇內的節點的表示趨近一致。
HSCA中的兩種表示相互作用,并在端到端框架中共同發展;兩種對比損失聯合優化模型參數,從而進一步提高對樣本的判別能力。
2.1 符號定義
2.2 特征增強及編碼模塊
經兩個參數非共享的MLP編碼器生成兩個語義不同的屬性嵌入,定義為
本文基于調整余弦相似度計算視圖內和視圖間的樣本相似度矩陣S[29],定義如下:
2.3 偽標簽及置信增強模塊
融合多個視圖下的嵌入可以幫助模型更好地理解數據的多樣性和復雜性,從而提高泛化能力。定義融合兩個視圖嵌入為
Z=(Z1+Z2)/2(4)
依據偽標簽P計算樣本對偽關系矩陣Q定義為
Qij=1表示節點i、j可能屬于潛在的同類;Qij=0表示節點i、j可能分布在不同簇;Q揭示了節點間潛在的類別關系。
上述交集操作可以學習偽標簽矩陣、置信集合間的一致性,增強了輔助信息的可靠度和魯棒性。
2.4 自加權對比表示學習模塊
本節介紹HSCA中的困難樣本對調權策略、正負樣本采樣策略和自加權對比損失函數。圖對比學習中的經典infoNCE[30]損失函數為
其中:1[k≠i]∈{0,1}是一個指示函數,當k≠i時為1;τ是溫度系數。通過最小化損失函數,將不同視圖中的正樣本拉近,負樣本推遠。此損失函數中所有樣本對的權重一致,它忽視了樣本對間并非平等,限制了模型對節點的判別能力,故HSAN提出困難樣本對和容易樣本對自適應的加權,困難樣本感知對比損失如下:
該對比損失函數動態地增加困難樣本對的權重、降低容易樣本對的權重,并拉近正樣本,推移負樣本。然而這兩個對比損失函數都存在一個缺陷:傳統對比學習在不同的增強方案上生成兩個視圖,隨后將同一節點在不同視圖下的表示視為正對,其余的2N-2個節點作負樣本組成負對。這忽略了“假陰性樣本”的存在,在聚類中,同一個簇中的節點相似性較高,而不同簇中的節點相似性較低。在視圖內部,對當前錨點,存在與它相似度高的同簇樣本,而傳統的對比方式將視圖內部的其余節點視為負樣本,這違背了聚類的基本邏輯。
GDCL[24]使用聚類層得出的偽標簽信息獲得節點偽標簽一致的節點,將其作為錨點的正樣本而將其余樣本作為負例。CAGC[31]通過KNN(K-nearest neighbor)來選擇K個最近鄰居節點作為當前節點的正樣本。受其啟發,本文提出top-K正樣本選擇策略——在視圖間保持與傳統對比方法一致,將節點在不同視圖下的表示視為正對,在視圖內當前節點的正樣本由偽關系Q和相似度S確定,先由Q篩選出與當前節點同類的節點集,同時定義每個樣本K個相似度最高的節點序列為
對Htop-h和Q求交集,在潛在的同簇樣本中為節點選取最相似的K個節點作為正樣本。故對任意節點i,其正樣本定義為
(Htop-h∩Q)+1(10)
節點的負樣本為兩個視圖中被過濾掉的其余樣本。如圖2所示,上述策略從偽標簽和相似度兩個信息求取共有特性,比以往方法更加可靠。
同式(9)。本文希望相似度和聚類結果能更一致:相似度高的樣本偽標簽最好一致,而相似度低的樣本對類別應該不同。然而在低置信區域Hl中仍然存在偏差信息:節點i相似度最高的K個節點中有部分節點和i偽標簽不一致;i相似度最低的K個樣本中存在部分節點和i偽標簽一致。
對這類低置信度區域中相似度和偽標簽信息出現偏差的樣本對定義為偏差top-K樣本對HE。HE中第一種節點對的相似度很高但歸屬不同簇,即圖4(a)中橢圓標注的聚類邊緣重疊的區域,這類節點對極其相似但卻是兩類節點;第二種節點對相似度很低但偽標簽一致,圖4(a)中它們分布在聚類的兩端。HE中的節點都位于低置信區域,為了糾正這種偽標簽與相似度信息的偏差,對它們賦予更高權重以增強它們在對比過程中的影響力。
HE的計算分以下步驟,首先定義負偽關系矩陣Qn:
當節點i、j的偽標簽一致時設置為0,相異時設為1。HE定義如下:
HE中的數值只有0或者1,HE(i,j)=1代表節點i、j處于低置信區域且屬于偏差節點對。
基于上述信息,在視圖內部,加權函數為
W基于兩種不同方式來確定樣本對困難度。第一種方式是在高置信度區域中根據相似度大小和偽關系來調整相對困難或相對容易的樣本對的權重。第二種方式是將低置信區域中的樣本全部視為潛在的困難節點,將其兩兩組合視作困難樣本對并賦權為1,并且在低置信區域中繼續篩選,從相似度和偽關系的偏差信息中篩選出偏差樣本對繼續放大權重。通過這兩種方式能全面地評估樣本對的困難度。
綜上,根據上述的困難樣本對調權策略W及正負樣本選取策略,本文提出一種自加權對比損失函數定義為
其中:A和B分別表示當前錨點的正、負樣本集合;intra-view表示視圖內;inter-view表示視圖間;k∈t表示k是當前節點i的視圖內正樣本集合,即式(10)中的Htop-h∩Q。上述函數將樣本對困難度的計算和對比學習的過程聯系起來,通過相似度和偽關系信息選取到更可靠的視圖內正樣本,函數W采用不同的加權策略關注不同置信度下樣本對的分布情況而自適應加權。因此,本文方法的節點級整體對比損失如下:
2.5 對比增強模塊
以往的圖聚類僅關注節點級別的對比,忽略圖級信息的輔助作用。受多視圖對比學習最新進展的啟發,通過最大化一個視圖的節點表示和另外一個視圖的圖表示之間的互信息來學習節點表示[18]。本文提出一個基于圖級表示的對比增強模塊。
此時,i代表聚類中的第i類,正樣本為另外一個視圖中的同類,負樣本為另外一個視圖中的其他類。則圖級表示的聚類對比損失函數如下,K為聚類數。
綜上,聯合損失函數如下:
Ltotal=λ1×Lnode-contra+λ2×Lcontra-aug(22)
其中:λ1和λ2是兩個超參數,用于平衡自加權對比損失和聚類對比損失。
HSCA模型的算法流程如下:
算法1 困難樣本采樣聯合對比增強的深度圖聚類算法
對優化后嵌入Z執行K-means算法獲得聚類結果Φ。
3 實驗
3.1 基線數據集
實驗在五個基準圖數據集上進行。這些數據集涵蓋了多個領域,例如空中交通網絡、引文網絡、學術網絡和購物網絡。這些數據集皆為屬性圖,包含結構和特征信息,數據集的體量、維度、類別都不同,能更好地綜合評估HSCA方法的性能。
Citeseer表示一個引文網絡,一共收錄3 312篇論文,論文間引用鏈接4 732條。所有論文都屬于6個不同的學術研究領域,每篇論文都由一個3 703維的詞向量表示。AMAP提取自亞馬遜共購圖,其中節點表示產品,邊表示兩種產品是否經常共購,特征表示用bag-of-words編碼的產品評論,標簽是預定義的產品類別。EAT數據來自歐盟統計局,包含399個節點,5 995條邊。BAT數據來自巴西國家民航局,包含131個節點,1 038條邊。UAT來自于美國空中交通,包含1 190個節點,13 599條邊。這三個數據集都表示機場活動,每個節點代表一個機場,邊描述了機場間的商業航班關系,由節點度的單熱特征表示屬性。包含多個級別作為類別,每一個都反映了機場的客流量,通過相應時期的著陸次數和起飛次數來衡量。數據集詳細信息如表2所示。
3.2 基線方法
為了證明本文HSCA模型的優越性,在上述5個數據集上進行了廣泛的實驗,選擇了9種最先進的方法作為對比,它們可以分為基于對比的深度圖聚類方法(AGE、AUTOSSL[33]、MVGRL、AGC-DRR[34]、DCRN[35]、AFGRL)和基于困難樣本挖掘的方法(GDCL、PROGCL、HSAN)兩類。AUTOSSL選擇合適的預訓練任務來提高模型的性能。AGC-DRR將圖的結構增強和樣本聚類統一為一個通用的最小-最大優化框架,以減少輸入和潛在特征空間中的信息冗余。DCRN通過表示相關性來解決樣本視角和特征水平的表示坍塌。AFGRL通過KNN搜索發現的樣本中過濾出假陽性樣本來糾正樣本選擇偏差問題。其余基線已在第1章中介紹。
3.3 實驗設置
實驗運行在CPU Intel Core i9-12900K, GPU NVIDIA GeForce RTX 3090Ti,RAM 128 GB,PyTorch 1.11.0的環境中。基線方法的結果來自HSAN。HSCA的最大訓練次數設置為400,計算一個平均指標來避免單此結果的隨機性。使用Adam優化器最小化式(22)聯合損失,然后對學習到的嵌入執行K-means。HSCA進行10輪實驗,最后求取平均以避免單次結果的隨機性。
聚類性能由ACC(準確性)、NMI(標準化互信息)、ARI(平均蘭德指數)和F1(宏觀F1得分)四個廣泛用于深度聚類領域的指標進行評估。本文HSCA的屬性編碼器由兩個參數非共享的單層MLP組成,Adam優化器的學習率設為[1E-5,1E-3]。本文設計了多個超參數,K表示每個樣本相似度最高或者最低的top-K樣本序列,T是計算節點級對比損失時的溫度系數,τ為置信參數,β是降權系數。超參數設置匯總在表3中。
3.4 實驗結果
如表4所示,性能由四個具有平均值和標準差的指標來評估,其中加粗和下畫線分別表示最優和次優的結果。根據實驗結果可以得出以下結論:
a)HSCA優于AFGRL、AGC-DRR、MVGRL、DCRN方法。HSCA與AFGRL有著相似的正負樣本采樣策略,但HSCA關注到節點學習難度的不平等,通過困難樣本對調權函數W提高困難樣本對的權重,降低容易樣本對的權重,而傳統的對比聚類方法在對比過程中樣本對權重一致,并未將困難和容易的樣本對區分開,圖5表明,HSCA顯著優于均權對比聚類方法,表明強調困難樣本的有效性。
b)HSCA優于HSAN、PROGCL、GDCL。說明調權策略和正負樣本采樣策略的融合機制十分有效。從圖6可以看出,HSCA顯著優于GDCL、PROGCL方法,表明HSCA利用top-K搜索和相似度信息在跨視圖條件下獲得的正樣本更加可靠,可以幫助提高學習的節點表示質量。同時,HSCA優于HSAN、PROGCL,在UAT數據集上HSCA相較于最接近的基線HSAN提升最為明顯:ACC實現了7.1%的提高,NMI實現了9.7%的提高,ARI實現了11.3%的提高,F1實現了8%的提高,表明HSCA中的調權策略和對比策略融合形成的自加權對比損失函數更有效,它在對比過程中關注不同置信區域下的加權差異,在高置信區域中根據偽標簽的區別調整不同相似度下樣本對的權重,對低置信區域中困難的樣本對額外關注偏差樣本對的類別,提高了模型的判別能力。
c)由表4可知,相較于其他方法,HSCA聯合了兩種級別的對比損失,除節點級對比外,生成圖級表示面向聚類完成對比的方式在五個數據集上的四個指標都取得了巨大的提高,在Bat數據集上,HSCA相較MVGRL方法,ACC提升115.2%,NMI提升94.7%,ARI提升319.5%、F1提升172.5%,表明HSCA在節點級和聚類級對比的聯合對比損失捕捉到的信息在兩個級別更好地引導模型面向聚類任務。
d)關注到HSCA在五個數據集上提升幅度存在差異,HSCA根據不同置信區域為樣本對加權,由于UAT、BAT、EAT等數據集的樣本數較少,維度也較低,而較低的樣本數和維度更有利于保留數據間的結構信息和相似性,并且更少的樣本數使得采樣的正負樣本和計算偽標簽更貼近真實,所以提升的幅度較AMAP、Citeseer大。在AMAP數據集上,HSCA模型取得了次優的結果,由于AMAP節點和類別過多導致邊界的節點不容易分辨,采樣得到的困難樣本不夠精確,而DCRN過濾了冗余特征,在潛在空間中保留更明顯的特征,誤差信息更少。
3.5 消融研究
本節在AMAP、Citeseer、UAT、EAT、BAT五個數據集上實現三個消融場景,進一步驗證HSCA中自加權對比表示學習模塊和對比增強模塊的有效性。消融實驗的基線為設置B+M(即使用文獻[17]中的調制函數M對樣本對權重進行加權)。將采用HSCA中函數W為樣本對加權的方案定義為W,使用top-K采樣策略定義為P。對比增強模塊定義為G。自加權對比表示學習模塊等同B+W+P策略的疊加;HSCA方法等于B+W+P+G策略的疊加。
由消融結果可以得出以下結論:
a)在傳統對比策略下,即每個節點將另外一個視圖中的自己作為正樣本時,由表5可知,B+W函數要優于B+M函數。視圖內的相似度矩陣由同樣語義的嵌入生成了更準確的信息。相較函數M,函數W在視圖內、視圖間采取不同加權策略。函數M自動為容易樣本對降權、困難樣本對升權,而函數W在此基礎上,額外考慮到低置信區域中的偏差樣本對的存在,賦予此類樣本對更高的權重,表明了其有效性。B+W策略在BAT數據上的四個指標,較B+M分別提高了2.4%、3.3%、2.8%、2.1%,表明W提升了模型對低置信區域中困難樣本的分辨能力。
b)對于兩種加權策略同時采用提出的正負樣本采樣策略P,在UAT數據集上,B+M+P相較使用傳統對比方案的B+M,在各個指標上分別提升了6.2%、7%、11%、7.2%,充分說明HSCA的正負樣本采樣策略的有效性,相比PROGCL、HSAN方法,策略P在視圖內部解決了假陰性樣本的問題,相比GDCL、CAGC,對于正樣本的采樣結合偽標簽相似度信息,獲得了更可靠的正樣本。其次,表5中B+W+P策略的結果仍然要優于B+M+P,表明本文方法中自加權對比表示學習模塊的有效性,它為正負樣本對比策略和樣本對加權方式提供了兩個更可靠的范本,有利于提取有助于聚類的節點表示,同時說明HSCA困難樣本對的加權策略同對比學習采樣策略的融合機制非常有效。
c)對比增強模塊G有助于聚類的表達。自加權對比表示模塊疊加對比模塊G后,在五個數據集上的四個指標上又表現出了新的提升并達到最佳。圖級表示投影的聚類層代表了各個類別的概率分布,在聚類層進行對比更有利于在兩個視圖間學習類別分布的一致性,可以逼近更真實的聚類分布,而缺少G模塊的HSCA無法更好地探索聚類結構,驗證了G模塊的有效性。
3.6 超參數分析
本節將分析算法中四個超參數置信度τ、降權系數β、top-K參數K、溫度系數T的影響。對于top-K參數K的取值,K影響視圖內正樣本的數量和偏差節點對HE的范圍,K過小時選取到的正樣本數量會不夠充分,K過大時偏差top-K樣本數過多。實驗中根據數據集樣本數量,選取3%~15%的樣本數作為K的最大值,并向下遞減。如AMAP、Citeseer擁有數千個樣本,故選擇樣本總數3%的數目作為最大K的取值,并向下選取兩個比例更小的K。而BAT、EAT的樣本數僅有幾百個,故提高最小K的取值,并向上選取。如圖7所示,參數K對算法的影響整體呈現一個先升后降的趨勢,符合設計預期。
過去對比聚類的目標損失函數中,大多將T固定為1,而研究表明,越小的溫度系數T越傾向于把最困難的負樣本分開[36]。如圖8所示,實驗將其設置在[0.1,0.7],HSCA已通過加權賦予了不同難度的樣本一定的關注度,損失函數中的T旨在輔助模型找到一個平衡的系數來關注困難樣本,并避免過度關注或忽視其他樣本。當T為0.1時,在Citeseer、BAT上遠遜于其他取值,除EAT數據集以外,其他數據集的T為[0.3,0.5]效果更好,這些都表明HSCA的設計一定程度上辨明了最困難的樣本從而分擔了溫度系數的效用。
置信參數τ,表示將多少數據收納進高置信區域,實驗中設置為[0.1,0.9],τ不能為0或者為1,這意味著所有的樣本都是可信或者完全不可信的,事實上邊界的樣本不容易判定,而更靠近聚類的樣本較容易判定。如圖9所示,對AMAP數據集而言,τ=[0.7,0.9]比較合適,因為它的樣本數量最多,對于其余數據集,τ=0.5時取得了不錯的成效。
降權系數β降低容易樣本對的權重,過高的降權系數會使容易樣本對完全被忽略,實驗中將其設定為[1,5]。如圖10所示,注意到β為2或3時,在各個數據集上表現出良好的性能,符合預期。其中,EAT數據集中50%以上的節點都是需要額外關注的困難樣本,容易樣本對很少,故對參數β不敏感。
3.7 可視化
為了進一步直觀地證明HSCA的優越性,在嵌入Z進行了2D t-SNE可視化,如圖11所示。可以觀察到與其他基線方法相比,HSCA更好地關注到了邊緣節點的類別劃分,并且簇內更加緊湊。
4 結束語
本文提出了困難樣本采樣聯合對比增強的深度圖聚類模型(HSCA)。該方法提供了一個根據不同視圖針對性采樣樣本并實現對比的融合方案,自適應地為困難樣本對增權,為容易樣本對降權,驅動網絡在對比的過程中更加關注不同類型的困難樣本對,有效地提高了節點表示的質量。并且提出了一個基于圖級表示的對比模塊學習聚類表示的一致性,這些方法擁有很好的遷移性。通過實驗驗證了HSCA的有效性和優越性。但HSCA仍是通過K-means算法在生成的高質量嵌入上完成聚類,這一點還有待改進。
參考文獻:
[1]Ding Shifei, Wu Benyu, Xu Xiao, et al. Graph clustering network with structure embedding enhanced[J]. Pattern Recognition, 2023,144: 109833.
[2]Xu Lei, Bao Ting, Zhu Liehuang, et al. Trust-based privacy-preserving photo sharing in online social networks[J]. IEEE Trans on Multimedia, 2018,21(3): 591-602.
[3]Yi Jing, Chen Zhenzhong. Multi-modal variational graph auto-encoder for recommendation systems[J]. IEEE Trans on Multimedia, 2021,24: 1067-1079.
[4]Kipf N T, Welling M. Semi-supervised classification with graph con-volutional networks[C]//Proc of the 5th International Conference on Learning Representations. 2017: 1-14.
[5]Kipf T N, Welling M. Variational graph auto-encoders[EB/OL]. (2016-11-21). https://arxiv.org/abs/1611.07308.
[6]Pan Shirui, Hu Ruiqi, Fung S F, et al. Learning graph embedding with adversarial training methods[J]. IEEE Trans on Cybernetics, 2019, 50(6): 2475-2487.
[7]Wang Chun, Pan Shirui, Hu Ruiqi, et al. Attributed graph clustering: a deep attentional embedding approach[EB/OL]. (2019-06-15). https://arxiv.org/abs/1906.06532.
[8]Xie Junyuan, Girshick R, Farhadi A. Unsupervised deep embedding for clustering analysis[C]//Proc of the 33rd International Conference on International Conference on Machine Learning.[S.l.]: JMLR.org, 2016: 478-487.
[9]Chen Ting, Kornblith S, Norouzi M, et al. A simple framework for contrastive learning of visual representations[C]//Proc of the 37th International Conference on Machine Learning.[S.l.]: JMLR.org, 2020: 1597-1607.
[10]Zhu Yanqiao, Xu Yuichen, Yu Feng, et al. Graph contrastive lear-ning with adaptive augmentation[C]//Proc of the 2021 Web Confe-rence. New York: ACM Press, 2021: 2069-2080.
[11]Peng Zhen, Huang Wenbing, Luo Minnan, et al. Graph representation learning via graphical mutual information maximization[C]//Proc of the 2020 Web Conference. New York: ACM Press, 2020: 259-270.
[12]Liu Yue, Yang Xihong, Zhou Sihang, et al. Simple contrastive graph clustering[J/OL]. IEEE Trans on Neural Networks and Lear-ning Systems. (2023-06-27). https://doi.org/10.1109/TNNLS.2023.3271871.
[13]Lee N, Lee J, Park C. Augmentation-free self-supervised learning on graphs[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2022: 7372-7380.
[14]Robinson J, Chuang C Y, Sra S, et al. Contrastive learning with hard negative samples[EB/OL]. (2021-01-24). https://arxiv.org/abs/2010.04592.
[15]Kalantidis Y, Sariyildiz M B, Pion N, et al. Hard negative mixing for contrastive learning[C]//Proc of the 34th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2020: 21798-21809.
[16]Xia Jun, Wu Lirong, Wang Ge, et al. ProGCL: rethinking hard ne-gative mining in graph contrastive learning[EB/OL]. (2022-06-14). https://arxiv.org/abs/2110.02027.
[17]Liu Yue, Yang Xihong, Zhou Sihang, et al. Hard sample aware network for contrastive deep graph clustering[C]//Proc of AAAI Confe-rence on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2023: 8914-8922.
[18]Hassani K, Khasahmadi A H. Contrastive multi-view representation learning on graphs[C]//Proc of the 37th International Conference on Machine Learning.[S.l.]: JMLR.org, 2020: 4116-4126.
[19]Liu Meng, Liu Yue, Liang Ke, et al. Deep temporal graph clustering[EB/OL]. (2024-03-02). https://arxiv.org/abs/2305.10738.
[20]Peng Zhihao, Liu Hui, Jia Yuheng, et al. Deep attention-guided graph clustering with dual self-supervision[J]. IEEE Trans on Circuits and Systems for Video Technology, 2022, 33(7): 3296-3307.
[21]Tao Zhiqiang, Liu Hongfu, Li Jun, et al. Adversarial graph embedding for ensemble clustering[C]//Proc of the 28th International Joint Conferences on Artificial Intelligence Organization. 2019: 3562-3568.
[22]Yang Liang, Wang Yuexue, Gu Junhua, et al. JANE: jointly adversarial network embedding[C]//
Proc of the 29th International Joint Conference on Artificial Intelligence. 2020: 1381-1387.
[23]Cui Ganqu, Zhou Jie, Yang Cheng, et al. Adaptive graph encoder for attributed graph embedding[C]//Proc of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM Press, 2020: 976-985.
[24]Zhao Han, Yang Xu, Wang Zhenru, et al. Graph debiased contrastive learning with joint representation clustering[C]//Proc of the 30th International Joint Conference on Artificial Intelligence. 2021: 3434-3440.
[25]Kulatilleke G K, Portmann M, Chandra S S. SCGC : self-supervised contrastive graph clustering[EB/OL]. (2022-04-27). https://arxiv.org/abs/2204.12656.
[26]Zhang Jingfeng, Zhu J, Niu Gang, et al. Geometry-aware instance-reweighted adversarial training[EB/OL]. (2021-05-31). https://arxiv.org/abs/2010.01736.
[27]Fernando K R M, Tsokos C P. Dynamically weighted balanced loss: class imbalanced learning and confidence calibration of deep neural networks[J]. IEEE Trans on Neural Networks and Learning Systems, 2021, 33(7): 2940-2951.
[28]Chu Guanyi, Wang Xiao, Shi Chuan, et al. CuCo: graph representation with curriculum contrastive learning[C]//Proc of the 30th International Joint Conference on Artificial Intelligence. 2021: 2300-2306.
[29]Sarwar B, KarypisG, Konstan J, et al. Item-based collaborative filtering recommendation algorithms[C]//Proc of the 10th International Conference on World Wide Web. New York: ACM Press, 2001: 285-295.
[30]Oord A V D, Li Yazhe, Vinyals O. Representation learning with contrastive predictive coding[EB/OL]. (2019-01-22). https://arxiv.org/abs/1807.03748.
[31]Wang Tong, Wu Junhua, Qi Yaolei, et al. Neighborhood contrastive representation learning for attributed graph clustering[J]. Neurocomputing, 2023,562: 126880.
[32]Kong Shu, Fowlkes C. Low-rank bilinear pooling for fine-grained classification[EB/OL]. (2016-11-30). https://arxiv.org/abs/1611.05109.
[33]Jin Wei, Liu Xiaorui, Zhao Xiangyu, et al. Automated self-supervised learning for graphs[EB/OL]. (2022-03-22). https://arxiv.org/abs/2106.05470.
[34]Gong Lei, Zhou Sihang, Tu Wenxuan, et al. Attributed graph clustering with dual redundancy reduction[C]//Proc of the 31st International Joint Conference on Artificial Intelligence. 2022: 3015-3021.
[35]Liu Yue, Tu Wenxuan, Zhou Sihang,et al. Deep graph clustering via dual correlation reduction[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2022: 7603-7611.
[36]Wang Feng, Liu Huaping. Understanding the behaviour of contrastive loss[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 2495-2504.