999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于異構融合和判別損失的圖嵌入聚類

2023-04-29 00:00:00姚博王衛衛
吉林大學學報(理學版) 2023年4期

摘要: 針對自動編碼器僅對單個數據所包含的內容信息進行特征提取, 忽略了數據之間結構信息的問題, 提出一種基于異構融合和判別損失的深度圖聚類網絡. 首先, 將兩個自動編碼器獲取的異質信息進行融合, 解決了采用單一自動編碼器提取特征時的信息丟失問題; 其次, 在聚類訓練模塊基于類內分布一致性設計判別損失函數, 使模型可以端到端地訓練, 避免了兩階段訓練方法中出現特征提取與聚類算法提前假設不匹配的情況; 最后, 在6個常用數據集上進行實驗并驗證了該方法的有效性. 實驗結果表明, 與現有的大多數深度圖聚類模型相比, 該方法在非圖數據集和圖數據集上的聚類性能有明顯提升.

關鍵詞: 圖聚類; 深度學習; 判別損失; 異構融合

中圖分類號: TP391 文獻標志碼: A 文章編號: 1671-5489(2023)04-0853-10

Graph Embedding Clustering Based on Heterogeneous Fusion and Discriminant Loss

YAO Bo, WANG Weiwei

(School of Mathematics and Statistics, Xidian University, Xi’an 710126, China)

Abstract: [JP+1]Aiming at the problem that autoencoder" only extracted features from" the content information contained in a single data, ignoring the structure information of data, we proposed a deep graph clustering network based on heterogeneous fusion and discriminant loss. Firstly, the heterogeneous[JP]information obtained by two autoencoders was fused, and the problem of information loss was solved when a single autoencoder was used to extract features. Secondly, the discriminant loss function was designed in the clustering training module based on the consistency of distribution within the same cluster, so that the model could be trained end-to-end, and avoiding the mismatch between the feature extraction and the assumptions of the clustering algorithm in the two-stage training methods. Finally, experiments were carried out on six commonly used datasets to verify the effectiveness of the proposed method. The experimental results show that compared with most existing deep graph clustering models, the proposed method" significantly improves the clustering performance on both non-graph and graph datasets.

Keywords: graph clustering; deep learning; discriminant loss; heterogeneous fusion

聚類是機器學習領域中的一項基本無監督任務, 其基本思想是利用不同的相似度衡量方法將數據劃分為不同的類別. 經典的聚類方法如基于劃分方法的K均值(K-means)聚類 [1]、 基于密度的聚類方法DBSCAN(density-based spatial clustering of applications with noise)[2]、 譜聚類(spectral clustering, SC)[3]、 高斯混合(Gaussian mixed model, GMM)聚類[4]、 非負矩陣分解(non-negative matrix factorization, NMF)聚類[5]都是直接對數據進行操作, 這類方法適用于低維數據. 隨著信息科技的發展, 現實生活中信息量巨增, 數據的維度越來越高. 高維數據常伴隨信息冗余以及噪聲, 這不僅會導致算法的計算復雜度上升, 還會影響聚類精度[6]. 上述方法不再適用于此類數據, 目前普遍的解決方法是首先利用數據降維方法將原始數據映射到低維特征空間, 得到原始數據的特征表示, 然后對所提取的特征進行聚類, 但一些高維數據之間復雜的非線性結構仍是聚類算法要解決的難題.

由于深度神經網絡具有強大的非線性映射能力, 因此基于深度神經網絡的聚類算法[7-9]已在圖像分類、 人臉識別等技術領域廣泛應用. 深度嵌入聚類(deep embedding clustering, DEC)[7]及其變體改進深度嵌入聚類(improved deep embedded clustering, IDEC) [8]、 基于非對稱殘差自動編碼器(autoencoder, AE)的深度嵌入聚類[9]利用卷積神經網絡(convolutional neural networks, CNN)[6]提取數據的隱特征, 卷積操作保留了包含在圖像、 自然語言等歐氏數據中的關鍵信息, 極大提升了聚類精度, 但這些方法作用于單個數據, 并未考慮數據之間的關聯性. 實際應用中的數據常存在一定的聯系, 例如引文網絡[10]、 社交網絡[11]等, 具有同一作者的兩篇論文、 互為好友的人群之間應該具有較強的聯系. 這些數據為非歐氏數據, 可以被表示為圖(graph). 在這種數據中, 不僅包含數據本身的內容信息, 還包含數據與數據之間的某種關聯度, 具體表現為邊的連接. 因此, 深度聚類方法[7-9]存在一定的局限性: 首先, 這類方法在提取數據特征時并未考慮數據與數據之間的聯系, 將會導致得到的特征表示不包含數據的結構信息, 使信息不全面從而導致聚類性能欠佳; 其次, 這類方法普遍適用于歐氏數據, 只能在二維空間進行特征提取, 而現實生活中的數據常以三維的形式出現; 最后, 這類方法一般[KG*8]作用于單個數據, 增加了算法的運行時間和計算損耗.

為克服上述局限性, 研究者們提出了作用在圖上的深度聚類方法[12-14]. 圖卷積網絡(graph convolutional network, GCN)[12]是經典的深度圖聚類方法之一, 它通過作用于節點屬性矩陣和鄰接矩陣捕獲節點之間的結構信息, 得到具有結構信息的特征表示. 通過最小化交叉熵對特征表示進行監督, 以保證特征表示的有效性. 最終對得到的特征表示進行聚類. 但該方法仍有不足: 1) 其為一種兩階段法, 首先提取原始數據的特征表示, 然后對特征表示進行聚類得到類別分配, 這樣的兩階段法不能保證得到的特征表示與所用的聚類方法具有較高的適配度, 導致聚類性能次優; 2) 圖卷積網絡主要利用中心節點及其鄰居節點得到特征表示, 忽略了節點本身的內容信息, 同樣會導致信息丟失從而影響聚類性能; 3) 在指導網絡訓練階段使用的交叉熵損失函數中需要用到數據的真實標簽, 而在實際應用中獲取真實標簽需要耗費巨大的人力、 物力. 針對上述問題, 結構深度聚類網絡(structural deep clustering network, SDCN)[13]將來自兩個自動編碼器的特征表示進行融合, 得到一個融合特征表示, 并設計了一個對偶自監督模塊為網絡訓練提供指導. 它將特征提取與網絡訓練整合在一個框架中, 通過端到端地訓練得到類別分布, 有效提升了聚類性能. 但該網絡框架舍棄了解碼器和重構損失, 可能導致空間特征扭曲, 使特征表示不具有代表性.

基于上述問題, 結合GCN和SDCN, 本文設計一個端到端訓練的深度圖嵌入聚類網絡, 從類內和類間兩個角度設計損失函數, 使同一類特征之間的距離小, 不同類特征之間的距離大. 此外, 本文在SDCN融合特征的基礎上引入一個圖解碼器, 對原始數據的內容信息以及結構信息進行重構, 通過最小化重構損失保證融合特征表示中包含高質量的結構信息, 從而更利于聚類. 在6個公開數據集上的實驗結果表明, 本文方法具有較高的泛化能力和聚類性能.

1 預備知識

1.1 圖卷積網絡

GCN是作用在圖數據上的圖表征提取方法, 網絡結構如圖1所示. GCN由兩層圖卷積層組成, 非線性激活函數為ReLU, 首先使用圖卷積網絡對圖中的節點進行卷積操作, 得到每個節點特征表示組成的特征矩陣:

3.3 方法性能對比

將本文方法與其他聚類算法性能進行比較, 從而驗證本文方法的聚類性能. 為驗證本文方法的泛化性能, 選取圖數據集和非圖數據集兩種類型的數據集, 表2列出了不同方法在圖數據集上的聚類結果. 為避免出現個別特殊結果, 表2中的結果為實驗運行5次后取得的平均值. 表3列出了不同方法在非圖數據集上的聚類結果. 對于對比方法K-means, 本文運行5次選取平均值, 其他的對比方法結果參考文獻[13]和文獻[27].

由表2和表3可見, 本文方法在大部分數據集上聚類性能優于其他方法. 對于圖數據集ACM,DBLP和Citeseer, 相比于SDCN, 本文方法的聚類性能指標ACC分別提升了2.30%,3.57%,5.52%; 對于非圖數據集HHAR,USPS和REUT, 本文方法的聚類性能指標ACC分別提升了2.04%,0.13%,0.55%. 可見, 本文方法更適用于圖數據集. 其原因可能有兩個: 1) 人為構造非圖數據集的拓撲結構導致結構信息不明確; 2) 非圖數據集的樣本數是圖數據集樣本數的3倍, 樣本數目太多導致網絡訓練困難. 實驗結果表明, 本文方法可有效增強特征表示的可判別性, 提升聚類性能.

3.4 消融實驗

為測試本文方法中各模塊的重要性, 設計一個消融實驗進行驗證. 從整個模型中剔除相應的損失函數, 觀察聚類性能的變化, 聚類性能下降越明顯, 表示該模塊在聚類過程中的促進作用越大. 本文的整體損失函數包括5個, 重構損失Lrec3個: 圖特征重構損失、 圖結構重構損失和卷積重構損失; 聚類損失2個: 基于類內數據相互靠近的L1和基于類間數據相互遠離的L2. 消融實驗結果列于表4, 其中“×”表示剔除該損失函數.

由表4可見, 當從完整的方法中剔除任何一個損失函數時, 聚類性能都會下降, 證明了每個模塊對于聚類過程的促進作用. 剔除圖特征重構或圖結構重構時, 聚類性能下降程度相當, 說明特征與結構的重要性大致相同. 而當剔除卷積重構時, 聚類性能下降程度較大, 說明卷積自動編碼器提取的數據本身的信息非常重要, 證明了異質信息的交互可有效提升聚類性能.

3.5 收斂性分析

下面設計兩個實驗驗證本文方法的收斂性: 首先, 在數據集ACM上觀察樣本分布圖, 隨著迭代次數的增加, 樣本分布是否趨于穩定; 其次, 根據迭代次數的增加觀察聚類精度是否趨于平穩. 實驗結果分別如圖4和圖5所示. 由圖4和圖5可見, 隨著迭代次數的增加, 樣本逐漸分為3類, 并在迭代300次后, 類別分布趨于穩定; 同時, 3個指標精度隨著迭代次數的增加逐漸上升并趨于平緩. 從而本文方法的收斂性得以證明.

綜上所述, 為解決圖數據的聚類問題, 本文提出了一個基于異構融合和判別損失的圖嵌入聚類網絡. 首先對不同結構自動編碼器提取的數據信息進行線性融合; 然后基于同一類分布一致性和不同類分布差異性設計損失函數, 利用反向傳播訓練網絡參數; 最后利用K-means算法作用于特征表示得到最終的聚類結果. 在6個數據集上的實驗結果表明, 本文方法可有效提升聚類性能, 其中對圖數據集的聚類提升效果明顯.

參考文獻

[1]LLOYD S P. Least Squares Quantization in PCM [J]. IEEE Transactions on Information Theory, 1982, 28(2): 129-137.

[2]KNEGEL H P, KROGER P, SANDER J, et al. Density-Based Clustering [J]. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2011, 1(3): 231-240.

[3]NG A Y, JORDAN M I, WEISS Y. On Spectral Clustering: Analysis and an Algorithm [C]//Advances in Neural Information Processing Systems. Cambridge: MIT Press, 2001: 849-856.

[4]BISHOP C M. Pattern Recognition and Machine Learning" [M]. Berlin: Springer-Verlag, 2006: 1-758.

[5]CICHOCKI A, MRUP M, SMARAGDIS P, et al. Advances in Nonnegative Matrix and Tensor Factorization [J]. Computational Intelligence and Neuroscience, 2008, 2008: 852187-1-852187-3.

[6]MIN E X, GUO X F, LIU Q, et al. A Survey of Clustering with Deep Learning: From the Perspective of Network Architecture [J]. IEEE Access, 2018, 6: 39501-39514.

[7]XIE J Y, GIRSHICK R B, FARHADI A. Unsupervised Deep Embedding for Clustering Analysis [C]//International Conference on Machine Learning. [S.l.]: PMLR, 2016: 478-487.

[8]GUO X F, GAO L, LIU X, et al. Improved Deep Embedded Clustering with Local Structure Preservation [C]//International Joint Conference on Artificial Intelligence. New York: ACM, 2017: 1753-1759.

[9]VINCENT P, LAROCHELLE H, BENGIO Y, et al. Extracting and Composing Robust Features with Denoising Autoencoders [C]//Machine Learning, International Conference. New York: ACM, 2008: 1096-1103.

[10]ZHANG J L, CHEN F, GUO Y N, et al. Multi-graph Convolutional Network for Short-Term Passenger Flow Forecasting in Urban Rail Transit [J]. IET Intelligent Transport Systems, 2020, 14(10): 1210-1217.

[11]GIRVAN M, NEWMAN M E J. Community Structure in Social and Biological Networks [J]. Proceedings of the National Academy of Sciences, 2002, 99(12): 7821-7826.

[12]KIPF T N, WELLING M. Semi-supervised Classification with Graph Convolutional Networks [EB/OL]. (2016-09-09)[2022-02-15]. https://arxiv.org/abs/1609.02907.

[13]BO D Y, WANG X, SHI C, et al. Structural Deep Clustering Network [C]//Proceedings of the Web Conference. New York: ACM, 2020: 1400-1410.

[14]GUO X F, ZHU E, LIU X W, et al. Deep Embedded Clustering with Data Augmentation [C]//Asian Conference on Machine Learning. [S.l.]: PMLR, 2018: 550-565.

[15]TRIPATHY B K, ANVESHNTHAA S, GHELA S. t-Distributed Stochastic Neighbor Embedding (t-SNE) [M]. \[S.l.]: Encyclopedia of Mathematical Geosciences, 2021: 1-9.

[16]RUDER S. An Overview of Gradient Descent Optimization Algorithms [EB/OL]. (2016-09-15)[2022-02-18]. https://arxiv.org/abs/1609.04747.

[17]GRIGORYAN A. Heat Kernel and Analysis on Manifolds [M]. [S.l.]: American Mathematical Society, 2009: 1-49.

[18]ABEYWICKRAMA T, CHEEMA M A, TANIAR D. K-Nearest Neighbors on Road Networks: A Journey in Experimentation and In-memory Implementation [J]. Proceedings of the VLDB Endowment, 2016, 9(6): 492-503.

[19]LEY M. DBLP-Some Lessons Learned [J]. Proceedings of the VLDB Endowment, 2009, 2(2): 1493-1500.

[20]STISEN A, BLUNCK H, BHATTACHARYA S, et al. Smart Devices Are Different: Assessing and Mitigating Mobile Sensing Heterogeneities for Activity Recognition [C]//Proceedings of the 13th ACM Conference on Embedded Networked Sensor Systems. New York: ACM, 2015: 127-140.

[21]LECUN Y, BENGIO Y, HINTON G. Deep Learning [J]. Nature, 2015, 521: 436-444.

[22]LEWIS D D, YANG Y, RUSSELL-ROSE T, et al. Rcv1: A New Benchmark Collection for Text Categorization Research [J]. Journal of Machine Learning Research, 2004, 5: 361-397.

[23]KINGMA D P, WELLING M. Auto-Encoding Variational Bayes [EB/OL]. (2013-12-20)[2022-01-30]. https://arxiv.org/abs/1312.6114.

[24]KIPF T N, WELLING M. Variational Graph Auto-Encoders [EB/OL]. (2016-11-21)[2022-02-01]. https://arxiv.org/abs/1611.07308.

[25]PAN S R, HU R Q, LONG G D, et al. Adversarially Regularized Graph Autoencoder for Graph Embedding [EB/OL]. (2019-01-08)[2022-02-10]. https://arxiv.org/abs/1802.04407.

[26]YANG J W, PARIKH D, BATRA D. Joint Unsupervised Learning of Deep Representations and Image Clusters [C]//IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C.: IEEE Computer Society, 2016: 5147-5156.

[27]HUO G Y, ZHANG Y, GAO J B, et al. CaEGCN: Cross-Attention Fusion Based Enhanced Graph Convolutional Network for Clustering [J]. IEEE Transactions on Knowledge and Data Engineering, 2021, 35(4): 3471-3483.

(責任編輯: 韓 嘯)

收稿日期: 2022-05-20.

第一作者簡介: 姚 博(1997—), 女, 漢族, 碩士研究生, 從事深度圖聚類的研究, E-mail: byao_1@stu.xidian.edu.cn. 通信作者簡介: 王衛衛(1990—), 女, 漢族, 博士, 教授, 從事機器學習和深度學習的研究, E-mail: wwwang@mail.xidian.edu.cn.

基金項目: 國家自然科學基金(批準號: 61972264; 61472303; 61772389).

主站蜘蛛池模板: 国产女人18水真多毛片18精品 | 丰满人妻一区二区三区视频| 2021精品国产自在现线看| 乱系列中文字幕在线视频| 免费一级大毛片a一观看不卡| 日本一区二区不卡视频| 亚洲日韩在线满18点击进入| 99视频只有精品| 日韩在线影院| 91久久青青草原精品国产| 久久精品无码一区二区日韩免费| 久久无码av三级| 婷婷色一二三区波多野衣| 熟妇人妻无乱码中文字幕真矢织江| 一级毛片无毒不卡直接观看| 国产在线拍偷自揄观看视频网站| 中文字幕丝袜一区二区| 久久国产黑丝袜视频| 免费女人18毛片a级毛片视频| 国产91精品最新在线播放| 无码精油按摩潮喷在线播放| 亚洲午夜天堂| www.精品视频| 亚洲第一精品福利| 国产人人射| 国产91麻豆视频| jizz在线免费播放| 国产精品短篇二区| av色爱 天堂网| 手机在线看片不卡中文字幕| 91久久国产热精品免费| 国产视频久久久久| 热99精品视频| 无码视频国产精品一区二区| 国产97视频在线| 中文天堂在线视频| 久视频免费精品6| 国产一区在线视频观看| 国产成人AV男人的天堂| 国产视频 第一页| 久久综合丝袜日本网| 国产成人精品无码一区二| 看国产毛片| 色综合天天综合中文网| 美女国内精品自产拍在线播放| 亚洲黄色高清| 日本一区二区三区精品国产| 99无码中文字幕视频| 人妻91无码色偷偷色噜噜噜| 在线观看av永久| 狠狠做深爱婷婷久久一区| 亚洲国产看片基地久久1024| 国产成人无码AV在线播放动漫| 毛片一级在线| 久草视频一区| 久久这里只精品国产99热8| 亚洲无线视频| 操美女免费网站| 久久视精品| 成人一区在线| 日日碰狠狠添天天爽| 国产一级毛片在线| 久久综合丝袜长腿丝袜| 国产精品久久久久久久久久久久| 国产亚洲高清在线精品99| 久久一本日韩精品中文字幕屁孩| 欧美激情第一欧美在线| 国产中文一区二区苍井空| 亚洲男女在线| 日韩精品亚洲人旧成在线| 美美女高清毛片视频免费观看| 成人字幕网视频在线观看| 国产亚洲欧美在线人成aaaa| 亚洲中字无码AV电影在线观看| 热九九精品| 久久精品国产91久久综合麻豆自制| 99re66精品视频在线观看| 国产乱子伦一区二区=| 99re66精品视频在线观看| 精品亚洲麻豆1区2区3区| 国产欧美视频综合二区| 亚洲va视频|