李順勇 許曉麗



摘要:多視圖數據集普遍分布在低維子空間上.為了解決多視圖子空間聚類時各視圖信息量不同的問題,提出了一種新的基于信息熵加權的多視圖子空間聚類算法(IEMLRR).首先在低秩表示的約束下獲得每個視圖的子空間表示,在獲取公共子空間表示時,使用信息熵加權來保證不同視圖所攜帶的信息差異,最后用譜聚類算法進行聚類.采用增廣拉格朗日乘子法對IEMLRR算法進行優化,并在五個數據集上驗證了算法的有效性.
關鍵詞:信息熵加權; 多視圖學習; 低秩表示; 子空間聚類
中圖分類號:TP391文獻標志碼: A
Multi-view subspace clustering algorithm based on
information entropy weighting
LI Shun-yong, XU Xiao-li(School of Mathematics Sciences, Shanxi University, Taiyuan 030006, China)
Abstract:Multi-view datasets are generally distributed across low-dimensional subspace.In order to solve the problem that the amount of information of each view is different when multi-view subspace is clustered,a new multi-view subspace clustering algorithm based on information entropy weighting (IEMLRR) is proposed.First,the subspace representation of each view is obtained under the constraints of the low-rank representation,and when the public subspace representation is obtained,the information entropy weight is used to ensure the information difference carried by different views,and finally the spectral clustering algorithm is used for clustering.The IEMLRR algorithm was optimized by augmented Lagrange multiplier method,and the effectiveness of the algorithm is verified on five datasets.
Key words:information entropy weighting; multi-view learning; low-rank representation; subspace clustering
0引言
在如今的大數據時代,數據信息的多樣化使得單視圖數據已經無法滿足人們的需要.針對同一個事物,多視圖數據[1]是通過提取不同角度的不同特征來獲取的.子空間聚類[2]是恢復數據子空間結構的常用方法,假設高維數據是從低維子空間中近似提取的,子空間聚類就是找到這樣的子空間,使數據集可以正確分類.多視圖子空間聚類在此基礎上對不同的視圖進行低維子空間表示,并在獲得的最終子空間上進行聚類[3].多樣性誘導多視角子空間聚類[4](DiMSC)在自表示子空間聚類框架下,利用希爾伯特-施密特獨立準則(HSIC)探索互補信息.低秩張量約束多視圖子空間聚類(LT-MSC) [5]探討了這些子空間表示之間的高階相關性.文獻[6]中的方法將不同的視圖統一為一個共同的指標矩陣,而不是一個共同的子空間表示,這些方法在每個視圖中重建數據點.為了更深刻地探索多視圖數據的隱藏結構,一系列尋找共享潛在子空間的多視圖聚類方法相繼被提出.文獻[7]提出了潛在的多視圖子空間聚類算法(LMSC),利用不同的投影矩陣,映射出一個共同的表示矩陣,然后再進行子空間聚類.2020年,Zhang等[8]提出了基于潛在表示和每個視圖之間的線性相關性的線性LMSC(lLMSC)和基于處理一般關系的神經網絡的廣義LMSC(gLMSC).
稀疏表示(SSC)[9]和低秩表示[10](LRR)揭示了用于子空間聚類的高維數據的底層結構.SSC通過解決l1范數最小化問題,使用數據點的最稀疏表示,顯示了其捕獲高維數據局部結構的能力.LRR對數據點施加低秩約束來尋找子空間結構,通過核范數最小化的凸優化問題來解決,最終獲得高維數據的全局結構.在2020年,文獻[11]提出的多個分區對齊的聚類算法采用了在聚類結果階段進行融合,但是融合的方式比較粗糙,容易導致大量信息損失.2020年,張培等[12]提出了一種單步劃分融合多視圖子空間聚類算法,之后,文獻[13]在獲得不同視圖的低維子空間表示后,通過融合得到一個共享的低維子空間表示,最后進行譜聚類.
針對多視圖子空間聚類時各視圖信息量不同的問題,本文提出了一種新的基于信息熵加權的多視圖子空間聚類算法(Multi-view subspace clustering algorithm based on information entropy weighting,IEMLRR算法).首先使用低秩表示對每個視圖的子空間學習進行約束,然后用一個公共表示來保證一致性,在確定公共表示時,通過信息熵確定每個視圖的權重.本文還提出了一個有效的算法來解決IEMLRR算法的優化問題.最后,在五個數據集上進行大量實驗,驗證了該算法的有效性.
1相關工作
1.1子空間聚類算法
1.2譜聚類
1.3多視圖子空間聚類
1.4信息熵(簡稱熵)
2本文模型
本節介紹提出的基于信息熵加權的多視圖子空間聚類算法(IEMLRR算法),并對此算法進行優化.
2.1IEMLRR算法
2.2優化過程
2.2.1優化w(v)
2.2.2固定w(v),獨立優化單個視圖中的變量
3實驗與分析
3.1數據集介紹
3.2評價指標
3.3對比方法介紹
為了驗證本文提出算法的有效性,將IEMLRR算法分別與自身三個變體算法和DiMSC、LMSC、MLRRSC與FMR四個多視圖聚類算法進行比較.
IEMLRR算法的三個變體算法分別為:
(1)LRRbest:單視圖下的LRR[9]:在每個視圖特征上運行LRR,來獲得低秩子空間表示,在這些表示上運行譜聚類,選擇最好結果;
(2)MLRR:在低秩表示約束下的多視圖子空間聚類算法,在單個視圖分別運行低秩子空間表示,然后將獲得的子空間表示組合在一起;
(3)WMLRR:在MLRR基礎上,獲得一個公共的子空間表示,用自適應權重[23]對視角進行加權.
進行比對的四個多視圖子空間聚類算法:
(1)DiMSC[4]:在獲取子空間表示的過程中,加入希爾伯特-史密斯獨立性準則下的多樣性項,探索了多視圖表示的互補性;
(2)LMSC[7]:在多個視圖均來自同一個潛在的表示的假設下,通過合理的潛在表示和子空間重構進行約束,最后用潛在表示進行聚類,獲得聚類結果;
(3)MLRRSC[20]:基于低秩和稀疏子空間的聚類算法,要求子空間表示矩陣同時為低秩和稀疏矩陣;
(4)FMR[21]:在希爾伯特-史密斯獨立性準則理論支持下,構造互補信息的潛在表示項,再通過數據重建得到子空間表示.
3.4實驗結果分析
3.4.1消融性實驗結果分析
在實驗過程中,首先對每組數據進行歸一化處理,并針對不同算法進行參數調優,最終選取最優結果,每組實驗進行30次,獲得聚類結果的平均值和標準差,具體實驗結果如表4所示.
分析表4可知,與未加權的MLRR算法和自適應加權算法WMLRR相比,在五個數據集上的各個評價指標值均有顯著提升,表明本文提出的IEMLRR算法具有更優的聚類效果,也說明利用不同視角的信息來進行加權是可取的.
為了更加直觀地體現基于信息熵加權下每個視圖權重的差異,以MSRCV1數據集為例,對MSRCV1數據集在IEMLRR算法下最終獲得的最優權重值與單視圖條件下五個視圖的ACC和NMI進行展示,具體如圖1所示.由圖1可以看出,MSRCV1數據集在視圖2上聚類結果最好,且視圖2的權重值最大,表明IEMLRR算法所求各權重與聚類結果一致.
圖1MSRCV1數據集各視圖的權重及聚類效果3.4.2與其他算法對比實驗結果分析
對比IEMLRR算法與其余幾種算法,結果如表5所示.表5顯示了不同算法的聚類性能結果.與多視圖子空間聚類算法DiMSC,基于潛在表示的算法LMSC、FMR,基于低秩稀疏聚類算法MLRSSC相比,IEMLRR算法在大部分數據集上都優于其他算法,比如在UCI-digit數據集上,本文算法比MLRSSC在ACC和NMI方面分別提高了2.63%和0.95%左右;對于每個數據集,IEMLRR算法在NMI和ARI上優勢顯著,具體而言,IEMLRR產生的NMI與數據集Caltech101-7、BBCsports、MSRCV1、UCI-digit上的其他算法相比,分別至少提高1.36%、3.60%、5.46%、0.95%.
3.5參數設置與收斂性分析
3.5.1參數設置
實驗過程中,超參數λ從集合{1e-2,5e-2,0.1,1,5,10,1e2,5e2,1 000}中選擇.參數θ在{0.001,0.01,0.1,1,10,100,1 000}中進行選擇.懲罰參數μ從{101,102,103,104}中進行選擇,ρ設置為1.1,maxμ為106,最大迭代次數設置為100.
3.5.2收斂性分析
為了實證IEMLRR算法的收斂性,畫出本文所提算法在五個數據集上的收斂曲線如圖2所示.在圖2中,三條曲線分別表示三個收斂條件所計算出的誤差.可以看出,在迭代次數大約到50次時,本文提出的IEMLRR算法在五個數據集上均收斂,這表明算法的目標值隨著迭代次數的增加顯著降低,同時也驗證了該算法良好的收斂性.
4結論
本文提出了一種基于信息熵加權的多視圖子空間聚類算法(IEMLRR算法),該算法的主要特點是在對子空間進行低秩約束的基礎上,學習所有視圖的子空間表示,再獲取公共的子空間表示,在這過程中,引入信息熵來區分不同視圖的信息,從而獲得不同視圖對公共子空間表示的貢獻程度.在五個多視圖數據集上的實驗結果表明,該算法的性能優先于其他現有的多視圖子空間聚類算法.
參考文獻
[1] Zhao J,Xie X,Xu X,et al.Multi-view learning overview:Recent progress and new challenges[J].Information Fusion,2017,38(2):43-54.
[2] Zhan K,Zhang C,Guan J,et al.Graph learning for multi-view clustering[J]. IEEE Transactions on Cybernetics,2017,48(10): 2 887-2 895.
[3] 李順勇,顧嘉成.一種增強的K-prototypes混合數據聚類算法[J].陜西科技大學學報,2021,39(2):183-188.
[4] Cao X C,Zhang C Q,Fu H Z,et al.Diversity-induced multi-view subspace clustering[C]//IEEE Conference on Computer Vision and Pattern Recognition.Boston:IEEE,2015:586-594.
[5] Zhang C,Fu H,Liu S,et al.Low-rank tensor constrained multi-view subspace clustering[C]//IEEE International Conference on Computer Vision.Santiago:IEEE,2015:1 582-1 590.
[6] Gao H,Nie F,Li X,et al.Multi-view subspace clustering[C]// International Conference on Computer Vision.Santiago:IEEE,2016:4 238-4 246.
[7] Zhang C Q,Hu Q H,Fu H Z,et al.Latent multi-view subspace clustering[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition.Honolulu:IEEE,2017:4 279-4 287.
[8] Zhang C Q,Fu H Z,Hu Q H,et al.Generalized latent multi-view subspace clustering[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(1):86-99.
[9] Ehsan E,Rene V.Sparse subspace clustering:Algorithm,theory,and applications[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(11):2 765-2 781.
[10] Liu G,Lin Z,Yan S,et al.Robust recovery of subspace structures by low-rank representation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(1):171-184.
[11] Zhao K,Guo Z P,Huang S D,et al.Multiple partitions aligned clustering[C]//Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence.Macao:IJCAI,2019:2 701 -2 707.
[12] 張培,祝恩,蔡志平.單步劃分融合多視圖子空間聚類算法[J].計算機科學與探索,2021,15(12):2 413-2 420.
[13] 黃宗超,王思為,祝恩,等.基于子空間融合的多視圖聚類算法[J].鄭州大學學報(理學版),2021,53(1):68-73.
[14] Li R H,Zhang C Q,Fu H Z,et al.Reciprocal multi-layer subspace learning for multi-view clustering[C]//International Conference on Computer Vision.Seoul:IEEE,2019:8 171-8 179.
[15] Hu H,Lin Z C,Feng J,et al.Smooth representation clustering[C]//IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE,2014:3 834-3 841.
[16] 陳迪,劉驚雷.基于乘法更新規則的k-means與譜聚類的聯合學習[J].南京大學學報(自然科學版),2021,57(2):177-188.
[17] 代勁,胡艷.混合粒度多視圖新聞數據聚類方法[J].小型微型計算機系統,2021,42(4):719-724.
[18] 曹容瑋,祝繼華,郝問裕,等.雙加權多視角子空間聚類算法[J].軟件學報,2022,33(2):585-597.
[19] 劉金花,王洋,錢宇華.基于譜結構融合的多視圖聚類[J].計算機研究與發展,2022,59(4):922-935.
[20] Brbic M,Kopriva I.Multi-view low-rank sparse subspace clustering[J].Pattern Recognition the Journal of the Pattern Recognition Society,2018,73(8):247-258.
[21] Li R,Zhang C,Hu Q,et al.Flexible multi-view representation learning for subspace clustering[C]//Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence.Macao:IJCAI,2019:2 916-2 922.
【責任編輯:陳佳】