吳 峰, 劉 改, 劉詩儀
(西安工程大學 計算機科學學院, 西安 710600)
聚類分析是數據挖掘和人工智能領域中一種重要的數據處理技術, 其目的是根據未標記的數據點的內在相似性, 將其劃分為相應的簇[1]. 聚類分析作為無監督學習中的一項基本任務, 在圖像處理、數據挖掘等眾多領域具有廣泛的應用前景. 傳統的聚類方法包含子空間聚類[1]、譜聚類[1]和K-means 聚類[2]等. 近年來, 也有學者提出基于深度學習的聚類方法, 但目前這類方法通常用于處理傳統的單視角數據. 多視角數據對象由多個視角的數據實例組成, 不同視角間存在一致性和互補性關系, 僅直接采用傳統的單視角聚類方法, 無法有效挖掘多視角數據所包含的豐富信息. 因而,近年來出現了一些多視角聚類方法. 其中Wang 等人[3]考慮到不同視角的權重問題, 提出一種基于圖的多視角聚類算法(GMC), 該方法首先將每個視角的數據矩陣轉換為由相似度圖矩陣構成的圖矩陣, 其次將它們進行融合生成統一的圖矩陣. GMC 自動為每個視角分配權重, 共同學習每個視角的圖矩陣和融合圖, 并在融合后直接生成最終的簇. Tang 等人[4]提出基于聯合潛在表示和相似性學習的多視角聚類方法(LALMVC),用于解決相似性矩陣無法有效表示數據內在幾何結構與數據間鄰域關系的問題. LALMVC 首先學習各視角共享數據的潛在表示, 然后在數據的潛在表示中利用流形學習自適應地獲得相似性矩陣, 從而較好描述數據幾何關系. 由于多視角的一致性與特定性通常無法共同用于子空間表示的學習過程, Luo 等人[5]提出一致與特定多視角子空間聚類方法(CSMSC). 該方法使用一個共享的一致性表示與一組特定性表示描述多視角自表示屬性. 其中一致性用于描述所有視角間的共同特性, 而特定性用于捕獲每個視角的內在差異. Zheng等人[6]通過挖掘局部和全局圖信息并將其融合, 用于約束子空間表示學習過程. 由于該方法缺乏對自表達系數矩陣的監督過程, 不能學到很好的特征表示. 因此可以使用聚類標簽監督自表達模塊的訓練, 以獲得更好的聚類效果.
基于上述問題, 本文提出一種基于圖信息的自監督子空間聚類方法, 用來自監督式地挖掘多視角數據的潛在圖信息. 本文的主要貢獻包含: (1)通過添加圖正則化項獲得更好的潛在空間表示; (2)通過在目標函數中添加自監督規范化項, 實現聚類標簽對自表達系數學習過程的監督.
子空間聚類旨在從多個子空間組成的數據中揭示固有的簇結構. 現有的子空間聚類方法主要集中于構造好的自表達系數矩陣, 然后學習良好的親和矩陣并進行譜聚類, 其中具有代表性的方法包括深度子空間聚類(DSCN)[7]、稀疏子空間聚類(SSC)[8]和超完全深度子空間聚類(ODSC)[9]. DSCN 設計一種新的無監督子空間聚類深度神經網絡. 該架構建立在深度自編碼器上, 非線性地將輸入數據映射到潛在空間. 在編碼器和解碼器之間引入一種新的自表達層模擬在傳統子空間聚類中被證明有效的“自表達性”特性. SSC 通過對自表達系數矩陣添加L1范數, 保證了自表達系數矩陣的稀疏性. 該方法在處理噪聲和缺失數據方面也起到了重要作用. ODSC 首先融合不完全和過完全的自動編碼器網絡的特征, 然后將它們通過自表達層提取一個更有意義和更魯棒的輸入數據表示進行聚類.
傳統的單視角子空間聚類處理多視角數據只是進行簡單的特征拼接, 容易造成維度災難等問題. 多視角子空間聚類以單視角子空間聚類為基礎, 分別處理每個視角的特征. 在互補性原則和一致性原則[10]的輔助下, 多視角子空間聚類建立不同視角間的聯系并進行信息交互, 克服了單視角子空間聚類劃分多視角數據的問題. 潛在多視角子空間聚類(LMSC)[11]從多個視角探索潛在的互補信息, 利用多個視角的互補性, 潛在表示比每個視角更全面地描述數據, 從而使子空間表示更準確和穩健. 多視角深度子空間聚類(MDSC)[12]由兩個子網絡組成, 且分別完成所有視角的公共自表示矩陣和特定視角的自表示矩陣的學習. 該方法通過引入希爾伯特·施密特獨立標準作為多樣性正則化項,將每個視角的自表示矩陣與公共的自表示矩陣對齊,從而取得了較好的聚類效果.
監督學習和無監督學習是機器學習兩種基本的學習范式, 而自監督學習是使用無標注數據自我監督的方式開展學習, 其歸類于無監督學習的范疇. 自監督學習[13]的思想較為簡單, 即輸入的無監督數據通過數據本身的結構或者特性, 構造偽標簽(pseudo label)出來.有了標簽以后就可以類似監督學習一樣進行訓練. 近年來, 有學者試圖將自監督學習與多視角子空間聚類相結合, 獲得構造的偽標簽后對整體網絡進行訓練.自監督卷積子空間聚類網絡(S2ConvSCN)[14]通過聚類標簽監督每個特定視角的潛在表示學習過程和多個視角的公共潛在子空間表示學習過程, 實現數據的自監督目的. 多視角聚類中的自監督判別特征學習(SDMVC)[15]應用深度自編碼器獨立學習每個視角的嵌入式特性, 并利用多視角互補信息連接所有視角的嵌入特性, 形成全局特性. 以一種自監督的方式, 獲得偽標簽建立統一的目標分布并執行多視角判別特征學習.這種統一的目標分布可實現多個視角一致性與多樣性.

圖1 基于圖信息的自監督多視角子空間聚類網絡結構


表示每個指定簇的數據點的所屬類別. 譜聚類產生了數據集的聚類標簽, 盡管不一定是所有數據點的正確標簽, 但它包含了關于數據集的有意義的信息, 這促使我們使用譜聚類的輸出來監督自表達模塊的訓練. 自監督損失函數如下:

本文所提出的方法在4 個標準的真實數據集上進行了廣泛的實驗. 其中, Yale Face 包含15 個人的面部圖像, 共165 張. ORL 包含40 個人的面部圖像, 共400 張. Yale Face 和ORL 數據集的每個圖像都由3 個特征來描述: intensity、LBP 和Gabor. 而且每張圖像的面部表情、光線強弱都是不同的. MSRCV1 數據集是由從7 個簇中收集的210 個圖像樣本組成, 每張圖像由6 個特征來描述: CENT、CMT、GIST、HOG、LBP 和SIFT. BBC 數據集由英國廣播公司的685 份文本文件組成, 每份文件分為4 個子部分.
本文采用了4 種評價指標[11]來評估算法的聚類效果, 分別是歸一化互信息(NMI)、準確率(ACC)、F-度量值(F-Measure)和蘭德指數(RI).
結果表明, 本文所提出的SMSC 相較于其他對比方法獲得了更好的聚類結果. 與傳統的多視角子空間聚類方法相比, SMSC 取得了顯著的改進. 從表1 中可以看出, 在Yale Face 數據集上, SMSC 與LMSC 相比,NMI 和ACC 指標分別提升了20.56%和25.84%, 說明SMSC 的效果是更好的一方. 在另外3 個數據集上,相比其他多視角算法, SMSC 也都有顯著的提升. SMSC首先挖掘數據的潛在信息, 其次通過自表達系數矩陣獲得相似性矩陣并在其上應用譜聚類, 獲得聚類標簽信息后, 通過自監督規范化項對自表達系數矩陣進行監督, 獲得更好的聚類效果.

表1 Yale Face 數據集對比實驗結果

表2 ORL 數據集對比實驗結果

表3 MSRCV1 數據集對比實驗結果

表4 BBC 數據集對比實驗結果
以Yale Face 數據集上的實驗為例. 圖2 顯示了標準化損失和聚類結果指標(NMI 和ACC)隨著迭代次數增加的變化情況. 可以很明顯的看出, SMSC 具有較快的收斂速度.

圖2 收斂性結果示意圖
本文提出一種基于圖信息的自監督多視角子空間聚類方法, 該方法自監督式地挖掘多視角數據的潛在信息, 提升聚類效果. 通過在4 個標準數據集上的大量實驗驗證, 結果表明所提方法優于幾種常用的多視角聚類方法.