張嘉旭 王 駿 ,2 張春香 林得富 周 塔 王士同
隨著多樣化信息獲取技術(shù)的發(fā)展,人們可以從不同途徑或不同角度來(lái)獲取對(duì)象的特征數(shù)據(jù),即多視角數(shù)據(jù).多視角數(shù)據(jù)包含了同一對(duì)象不同角度的信息.例如:網(wǎng)頁(yè)數(shù)據(jù)中既包含網(wǎng)頁(yè)內(nèi)容又包含網(wǎng)頁(yè)鏈接信息;視頻內(nèi)容中既包含視頻信息又包含音頻信息;圖像數(shù)據(jù)中既涉及顏色直方圖特征、紋理特征等圖像特征,又涉及描述該圖像內(nèi)容的文本.多視角學(xué)習(xí)能有效地對(duì)多視角數(shù)據(jù)進(jìn)行融合,避免了單視角數(shù)據(jù)數(shù)據(jù)信息單一的問(wèn)題[1?4].
多視角模糊聚類(lèi)是一種有效的無(wú)監(jiān)督多視角學(xué)習(xí)方法[5?7].它通過(guò)在多視角聚類(lèi)過(guò)程中引入各樣本對(duì)不同類(lèi)別的模糊隸屬度來(lái)描述各視角下樣本屬于該類(lèi)別的不確定性程度.經(jīng)典的工作有:文獻(xiàn)[8]以經(jīng)典的單視角模糊C 均值(Fuzzy C-means,FCM)算法作為基礎(chǔ)模型,利用不同視角間的互補(bǔ)信息確定協(xié)同聚類(lèi)的準(zhǔn)則,提出了Co-FC (Collaborative fuzzy clustering)算法;文獻(xiàn)[9]參考文獻(xiàn)[8]的協(xié)同思想提出Co-FKM (Multiview fuzzy clustering algorithm collaborative fuzzy K-means)算法,引入雙視角隸屬度懲罰項(xiàng),構(gòu)造了一種新型的無(wú)監(jiān)督多視角協(xié)同學(xué)習(xí)方法;文獻(xiàn)[10]借鑒了Co-FKM和Co-FC 所使用的雙視角約束思想,通過(guò)引入視角權(quán)重,并采用集成策略來(lái)融合多視角的模糊隸屬度矩陣,提出了WV-Co-FCM (Weighted view collaborative fuzzy C-means) 算法;文獻(xiàn)[11]通過(guò)最小化雙視角下樣本與聚類(lèi)中心的歐氏距離來(lái)減小不同視角間的差異性,基于K-means 聚類(lèi)框架提出了Co-K-means (Collaborative multi-view K-means clustering)算法;在此基礎(chǔ)上,文獻(xiàn)[12]提出了基于模糊劃分的TW-Co-K-means (Two-level weighted collaborative K-means for multi-view clustering)算法,對(duì)Co-K-means 算法中的雙視角歐氏距離加入一致性權(quán)重,獲得了比Co-K-means 更好的多視角聚類(lèi)結(jié)果.以上多視角聚類(lèi)方法都基于成對(duì)視角來(lái)構(gòu)造不同的正則化項(xiàng)來(lái)挖掘視角之間的一致性和差異性信息,缺乏對(duì)多個(gè)視角的整體考慮.
一致性和差異性是設(shè)計(jì)多視角聚類(lèi)算法需要考慮的兩個(gè)重要原則[10?14].一致性是指在多視角聚類(lèi)過(guò)程中,各視角的聚類(lèi)結(jié)果應(yīng)該盡可能保持一致.在設(shè)計(jì)多視角聚類(lèi)算法時(shí),往往通過(guò)協(xié)同、集成等手段來(lái)構(gòu)建全局劃分矩陣,從而得到最終的聚類(lèi)結(jié)果[14?16].差異性是指多視角數(shù)據(jù)中的每個(gè)視角均反映了對(duì)象在不同方面的信息,這些信息互為補(bǔ)充[10],在設(shè)計(jì)多視角聚類(lèi)算法時(shí)需要對(duì)這些信息進(jìn)行充分融合.綜合考慮這兩方面的因素,本文擬提出新型的低秩約束熵加權(quán)多視角模糊聚類(lèi)算法(Entropy-weighting multi-view fuzzy C-means with low rank constraint,LR-MVEWFCM),其主要?jiǎng)?chuàng)新點(diǎn)可以概括為以下3 個(gè)方面:
1)在模糊聚類(lèi)框架下提出了面向視角一致性的低秩約束準(zhǔn)則.已有的多視角模糊聚類(lèi)算法大多基于成對(duì)視角之間的兩兩關(guān)系來(lái)構(gòu)造正則化項(xiàng),忽視了多個(gè)視角的整體一致性信息.本文在模糊聚類(lèi)框架下從視角全局一致性出發(fā)引入低秩約束正則化項(xiàng),從而得到新型的低秩約束多視角模糊聚類(lèi)算法.
2) 在模糊聚類(lèi)框架下同時(shí)考慮多視角聚類(lèi)的一致性和差異性,在引入低秩約束的同時(shí)進(jìn)一步使用面向視角差異性的多視角香農(nóng)熵加權(quán)策略;在迭代優(yōu)化的過(guò)程中,通過(guò)動(dòng)態(tài)調(diào)節(jié)視角權(quán)重系數(shù)來(lái)突出具有更好分離性的視角的權(quán)重,從而提高聚類(lèi)性能.
3)在模糊聚類(lèi)框架下首次使用交替方向乘子法(Alternating direction method of multipliers,ADMM)[15]對(duì)LR-MVEWFCM 算法進(jìn)行優(yōu)化求解.在本文中,令N為樣本總量,D為樣本維度,K為視角數(shù)目,C為聚類(lèi)數(shù)目,m為模糊指數(shù).設(shè)xj,k表示多視角場(chǎng)景中第j個(gè)樣本第k個(gè)視角的特征向量,j1,···,N,k1,···,K;vi,k表示第k個(gè)視角下,第i個(gè)聚類(lèi)中心,i1,···,C;Uk[μij,k]表示第k個(gè)視角下的模糊隸屬度矩陣,其中μij,k是第k個(gè)視角下第j個(gè)樣本屬于第i個(gè)聚類(lèi)中心的模糊隸屬度,i1,···,C,j1,···,N.
本文第1 節(jié)在相關(guān)工作中回顧已有的經(jīng)典模糊C 均值聚類(lèi)算法FCM 模型[17]和多視角模糊聚類(lèi)Co-FKM 模型[9];第2 節(jié)將低秩理論與多視角香農(nóng)熵理論相結(jié)合,提出本文的新方法;第3 節(jié)基于模擬數(shù)據(jù)集和UCI (University of California Irvine)數(shù)據(jù)集驗(yàn)證本文算法的有效性,并給出實(shí)驗(yàn)分析;第4 節(jié)給出實(shí)驗(yàn)結(jié)論.
設(shè)單視角環(huán)境下樣本x1,···,xN∈RD,U[μi,j]是模糊劃分矩陣,V[v1,v2,···,vC] 是樣本的聚類(lèi)中心.FCM 算法的目標(biāo)函數(shù)可表示為

可得到JFCM取得局部極小值的必要條件為

根據(jù)式(2)和式(3)進(jìn)行迭代優(yōu)化,使目標(biāo)函數(shù)收斂于局部極小點(diǎn),從而得到樣本屬于各聚類(lèi)中心的模糊劃分矩陣U.
在經(jīng)典FCM 算法的基礎(chǔ)上,文獻(xiàn)[9]通過(guò)引入視角協(xié)同約束正則項(xiàng),對(duì)視角間的一致性信息加以約束,提出了多視角模糊聚類(lèi)Co-FKM 模型.
多視角模糊聚類(lèi)Co-FKM 模型需要滿足如下條件:

多視角模糊聚類(lèi)Co-FKM 模型的目標(biāo)函數(shù)JCo-FKM定義為


式(5)中,η表示協(xié)同劃分參數(shù); Δ 表示視角一致項(xiàng),由式(6)可知,當(dāng)各視角趨于一致時(shí),Δ 將趨于0.
迭代得到各視角的模糊隸屬度μij,k后,為了最終得到一個(gè)具有全局性的模糊隸屬度劃分矩陣,Co-FKM 算法對(duì)各視角下的模糊隸屬度采用幾何平均的方法,得到數(shù)據(jù)集的整體劃分,具體形式為

針對(duì)當(dāng)前多視角模糊聚類(lèi)算法研究中存在的不足,本文提出一種基于低秩約束的熵加權(quán)多視角模糊聚類(lèi)新方法LR-MVEWFCM.一方面通過(guò)向多視角模糊聚類(lèi)算法的目標(biāo)學(xué)習(xí)準(zhǔn)則中引入低秩約束項(xiàng),在整體上控制聚類(lèi)過(guò)程中各視角的一致性;另一方面基于香農(nóng)熵理論,通過(guò)熵加權(quán)機(jī)制來(lái)控制各視角之間的差異性.同時(shí)使用交替方向乘子法對(duì)模型進(jìn)行優(yōu)化求解.
設(shè)多視角隸屬度U1,···,UK融合為一個(gè)整體的隸屬度矩陣U,將矩陣U的秩函數(shù)凸松弛為核范數(shù),通過(guò)對(duì)矩陣U進(jìn)行低秩約束,可以將多視角數(shù)據(jù)之間的一致性問(wèn)題轉(zhuǎn)化為核范數(shù)最小化問(wèn)題進(jìn)行求解,具體定義為

其中,U[U1··· UK]T表示全局劃分矩陣,‖·‖?表示核范數(shù).式(8)的優(yōu)化過(guò)程保證了全局劃分矩陣的低秩約束.低秩約束的引入,可以彌補(bǔ)當(dāng)前大多數(shù)多視角聚類(lèi)算法僅能基于成對(duì)視角構(gòu)建約束的缺陷,從而更好地挖掘多視角數(shù)據(jù)中包含的全局一致性信息.
目前已有的多視角的聚類(lèi)算法在處理多視角數(shù)據(jù)時(shí),通常默認(rèn)每個(gè)視角平等共享聚類(lèi)結(jié)果[11],但實(shí)際上某些視角的數(shù)據(jù)往往因空間分布重疊而導(dǎo)致可分性較差.為避免此類(lèi)視角的數(shù)據(jù)過(guò)多影響聚類(lèi)效果,本文擬對(duì)各視角進(jìn)行加權(quán)處理,并構(gòu)建香農(nóng)熵正則項(xiàng)從而在聚類(lèi)過(guò)程中有效地調(diào)節(jié)各視角之間的權(quán)重,使得具有較好可分離性的視角的權(quán)重系數(shù)盡可能大,以達(dá)到更好的聚類(lèi)效果.

綜上所述,本文作如下改進(jìn):首先,用本文提出的低秩約束全局模糊隸屬度矩陣U;其次,計(jì)算損失函數(shù)時(shí)考慮視角權(quán)重wk,并加入視角權(quán)重系數(shù)的香農(nóng)熵正則項(xiàng).設(shè)U[U1··· UK]T;www[w1,···,wk,···,wK]表示K個(gè)視角下的視角權(quán)重.本文所構(gòu)建LR-MVEWFCM 的目標(biāo)函數(shù)為

其中,約束條件為

本文取模糊指數(shù)m2.
在本節(jié)中,我們將使用ADMM 方法,通過(guò)交替方向迭代的策略來(lái)實(shí)現(xiàn)目標(biāo)函數(shù) (11) 的最小化.

最小化式 (10) 可改寫(xiě)為如下約束優(yōu)化問(wèn)題:

其求解過(guò)程可分解為如下幾個(gè)子問(wèn)題:
1)V-子問(wèn)題.固定w和U,更新V為

2)U-子問(wèn)題.固定w,Q和Z,更新U為

通過(guò)最小化式 (17),可得到U(t+1)的封閉解為

3)w-子問(wèn)題.固定V和U,更新w為

4)Z-子問(wèn)題.固定Q和U,更新Z為

通過(guò)引入軟閾值算子,可得式 (20) 的解為

其中,U(t+1)+Q(t)AΣBT為矩陣U(t+1)+Q(t)的奇異值分解,核范數(shù)的近鄰算子可由軟閾值算子Sθ/ρ(Σ)diag({max(0,σi ?θ/ρ)})(i1,2,···,N)給出.
5)Q-子問(wèn)題.固定Z和U,更新Q為

經(jīng)過(guò)上述迭代過(guò)程,目標(biāo)函數(shù)收斂于局部極值,同時(shí)得到不同視角下的模糊隸屬度矩陣.本文借鑒文獻(xiàn)[10]的集成策略,使用視角權(quán)重系數(shù)w[w1,···,wk,···,wK]和模糊隸屬度矩陣U來(lái)構(gòu)建具有全局特性的模糊空間劃分矩陣

其中,wk,Uk分別表示第k個(gè)視角的視角權(quán)重系數(shù)和相應(yīng)的模糊隸屬度矩陣.
LR-MVEWFCM 算法描述如下:
輸入.包含K(1≤k ≤K) 個(gè)視角的多視角樣本集,其中任意一個(gè)視角對(duì)應(yīng)樣本集Xk{x1,k,···,xN,k},聚類(lèi)中心C,迭代閾值?,最大迭代次數(shù)T;
輸出.各視角聚類(lèi)中心模糊空間劃分矩陣和各視角權(quán)重wk;
步驟1.隨機(jī)初始化V(t),歸一化U(t)及w(t),t0;
步驟2.根據(jù)式 (21)更新
步驟3.根據(jù)式 (23)更新U(t+1);
步驟4.根據(jù)式 (24) 更新
步驟5.根據(jù)式 (26)更新Z(t+1);
步驟6.根據(jù)式 (27)更新Q(t+1);
步驟7.如果T,則算法結(jié)束并跳出循環(huán),否則,返回步驟2;
步驟8.根據(jù)步驟7 所獲取的各視角權(quán)重wk及各視角下的模糊隸屬度Uk,使用式 (23)計(jì)算
2.2.1 與低秩約束算法比較
近年來(lái),基于低秩約束的機(jī)器學(xué)習(xí)模型得到了廣泛的研究.經(jīng)典工作包括文獻(xiàn)[16]中提出LRR(Low rank representation)模型,將矩陣的秩函數(shù)凸松弛為核范數(shù),通過(guò)求解核范數(shù)最小化問(wèn)題,求得基于低秩表示的親和矩陣;文獻(xiàn)[14]提出低秩張量多視角子空間聚類(lèi)算法(Low-rank tensor constrained multiview subspace clustering,LT-MSC),在各視角間求出帶有低秩約束的子空間表示矩陣;文獻(xiàn) [18] 則進(jìn)一步將低秩約束引入多模型子空間聚類(lèi)算法中,使算法模型取得了較好的性能.本文將低秩約束與多視角模糊聚類(lèi)框架相結(jié)合,提出了LR-MVEWFCM 算法,用低秩約束來(lái)實(shí)現(xiàn)多視角數(shù)據(jù)間的一致性.本文方法可作為低秩模型在多視角模糊聚類(lèi)領(lǐng)域的重要拓展.
2.2.2 與多視角Co-FKM 算法比較
圖1 和圖2 分別給出了多視角Co-FKM 算法和本文LR-MVEWFCM 算法的工作流程.

圖1 Co-FKM 算法處理多視角聚類(lèi)任務(wù)工作流程Fig.1 Co-FKM algorithm for multi-view clustering task

圖2 LR-MVEWFCM 算法處理多視角聚類(lèi)任務(wù)工作流程Fig.2 LR-MVEWFCM algorithm for multi-view clustering task
本文算法與經(jīng)典的多視角Co-FKM 算法在多視角信息的一致性約束和多視角聚類(lèi)結(jié)果的集成策略上均有所不同.在多視角信息的一致性約束方面,本文將Co-FKM 算法中的視角間兩兩約束進(jìn)一步擴(kuò)展到多視角全局一致性約束;在多視角聚類(lèi)結(jié)果的集成策略上,本文不同于Co-FKM 算法對(duì)隸屬度矩陣簡(jiǎn)單地求幾何平均值的方式,而是將各視角隸屬度與視角權(quán)重相結(jié)合,構(gòu)建具有視角差異性的集成決策函數(shù).
本文采用模擬數(shù)據(jù)集和UCI 中的真實(shí)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證,選取FCM[17]、CombKM[19]、Co-FKM[9]和Co-Clustering[20]這4 個(gè)聚類(lèi)算法作為對(duì)比算法,參數(shù)設(shè)置如表1 所示.實(shí)驗(yàn)環(huán)境為:Intel Core i5-7400 CPU,其主頻為2.3 GHz,內(nèi)存為8 GB.編程環(huán)境為MATLAB 2015b.

表1 參數(shù)定義和設(shè)置Table 1 Parameter setting in the experiments
本文采用如下兩個(gè)性能指標(biāo)對(duì)各算法所得結(jié)果進(jìn)行評(píng)估.
1) 歸一化互信息(Normalized mutual information,NMI)[10]

其中,Ni,j表示第i類(lèi)與第j類(lèi)的契合程度,Ni表示第i類(lèi)中所屬樣本量,Nj表示第j類(lèi)中所屬樣本量,而N表示數(shù)據(jù)的樣本總量;
2) 芮氏指標(biāo)(Rand index,RI)[10]

其中,f00表示具有不同類(lèi)標(biāo)簽且屬于不同類(lèi)的數(shù)據(jù)配對(duì)點(diǎn)數(shù)目,f11則表示具有相同類(lèi)標(biāo)簽且屬于同一類(lèi)的數(shù)據(jù)配對(duì)點(diǎn)數(shù)目,N表示數(shù)據(jù)的樣本總量.以上兩個(gè)指標(biāo)的取值范圍介于 [0,1] 之間,數(shù)值越接近1,說(shuō)明算法的聚類(lèi)性能越好.為了驗(yàn)證算法的魯棒性,各表中統(tǒng)計(jì)的性能指標(biāo)值均為算法10次運(yùn)行結(jié)果的平均值.
為了評(píng)估本文算法在多視角數(shù)據(jù)集上的聚類(lèi)效果,使用文獻(xiàn)[10]的方法來(lái)構(gòu)造具有三維特性的模擬數(shù)據(jù)集A(x,y,z),其具體生成過(guò)程為:首先在MATLAB 環(huán)境下采用正態(tài)分布隨機(jī)函數(shù)normrnd構(gòu)建數(shù)據(jù)子集A1(x,y,z),A2(x,y,z) 和A3(x,y,z),每組對(duì)應(yīng)一個(gè)類(lèi)簇,數(shù)據(jù)均包含200 個(gè)樣本.其中第1 組與第2 組數(shù)據(jù)集在特征z上數(shù)值較為接近,第2 組與第3 組數(shù)據(jù)集在特征x上較為接近;然后將3 組數(shù)據(jù)合并得到集合A(x,y,z),共計(jì)600 個(gè)樣本;最后對(duì)數(shù)據(jù)集內(nèi)的樣本進(jìn)行歸一化處理.我們進(jìn)一步將特征x,y,z按表2 的方式兩兩組合,從而得到多視角數(shù)據(jù).

表2 模擬數(shù)據(jù)集特征組成Table 2 Characteristic composition of simulated dataset
將各視角下的樣本可視化,如圖3 所示.

圖3 模擬數(shù)據(jù)集及各視角數(shù)據(jù)集Fig.3 Simulated data under multiple views
通過(guò)觀察圖3 可以發(fā)現(xiàn),視角1 中的數(shù)據(jù)集在空間分布上具有良好的可分性,而視角2 和視角3的數(shù)據(jù)在空間分布上均存在著一定的重疊,從而影響了所在視角下的聚類(lèi)性能.通過(guò)組合不同視角生成若干新的數(shù)據(jù)集,如表3 所示,并給出了LRMVEWFCM 重復(fù)運(yùn)行10 次后的平均結(jié)果和方差.

表3 模擬數(shù)據(jù)實(shí)驗(yàn)算法性能對(duì)比Table 3 Performance comparison of the proposed algorithms on simulated dataset
對(duì)比LR-MVEWFCM 在數(shù)據(jù)集1~3 上的性能,我們發(fā)現(xiàn)本文算法在視角1 上取得了最為理想的效果,在視角3 上的性能要優(yōu)于視角2,這與圖3中各視角數(shù)據(jù)的空間可分性是一致的.此外,將各視角數(shù)據(jù)兩兩組合構(gòu)成新數(shù)據(jù)集4~6 后,LRMVEWFCM 算法都得到了比單一視角更好的聚類(lèi)效果,這都說(shuō)明了本文采用低秩約束來(lái)挖掘多視角數(shù)據(jù)中一致性的方法,能夠有效提高聚類(lèi)性能.
基于多視角數(shù)據(jù)集7,我們進(jìn)一步給出本文算法與其他經(jīng)典聚類(lèi)算法的比較結(jié)果.
從表4 中可以發(fā)現(xiàn),由于模擬數(shù)據(jù)集在某些特征空間下具有良好的空間可分性,所以無(wú)論是本文的算法還是Co-Clustering 算法、FCM 算法等算法均取得了很好的聚類(lèi)效果,而CombKM 算法的性能較之以上算法則略有不足,分析其原因在于CombKM 算法側(cè)重于挖掘樣本之間的信息,卻忽視了多視角之間的協(xié)作,而本文算法通過(guò)使用低秩約束進(jìn)一步挖掘了多視角之間的全局一致性,因而得到了比CombKM 算法更好的聚類(lèi)效果.

表4 模擬數(shù)據(jù)集7 上各算法的性能比較Table 4 Performance comparison of the proposed algorithms on simulated dataset 7
本節(jié)采用5 個(gè)UCI 數(shù)據(jù)集:1) Iris 數(shù)據(jù)集;2)Image Segmentation (IS) 數(shù)據(jù)集;3) Balance 數(shù)據(jù)集;4) Ionosphere 數(shù)據(jù)集;5) Wine 數(shù)據(jù)集來(lái)進(jìn)行實(shí)驗(yàn).由于這幾個(gè)數(shù)據(jù)集均包含了不同類(lèi)型的特征,所以可以將這些特征進(jìn)行重新分組從而構(gòu)造相應(yīng)的多視角數(shù)據(jù)集.表5 給出了分組后的相關(guān)信息.

表5 基于UCI 數(shù)據(jù)集構(gòu)造的多視角數(shù)據(jù)Table 5 Multi-view data constructded based on UCI dataset
我們?cè)诙嘁暯菙?shù)據(jù)集上運(yùn)行各多視角聚類(lèi)算法;同時(shí)在原數(shù)據(jù)集上運(yùn)行FCM 算法.相關(guān)結(jié)果統(tǒng)計(jì)見(jiàn)表6 和表7.
通過(guò)觀察表6 和表7 中的 NMI和 RI 指標(biāo)值可知,Co-FKM 算法的聚類(lèi)性能明顯優(yōu)于其他幾種經(jīng)典聚類(lèi)算法,而相比于Co-FKM 算法,由于LRMVEWFCM 采用了低秩正則項(xiàng)來(lái)挖掘多視角數(shù)據(jù)之間的一致性關(guān)系,并引入多視角自適應(yīng)熵加權(quán)策略,從而有效控制各視角之間的差異性.很明顯,這種聚類(lèi)性能更為優(yōu)異和穩(wěn)定,且收斂性的效果更好.表6 和表7 中的結(jié)果也展示了在IS、Balance、Iris、Ionosphere 和Wine 數(shù)據(jù)集上,其N(xiāo)MI 和RI 指標(biāo)均提升3~5 個(gè)百分點(diǎn),這也說(shuō)明了本文算法在多視角聚類(lèi)過(guò)程中的有效性.

表6 5 種聚類(lèi)方法的NMI 值比較結(jié)果Table 6 Comparison of NMI performance of five clustering methods

表7 5 種聚類(lèi)方法的RI 值比較結(jié)果Table 7 Comparison of RI performance of five clustering methods
為進(jìn)一步說(shuō)明本文低秩約束發(fā)揮的積極作用,將LR-MVEWFCM 算法和MVEWFCM 算法共同進(jìn)行實(shí)驗(yàn),算法的性能對(duì)比如圖4 所示.
從圖4 中不難發(fā)現(xiàn),無(wú)論在模擬數(shù)據(jù)集上還是UCI 真實(shí)數(shù)據(jù)集上,相比較MVEWFCM 算法,LRMVEWFCM 算法均可以取得更好的聚類(lèi)效果.因此可見(jiàn),LR-MVEWFCM 目標(biāo)學(xué)習(xí)準(zhǔn)則中的低秩約束能夠有效利用多視角數(shù)據(jù)的一致性來(lái)提高算法的聚類(lèi)性能.

圖4 低秩約束對(duì)算法性能的影響(橫坐標(biāo)為數(shù)據(jù)集編號(hào),縱坐標(biāo)為聚類(lèi)性能指標(biāo))Fig.4 The influence of low rank constraints on the performance of the algorithm (the X-coordinate is the data set number and the Y-coordinate is the clustering performance index)
為研究本文算法的收斂性,同樣選取8 個(gè)數(shù)據(jù)集進(jìn)行收斂性實(shí)驗(yàn),其目標(biāo)函數(shù)變化如圖5 所示.


圖5 LR-MVEWFCM 算法的收斂曲線Fig.5 Convergence curve of LR-MVEWFCM algorithm
從圖5 中可以看出,本文算法在真實(shí)數(shù)據(jù)集上僅需迭代15 次左右就可以趨于穩(wěn)定,這說(shuō)明本文算法在速度要求較高的場(chǎng)景下具有較好的實(shí)用性.
綜合以上實(shí)驗(yàn)結(jié)果,我們不難發(fā)現(xiàn),在具有多視角特性的數(shù)據(jù)集上進(jìn)行模糊聚類(lèi)分析時(shí),多視角模糊聚類(lèi)算法通常比傳統(tǒng)單視角模糊聚類(lèi)算法能夠得到更優(yōu)的聚類(lèi)效果;在本文中,通過(guò)在多視角模糊聚類(lèi)學(xué)習(xí)中引入低秩約束來(lái)增強(qiáng)不同視角之間的一致性關(guān)系,并引入香農(nóng)熵調(diào)節(jié)視角權(quán)重關(guān)系,控制不同視角之間的差異性,從而得到了比其他多視角聚類(lèi)算法更好的聚類(lèi)效果.
LR-MVEWFCM 算法包含兩個(gè)正則項(xiàng)系數(shù),即視角權(quán)重平衡因子λ和低秩約束正則項(xiàng)系數(shù)θ,圖6以LR-MVEWFCM 算法在模擬數(shù)據(jù)集7 上的實(shí)驗(yàn)為例,給出了系數(shù)從0 到1 000 過(guò)程中,算法性能的變化情況,當(dāng)?shù)椭日齽t項(xiàng)系數(shù)θ=0 時(shí),即不添加此正則項(xiàng),算法的性能最差,驗(yàn)證了本文加入的低秩正則項(xiàng)的有效性,當(dāng)θ值變化過(guò)程中,算法的性能相對(duì)變化較小,說(shuō)明本文算法在此數(shù)據(jù)集上對(duì)于θ值變化不敏感,具有一定的魯棒性;而當(dāng)香農(nóng)熵正則項(xiàng)系數(shù)λ=0 時(shí),同樣算法性能較差,也說(shuō)明引入此正則項(xiàng)的合理性.當(dāng)λ值變大時(shí),發(fā)現(xiàn)算法的性能也呈現(xiàn)變好趨勢(shì),說(shuō)明在此數(shù)據(jù)集上,此正則項(xiàng)相對(duì)效果比較明顯.

圖6 模擬數(shù)據(jù)集7 上參數(shù)敏感性分析Fig.6 Sensitivity analysis of parameters on simulated dataset 7
本文從多視角聚類(lèi)學(xué)習(xí)過(guò)程中的一致性和差異性兩方面出發(fā),提出了基于低秩約束的熵加權(quán)多視角模糊聚類(lèi)算法.該算法采用低秩正則項(xiàng)來(lái)挖掘多視角數(shù)據(jù)之間的一致性關(guān)系,并引入多視角自適應(yīng)熵加權(quán)策略從而有效控制各視角之間的差異性,從而提高了算法的性能.在模擬數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)均表明,本文算法的聚類(lèi)性能優(yōu)于其他多視角聚類(lèi)算法.同時(shí)本文算法還具有迭代次數(shù)少、收斂速度快的優(yōu)點(diǎn),具有良好的實(shí)用性.由于本文采用經(jīng)典的FCM 框架,使用歐氏距離來(lái)衡量數(shù)據(jù)對(duì)象之間的差異,這使得本文算法不適用于某些高維數(shù)據(jù)場(chǎng)景.如何針對(duì)高維數(shù)據(jù)設(shè)計(jì)多視角聚類(lèi)算法,這也將是我們今后的研究重點(diǎn).