夏冬雪 楊 燕 王 浩 陽樹洪
1(西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院 成都 611756)2(廣西科技大學(xué)計算機(jī)科學(xué)與通信工程學(xué)院 廣西柳州 545006)(vdx_swjtu@126.com)
機(jī)器學(xué)習(xí)的許多實際問題中,研究對象常由不同來源的數(shù)據(jù)或不同特征進(jìn)行刻畫.例如不同機(jī)構(gòu)對同一新聞事件的各自報道,同一圖像的不同特征表示,同一故事的視頻或文字描述.類似場景中,從不同視角對同一對象集合進(jìn)行描述的數(shù)據(jù),稱之為多視圖數(shù)據(jù)[1].多視圖學(xué)習(xí)利用多視圖數(shù)據(jù)來獲得對象的全面理解,可以克服單視圖數(shù)據(jù)可能導(dǎo)致的偏差或不足,因而成為近年的研究熱點[2].同時,在當(dāng)前大數(shù)據(jù)時代,數(shù)據(jù)產(chǎn)生和收集的速度迅猛增長,人工標(biāo)注變得非常昂貴和不切實際,聚類分析作為一種重要的無監(jiān)督學(xué)習(xí)形式,日益受到研究者的廣泛關(guān)注.本文主要關(guān)注多視圖聚類.已有研究表明:多視圖聚類能夠充分利用視圖之間的互補(bǔ)性和一致性,從而產(chǎn)生比單視圖聚類更為精確和健壯的數(shù)據(jù)劃分[3-4].
現(xiàn)有的多視圖聚類算法大致包括典型相關(guān)分析、多視圖矩陣分解、圖譜聚類等類別[1].近年來,許多基于圖譜理論的算法被陸續(xù)提出并取得良好效果[3,5-7].這些方法通常以分步進(jìn)行的方式完成多視圖聚類,即首先構(gòu)造每個視圖的相似圖S(similarity graph),然后學(xué)習(xí)所有視圖的公共相似圖,最后對得到的公共相似圖進(jìn)行聚類分析[3,6].
上述基于圖譜理論的多視圖聚類算法在許多場景中被證明是有效的,但仍存在3個缺陷.1)信息融合可在原始數(shù)據(jù)級、特征級和決策級進(jìn)行,構(gòu)建公共相似圖的算法本質(zhì)上是特征級的信息融合[3,7].然而,從相似圖的性質(zhì)來看,一者不同視圖描述對象的視角、聚類能力存在較大差異[8];二來由于實際應(yīng)用中廣泛存在的信息缺失、噪聲等因素容易造成某個視圖的相似圖失真,強(qiáng)制所有視圖共享一個公共相似圖可能導(dǎo)致最終聚類結(jié)果不理想[6].2)目前基于圖譜理論的多視圖聚類多以分步形式完成:即先構(gòu)造公共相似圖,然后據(jù)此進(jìn)行聚類.而不是在一個統(tǒng)一的過程中優(yōu)化這2個任務(wù),從而可能導(dǎo)致額外的PAC(probably approximately correct)邊界[3,9].3)對于數(shù)據(jù)中廣泛存在的非線性關(guān)系,盡管已有若干工作采用核方法進(jìn)行有效處理,但大多基于全局自表達(dá)學(xué)習(xí)的框架進(jìn)行核變換[10],基于局部結(jié)構(gòu)進(jìn)行多核學(xué)習(xí)的方法仍鮮見報導(dǎo).然而,局部結(jié)構(gòu)對于聚類分析和非線性關(guān)系建模有重要意義[11-12].具體表現(xiàn)包括:在足夠小的鄰域范圍內(nèi),樣本間非線性關(guān)系通常能用局部線性嵌入一階逼近,樣本的聚類標(biāo)簽可用近鄰回歸進(jìn)行預(yù)測[12-13];在稍大的局部范圍內(nèi),雖然低維輸入空間中數(shù)據(jù)樣本分布呈現(xiàn)出非線性流形關(guān)系,但若將其嵌入到高維特征空間中,則數(shù)據(jù)樣本在高維空間中的分布仍與歐氏空間局部同胚,從而在局部范圍內(nèi)仍可借鑒歐氏空間的相關(guān)理論方法進(jìn)行建模與分析[13].
因此,本文提出一種基于鄰域多核學(xué)習(xí)的后融合多視圖聚類算法(local multi-kernel learning based late fusion multi-view clustering, LMLFMC).其主要貢獻(xiàn)包括3個方面:
1) 與基于全局自表達(dá)的核方法不同,本文僅考慮近鄰數(shù)據(jù),無需學(xué)習(xí)整個數(shù)據(jù)集的自表達(dá)關(guān)系,從而在保持局部非線性結(jié)構(gòu)的同時減輕計算負(fù)荷.
2) 盡管各視圖的相似圖可能存在差異,但不同視圖的數(shù)據(jù)是從不同角度描述同一個樣本集合,其簇類劃分結(jié)構(gòu)是跨越不同視圖的全局結(jié)構(gòu),本文模型將信息融合推遲到數(shù)據(jù)劃分空間進(jìn)行,因而比基于相似圖融合的多視圖聚類模型更加魯棒.
3) 本文模型在一個統(tǒng)一的框架下,對多核組合方式、各個視圖的相似圖構(gòu)造及最終的簇類結(jié)構(gòu)劃分進(jìn)行協(xié)同優(yōu)化,從而使得上述子任務(wù)能以相互促進(jìn)的方式迭代提升模型整體性能.
由于多視圖數(shù)據(jù)的廣泛應(yīng)用,近年來,許多將基于圖譜理論的聚類模型擴(kuò)展到多視圖的算法被不斷提出[7,14-17].Saha等人[14]首先構(gòu)造視圖的子空間表示,然后在公共子空間實現(xiàn)多視圖聚類,但沒有考慮不同視圖的權(quán)重.針對此問題,Nie等人[7]首先生成每個視圖的相似圖,然后以不同權(quán)重將其整合得到一個公共相似圖,再在公共相似圖上進(jìn)行聚類分析.后續(xù)若干算法對此進(jìn)行持續(xù)研究,提出一系列更為有效的方法[15-16].這些方法并不需要附加的K-means步驟,但仍以分步進(jìn)行的方式完成信息融合:即首先生成各視圖的相似圖,保持不變,然后再進(jìn)行信息融合.此外,上述基于圖譜理論的多視圖聚類方法強(qiáng)制所有視圖統(tǒng)一到一個公共相似圖,而該公共相似圖并沒有以最終的簇類劃分為目標(biāo)進(jìn)行優(yōu)化,從而導(dǎo)致對后者而言,該公共相似圖并非最優(yōu).為了減輕相似度矩陣的計算負(fù)擔(dān),Wang等人[17]采用數(shù)據(jù)簇相似度矩陣計算數(shù)據(jù)點和簇中心之間、而不是對數(shù)據(jù)點之間的相似度,盡管該方法可以提高計算效率,但仍需一個附加的聚類步驟來獲得最終的簇類劃分.
本文模型采用譜旋轉(zhuǎn)實現(xiàn)多視圖信息的后融合.Yu等人[18]首次采用譜旋轉(zhuǎn)實現(xiàn)多類別劃分.Zelnikmanor等人[19]在此基礎(chǔ)上提出自適應(yīng)譜聚類.Huang等人[20]綜合比較了譜聚類框架下的譜旋轉(zhuǎn)和K-means算法,提出了一種基于譜旋轉(zhuǎn)的譜聚類算法.Nie等人[6]用譜旋轉(zhuǎn)代替K-means聚類步驟,將文獻(xiàn)[20]中的算法推廣到多視圖聚類,但仍以分步方式完成多視圖聚類,即先構(gòu)造各視圖的相似圖,在后續(xù)的聚類過程中這些相似圖保持固定,這可能導(dǎo)致所構(gòu)造的相似圖對于后續(xù)的聚類任務(wù)并非最優(yōu).
核方法由于能有效建模數(shù)據(jù)點之間的非線性關(guān)系而被廣泛應(yīng)用到聚類分析中.Scholkopf等人[21]提出了核K-means聚類算法,Zhang等人[22]將其擴(kuò)展為基于核PCA的通用核學(xué)習(xí)框架.Langone等人[23]將核方法引入到譜聚類.上述基于單個核函數(shù)的模型的性能嚴(yán)重依賴于核函數(shù)的選擇.然而,從預(yù)定義的函數(shù)庫中選擇最佳核函數(shù)非常耗時甚至不切實際.為解決這一問題,Kang等人[24]采用多核學(xué)習(xí)對多個核函數(shù)進(jìn)行優(yōu)化加權(quán),從而無需預(yù)先選擇最佳核函數(shù).此后,Huang等人[10]提出一種基于多核學(xué)習(xí)的多視圖聚類算法.已有研究表明:局部結(jié)構(gòu)對于聚類分析和非線性關(guān)系學(xué)習(xí)有重要意義[11-13].但上述基于核方法的聚類模型,均基于全局自表達(dá)學(xué)習(xí)方案,即在核空間中學(xué)習(xí)所有樣本對于特定樣本的全局線性表達(dá),該方法不利于充分挖掘數(shù)據(jù)間的局部結(jié)構(gòu),且對于在高維空間進(jìn)行表達(dá)學(xué)習(xí)的核方法而言,由于需要計算所有數(shù)據(jù)點的表達(dá)系數(shù),從而帶來巨大的計算負(fù)荷.


對鄰接矩陣S進(jìn)行歸一化,使得ST1=1,則式(1)的第2項成為常數(shù)項,即此處的歸一化操作等價于對S進(jìn)行稀疏化約束.故問題式(1)可改寫為


上述鄰接矩陣S的構(gòu)建基于原始輸入空間的歐氏距離.采用該距離測度進(jìn)行聚類,通常要求數(shù)據(jù)集本身線性可分[26],而該條件在真實數(shù)據(jù)上往往難以滿足.為克服該局限性,本文用核技巧將輸入空間的數(shù)據(jù)映射到高維特征空間,以提高數(shù)據(jù)的可分離性.


可驗證,式(3)是式(4)采用線性核時的一個特例.
通過求解問題式(4),可得到每個視圖的相似圖Sv,繼而通過譜聚類進(jìn)行聚類分析.然而,傳統(tǒng)的譜聚類需要一個附加的K-means步驟來獲得最終的聚類結(jié)果,而這個附加的聚類步驟可能會帶來額外的PAC邊界[9].故此,本文提出一種在統(tǒng)一框架下對相似圖構(gòu)造和聚類分析進(jìn)行協(xié)同求解的方法,使得所構(gòu)造的相似圖的連通分量數(shù)目正好等于聚類數(shù)目,從而省除附加的K-means步驟.

定理1.拉普拉斯矩陣LS的特征值0的重數(shù)c等于S所對應(yīng)的圖中連通分量的個數(shù).
定理1在聚類分析中的意義在于,如果拉普拉斯矩陣的秩rank(LS)=n-c,則對應(yīng)的圖正好包含c個全連通分量,因此不需要附加的K-means步驟就可以得到最終的聚類結(jié)果.
受定理1的啟發(fā),本文對問題式(4)添加一個低秩約束,使得所構(gòu)造的相似圖的連通分量數(shù)目正好等于聚類數(shù)目,即:

由于低秩約束不易處理,且LS依賴于優(yōu)化變量S,直接求解問題式(5)非常困難.然而,由于LS是半正定矩陣[27],問題式(5)可轉(zhuǎn)化為易于求解的等價形式.

(6)

將式(5)中的約束rank(LS)=n-c用式(6)進(jìn)行替換,問題式(5)轉(zhuǎn)換為

當(dāng)問題式(7)中的參數(shù)λ設(shè)置為一個足夠大的值時,其解F*可使問題式(5)中約束rank(LS)=n-c得到滿足.






從上述分析可知,本文模型是對譜嵌入矩陣而不是樣本鄰接矩陣進(jìn)行信息融合.
雖然式(9)描述的模型可在核空間中以統(tǒng)一框架學(xué)習(xí)鄰接矩陣和聚類指示矩陣,但仍面臨核函數(shù)的選擇問題:核方法的性能與核函數(shù)的選擇高度相關(guān).但針對特定問題預(yù)先選擇一個最佳核函數(shù)非常困難.在多視圖學(xué)習(xí)中,此問題更加棘手,因為各視圖的數(shù)據(jù)之間的非線性關(guān)系可能互不相同,對于某個視圖而言最佳的核函數(shù)卻不一定適用于另一個視圖.為了克服單個核函數(shù)的局限性,本節(jié)將式(9)描述的單核模型擴(kuò)展到多核,用多個預(yù)先定義的核函數(shù)自動學(xué)習(xí)最佳核函數(shù)組合,從而避免核函數(shù)選擇的問題.



將式(10)代入式(9),并調(diào)整參數(shù)位置,最終得到本文基于多核學(xué)習(xí)的后融合多視圖聚類模型:

(11)
因目標(biāo)函數(shù)式(11)中的優(yōu)化變量相互耦合、包含離散變量Y,且約束亦不平滑,故求解式(11)并不容易.本文提出一個交替迭代的優(yōu)化方案求解式(11).下文按優(yōu)化變量具體介紹其各自更新規(guī)則.
當(dāng)其他與Sv無關(guān)的變量保持不變時,問題式(11)的目標(biāo)函數(shù)關(guān)于Sv可加,且關(guān)于Sv的約束也可按視圖分離.因此,可獨立對每個視圖依次更新Sv.省略視圖上下標(biāo),則式(11)可改寫為

(12)
通常僅保留數(shù)據(jù)點xi與其最近鄰的若干個數(shù)據(jù)點之間的邊,是以在保持鄰接矩陣S的稀疏性的同時降低計算復(fù)雜度[3,30].若為數(shù)據(jù)相似圖中的每個節(jié)點保留k個鄰居,即鄰接矩陣S每行僅保留k個非零元素,則S的更新方案為
(13)

與Sv類似,當(dāng)其他變量保持不變時,F(xiàn)v亦可依視圖進(jìn)行獨立更新,則式(11)可改寫為

因為此處LS,Y,R皆為常量,式(14)可變換為

問題式(15)是一個典型的Stiefel流形上的二次優(yōu)化問題(quadratic problem on the Stiefel manifold, QPSM)[31].由于式(15)的目標(biāo)函數(shù)的Hessian矩陣LS為半正定矩陣,所以式(15)是一個凸問題,其全局最優(yōu)解F*必然存在.若干學(xué)者對QPSM進(jìn)行了深入研究,提出了若干高效穩(wěn)定的迭代算法,可用于求解式(15)[31-32].
類似地,Rv亦可依視圖獨立更新.當(dāng)其他變量保持不變時,式(11)可變換為

該問題的解析解為[31]
R+=UVT,
(17)
其中,U和V分別為FTY的SVD分解的左右奇異向量.
類似地,核函數(shù)權(quán)重向量pv也可依視圖獨立更新,此時式(11)等價于:

(18)
定義向量z,其第t個分量為
則式(18)可等價變換為

(19)
問題式(19)的拉格朗日函數(shù)為
(20)

(21)
固定其他所有變量,對式(11)求解Y等價于:


(23)
因Y為類別指示矩陣,顯然式(23)有解析解為

固定其他所有變量,對式(11)求解w等價于:

(25)


(26)
問題式(26)可求解如下.據(jù)Cauchy-Schwarz不等式有:


(28)
將式(28)的結(jié)論回代到問題式(25),簡單計算可得:
(29)
總結(jié)本文模型(LMLFMC)的求解算法.
算法1.LMLFMC.
輸入:多視圖數(shù)據(jù)Xv、鄰居個數(shù)k、類別數(shù)c、參數(shù)μ和λ、最大迭代次數(shù)tmax;
輸出:類別指示矩陣Y.
① 初始化:t=0,生成核矩陣,初始化w,p.
② 對每個視圖Xv:
按式(13)更新Sv;
求解子問題式(15)更新Fv;
按式(17)更新Rv;
按式(21)更新核矩陣權(quán)重向量pv.
③ 按式(24)更新Y;
④ 按式(29)更新視圖權(quán)重向量w;
⑤ 重復(fù)②~④直到最大迭代次數(shù).
實驗環(huán)境為Intel Xeon Gold 6254@3.10 GHz(X2)CPU,768 GB RAM,2×Tesla V100 GPU.操作系統(tǒng)為Windows Server 2019,編程語言為Matlab.
本文選取6個多視圖聚類中廣泛采用的公開數(shù)據(jù)集進(jìn)行實驗:文本數(shù)據(jù)集3source和BBC,圖像數(shù)據(jù)集Caltech101_7,100leaves和ALOI,以及網(wǎng)絡(luò)文本數(shù)據(jù)集WebKB.詳情如表1所示:

Table 1 Detailed Information of Benchmark Datasets表1 基準(zhǔn)數(shù)據(jù)集詳細(xì)信息
表1中N、V、C分別代表數(shù)據(jù)集的樣本個數(shù),視圖個數(shù)和類別數(shù).di代表第i個視圖的特征維數(shù).

本文選取了多個代表性多視圖聚類算法進(jìn)行對比分析.包括:MKC(multi-viewK-means clustering)[33],MVCNMF(multi-view clustering via non-negative matrix factorization)[34],CRSC(co-regularized spectral clustering)[35],RMSC(robust multi-view spectral clustering)[36],ASMV(adaptive structure-based multi-view clustering)[16],AMG(auto-weighted multiple graph-learning)[7],MKMVC(multi-kernel multi-view clustering)[10],MGFSC(multi-graph fusion spectral clustering)[8].同時,也將標(biāo)準(zhǔn)譜聚類SC(spectral clustering)[37]應(yīng)用到每一個視圖,并給出SC在各單視圖的最佳和最差結(jié)果.所有算法運行10次,給出結(jié)果的均值和方差.
本文采用ACC,MNI,F-measure和ARI這4個指標(biāo)進(jìn)行聚類效果評價.實驗結(jié)果如表2~7所示.其中SC_w(Vi)和SC_b(Vj)分別表示將SC應(yīng)用到相應(yīng)數(shù)據(jù)集的各個單視圖,分別在第i個和第j個視圖上得到的最差(worst)和最佳結(jié)果(best).最好的2個結(jié)果用黑體顯示.

Table 2 Cluster Performance on 3sources Dataset表2 3sources數(shù)據(jù)集上的聚類性能

Table 3 Cluster Performance on BBC Dataset表3 BBC數(shù)據(jù)集上的聚類性能

Table 4 Cluster Performance on 100leaves Dataset表4 100leaves數(shù)據(jù)集上的聚類性能

Table 5 Cluster Performance on Caltech101-7 Dataset表5 Caltech101-7數(shù)據(jù)集上的聚類性能

Table 6 Cluster Performance on ALOI Dataset表6 ALOI數(shù)據(jù)集上的聚類性能

Table 7 Cluster Performance on WebKB Dataset表7 WebKB數(shù)據(jù)集上的聚類性能
1) 聚類效果分析
① 除了Caltech101-7數(shù)據(jù)集上的ACC指標(biāo)和WebKB數(shù)據(jù)集的NMI指標(biāo)結(jié)果稍次,本文模型其他所有數(shù)據(jù)集的所有指標(biāo)都比對比方法有顯著提升.
② 從SC的結(jié)果可知,各視圖的聚類性能差異顯著.以ALOI為例,SC在V3視圖上有較好效果,但在V1上的結(jié)果基本不可用.說明不同視圖的數(shù)據(jù)相似圖S差異較大,將它們強(qiáng)行融合不盡合理.采用類似融合方案的GFSC在ALOI上也效果不佳.
③ 包含附加的K-means聚類的算法,如SC,AMG,GFSC等,結(jié)果方差較大.AMG方法尤甚.而ASMV,MKMVC和本文算法由于不包含附加的K-means步驟,方差幾乎為零.這說明消除附加的K-means聚類步驟可以提高穩(wěn)定性.
④ 總體上,采用多核學(xué)習(xí)方案的MKMVC和本文方法在大部分?jǐn)?shù)據(jù)集上都效果良好,說明多核學(xué)習(xí)能有效表征各個視圖的數(shù)據(jù)點之間的非線性關(guān)系.而同樣采用多核學(xué)習(xí)方案,本文的后融合方案顯著優(yōu)于MKMVC模型的相似圖融合方案.
⑤ 某些情況下,單視圖聚類得到的最佳結(jié)果偶爾優(yōu)于部分多視圖聚類算法,表明要充分利用多個視圖之間的互補(bǔ)性和一致性并不容易,需仔細(xì)考量.
2) 時間性能分析
各種方法的運行時間如表8所示.其中SC_w(SC_b)分別記錄了SC算法在相應(yīng)數(shù)據(jù)集的聚類效果最差(最好)的單視圖上運行10次的平均時間.由于SC算法在各個數(shù)據(jù)集上取得最佳或最差效果的單視圖序號不一致,所以表8中SC_w(SC_b)省略了代表最差(最好)單視圖序號(相應(yīng)的序號可以從表2~7中查詢).

Table 8 Running Time of Each Method on All Dataset表8 各種方法在所有數(shù)據(jù)集上的運行時間 s
本文模型最耗時的環(huán)節(jié)是利用QPSM優(yōu)化工具求解F.該計算過程時間的復(fù)雜度為O(n2ct)[31].其中n代表樣本個數(shù),c代表類別數(shù),t為QPSM算法內(nèi)部的迭代次數(shù).
對樣本個數(shù)多于1 000的數(shù)據(jù)集,所有算法都采用Matlab自帶的GPU運算實現(xiàn).從表8可知,基于多核學(xué)習(xí)的MKMVC算法和本文算法耗時都比較長,但考慮到聚類性能的顯著提升,多核學(xué)習(xí)的時間代價依然是有價值的.但對比MKMVC算法和本文算法的運行時間可以看出,雖本文模型因包含QPSM子問題,理論上的時間復(fù)雜度高于MKMVC,但因采用鄰域?qū)W習(xí)的方案,所以運行時間仍與MKMVC基本相當(dāng),甚至在較大的數(shù)據(jù)集上比MKMVC更快.這一點從AMG和GFSC的運行時間對比同樣可看出,雖然兩者的復(fù)雜度都為O(n3),但因AMG采用鄰域?qū)W習(xí)方案,而GFSC采用全局自表達(dá)方案,所以AMG的運行時間顯著少于GFSC.這些現(xiàn)象表明,鄰域?qū)W習(xí)因需考慮的數(shù)據(jù)點較少,得到的相似矩陣也更為稀疏,可以顯著提高運算速度.鄰域?qū)W習(xí)的速度優(yōu)勢在樣本較多的ALOI數(shù)據(jù)集上更加明顯.
本文算法包含3個參數(shù)(μ,α,λ).其中α在指定鄰居個數(shù)k后,用附錄A中的公式A(10)可直接求解,無需調(diào)參.以3source數(shù)據(jù)集為例,圖1~4顯示了當(dāng)k=25時,各指標(biāo)對不同參數(shù)設(shè)置的變化情況.

Fig. 1 ACC w.r.t. different parameter settingson 3sources圖1 3sources數(shù)據(jù)集上不同參數(shù)設(shè)置時的ACC指標(biāo)

Fig. 2 NMI w.r.t. different parameter settingson 3sources圖2 3sources數(shù)據(jù)集上不同參數(shù)設(shè)置時的NMI指標(biāo)

Fig. 3 F-measure w.r.t. different parameter settingson 3sources圖3 3sources數(shù)據(jù)集上不同參數(shù)設(shè)置時的F-measure指標(biāo)

Fig. 4 ARI w.r.t. different parameter settingson 3sources圖4 3sources數(shù)據(jù)集上不同參數(shù)設(shè)置時的ARI指標(biāo)
從圖1~4可以看出,本文算法對于參數(shù)μ和λ都不敏感.事實上,所有數(shù)據(jù)集μ取值{5E+8~5E+12}之間都能取得較好結(jié)果.算法對參數(shù)λ的穩(wěn)定性稍次于λ,但當(dāng)λ∈{1E+3,5E+3,1E+4,5E+4,1E+5}時,大部分?jǐn)?shù)據(jù)集都能取得較好結(jié)果.表2~7所報導(dǎo)的性能指標(biāo),在所有數(shù)據(jù)集上的都設(shè)置為μ=5E+3,λ=5E+8.因此本文算法對于較大范圍的參數(shù)設(shè)置是穩(wěn)定的.
此外,與所有鄰域方法類似,本文需指定鄰居個數(shù)k.對所有鄰域方法而言,最佳鄰居個數(shù)k的確定目前仍是一個開放問題[27].但在本文模型中,對文本數(shù)據(jù)集取k≈25,對于圖像數(shù)據(jù)集取k≈17時,都能取得較好結(jié)果.事實上,表2~7所示結(jié)果,3sources,BBC,WebKB上都取k=25,在Caltech101-7h和100leaves上取k=17,在ALOI上取k=19時獲得.ALOI數(shù)據(jù)集取比另2個圖像數(shù)據(jù)集稍多的鄰居個數(shù)的原因在于,文獻(xiàn)[27]給出的啟發(fā)性建議指出,鄰居個數(shù)應(yīng)該與log(n)正相關(guān).此外,通過觀察文本數(shù)據(jù)集,發(fā)現(xiàn)其特征取值更為稀疏,數(shù)據(jù)集中特征取值存在大量為0的位置,因而需要考慮更多的鄰居個數(shù)才能描述數(shù)據(jù)的局部非線性結(jié)構(gòu).總之,本文模型性能對于鄰居個數(shù)k的取值是有規(guī)律可循的,是穩(wěn)定的.
本文提出一種基于鄰域多核學(xué)習(xí)的后融合多視圖聚類算法.為充分挖掘數(shù)據(jù)間的非線性關(guān)系和減輕計算負(fù)荷,該算法采用鄰域多核學(xué)習(xí)方案而不是全局核空間自表達(dá)模型.考慮到不同視圖的相似圖之間的聚類性能差異,本文在類別指示矩陣層次而不是數(shù)據(jù)相似圖的層次進(jìn)行信息融合.最后,本文提出一種交替優(yōu)化方案,將相似圖的構(gòu)建和聚類生成等子任務(wù)進(jìn)行協(xié)同優(yōu)化,從而避免所構(gòu)建的相似圖對于聚類任務(wù)并非最優(yōu).實驗結(jié)果表明:本文算法的聚類性能優(yōu)于若干現(xiàn)有的多視圖聚類算法.