999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于核誘導(dǎo)的不完整多視角聚類

2021-02-05 18:10:50鄧趙紅王士同
計算機與生活 2021年2期
關(guān)鍵詞:共性方法

張 煒,鄧趙紅,王士同

江南大學(xué)人工智能與計算機學(xué)院,江蘇無錫 214122

隨著數(shù)據(jù)采集技術(shù)的發(fā)展,數(shù)據(jù)的復(fù)雜性越來越高,復(fù)雜數(shù)據(jù)給傳統(tǒng)機器學(xué)習(xí)技術(shù)帶來許多挑戰(zhàn)。數(shù)據(jù)的復(fù)雜性包括很多方面,如:數(shù)據(jù)集的大小、數(shù)據(jù)屬性特征的復(fù)雜性等。觀察復(fù)雜數(shù)據(jù)集時,可以通過多個視角詮釋,多視角數(shù)據(jù)是指對同一樣本不同角度的表示,例如在基于內(nèi)容的網(wǎng)頁圖像搜索中,目標(biāo)可以用圖像的可視化特征以及對圖像描述的文本特征表示。近年來,多視角學(xué)習(xí)得到越來越多的關(guān)注,在各個領(lǐng)域得到廣泛應(yīng)用。

多視角聚類作為多視角學(xué)習(xí)的重要分支,近年來取得了較大發(fā)展[1-2]。Cleuziou 等人基于經(jīng)典模糊C 均值聚類(fuzzy C-means,F(xiàn)CM)算法,利用協(xié)同劃分的思想對不同視角的模糊劃分進行控制,提出了基于FCM 的協(xié)同聚類算法[3]。Liu 等人針對多視角數(shù)據(jù),提出了一個新穎的張量框架,該框架用來在譜聚類中整合異構(gòu)多視角數(shù)據(jù)[4]。Wang 等人提出了一種多視角學(xué)習(xí)模型,通過引入新的聯(lián)合結(jié)構(gòu)稀疏準(zhǔn)則,將所有特征進行集成,并對每個特征的權(quán)值進行單獨學(xué)習(xí)[5]。Xia 等人提出了一種魯棒的多視角譜聚類的馬爾可夫鏈方法,該方法通過低秩稀疏分解將每個視角的過度概率矩陣組合成一個共享的過度概率矩陣[6]。另外,近年來還有一些在非負矩陣分解(nonnegative matrix factorization,NMF)基礎(chǔ)上的多視角聚類算法被提出[7-8]。Liu 等人提出了一個具有一致性約束的聯(lián)合非負矩陣分解過程,該過程對每個視角執(zhí)行非負矩陣分解,并利用每個視角的低維表示推出一個共同的表示[7]。基于NMF 和流形學(xué)習(xí),Shen 等人提出了流形NMF[8]。

上述多視角聚類算法大多有一個共同的前提假設(shè):所有視角都是完整的。然而在現(xiàn)實場景中,多數(shù)多視角數(shù)據(jù)存在缺失。例如,文本集群中,可以將文檔翻譯成代表多個視角的不同語言。但是,某些文檔可能沒有全部翻譯版本。再例如視頻數(shù)據(jù)中,畫面和聲音各代表一個視角,而有的數(shù)據(jù)只有聲音視角或者畫面視角。在這些情況下,傳統(tǒng)多視角聚類算法將不可用或不再可靠,因此如何充分利用隱藏在不同視圖中的互補知識,減少缺失實例的影響,是不完全多視角學(xué)習(xí)中最具挑戰(zhàn)性的問題。

為了應(yīng)對不完整多視角帶來的挑戰(zhàn),近年來,一些不完整多視角算法被提出:Trivedi 等人提出了一種基于核相關(guān)性分析的不完整視角核矩陣補全的方法[9],然而該方法需要至少一個視角的數(shù)據(jù)是完整的。Gao等人基于譜圖理論和核對齊原理提出了IVC(incomplete multi-view clustering)[10],但是,該方法不能處理缺失率較大的情況。Li等人通過使用NMF 和L1正則化提出了處理兩個視角不完整數(shù)據(jù)的聚類算法(partial view clustering,PVC)[11]。Zhao 等在PVC的基礎(chǔ)上,融合PVC 和流型學(xué)習(xí)提出IMG(incomplete multi-modal grouping)[12]。Hu 等人在PVC 的基礎(chǔ)上引入半非負矩陣分解(semi-nonnegative matrix factorization,semi-NMF),提出了DAIMC(doubly aligned incomplete multi-view clustering)[13]。Shao 等人使用加權(quán)非負矩陣分解技術(shù)和L2,1正則化項提出了MIC(multi-view incomplete clustering)[14]。為了減少運算時間,Shao 等人又提出了在線不完整多視角聚類算法[15]。在PVC 的基礎(chǔ)上,Wen 等人通過將最近鄰圖應(yīng)用到矩陣分解的重構(gòu)誤差上提出了IMC_GRMF(incomplete multi-view clustering via graph regularized matrix factorization)[16]。此外,Wen 等人通過對所有視角的共性表示和相似圖進行聯(lián)合學(xué)習(xí)提出了IMSC_AGL(incomplete multi-view spectral clustering with adaptive graph learning)[17]。Wang 等人通過建立光譜攝動理論與不完整多視角聚類之間的聯(lián)系,利用光譜聚類的關(guān)鍵特征,將特征值缺失轉(zhuǎn)化為相似值缺失,提出了PIC(perturbation-oriented incomplete multi-view clustering)[18]。雖然目前上述這些方法顯示出一定有效性,但仍存在一些問題:(1)上述這些不完整多視角算法大都是在歐式空間求解共性矩陣,然后利用共性矩陣進行聚類得到最終結(jié)果,然而多數(shù)多視角數(shù)據(jù)在原始特征空間并不線性可分,因此不能找到具有較好代表性的共性矩陣,并且在缺失樣本的情況下找到具有較好代表性的共性矩陣難度大大增加。(2)不同視角提供可鑒別的信息量有所不同,因此在學(xué)習(xí)優(yōu)化過程中平等對待每個視角是不合理的。(3)數(shù)據(jù)的局部幾何結(jié)構(gòu)沒有得到很好的挖掘,不能保證得到的共性矩陣的緊湊性和代表性。因此,不完整的多視角聚類仍面臨重大挑戰(zhàn)。

針對上述問題,本文提出基于核誘導(dǎo)的不完整多視角聚類算法(kernel-induced incomplete multi-view clustering,KIMV)。首先,有別于傳統(tǒng)方法在歐式空間中求解共性視角,本文將在核希爾伯特空間中求解更具表示性的共性矩陣。通過核方法的非線性映射,使得原始線性不可分離的輸入映射到新的特征空間中可能會變成可分離的輸入[19-20],即原始線性不可分的數(shù)據(jù)可以映射進入一個更高維度的空間,它表現(xiàn)出線性模式,可以更容易地表示和提取特征[19-20]。因此當(dāng)數(shù)據(jù)投影到核空間后將能提供更多的可鑒別信息,更具描述性。其次,考慮到不同視角提供給模型信息量的差異,而且合理的視角間權(quán)重有利于提高聚類的準(zhǔn)確性和魯棒性,因此本文引入香農(nóng)熵視角加權(quán)機制,通過自適應(yīng)學(xué)習(xí)視角權(quán)重的方式,KIMV能夠獲得最優(yōu)的視角權(quán)重劃分。最后,本文引入圖拉普拉斯正則化不僅保持了抗噪性,同時保留局部原始空間內(nèi)在幾何特征,提高了算法的魯棒性[21]。

本文主要貢獻可歸納如下:

(1)與現(xiàn)有方法不同,本文在利用非負矩陣分解技術(shù)提取共性矩陣以降低缺失樣本影響的同時,引入核方法和核技巧,使求得的共性矩陣更具代表性;

(2)將香農(nóng)熵自適應(yīng)視角加權(quán)機引入不完整多視角聚類算法,自適應(yīng)地調(diào)整視角間的權(quán)重,使KIMV獲得最優(yōu)的視角權(quán)重劃分,從而提高算法的魯棒性;

(3)為保證多視角的局部一致性,本文引入了圖拉普拉斯正則化,保留了原始空間中的內(nèi)在幾何結(jié)構(gòu),進一步提高了KIMV 的魯棒性;

(4)在多個真實多視角數(shù)據(jù)集上驗證了本文方法的有效性,并分析了該方法相對于其他相關(guān)方法所具有的優(yōu)勢。

1 相關(guān)工作

1.1 核方法和核技巧

本節(jié)簡要地介紹核方法和核技巧。核方法已成功地應(yīng)用于輸入輸出關(guān)系不是線性的,類間數(shù)據(jù)不能被線性邊界劃分(即線性不可分)的各種學(xué)習(xí)任務(wù)中[21-23]。對于線性不可分的數(shù)據(jù),核方法的目標(biāo)是將其映射到更高的維度,在更高的維度上它們可以顯示為線性可分的狀態(tài),然后在新的特征表示空間中使用線性模型。令?(x)表示一個樣本從原始空間Rn到高維核空間Rp(p?n)的非線性映射,并且其在核空間的內(nèi)積可由一個核矩陣表示:

核方法依賴于核函數(shù)將原始空間中的數(shù)據(jù)投影到高維核誘導(dǎo)的特征空間中。常見的核函數(shù)包括線性核函數(shù)、二次核函數(shù)、多項式核函數(shù)和高斯核函數(shù)。考慮到不同核函數(shù)的通用性,本文選擇高斯核函數(shù)作為核函數(shù),其可表示如下:

其中,σ表示高斯核的帶寬。

1.2 不完整多視角聚類

假設(shè)給定一個數(shù)據(jù)集{Xv,v=1,2,…,V},包括N個樣本,C個類別,V個視角,其中X∈RN×dv表示第v個視角的數(shù)據(jù)。給不完整聚類問題定義一個標(biāo)識如下:

其中,Mv=[mv,1,mv,2,…,mv,n]T的每一行都是對應(yīng)視角的樣本表示。大多數(shù)多視角聚類算法假設(shè)所有視角都是完整的,每個視角包含所有樣本,即v=1,2,…,V。然而在多數(shù)真實場景中,某些樣本可能只出現(xiàn)在某些視角中,這可能導(dǎo)致某些視角不完整。如果第v個視角的數(shù)據(jù)Xv將有一定數(shù)量的行數(shù)缺失,那么不完整多視角聚類算法的目標(biāo)就是通過集成所有的不完整視角,將所有N個實例劃分到C個簇或類中。

為解決不完整多視角聚類問題,目前已提出不少有效方法,Li 等人利用NMF 學(xué)習(xí)對齊空間的共性矩陣和非對齊空間的私有共性矩陣提出了PVC[11],但是該方法只能處理兩個視角的不完整數(shù)據(jù),并且僅使用L1正則化進行約束,忽視了數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。Zhao 等人將流型正則化融入PVC,提出了IMG[12],該方法利用數(shù)據(jù)內(nèi)在結(jié)構(gòu)提高了聚類效果。為解決已有方法只能處理兩個視角的不足,Shao 等人使用加權(quán)非負矩陣分解技術(shù)和L2,1正則化項提出了MIC[14]。已有方法都需要較多正則化來約束,因此不能自適應(yīng)不同實際數(shù)據(jù)集,為解決該問題,Wen 等人在PVC的基礎(chǔ)上通過將最近鄰圖應(yīng)用到矩陣分解的重構(gòu)誤差上提出了IMC_GRMF[16]。然而目前現(xiàn)有方法大都是在歐式空間中求解共性矩陣[11-16,24],最后對共性矩陣聚類得到最終聚類結(jié)果。雖然目前方法已顯示出一定有效性,但還存在改進的空間,例如多數(shù)數(shù)據(jù)集在原始特征空間中并不能線性可分,因此找到的共性矩陣不具有較強的代表性,從而導(dǎo)致最終的聚類效果較差。

2 基于核誘導(dǎo)的不完整視角聚類

本章將詳細闡述基于核誘導(dǎo)的不完整視角聚類算法。核技巧將被引入非負矩陣分解,并使用圖拉普拉斯正規(guī)化約束共性矩陣。考慮到不同視角對于聚類的貢獻不一致,進一步還引入香農(nóng)熵自適應(yīng)視角加權(quán)機制。具體細節(jié)描述如下。

2.1 目標(biāo)函數(shù)

對于一組不完整多視角數(shù)據(jù){Xv∈RN×Dv,v=1,2,…,V}進行聚類,現(xiàn)有的方法通過對缺失樣本進行填充,然后利用非負矩陣分解技術(shù)在歐式空間中找到所有視角的潛在的共性矩陣,并最終對最優(yōu)共性矩陣進行聚類[11-17]。通過引入非負矩陣分解技術(shù),本文的初始目標(biāo)函數(shù)可構(gòu)造為:

其中,Uv∈RN×c是第v個視角的基礎(chǔ)矩陣。H∈RN×c是所有視角的潛在共性矩陣,N是樣本個數(shù),c為子空間的維度,根據(jù)前人的工作[13-15],c可定義為數(shù)據(jù)集的類別個數(shù)。

然而在存在缺失數(shù)據(jù)情況下,歐式空間中數(shù)據(jù)線性可分性較低或分離并不準(zhǔn)確,因此本文利用核方法將原始數(shù)據(jù)映射到高維空間,使其線性可分,并同時找到更好的共性矩陣,因此式(4)可更新為:

其中,?(Xv)表示第v個視角的數(shù)據(jù)Xv在核空間中的投影數(shù)據(jù)。然而在沒有明確?(Xv)的情況下,無法求得潛在共性矩陣H和基礎(chǔ)矩陣Uv。為解決該問題,前人通過對基礎(chǔ)矩陣施加約束[25-27],使其每個向量都位于?(Xv)的列空間中,即?(xN)WNj,此時Uv可更新為:

其中,Wv中的每一列都滿足和為1 的約束條件。將約束(6)引入式(5)中,式(5)可更新為:

其中,tr{?}為跡運算,K=?(X)T?(X)為核矩陣,I為單位矩陣。

為減少缺失視角帶來噪聲的影響,現(xiàn)有的方法[11,13-14]通過添加L1,L2正則化來提高模型的魯棒性。然而前人的工作[21]表明,保持局部結(jié)構(gòu)不僅能夠提高抗噪能力,還能提高聚類質(zhì)量。傳統(tǒng)L1,L2正則化忽視了每個視角數(shù)據(jù)內(nèi)在幾何結(jié)構(gòu),為彌補此不足,本文進一步引入圖拉普拉斯正則化懲戒項[28],此時式(7)更新為:

其中,β為懲戒參數(shù),Dist(κKv,κH)為圖拉普拉斯懲戒項,本文利用如下方式構(gòu)造:針對核空間中每個視角的數(shù)據(jù)Kv構(gòu)造一個具有N個頂點的最近鄰圖Gv,該最近鄰圖視為視角v的局部流行結(jié)構(gòu)模型。構(gòu)造相似性矩陣Sv,若在特征空間中樣本為樣本的k近鄰點(本文中k設(shè)定為5),則為核函數(shù),否則。構(gòu)造其中為使兩個在核空間中足夠近的點映射到共性矩陣后能夠保持原有拓撲結(jié)構(gòu),本文定義如下函數(shù)[21]:

其中,Lv=Dv-Sv為拉普拉斯矩陣。結(jié)合式(9),式(8)更新為:

在多視角數(shù)據(jù)場景下,不同視角常常具有不同的物理意義和判別能力,特別是在不完整多視角場景下,由于多視角可用樣本的特征維度和數(shù)量不同,不同視角的可用判別信息會有很大的差異。因此引入視角加權(quán)機制來調(diào)整各視角的影響有極大意義。為此,本文引入香農(nóng)熵自適應(yīng)視角加權(quán)機制來自動學(xué)習(xí)各個視角的權(quán)重,以平衡不同視角的重要性[29-30]。此時式(10)更新為:

其中,av表示第v個視角的權(quán)重,λ為香農(nóng)熵的正則化參數(shù),為負香農(nóng)熵正則化項。通過引入負熵技術(shù),使目標(biāo)函數(shù)達到最優(yōu)時負熵盡可能小,負熵極小化會導(dǎo)致各視角權(quán)重趨于一致[31],無法凸顯出各個視角的重要性。同時,式(11)的前兩項,即式(10)極大化則使得視角權(quán)重易于趨向于某一視角,將最具代表性(空間劃分最為明顯)的視角凸顯出來,而該視角將控制最后的聚類結(jié)果。上述兩種情況為極端情況,本文對它們進行了平衡,以獲得更好聚類結(jié)果。本文在各個視角上引入自適應(yīng)熵加權(quán)的概念,該方法能夠有效降低聚類特性較差視角的干擾和一個視角控制輸出的風(fēng)險,從而獲得更為理想的空間劃分結(jié)果,最終增強本文算法的有效性和魯棒性。

2.2 優(yōu)化

為了求解式(11),本文采用經(jīng)典的交叉迭代策略,迭代過程包括三個主要步驟,即對Wv、H、av分別進行迭代更新。

(1)更新Wv

當(dāng)H和av固定為常數(shù)時,需要最小化如下目標(biāo)函數(shù):

通過將式(12)相對于Wv的導(dǎo)數(shù)置于零,并利用KKT(Karush-Kuhn-Tucker)[32]互補條件,由此可得到Wv的更新公式:

(2)更新H

當(dāng)Wv和av固定為常數(shù)時,需要最小化如下目標(biāo)函數(shù):

通過將式(14)相對于H的導(dǎo)數(shù)置于0 并利用KKT 互補條件,由此可得到H的更新公式:

(3)更新av

當(dāng)Wv和H固定為常數(shù)時,需要最小化如下目標(biāo)函數(shù):

通過將式(16)相對于av的導(dǎo)數(shù)置于0,由此可得到av的更新公式:

通過對式(13)、式(15)、式(17)交替迭代優(yōu)化,可以得到目標(biāo)函數(shù)的最優(yōu)解,在最優(yōu)的共性矩陣H基礎(chǔ)上,利用K-means聚類算法得到最終聚類解。

基于上述推導(dǎo)和分析,算法1 給出KIMV 的細節(jié)描述。

2.3 算法描述和分析

本節(jié)將分析KIMV 的計算復(fù)雜度。算法KIMV的復(fù)雜度主要由在更新過程中矩陣乘法的矩陣逆運算決定。在每次迭代更新中,更新av的計算復(fù)雜度為O((N2C)2N2VT),N為樣本數(shù),C為類別數(shù),V為視角數(shù),T為迭代次數(shù)。更新Wv的計算復(fù)雜度為O((N2C)2NCVT)。更新H的計算復(fù)雜度為O((N2C)2(NCN+1)T)。因此,KIMV算法的總計算復(fù)雜度為O((N2C)2(NCN+1)T)。

2.4 與相關(guān)方法的聯(lián)系與區(qū)別

雖然本文提出的KIMV與現(xiàn)有的方法,如PVC[11]、IMG[12]、MIC[14]、IMC_GRMF[16]等一樣都基于非負矩陣分解技術(shù)求解共性矩陣,然后進行聚類操作,但不同的是KIMV 將求解空間映射到核希爾伯特空間中,相比在原始特征空間求解到的共性矩陣更具代表性。并且值得注意的是:(1)之前的方法并沒有注意到不同視角的貢獻程度不一致,而KIMV 利用香農(nóng)熵實現(xiàn)視角的自適應(yīng)加權(quán)獲得了最優(yōu)的視角權(quán)重分配。(2)雖然MIC 和PVC 中使用的L2,1和L2正則化能夠很好地提高模型的抗噪性,但同時忽略了數(shù)據(jù)的內(nèi)部幾何結(jié)構(gòu)。而KIMV 和IMG 利用圖拉普拉斯正則化兼顧這兩點,大大提高了模型的魯棒性。

3 實驗結(jié)果和分析

本章對提出的不完整多視角聚類(KIMV)進行實驗研究。

3.1 數(shù)據(jù)集

本文所用多視角數(shù)據(jù)集均來自UCI 數(shù)據(jù)集庫。表1 給出了數(shù)據(jù)集的統(tǒng)計信息。其中,IRIS 數(shù)據(jù)集本身并非多視角數(shù)據(jù)集,其特征人為地劃分為多視角數(shù)據(jù),下面給出數(shù)據(jù)集的詳細描述。

Table 1 Statistics of datasets表1 數(shù)據(jù)集的統(tǒng)計信息

(1)IRIS 數(shù)據(jù)集:IRIS 數(shù)據(jù)是UCI 數(shù)據(jù)庫中的經(jīng)典數(shù)據(jù)集,本文將其每兩維特征看成一個視角,即,將原來的IRIS 數(shù)據(jù)集拆分成兩個視角樣本集合。

(2)Dermatology 數(shù)據(jù)集:該數(shù)據(jù)集用于判定紅斑鱗狀皮膚病的類型,共有兩個視角,包括組織病理學(xué)視角和臨床視角。

(3)Image Segmentation 數(shù)據(jù)集:采用的圖像分割數(shù)據(jù)集由從7 個室外圖像的數(shù)據(jù)庫中隨機抽取的2 310 個對象組成。該數(shù)據(jù)集包含19 個特征,可以自然地分為兩個視角,形狀視角和RGB 視角。

(4)Multiple Features 數(shù)據(jù)集:UCI 數(shù)據(jù)庫經(jīng)典手寫字數(shù)據(jù)集,總共包含5 個視角,本文選取其中兩個視角,即傅里葉系數(shù)視角和Zernike矩陣視角。

(5)WebKB 數(shù)據(jù)集:WebKB 數(shù)據(jù)集在多視角學(xué)習(xí)的研究中被頻繁使用。該數(shù)據(jù)集收集了4 所大學(xué)的網(wǎng)頁,共1 051 頁。可分為網(wǎng)頁文本視角、網(wǎng)頁超鏈接視角和標(biāo)題文本視角。在本文實驗中選取其中一個大學(xué)的網(wǎng)頁作為數(shù)據(jù)集。

3.2 實驗設(shè)置

在實驗中,KIMV 將和如下的多視角聚類算法進行比較。

(1)MultiNMF[7]:MultiNMF 作為基于非負矩陣分解技術(shù)的傳統(tǒng)多視角聚類算法無法直接處理不完整的多視角數(shù)據(jù),因此在實驗中,先使用平均特征值填充每個不完整視圖中的缺失實例。

(2)PVC[11]:PVC通過學(xué)習(xí)對齊實例的公共子空間和未對齊實例的私有子空間進行不完整多視角聚類。

(3)IMG[12]:IMG 融合了PVC 和流型學(xué)習(xí),通過學(xué)習(xí)完整的圖拉普拉斯正則化項,將不同視角缺失的實例數(shù)據(jù)連接起來。

(4)MIC[14]:MIC 利用加權(quán)非負矩陣分解技術(shù)和L2,1正則化對多個不完整視角進行聚類。

(5)OMVC[15]:在線不完整多視角聚類算法是MIC 的改進版,大大減少了MIC 算法運算的時間和復(fù)雜度。

(6)IMC_GRMF[16]:IMC_GRMF 在矩陣分解的重構(gòu)誤差上加入最近鄰圖,利用數(shù)據(jù)的局部幾何結(jié)構(gòu),使算法能夠?qū)W習(xí)的共性矩陣更有鑒別性。

為了公平起見,在實驗中所有算法的正則化參數(shù)都將設(shè)置在{10-3,10-2,…,103}內(nèi),KIMV 的核寬設(shè)置在lg{0.01,0.05,0.10,0.50,e,e2} 內(nèi)。實驗評判標(biāo)準(zhǔn)本文跟隨文獻[33],選用歸一化互信息(NMI)、準(zhǔn)確度(Acc)和Purity 作為評價指標(biāo)。與文獻[14]相似,對于完整的多視角數(shù)據(jù)集,將隨機移除每個視角一定比例的樣本,移除的比例將從10%到50%依次遞增,并且對于每個數(shù)據(jù)集,所有的方法都是在相同的5 個隨機形成的不完全比例上執(zhí)行,并以它們的平均結(jié)果作為最終結(jié)果進行比較。需要注意的是PVC、IMG 和IMC_GRMF 這3 個算法只針對兩個視角的數(shù)據(jù),因此它們在WebKB 上沒有結(jié)果。

3.3 實驗結(jié)果和分析

本文算法與其他6 個不完整多視角聚類算法在4個數(shù)據(jù)集上的實驗結(jié)果如圖1 所示,表2 列出了4個算法在3個視角數(shù)據(jù)集WebKB上的詳細結(jié)果。

Fig.1 Clustering performance of each algorithm on 4 datasets圖1 各算法在4 個數(shù)據(jù)集上的聚類表現(xiàn)

通過觀察圖1和表2可以得到如下結(jié)論:(1)KIMV在多數(shù)數(shù)據(jù)集上與其他算法相比具有顯著優(yōu)勢,因此本文算法具有較好的性能。(2)MultiNMF 與其他算法相比,性能較差,這表明存在缺失樣本情況下傳統(tǒng)多視角聚類算法不再可靠。(3)KIMV、IMG 和IMC_GRMF 在大多數(shù)情況下表現(xiàn)優(yōu)于PVC,這證明利用圖拉普拉斯正則化保留數(shù)據(jù)內(nèi)在幾何結(jié)構(gòu),有利于提升算法性能。(4)在多數(shù)情況下,特別是當(dāng)缺失視角較多時,KIMV 與其他算法相比,在Acc、NMI和Purity 上都有較大優(yōu)勢,這說明不僅在核空間中求解的共性矩陣能夠提供更多聚類信息,并且考慮不同視角的重要性,能夠大大提升聚類效果。

Table 2 NMI,Acc and Purity of 4 methods on WebKB表2 4 個算法在WebKB 上的NMI、Acc、Purity

3.4 有效性分析

為研究拉普拉斯正則化和自適應(yīng)視角加權(quán)機制是否給模型帶來正面影響,本節(jié)在含有20%缺失數(shù)據(jù)情況下分別移除拉普拉斯正則化項(KIMV1)和自適應(yīng)視角加權(quán)項(KIMV2)進行實驗,表3 給出3 種情況下的NMI結(jié)果。通過觀察表3 可以看出,通過利用自適應(yīng)視角加權(quán)項和拉普拉斯正則化項可以較大提高模型的魯棒性,此外在多數(shù)數(shù)據(jù)集上拉普拉斯正則化的作用要大于自適應(yīng)視角加權(quán)項。

Table 3 NMI of 3 KIMV on 5 datasets表3 3 種KIMV 在5 個數(shù)據(jù)集上的NMI

3.5 參數(shù)分析

參數(shù)β用于控制拉普拉斯正則化項的影響,一個好的懲戒參數(shù)設(shè)置會對模型性能的提升有較大影響。因此為研究參數(shù)β對KIMV 的影響,在本節(jié)實驗中,將另一個作用較小的參數(shù)λ固定,然后利用網(wǎng)格搜索的方法觀察參數(shù)β采取不同值對算法效果的影響。考慮到缺失樣本過少,不具有代表性,而缺失樣本過多時不能體現(xiàn)算法的特點,本文在5 個數(shù)據(jù)集中以含有20%缺失數(shù)據(jù)情況為例進行參數(shù)分析,實驗結(jié)果如圖2 所示。

由圖2 可得出如下結(jié)論:5 個數(shù)據(jù)集對于β的敏感程度較為一致。當(dāng)參數(shù)β較小時算法性能較好,而當(dāng)β逐漸增大,算法性能開始下降。可以看出β在{10-3,10-2,10-1,100}區(qū)間內(nèi)算法取得較好性能。

3.6 收斂性分析

Fig.2 Sensitivity analysis of parameter β on 5 datasets圖2 參數(shù)β 在5 個數(shù)據(jù)集上的敏感度分析

本節(jié)通過實驗證明了所提算法的收斂性,同樣以20%不完整率情況為例。受文章篇幅限制,只給出Dermatology 和Multiple Features 兩個多視角數(shù)據(jù)集上的實驗結(jié)果。圖3 和圖4 分別為Dermatology 和Multiple Features 數(shù)據(jù)集的收斂曲線和性能曲線,其中實線為收斂曲線,虛線為性能曲線。可以看出對于Dermatology 數(shù)據(jù)集,KIMV 迭代到40 次后便收斂,而Multiple Features 數(shù)據(jù)集KIMV 需要迭代60 次后才收斂。可見KIMV 具有良好的收斂性和穩(wěn)定性。

Fig.3 Convergence and performance curve of algorithm on Dermatology圖3 Dermatology 上算法的收斂和性能曲線

Fig.4 Convergence and performance curve of algorithm on Multiple Features圖4 Multiple Features上算法的收斂和性能曲線

4 結(jié)論和展望

本文針對多個視角中存在缺省樣本時傳統(tǒng)多視角聚類算法可靠性大大下降的問題,提出了基于核誘導(dǎo)的不完整多視角聚類算法。該方法利用核方法和非負矩陣分解技術(shù)在核空間中對所有視角學(xué)習(xí)一個共性矩陣,核空間與傳統(tǒng)歐式空間相比能提供更多信息,因此學(xué)習(xí)到的共性矩陣具有更強的表示性,同時樣本加權(quán)機制能夠?qū)⑷笔颖镜呢撁嬗绊懡档阶畹汀A硗獗疚囊雸D拉普拉斯正則化提高模型對噪聲和異常值的魯棒性。最后本文引入視角自適應(yīng)加權(quán)機制獲得了最優(yōu)的視角權(quán)重劃分,進一步提高了模型的聚類效果。未來,將考慮提高模型的可解釋性,比如將模糊函數(shù)引入模型。

猜你喜歡
共性方法
喜歡在墻上畫畫是人類的共性嗎?
共性
雜文月刊(2019年14期)2019-08-03 09:07:20
學(xué)習(xí)方法
“數(shù)控一代”示范工程引領(lǐng)和推動共性使能技術(shù)在中小企業(yè)推廣應(yīng)用
漢英“水”隱喻的共性研究
音樂的共性
雷鋒精神與遼寧精神的共性研究
中國市場(2016年12期)2016-05-17 05:10:24
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 91欧美在线| 日韩精品免费一线在线观看| 国产综合在线观看视频| 激情五月婷婷综合网| www亚洲天堂| www.日韩三级| 五月婷婷综合色| 亚洲天堂网在线播放| 六月婷婷精品视频在线观看| 亚洲小视频网站| 激情六月丁香婷婷四房播| 一本一本大道香蕉久在线播放| 白浆免费视频国产精品视频| 欧美精品v| 精品欧美日韩国产日漫一区不卡| 日韩欧美成人高清在线观看| 97国产一区二区精品久久呦| 美女毛片在线| 国产精品国产三级国产专业不| 毛片最新网址| 亚国产欧美在线人成| 秋霞国产在线| 久久伊人操| 九九免费观看全部免费视频| 在线精品视频成人网| 一级一级特黄女人精品毛片| 国产精品深爱在线| 免费99精品国产自在现线| 久久天天躁夜夜躁狠狠| 日韩AV无码一区| 亚洲无码日韩一区| 日韩精品成人网页视频在线| 熟女日韩精品2区| 国产一级在线观看www色| 亚洲日本韩在线观看| 狠狠五月天中文字幕| 色偷偷一区| 99久久精彩视频| 丝袜亚洲综合| 国产黄视频网站| 日韩黄色在线| 欧类av怡春院| 亚洲国产理论片在线播放| 亚洲精品色AV无码看| 手机在线看片不卡中文字幕| 国产丝袜啪啪| 亚洲va视频| 欧美日韩国产综合视频在线观看| 日韩亚洲高清一区二区| 精品午夜国产福利观看| 午夜无码一区二区三区| 1024你懂的国产精品| 亚洲永久免费网站| 国产视频一区二区在线观看| 国产精品人成在线播放| 男女精品视频| 台湾AV国片精品女同性| 97视频在线精品国自产拍| 免费在线成人网| 在线观看国产黄色| 亚洲一区免费看| 欧美日韩国产在线人成app| 不卡网亚洲无码| 国产精品亚洲片在线va| 在线精品亚洲国产| 亚洲中文字幕23页在线| 天堂va亚洲va欧美va国产 | 国产午夜福利片在线观看| 国产福利一区在线| 欧美中文字幕在线视频| 欧美激情第一区| 久久综合五月婷婷| 国产在线观看精品| 中文字幕 91| 亚洲av片在线免费观看| 国产美女人喷水在线观看| 天堂中文在线资源| 国产在线八区| 视频一本大道香蕉久在线播放| 五月天香蕉视频国产亚| 亚洲高清日韩heyzo| 国产精品青青|