古楠楠
(首都經(jīng)濟(jì)貿(mào)易大學(xué) 統(tǒng)計學(xué)院,北京 100070)
在計算機(jī)視覺、醫(yī)學(xué)數(shù)據(jù)處理、多媒體信息處理等領(lǐng)域通常面臨很多高維數(shù)據(jù),傳統(tǒng)數(shù)據(jù)分析處理方法往往會遭遇維數(shù)災(zāi)難。降維是數(shù)據(jù)建模與數(shù)據(jù)挖掘的基本問題,根本任務(wù)是將樣本從高維表示空間通過線性或非線性方法投影到低維本質(zhì)特征空間,從而得到原高維數(shù)據(jù)的本質(zhì)低維表示[1-3]。降維有利于節(jié)省數(shù)據(jù)的存儲空間,在降低后續(xù)數(shù)據(jù)分析的時間代價的同時提升數(shù)據(jù)分析性能。從是否使用數(shù)據(jù)類別標(biāo)簽的角度可將降維方法分為無監(jiān)督降維[4-6]、有監(jiān)督降維[7-9]以及半監(jiān)督降維[10-12]3 類。半監(jiān)督降維同時利用少量有標(biāo)簽數(shù)據(jù)與大量無標(biāo)簽數(shù)據(jù)中蘊含的信息進(jìn)行降維,在保持?jǐn)?shù)據(jù)本質(zhì)結(jié)構(gòu)的同時提高所獲低維表示的可分性與判別性。
基于圖的半監(jiān)督降維方法是一類重要且有效的半監(jiān)督降維方法[10-12],已經(jīng)獲得了成功應(yīng)用,但仍有一些尚未解決的問題,例如標(biāo)簽噪聲問題。數(shù)據(jù)標(biāo)記通常是一項乏味且主觀的任務(wù),費時費力,有時還需要專業(yè)知識背景,有些復(fù)雜數(shù)據(jù)還可能會因為具有較大的類內(nèi)類間變化而增加標(biāo)記難度,這些情況都會導(dǎo)致出現(xiàn)部分?jǐn)?shù)據(jù)標(biāo)記錯誤。事實上,標(biāo)簽噪聲問題在實際應(yīng)用中非常普遍,例如對于ImageNet等大規(guī)模圖像數(shù)據(jù)集可能需要眾包工人手工標(biāo)注,由于知識受限或工作乏味,眾包員工無法完全準(zhǔn)確地注釋特定任務(wù),由此帶來標(biāo)簽噪聲[13]。當(dāng)前已有一些針對噪聲標(biāo)簽的研究[14],但在半監(jiān)督降維領(lǐng)域,很少有專門針對具有標(biāo)簽噪聲的數(shù)據(jù)進(jìn)行處理的研究。當(dāng)面對部分錯誤標(biāo)記的訓(xùn)練數(shù)據(jù)時,半監(jiān)督降維算法的性能可能會受到較大的影響,從而導(dǎo)致錯誤的模型預(yù)測或決策。
自步學(xué)習(xí)(Self-Paced Learning,SPL)[15]模仿人類由簡單到復(fù)雜的學(xué)習(xí)方式,最開始利用簡單樣本訓(xùn)練模型以獲取簡單可靠的知識,然后反復(fù)地更新樣本的簡單度,以一種自步的方式逐漸將越來越多的從簡單到復(fù)雜的樣本納入訓(xùn)練來學(xué)習(xí)更復(fù)雜與更專業(yè)的知識,實現(xiàn)對復(fù)雜事物的認(rèn)知。自步學(xué)習(xí)能深層挖掘數(shù)據(jù)本質(zhì)結(jié)構(gòu)信息,對非凸優(yōu)化問題可以避免局部最小值,提升算法性能,且對帶噪聲或奇異點的數(shù)據(jù)具有良好的魯棒性[16]。
本文將自步學(xué)習(xí)機(jī)制融入用于降維的流形正則化框架[17-18],提出一個新的對標(biāo)簽噪聲魯棒的自步半監(jiān)督降維(Self-Paced Semi-Supervised Dimensionality Reduction,SPSSDR)框架。在該框架下,設(shè)計SPSSDR 算法,基于交替優(yōu)化策略,在更新降維映射函數(shù)和計算樣本重要度兩個步驟之間進(jìn)行迭代。在計算降維映射函數(shù)時,基于流形正則化框架,考慮低維有標(biāo)簽數(shù)據(jù)的加權(quán)類內(nèi)分散程度、降維映射的函數(shù)復(fù)雜度以及降維映射關(guān)于數(shù)據(jù)稀疏結(jié)構(gòu)的光滑度。在計算樣本重要度時,基于自步學(xué)習(xí)機(jī)制,計算有標(biāo)簽數(shù)據(jù)的低維表示與其所在類的錨點之間的距離,根據(jù)該距離進(jìn)行樣本重要度賦值。
基于圖的半監(jiān)督降維方法通常先根據(jù)訓(xùn)練樣本間的某種相似性度量建立一個或多個數(shù)據(jù)結(jié)構(gòu)圖,再在有標(biāo)簽數(shù)據(jù)的監(jiān)督信息與結(jié)構(gòu)圖中隱藏的數(shù)據(jù)分布信息的協(xié)同指導(dǎo)下,獲得數(shù)據(jù)的低維表示或高維空間到低維空間的特征映射。
SONG 等[19]提出半監(jiān)督線性判別分析(Semi-Supervised Linear Discriminant Analysis,SSLDA)方法與半監(jiān)督最大間距準(zhǔn)則(Semi-Supervised Maximum Margin Criterion,SSMMC),它們在低維特征空間中最大化類間散度且最小化類內(nèi)散度,同時保持?jǐn)?shù)據(jù)結(jié)構(gòu)圖中隱藏的本質(zhì)流形結(jié)構(gòu)信息,以此獲得降維映射函數(shù)。NIE 等[10]提出靈活的流形嵌入(Flexible Manifold Embedding,F(xiàn)ME)方法,可以同時求出訓(xùn)練數(shù)據(jù)的預(yù)測標(biāo)簽、將數(shù)據(jù)映射到標(biāo)簽的線性回歸函數(shù)以及兩者之間的回歸殘差。NIE 等[11]提出基于圖優(yōu)化的半監(jiān)督映射(Semisupervised Projection with Graph Optimization,SPGO)方法,該方法依據(jù)給定的高維數(shù)據(jù)的鄰接矩陣、低維數(shù)據(jù)間的關(guān)系以及類別標(biāo)簽關(guān)于圖拉普拉斯的光滑性,同時獲得數(shù)據(jù)結(jié)構(gòu)圖與降維映射。WANG 等[12]針對半監(jiān)督降維問題,提出一種基于結(jié)構(gòu)圖學(xué)習(xí)的標(biāo)簽傳播(Label Propagation with Structured Graph Learning,LPSGL)方法,該方法同時執(zhí)行標(biāo)簽傳播、半監(jiān)督結(jié)構(gòu)圖學(xué)習(xí)與降維,對有標(biāo)簽樣本賦予不同的重要度來區(qū)分它們在降維映射學(xué)習(xí)中的不同影響。
受人類和動物學(xué)習(xí)原理的啟發(fā),KUMAR 等[15]提出自步學(xué)習(xí)。自步學(xué)習(xí)引入自步參數(shù)(相當(dāng)于人類的學(xué)習(xí)年齡)來控制學(xué)習(xí)的步調(diào),從簡單樣本開始,不斷增大自步參數(shù)(即增大學(xué)習(xí)年齡),使越來越多的從簡單到復(fù)雜的樣本被自動納入模型進(jìn)行訓(xùn)練,從而得到越來越成熟的模型。MENG 等[16]將SPL 問題歸納為如下的優(yōu)化問題:
其 中:f:RD→R 是二分 類問題 的判別函數(shù);L(zi,f(xi))為度量訓(xùn)練數(shù)據(jù)xi(i=1,2,???,m)的真實標(biāo)簽zi和預(yù)測標(biāo)簽之間差異的損失函數(shù);vi為反映訓(xùn)練數(shù)據(jù)xi重要度的權(quán)重;g(vi,λ)為決定學(xué)習(xí)機(jī)制的自步函數(shù);λ是控制模型學(xué)習(xí)步調(diào)的自步參數(shù)。
目前,研究者們[20-22]已經(jīng)提出了一系列自步學(xué)習(xí)方法,且已將自步學(xué)習(xí)成功應(yīng)用于人臉[23]、臨床疾病[24]、動作[25]等識別任務(wù),自步學(xué)習(xí)機(jī)制對于實際應(yīng)用中的復(fù)雜數(shù)據(jù)具有優(yōu)越的處理能力,且對于有噪聲或奇異點的數(shù)據(jù)具有良好的魯棒性。
對于半監(jiān)督降維問題,設(shè)訓(xùn)練數(shù)據(jù)集為{(xi,zi),xm+u,i=1,2,???,m,u=1,2,???,n-m},m為有標(biāo)簽數(shù)據(jù)的個數(shù),n為樣本總數(shù),xi?RD(i=1,2,???,n)為高維訓(xùn) 練數(shù)據(jù),D為高維 數(shù)據(jù)的維數(shù),X=[x1,x2,???,xm,???,xn]?RD×n為高維的訓(xùn)練數(shù)據(jù)矩陣,zi?{1,2,…,C}為xi的類別標(biāo)簽,C為數(shù)據(jù)的類別總數(shù)。設(shè)d為低維空間的維數(shù),yi?Rd(i=1,2,…,n)為xi的低維表示,Y=[y1,y2,???,ym,???,yn]?Rd×n為低維的數(shù)據(jù)矩陣。設(shè)高維空間到低維空間的降維映射函數(shù)為f=[f1,f2,…,fd]T:RD→Rd,則yi=f(xi)。向 量ai=[ai1,ai2,???,ain]T?Rn的L2 范數(shù)定義為為簡便起見,將L2 范數(shù)用‖ ? ‖表示,向量ai?Rn的L1 范數(shù)定義為向量ai?Rn的L0 范數(shù)定義為ai的非零元素的個數(shù)。
針對標(biāo)簽噪聲魯棒的自步半監(jiān)督降維框架表示如下:
其中:優(yōu)化變量f=[f1,f2,…,fd]T:RD→Rd為高維空間到低維空間的降維映射函數(shù);優(yōu)化變量v=[v1,v2,…,vm]?Rm是反映有標(biāo)簽數(shù)據(jù)重要度的權(quán)重向量;γK和γI是兩個正則化參數(shù)。
目標(biāo)函數(shù)的第1 項為有標(biāo)簽數(shù)據(jù)的加權(quán)擬合損失項,度量了先驗的指導(dǎo)信息yzi與通過降維映射所得的低維表示f(xi)之間的差異。L(?,?)是損失函數(shù),如平方損失、Hinge 損失等。yj(j=1,2,…,C)為第j類數(shù)據(jù)的錨點,是利用某種方法預(yù)先得到并指派給第j類數(shù)據(jù)的先驗低維表示指導(dǎo)信息。例如可以利用某種降維方法對數(shù)據(jù)進(jìn)行預(yù)降維,計算每類低維數(shù)據(jù)的均值,將其作為該類的錨點。對于第j類有標(biāo)簽數(shù)據(jù),使其低維表示集中在錨點yj附近。通過該方式,使降維后的同類數(shù)據(jù)盡可能靠近,異類數(shù)據(jù)盡可能分散,從而保留豐富的判別信息,使投影后的低維數(shù)據(jù)具有較大的可分性。
目標(biāo)函數(shù)的第2 項為復(fù)雜度正則化項,度量了降維函數(shù)f在周圍空間中的函數(shù)復(fù)雜度[17-18]。例如:若限制f屬于某個再生核希爾伯特空間HK,則可以將‖f‖K定義為f在HK中的范數(shù);若f是線性映射函數(shù),即f(x)=WTx,則可以將‖f‖K定義為系數(shù)矩陣W的Frobenius 范數(shù)或L1 范數(shù)。
目標(biāo)函數(shù)的第3 項為結(jié)構(gòu)化信息正則化項,度量了降維函數(shù)f保持?jǐn)?shù)據(jù)的結(jié)構(gòu)化信息的能力。對訓(xùn)練數(shù)據(jù)構(gòu)造結(jié)構(gòu)化數(shù)據(jù)圖,首先刻畫數(shù)據(jù)間的結(jié)構(gòu)化關(guān)系,例如可以構(gòu)造刻畫數(shù)據(jù)局部結(jié)構(gòu)信息的K-近鄰圖,或者構(gòu)造刻畫數(shù)據(jù)全局結(jié)構(gòu)信息的稀疏圖[26]、低秩圖[27]等,然后可以度量f在數(shù)據(jù)圖上的光滑度,以此刻畫f保持?jǐn)?shù)據(jù)的結(jié)構(gòu)化信息的能力。
目標(biāo)函數(shù)的第4 項為自步學(xué)習(xí)正則化項,g(vi,λ)為決定學(xué)習(xí)機(jī)制的自步函數(shù),λ是控制模型學(xué)習(xí)步調(diào)的自步參數(shù)。自步函數(shù)決定了模型學(xué)習(xí)新樣本的模式,MENG 等[16]給出了自步函數(shù)的具體定義,研究者們也提出了不同的自步函數(shù),如硬自步函數(shù)、軟自步函數(shù)、混合自步函數(shù)等[15-16]。不同的學(xué)習(xí)場景與學(xué)習(xí)任務(wù)需要使用不同的自步學(xué)習(xí)機(jī)制,從而需要不同的自步函數(shù)。
在優(yōu)化問題式(2)的約束項中的Ψi代表對有標(biāo)簽樣本xi預(yù)先設(shè)定的課程,可以被視為一種先驗知識。它是對有標(biāo)簽訓(xùn)練樣本的權(quán)重的約束,模型在該約束下,反復(fù)調(diào)整有標(biāo)簽樣本的權(quán)重,逐步從簡單樣本學(xué)習(xí)到復(fù)雜樣本,得到一個成熟的模型。課程設(shè)計可以與先驗、自步函數(shù)及特定任務(wù)相關(guān),不同的樣本也可以具有不同的課程。
在所提的降維框架下,提出一種針對標(biāo)簽噪聲魯棒的自步半監(jiān)督降維算法。
對于優(yōu)化問題式(2)的目標(biāo)函數(shù)的第1 項,即損失項,選用平方損失來度量數(shù)據(jù)的低維表示與其所在類的錨點之間的距離,如式(3)所示:
對于C類數(shù)據(jù)的錨點,利用局部保持投影(Locally Preserving Projections,LPP)[28]方法給 定。LPP 是一種經(jīng)典的無監(jiān)督線性降維方法,主要思想是將高維空間中鄰近的點映射為低維空間中鄰近的點。對于訓(xùn)練數(shù)據(jù){x1,x2,…,xn},利用LPP 進(jìn)行降維,得到低維表示然后對于每一類的錨點yj(j=1,2,…,C),將其設(shè)置為該類中的有標(biāo)簽數(shù)據(jù)的低維表示的均值,如式(4)所示:
其中:mj為屬于第j類的有標(biāo)簽數(shù)據(jù)的個數(shù)。
對于優(yōu)化問題式(2)的目標(biāo)函數(shù)的第2 項,即復(fù)雜度正則化項,將‖f‖K定義為f在再生核希爾伯特空間HK中的范數(shù)。由于給定一個半正定的核函數(shù)K(?,?),會生成一個對應(yīng)的再生核希爾伯特空間HK,因此假設(shè)fs?HK(s=1,2,…,d),則函數(shù)f=[f1,f2,…,fd]T在HK中的范數(shù)的平方如式(5)所示,可以度量f在再生核希爾伯特空間中的復(fù)雜度。
對于優(yōu)化問題式(2)的目標(biāo)函數(shù)的第3 項,即結(jié)構(gòu)化信息正則化項,利用f在結(jié)構(gòu)化稀疏圖上的光滑度來定義。數(shù)據(jù)xi的稀疏表示是指將xi用一個過完備字典中的一小部分元素的線性組合來表示。特別地,將訓(xùn)練數(shù)據(jù)作為字典,則xi的稀疏表示可通過如下的魯棒L1 范數(shù)最小化問題來求解:
其 中:ai=[ai1,ai2,???,ai,i-1,0,ai,i+1,???,ain]T?Rn為xi的稀疏表示系數(shù)向量;ei為考慮噪聲或奇異點所設(shè)置的誤差項。
然后構(gòu)建結(jié)構(gòu)化稀疏圖[26],圖的頂點集為訓(xùn)練數(shù)據(jù)集{x1,x2,???,xm,???,xn},由xj指向xi的邊的權(quán)重為aij。已有理 論[29]證 明:xi的稀疏 表示系 數(shù)ai中 的非零元素自動對應(yīng)xi同類的點,因此數(shù)據(jù)的稀疏圖具有較強(qiáng)的判別性,有利于數(shù)據(jù)分類。為了使低維數(shù)據(jù)也具有同樣的稀疏表示關(guān)系,可以將定義為f在稀疏圖上的光滑度,以此來度量f保持?jǐn)?shù)據(jù)稀疏表示結(jié)構(gòu)的能力,如式(7)所示:
對于優(yōu)化問題式(2)的目標(biāo)函數(shù)的第4 項,即自步正則化項,將自步函數(shù)定義為硬自步函數(shù)[如式(8)所示],并將優(yōu)化問題式(2)的約束項中的課程定義為Ψ[i如式(9)所示]。
在這樣的設(shè)置下,所得的有標(biāo)簽數(shù)據(jù)的重要度為0 或1。當(dāng)數(shù)據(jù)的類別標(biāo)簽錯誤時,自步學(xué)習(xí)機(jī)制會將數(shù)據(jù)的重要度賦值為0,這樣就能消除錯誤類別標(biāo)簽造成的影響。當(dāng)數(shù)據(jù)的類別標(biāo)簽正確時,自步學(xué)習(xí)機(jī)制會將數(shù)據(jù)的重要度賦值為1,此時能夠充分利用數(shù)據(jù)類別標(biāo)簽中蘊含的判別信息,提升所得低維表示的判別性,有利于數(shù)據(jù)分類。
綜上所述,在降維框架下,本文所提的針對標(biāo)簽噪聲魯棒的自步半監(jiān)督降維算法可以表示如下:
對于自步半監(jiān)督降維問題式(10),利用交替優(yōu)化策略(Alternative Optimization Strategy,AOS)[15,30]進(jìn)行求解。該方法將優(yōu)化變量劃分為k個互不相交的塊,然后在迭代過程中交替優(yōu)化每一個塊中的變量。對于式(10),將變量分為兩個互不相交的塊:降維映射f與樣本重要度v,并對它們進(jìn)行交替求解。具體求解過程如下:
1)固定樣本重要度v,優(yōu)化降維映射f。此時式(10)轉(zhuǎn)化為式(11):
定理1問題式(11)的最優(yōu)解具有如下形式:
其中:bi=[b1i,b2i,???,bdi]T?Rd。
證明定理1 證明與文獻(xiàn)[18]中定理2 的證明類似,因此不再詳述。
設(shè)K=(K(xi,xj))?Rn×n為核矩 陣,B=[b1,b2,…,bn]?Rd×n為核函 數(shù)的系 數(shù)矩陣,A=[a1,a2,???,an]T=(aij) ?Rn×n為稀疏表示系數(shù)矩陣,tr(?)為矩陣的跡,V?Rn×n為第i(i=1,2,???,m)個對角元素是vi、其余元素是0 的對角矩陣,I為n階單位矩陣,YAnchor=為訓(xùn)練數(shù)據(jù)對應(yīng)的類錨點矩陣。在式(12)的最優(yōu)解表示形式下,問題式(11)可轉(zhuǎn)化為關(guān)于矩陣B的優(yōu)化問題:
令目標(biāo)函數(shù)對B的偏導(dǎo)等于0,可得:
2)固定降維映射f,優(yōu)化樣本重要度v。此時式(10)轉(zhuǎn)化為式(16):
該問題對于vi(i=1,2,???,m)是可分離的,因此考慮如下的子優(yōu)化問題:
推導(dǎo)得出該問題的最優(yōu)解:
從式(18)可以看出,若有標(biāo)簽樣本xi的低維表示與其對應(yīng)類錨點之間的距離平方大于等于當(dāng)前的年齡參數(shù)λ,意味著樣本的類別標(biāo)簽可能是錯誤的或者樣本是復(fù)雜難以學(xué)習(xí)的,則令其重要度。在下次迭代求降維映射f時:式(10)的目標(biāo)函數(shù)的第1 項中的系數(shù),意味著不考慮xi的類別標(biāo)簽zi;式(10)的目標(biāo)函數(shù)的第3 項不受影響,意味著仍然考慮樣本xi所刻畫的數(shù)據(jù)結(jié)構(gòu)信息。通過該方式,樣本的錯誤標(biāo)簽會被過濾,只考慮正確的類別標(biāo)簽所提供的判別信息,同時無論具有正確標(biāo)簽還是錯誤標(biāo)簽的樣本,都考慮其所刻畫的數(shù)據(jù)稀疏結(jié)構(gòu)信息。因此,所提算法對標(biāo)簽噪聲具有較好的魯棒性。
算法1針對標(biāo)簽噪聲魯棒的自步半監(jiān)督降維算法
算法1 展示了本文所提的對標(biāo)簽噪聲魯棒的自步半監(jiān)督降維算法。在該算法中,第1 和2 行是利用LPP 算法計算類錨點;第3 行是重要度的初始化;第4~8 行是利用交替優(yōu)化策略求解自步半監(jiān)督降維問題式(10),即對降維映射f與樣本重要度v,每次固定一個,優(yōu)化另一個。按照該優(yōu)化策略,自步半監(jiān)督降維問題式(10)的目標(biāo)函數(shù)單調(diào)遞減且具有下界,因此算法是收斂的。在算法最開始,自步參數(shù)λ被設(shè)定為一個很小的值,只考慮極少量的具有高可信度的樣本類別標(biāo)簽。隨著迭代次數(shù)的增加,λ逐漸增大,根據(jù)模型所學(xué)習(xí)到的信息,考慮越來越多具有判別性的可靠樣本,而非可能具有誤導(dǎo)性的模糊樣本。通過該自步方式訓(xùn)練一個越來越成熟的模型,最終得到一個對噪聲標(biāo)簽具有良好魯棒性且具有較好判別性能的降維映射函數(shù)。
在公開的標(biāo)準(zhǔn)數(shù)據(jù)集上測試所提算法的性能,并與一些主流算法進(jìn)行比較。實驗采用的編程軟件為MATLAB 2021b,操作系統(tǒng)為Windows 11,CPU為AMD Ryzen 7 5800H。
在半監(jiān)督降維常用的5 個數(shù)據(jù)集上進(jìn)行實驗:
1)YaleB 人臉數(shù)據(jù)集。該數(shù)據(jù)集中共有2 114 張圖像,是38 個人分別在不同的光照條件下拍攝的臉部正面圖像。每張圖像都被處理為32×32 像素的灰度圖并轉(zhuǎn)換為1 024 維的向量。
2)CBCL 人臉數(shù)據(jù)集。使用的數(shù)據(jù)集中包含人臉圖像和非人臉圖像各1 000 張。每張圖像都被處理為19×19 像素的灰度圖并轉(zhuǎn)換為361 維的向量。
3)ORL 人臉數(shù)據(jù)集。該數(shù)據(jù)集包含400 張人臉圖像,是40 個人在不同的時間,通過改變光照方向、面部表情與面部細(xì)節(jié)拍攝的。每張圖像都被處理為32×32 像素的灰度圖并轉(zhuǎn)換為1 024 維的向量。
4)USPS 手寫數(shù)字?jǐn)?shù)據(jù)集。該數(shù)據(jù)集包括了手寫數(shù)字0 到9 的圖像,每類有1 100 張分辨率為16×16 像素的圖像并被轉(zhuǎn)換為256 維的向量。在實驗中,對于每個數(shù)字,隨機(jī)選取了10%的圖像進(jìn)行實驗。
5)CANE-9 文本數(shù)據(jù)集。該數(shù)據(jù)集來源于UCI數(shù)據(jù)集,包含屬于9 個類別的共1 080 份文檔,來源于一個名為“國家經(jīng)濟(jì)活動分類”表中的9 類巴西公司的自由文本業(yè)務(wù)描述。每個文檔都被表示為一個856 維的向量,其分量表示關(guān)鍵詞的權(quán)重,即該詞在文檔中出現(xiàn)的頻率。
對比算法共計10 種,包括本文所提的自步半監(jiān)督降維算法、Baseline、LPP[28]、線性判別分析(Linear Discriminant Analysis,LDA)、SSLDA[19]、SSMMC[19]、FME[10]、SPGO_KNN[11]、SPGO_sparse[11]、LPSGL[12],其中,Baseline 是指不進(jìn)行降維而直接使用原始數(shù)據(jù)的算法,LPP 是無監(jiān)督降維算法,LDA 是有監(jiān)督降維算法,其他算法均為半監(jiān)督降維算法。SPGO_KNN與SPGO_sparse 分別代表使用K-近鄰圖與稀疏圖方法構(gòu)造數(shù)據(jù)圖,然后在此圖上采用SPGO 進(jìn)行半監(jiān)督降維。與所提算法類似,LPSGL 也考慮了數(shù)據(jù)的重要度,但是從預(yù)先給定的候選集中選擇樣本的重要度。
對 于SSLDA、SSMMC、FME、SPGO_KNN 與SPGO_sparse 算法的 正則化參數(shù),從{10-9,10-6,10-3,100,103,106,109}中進(jìn)行選擇。對于LPSGL算法,按照文獻(xiàn)[12]所采取的策略,從{10-6,10-5,10-4,…,100,…,104,105,106} 中選擇參數(shù)α與λ,從{100,101,102,103,104}中選擇樣本的重要度值v。對于所提算法,采取文獻(xiàn)[18]所采取的策略,令并從{10-3,10-2,10-1,100}中選擇CCK與CCI。對于基于K-近鄰圖的算法,按照文獻(xiàn)[11-12]采取的策略,將鄰域尺寸取為10,并利用高斯核來計算邊的權(quán)重。
實驗步驟具體如下:首先,利用PCA 對數(shù)據(jù)進(jìn)行預(yù)處理,保持98%的數(shù)據(jù)信息;之后,隨機(jī)選取占比為p的樣本,賦予其錯誤的類別標(biāo)簽,即從其他C-1 個類中隨機(jī)選擇一個類別標(biāo)簽賦予該樣本,利用五倍交叉驗證來選擇各算法的最優(yōu)參數(shù)以及降維維數(shù);隨后,隨機(jī)選擇80%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),剩下的作為測試數(shù)據(jù),在訓(xùn)練數(shù)據(jù)中隨機(jī)選取30%的數(shù)據(jù)作為有標(biāo)簽數(shù)據(jù),剩下的數(shù)據(jù)作為無標(biāo)簽數(shù)據(jù),在訓(xùn)練數(shù)據(jù)上構(gòu)造模型并利用所得的降維映射,獲取無標(biāo)簽訓(xùn)練數(shù)據(jù)及測試數(shù)據(jù)的低維表示;最后,利用最近鄰分類器來度量各算法的判別性能,即在低維空間中利用有標(biāo)簽訓(xùn)練數(shù)據(jù)構(gòu)造分類器,再分別在無標(biāo)簽訓(xùn)練數(shù)據(jù)及測試數(shù)據(jù)上進(jìn)行最近鄰分類。
對于每個實驗數(shù)據(jù)集,將其隨機(jī)進(jìn)行20 次劃分,得到不同的標(biāo)簽訓(xùn)練數(shù)據(jù)、無標(biāo)簽訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù),然后在每次劃分上進(jìn)行降維與分類。
3.2.1 分類結(jié)果
首先,計算各數(shù)據(jù)集在20 次隨機(jī)劃分上的平均分類準(zhǔn)確率與標(biāo)準(zhǔn)差。所得結(jié)果如表1~表5 所示,其中,U 表示無標(biāo)簽訓(xùn)練數(shù)據(jù)上的分類結(jié)果,T 表示測試數(shù)據(jù)上的分類結(jié)果,每行的最優(yōu)分類結(jié)果用粗體表示,次優(yōu)結(jié)果用下劃線表示(下同)。由表1~表5 可以看出,從平均分類準(zhǔn)確率來看,所提算法具有最好的表現(xiàn),尤其是對于有噪聲標(biāo)簽的數(shù)據(jù),在表1~表5 共計50 種情況中,只有在6 種情況下所提算法并非最優(yōu)。

表1 YaleB 數(shù)據(jù)集上的分類準(zhǔn)確率與標(biāo)準(zhǔn)差Table 1 Classification accuracy and standard deviation on the YaleB dataset %

表4 USPS 數(shù)據(jù)集上的分類準(zhǔn)確率與標(biāo)準(zhǔn)差Table 4 Classification accuracy and standard deviation on the USPS dataset %

表5 CANE-9 數(shù)據(jù)集上的分類準(zhǔn)確率與標(biāo)準(zhǔn)差Table 5 Classification accuracy and standard deviation on the CANE-9 dataset %
其次,計算各數(shù)據(jù)集在20 次隨機(jī)劃分上的平均Macro-F1 值,實驗結(jié)果如表6~表10 所示。具體而言,分別計算無標(biāo)簽訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)中每個類別的分類準(zhǔn)確率與召回率,由此得到每個類別的F1 值,然后計算所有類別的F1 值的算術(shù)平均值,即為Macro-F1 值。由表6~表10 可以看出,從Macro-F1 值來看,所提算法具有最好的表現(xiàn),在表6~表10 共計50 種情況中,只有在4 種情況下所提算法并非最優(yōu),具體為CANE-9 訓(xùn)練與測試數(shù)據(jù)下噪聲標(biāo)簽所占比率為0% 和10%,且在這4 種情況中,所提算法在3 種情況下為次優(yōu)。

表6 YaleB 數(shù)據(jù)集上的Macro-F1 值Table 6 Macro-F1 values on the YaleB dataset

表7 CBCL 數(shù)據(jù)集上的Macro-F1 值Table 7 Macro-F1 values on the CBCL dataset

表8 ORL 數(shù)據(jù)集上的Macro-F1 值Table 8 Macro-F1 values on the ORL dataset

表9 USPS 數(shù)據(jù)集上的Macro-F1 值Table 9 Macro-F1 values on the USPS dataset

表10 CANE-9 數(shù)據(jù)集上的Macro-F1 值Table 10 Macro-F1 values on the CANE-9 dataset
從平均分類準(zhǔn)確率與Macro-F1 值的結(jié)果可以看出,所提算法對標(biāo)簽噪聲具有較好的魯棒性。例如:對于CANE-9 數(shù)據(jù)集,當(dāng)p較小時所提算法并非最優(yōu),隨著p的增大,優(yōu)勢逐漸明顯,成為最優(yōu)算法;對于CBCL 數(shù)據(jù)集,在原始數(shù)據(jù)(p=0%)上所提算法比次優(yōu)算法的分類準(zhǔn)確率高0.4 個百分點(U)與0.5 個百分點(T),Macro-F1 值高0.004 5(U 和T);對于p=40%的噪聲數(shù)據(jù),所提算法比次優(yōu)算法的分類準(zhǔn)確率高2.8 個百分點(U)與3.2 個百分點(T),Macro-F1值高0.027 0(U)與0.031 6(T),與原始數(shù)據(jù)集相比提升幅度更大。
3.2.2 統(tǒng)計檢驗
在3.2.1 節(jié)中,從平均分類準(zhǔn)確率與Macro-F1 值的角度驗證了所提算法的有效性。為了進(jìn)一步驗證該有效性的統(tǒng)計顯著性,將所提算法與其他算法的準(zhǔn)確率進(jìn)行成對T-檢驗。所得結(jié)果如表11~表15 所示,其中的數(shù)值表示該算法與所提算法的成對T-檢驗的P 值。由表11~表15 可以看出,在絕大多數(shù)情況下,T-檢驗的P 值小于0.01,說明從統(tǒng)計學(xué)意義來看,所提算法是具有顯著優(yōu)勢的。

表11 YaleB 數(shù)據(jù)集上的T 檢驗的P 值Table 11 P-values of T-test on the YaleB dataset

表12 CBCL 數(shù)據(jù)集上的T 檢驗的P 值Table 12 P-values of T-test on the CBCL dataset

表13 ORL 數(shù)據(jù)集上的T 檢驗的P 值Table 13 P-values of T-test on the ORL dataset

表14 USPS 數(shù)據(jù)集上的T 檢驗的P 值Table 14 P-values of T-test on the USPS dataset

表15 CANE-9 數(shù)據(jù)集上的T 檢驗的P 值Table 15 P-values of T-test on the CANE-9 dataset
3.2.3 參數(shù)敏感性分析
在本節(jié)中,對正則化參數(shù)CCK、CCI進(jìn)行敏感性分析。以CBCL 與USPS 數(shù)據(jù)集為例,噪聲標(biāo)簽所占比率p設(shè)置為20%,然后改變CCK、CCI的取值,分別計算20 次隨機(jī)劃分的無標(biāo)簽訓(xùn)練數(shù)據(jù)及測試數(shù)據(jù)上的平均分類準(zhǔn)確率,實驗結(jié)果如圖1 所示。由圖1 可以看出,當(dāng)正則化參數(shù)CCK、CCI在較大范圍內(nèi)變化時,所提算法都具有較好的效果。

圖1 在正則化參數(shù)的不同取值下所提算法的分類準(zhǔn)確率Fig.1 Classification accuracy of the proposed algorithm under different values of regularization parameters
本文基于自步學(xué)習(xí)機(jī)制提出一個針對標(biāo)簽噪聲魯棒的自步半監(jiān)督降維框架,并在此框架下設(shè)計自步半監(jiān)督降維算法。該算法利用自步學(xué)習(xí)機(jī)制,自適應(yīng)計算有標(biāo)簽樣本的重要度且不斷地進(jìn)行更新,在此基礎(chǔ)上逐步學(xué)習(xí)從簡單到復(fù)雜的樣本,因此對于噪聲具有較好的魯棒性,且可以獲得具有非線性表達(dá)式的降維映射函數(shù)。然而,在所提算法中利用LPP 方法給定數(shù)據(jù)的類錨點,若類錨點設(shè)置錯誤則會影響后續(xù)的數(shù)據(jù)降維。另外,所提算法基于稀疏表示構(gòu)建數(shù)據(jù)圖,該數(shù)據(jù)圖傾向于刻畫數(shù)據(jù)的全局結(jié)構(gòu)信息,而忽視了局部信息。下一步將構(gòu)建更合理有效的數(shù)據(jù)類錨點以及能夠更精確刻畫數(shù)據(jù)結(jié)構(gòu)信息且更具判別性的數(shù)據(jù)圖。