

















摘要:在大數(shù)據(jù)時代,數(shù)據(jù)正呈現(xiàn)出指數(shù)級增長趨勢。數(shù)據(jù)間的類別層次結(jié)構(gòu)使得分類學(xué)習(xí)任務(wù)更有效率。現(xiàn)有的分層分類特征選擇算法未充分體現(xiàn)出類內(nèi)特征的判別性,因此本文提出了一種基于正交約束和最大化類內(nèi)特征判別性的分層分類特征選擇算法(Hierarchical Classification Feature Selection Algorithm Based on Orthogonal Constraintsand Intra-class Maximum Feature Discriminability,HFSOC)。該算法在使用稀疏正則化項去除不相關(guān)特征后,利用改進后的正交約束公式來度量類間獨立性,并將每個內(nèi)部節(jié)點特征矩陣的各個列向量互相正交,以提高類內(nèi)特征的判別性。最后,利用遞歸正則項優(yōu)化輸出特征權(quán)重矩陣。實驗結(jié)果表明,本文所提算法在5 個數(shù)據(jù)集上取得了一定的效果,其分類準(zhǔn)確率在DD數(shù)據(jù)集上相比于HFisher 算法提高約17%,在F194 數(shù)據(jù)集和CLEF數(shù)據(jù)集上相比于基于?2,1 范數(shù)最小化的高效魯棒的特征選擇算法(HFSNM)均提高約10%,在ILSVRC數(shù)據(jù)集上相比于HFSNM算法提高約1%。
關(guān)鍵詞:特征選擇;稀疏學(xué)習(xí);層次樹結(jié)構(gòu);正交約束;遞歸正則化
中圖分類號:TP311 文獻標(biāo)志碼:A 文章編號:0253-2395(2025)01-0144-14
0 引言
在大數(shù)據(jù)時代,數(shù)據(jù)正呈現(xiàn)出指數(shù)級增長趨勢,數(shù)據(jù)樣本急劇增加,數(shù)據(jù)種類也由最初的數(shù)百數(shù)千發(fā)展至數(shù)十萬數(shù)百萬乃至更多[1]。例如,在ImageNet 中圖像數(shù)據(jù)的類別就有上萬個,圖像數(shù)據(jù)樣本更是達到了上千萬之多[2]。在超大規(guī)模的數(shù)據(jù)下,人們面臨的分類學(xué)習(xí)任務(wù)也遇到了新的挑戰(zhàn)[3]。面對這種情況,學(xué)者通常采用分而治之策略在類別間建立層次結(jié)構(gòu)進行分類學(xué)習(xí)。這種具有層次結(jié)構(gòu)的分類任務(wù)被稱為分層分類[4]。此后,許多學(xué)者針對分層分類問題展開了研究。Wang 等[5]認(rèn)為在層次結(jié)構(gòu)分類時每個非葉節(jié)點存在保守風(fēng)險和冒進風(fēng)險,提出了局部Bayes 風(fēng)險最小化的分類模型,即通過在每個非葉節(jié)點比較保守風(fēng)險和冒進風(fēng)險來決定停止或者繼續(xù)向下進行分類。Zhou 等[6]提出了一種深度超類學(xué)習(xí)模型來解決長尾分布式數(shù)據(jù)分類問題,該模型將組稀疏與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,類別之間的視覺相似度越高,它們出現(xiàn)在同一組中的可能性越大,進而提高分類精度。分層分類學(xué)習(xí)已成為一個熱點研究問題[7-12]。
在分類任務(wù)中,特征選擇是一項不可或缺的環(huán)節(jié)[13-14]。研究人員提出了各種分層分類特征選擇算法。Freeman 等[15]提出了一種多類分類模型,該模型一邊構(gòu)建層次樹結(jié)構(gòu),一邊對局部分類器進行特征選擇,二者同時進行。該模型可以為每個分類子任務(wù)選取互相獨立的特征子集。Gri?maudo 等[16]提出了基于層次結(jié)構(gòu)的分類器,在每個非葉節(jié)點設(shè)立分類器,每個分類器相互獨立,利用mRMR 特征選擇算法為每個分類器選擇有代表性的特征。Song 等[17]提出了一種基于信息增益和特征位置信息及其頻率分布的分層分類特征選擇算法。該算法使用類別的語義結(jié)構(gòu)進行特征降維,并且為每個類別選取適當(dāng)且互相獨立的特征子集。上述算法解決了傳統(tǒng)特征選擇中只能選擇統(tǒng)一特征子集的問題,但均未考慮層次結(jié)構(gòu)間的各種關(guān)系。
父子關(guān)系及兄弟關(guān)系是層次結(jié)構(gòu)中常被考慮的類別關(guān)系[3]。Tuo 等[18]為了探索不同類別之間的雙向依賴關(guān)系,提出了基于子樹的圖正則化分層分類特征選擇算法。Zhao 等[19]提出了類別的層次結(jié)構(gòu)與遞歸正則化結(jié)合的特征選擇算法。該算法利用父子節(jié)點之間的相關(guān)性以及兄弟節(jié)點之間的獨立性分別構(gòu)造正則項,進而遞歸地為每個非葉節(jié)點選擇不同的特征子集。Lin 等[20]認(rèn)為層次結(jié)構(gòu)中的內(nèi)部節(jié)點之間存在共有特征和固有特征,進而提出利用損失函數(shù)以及類別相似度矩陣構(gòu)建特征選擇目標(biāo)函數(shù)來學(xué)習(xí)層次結(jié)構(gòu)中不同類別的固有特征和共有特征。但上述這些算法均未考慮類內(nèi)特征之間的關(guān)系。Shi 等[21]提出了基于類間最大獨立性和類內(nèi)最小冗余性的分層分類特征選擇算法,具有地,其利用兄弟關(guān)系正交約束提高類間獨立性,用內(nèi)積項度量類內(nèi)相關(guān)性進而減小類內(nèi)特征冗余性。
運用正交約束理論刻畫特征關(guān)系是一種有效的手段,但我們發(fā)現(xiàn)Shi 等[21]提出的正交約束會導(dǎo)致兄弟節(jié)點之間選取的特征較為一致,影響兄弟節(jié)點之間的獨立性。例如對于特征權(quán)重矩陣為2×2的布爾矩陣,為使得WT j Wi - E 2F取最小,而極端情況下的最小值就是WT j Wi - E 2F = 0,我們通過窮舉法發(fā)現(xiàn),只有 Wi=(1 0)0 1Wj=(1 0)0 1 或者 Wi=(0 1)1 0Wj=(0 1)1 0 這兩種組合情況能滿足最小約束,而這兩種組合情況均說明兄弟節(jié)點之間所選特征一致,故不能較好地反映兄弟節(jié)點之間特征的獨立性。
其次Shi 等[21]通過利用行與行之間的正交關(guān)系考慮類內(nèi)特征冗余性,降低了特征維數(shù),但其忽略了分類的需求。我們?nèi)砸?×2 的布爾矩陣位列,假設(shè)非葉節(jié)點i 的類內(nèi)特征權(quán)重矩陣Wi 為(1 1)1 1 ,從矩陣可以看出兩個特征對兩個類別都重要且重要程度相同,并且二者之間的相關(guān)性強,冗余性大。經(jīng)過內(nèi)積項對特征(即行與行)之間的相關(guān)性進行懲罰之后,非葉節(jié)點i 的特征權(quán)重矩陣Wi被約束為(1 1)0 0 。從該矩陣中我們可以看出特征的冗余性變小。但是所選特征仍然不能進行有效分類,這就是所選類內(nèi)特征判別性小?;谶x擇特征的最終目的是分類,所以類內(nèi)特征選擇時首要考慮篩選后的特征具有最大判別性。
因此本文提出基于正交約束和最大化類內(nèi)特征判別性的分層分類特征選擇算法(HierarchicalClassification Feature Selection Algorithm Based on Orthogonal Constraints and Intra-class Maximum Fea?ture Discriminability, HFSOC)。并做了相關(guān)對比實驗,實驗結(jié)果表明,本文所提出的HFSOC 算法具有一定的有效性。
本文相關(guān)工作如下:第1 節(jié)介紹相關(guān)理論知識;第2 節(jié)介紹基于正交約束和最大化類內(nèi)特征判別性的分層分類特征選擇算法;第3 節(jié)將所提算法與其他算法進行比較,并使用多種評價指標(biāo)對結(jié)果進行分析;第4 節(jié)進行總結(jié)與展望。
1 相關(guān)理論
1.1 類別的層次樹結(jié)構(gòu)
類別的層次結(jié)構(gòu)主要分為兩種類型,樹型和有向無環(huán)圖型[22]。為了便于理解,本論文重點討論樹型層次結(jié)構(gòu)。層次樹結(jié)構(gòu)將類別標(biāo)簽組織成樹狀結(jié)構(gòu),以表示類別之間的一種“ 從屬”關(guān)系[4]。用(Y,?)表示層次結(jié)構(gòu),Y 表示標(biāo)簽集合,“?”表示“從屬”關(guān)系。類別間“從屬”關(guān)系的三種性質(zhì)描述如下:
(1)不可逆性:若i lt; j,則對于?i,j ∈ Y,有j ? i;
(2)反自反性:對?i ∈ Y,有i ? i;
(3)傳遞性:若i ? k 且k ? j,則對?i,j,k ∈ Y,有i lt; j。
1.2 基于稀疏學(xué)習(xí)的特征選擇
在有監(jiān)督的特征學(xué)習(xí)中,由于稀疏學(xué)習(xí)具有良好的可解釋性,所以其常為特征選擇首選的技術(shù)手段[23]。分層特征選擇的目標(biāo)是確保在一定的精度損失下挑選出少數(shù)有代表性的特征,因此將分層特征選擇與稀疏學(xué)習(xí)相結(jié)合可以達到更好的效果[24]。設(shè)X∈Rn×m 是樣本矩陣,其中n 表示樣本數(shù)量,m 表示特征數(shù)量。設(shè)T={0,1,…,N}表示類別層次樹結(jié)構(gòu)的非葉子節(jié)點集,當(dāng)N=0 時表示根節(jié)點。令X0,X1,…,XN 表示每個非葉節(jié)點的樣本矩陣,其中Xi =[ x1i,x2i,…,xnii ] ∈ Rni × m ( 0 ≤ i ≤N,ni ≤ n );Y0,Y1,… ,YN 表示每個非葉節(jié)點對應(yīng)的標(biāo)簽矩陣,其中Yi =[ y1i,y2i,…,ynii ] ∈ Rni × d,并且yji = {0,1}d (1 ≤ j ≤ ni ),d 是非葉節(jié)點中類別數(shù)目的最大值。
基于稀疏學(xué)習(xí)的特征選擇目標(biāo)函數(shù)[25]的一般形式為
min wL (XW,Y ) + λR (W ), (1)
其中L(·)是一個損失項,R(W)是一個稀疏正則項,λgt;0。在常見的損失函數(shù)[26]中,最小二乘損失具有計算簡單、容易實現(xiàn)、最優(yōu)解唯一等優(yōu)點[19],因此本文所提算法的損失函數(shù)使用最小二乘損失進行計算,如公式(2):
L (XW,Y)=|| XW-Y ||2F。(2)
在稀疏學(xué)習(xí)方法中,常見的正則項包括?0 范數(shù)、?1 范數(shù)、?2 范數(shù)、?2,0 范數(shù)和?2,1 范數(shù)等[20]。其中?0 范數(shù)可以實現(xiàn)特征稀疏化,但由于其非凸、不光滑且不連續(xù)的特性,以至于不方便求解;?1 范數(shù)不能進行類的結(jié)構(gòu)稀疏化;?2 范數(shù)不能實現(xiàn)特征稀疏化;?2,0 范數(shù)預(yù)先定義了所選特征的數(shù)量,容易陷入局部最優(yōu);相比之下?2,1 范數(shù)可以實現(xiàn)類的結(jié)構(gòu)稀疏化,并且是凸的,便于優(yōu)化[27]?;诖耍疚牟捎?2,1 范數(shù)作為稀疏學(xué)習(xí)的正則項。因此稀疏正則項可表示為
R (W)=||W ||2,1。(3)
綜上,結(jié)合公式(2)和公式(3)可將基于稀疏學(xué)習(xí)的特征選擇目標(biāo)函數(shù)公式(1)重新表示為
其中Wi 表示非葉節(jié)點i 的權(quán)重矩陣,并且Wi = [w1i,w2i,…,wmi] ∈ Rm × d。
2 算法模型
2.1 基于正交約束的兄弟關(guān)系正則項
類別層次結(jié)構(gòu)中兄弟關(guān)系是節(jié)點間的重要依賴關(guān)系[3]。一般來說,兄弟節(jié)點來自同一個父節(jié)點,相比于來自不同父節(jié)點的類別共享更多的特征,但是每個內(nèi)部節(jié)點都有自己的子樹,在每個內(nèi)部節(jié)點挑選的特征都應(yīng)具備判別子類別的特性。因此兄弟節(jié)點間應(yīng)減少共享特征,增加判別性特征,進而加大類間的獨立性。
正交約束是指在求解優(yōu)化問題時,強制讓變量在某個規(guī)范化的空間中正交。在機器學(xué)習(xí)中,正交約束優(yōu)化方法將權(quán)重矩陣分解為兩個正交矩陣的乘積,這樣做有助于減少模型中的冗余信息,提高模型的泛化能力和穩(wěn)定性。本文將修改Shi 等[21]所提出的結(jié)構(gòu)關(guān)系正則化項,使得經(jīng)過正交約束后兄弟節(jié)點之間的特征更具有獨立性,以及避免出現(xiàn)上述所分析的極端情況。設(shè)Si 為第i 個非葉節(jié)點的兄弟節(jié)點,j ∈ Si 表示第i 個非葉節(jié)點的第j 個兄弟節(jié)點。因此兄弟關(guān)系正則化定義為
基于以上討論,將兄弟關(guān)系正則項加入稀疏學(xué)習(xí)特征選擇公式(4)中,以便提高特征的獨立性。因此目標(biāo)函數(shù)定義為
其中第一項是損失函數(shù),用來度量預(yù)測標(biāo)簽和真實標(biāo)簽之間的誤差程度;第二項是稀疏正則項,用于最小化特征權(quán)重值,增強模型的稀疏性,避免過擬合;第三項是兄弟關(guān)系正則項,用于加大類間的獨立性,α 是懲罰兄弟節(jié)點間依賴度的非負(fù)參數(shù)。
2.2 基于正交約束的類內(nèi)判別正則項
類別層次結(jié)構(gòu)中每個非葉節(jié)點都有自己的子類別,因此在非葉節(jié)點i 的特征子集應(yīng)該具有最大程度判別子類別的作用,即具備最大類內(nèi)特征判別性。已知特征權(quán)重矩陣Wi 的每個列向量wji 對應(yīng)著非葉節(jié)點i 的第j 個子類別的特征的權(quán)重,因此Wi 中列與列之間的相關(guān)性即表示非葉節(jié)點i 的子類別之間的相關(guān)性。相關(guān)性越大,選取的特征之間越相似,對子類別的判別性越弱;相關(guān)性越小,選取的特征之間越獨立,對子類別的判別性越強。受正交約束方法的啟發(fā),將特征權(quán)重矩陣Wi 的每個列向量互相正交,可以懲罰非葉節(jié)點i 上子類別之間的相關(guān)性,進而提高子類別特征之間的獨立性,使得在非葉節(jié)點i 挑選出的特征可以最大化地判別子類別。因此類內(nèi)特征關(guān)系正則化定義為
||WT i Wi - E|| 2F, (7)
其中E 是單位矩陣,減E 是為了忽略各個列向量與自身的正交約束。
綜上討論,我們在稀疏學(xué)習(xí)特征選擇公式(4)中添加類內(nèi)判別正則項來加強類內(nèi)特征的判別性,因此目標(biāo)函數(shù)定義為
算法偽代碼如算法1 HFSOC 所示,非葉節(jié)點的特征權(quán)重矩陣更新計算在第2 行到第12 行,對角矩陣在第3 行到第5 行更新計算,根節(jié)點的特征權(quán)重矩陣W0 在第6 行更新計算,中間節(jié)點的特征權(quán)重矩陣Wi 在第7 行到第9 行更新計算。算法1 的時間復(fù)雜度主要取決于特征權(quán)重矩陣W 的更新時間,每個中間節(jié)點的X Ti Xi 與X Ti Yi 各需要計算一次,時間復(fù)雜度分別為O (m2 ni ),O (mdni );其中m 表示特征數(shù),ni 表示第i 個內(nèi)部節(jié)點的樣本數(shù),d 表示內(nèi)部節(jié)點的最大類別數(shù)。因此,所有中間節(jié)點更新的時間復(fù)雜度為O (m2 n + mdn);根節(jié)點更新的時間復(fù)雜度為O (m3 + m2 d )。假設(shè)總迭代次數(shù)為K,那么HFSOC 算法的總時間復(fù)雜度為O (K (m3 + m2 d ) + m2 n + mdn)。
3 實驗分析
3.1 數(shù)據(jù)集
本實驗使用了5 個數(shù)據(jù)集,所有數(shù)據(jù)集均具有層次結(jié)構(gòu),其中有兩個蛋白質(zhì)數(shù)據(jù)集:DD[28]和F194[29],三個圖像數(shù)據(jù)集:CLEF[30]、VOC(The PASCAL Visual Object Classes dataset)[31]和ILS?VRC[32]。表1 給出了數(shù)據(jù)集的詳細(xì)信息。
3.2 評價指標(biāo)
為了能更準(zhǔn)確地衡量算法,除了傳統(tǒng)的度量精度的方法以外,實驗還引用了以下兩種分層分類特有的評價指標(biāo):
樹誘導(dǎo)誤差(Tree Induced Error,TIE)[33]能夠反映測試樣本在層次結(jié)構(gòu)上的誤差程度,用真實標(biāo)簽節(jié)點和預(yù)測標(biāo)簽節(jié)點在層次結(jié)構(gòu)中的總邊數(shù)表示,即節(jié)點i 的TIE 表示為:
Hierarchical-F1 measure[25]在傳統(tǒng)的F1 measure 的基礎(chǔ)上充分考慮了真實類別和預(yù)測類別的祖先和后代,它代表了算法在準(zhǔn)確率和召回率上的總體分類表現(xiàn)。用準(zhǔn)確率和召回率的調(diào)和平均數(shù)表示,即
準(zhǔn)確率PH 和召回率RH 分別為
其中Yaug 表示真實標(biāo)簽擴展集,Y? aug 表 示 預(yù) 測 標(biāo) 簽 擴 展 集 ,且 有 Yaug=y ∪ Anc ( ) y ,Y? aug =y? ∪ Anc (y? ),Anc (y)和Anc (y? )分別表示真實標(biāo)簽y和預(yù)測標(biāo)簽y? 的祖先節(jié)點集合。
3.3 對比算法
在本實驗中選取的六種對比算法如下所示:
(1)HFisher[10]:Fisher 分?jǐn)?shù)是一種用于多元分類和數(shù)據(jù)降維的有效方法。HFisher 算法是在Fisher 分?jǐn)?shù)的基礎(chǔ)上進行改進后與層次結(jié)構(gòu)結(jié)合的分層分類特征選擇算法。
(2)HFSNM(Efficient and Robust Feature Selection via Joint ?2 ,1-norms Minimization)[11]:基于?2,1范數(shù)最小化的高效魯棒的特征選擇算法,該算法對損失函數(shù)和正則化聯(lián)合使用?2,1 范數(shù)最小化,即對所有數(shù)據(jù)進行?2,1 范數(shù)正則化,選擇具有聯(lián)合稀疏性的特征,實現(xiàn)了魯棒的特征選擇目標(biāo)。
(3)HFSDK(Robust Hierarchical Feature Selection Driven by Data and Knowledge)[12]:基于數(shù)據(jù)和知識驅(qū)動的魯棒的分層分類特征選擇算法,該算法采用自頂向下的方式從粗粒度到細(xì)粒度為每個非葉節(jié)點選擇具有魯棒性和判別性的局部特征子集。
(4)Hier-FS(Hierarchical Feature Selection)[19]:基于層次結(jié)構(gòu)的特征選擇算法,該算法只考慮節(jié)點間的層次結(jié)構(gòu)不考慮層次結(jié)構(gòu)間的依賴關(guān)系。
(5)HiRRfam-FS(Family Relationship Based Hierarchical Feature Selection with Recursive Regulariza?tion)[19]:基于家庭關(guān)系的遞歸正則化層次特征選擇算法,該算法提出父子關(guān)系正則項和兄弟關(guān)系正則項,進而為每個節(jié)點選取不同的特征子集。
(6)HFS-MIMR(Feature Selection via Maximizing Inter-class Independence and Minimizing Intra-Class Redundancy for Hierarchical ClassifiCation)[21]:基于最大化類間獨立性和最小化類內(nèi)冗余性的分層分類特征選擇算法,該算法不僅充分考慮類間結(jié)構(gòu)關(guān)系同時也考慮類內(nèi)特征關(guān)系來進行特征選擇。
3.4 實驗設(shè)置
本實驗采用線性支持向量機作為分類器。實驗參數(shù)λ 設(shè)置為10,參數(shù)α 和β 的設(shè)置:蛋白質(zhì)數(shù)據(jù)集的α 和β 分別是0.1 和1,圖像數(shù)據(jù)集的α 和β 分別是1 和10。據(jù)文獻[10-12,19,21],本實驗所有對比算法均使用其調(diào)整好的參數(shù),為了與對比算法保持一致,本實驗保持分別采用10% 的蛋白質(zhì)數(shù)據(jù)集和20% 的圖像數(shù)據(jù)集的特征。另外,為了保證算法的精度,本實驗采用十折交叉驗證法作為模型評估方法。
實驗環(huán)境:主機環(huán)境為16 GB 內(nèi)存、3.30 GHz 的AMD Ryzen 5 5600H CPU 和Windows 11 系統(tǒng),編程環(huán)境為Matlab 2021a 軟件。
3.5 實驗結(jié)果及分析
3.5.1 性能比較
本節(jié)分別從三個評價指標(biāo)列表分析,表2、表3 和表4 分別給出了7 個算法在各個數(shù)據(jù)集上的準(zhǔn)確率、Hierarchical-F1 measure 和TIE?!啊北硎驹u價指標(biāo)結(jié)果數(shù)值越大越好,“↓”表示評價指標(biāo)結(jié)果數(shù)據(jù)越小越好。表中黑色粗體數(shù)值表示在各個數(shù)據(jù)集上最好的結(jié)果。
從三個表中可以得出,本論文所提算法在大部分?jǐn)?shù)據(jù)集上都能表現(xiàn)出良好效果。例如在DD數(shù)據(jù)集上,本論文所提算法比HFisher 的準(zhǔn)確率高出0.178 4,Hierarchical-F1 measure 高出0.090 9。與其他算法相比,本論文所提算法在VOC 數(shù)據(jù)集上表現(xiàn)略差于HFSDK 和HFS-MIMR,這可能是因為所提算法實驗設(shè)置的參數(shù)不適合VOC 數(shù)據(jù)集,并且VOC 數(shù)據(jù)集中的噪聲數(shù)據(jù)較多,算法具有魯棒性對VOC 數(shù)據(jù)集分類學(xué)習(xí)更有優(yōu)勢。總體來說,實驗結(jié)果證明本論文所提算法在分類任務(wù)的特征選擇方面具有良好的性能,并且能夠在分類過程中帶來更好的預(yù)測效果。
為了評價算法性能,引入統(tǒng)計學(xué)檢驗Friedman 檢驗和Bonferroni-Dunn 后驗檢驗[34]。非參數(shù)檢驗Friedman 檢驗的統(tǒng)計量表示為
其中k 和N 分別是算法和數(shù)據(jù)集的數(shù)量;Ri 表示給定算法在所有數(shù)據(jù)集中的平均排名;FF 服從Fisher 分布,自由度為F(k-1,k-1(N-1))。
利用表3 的Hierarchical-F1 measure 值進行排序,在每個數(shù)據(jù)集上性能最好的算法排名為1,第二好的算法排名為2,以此類推。在相等數(shù)據(jù)值的情況下,分配平均排名。按照以上規(guī)則排好序后計算每個算法在所有數(shù)據(jù)集上的平均排名。原假設(shè)為所有特征選擇算法性能都相同,通過計算得出FF=16.270。對于七個算法和五個數(shù)據(jù)集的臨界值F(7-1,(7-1)×(5-1))=F(6,24),大于α=0.05 時的F 檢驗臨界值2.508,因此拒絕原假設(shè)。即被比較的七種算法并不相同并且算法之間存在顯著差異。
本文采用Bonferroni-Dunn 后驗檢驗來進一步比較算法之間的差異。Bonferroni-Dunn 后驗檢驗的臨界值計算方式為CDα = qα根號下k ( k + 1)/6N 。通過計算,在顯著性水平α = 0.1 時,有qα = 2.394,因此可計算出CD=3.270 8(k=7,N=5)。為了直觀地展示這些差異,使用帶有臨界值的特殊圖形來連接這些算法。圖1 為使用Bonferroni-Dunn 后續(xù)檢驗比較所提算法HFSOC 與其他六種對比算法性能的檢驗結(jié)果。
3.5.2 消融實驗
本節(jié)通過消融實驗驗證算法中兄弟關(guān)系正則化和類內(nèi)特征關(guān)系正則化的有效性,公式(11)各部分可以重新組合表示如下:
(1)Hspar:該公式為公式(11)減去兄弟關(guān)系正則化和特征關(guān)系正則化,僅剩下稀疏學(xué)習(xí)公式,即
圖2 中(a—e)分別展示了在各個數(shù)據(jù)集中HFSOC 算法不同組合的Hierarchical-F1 measure 結(jié)果。從圖中我們可以看出,類間獨立性正則項對F194 數(shù)據(jù)集起到重要作用,而CLEF 數(shù)據(jù)集和VOC 數(shù)據(jù)集對類內(nèi)特征判別性正則項更為敏感。DD 數(shù)據(jù)集在重新組合的三個公式上表現(xiàn)均不佳,ILSVRC 數(shù)據(jù)集的類別獨立性高,易于分類,因此ILSVRC 數(shù)據(jù)集在稀疏學(xué)習(xí)公式上表現(xiàn)與HFSOC 不相上下。總體來說,HFSOC 算法明顯優(yōu)于其他組合。
3.5.3 參數(shù)敏感性分析
本節(jié)進行參數(shù)敏感性分析,在本文所提算法HFSOC 中共有三個參數(shù),分別是λ、α 和β。其中λ控制著稀疏正則項,α 和β 分別控制著兄弟關(guān)系正則項和類內(nèi)特征關(guān)系正則項。我們采用網(wǎng)格搜索法在{0.01,0.1,1,10,100}中調(diào)整三個參數(shù)。實驗通過固定兩個參數(shù)改變一個參數(shù)來得出Hier?archical-F1 measure 的結(jié)果,并根據(jù)此結(jié)果驗證本文所提算法對變化參數(shù)的敏感性。
圖3 給出了各個數(shù)據(jù)集上的參數(shù)敏感性分析結(jié)果,可以得出當(dāng)λ 過小時,特征的稀疏性約束小,選擇的特征較多,影響分類效果;當(dāng)λ 太大時,特征的稀疏性約束較大,選擇的特征較少并且特征重要性降低,無法達到想要的效果。α 和β 與λ 相比較為穩(wěn)定,但當(dāng)α 和β 過小時,兄弟節(jié)點之間選擇的特征和類內(nèi)選擇的特征的獨立性都較小,冗余性較大;當(dāng)α 和β 太大時,無法選出緊湊的特征子集,影響分類效果??傮w而言,在各個數(shù)據(jù)集上進行參數(shù)調(diào)整時,所提算法HFSOC 的分類效果不受太大影響。
3.5.4 收斂性分析
本節(jié)我們重點研究了HFSOC 算法的收斂性,實驗結(jié)果如圖4 所示。本實驗設(shè)置每個數(shù)據(jù)集的最大迭代次數(shù)為10。從圖4 中可以看出,所有數(shù)據(jù)集的圖像都是遞減的,并且都在10 次迭代以內(nèi)收斂。
4 總結(jié)與展望
本文提出了一種基于正交約束和最大化類內(nèi)特征判別性的分層分類特征選擇算法。本文使用稀疏正則化項去除不相關(guān)特征,同時考慮類間特征獨立性和類內(nèi)特征判別性,利用遞歸正則化優(yōu)化輸出特征權(quán)重矩陣。通過7 種算法在5 個數(shù)據(jù)集上的對比實驗顯示,本文所提出的HFSOC 算法能夠做出良好表現(xiàn)。在本文的基礎(chǔ)上,后續(xù)將在類內(nèi)同時聯(lián)合構(gòu)造最小化冗余性和最大化判別性的正則項,并考慮去除噪聲數(shù)據(jù),設(shè)計魯棒性特征選擇算法。在所提算法中,手動調(diào)整參數(shù)較為耗時,后續(xù)將建立自適應(yīng)調(diào)參模型選擇最優(yōu)參數(shù)。并且在損失函數(shù)和優(yōu)化方法上進行改進,使該模型能適用于有向無環(huán)圖結(jié)構(gòu)。
參考文獻:
[1] BENGIO S, WESTON J, GRANGIER D. Label EmbeddingTrees for Large Multi-class Tasks[J]. Adv Neural InfProcess Syst, 2010, 23: 163-171. DOI: US20120082371A1.
[2] DENG J, DONG W, SOCHER R, et al. ImageNet: aLarge-scale Hierarchical Image Database[C]//2009 IEEEConference on Computer Vision and Pattern Recognition.New York: IEEE, 2009: 248-255. DOI: 10.1109/CVPR.2009.5206848.
[3] 胡清華, 王煜, 周玉燦, 等. 大規(guī)模分類任務(wù)的分層學(xué)習(xí)方法綜述[J]. 中國科學(xué)(信息科學(xué)), 2018, 48(5): 487-500. DOI: 10.1360/N112017-00246.
HU Q H, WANG Y, ZHOU Y C, et al. Review on HierarchicalLearning Methods for Large-scale ClassicationTask[J]. Sci Sin Inform, 2018, 48(5): 487-500. DOI:10.1360/N112017-00246.
[4] SILLA C N, FREITAS A A. A Survey of HierarchicalClassification across Different Application Domains[J].Data Min Knowl Discov, 2011, 22(1): 31-72. DOI:10.1007/s10618-010-0175-9.
[5] WANG Y, HU Q H, ZHOU Y C, et al. Local Bayes RiskMinimization Based Stopping Strategy for HierarchicalClassification[C]//2017 IEEE International Conferenceon Data Mining (ICDM). New York: IEEE, 2017: 515-524. DOI: 10.1109/ICDM.2017.61.
[6] ZHOU Y C, HU Q H, WANG Y. Deep Super-class Learningfor Long-tail Distributed Image Classification[J]. PatternRecognit, 2018, 80: 118-128. DOI: 10.1016/j. patcog.2018.03.003.
[7] LIN Y J, LIU H Y, ZHAO H, et al. Hierarchical FeatureSelection Based on Label Distribution Learning[J]. IEEETrans Knowl Data Eng, 2023, 35(6): 5964-5976. DOI:10.1109/TKDE.2022.3177246.
[8] WANG Y, HU Q H, ZHU P F, et al. Deep Fuzzy Tree forLarge-scale Hierarchical Visual Classification[J]. IEEETrans Fuzzy Syst, 2020, 28(7): 1395-1406. DOI: 10.1109/TFUZZ.2019.2936801.
[9] WANG Y, WANG Z, HU Q H, et al. Hierarchical SemanticRisk Minimization for Large-scale Classification[J].IEEE Trans Cybern, 2022, 52(9): 9546-9558. DOI:10.1109/TCYB.2021.3059631. [PubMed]
[10] DUDA R O, HART P E. Pattern Classification[M].Hoboken: John Wiley amp; Sons, 2006. DOI: 10.1007/978-1-4471-0409-4_3.
[11] NIE F P, HUANG H, CAI X, et al. Efficient and RobustFeature Selection via Joint ?2,1-Norms Minimization[C]//Proceedings of the 23rd International Conference onNeural Information Processing Systems. Vancouver:Curran Associates Inc. 2010: 1813-1821. DOI: 10.1007/978-3-319-10690-8_12.
[12] LIU X X, ZHOU Y C, ZHAO H. Robust HierarchicalFeature Selection Driven by Data and Knowledge[J]. InfSci, 2021, 551: 341-357. DOI: 10.1016/j.ins.2020.11.003.
[13] 張子寧, 單甘霖, 段修生, 等. 基于改進遺傳算法的支持向量機特征選擇[J]. 電子產(chǎn)品世界, 2010, 17 (Z1):45-47+51. DOI: 10.3969/j.issn.1005-5517.2010.1.008.
ZHANG Z N, SHAN G L, DUAN X S. Feature Selectionfor SVM Based on Improved Genetic Algorithm. [J].Electron Eng Prod World, 2010, 17 (Z1): 45-47+51. DOI:10.3969/j.issn.1005-5517.2010.1.008.
[14] PENG H C, LONG F H, DING C. Feature SelectionBased on Mutual Information Criteria of Maxdependency,Max-relevance, and Min-redundancy[J].IEEE Trans Pattern Anal Mach Intell, 2005, 27(8):1226-1238. DOI: 10.1109/TPAMI.2005.159.
[15] FREEMAN C, KULI? D, BASIR O. Joint Feature Selectionand Hierarchical Classifier Design[C]//2011IEEE International Conference on Systems, Man, andCybernetics. New York: IEEE, 2011: 1728-1734. DOI:10.1109/ICSMC.2011.6083921.
[16] GRIMAUDO L, MELLIA M, BARALIS E. HierarchicalLearning for Fine Grained Internet Traffic Classification[C]//2012 8th International Wireless Communicationsand Mobile Computing Conference (IWCMC).New York: IEEE, 2012: 463-468. DOI: 10.1109/IWCMC.2012.6314248.
[17] SONG J, ZHANG P Z, QIN S J, et al. A Method of theFeature Selection in Hierarchical Text Classification Basedon the Category Discrimination and Position Information[C]//2015 International Conference on IndustrialInformatics-Computing Technology, Intelligent Technology,Industrial Information Integration. New York:IEEE, 2015: 132-135. DOI: 10.1109/ICIICII.2015.116.
[18] TUO Q J, ZHAO H, HU Q H. Hierarchical Feature Selectionwith Subtree Based Graph Regularization[J].Knowl Based Syst, 2019, 163: 996-1008. DOI: 10.1016/j.knosys.2018.10.023.
[19] ZHAO H, HU Q H, ZHU P F, et al. A RecursiveRegularization Based Feature Selection Framework forHierarchical Classification[J]. IEEE Trans Knowl DataEng, 2021, 33(7): 2833-2846. DOI: 10.1109/TKDE.2019.2960251.
[20] 林耀進, 白盛興, 趙紅, 等. 基于標(biāo)簽關(guān)聯(lián)性的分層分類共有與固有特征選擇[J]. 軟件學(xué)報, 2022, 33(7):2667-2682. DOI: 10.13328/j.cnki.jos.006335.
LIN Y J, BAI S X, ZHAO H, et al. Label-correlationbasedCommon and Specific Feature Selection for HierarchicalClassification[J]. J Softw, 2022, 33(7): 2667-2682. DOI: 10.13328/j.cnki.jos.006335.
[21] SHI J, LI Z Y, ZHAO H. Feature Selection via MaximizingInter-class Independence and Minimizing IntraclassRedundancy for Hierarchical Classification[J]. InfSci, 2023, 626: 1-18. DOI: 10.1016/j.ins.2023.01.048.
[22] WU F H, ZHANG J, HONAVAR V. Learning ClassifiersUsing Hierarchically Structured Class Taxonomies[M]//ZUCKER J D, SAITTA L, eds. Lecture Notes inComputer Science. Berlin, Heidelberg: Springer BerlinHeidelberg, 2005: 313-320. DOI: 10.1007/11527862_24.
[23] LI J D, CHENG K W, WANG S H, et al. Feature Selection[J]. ACM Comput Surv, 2018, 50(6): 1-45. DOI:10.1145/3136625.
[24] 劉浩陽, 林耀進, 劉景華, 等. 由粗到細(xì)的分層特征選擇[J]. 電子學(xué)報, 2022, 50(11): 2778-2789. DOI:10.12263/DZXB.20211263.
LIU H Y, LIN Y J, LIU J H, et al. Hierarchical FeatureSelection from Coarse to Fine[J]. Acta Electron Sin, 2022,50(11): 2778-2789. DOI: 10.12263/DZXB.20211263.
[25] LI X P, WANG Y D, RUIZ R. A Survey on SparseLearning Models for Feature Selection[J]. IEEE TransCybern, 2022, 52(3): 1642-1660. DOI: 10.1109/TCYB.2020.2982445.
[26] 史春雨, 毛煜, 劉浩陽, 等. 基于樣本相關(guān)性的層次特征選擇算法[J]. 山東大學(xué)學(xué)報(理學(xué)版), 2024, 59(3):61-70. DOI: 10.6040/j.issn.1671-9352.7.2023.1073.
SHI C Y, MAO Y, LIU H Y, et al. Hierarchical FeatureSelection Algorithm Based on Instance Correlations[J].J Shandong Univ Nat Sci, 2024, 59(3): 61-70. DOI:10.6040/j.issn.1671-9352.7.2023.1073.
[27] ARGYRIOU A, EVGENIOU T, PONTIL M. ConvexMulti-task Feature Learning[J]. Mach Learn, 2008: 41-48. DOI: 10.1007/s10994-007-5040-8.
[28] DING C H Q, DUBCHAK I. Multi-class Protein FoldRecognition Using Support Vector Machines and NeuralNetworks[J]. Bioinformatics, 2001, 17(4): 349-358.DOI: 10.1093/bioinformatics/17.4.349.
[29] LI D P, JU Y, ZOU Q. Protein Folds Prediction with HierarchicalStructured SVM[J]. Curr Proteom, 2016, 13(2):79-85. DOI: 10.2174/157016461302160514000940.
[30] DIMITROVSKI I, KOCEV D, LOSKOVSKA S, et al.Hierarchical Annotation of Medical Images[J]. PatternRecognit, 2011, 44(10/11): 2436-2449. DOI: 10.1016/j.patcog.2011.03.026.
[31] EVERINGHAM M, VAN GOOL L, WILLIAMS C K I,et al. The Pascal Visual Object Classes (VOC) Challenge[J]. Int J Comput Vis, 2010, 88(2): 303-338. DOI:10.1007/s11263-009-0275-4.
[32] JIA D, KRAUSE J, BERG A C, et al. Hedging yourBets: Optimizing Accuracy-specificity Trade-offs inLarge Scale Visual Recognition[C]//2012 IEEE Conferenceon Computer Vision and Pattern Recognition.New York: IEEE, 2012: 3450-3457. DOI: 10.1109/CVPR.2012.6248086.
[33] DEKEL O, KESHET J, SINGER Y. Large Margin HierarchicalClassification[C]//Twenty-first internationalconference on Machine learning-ICML '04. New York:ACM, 2004. DOI: 10.1145/1015330.1015374.
[34] DEMSAR J. Statistical Comparisons of Classifiers overMultiple Data Sets[J]. J Mach Learn Res, 2006, 7: 1-30.
基金項目:國家自然科學(xué)基金(12171388;61976244;12101478;12171294);陜西省自然科學(xué)基礎(chǔ)研究計劃項目(2023JCYB027);浙江海洋大學(xué)海洋大數(shù)據(jù)挖掘與應(yīng)用重點實驗室(OBDMA202101);陜西數(shù)理基礎(chǔ)科學(xué)研究項目(23JSZ008);研究生創(chuàng)新項目(YCX2413143)