999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合流形學習與邏輯回歸的多標簽特征選擇

2022-03-12 05:55:52馬盈倉朱恒東
計算機工程 2022年3期
關鍵詞:模型

張 要,馬盈倉,朱恒東,李 恒,陳 程

(西安工程大學 理學院,西安 710600)

0 概述

特征選擇作為處理高維數據分類的主要方法,在算法學習過程中不僅能夠減少訓練時間,而且能避免維度災難與過擬合等問題[1-3],同時是近年來機器學習領域的研究熱點之一。與單標簽數據一樣,多標簽數據存在多個特征[4],在分類問題中同樣面臨維度災難問題,但與傳統單標簽特征選擇不同,多標簽特征選擇不僅要考慮樣本與標簽間的關系,而且要考慮標簽與標簽間的關系。現有多標簽特征選擇方法大致可分為過濾式、封裝式、嵌入式[5]等3 類,其中嵌入式方法是將特征選擇過程嵌入學習過程中,綜合了過濾式與封裝式的優勢。

由于多標簽分類數據的連續性與標簽的離散性,因此一些學者認為多標簽數據中,數據與標簽的關系可以用logistic 回歸模型來學習,并通過不同正則項的約束來改進算法的性能,從而進行多標簽特征選擇。文獻[6]提出一種用于多標簽圖像分類的相關logistic 回歸模型(CorrLog),將傳統的logistic回歸模型擴展到多標簽情況。文獻[7]提出混合整數優化logistic 回歸的特征子集選擇算法,給出一個混合整數線性優化問題,使用標準的整數優化軟件求解,并對logistic 回歸的損失函數進行分段線性逼近。文獻[8]提出一種基于Lq(0

近年來,流形學習快速發展,并逐漸滲透到人們生活以及工業生產等各個領域。為了能夠學習到數據特征的基層流形結構,文獻[9-10]提出流形學習方法,發現在特征選擇的過程中,特征流形結構能夠促使特征選擇學習到更優的回歸系數矩陣。文獻[11]提出一個圖形學習框架來保持數據的局部和全局結構,該方法利用樣本的自表達性來捕獲全局結構,使用自適應鄰域方法來保持局部結構。文獻[12]提出一種新的魯棒圖學習方法,該方法通過自適應地去除原始數據中的噪聲和錯誤,從真實的噪聲數據中學習出可靠的圖。文獻[13]通過數據的自表示性質構建相似矩陣,并運用流形結構和稀疏正則項來約束相似矩陣,從而構建無監督特征選擇模型。文獻[14]通過將其定義的代價距離代入現有的特征選擇模型中,并使用流形結構約束得到一個新的代價敏感特征選擇方法。文獻[15]使用logistic回歸模型,并利用標簽流形結構與L1-范數約束回歸系數矩陣,構造半監督多標簽特征選擇模型。可見,流形學習不一定作為正則項來約束回歸系數,標簽流形學習也是一種學習數據與標簽間關系的方法。為找出數據與標簽間的關系,準確去除不相關的特征和冗余特征,本文融合logistic 回歸模型學習到的系數矩陣和標簽流形模型學習到的權重矩陣,基于L2,1-范數提出一種高效的柔性結合標簽流形結構與logistic 回歸模型的多標簽特征選擇算法(FSML)。

1 模型建立

1.1 logistic 回歸模型

樣本xi不屬于第j類的后驗概率如下:

其中:wj是系數矩陣W∈Rd×m的第j列向量。

使用極大似然估計法對系數矩陣進行估計,則logistic 回歸關于多標簽數據集的似然函數(聯合概率分布)如下:

由于求解式(3)較為困難,因此可以將式(3)轉化為利用求解logistic 回歸的負對數似然函數式(4)的極小值來求解W。

又因為logistic 回歸模型可能會出現過擬合、多重共線性、無限解等不適定問題,所以導致系數矩陣估計不正確[16]。為了解決這一問題,一種廣泛使用的策略是在式(4)中引入稀疏懲罰項,因此帶有懲罰項的logistic 回歸模型的表達式如下:

其中:β是懲罰因子;R(*)是懲罰函數,表示對*的相應約束懲罰。

1.2 流形學習

近年來,流形學習被廣泛應用于協同聚類[17]、特征選擇、維數約簡[18]等任務中。在特征選擇算法中,流形學習通常是被用作正則項來約束回歸系數矩陣,以便回歸系數矩陣擬合數據特征的基層流形結構,但流形學習在特征選擇算法中的使用方式并不局限于此。

在本文研究中,將使用流形學習來擬合數據特征的權重矩陣,為學習得到更好的特征權重矩陣并更有效地利用標簽信息,進行如下假設:

1)通過學習數據間的相似矩陣Z來探究數據基層結構。例如,標簽相似矩陣Z可以通過核函數學習,如式(6)所示:

其中:Zij是Z的第i行、第j列的元素,表示yi和yj之間的相似度。

2)通過學習得到標簽F。因為F需要擬合原始標簽Y的基層結構,所以

3)理論上認為:F=XU,其中U∈Rd×m是數據特征的權重矩陣。

根據以上假設構建標簽流形學習模型,其表達式如下:

同樣地,引入相應的懲罰項,以便在學習過程中約束特征權重矩陣,使其能夠很好地擬合標簽的基層流形結構。因此,標簽流形學習模型也可寫成以下形式:

1.3 柔性嵌入

通過式(5)和式(8)可以看出,針對特征選擇中的懲罰函數R(*),具有如下要求:

1)懲罰函數R(*)能夠約束稀疏矩陣W和權重矩陣U的稀疏性。

2)懲罰函數R(*)能夠根據特性結合稀疏矩陣W和權重矩陣U,且能使兩者相互促進,相輔相成。

3)在一般情況下,在特征選擇的過程中要能夠清晰地區分特征的好壞,通常要求能夠代表特征的矩陣要行內穩定、行間稀疏。因此,懲罰函數R(*)也要有這種約束性。

選取L2,1-范數作為懲罰函數,即R(*)=‖ * ‖2,1,不僅可以滿足要求1和要求3,而且對奇異值比較敏感[19]。

根據要求2,考慮到稀疏矩陣W和權重矩陣U較為相似,且都能用于進行特征選擇,初步認為*=W-U,但*=W-U表示兩者幾乎完全相同,而實際上兩者還是有一定的差別,僅基于不同的模型,W與U就會出現差別。引入偏置矩陣1dbT∈Rn×m來使模型變得更為合理,其中,1d∈Rd為使元素全為1 的列向量,b∈Rm為偏置向量。進一步認為*=W+1dbTU,因此R(*)=‖W+1dbT-U‖2,1。

綜上,本文設計柔性結合標簽流形結構與logistic 回歸模型的多標簽特征選擇算法FSML,其目標優化問題可以改寫如下:

其中:α為標簽流形參數。

2 問題求解

2.1 問題優化

針對L2,1-范數的求解,根據文獻[20],當(W+1dbTU)i≠0時,其中i=1,2,…,d。‖W+1dbT-U‖2,1對W或對U的求導也可以看作Tr((W+1dbT-U)TH(W+1dbTU))對W或對U的求導,其中H∈Rd×d是對角矩陣,H的第i個對角元素如下:

因此,可以利用上述優化問題來求出式(9)的近似解,從而將目標函數轉變如下:

對于該問題,可給定一個H,將W、U與當前的H進行計算,然后根據當前計算出的W、U對H進行更新。

2.2 給定H、W 的U 求解

根據式(11),當固定H和W時,關于U和b的目標函數可改寫如下:

2.3 給定H、U 的W 求解

根據式(11),當固定H和U時,關于W的目標函數可改寫如下:

由于式(17)是可微的,因此可以通過Newton-Raphson 算法進行求解,式(17)對W的一階導如下:

W更新公式如下:

通過以上問題的優化與求解,柔性結合標簽流形結構與logistic 回歸模型的多標簽特征選擇算法FSML 具體描述如下:

算法1FSML 算法

FSML 算法的目的主要是計算并更新W與U,每次迭代的時間復雜度為O(2d2n),共迭代t次,因此總的時間復雜度為O(2td2n)。由于t值一般不大,因此FSML 算法處理數據的運行時間受數據維數d和數據集樣本個數n的影響較大。

FSML 算法的收斂性分析類似于L2,1-范數的收斂性分析,圖1 給出了參數α=1、β=1、K=5 時,FSML 算法在生物數據集Yeast、文本數據集Health和Computers、音樂數據集Emotion、圖像數據集Scene 等5 個經典數據集上的收斂性結果。

圖1 FSML 算法在不同數據集上的收斂性結果Fig.1 Convergence results of FSML algorithm on different datasets

3 實驗與結果分析

采用5 個經典數據集進行FSML 算法有效性驗證,并將其與SCLS[21]、MDMR[22]、PMU[23]、FIMF[24]、CMLS[25]算法以及Baseline(選擇所有特征)進行性能比較,同時選擇ML-KNN[26]算法作為代表性的多標簽分類算法進行實驗。

3.1 數據集與實驗設置

實驗中采用的5 個經典數據集來自木蘭圖書館(http://mulan.sourceforge.net/datasets.html),具體信息如表1 所示。

表1 數據集信息Table 1 Dataset information

實驗操作系統環境為Microsoft Windows 7,處理器為I ntel?CoreTMi5-4210U CPU@1.70 GHz 2.40 GHz,內存為4.00 GB,編程軟件為Matlab R2016a。

實驗參數設置如下(設置1 和設置2 均為對應算法的默認設置):

1)在ML-KNN 算法中,設置平滑參數S=1,近鄰參數K=10。

2)在FIMF、MDMR 和PMU 算法中,利用等寬區間對數據集進行離散化處理[27],并且在FIMF 算法中,設置Q=10、b=2。

3)將所有特征選擇算法(除ML-KNN 算法以外)的最近鄰參數設為K=5,最大迭代次數設為50。

4)所有算法的正則化參數通過網格搜索策略進行調整,搜索范圍設置為[0.001,0.01,0.1,1,10,100,1 000 ],并將選擇的功能數量設置為[10,15,20,25,30,35,40,45,50 ]。

3.2 評價指標

與單標簽學習系統的性能評價不同,多標簽學習系統的評價指標更為復雜。假設一個測試數據集,給定測試樣本di,多標簽分類器預測的二進制標簽向量記為h(di),第l個標簽預測的秩記為ranki(l)。

1)漢明損失(Hamming Loss)。度量的是錯分的標簽比例,即正確標簽沒有被預測以及錯誤標簽被預測的標簽占比。值越小,表現越好。Hamming Loss 計算公式如下:

其中:Δ 表示兩個集合的對稱差,返回只在其中一個集合中出現的那些值;HHammingLoss(D) ∈[0,1]。

2)排名損失(Ranking Loss)。度量的是反序標簽對的占比,即不相關標簽比相關標簽的相關性還要大的情況。值越小,表現越好。Ranking Loss 計算公式如下:

3)1-錯誤率(One-Error)。度量的是預測到的最相關的標簽不在真實標簽中的樣本占比。值越小,表現越好。One-Error 計算公式如下:

4)覆蓋率(Coverage)。度量的是排序好的標簽列表平均需要移動多少步才能覆蓋真實的相關標簽集。值越小,表現越好。Coverage 計算公式如下:

其中:CCoverage(D) ∈[0,m-1]。

5)平均精度(Average Precision)。度量的是比特定標簽更相關的那些標簽的排名占比。值越大,表現越好。平均精度計算公式如下:

3.3 實驗結果

本文提出的FSML 算法在5 個經典數據集上進行實驗,并考慮Hamming Loss、Ranking Loss、One-Error、Coverage、Average Precision 評價指標對FSML 算法與對比算法的性能進行比較。表2~表6 給出了所有特征選擇算法在最優參數時的最優結果,其中,最優結果用粗體標出,次優結果用下劃線標出。從表2~表6 可以看出:大多數的最優結果出現在FSML 算法上,從而證明FSML 算法的可行性;具體而言,FSML 算法雖然在Scene數據集上的所有指標相對于Baseline均略有不足,但在Computers、Health、Scene 數據集上的所有指標,以及Yeast數據集上的Ranking Loss、One-Error、Coverage、Average Precision 均優于對比算法,并且在Emotion、Computers、Health、Yeast 數據集上的所有指標甚至優于Baseline。

表2 各數據集上不同算法的Hamming Loss 數據對比Table 2 Data comparison of Hamming Loss among different algorithms on various datasets

表3 各數據集上不同算法的Ranking Loss 數據對比Table 3 Data comparison of Ranking Loss among different algorithms on various datasets

表4 各數據集上不同算法的One-Error 數據對比Table 4 Data comparison of One-Error among different algorithms under various datasets

表5 各數據集上不同算法的Coverage 數據對比Table 5 Data comparison of Coverage among different algorithms on various datasets

表6 各數據集上不同算法的Average Precision 數據對比Table 6 Data comparison of Average Precision among different algorithms on various datasets

綜上,FSML 算法在各種實驗指標上的性能均明顯優于FIMF 算法、PMU 算法、MDMR 算法和SCLS 算法,在Computers、Health、Scene 數據集上明顯優于CMLS 算法,在Emotion 數據集上略優于CMLS 算法,并在除Scene 數據集以外的其他實驗數據集上的指標均優于Baseline。

為能更直觀地展示FSML 算法與對比算法以及Baseline 的性能對比,圖2~圖6 給出了所有算法在各種數據集上的性能評價指標。從圖2~圖6 可以看出:FSML 算法在Scene 數據集上的性能表現雖然略次于Baseline,但在其他數據集上的性能表現很好,尤其是在Health 數據集上的性能表現最好,明顯優于對比算法和Baseline。通過FSML 算法與對比算法的比較結果可以看出,FSML 算法的實驗結果通常優于對比算法,可見將logistic 回歸模型與流形結構柔性結合,能更準確地學習到數據與標簽間的關系;通過與Baseline 的比較結果可以看出,FSML 算法在大多數數據集上的實驗結果都優于Baseline,能夠有效去除不相關的特征和冗余特征。

圖2 各數據集上不同算法的Hamming Loss 曲線對比Fig.2 Curve comparison of Hamming Loss among different algorithms on various datasets

圖3 各數據集上不同算法的Ranking Loss 曲線對比Fig.3 Curve comparison of Ranking Loss among different algorithms on various datasets

圖4 各數據集上不同算法的One-Error 曲線對比Fig.4 Curve comparison of One-Error among different algorithms on various datasets

圖5 各數據集上不同算法的Coverage 曲線對比Fig.5 Curve comparison of Coverage among different algorithms on various datasets

圖6 各數據集上不同算法的Average Precision 曲線對比Fig.6 Curve comparison of Average Precision among different algorithms on various datasets

為研究FSML 算法對參數的敏感程度:一方面,設置近鄰參數K=5,通過網格搜索策略來調整α與β的數值,探究FSML 算法在取不同參數時,Average Precision 評價指標的變化情況,如圖7 所示,可以看出在一定范圍內Average Precision 評價指標值會隨參數的變化而變化,并且不同的實驗數據對參數的敏感程度不同,當α<1、β<1 時FSML 算法性能對參數的變化不是很敏感;另一方面,設置參數α=10、β=100,在[5,6,7,8,9,10]內調整近鄰參數K的值,探究近鄰參數K的變化對FSML 算法性能的影響,如圖8 所示,可以看出在Yeast、Scene 數據集上FSML 算法對近鄰參數K的變化不太敏感,而在其他數據集上則較為敏感,可見FSML 算法對近鄰參數K的變化是否敏感與數據本身的基層結構特征有關。

圖7 參數α、β 對FSML 算法的影響Fig.7 Influence of parameters α and β on FSML algorithm

圖8 近鄰參數K 對FSML 算法的影響Fig.8 Influence of parameter K on FSML algorithm

如圖9 所示,橫坐標軸表示在各評價指標下各多標簽特征選擇算法的排序,從左到右,算法的性能越來越好,同時還給出了Bonferroni-Dunn 測試結果的平均秩圖,并將無顯著差異(p<0.1)的算法組連接,如果平均排名達到差異的臨界值(Critical Distance),則有顯著差異[28]。在One-Error 指標下,FSML 算法性能明顯優于對比算法,并具有顯著性差異;在其他指標下,FSML 算法的性能明顯優于SCLS、FIMF、MDMR 和PMU 算法,并具有顯著性差異,雖然與CMLS 算法之間沒有顯著性差異,但FSML 算法的排序始終在第一位。因此,與其他算法相比,FSML 算法具有更好的性能。

圖9 Bonferroni-Dunn 檢驗結果的平均秩圖Fig.9 Average rank graph of Bonferroni-Dunn test results

4 結束語

本文基于L2,1-范數將標簽流形結構與logistic 回歸模型柔性結合,構建多標簽特征選擇算法FSML,并在多個經典多標簽數據集上與現有多標簽特征選擇算法進行性能對比。實驗結果證明了FSML算法的有效性。但由于近鄰參數K不能自適應學習,導致同一個K值不一定能夠較好地學習到每個數據標簽的基層流形結構,從而限制了FSML 算法的應用范圍。下一步將對相似矩陣學習進行研究,使近鄰參數K能夠實現自適應學習,并擴展該自適應學習方法在半監督多標簽特征選擇中的應用與研究。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产手机在线ΑⅤ片无码观看| 天堂va亚洲va欧美va国产 | 狠狠色噜噜狠狠狠狠色综合久 | 中文字幕亚洲第一| 男人天堂亚洲天堂| 国产高潮视频在线观看| 国产精品专区第1页| аv天堂最新中文在线| 欧美激情综合| 日本少妇又色又爽又高潮| 无遮挡一级毛片呦女视频| 美女免费黄网站| 操美女免费网站| 国产欧美日韩另类精彩视频| 国内熟女少妇一线天| 国产永久免费视频m3u8| 91精品国产综合久久香蕉922 | 日本久久网站| 久久精品66| 无码免费试看| 国产精品人莉莉成在线播放| 国产免费网址| 伊伊人成亚洲综合人网7777| 在线看片中文字幕| 91精品国产情侣高潮露脸| 亚洲无线观看| 谁有在线观看日韩亚洲最新视频| 久久久久久尹人网香蕉| 蜜臀AV在线播放| 亚洲视频免| 亚洲最猛黑人xxxx黑人猛交| 99在线观看国产| 永久免费精品视频| 久久精品中文无码资源站| 国产区成人精品视频| 激情六月丁香婷婷| 91九色国产porny| 999在线免费视频| 久久青草免费91观看| 青青操视频在线| 亚洲欧美一区二区三区蜜芽| 9999在线视频| 97精品国产高清久久久久蜜芽| 无码福利日韩神码福利片| 久久国产精品电影| 日韩欧美成人高清在线观看| 国产精品第一区| 天堂亚洲网| 色欲色欲久久综合网| 18禁色诱爆乳网站| 综1合AV在线播放| 伊人狠狠丁香婷婷综合色| 国产特级毛片| 亚洲成人播放| 国产精品xxx| 亚洲综合激情另类专区| 国产十八禁在线观看免费| 成人福利在线观看| 波多野结衣二区| 国产色偷丝袜婷婷无码麻豆制服| 夜精品a一区二区三区| 国产成人夜色91| 一区二区午夜| 国产一级毛片yw| 国产视频欧美| 福利片91| 亚洲男人的天堂在线| 国产在线专区| 91精品啪在线观看国产91九色| 永久免费精品视频| 国产欧美日韩91| 在线看片免费人成视久网下载| 欧美日韩国产在线观看一区二区三区 | 国产精品99久久久久久董美香| 亚洲va欧美ⅴa国产va影院| 在线观看免费国产| 欧美在线伊人| 中文字幕1区2区| 久久黄色一级视频| 国产91在线免费视频| 国产成人禁片在线观看| 超清无码一区二区三区|