李存志,錢 萌,孟金彪
(安慶師范大學(xué)計算機與信息學(xué)院,安慶 246133)
近年來多標記學(xué)習逐漸成為數(shù)據(jù)挖掘和信息檢索的重要主題,是機器學(xué)習的熱點之一。多標記學(xué)習任務(wù)的步驟為:每個樣本都有對應(yīng)的訓(xùn)練集數(shù)據(jù),使用一定的算法可以在訓(xùn)練集數(shù)據(jù)的基礎(chǔ)上獲得有效的模型,通過模型進而推斷甚至預(yù)測未知新樣本所屬的類別,得到其所在的標記集合。
自編碼神經(jīng)網(wǎng)絡(luò)類似無監(jiān)督學(xué)習范式,可以從大規(guī)模數(shù)據(jù)中提取有效特征。為此不斷有學(xué)者對自編碼神經(jīng)網(wǎng)絡(luò)進行了改進,例如:黃廣斌等提出的ELM 算法因為它沒有迭代過程,這是與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)算法最大的不同,因此相比較而言ELM 的訓(xùn)練速度更加快,空間代替時間的思想使它的泛化能力更強。分析可得,基于特征以及標記關(guān)系結(jié)合重新分析得到的結(jié)果能夠一定程度提升算法的分類能力。基于此本文提出一種核極限學(xué)習機自編碼多標記學(xué)習算法,在輸入層中加入標記節(jié)點信息,輸出帶有特征與標記關(guān)系的特征。在分類過程中使用奇異值分解作為線性分類器。

目前算法基于思想上的區(qū)別可分為:算法適應(yīng)型和問題轉(zhuǎn)化型。
ELM 作為一種快速的前饋單隱藏層神經(jīng)網(wǎng)絡(luò)學(xué)習算法,隱藏層的參數(shù)并不是固定的,因此算法只需要設(shè)置合適的神經(jīng)元的個數(shù),使用指定的算法實現(xiàn)求出輸出權(quán)重值,此過程一直到結(jié)束不需要做任何的調(diào)整。因此,與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)算法相比,在訓(xùn)練速度和準確性上都有一定的優(yōu)勢,但結(jié)果較為不穩(wěn)定。
在傳統(tǒng)的ELM 算法中計算結(jié)果容易受到隱藏層個數(shù)和隨機權(quán)重和偏置的影響,而核矩陣可以解決這一問題,則核ELM 神經(jīng)網(wǎng)絡(luò)f(x)可以表示為:

自編碼網(wǎng)絡(luò)由三部分構(gòu)成(輸入層、輸出層、輸出重構(gòu)),自編碼器由編碼器(encoder)部分和解碼器(decoder)部分構(gòu)成,其將輸入樣本數(shù)據(jù)進行壓縮操作之后到隱藏層之后重新解壓映射回輸出層。作為深度學(xué)習學(xué)習中一種無需標記的無監(jiān)督特征學(xué)習方法,自編碼器能夠有效地提取數(shù)據(jù)特征內(nèi)在的聯(lián)系。
本文提出的核極限學(xué)習機自編碼算法是一種半監(jiān)督學(xué)習范式,我們在輸入層特征集中加入標記信息為標記空間計算每個標記樣本集合值的求和結(jié)果,這樣避免了標記節(jié)點加入導(dǎo)致維度過高帶來的維度災(zāi)難問題。此時輸入的特征X 表示為:,其中把Xi作為輸入特征,則極限學(xué)習機模型可表示為:

將這種轉(zhuǎn)化特征作線性分類器的特征輸入可以表示為:



本 文 選 取Emotions,Natural scene 和Yeast 共 3 個Mulan 數(shù)據(jù)集以及Yahoo Web Pages 的5個數(shù)據(jù)集一共8個數(shù)據(jù)集。
實驗代碼均在Matlab2016a 中運行。本文選取了Average Precision,Coverage,Hamming Loss 等幾種評價準則對標記學(xué)習算法進行結(jié)果評測,用來檢驗算法的性能。為方便,分別簡寫為:AP ↑、CV ↓、HL ↓。(備注↑字符標識代表此標準數(shù)據(jù)越大越好,↓字符標識次標準數(shù)據(jù)越小越好)。設(shè)多標記分類器,預(yù)測函數(shù),排序函數(shù),多標記數(shù)據(jù)集
將本文算法與4 個多標記分類算法做對比實驗,分別是MLKNN,IMLLA,RankSVM 和MLFE。在ML-KELMAE 算法中正則項系數(shù)C=1,核函數(shù)選擇RBF 核,核參數(shù)σ 選自{0.2,0.5,1,2}之間。在ML-KNN 算法中近鄰個數(shù)k 和平滑參數(shù)s 分別設(shè)為10和1。在RankSVM 算法中,其代價損失參數(shù)設(shè)為1,核函數(shù)選擇RBF 核。在IMMLA 算法中平滑參數(shù)s 設(shè)為1,近鄰空間數(shù)k 設(shè)為10。在MLFE 算法中,核函數(shù)選擇RBF,核參數(shù)β1,β2和β3選自{1,2,…,10},{1,10,15}和{1,10}之間分別在訓(xùn)練集上進行交叉驗證。
下表給出了本文算法和其他4種算法在本文使用數(shù)據(jù)集上實驗結(jié)果。其中下標表示的是各個算法在實驗數(shù)據(jù)結(jié)果上的排序,其中得分越高算法性能越優(yōu)。

表1 分類算法在本文使用數(shù)據(jù)集上的平均精度結(jié)果對比

表2 分類算法在本文使用數(shù)據(jù)集上的覆蓋率結(jié)果對比

表3 分類算法在本文使用數(shù)據(jù)集上的海明損失結(jié)果對比(↓)
多標記分類學(xué)習中關(guān)于特征信息與標記相關(guān)性的研究非常重要。本文提出一種新的多標記學(xué)習算法,在輸入層中加入標記節(jié)點信息,輸出帶有特征與標記關(guān)系特征的半監(jiān)督學(xué)習。多個多標記基準數(shù)據(jù)集上的結(jié)果顯示,本文的方法具有一定的優(yōu)勢。