王 攀
(南昌航空大學信息工程學院 南昌 330063)
極限學習機(ELM)最初由黃建華等提出[1]。由于其高效和快速的學習速度而越來越受到廣泛的關注。但ELM是在經(jīng)驗風險最小化思想的基礎上所構建的模型,所以容易發(fā)生過擬合現(xiàn)象[2]。此外,ELM并沒計算權重偏差,所以當數(shù)據(jù)集出現(xiàn)異常值時,ELM算法便會出現(xiàn)較大的偏差。為克服這些缺點,鄧等[3]將加權最小二乘算法和風險最小化理論相結(jié)合,提出正則化極限學習機(RELM)。然后黃等[4]提出帶內(nèi)核的極限學習機(KELM)將內(nèi)核功能引入ELM,并取得了更好的效果。ELM,RELM和KELM都是單獨隱層網(wǎng)絡結(jié)構,所以它們在提取圖像特征方面存在不足。但是,特征提取是圖像識別的核心部分,所以我們試圖找到一種不僅可以提取精確提取圖像特征,同時也包含ELM高效易用等優(yōu)點的方法。
深度學習(DL)是一種通過建立和模仿人類大腦的分層結(jié)構來提取外部輸入數(shù)據(jù)特征的多層網(wǎng)絡結(jié)構,所以DL在提取特征方面很適用。其中,卷積神經(jīng)網(wǎng)絡(CNN)作為一種典型的DL方法,能夠自動從圖像提取重要特征,已經(jīng)廣泛應用于圖像識別領域中并取得了很好的效果。在訓練CNN網(wǎng)絡過程時,采用BP算法調(diào)整參數(shù)浪費了大量時間。研究表明,網(wǎng)絡的效果主要是由其模型結(jié)構所決定[5]。所以我們需要根據(jù)不同的數(shù)據(jù)庫選擇對應最優(yōu)的模型。
為解決上述問題,本文提出了一個基于DL和ELM的新型卷積混合模型極限學習機(CNN-Ro-ELM)。在改進算法中,我們使用CNN提取特征;在訓練CNN時,使用隨機權重來減少特征提取時間;然后在RoELM中引入加權值最小二乘法概念計算輸出權值,從而實現(xiàn)圖像分類。CNN-RoELM不但改善了RoELM在提取特征方面的不足,并且也有效解決了DL的學習時間過長的問題,并具有很好的分類效果以及穩(wěn)健性。
極限學習機(ELM)的模型包含輸入層,隱含層和輸出層,如圖1所示。ELM只需初始設置模型隱層節(jié)點的個數(shù)即可,在計算過程中不用調(diào)整模型的隱元的偏置以及輸入權值,并且產(chǎn)生唯一的全局最優(yōu)解,所以具有高效簡便,良好泛化性等優(yōu)點[6]。

圖1 ELM結(jié)構圖
對于N個不同的學習樣本 (xi,yi)∈Rn×Rm,(i=1,2,3,…,N),隱層的輸出如式(1)所示,輸出層的神經(jīng)元輸出如式(2)所示。

其中g(x)表示ELM隱層激活函數(shù),β表示輸出權值,w表示輸入權重,b是隱層節(jié)點所對應的偏置。
使用矩陣H表示隱層的輸出結(jié)果,Y表示訓練數(shù)據(jù)的目標矩陣,則式(2)可以簡寫為


當待估參數(shù)存在大量隨機誤差或奇異值時,可以通過穩(wěn)健回歸理論方法來進行處理。穩(wěn)健估計法的基本思想是充分利用有效數(shù)據(jù),選擇利用一般性數(shù)據(jù),同時盡量避免受到有害性數(shù)據(jù)的影響。當誤差數(shù)據(jù)呈現(xiàn)正態(tài)分布時,則穩(wěn)健回歸法和最小二乘估計法(LSE)的估計精度相似,但當誤差數(shù)據(jù)呈現(xiàn)非正態(tài)分布時,穩(wěn)健估計法的估計精度要比最小二乘法好[9]。本文采用M估計作為穩(wěn)健估計,它的線性回歸模型如下式:


式中:ρ是影響函數(shù),令ψ=ρ′表示 ρ的求導數(shù),由目標函數(shù)對β求偏導得



此時參數(shù)β就變成了加權最小二乘估計。根據(jù)實際情況,對于異常數(shù)據(jù)賦予較小的權重,而正常數(shù)據(jù)則賦予較大的權重,從而構建出加權最小二乘法模型。然后再進行重復迭代計算更改各部分權重系數(shù),直到權重系數(shù)變化在允許范圍內(nèi)。這樣就降低了誤差數(shù)據(jù)干擾,提高了模型魯棒性[10]。
魯棒極限學習機(RoELM)將ELM和加權最小二乘法相結(jié)合,通過加權最小二乘法來處理輸出權重,可有效抑制異常數(shù)據(jù)的影響,提高模型的魯棒性。本文采用的穩(wěn)健估計影響函數(shù)如下:

將式(4)代入式(7)中求得
其中:k表示調(diào)和常數(shù),默認值取k=1.345。
此時殘差的目標函數(shù)為

式中:H表示一個N×L型的矩陣;β表示一個L×1型的矩陣;N表示樣本個數(shù);ei表示殘差,此時用目標函數(shù)對參數(shù)β求取偏導,并令偏導數(shù)為零,則:

式中:ψ(x)為 ρ(x)的導函數(shù)。為了提高M估計的穩(wěn)健性,將穩(wěn)健尺度估計s引入,使權重函數(shù)的殘差標準化,即eis。其中s=med( ||ei)/0.6745,得到標準化殘差為
ui=ei/s=0.6745ei/med( ||ei),式中med代表中位數(shù)計算。則由式(12)可得


于是,魯棒極限學習機的算法步驟為
2)隨機選取輸入權值w與隱層節(jié)點的偏置b。
3)求出隱層節(jié)點的輸出矩陣H。
5)標準化殘差得到u,由式Wi=求出各樣本的權重矩陣的初值。
7)返回5)中,依次迭代,求出穩(wěn)健估計值 β?。當?shù)綌?shù)達到最大次數(shù)或者相鄰兩次回歸系數(shù)的差值取絕對值小于預設標準誤差時,迭代結(jié)束,即
卷積神經(jīng)網(wǎng)絡(CNN)是一種在多層感知器基礎上演變來的人工神經(jīng)網(wǎng)絡,其機構如圖2所示。CNN通常用于二維圖像識別,并且具有對傾斜、平移、比例放縮及其它變形保持高度不變的特性[11]。現(xiàn)在,CNN在圖像識別領域,以及人臉識別、文字識別等方向具有廣闊運用。

圖2 CNN結(jié)構圖
其中,Ci表示卷積層,Si表示降采樣層。CNN采用卷積層與降采樣層相互反復交替來實現(xiàn)特征提取目的,并通過BP神經(jīng)網(wǎng)絡算法來調(diào)整網(wǎng)絡結(jié)構,最后采用多次迭代訓練的方法使網(wǎng)絡達到收斂狀態(tài)以提高泛化性能。
ELM是根據(jù)經(jīng)驗風險最小化理論所構建的模型,導致易出現(xiàn)魯棒性差,過擬合等現(xiàn)象。本文結(jié)合CNN和RoELM模型,提出一種CNN-RoELM混合深度模型。與傳統(tǒng)的ELM模型相比,新模型可以有效地提圖像高分類精度,防止陷入局部最小化,具有更好的逼近能力,高效的學習速率以及優(yōu)秀的抗差性能。如圖3所示,我們采用卷積神經(jīng)網(wǎng)絡最常見的結(jié)構(包含2個卷積層,2個子采樣層,卷積核大小為5×5,池化層特征核尺寸為2×2)來進行介紹。簡單來說,CNN-RoELM和ELM的結(jié)構類似,都由輸入層,隱含層以及輸出層構成,區(qū)別在于CNN-RoELM的隱含層不是單層,而是添加了卷積層和子采樣層。
傳統(tǒng)CNN在訓練時多使用梯度下降法進行調(diào)參,由于梯度下降法本身的缺陷也使CNN的發(fā)展具有局限性。例如1)訓練過程容易陷入局部最小化。2)訓練速度慢。3)對學習率的選擇敏感[12]。學習率較高會導致整個訓練過程不穩(wěn)定,學習率較小會減慢收斂速度,增加訓練時間。而CNN-Ro-ELM則不需要調(diào)整網(wǎng)絡權值參數(shù),只需要一次學習就能獲得最優(yōu)解,所以CNN-RoELM具有學習速率快的優(yōu)點。

圖3 CNN-RoELM結(jié)構圖
特征提取是圖像識別的關鍵環(huán)節(jié),由于Ro-ELM采用一個單隱層網(wǎng)絡結(jié)構,所以它在圖像顯著特征提取方面存在缺陷。本文提出的CNN-Ro-ELM模型利用CNN的卷積層和子采樣層提取特征,再將特征值傳給RoELM,彌補了RoELM在特征提取方面存在的缺陷。CNN-RoELM混合模型不但解決了梯度算法訓練時間過長,學習率選擇敏感等問題,又結(jié)合了RBEIM高效便捷,抗差能力強的優(yōu)點,所以有很好的使用前景。
為了評估CNN-RoELM混合模型的性能,本文采用在MNIST數(shù)據(jù)庫上進行實驗,并分別與ELM,RoELM和RELM等算法進行對比。實驗環(huán)境為Intel Corei7 3.6 GHz處理器,16G內(nèi)存,Matlab 2012b。
手寫數(shù)字MNIST數(shù)據(jù)集包含有6萬個用于訓練的圖像,1萬個測試圖像,它是NIST數(shù)據(jù)集的子集。MNIST中的圖像已經(jīng)處理成了固定大小為28×28像素值。實驗時,從訓練樣本中隨機選擇6000個樣本做訓練,從測試樣本圖像中隨機選1000個樣本做測試。
由于采用隨機權值的網(wǎng)絡結(jié)構,所以我們要選擇對應于MNIST數(shù)據(jù)庫最優(yōu)的網(wǎng)絡結(jié)構。為了保證最優(yōu)分類性能,卷積層,池化尺寸和各卷積層過濾器個數(shù)都必須選取最優(yōu)值。經(jīng)過多次實驗,最終確定的最優(yōu)網(wǎng)絡結(jié)構采用2個卷積層,2個降采樣層,池化尺寸2×2,卷積核5×5,卷積層過濾器的個數(shù)為n1=10,n2=20。
圖4給出了CNN-RoELM算法精度和各參數(shù)之間的關系圖。其中k是調(diào)和參數(shù),其受到樣本目,影響函數(shù)形式,待估樣本分布的影響。由圖可知,最優(yōu)隱層節(jié)點數(shù)為2500,最優(yōu)調(diào)和參數(shù)k取2.5。

圖4 CNN-RoELM算法在MINST數(shù)據(jù)集上實驗結(jié)果圖
表1列出了各算法在MNIST數(shù)據(jù)庫上所得實驗結(jié)果精度對比。由表可知CNN-RoELM的準確率為98.83%,顯著高于其他方法。實驗結(jié)果證明CNN-RoELM混合模型在MNIST數(shù)據(jù)庫上分類的有效性。

表1 MNIST數(shù)據(jù)集實驗結(jié)果對比

表2 MNIST數(shù)據(jù)集時間對比
表2列出了MNIST數(shù)據(jù)庫上的時間對比,由表可知,CNN-RoELM的訓練時長遠小于ELM和RELM。由于CNN-RoELM增加了隱層,所以訓練時間相比于RoELM有所增加。
為了使本文算法更具有說服力,我們與其他基于ELM的算法(如SVM-ELM[13]和 PCA-ELM[14])進行比較。此外,考慮到CNN-RoELM是基于深度模型的算法,所以我們也加入一些經(jīng)典深度學習算法作比較,如深度置信網(wǎng) DBN[15~16],堆疊自動編碼器SAE等。同樣在MNIST數(shù)據(jù)庫上進行實驗,在6萬張圖像中隨機抽取6000張作為訓練,從1萬張圖像中隨機抽取1000張作為測試。實驗對比結(jié)果如表3所示。

表3 各種算法在MNIST子集的對比結(jié)果
從以上的實驗可知,CNN-RoELM算法在MNIST數(shù)據(jù)集上的識別精確度要高于ELM,RELM,RoELM等算法,并且相比SVM-ELM,PCA-ELM等算法精度也提升不少,證明CNN-Ro-ELM模型的有效性。另外,由于我們采用了隨機權值網(wǎng)絡結(jié)構,所以相比于深度學習算法,能節(jié)約大量時間。
本文提結(jié)合傳統(tǒng)CNN和RoELM模型,提出一種CNN-RoELM混合深度模型。該算法使用卷積神經(jīng)網(wǎng)絡提取特征,通過把多個卷積層與降采樣層作為隱層來實現(xiàn)圖像特征提取,并采用隨機權值,從而極大地減少了提取特征過程中的時間;然后利用加權最小二乘法來計算魯棒極限學習機的輸出權值,有效抑制異常值的影響提高模型魯棒性,實現(xiàn)圖像快速分類。實驗表明,與傳統(tǒng)的ELM模型相比,新模型可以有效地提高圖像分類精度,防止陷入局部最小化,具有更好的逼近能力,更高效的學習速率以及良好的抗差性能。