陳 洋,王士同
1.江南大學 人工智能與計算機學院,江蘇 無錫214122
2.江南大學 江蘇省媒體設計與軟件技術重點實驗室,江蘇 無錫214122
集成學習,在過去的幾十年里已經(jīng)成為一個成熟的研究領域,是一種建立基分類器的基礎上進行有效融合集成形成強分類器的方法,其中包括兩個主要工作:一是基分類器的構建;二是多分類器的融合集成方法。直觀地說,分類器集成成功的關鍵是基礎分類器表現(xiàn)多樣性。這種認識首先在理論上被誤差模糊分解證明是正確的。=ˉ-ˉ,其中是整體的均方誤差,ˉ是組成學習者的平均均方誤差,ˉ是整體和組成學習者之間的平均差異。這種分解意味著,只要ˉ是固定的,組件學習者之間的較高差異就會導致更好的集成。此外,偏差-方差分解分析的學習方法也被用來解釋分類器集成的成功。Brown聲稱,從信息論的角度來看,一個集合中的多樣性確實存在于分類器之間的許多層次的相互作用中。這一工作啟發(fā)了Zhou 等人從多信息的角度出發(fā),提出應該最大化互信息以最小化集合的預測誤差。隨后,Yu 等人提出,在個體學習者的多樣性正則化機器(diversity regularized machines,DRM)中以成對的方式使用個體學習者的多樣性,可以降低假設空間的復雜度,這意味著控制多樣性在集成方法中起到正則化的作用。上述理論都證實了個體學習者的多樣性是集成學習的關鍵。
一些眾所周知的算法,如Bagging和Boosting被認為是解決模式分類任務有效方法,Bagging 和Boosting 算法都是基于訓練數(shù)據(jù)集的重采樣方法,Bagging 算法是并行集成,而Boosting 是串行提升,都是使用輸入數(shù)據(jù)的不同訓練子集和同樣的學習方法生成不同模型。2011 年基于Bagging 的集成分類器,即Bagging-ELM,已經(jīng)得到了廣泛的研究,并被證明可以在準確性方面顯著提高極限學習機(extreme learning machine,ELM)的性能,但是由于計算量大,不適用于大規(guī)模數(shù)據(jù)集。2015 年Jiang 等人利用主成分分析對人臉特征進行約簡,并將ELM 嵌入到AdaBoost 框架中進行人臉識別,實驗證明,AdaBoost方法可以顯著提高ELM 性能。2018 年一種基于代價敏感集成加權極限學習機的新方法(cost-sensitive ensemble weighted extreme learning machine,AE1-WELM)被提出,這種方法提出應用于文本分類,通過樣本信息熵來度量文檔的重要性,并根據(jù)文檔的重要性生成代價敏感矩陣和因子,然后將代價敏感的加權ELM 嵌入到AdaBoost 中。該方法為文本分類提供了一種準確、可靠、有效的解決方案。
然而基于以上兩者算法的極限學習機的集成方法都可以被解釋為隱式地表達多樣性,構建了不同的基本分類器。在集成學習算法中,如果術語“多樣性”被明確定義和優(yōu)化,就可以恰當?shù)厥褂盟惴ǘ鄻有浴S捎谠S多集成算法都是通過隱式尋求多樣性而成功提出的,很自然地會考慮是否可以通過顯式尋求多樣性來獲得更好的性能。
文獻[12]中報道的一些結果表明,ELM 在回歸和分類任務中都具有學習速度快、泛化性能好等顯著特點。因此這種快速學習方案避免了基于梯度的優(yōu)化技術中的困難,如停止標準、學習速率、學習周期和局部極小值等。但是單一的極限學習機在數(shù)據(jù)分類上是不穩(wěn)定的。為了克服這一缺點,越來越多的研究人員考慮使用集成ELM,綜合這些因素促使在集成學習中采用ELM 作為基礎分類器。

(1)在一定程度上解決單個ELM 分類器的不穩(wěn)定性問題。提高預測性能的同時,也具有很好的泛化能力和魯棒性。
(2)10 個數(shù)據(jù)集上的實驗結果表明本文所提出的基于多樣性正則化極限學習機的集成方法可以更好地處理具有大量屬性或樣本數(shù)量的數(shù)據(jù)集。
(3)本文所提出的算法從初始化隱含層輸入權重、偏置以及多樣性懲罰項兩個角度雙重保證了最后集成模型的性能。
近年來,ELM 的研究已有了較為迅速的進展,表現(xiàn)出廣闊的發(fā)展和應用潛力,吸引了大量學術界和工業(yè)界研究人員的高度關注,并取得了豐碩的研究成果。本章將根據(jù)原始的ELM 算法和RELM(regularized extreme learning machines)算法詳細介紹求解隱含層輸出權重的方法。
ELM 最初是針對單隱層前饋神經(jīng)網(wǎng)絡(singlehidden layer feedforward neural network,SLFN)提出的,后來擴展到廣義前饋網(wǎng)絡。ELM 的顯著優(yōu)點在于隱藏節(jié)點參數(shù)(輸入權重和偏差)的隨機選擇,并且網(wǎng)絡輸出權重可以通過使用最小二乘法求解線性系統(tǒng)來分析確定。訓練階段可以高效地完成,而不需要耗時的學習迭代,并且可以獲得良好的泛化性能。如圖1 所示的ELM 的網(wǎng)絡結構模型。

圖1 ELM 模型框架Fig.1 ELM network structure




其中,表示隱層輸出矩陣的廣義逆矩陣。隱節(jié)點數(shù)是隨機的,由通用逼近性可知激活函數(shù)無限可微分,隱含層輸出近似看成連續(xù)函數(shù)。
(1)對于隱節(jié)點數(shù)等于輸入樣本個數(shù),可找到矩陣,使得:

(2)對于隱節(jié)點數(shù)小于樣本個數(shù),對于任意>0,總存在,使得:

利用最小方差尋找最優(yōu)輸出權重。即優(yōu)化訓練誤差函數(shù):



其中,是在訓練誤差項和正則項之間進行權衡的正則化參數(shù)。對進行微分得到:

讓梯度等于0,可以得到:

求解上式可以很容易地得到下面的解:

因為>0,矩陣是正定的,又因為矩陣是半正定的,所以矩陣+是正定的。因為的出現(xiàn)使得矩陣+變成了非奇異矩陣,所以根據(jù)隱節(jié)點數(shù)與樣本數(shù)的比較,求解可得輸出權重形式如下,其中是單位矩陣:


集成的關鍵是保證多樣性,一種簡單的實現(xiàn)方法就是使用不同分布來初始化每個學習器的隱層節(jié)點參數(shù)。本文提出的基于差異性正則化極限學習機的集成方法,在生成每個ELM基學習器初始權重時選擇了高斯分布和均勻分布等任意的隨機分布,保證了集成時每個基學習器之間具有一定的差異性,并且隱藏層節(jié)點到輸出層節(jié)點之間的權重則是通過最小二乘法求解得出,因此可知本文算法對初始值并不依賴。


圖2 多樣性正則化ELM 集成學習系統(tǒng)模型框架Fig.2 Ensemble learning of different regularized ELM network structure
注意到,在集成方法中雖然對于多樣性應該以什么形式定義沒有一致意見,但是所研究的多樣性度量通常可以是成對的形式,即總多樣性是成對差異度量的總和,用于度量分類有效性。這種多樣性測度包括Qstatistics 測度、相關系數(shù)的度量、不一致測度、雙錯測度、統(tǒng)計測度等。因此,還考慮了一種基于成對差異的多樣性形式。給定假設度量空間中的成對分集測度,考慮假設基學習器集合={,,…,c},則可得到成對差異項的總和表達式如下:

規(guī)定div({,,…,c})≥,其中,是多樣性項最小值。則在對于ELM 集成問題中,改變輸入權重和偏置的元素分布方式和范圍,訓練個不同的ELM 基學習器,′表示不同于的任意。考慮到隱點數(shù)優(yōu)化問題,得到的每個ELM 的隱含層到輸出層的權重矩陣的維度可能不一樣。為了繞開這個問題,在本文中,將它們集成在一起時,提出一種明確的方法來管理各個基礎學習者之間的差異。即將有關多樣性的新懲罰項顯式添加到整個集成的目標函數(shù)中。懲罰項表達式如下:

該表達式不會受不同的隱含層輸出權重維度不一致的影響,多樣性控制參數(shù)的值對應上式中的。在不失一般性的前提下,本文采用RELM 算法作為該算法的基礎。為了提高泛化能力,本文也加入了對每個學習器的隱含層輸出矩陣的泛化項,因此可以得到目標優(yōu)化函數(shù)如下:

因為上式對于每個學習者是自然可分的,所以可以簡化求解過程,采用了一種有效的交替優(yōu)化技術。將所有′≠時的′當作已知固定量,交替優(yōu)化依次求解,從數(shù)學上來說,把上面的目標函數(shù)轉(zhuǎn)化為求解下面這個小目標函數(shù):

上式分別對β求偏導得到:


正則化參數(shù)調(diào)節(jié)第三項的相對成本。較大的值會降低個體極限學習機的一致性,從而增強多樣性,而較小的值則會產(chǎn)生一組幾乎相似的極限學習機。但是存在的爭議是,目標函數(shù)中的第三項使得目標函數(shù)可能不會變得凸。為了解決這樣一個可能的問題,提出了以下方案來討論參數(shù)的范圍:

假設參數(shù)的上界值為,為了求出值,只要使得如下式子:


基分類器的集成及結果整合


ELM 算法中,影響網(wǎng)絡泛化能力的一個重要因素是隱含層節(jié)點和正則化參數(shù)。一種確定ELM 中最優(yōu)參數(shù)的方法是留一交叉驗證策略。對于本文模型,為了確定隱含層節(jié)點的最終數(shù)目,需要計算不同隱含層節(jié)點數(shù)目時對應的留一交叉誤差,最后選擇誤差最小時對應的隱含層節(jié)點數(shù)目。因此,為了優(yōu)化隱節(jié)點數(shù)以及正則化參數(shù),使用LOO交叉驗證策略中的預測殘差平方和(MSE)作為評估性能指標。
其中,為了減少MSE公式的計算復雜度和隱含層輸出矩陣的重復計算,本文引用了奇異值分解(singular value decomposition,SVD)矩陣策略來分解隱含層輸出矩陣:令=,其中,和均為酉矩陣,即=,=,是對角矩陣。
當≤時,=,則可以得到:

當>時,=,則可以得到:

算法2 給出了基于LOO 誤差的基分類器的實現(xiàn)方法。
基分類器的構建


設為輸入訓練樣本個數(shù),為初始輸入樣本特征維數(shù),隱含層節(jié)點數(shù)設置為,輸出層節(jié)點數(shù)為個,基學習器的數(shù)量為,則算法的時間復雜度包括兩部分,即基學習器的訓練步驟和基學習器的集成步驟。第一部分的時間復雜度集中于算法2 中步驟1.1 每個基學習器的隱含層輸入矩陣的計算,時間復雜度為(),步驟1.2 中分別計算出每個基學習器的隱含層輸出權重,時間復雜度為(+),因此第一部分時間復雜度為(++),其中是目標類別數(shù)。第二部分算法1 中步驟1 計算隱含層輸入矩陣時間復雜度為(),步驟2 中,設迭代次數(shù)為,則步驟2 中計算更新隱含層輸出權重的時間復雜度為()。因此總的算法時間復雜度為(2+++)。
圖3所示為多樣性正則化ELM集成方法流程圖。

圖3 多樣性正則化ELM 集成方法流程圖Fig.3 Flow chart of ensemble learning of different regularized ELM
本節(jié)通過大量數(shù)值實驗來檢驗所提出的集成分類器的性能的分類效果,并對比了其他代表性的分類模型。為保證實驗結果的真實準確,每個數(shù)據(jù)集對應的實驗都進行了10 次實驗,然后取其平均值和標準差作為最終結果。對于分類問題,采用常用的準確率(accuracy)作為衡量指標。實驗從國際通用的加州大學歐文分校的UCI 數(shù)據(jù)庫中選擇了10 個分類數(shù)據(jù)集,表中涵蓋了所測試的基準分類數(shù)據(jù)集的樣本特征維數(shù)、訓練樣本數(shù)、測試樣本數(shù)和類別數(shù)。表1列出了數(shù)據(jù)集的詳細信息。本文所有實驗均在同一環(huán)境下完成,采用在Windows 10 環(huán)境下搭建系統(tǒng),計算機處理器配置為IntelCorei3-3240 CPU@3.40 GHz,內(nèi)存8 GB,主算法在Matlab2016 中完成。

表1 UCI的10 個數(shù)據(jù)集的詳細信息Table 1 Details of 10 datasets for UCI
通過實驗來研究泛化項系數(shù)、多樣性控制參數(shù)以及基學習器數(shù)量對模型性能的影響。下面以austra 數(shù)據(jù)集為例進行敏感性分析。參數(shù)在{2,2,2,2,2}中確定,根據(jù)上一節(jié)中對參數(shù)范圍的討論,依據(jù)式(24)計算出它的上界值,為了保證值在它的有效取值范圍以內(nèi),可得到參數(shù)在{2,2,2,2,2}中確定。在合適的基學習器數(shù)量(如=5)的前提下,圖4(a)和(b)分別說明了在austra 數(shù)據(jù)集中,當其他參數(shù)不變時,精度隨和值的增加而變化的情況。圖4(c)中,探究的是基學習器數(shù)量對模型性能的影響,當正則化參數(shù)以及多樣性控制參數(shù)都設置適當(如=2,=2)時,通過改變基學習器數(shù)量觀察它對準確率的影響。
顯然,由圖4(a)和(b)可以看出,泛化項系數(shù)和多樣性控制參數(shù)對DRELM 的分類準確性有相當大的影響。適當?shù)闹祵⒂兄谔岣逥RELM 的分類準確性。
從圖4(c)可以看出,在集成學習中,基學習器的數(shù)量是影響模型性能的關鍵因素。一般認為,基學習器的數(shù)量越多,意味著模型的準確率越高,但當基學習器增加到一定數(shù)量以后模型性能達到最優(yōu)且較為穩(wěn)定時,再持續(xù)增加基學習器的數(shù)量,模型的性能反而會下降。對于本文中多樣性正則化極限學習機的集成方法并不是基學習器的數(shù)量越多預測性能就越好,在本文實驗所用的數(shù)據(jù)集中,最佳的基學習器數(shù)量大約為5 到6。

圖4 austra 數(shù)據(jù)集的精度變化圖Fig.4 Accuracy changes on austra dataset

改進的二參數(shù)BP 算法對標準的Sigmoid 函數(shù)引入新的參數(shù)和,其中系數(shù)決定著Sigmoid型函數(shù)的幅度,引入?yún)?shù)增加了自變量值的彈性,通過調(diào)整參數(shù)可以大大改變誤差曲面變化率,從而避開局部最小。對于本算法中泛化項系數(shù)使用網(wǎng)格搜索從{2,2,…,2}范圍內(nèi)搜索。對于較小的數(shù)據(jù) 集,例 如austra、Diabets 和Ionosphere 在[50:50:600]之間尋找最佳的隱節(jié)點數(shù)。像大樣本數(shù)據(jù)集OnlineNews,Magic 則在[500:100:2 500]范圍內(nèi)搜索隱節(jié)點的最佳數(shù)目。剩余數(shù)據(jù)集在[500:100:1 500]尋找最佳的隱節(jié)點數(shù)目。各模型參數(shù)的設置詳見表2。

表2 用于UCI數(shù)據(jù)集的各種模型的參數(shù)設置Table 2 Parameter settings of various models for UCI datasets
在將DRELM 算法與SVM(RBF)算法進行對比,RELM 算法與DRM 算法進行對比的時候,為了保證實驗的公平性,首先,對于本文的DRELM 算法,基學習器數(shù)量設置成5 個(=5),DRM 算法也采用5 個SVM 基學習器集成的規(guī)模;其次,對于RELM 算法的隱節(jié)點數(shù)規(guī)模將設置成DRELM 算法隱節(jié)點數(shù)集成總數(shù)的規(guī)模。實驗對比結果如表3 所示。
從表3 中可知各個數(shù)據(jù)集的分類準確率實驗結果。針對SVM、RELM、DRM、二參數(shù)BP 和DRELM這五種算法,本文采用加粗樣式標注最優(yōu)測試精度,采用加粗并加下劃線來標注最優(yōu)標準差。由表中大多數(shù)數(shù)據(jù)集結果可以看出,DRM 算法和DRELM 算法的分類精度和標準差均較優(yōu)于SVM、RELM 和二參數(shù)BP 模型。此外,尤其對于大樣本或大特征維數(shù)的數(shù)據(jù)集而言,DRELM、DRM 算法的標準差明顯低于其他三個算法,而DRELM 算法的標準差又明顯低于DRM 算法。而RELM 算法在所有算法里面表現(xiàn)得相對較差。主要考慮到實驗公平性,將RELM 算法的隱節(jié)點數(shù)設置成DRELM 算法所有基學習器的隱節(jié)點總數(shù)的規(guī)模,過多的隱節(jié)點數(shù)可能造成過擬合現(xiàn)象,從而導致它的測試精度表現(xiàn)得較差。

表3 各種模型對于不同數(shù)據(jù)集的測試結果與性能比較Table 3 Test result and performance comparison of various models on different datasets
在這10 個數(shù)據(jù)集中,可以發(fā)現(xiàn)austra、Letter、Magic、PCAMC、Pendigits、Onlinenews、optdigits、Ionosphere 數(shù)據(jù)集在DRELM 的測試精度比DRM高。同樣,可以發(fā)現(xiàn)austra、Magic、Vehicle、PCAMC、Onlinenews、Ionosphere數(shù)據(jù)集在DRELM算法中的測試精度更加穩(wěn)定集中;austra、Magic、PCMAC、Onlinenews、Ionospher 數(shù)據(jù)集在測試精度和標準差上DRELM 算法均優(yōu)于DRM 算法。
并且,DRELM 算法比較原始RELM 算法,在精度提升方面最高達到了39.56%,并且標準差降低了28.18%。同時DRELM 對比DRM 算法,在精度提升方面最高達到了5.79%,但標準差方面最高有著26.45%的下降。
通過對比可以發(fā)現(xiàn),在這些實驗數(shù)據(jù)集中,本文介紹的DRELM 算法在精度方面優(yōu)于原來的ELM 算法,也略優(yōu)于DRM 算法,且具有較好的穩(wěn)定性。從表4 中可知,ELM 是最快的學習者。在所有數(shù)據(jù)集上,RELM 以及本文提出的1DRELM 要比SVM、DRM 以及BP 訓練耗時少得多。

表4 各種模型對于不同數(shù)據(jù)集的訓練時間比較Table 4 Training time comparison of various models on different datasets s
總的來說,改進的多樣性正則化極限學習機集成算法比傳統(tǒng)的基于梯度的方法(如BP 算法)以及ELM、SVM 具有更好的性能和穩(wěn)定性,并且能以相對更短的訓練時間提供令人滿意的泛化性能。
多樣性被認為是集成方法成功的關鍵。本文提出的算法從兩方面保證了模型的多樣性:首先,基學習器構建的時候,改變隱含層節(jié)點參數(shù)初始化的分布并優(yōu)化得到每個學習器的最優(yōu)隱含層輸出矩陣和隱節(jié)點數(shù),保證訓練得到幾個較為優(yōu)秀而又不同的基學習器;其次,將有關多樣性的新懲罰項顯式添加到整個集成的目標函數(shù)中,明確控制基學習器之間的多樣性。基于實驗結果分析,本文方法能夠提高預測性能,并在處理大數(shù)據(jù)集時表現(xiàn)得更加優(yōu)越,也具有很好的泛化能力和魯棒性并優(yōu)于一些先進的集成方法,但仍有進一步研究的空間。例如,在實踐中可能需要不同類型的基學習者進行集成學習,盡管可以通過網(wǎng)格搜索或交叉驗證來確定正則化參數(shù),但是相應的過程在計算上仍然是昂貴的,加快此過程的適當方法也很關鍵,需要深入研究。此外,進一步研究如何為特殊應用場景確定合適數(shù)量的基學習器也是值得考慮的。