何 敏, 劉建偉, 胡久松
(湖南大學 電氣與信息工程學院,湖南 長沙 410082)
遺傳優化核極限學習機的數據分類算法*
何 敏, 劉建偉, 胡久松
(湖南大學電氣與信息工程學院,湖南長沙410082)
為了提高核極限學習機(KELM)數據分類的精度,提出了一種結合K折交叉驗證(K-CV)與遺傳算法(GA)的KELM分類器參數優化方法(GA-KELM),將CV訓練所得多個模型的平均精度作為GA的適應度評價函數,為KELM的參數優化提供評價標準,用獲得GA優化最優參數的KELM算法進行數據分類。利用UCI中數據集進行仿真,實驗結果表明:所提方法在整體性能上優于GA結合支持向量機法(GA-SVM)和GA結合反向傳播(GA-BP)算法,具有更高的分類精度。
核極限學習機; 遺傳優化; 交叉驗證; 參數優化; 分類精度
分類問題是數據挖掘[1,2]領域中的重要研究內容,目前已有的數據分類方法如神經網絡(neural network,NN)法[2,3]、貝葉斯網絡方法[2,4]、支持向量機(support vector machine,SVM)法[2,5]、核極限學習機(kernel-based extreme learning machine,KELM)法等。其中KELM由于網絡結構簡單,學習速度快,泛化能力強等優點,在數據分類中具有很大的優勢。
KELM[6]是Huang Guangbin在其所提出的ELM算法之上結合核函數所提出的改進算法。ELM在保證網絡具有良好泛化性能的同時,極大提高了前向神經網絡學習速度,并避免了以反向傳播(back propagation,BP)神經網絡為代表的梯度下降訓練方法的許多問題,如容易陷入局部值、迭代量大等。KELM不僅有ELM算法的許多優勢,同時結合了核函數,對線性不可分的模式進行非線性映射到高維特征空間從而實現線性可分,進一步提高了判斷的準確率。然而,由于核函數的存在,導致了這種算法對參數設置具有敏感性。本文擬采用交叉驗證(cross validation,CV)和遺傳算法(genetic algorithm,GA)的方法對KELM參數進行優化,而后將優化參數應用到KELM算法中,并用KELM算法進行數據分類,同GA-BP[7]和GA-SVM[8]算法相比,具有更高的分類精度。
GA以自然選擇和遺傳理論為基礎,將生物進化過程中適者生存規則與種群內部染色體的隨機信息交換機制相結合的高效全局尋優搜索算法[9,10],將問題參數編碼為染色體,再利用迭代的方式進行選擇,交叉以及變異等運算交換種群中染色體的信息,從而使種群代代進化到搜索空間中越來越好的區域,直至達到最優解點[11]。其主要步驟如下:1)確定尋優參數進行編碼,編碼時首先設置編碼長度;2)隨機產生初始種群;3)計算種群中每個個體的適應度函數值;4)形成匹配集。根據種群中每個染色體的適應度函數值,采用一定的方法,從種群中選出適應值較大的染色體;5)按某種復制規則進行繁殖,繁殖主要有2種方法:交叉和變異;6)若遺傳代數達到給定的允許值或其他收斂條件滿足時停止遺傳,否則,返回步驟(3)。
KELM是一種單隱層前向神經網絡(SLFN)的訓練算法,SLFN模型可表示為[12]
f(x)=h(x)β=Hβ
(1)
式中x為樣本輸入;f(x)為神經網絡的輸出,在分類過程中其為類別向量;h(x),H為隱含層特征映射矩陣;β為隱含層輸出層連接權重。在KELM算法中有

(2)
式中T為訓練樣本的類標志向量組成的矩陣;C為正規化系數;I為單位矩陣。
在隱含層特征映射h(x)未知的情況下,可將KELM的核矩陣定義如下[13]
ΩELM=HHT:ΩELMi,j=h(xi)h(xj)=K(xi,xj)
(3)
則可將式(1)變換為
(4)
使用徑向基函數(RBF)為核函數,即
(5)
由式(4)和式(5)可以得到正規化系數C和核函數參數s是需要設定的參數,是影響KELM分類的重要因素。因此,對KELM參數優化,即是對正規化系數C和核函數參數s的優化。將KELM分類精度記為acc(C,s),參數C和s上界分別為a和b,下界均為0,則KELM參數優化模型為
maxacc(C,s)
st:C∈[0,a]
st:s∈[0,b]
(6)
即在給定區間內尋找一組C和s,使得KELM在所給數據上分類精度達到最大。本文采用7折交叉驗證[14,15](7-CV),所得7個分類模型的平均精度作為遺傳算法中個體的適應度。其中,交叉驗證精度可用下式表達
(7)

圖1 7折交叉驗證與GA結合優化參數算法流程
本文采用7折交叉驗證和GA優化算法對核極限學習機參數進行優化,從而得到優化參數C和s,而后將優化參數應用到KELM算法中進行數據分類。具體算法流程如下:
1)將樣本按4︰1分為訓練樣本和測試樣本,訓練樣本用于訓練參數,測試樣本用于分類精度測試;
2)對訓練樣本和測試樣本進行歸一化處理;
3)確定遺傳代數、種群數量、交叉概率、變異概率以及參數C和s的變化范圍;
4)采用7折交叉驗證,按式(7)計算交叉驗證精度acc作為遺傳個體適應度,對KELM分類參數進行評價;
5)對種群進行選擇、交叉、變異,得到新的種群,如果滿足條件,則得到最大的分類準確率,否則,返回步驟(4);
6)輸出最優參數和最優模型,并用測試樣本對獲得最優參數的KELM算法進行分類精度測試。
為驗證本文所提方法的有效性,將GA-KELM,GA-SVM,GA-BP3種算法分別用于數據分類預測。其中,實驗數據采用UCI標準數據集中的Segment,Iris,Diabetes數據集,按4︰1分為訓練數據和測試數據。
實驗中,首先對實驗數據進行歸一化處理,采用7折交叉驗證與GA結合用于KELM參數優化,遺傳代數為50,種群規模為30,交叉概率0.4,變異概率0.01,參數C范圍[0,1000],參數s范圍[0,2],適應度函數按式(7)計算,具體算法流程按照3.2所述。
取20次預測實驗的平均值作為數據分類精度,圖2給出了3種算法在數據集上分類精度的對比,表1給出了3種算法在各數據下分類耗時對比。由圖1可以看出,3種算法均可以進行數據分類,但GA-KELM的分類精度最高,GA-SVM次之,GA-BP較差。

圖2 3種算法在數據集上分類精度對比
由表1可以看出在同樣的數據樣本下,3種算法的耗時各不相同,GA-KELM最少,GA-SVM次之,GA-BP最多。綜上,GA-KELM是一種更加有效的數據分類算法。

表1 3種算法在各數據集上耗時對比
針對KELM數據分類精度易受正規化系數C和核函數參數s影響問題,提出了一種結合K折交叉驗證(K-CV)與GA結合的KELM分類參數優化方法:將交叉驗證所得多個模型的平均精度作為GA的適應度函數值,為KELM的參數優化提供評價標準,而后將GA優化所得參數應用到KELM算法中用于數據分類。為驗證所提算法的有效性,文中將GA-KELM,GA-SVM,GA-BP 3種算法用來對UCI中Segment,Iris,Diabetes 3個數據集數據進行分類預測,并對 3種算法的分類精度和耗時進行了對比,結果表明,本文所提算法在分類精度和耗時上均優于其他2種算法,說明算法可靠有效。
[1] Han J,Kamber M.數據挖掘概念與技術[M].2版.范 明,孟小峰,譯.北京:機械工業出版社,2007.
[2] 錢曉東. 數據挖掘中分類方法綜述[J]. 圖書情報工作,2007,3:68-71.
[3] 龔雪飛,徐 景,孫壽通,等.PSO-BP神經網絡在多元有害氣體檢測中的應用[J].傳感器與微系統,2015,34(2):154-156.
[4] Khanteymoori A R,Homayounpour M M,Menhaj M B.Advances in computer science and engineering[M].Berlin Heidelberg:Springer,2009:25-32.
[5] 陳中杰,蔣 剛,蔡 勇.基于SVM一對一多分類算法的二次細分法研究[J].傳感器與微系統,2013,32(4):44-47.
[6] Huang G B,Zhu Q Y,Siew C K.Extreme learning machine:Theory and applicant[J].Neurocomputing,2006,70(1/2/3):489-501.
[7] 楊 卿,郭 斌,羅 哉,等.遺傳優化神經網絡在氣密性檢測中的應用[J].傳感器與微系統,2011,30(2):132-134.
[8] 伊 鑫,李 輝,馮劍川.基于遺傳優化SVM的通信信號的分類[J].信息化研究,2010,36(3):49-51.
[9] 雷英杰,張善文,李續武,等.Matlab 遺傳算法工具箱及應用[M].西安:西安電子科技大學出版社,2005.
[10] 周 明,孫樹棟.遺傳算法原理及應用[M]. 北京:國防工業出版社,1999.
[11] 唐朝暉,王 迅.基于遺傳算法的大功率電機效率的在線測量[J].傳感器與微系統,2012,31(9):132-135.
[12] Huang Guangbin,Zhou Hongming,Ding Xiaojian.Extreme lear-ning machine for regression and multiclass classification[J].IEEE Transaction on Systems Man and Cybemetics,2012,42(2):513-529.
[13] Huang Guangbin,Wang Dianhui,Lan Yuan,et al.Extreme lear-ning machines:A survey[J].International Journal of Machine Learning and Cybernetics,2011,2(2):107-128.
[14] Alippi C,Roveri M.Virtual k-fold cross validation:An effective method for accuracy assessment[C]∥The International Joint Conference on Neural Networks,2010:1-6.
[15] Chalimourda A,Scholkopf B,Smola A.Experimental optimal V in support vector regression for different noise models and parameter settings[J].Neural Networks,2004,17(1):127-141.
Geneticoptimizationkernel-basedextremelearningmachinedataclassificationalgorithm*
HE Min, LIU Jian-wei, HU Jiu-song
(CollegeofElectricalandInformationEngineering,HunanUniversity,Changsha410082,China)
In order to improve precision of data classification of kernel-based extreme learning machine(KELM),propose KELM classification parameter optimization method,GA-KELM,which combinesK-fold cross-validation(K-CV) and genetic algorithms(GA),the average precision of multiple models of resulting of CV training as GA fitness evaluation function value,provide evaluation criteria for parameter optimization of KELM ,and then the KELM algorithm is used to get the optimization parameters of GA for data classification.Using UCI dataset for simulation,results show that the proposed method is superior to GA-SVM and GA-BP algorithm on the overall performance,with a higher classification precision.
kernel-based extreme learning machine(KELM); genetic optimization; cross validation; parameter optimization; classification precision
10.13873/J.1000—9787(2017)10—0141—03
2016—09—26
中央國有資本經營預算項目(財企2013470號);中央高校基本科研項目(2014—004);國家自然科學基金資助項目(61172089);湖南省科技計劃資助項目(2014WK3001);中國博士后科學基金資助項目(2014M562100)
TN 911.7
A
1000—9787(2017)10—0141—03
何 敏(1977-),女,博士,助理教授,主要研究方向為視覺特征檢測、復雜系統優化控制。