劉威,劉尚,白潤才,周璇,周定寧
(1.遼寧工程技術(shù)大學(xué) 理學(xué)院,遼寧 阜新 123000; 2.遼寧工程技術(shù)大學(xué) 礦業(yè)學(xué)院,遼寧 阜新 123000)
動態(tài)數(shù)據(jù)約簡的神經(jīng)網(wǎng)絡(luò)分類器訓(xùn)練方法研究
劉威1,劉尚1,白潤才2,周璇1,周定寧1
(1.遼寧工程技術(shù)大學(xué) 理學(xué)院,遼寧 阜新 123000; 2.遼寧工程技術(shù)大學(xué) 礦業(yè)學(xué)院,遼寧 阜新 123000)
針對神經(jīng)網(wǎng)絡(luò)分類器訓(xùn)練時間長、泛化能力差的問題,提出了一種基于動態(tài)數(shù)據(jù)約簡的神經(jīng)網(wǎng)絡(luò)分類器訓(xùn)練方法(DDR)。該訓(xùn)練方法在訓(xùn)練過程中賦給每個訓(xùn)練樣本一個權(quán)重值作為樣本的重要性度量,依據(jù)每次網(wǎng)絡(luò)迭代訓(xùn)練樣本的分類錯誤率動態(tài)更新每個訓(xùn)練樣本的權(quán)重值,之后依據(jù)樣本的權(quán)重值來約簡訓(xùn)練樣本,從而增加易錯分類的邊界樣本比重,減少冗余核樣本的作用。數(shù)值實驗表明,基于權(quán)重的動態(tài)數(shù)據(jù)約簡神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法不僅大幅縮短了網(wǎng)絡(luò)的訓(xùn)練時間,而且還能夠顯著提升網(wǎng)絡(luò)的分類泛化能力。
神經(jīng)網(wǎng)絡(luò);數(shù)據(jù)約簡;分類邊界;樣本權(quán)重;邊界樣本;核樣本
單隱藏層前饋神經(jīng)網(wǎng)絡(luò)由于其學(xué)習(xí)能力強、能夠逼近復(fù)雜非線性函數(shù)、優(yōu)異的信息分布式存儲和并行協(xié)同處理能力以及魯棒性好的特點,使得神經(jīng)網(wǎng)絡(luò)在很多領(lǐng)域得到了廣泛的應(yīng)用。由于神經(jīng)網(wǎng)絡(luò)監(jiān)督學(xué)習(xí)的本質(zhì),在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,隨機初始權(quán)值后,輸入信號通過網(wǎng)絡(luò)正向傳遞,得到模擬輸出信號,之后依據(jù)輸出信號和數(shù)據(jù)標簽之間的誤差反向傳播的方式調(diào)整網(wǎng)絡(luò)權(quán)值,使均方誤差最小,從而使網(wǎng)絡(luò)映射輸出更好地“擬合逼近”數(shù)據(jù)標簽,以達到學(xué)習(xí)的目的。
在神經(jīng)網(wǎng)絡(luò)的分類應(yīng)用中,神經(jīng)網(wǎng)絡(luò)分類器訓(xùn)練過程是一個調(diào)整分類超曲面的過程,在訓(xùn)練初始階段通過隨機產(chǎn)生一個超曲面,然后依據(jù)誤差來調(diào)整超曲面的位置,直到數(shù)據(jù)集中屬于不同類的點正好位于超曲面的不同側(cè)面。這種處理機制決定了神經(jīng)網(wǎng)絡(luò)進行數(shù)據(jù)分類最終獲得的分類超曲面有可能相當(dāng)靠近訓(xùn)練集中的點[1],不僅導(dǎo)致網(wǎng)絡(luò)訓(xùn)練時間長,而且使網(wǎng)絡(luò)分類邊界過于靠近樣本集中點,導(dǎo)致較差的分類泛化能力,所以數(shù)據(jù)樣本對于網(wǎng)絡(luò)訓(xùn)練時間、網(wǎng)絡(luò)性能有重要的影響。
一個數(shù)據(jù)集可以用數(shù)據(jù)特征、數(shù)據(jù)量、數(shù)據(jù)分布來描述。數(shù)據(jù)約簡的目的主要是減少信息量,將一些無關(guān)緊要的信息去掉后,不影響系統(tǒng)原有的功能表達。目前,針對數(shù)據(jù)約簡的研究主要集中在兩個方面:基于特征選擇約簡和基于實例選擇約簡。
基于特征選擇的數(shù)據(jù)約簡是指在所有特征中選擇某些重要的、有代表性的特征,去除對處理結(jié)果影響小甚至無影響的特征,以達到提取主要特征的目的。常見的特征選擇方法主要有粗糙集法[2]、主成分分析法[3]、基于流行學(xué)習(xí)的Autoencoder[4]等。
基于實例選擇的數(shù)據(jù)約簡是從原始數(shù)據(jù)集中選擇具有代表性的實例,去除冗余的和相似性較大的數(shù)據(jù),得到相對較小的約簡數(shù)據(jù)集,以達到減少數(shù)據(jù)量和改變數(shù)據(jù)分布的目的。目前針對實例選擇的數(shù)據(jù)約簡方法主要有基于聚類、基于樣本距離、基于分類邊界的數(shù)據(jù)約簡方法。聚類約簡方法首先通過模糊聚類[5]、K鄰近聚類[6]等聚類方法對訓(xùn)練數(shù)據(jù)進行聚類分析,選擇目標樣本,剔除冗余樣本,以達到數(shù)據(jù)約簡的目的,然后用約簡后的數(shù)據(jù)作為新的訓(xùn)練數(shù)據(jù)進行分類器訓(xùn)練。整個分類系統(tǒng)分為數(shù)據(jù)約簡和分類訓(xùn)練兩個階段,第1階段的數(shù)據(jù)篩選結(jié)果對于最終分類器的性能起著關(guān)鍵性的作用,此外每個階段需要調(diào)整相應(yīng)的模型參數(shù),整個分類系統(tǒng)過于復(fù)雜。基于樣本距離的約簡方法[7],通過構(gòu)建樣本間距離度量(通常為歐氏距離),保留邊界樣本,剔除非邊界樣本。該方法同聚類的概念類似,仍屬于兩階段的分類系統(tǒng)。基于分類邊界數(shù)據(jù)約簡方法主要為支持向量機算法(SVM)[8],SVM算法基于最優(yōu)分類邊界的概念,從訓(xùn)練集中選擇支持向量,使得對支持向量的劃分等價于對整個數(shù)據(jù)集的劃分。
此外,文獻[9]利用HMM模型,通過模型的預(yù)測概率將訓(xùn)練樣本分為好樣本、差樣本和邊界樣本,然后分析了選擇不同的訓(xùn)練樣本對于分類器的影響。文獻[10]的Adaboosting算法依據(jù)分類錯誤率,通過增加錯分類樣本權(quán)重,減小正確分類樣本權(quán)重的方法,改變樣本的權(quán)重分布,以達到重點關(guān)注錯分類樣本的目的,然后通過多個弱分類器加權(quán)綜合獲得強分類器,Adaboosting方法沒有約簡訓(xùn)練數(shù)據(jù),只是更改樣本分布權(quán)重,達到了重點關(guān)注錯分類樣本的目的。
當(dāng)數(shù)據(jù)量大和數(shù)據(jù)過于集中時,神經(jīng)網(wǎng)絡(luò)分類器訓(xùn)練時間長,泛化能力差;結(jié)合數(shù)據(jù)約簡和樣本權(quán)值的思想,本文提出了一種基于動態(tài)數(shù)據(jù)約簡(dynamic data reduction,DDR)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法。該方法依據(jù)神經(jīng)網(wǎng)絡(luò)迭代訓(xùn)練過程中的訓(xùn)練樣本的分類錯誤率,動態(tài)更新訓(xùn)練樣本的權(quán)重,然后依據(jù)權(quán)重對訓(xùn)練數(shù)據(jù)進行動態(tài)約簡,從而達到縮短網(wǎng)絡(luò)訓(xùn)練時間、增強網(wǎng)絡(luò)泛化能力的目的。該方法將數(shù)據(jù)約簡和分類器訓(xùn)練融合為一個階段,比文獻[5-7]的方法具有快速的特點,比文獻[8]具有簡單的優(yōu)勢。
1.1 BP神經(jīng)網(wǎng)絡(luò)
BP (back propagation)神經(jīng)網(wǎng)絡(luò)是一種單向傳播的多層前饋網(wǎng)絡(luò),采用誤差反向傳播權(quán)值學(xué)習(xí)算法(BP算法),是目前應(yīng)用較多的一種模型。BP神經(jīng)網(wǎng)絡(luò)的基本單元是神經(jīng)元,按照神經(jīng)元的功能不同將其分成若干層,通常最左側(cè)的為輸入層,最右側(cè)的為輸出層,而中間的為隱層,只有相鄰層神經(jīng)元之間存在權(quán)值連接,每層內(nèi)部神經(jīng)元無連接,其結(jié)構(gòu)如圖1所示。

圖1 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 BP neural network structure
BP神經(jīng)網(wǎng)絡(luò)的信息傳遞過程主要分為兩個階段:信息前饋傳遞階段和誤差反饋階段。信息前饋階段,每層的輸入信息,首先通過連接權(quán)值進行融合計算,再通過相應(yīng)類型的激活函數(shù)進行激活變換得到輸出信號,然后將輸出信號作為輸入傳入下一層進行相似的信息變換,最終傳遞到輸出層得到網(wǎng)絡(luò)最終輸出。誤差反饋階段,由于神經(jīng)網(wǎng)絡(luò)是一種監(jiān)督學(xué)習(xí)算法,將信號的前饋輸出和真實標簽之間的誤差,通過連接權(quán)值從輸出層反向傳播至輸入層,并依據(jù)梯度值來更新連接權(quán)值,從而達到學(xué)習(xí)的目的。
1.2 DDR訓(xùn)練方法設(shè)計思想
從分類的角度來說,分類的任務(wù)在于尋找分類面,將分類空間劃分為不同的類區(qū)域,訓(xùn)練的作用在于分類超曲面的生成,從這個方面來說,邊界樣本就是位于理想分類超曲面附近的樣本。神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中可以理解為依據(jù)訓(xùn)練數(shù)據(jù)調(diào)整分類超曲面的過程,訓(xùn)練樣本中,如果某種類別的數(shù)據(jù)量越多, 它在訓(xùn)練出的模型中所起的作用就越大,分類超曲面越靠近該分類。所以訓(xùn)練樣本的分布主要影響分類超曲面的位置,訓(xùn)練樣本的個數(shù)則主要影響網(wǎng)絡(luò)的訓(xùn)練時間。
依據(jù)文獻[5,7,9]通過聚類或樣本距離,依據(jù)數(shù)據(jù)樣本位置分布將數(shù)據(jù)分為核樣本和邊界樣本,核樣本數(shù)據(jù)一般位于數(shù)據(jù)類別聚類中心或遠離類別邊界的位置,邊界樣本位于相鄰類別的臨近或重疊位置。從聚類分析的觀點來看,位于類中心的核樣本更具代表性,所表達信息量更大,核樣本可以使得訓(xùn)練出的模式類區(qū)域更加緊湊,不同模式類區(qū)域間隔更大,但核樣本數(shù)目太多,不僅增加網(wǎng)絡(luò)訓(xùn)練時間,還容易使得分類超曲面過于靠近核樣本,使得分類區(qū)域過小,從而使得邊界樣本被劃分到超曲面以外,使得網(wǎng)絡(luò)分類錯誤率增加,泛化能力降低。文獻[11]指出,基于神經(jīng)網(wǎng)絡(luò)的模式識別中,訓(xùn)練樣本的總數(shù)目對于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的影響不是十分重要,重要的是其中邊界樣本的數(shù)目;有了足夠多的邊界樣本,就可以訓(xùn)練出好的分類超曲面。但由于網(wǎng)絡(luò)中邊界樣本個數(shù)相對較少,較少的訓(xùn)練數(shù)據(jù)很容易導(dǎo)致網(wǎng)絡(luò)發(fā)生過擬合現(xiàn)象,同樣會導(dǎo)致網(wǎng)絡(luò)泛化能力下降。所以在神經(jīng)網(wǎng)絡(luò)分類器訓(xùn)練過程中,在利用全部邊界樣本的基礎(chǔ)上,為了防止由于數(shù)據(jù)較少引起的過擬合問題,實驗還應(yīng)選擇相應(yīng)數(shù)量的核樣本來協(xié)同訓(xùn)練。
由于神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程可以理解為分類超曲面移動的過程,訓(xùn)練樣本中,核樣本個數(shù)多,且分布在邊界樣本內(nèi)部,所以在網(wǎng)絡(luò)迭代訓(xùn)練過程中,核樣本一般位于分類超曲面內(nèi)部,其分類錯誤率較低,而邊界樣本隨著分類超曲面的移動,其分類錯誤率也隨之波動。所以在網(wǎng)絡(luò)訓(xùn)練過程中應(yīng)該減少核樣本的作用,增加邊界樣本的比重。
基于上述思想,本文提出了一種基于訓(xùn)練分類錯誤率的動態(tài)數(shù)據(jù)約簡方法(DDR):在網(wǎng)絡(luò)訓(xùn)練過程中,首先賦給每個訓(xùn)練樣本一個權(quán)重值xwi(i=1,2,…,m,m為原始訓(xùn)練樣本總數(shù))作為樣本的重要性度量,則樣本構(gòu)成權(quán)重向量XW={xw1,…,xwi,…,xwm};然后再依據(jù)每次迭代所有原始訓(xùn)練樣本的分類錯誤率動態(tài)更新每個訓(xùn)練樣本的權(quán)重值,更新規(guī)則為:降低正確分類樣本的權(quán)重值,增加錯誤分類樣本的權(quán)重值,以達到重點關(guān)注易錯分類的邊界樣本,弱化易正確分類的核樣本的目的;最后依據(jù)數(shù)據(jù)約簡規(guī)則對訓(xùn)練樣本進行挑選。數(shù)據(jù)約簡選擇規(guī)則為:對于正確分類的訓(xùn)練樣本,在[0,1]隨機選擇一個數(shù)值rand,若rand小于樣本的權(quán)重值,則選擇該樣本為新的訓(xùn)練樣本;否則剔除該樣本。這樣在迭代過程中一直迭代分類正確的核樣本,由于其權(quán)值持續(xù)降低,被選擇的概率較小;而邊界樣本由于其分類準確性隨著分類超曲面的移動而波動,所以其權(quán)重值較大,被選擇的概率較大;對于錯誤分類的樣本則全部選擇。然后將全部錯分類樣本和隨機選擇的部分正確分類樣本作為新的訓(xùn)練樣本集,進行下一次迭代訓(xùn)練。由于神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中迭代收斂較慢,訓(xùn)練過程往往需要較長的迭代次數(shù),這樣會使核樣本的權(quán)重值持續(xù)降低,一些錯誤分類邊界樣本的權(quán)重值則持續(xù)增加,導(dǎo)致訓(xùn)練樣本的權(quán)值差異較大,不利于正確分類樣本的選擇。為了避免上述問題,在權(quán)重值更新后通過權(quán)重值上下限約束,對權(quán)重值進行規(guī)范化處理,權(quán)重下限值為xwb,xwb>0,權(quán)重上限值為xwt,xwt≤1,即權(quán)重xwi∈[xwb,xwt],i=1,2,…,m,通過權(quán)值的規(guī)范化約束,使得迭代過程中選擇邊界樣本的同時,也選擇部分核樣本進行協(xié)同訓(xùn)練,以避免由于樣本過少而引起的過擬合現(xiàn)象。
1.3DDR訓(xùn)練方法算法描述
設(shè)訓(xùn)練集為X={(x1,y1),…,(xi,yi),…,(xm,ym)} ,xi∈Rr,訓(xùn)練樣本批量為s,樣本總均值誤差為E,批量均值誤差為e,連接權(quán)值為w,學(xué)習(xí)率為α,迭代次數(shù)為k,樣本權(quán)重集為XW,正確分類樣本權(quán)重集為XWright,權(quán)重增量為xwd,權(quán)重標識集為XS,錯分類樣本集為Xwrong,正確分類樣本集為Xright,從Xright中選擇的樣本集Xselect,約簡后訓(xùn)練樣本集為Xreduction,則動態(tài)數(shù)據(jù)約簡的神經(jīng)網(wǎng)絡(luò)分類器訓(xùn)練方法算法如下:
算法1 動態(tài)數(shù)據(jù)約簡的神經(jīng)網(wǎng)絡(luò)分類器訓(xùn)練
輸入X,xwd,xwb,xwt=1,XW(1,i)=0.5,i=1,2,…,m;
輸出 神經(jīng)網(wǎng)絡(luò)分類器f(x)。
1)初始化網(wǎng)絡(luò)結(jié)構(gòu),隨機初始化網(wǎng)絡(luò)權(quán)值;
2)訓(xùn)練樣本規(guī)則化預(yù)處理;
3)對當(dāng)前訓(xùn)練樣本Xreduction進行隨機亂序操作,重新排列樣本的順序;
4)按照訓(xùn)練樣本排列序號,依次提取批量s個樣本,樣本分成n個批次,n=round(m/s)。
5)計算網(wǎng)絡(luò)各批量的均值誤差
6)子批量內(nèi)均值修正網(wǎng)絡(luò)的權(quán)值:
7)計算所有樣本的均值誤差:
8)依據(jù)分類錯誤率更新樣本權(quán)重值:
9)樣本權(quán)重約束
10)樣本約簡選擇
11)根據(jù)迭代次數(shù)進行判斷是否達到收斂要求,若達到要求則網(wǎng)絡(luò)完成訓(xùn)練,否則循環(huán)3)~11)。
算法補充說明:round()函數(shù)表示對小數(shù)進行舍入取整操作;神經(jīng)網(wǎng)絡(luò)更新規(guī)則當(dāng)s=m時,即為全批量權(quán)值更新規(guī)則;當(dāng)s=1時,即為增量權(quán)值更新規(guī)則;當(dāng)1
動態(tài)數(shù)據(jù)約簡的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法如圖2。

圖2 動態(tài)數(shù)據(jù)約簡神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法流程圖Fig.2 Flow chart of neural network training method for dynamic data reduction
2.1 實驗參數(shù)設(shè)置
實驗網(wǎng)絡(luò)神經(jīng)元激勵函數(shù)均采用單級S型(Sigmoid)激勵函數(shù),訓(xùn)練中采用動量項梯度下降算法作為網(wǎng)絡(luò)訓(xùn)練算法,為了加速網(wǎng)絡(luò)收斂,選用子批量網(wǎng)絡(luò)權(quán)值更新規(guī)則,同時為了避免過擬合現(xiàn)象,實驗輸入數(shù)據(jù)經(jīng)過預(yù)處理后再輸入到網(wǎng)絡(luò)中,并且在訓(xùn)練過程中加入權(quán)值懲罰項。
為了使算法穩(wěn)定收斂到最小,采用學(xué)習(xí)率縮減的方式來調(diào)節(jié)學(xué)習(xí)率,設(shè)學(xué)習(xí)率改變次數(shù)比例參數(shù)為scaleIndex,學(xué)習(xí)率改變程度參數(shù)為scaleLr,學(xué)習(xí)率改變總次數(shù)為ChangeTimes,學(xué)習(xí)率調(diào)整策略見算法2。
算法2 學(xué)習(xí)率調(diào)整算法
輸入T,scaleIndex,scaleLr,ChangeTimes;
輸出 學(xué)習(xí)率curLr。
ChangeIndex =T*scaleIndex
FORk=1:K
IFk>ChangeIndex&&curTimes ChangeIndex =k+scaleIndex*(K-k) curLr =curLr*scaleLr curTimes =curTimes+1 為了全面公平地對比標準神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法(STD)和本文提出的數(shù)據(jù)約簡神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法(DDR),將兩種神經(jīng)網(wǎng)絡(luò)在相同的網(wǎng)絡(luò)結(jié)構(gòu)、初始權(quán)值和學(xué)習(xí)參數(shù)配置下進行訓(xùn)練。 2.2 人工數(shù)據(jù)可視化分析 為了可視化驗證動態(tài)數(shù)據(jù)約簡神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法在訓(xùn)練過程中數(shù)據(jù)約簡過程,實驗采用正態(tài)分布生成3分類的2維點數(shù)據(jù)集,各類點的坐標均值分別為(38,38),(50,70),(75,45),每個維度的方差為55,每個類別400個樣本,總計1 200個樣本。生成的數(shù)據(jù)集如圖5所示,星號為類別A,五角星為類別B,圓圈為類別C,數(shù)據(jù)集中每個類的中心點數(shù)據(jù)密集,邊界點相對稀疏,且邊界別點之間存在重疊。 實驗參數(shù)設(shè)置:訓(xùn)練樣本個數(shù)為600,測試樣本個數(shù)為600,網(wǎng)絡(luò)結(jié)構(gòu)為2-3-3,迭代次數(shù)為500,學(xué)習(xí)率為0.2,動量項為0.9,權(quán)值懲罰系數(shù)為10-5,學(xué)習(xí)改變參數(shù)scaleIndex和scaleLr均為2/3,ChangeTimes為8,初始訓(xùn)練樣本權(quán)重為0.5,權(quán)重增量系數(shù)為0.005,權(quán)值上限為1,權(quán)值下限為0.1。 依據(jù)實驗參數(shù)設(shè)置可知,訓(xùn)練樣本權(quán)重xwi∈[0.1,1],i=1,2,…,m。為了可視化實驗過程的訓(xùn)練樣本權(quán)重分布,實驗將權(quán)重取值范圍分成[0.1,0.32]、[0.32,0.55]、[0.55,0.77]、[0.77,1]4個區(qū)間,依次使用圓圈、五角星、倒三角、正方形4種圖形來標記每個區(qū)間內(nèi)的訓(xùn)練樣本,訓(xùn)練樣本權(quán)重分布如圖3所示。 (a) 迭代次數(shù)為20 (b) 迭代次數(shù)為50 (c) 迭代次數(shù)為100 (d) 迭代次數(shù)為200 (e) 迭代次數(shù)為300 (f) 迭代次數(shù)為500圖3 訓(xùn)練樣本權(quán)重分布圖Fig.3 Training sample weight distribution graph 分析圖3可知,隨著迭代次數(shù)的增加,在變化趨勢上,樣本點的形狀呈現(xiàn)兩極化的趨勢,處于權(quán)重中段的五角星和倒三角的樣本點個數(shù)逐漸減少,處于權(quán)重兩端的圓圈和正方形的樣本點個數(shù)逐漸增多;在分布趨勢上,遠離類別邊界的點最先變?yōu)閳A圈,臨近類別邊界的點緩慢變化為圓圈,而一些位于邊界附近容易錯分的樣本點最終變化為正方形。這說明遠離類別邊界或位于類別中心的核樣本數(shù)據(jù)更容易被正確分類,而臨近或位于類別邊界的樣本較難被正確分類,從而也證明基于訓(xùn)練錯誤率的樣本權(quán)值能夠反映樣本是否為邊界樣本,即可以從權(quán)值上區(qū)分核樣本和邊界樣本。 相應(yīng)迭代次數(shù)下,訓(xùn)練數(shù)據(jù)集中通過隨機數(shù)和權(quán)重比較選擇的訓(xùn)練樣本如圖4所示,圖中五角星、倒三角、圓圈標記點為原始的訓(xùn)練樣本,正方形框標記點為當(dāng)前迭代次數(shù)下,選擇的訓(xùn)練樣本。 分析圖4可知,隨著迭代次數(shù)的增加,在變化趨勢上,約簡后的訓(xùn)練樣本(正方形框樣本)逐漸減少;在分布上,約簡后的正方形框樣本中核樣本的比重逐漸減少,邊界樣本的比重逐漸增大。這說明基于樣本權(quán)重的數(shù)據(jù)約簡方法能夠篩選掉大部分核樣本,保留部分核樣本,弱化了核樣本的作用,增加了邊界樣本的比重,約簡數(shù)據(jù)的同時,通過保留部分核樣本進行協(xié)同訓(xùn)練,避免了僅選擇少數(shù)邊界樣本會造成的過擬合問題。 (a)迭代次數(shù)為20 (b)迭代次數(shù)為50 (c)迭代次數(shù)為100 (d) 迭代次數(shù)為200 (e)迭代次數(shù)為300 (f) 迭代次數(shù)為500圖4 選擇的訓(xùn)練樣本分布圖Fig.4 Selected training sample distribution map 標準訓(xùn)練方法STD和動態(tài)數(shù)據(jù)約簡方法DDR訓(xùn)練的神經(jīng)網(wǎng)絡(luò)分類器,最終形成的分類邊界如圖5所示。圖中白色、灰色和深灰色區(qū)域為STD方法每個類別對應(yīng)的區(qū)域,區(qū)域邊界即為標準訓(xùn)練方法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)對應(yīng)的分類邊界。黑色實線為DDR方法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的分類邊界。 圖5 神經(jīng)網(wǎng)絡(luò)分類器邊界圖Fig.5 Neural network classifier boundary map 對比圖5中兩個神經(jīng)網(wǎng)絡(luò)分類器邊界可知,DDR方法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)分類器邊界在一個更加恰當(dāng)?shù)姆诸愇恢脜^(qū)分各個類別,比STD方法具有更少的錯分類樣本,這也說明通過增加邊界樣本的比重,削弱核樣本作用訓(xùn)練的神經(jīng)網(wǎng)絡(luò)分類器具有更強的分類泛化能力。 基于以上分析可知,基于樣本權(quán)重的動態(tài)數(shù)據(jù)約簡方法能夠區(qū)分并挑選邊界樣本和核樣本,并隨著網(wǎng)絡(luò)的迭代訓(xùn)練,逐漸增加邊界樣本比重,弱化核樣本作用,從而訓(xùn)練出泛化能力更好的神經(jīng)網(wǎng)絡(luò)分類器。 2.3 標準數(shù)據(jù)集實驗分析 為了驗證基于動態(tài)數(shù)據(jù)約簡的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法在標準分類數(shù)據(jù)集上的效果,選取10組標準數(shù)據(jù)集進行數(shù)值實驗,其中Forest等9組來自UCI分類數(shù)據(jù)集,Mnist標準數(shù)據(jù)集來自官方網(wǎng)站。各組數(shù)據(jù)集屬性以及訓(xùn)練集,測試集樣本個數(shù)信息見表1。10組數(shù)據(jù)集中Forest、IS、SL、Mnist具有固定的分類訓(xùn)練集個數(shù)和測試集個數(shù),剩余的非固定數(shù)據(jù)集,訓(xùn)練集和測試集個數(shù)比例基本保持1:1。 表1 UCI分類數(shù)據(jù)集的屬性信息 在相同的實驗條件下,標準訓(xùn)練算法(STD)和動態(tài)數(shù)據(jù)約簡訓(xùn)練方法(DDR)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)分類器,最終訓(xùn)練集均方誤差loss,訓(xùn)練集分類錯誤率train-Avg,測試集分類錯誤率test-Avg和訓(xùn)練時間time,30次實驗的平均結(jié)果如表2所示。對比STD和DDR兩種訓(xùn)練方法的最終均方誤差,除Seeds數(shù)據(jù)集外,STD訓(xùn)練方法的均方誤差均大于DDR訓(xùn)練方法的均方誤差,說明DDR訓(xùn)練方法在整個訓(xùn)練上更加關(guān)注邊界樣本,弱化了對于訓(xùn)練樣本整體的“逼近擬合”。 對比分類錯誤率,DDR訓(xùn)練方法比STD訓(xùn)練方法在較高的均方誤差下具有更低的訓(xùn)練分類錯誤率,除Forest、SL和Mnist 3個數(shù)據(jù)集外取得相近的預(yù)測分類錯誤率外,DDR訓(xùn)練方法在其余數(shù)據(jù)集上均具有更低的測試分類錯誤率。綜合對比均方誤差和錯分類錯誤率可知,DDR訓(xùn)練方法在較大的均方誤差下取得了較小的訓(xùn)練和測試分類錯誤率,說明DDR訓(xùn)練方法更加注重邊界樣本的作用,具有防止過擬合的能力,能夠訓(xùn)練分類泛化能力更好的神經(jīng)網(wǎng)絡(luò)。 對比網(wǎng)絡(luò)訓(xùn)練時間,DDR訓(xùn)練方法具有更短的訓(xùn)練時間。由于每個數(shù)據(jù)集的訓(xùn)練樣本個數(shù),迭代次數(shù)、批量值、權(quán)重下限值等訓(xùn)練參數(shù)不同,所以相對STD訓(xùn)練方法,DDR訓(xùn)練方法時間縮短程度有所不同,總體上選擇的權(quán)重下限值和學(xué)習(xí)批量越小,DDR訓(xùn)練方法所需的訓(xùn)練時間越短,但過小的權(quán)重下限值和學(xué)習(xí)批量,容易引起網(wǎng)絡(luò)波動,使得網(wǎng)絡(luò)的分類泛化能力較差。 表2 不同神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法的分類錯誤率比較 Table 2 Comparison of classification error rate of different neural network training methods 數(shù)據(jù)集名稱Methodlosstrain?Avgtest?AvgtimeForestSTD0.00750.0715.665.34DDR0.01160.0015.792.11GlassSTD0.03664.4735.377.70DDR0.05041.6333.483.29IPSTD0.00440.3030.041.24DDR0.01080.0029.960.41IrisSTD0.02583.074.220.67DDR0.05851.873.690.36ISSTD0.02743.5110.142.52DDR0.03261.148.721.53LIRSTD0.114112.9214.41122.33DDR0.14468.0511.0177.80SLSTD0.05827.069.6278.14DDR0.06525.809.7834.15SeedsSTD0.03403.406.441.42DDR0.01320.134.983.73WineSTD0.00100.042.650.71DDR0.00170.002.500.49MnistSTD0.00450.101.512104.83DDR0.00470.031.611129.18 基于以上對比分析可知,相對標準的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法STD,動態(tài)數(shù)據(jù)約簡的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法DDR是一種收斂速度更快、分類泛化能力更好的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法。 動態(tài)數(shù)據(jù)約簡神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法(DDR)利用神經(jīng)網(wǎng)絡(luò)迭代訓(xùn)練的特性,借助訓(xùn)練樣本權(quán)值,實現(xiàn)了單階段動態(tài)地約簡訓(xùn)練樣本。通過獎勵錯分類樣本的權(quán)值,懲罰正確分類樣本權(quán)值的權(quán)值更新規(guī)則,依據(jù)權(quán)值來約簡訓(xùn)練樣本,在減少訓(xùn)練樣本的同時,增加了對于分類影響較大的邊界樣本的作用,弱化了冗余核樣本的作用。通過人工數(shù)據(jù)集實驗可視化分析可知:基于分類錯誤率的權(quán)值更新方式,能夠利用權(quán)值有效地區(qū)分訓(xùn)練集中的邊界樣本和核樣本,基于權(quán)值的數(shù)據(jù)約簡規(guī)則,可以剔除冗余核樣本,增加邊界樣本的比重。通過標準數(shù)據(jù)集實驗可知:基于動態(tài)數(shù)據(jù)約簡的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法是一種收斂速度更快、分類泛化能力更強的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法。但動態(tài)約簡神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法相對于標準神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法需要調(diào)節(jié)權(quán)重下限值,權(quán)重增量值等參數(shù),增加了網(wǎng)絡(luò)訓(xùn)練的復(fù)雜性,后續(xù)研究可圍繞約簡參數(shù)的自適應(yīng)調(diào)節(jié)展開,以簡化動態(tài)約簡神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法參數(shù)。 [1]毛勇. 基于支持向量機的特征選擇方法的研究與應(yīng)用[D]. 杭州: 浙江大學(xué), 2006. MAO Yong. A study on feature selection algorithms based on support vector machine and its application[D]. Hangzhou: Zhejiang University, 2006. [2]覃政仁, 吳渝, 王國胤. 一種基于Rough Set的海量數(shù)據(jù)分割算法[J]. 模式識別與人工智能, 2006, 19(2): 249-256. QIN Zhengren, WU Yu, WANG Guoyin. A partition algorithm for huge data sets based on rough set[J]. Pattern recognition and artificial intelligence, 2006, 19(2): 249-256. [3]ABDI H, WILLIAMS L J. Principal component analysis[J]. Wiley interdisciplinary reviews: computational statistics, 2010, 2(4): 433-459. [4]RIFAI S, VINCENT P, MULLER X, et al. Contractive auto-encoders: explicit invariance during feature extraction[C]//Proceedings of the 28th International Conference on Machine Learning. Bellevue, WA, USA: ICML, 2011. [5]周玉, 朱安福, 周林, 等. 一種神經(jīng)網(wǎng)絡(luò)分類器樣本數(shù)據(jù)選擇方法[J]. 華中科技大學(xué)學(xué)報:自然科學(xué)版, 2012, 40(6): 39-43. ZHOU Yu, ZHU Anfu, ZHOU Lin, et al. Sample data selection method for neural network classifier[J]. Journal of Huazhong university of science and technology: natural science edition, 2012, 40(6): 39-43. [6]郝紅衛(wèi), 蔣蓉蓉. 基于最近鄰規(guī)則的神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本選擇方法[J]. 自動化學(xué)報, 2007, 33(12): 1247-1251. HAO Hongwei, JIANG Rongrong. Training sample selection method for neural networks based on nearest neighbor rule[J]. Acta automatica sinica, 2007, 33(12): 1247-1251. [7]HARA K, NAKAYAMA K. A training method with small computation for classification[C]//Proceedings of the IEEE-INNS-ENNS International Joint Conference on Neural Networks. Como, Italy: IEEE, 2000: 543-548. [8]鄧乃揚, 田英杰. 數(shù)據(jù)挖掘中的新方法——支持向量機[M]. 北京: 科學(xué)出版社, 2004. [9]劉剛, 張洪剛, 郭軍. 不同訓(xùn)練樣本對識別系統(tǒng)的影響[J]. 計算機學(xué)報, 2005, 28(11): 1923-1928. LIU Gang, ZHANG Honggang, GUO Jun. The influence of different training samples to recognition system[J]. Chinese journal of computers, 2005, 28(11): 1923-1928. [10]SCHAPIRE R E, SINGER Y. Improved boosting algorithms using confidence-rated predictions[J]. Machine learning, 1999, 37(3): 297-336. [11]韋崗, 賀前華. 神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)及應(yīng)用[M]. 北京: 電子工業(yè)出版社, 1994. 劉威,男,1977年生,副教授,博士,中國計算機學(xué)會會員,主要研究方向為人工智能與模式識別、機器學(xué)習(xí)、露天采礦系統(tǒng)工程。 劉尚,男,1988年生,碩士研究生,主要研究方向為人工智能與模式識別、機器學(xué)習(xí)、計算機視覺。 白潤才,男,1962年生,教授,博士生導(dǎo)師,主要研究方向為數(shù)字礦山、露天開采系統(tǒng)工程。 Reducing training times in neural networkclassifiers by using dynamic data reduction LIU Wei1, LIU Shang1, BAI Runcai2, ZHOU Xuan1, ZHOU Dingning1 (1. College of Science, Liaoning Technical University, Fuxin 123000, China; 2. Mining Institute, Liaoning Technical University, Fuxin 123000, China) In this paper, we present a neural network classifier training method based on dynamic data reduction (DDR) to address long training times and the poor generalization ability of neural network classifiers. In our approach, we assigned each sample a weight value, which was then dynamically updated based on the classification error rate at each iteration of the training sample. Subsequently, the training sample was reduced based on the weight of the sample so as to increase the proportion of boundary samples in error-prone classification environments and to reduce the role of redundant kernel samples. Our numerical experiments show that our neural network training method not only substantially shortens the training time of the given networks, but also significantly enhances the classification and generalization abilities of the network. neural network; data reduction; classification boundary; sample weight; boundary sample; kernel sample 2016-05-28. 日期:2017-02-20. 國家自然科學(xué)基金項目 (51304114, 71371091). 劉尚. E-mail:whiteinblue@126.com. 10.11992/tis.201605031 http://www.cnki.net/kcms/detail/23.1538.tp.20170112.1020.004.html TP301.6 A 1673-4785(2017)02-02258-08 劉威,劉尚,白潤才,等. 動態(tài)數(shù)據(jù)約簡的神經(jīng)網(wǎng)絡(luò)分類器訓(xùn)練方法研究[J]. 智能系統(tǒng)學(xué)報, 2017, 12(2): 258-265. 英文引用格式:LIU Wei, LIU Shang, BAI Runcai, et al. Reducing training times in neural network classifiers by using dynamic data reduction[J]. CAAI transactions on intelligent systems, 2017, 12(2): 258-265.














3 結(jié)論與展望


