基于典型樣本的卷積神經(jīng)網(wǎng)絡(luò)技術(shù)

2020-04-24 08:55:14李曉莉李曉光

計(jì)算機(jī)工程與設(shè)計(jì) 2020年4期

關(guān)鍵詞：特征

李曉莉，韓鵬，李曉光

(遼寧大學(xué) 信息學(xué)院，遼寧沈陽(yáng) 110036)

0 引言

卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks，CNN)，是當(dāng)前圖像分類的主流技術(shù)之一。目前，基于CNN的圖像分類常采用多尺寸Pooling提取不同級(jí)別特征，或?qū)⒌讓犹卣骱透邔犹卣鹘Y(jié)合方式，提高分類質(zhì)量。然而，訓(xùn)練樣本中包含大量非關(guān)鍵區(qū)分特征，甚至噪音。現(xiàn)有的CNN訓(xùn)練方法并未對(duì)關(guān)鍵特征和非關(guān)鍵特征加以區(qū)分。如果把含有這些部分的特征向量直接交由分類器，就需要大量訓(xùn)練樣本才能將這些不重要部分的權(quán)重降低，網(wǎng)絡(luò)泛化能力才會(huì)提高，分類準(zhǔn)確率才會(huì)達(dá)到預(yù)期值。

本文提出一種利用典型樣本指導(dǎo)修正CNN訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型TSBCNN。同傳統(tǒng)的CNN不同，TSBCNN不再直接采用所有訓(xùn)練樣本，而是利用典型樣本選取算法從訓(xùn)練集中選擇一部分有“代表性”的樣本，其包含了類別下的典型特征。TSBCNN利用典型樣本訓(xùn)練“經(jīng)驗(yàn)修正網(wǎng)絡(luò)”(HNN)。HNN的作用類似于大腦皮層中上層反饋神經(jīng)對(duì)前饋神經(jīng)進(jìn)行關(guān)聯(lián)、比較的過(guò)程。當(dāng)采用普通樣本進(jìn)行訓(xùn)練時(shí)，TSBCNN利用HNN強(qiáng)化和修正CNN特征向量，其修正過(guò)程可以理解為對(duì)原特征向量進(jìn)行局部強(qiáng)化操作，將具有更高區(qū)分能力的特征強(qiáng)化保留，弱化區(qū)分能力差的特征，進(jìn)而達(dá)到利用少量訓(xùn)練獲得關(guān)鍵特征，加快模型訓(xùn)練收斂的同時(shí)防止模型過(guò)擬合。CNN和TSBCNN的訓(xùn)練過(guò)程如圖1所示。

圖1 CNN和TSBCNN訓(xùn)練過(guò)程

本文主要貢獻(xiàn)在于：①提出一種典型樣本指導(dǎo)修正下的卷積神經(jīng)網(wǎng)絡(luò)模型。給出了神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)以及訓(xùn)練方法；②提出一種典型樣本選取算法，用以獲得HNN訓(xùn)練集；③在MNIST數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明TSBCNN具有更好的訓(xùn)練效果。

1 相關(guān)工作

特征在機(jī)器學(xué)習(xí)中起到至關(guān)重要的作用，僅僅單純依靠增加特征數(shù)量未必會(huì)帶來(lái)網(wǎng)絡(luò)性能的提升。一旦網(wǎng)絡(luò)參數(shù)龐大，數(shù)據(jù)量未能達(dá)到足夠規(guī)模，就會(huì)導(dǎo)致學(xué)習(xí)不充分，無(wú)法確保對(duì)關(guān)鍵特征有效選擇，并且無(wú)關(guān)冗余特征還會(huì)產(chǎn)生過(guò)擬合等問(wèn)題。為了減少這種不利影響，需要進(jìn)行有效特征選擇，以往研究普遍關(guān)注網(wǎng)絡(luò)最后的分類性能，對(duì)特征篩選這一重要環(huán)節(jié)的控制往往相對(duì)較少。Lu HY等[1]提出了卷積神經(jīng)網(wǎng)絡(luò)增強(qiáng)特征選擇模型，利用一些特征評(píng)價(jià)方法來(lái)確定哪些特征更為重要，有效增強(qiáng)了神經(jīng)網(wǎng)絡(luò)的特征選擇能力并驗(yàn)證了該模型的有效性。Li H等[2]通過(guò)在圖像的顯著度探測(cè)問(wèn)題中，將底層特征作為全連接層后高層特征的補(bǔ)充一起合并到神經(jīng)網(wǎng)絡(luò)中，有效地提高了網(wǎng)絡(luò)對(duì)圖像中顯著物探測(cè)的準(zhǔn)確率。高低層特征融合可以在一定程度上增強(qiáng)特征的代表性，但融合特征中仍然涵蓋了大量無(wú)用、冗余特征部分。Alexey Dosovitskiy等[4]提出學(xué)習(xí)通用特征，對(duì)隨機(jī)采樣的“種子”圖像塊的各種變換形成每個(gè)代理類來(lái)得到通用特征。通用特征不等于關(guān)鍵特征，對(duì)網(wǎng)絡(luò)訓(xùn)練速度并未起到提升效果。在監(jiān)督學(xué)習(xí)中，Cross-entropy loss和Softmax并沒(méi)有促進(jìn)網(wǎng)絡(luò)學(xué)習(xí)類內(nèi)更具有辨識(shí)性的特征的功能，Weiyang Liu等[7]提出了一個(gè)廣義的L-Softmax loss，促進(jìn)了對(duì)類內(nèi)緊湊、類間可分離性特征的學(xué)習(xí)，實(shí)驗(yàn)結(jié)果表明通過(guò)L-Softmax深度學(xué)習(xí)的特征更具辨識(shí)力，同時(shí)對(duì)4個(gè)基準(zhǔn)數(shù)據(jù)集有很好的實(shí)驗(yàn)效果。可見，關(guān)鍵重要特征對(duì)圖像分類效果有非常重要的作用，因此合理利用這點(diǎn)是有效提升網(wǎng)絡(luò)性能的一種重要途徑。

樣本在特征提取階段中占有非常重要地位，訓(xùn)練樣本是否具有代表性，決定了網(wǎng)絡(luò)的學(xué)習(xí)效果。Huang等[10]提出了一種選取典型樣本與新增樣本結(jié)合學(xué)習(xí)的增量方法，利用初始訓(xùn)練樣本集訓(xùn)練得到一個(gè)初始模型，然后根據(jù)后驗(yàn)概率對(duì)樣本排序，再利用不同規(guī)則在各類中選取少量典型樣本。Duan等[11]針對(duì)包含少量樣本數(shù)據(jù)集情況，采用數(shù)據(jù)增強(qiáng)變換來(lái)擴(kuò)充樣本范圍以提高網(wǎng)絡(luò)識(shí)別準(zhǔn)確率和魯棒性。可見，對(duì)樣本的合理有效利用可以在訓(xùn)練少量樣本的基礎(chǔ)上最大程度地學(xué)習(xí)到關(guān)鍵區(qū)分特征。

2 TSBCNN卷積神經(jīng)網(wǎng)絡(luò)

我們認(rèn)為，CNN訓(xùn)練中的過(guò)擬合、訓(xùn)練收斂慢等問(wèn)題的主要原因之一是在每次權(quán)值調(diào)整中，調(diào)整量只與網(wǎng)絡(luò)輸出誤差有關(guān)。大量的神經(jīng)科學(xué)研究結(jié)果表明，大腦皮層存在大量的前饋連接和反饋連接，大腦皮層中每個(gè)區(qū)域都在不斷在上層的反饋信號(hào)和下層的前饋信號(hào)間進(jìn)行比較，也就是說(shuō)大腦皮層不斷進(jìn)行歷史經(jīng)驗(yàn)信息(反饋)與當(dāng)前感知信息(前饋)的對(duì)比，兩者的交集就是我們所感知的事物。

在人工神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中，如果能夠利用歷史經(jīng)驗(yàn)來(lái)指導(dǎo)修正訓(xùn)練過(guò)程，根據(jù)數(shù)據(jù)特征區(qū)分能力大小，有選擇的訓(xùn)練，將能夠降低模型過(guò)擬性，并提高訓(xùn)練效率。如圖2所示，MNIST數(shù)據(jù)集同類數(shù)據(jù)具有共同重要特征，如圖中圈中區(qū)域?qū)τ跀?shù)據(jù)區(qū)分起到主要作用，而非圈中區(qū)域作用較低。目前研究工作中的訓(xùn)練方法，視數(shù)據(jù)每個(gè)部分同等重要，僅通過(guò)誤差傳導(dǎo)來(lái)調(diào)整權(quán)值。如果在訓(xùn)練時(shí)更關(guān)注主要特征的學(xué)習(xí)，則可以大幅降低網(wǎng)絡(luò)的過(guò)擬，并提高訓(xùn)練效率。

圖2 數(shù)字5及對(duì)應(yīng)強(qiáng)化部分

基于該思想，本文提出一種基于典型樣本的卷積神經(jīng)網(wǎng)絡(luò)TSBCNN。在CNN的基礎(chǔ)上，TSBCNN平行增加了一個(gè)前饋輸出修正網(wǎng)絡(luò)，這里稱為經(jīng)驗(yàn)修正網(wǎng)絡(luò)HNN，經(jīng)驗(yàn)網(wǎng)絡(luò)的輸出為“強(qiáng)化因子”。通過(guò)選取少量的典型樣本訓(xùn)練經(jīng)驗(yàn)網(wǎng)絡(luò)，以獲得訓(xùn)練數(shù)據(jù)的典型先驗(yàn)特征。在CNN訓(xùn)練中，利用強(qiáng)化因子，對(duì)前饋輸出進(jìn)行局部強(qiáng)化處理，并根據(jù)強(qiáng)化后的CNN輸出誤差來(lái)調(diào)整CNN前饋層。TSBCNN的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示，包括兩個(gè)部分：卷積神經(jīng)網(wǎng)絡(luò)CNN以及經(jīng)驗(yàn)修正網(wǎng)絡(luò)HNN。HNN輸出Ya對(duì)CNN輸出Y0進(jìn)行強(qiáng)化，強(qiáng)化函數(shù)為按位乘積，即Y*=Y0⊙Ya；對(duì)強(qiáng)化輸出Y*利用Softmax進(jìn)行分類，分類向量為Yout。

圖3 TSBCNN結(jié)構(gòu)

TSBCNN所涉及的公式如下，公式符號(hào)描述見表1

Y0=CNN(X)

(1)

Ya=HNN(Xa)

(2)

Y*=Y0⊙Ya

(3)

(4)

(5)

表1 符號(hào)描述

3 TSBCNN訓(xùn)練

TSBCNN訓(xùn)練分為兩個(gè)部分：①選取典型訓(xùn)練樣本TS，利用梯度下降法訓(xùn)練HNN；②對(duì)全體訓(xùn)練樣本，固定HNN，訓(xùn)練CNN。在選取典型訓(xùn)練樣本時(shí)，TSBCNN采用了像素頻度分布直方圖來(lái)刻畫數(shù)據(jù)特征分布，并設(shè)計(jì)了一個(gè)樣本相似度函數(shù)用以度量樣本與典型樣本基于特征分布的相似程度。TSBCNN典型樣本選取過(guò)程如下：

(2)令Hist’為Hist中頻度最大的n′像素位置頻度集合，其中n′=θ*n，θ為自定義截?cái)嚅撝祬?shù)。這里將Hist’作為典型樣本的特征表達(dá)；

(3)對(duì)類c中訓(xùn)練樣本s∈sc，計(jì)算s與Hist’的相似度Sim公式定義如下

(6)

對(duì)于給定的相似度閾值參數(shù)η，當(dāng)Sim(s,Hist’)>η時(shí)，將樣本s歸為類c的典型樣本TS。

(4)選取典型樣本數(shù)量過(guò)少不利于HNN學(xué)習(xí)關(guān)鍵特征，影響后續(xù)強(qiáng)化因子的準(zhǔn)確性;選取過(guò)多會(huì)增加網(wǎng)絡(luò)訓(xùn)練總時(shí)長(zhǎng)。從實(shí)驗(yàn)角度建議典型樣本數(shù)不要超過(guò)全量樣本的35%左右。

4 實(shí)驗(yàn)與分析

4.1 選取數(shù)據(jù)集與實(shí)驗(yàn)過(guò)程參數(shù)設(shè)置

本文采用MNIST數(shù)據(jù)集和HWDB1.1數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集。MNIST訓(xùn)練集共60 000個(gè)樣本，其中包含55 000行的訓(xùn)練集和5000行的驗(yàn)證集。測(cè)試集共10 000個(gè)樣本。HWDB1.1中文手寫數(shù)據(jù)集，包括漢字分類3755種，實(shí)驗(yàn)選用其中最常用的50個(gè)漢字作為實(shí)驗(yàn)對(duì)象。數(shù)據(jù)集概況見表2。在MNIST數(shù)據(jù)集上選取典型樣本過(guò)程中，“0”標(biāo)簽像素頻度直方圖Hist如圖4所示，橫軸表示部分像素位置，縱軸表示圖像二值化累計(jì)頻度值。通過(guò)兩個(gè)閾值參數(shù)：截?cái)嚅撝祬?shù)θ、相似度閾值參數(shù)η，并根據(jù)式(6)得到該類下所有典型樣本。

實(shí)驗(yàn)分析了TSBCNN在MNIST數(shù)據(jù)集和HWDB數(shù)據(jù)集上運(yùn)行效果，比對(duì)TSBCNN與常規(guī)CNN準(zhǔn)確率以及損失函數(shù)的效果差異。

表2 數(shù)據(jù)集概況

圖4 “0”標(biāo)簽樣本部分像素頻度分布直方圖

4.2 實(shí)驗(yàn)結(jié)果與分析

4.2.1 MNIST實(shí)驗(yàn)結(jié)果與分析

TSBCNN與CNN準(zhǔn)確率對(duì)比如圖5所示，典型樣本數(shù)過(guò)少會(huì)造成HNN經(jīng)驗(yàn)網(wǎng)絡(luò)對(duì)關(guān)鍵特征學(xué)習(xí)不足，影響強(qiáng)化因子準(zhǔn)確性，導(dǎo)致收斂過(guò)程波動(dòng)較為明顯，后續(xù) TSBCNN 準(zhǔn)確率也不會(huì)太高。隨著典型樣本數(shù)增加，可以更好地學(xué)習(xí)關(guān)鍵特征，網(wǎng)絡(luò)收斂速度明顯加快并且波動(dòng)很小，準(zhǔn)確率不斷提高。當(dāng)?shù)湫蜆颖緮?shù)達(dá)到2000時(shí)，網(wǎng)絡(luò)在訓(xùn)練18次左右時(shí)，TSBCNN準(zhǔn)確率已達(dá)到預(yù)期值，網(wǎng)絡(luò)收斂速度遠(yuǎn)高于傳統(tǒng)CNN。TSBCNN與CNN損失函數(shù)對(duì)比如圖6所示，最終損失函數(shù)收斂速度也明顯高于CNN。MNIST數(shù)據(jù)集的特點(diǎn)是分類少(10類)，樣本多(每類約6000左右)，同標(biāo)簽下樣本區(qū)別性不大，樣本關(guān)聯(lián)性較強(qiáng)，因此隨著典型樣本數(shù)的增加，可以更好捕獲樣本的“典型性”。

圖5 MNIST上準(zhǔn)確率對(duì)比

圖6 MNIST上損失函數(shù)對(duì)比

4.2.2 HWDB實(shí)驗(yàn)結(jié)果與分析

TSBCNN與CNN準(zhǔn)確率對(duì)比如圖7所示，隨著典型樣本數(shù)增加，網(wǎng)絡(luò)收斂速度加快并且準(zhǔn)確率不斷提高。與此同時(shí)，TSBCNN與CNN損失函數(shù)對(duì)比如圖8所示，隨著典型樣本數(shù)增加，損失函數(shù)值不斷降低。HWDB數(shù)據(jù)集的特點(diǎn)是分類多(50類)，樣本少(每類約240左右)，恰巧與MNIST截然相反。由圖7、圖8可以看出，隨著典型樣本數(shù)的增加，雖然網(wǎng)絡(luò)準(zhǔn)確率得以提高，損失函數(shù)值呈下降趨勢(shì)，但是二者卻未能達(dá)到預(yù)期值。原因在于漢字手寫數(shù)據(jù)集HWDB分類多，樣本少，區(qū)別性很大且關(guān)聯(lián)性不強(qiáng)的數(shù)據(jù)集，TSBCNN的效果不會(huì)高出傳統(tǒng)CNN太多。因此，針對(duì)這種類型的數(shù)據(jù)集可以考慮是否采用TSBCNN 網(wǎng)絡(luò)。

圖7 HWDB上準(zhǔn)確率對(duì)比

圖8 HWDB上損失函數(shù)對(duì)比

5 結(jié)束語(yǔ)

本文主要針對(duì)傳統(tǒng)CNN提取樣本特征時(shí)會(huì)包含大量非關(guān)鍵區(qū)分特征使得訓(xùn)練存在模型過(guò)擬合、訓(xùn)練收斂慢等問(wèn)題，提出利用少量典型樣本來(lái)指導(dǎo)修正CNN訓(xùn)練的卷積網(wǎng)絡(luò)TSBCNN，目的是讓CNN在訓(xùn)練過(guò)程中主要學(xué)習(xí)關(guān)鍵特征，進(jìn)而提高網(wǎng)絡(luò)訓(xùn)練收斂速度并在一定程度上起到減少過(guò)擬合作用。在MNIST數(shù)據(jù)集和HWDB數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果表明，對(duì)于數(shù)據(jù)集中同一類別下樣本較多且樣本之間差異性不大的數(shù)據(jù)集，TSBCNN網(wǎng)絡(luò)有很好的提升效果。對(duì)樣本相對(duì)較少且樣本個(gè)體差異比較大的數(shù)據(jù)，提升效果并不明顯。未來(lái)將進(jìn)一步研究如何在樣本關(guān)聯(lián)性不強(qiáng)、樣本差異性大情況下，提高網(wǎng)絡(luò)訓(xùn)練效率以及準(zhǔn)確率。