李曉莉,韓 鵬,李曉光
(遼寧大學(xué) 信息學(xué)院,遼寧 沈陽(yáng) 110036)
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN),是當(dāng)前圖像分類的主流技術(shù)之一。目前,基于CNN的圖像分類常采用多尺寸Pooling提取不同級(jí)別特征,或?qū)⒌讓犹卣骱透邔犹卣鹘Y(jié)合方式,提高分類質(zhì)量。然而,訓(xùn)練樣本中包含大量非關(guān)鍵區(qū)分特征,甚至噪音。現(xiàn)有的CNN訓(xùn)練方法并未對(duì)關(guān)鍵特征和非關(guān)鍵特征加以區(qū)分。如果把含有這些部分的特征向量直接交由分類器,就需要大量訓(xùn)練樣本才能將這些不重要部分的權(quán)重降低,網(wǎng)絡(luò)泛化能力才會(huì)提高,分類準(zhǔn)確率才會(huì)達(dá)到預(yù)期值。
本文提出一種利用典型樣本指導(dǎo)修正CNN訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型TSBCNN。同傳統(tǒng)的CNN不同,TSBCNN不再直接采用所有訓(xùn)練樣本,而是利用典型樣本選取算法從訓(xùn)練集中選擇一部分有“代表性”的樣本,其包含了類別下的典型特征。TSBCNN利用典型樣本訓(xùn)練“經(jīng)驗(yàn)修正網(wǎng)絡(luò)”(HNN)。HNN的作用類似于大腦皮層中上層反饋神經(jīng)對(duì)前饋神經(jīng)進(jìn)行關(guān)聯(lián)、比較的過(guò)程。當(dāng)采用普通樣本進(jìn)行訓(xùn)練時(shí),TSBCNN利用HNN強(qiáng)化和修正CNN特征向量,其修正過(guò)程可以理解為對(duì)原特征向量進(jìn)行局部強(qiáng)化操作,將具有更高區(qū)分能力的特征強(qiáng)化保留,弱化區(qū)分能力差的特征,進(jìn)而達(dá)到利用少量訓(xùn)練獲得關(guān)鍵特征,加快模型訓(xùn)練收斂的同時(shí)防止模型過(guò)擬合。CNN和TSBCNN的訓(xùn)練過(guò)程如圖1所示。

圖1 CNN和TSBCNN訓(xùn)練過(guò)程
本文主要貢獻(xiàn)在于:①提出一種典型樣本指導(dǎo)修正下的卷積神經(jīng)網(wǎng)絡(luò)模型。給出了神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)以及訓(xùn)練方法;②提出一種典型樣本選取算法,用以獲得HNN訓(xùn)練集;③在MNIST數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明TSBCNN具有更好的訓(xùn)練效果。
特征在機(jī)器學(xué)習(xí)中起到至關(guān)重要的作用,僅僅單純依靠增加特征數(shù)量未必會(huì)帶來(lái)網(wǎng)絡(luò)性能的提升。一旦網(wǎng)絡(luò)參數(shù)龐大,數(shù)據(jù)量未能達(dá)到足夠規(guī)模,就會(huì)導(dǎo)致學(xué)習(xí)不充分,無(wú)法確保對(duì)關(guān)鍵特征有效選擇,并且無(wú)關(guān)冗余特征還會(huì)產(chǎn)生過(guò)擬合等問(wèn)題。為了減少這種不利影響,需要進(jìn)行有效特征選擇,以往研究普遍關(guān)注網(wǎng)絡(luò)最后的分類性能,對(duì)特征篩選這一重要環(huán)節(jié)的控制往往相對(duì)較少。Lu HY等[1]提出了卷積神經(jīng)網(wǎng)絡(luò)增強(qiáng)特征選擇模型,利用一些特征評(píng)價(jià)方法來(lái)確定哪些特征更為重要,有效增強(qiáng)了神經(jīng)網(wǎng)絡(luò)的特征選擇能力并驗(yàn)證了該模型的有效性。Li H等[2]通過(guò)在圖像的顯著度探測(cè)問(wèn)題中,將底層特征作為全連接層后高層特征的補(bǔ)充一起合并到神經(jīng)網(wǎng)絡(luò)中,有效地提高了網(wǎng)絡(luò)對(duì)圖像中顯著物探測(cè)的準(zhǔn)確率。高低層特征融合可以在一定程度上增強(qiáng)特征的代表性,但融合特征中仍然涵蓋了大量無(wú)用、冗余特征部分。Alexey Dosovitskiy等[4]提出學(xué)習(xí)通用特征,對(duì)隨機(jī)采樣的“種子”圖像塊的各種變換形成每個(gè)代理類來(lái)得到通用特征。通用特征不等于關(guān)鍵特征,對(duì)網(wǎng)絡(luò)訓(xùn)練速度并未起到提升效果。在監(jiān)督學(xué)習(xí)中,Cross-entropy loss和Softmax并沒(méi)有促進(jìn)網(wǎng)絡(luò)學(xué)習(xí)類內(nèi)更具有辨識(shí)性的特征的功能,Weiyang Liu等[7]提出了一個(gè)廣義的L-Softmax loss,促進(jìn)了對(duì)類內(nèi)緊湊、類間可分離性特征的學(xué)習(xí),實(shí)驗(yàn)結(jié)果表明通過(guò)L-Softmax深度學(xué)習(xí)的特征更具辨識(shí)力,同時(shí)對(duì)4個(gè)基準(zhǔn)數(shù)據(jù)集有很好的實(shí)驗(yàn)效果。可見,關(guān)鍵重要特征對(duì)圖像分類效果有非常重要的作用,因此合理利用這點(diǎn)是有效提升網(wǎng)絡(luò)性能的一種重要途徑。
樣本在特征提取階段中占有非常重要地位,訓(xùn)練樣本是否具有代表性,決定了網(wǎng)絡(luò)的學(xué)習(xí)效果。Huang等[10]提出了一種選取典型樣本與新增樣本結(jié)合學(xué)習(xí)的增量方法,利用初始訓(xùn)練樣本集訓(xùn)練得到一個(gè)初始模型,然后根據(jù)后驗(yàn)概率對(duì)樣本排序,再利用不同規(guī)則在各類中選取少量典型樣本。Duan等[11]針對(duì)包含少量樣本數(shù)據(jù)集情況,采用數(shù)據(jù)增強(qiáng)變換來(lái)擴(kuò)充樣本范圍以提高網(wǎng)絡(luò)識(shí)別準(zhǔn)確率和魯棒性。可見,對(duì)樣本的合理有效利用可以在訓(xùn)練少量樣本的基礎(chǔ)上最大程度地學(xué)習(xí)到關(guān)鍵區(qū)分特征。
我們認(rèn)為,CNN訓(xùn)練中的過(guò)擬合、訓(xùn)練收斂慢等問(wèn)題的主要原因之一是在每次權(quán)值調(diào)整中,調(diào)整量只與網(wǎng)絡(luò)輸出誤差有關(guān)。大量的神經(jīng)科學(xué)研究結(jié)果表明,大腦皮層存在大量的前饋連接和反饋連接,大腦皮層中每個(gè)區(qū)域都在不斷在上層的反饋信號(hào)和下層的前饋信號(hào)間進(jìn)行比較,也就是說(shuō)大腦皮層不斷進(jìn)行歷史經(jīng)驗(yàn)信息(反饋)與當(dāng)前感知信息(前饋)的對(duì)比,兩者的交集就是我們所感知的事物。
在人工神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中,如果能夠利用歷史經(jīng)驗(yàn)來(lái)指導(dǎo)修正訓(xùn)練過(guò)程,根據(jù)數(shù)據(jù)特征區(qū)分能力大小,有選擇的訓(xùn)練,將能夠降低模型過(guò)擬性,并提高訓(xùn)練效率。如圖2所示,MNIST數(shù)據(jù)集同類數(shù)據(jù)具有共同重要特征,如圖中圈中區(qū)域?qū)τ跀?shù)據(jù)區(qū)分起到主要作用,而非圈中區(qū)域作用較低。目前研究工作中的訓(xùn)練方法,視數(shù)據(jù)每個(gè)部分同等重要,僅通過(guò)誤差傳導(dǎo)來(lái)調(diào)整權(quán)值。如果在訓(xùn)練時(shí)更關(guān)注主要特征的學(xué)習(xí),則可以大幅降低網(wǎng)絡(luò)的過(guò)擬,并提高訓(xùn)練效率。

圖2 數(shù)字5及對(duì)應(yīng)強(qiáng)化部分
基于該思想,本文提出一種基于典型樣本的卷積神經(jīng)網(wǎng)絡(luò)TSBCNN。在CNN的基礎(chǔ)上,TSBCNN平行增加了一個(gè)前饋輸出修正網(wǎng)絡(luò),這里稱為經(jīng)驗(yàn)修正網(wǎng)絡(luò)HNN,經(jīng)驗(yàn)網(wǎng)絡(luò)的輸出為“強(qiáng)化因子”。通過(guò)選取少量的典型樣本訓(xùn)練經(jīng)驗(yàn)網(wǎng)絡(luò),以獲得訓(xùn)練數(shù)據(jù)的典型先驗(yàn)特征。在CNN訓(xùn)練中,利用強(qiáng)化因子,對(duì)前饋輸出進(jìn)行局部強(qiáng)化處理,并根據(jù)強(qiáng)化后的CNN輸出誤差來(lái)調(diào)整CNN前饋層。TSBCNN的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,包括兩個(gè)部分:卷積神經(jīng)網(wǎng)絡(luò)CNN以及經(jīng)驗(yàn)修正網(wǎng)絡(luò)HNN。HNN輸出Ya對(duì)CNN輸出Y0進(jìn)行強(qiáng)化,強(qiáng)化函數(shù)為按位乘積,即Y*=Y0⊙Ya; 對(duì)強(qiáng)化輸出Y*利用Softmax進(jìn)行分類,分類向量為Yout。

圖3 TSBCNN結(jié)構(gòu)
TSBCNN所涉及的公式如下,公式符號(hào)描述見表1
Y0=CNN(X)
(1)
Ya=HNN(Xa)
(2)
Y*=Y0⊙Ya
(3)
(4)
(5)

表1 符號(hào)描述
TSBCNN訓(xùn)練分為兩個(gè)部分:①選取典型訓(xùn)練樣本TS,利用梯度下降法訓(xùn)練HNN;②對(duì)全體訓(xùn)練樣本,固定HNN,訓(xùn)練CNN。在選取典型訓(xùn)練樣本時(shí),TSBCNN采用了像素頻度分布直方圖來(lái)刻畫數(shù)據(jù)特征分布,并設(shè)計(jì)了一個(gè)樣本相似度函數(shù)用以度量樣本與典型樣本基于特征分布的相似程度。TSBCNN典型樣本選取過(guò)程如下:

(2)令Hist’為Hist中頻度最大的n′像素位置頻度集合,其中n′=θ*n,θ為自定義截?cái)嚅撝祬?shù)。這里將Hist’作為典型樣本的特征表達(dá);
(3)對(duì)類c中訓(xùn)練樣本s∈sc, 計(jì)算s與Hist’的相似度Sim公式定義如下
(6)
對(duì)于給定的相似度閾值參數(shù)η, 當(dāng)Sim(s,Hist’)>η時(shí),將樣本s歸為類c的典型樣本TS。
(4)選取典型樣本數(shù)量過(guò)少不利于HNN學(xué)習(xí)關(guān)鍵特征,影響后續(xù)強(qiáng)化因子的準(zhǔn)確性;選取過(guò)多會(huì)增加網(wǎng)絡(luò)訓(xùn)練總時(shí)長(zhǎng)。從實(shí)驗(yàn)角度建議典型樣本數(shù)不要超過(guò)全量樣本的35%左右。
本文采用MNIST數(shù)據(jù)集和HWDB1.1數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集。MNIST訓(xùn)練集共60 000個(gè)樣本,其中包含55 000行的訓(xùn)練集和5000行的驗(yàn)證集。測(cè)試集共10 000個(gè)樣本。HWDB1.1中文手寫數(shù)據(jù)集,包括漢字分類3755種,實(shí)驗(yàn)選用其中最常用的50個(gè)漢字作為實(shí)驗(yàn)對(duì)象。數(shù)據(jù)集概況見表2。在MNIST數(shù)據(jù)集上選取典型樣本過(guò)程中,“0”標(biāo)簽像素頻度直方圖Hist如圖4所示,橫軸表示部分像素位置,縱軸表示圖像二值化累計(jì)頻度值。通過(guò)兩個(gè)閾值參數(shù):截?cái)嚅撝祬?shù)θ、相似度閾值參數(shù)η,并根據(jù)式(6)得到該類下所有典型樣本。
實(shí)驗(yàn)分析了TSBCNN在MNIST數(shù)據(jù)集和HWDB數(shù)據(jù)集上運(yùn)行效果,比對(duì)TSBCNN與常規(guī)CNN準(zhǔn)確率以及損失函數(shù)的效果差異。

表2 數(shù)據(jù)集概況

圖4 “0”標(biāo)簽樣本部分像素頻度分布直方圖
4.2.1 MNIST實(shí)驗(yàn)結(jié)果與分析
TSBCNN與CNN準(zhǔn)確率對(duì)比如圖5所示,典型樣本數(shù)過(guò)少會(huì)造成HNN經(jīng)驗(yàn)網(wǎng)絡(luò)對(duì)關(guān)鍵特征學(xué)習(xí)不足,影響強(qiáng)化因子準(zhǔn)確性,導(dǎo)致收斂過(guò)程波動(dòng)較為明顯,后續(xù) TSBCNN 準(zhǔn)確率也不會(huì)太高。隨著典型樣本數(shù)增加,可以更好地學(xué)習(xí)關(guān)鍵特征,網(wǎng)絡(luò)收斂速度明顯加快并且波動(dòng)很小,準(zhǔn)確率不斷提高。當(dāng)?shù)湫蜆颖緮?shù)達(dá)到2000時(shí),網(wǎng)絡(luò)在訓(xùn)練18次左右時(shí),TSBCNN準(zhǔn)確率已達(dá)到預(yù)期值,網(wǎng)絡(luò)收斂速度遠(yuǎn)高于傳統(tǒng)CNN。TSBCNN與CNN損失函數(shù)對(duì)比如圖6所示,最終損失函數(shù)收斂速度也明顯高于CNN。MNIST數(shù)據(jù)集的特點(diǎn)是分類少(10類),樣本多(每類約6000左右),同標(biāo)簽下樣本區(qū)別性不大,樣本關(guān)聯(lián)性較強(qiáng),因此隨著典型樣本數(shù)的增加,可以更好捕獲樣本的“典型性”。

圖5 MNIST上準(zhǔn)確率對(duì)比

圖6 MNIST上損失函數(shù)對(duì)比
4.2.2 HWDB實(shí)驗(yàn)結(jié)果與分析
TSBCNN與CNN準(zhǔn)確率對(duì)比如圖7所示,隨著典型樣本數(shù)增加,網(wǎng)絡(luò)收斂速度加快并且準(zhǔn)確率不斷提高。與此同時(shí),TSBCNN與CNN損失函數(shù)對(duì)比如圖8所示,隨著典型樣本數(shù)增加,損失函數(shù)值不斷降低。HWDB數(shù)據(jù)集的特點(diǎn)是分類多(50類),樣本少(每類約240左右),恰巧與MNIST截然相反。由圖7、圖8可以看出,隨著典型樣本數(shù)的增加,雖然網(wǎng)絡(luò)準(zhǔn)確率得以提高,損失函數(shù)值呈下降趨勢(shì),但是二者卻未能達(dá)到預(yù)期值。原因在于漢字手寫數(shù)據(jù)集HWDB分類多,樣本少,區(qū)別性很大且關(guān)聯(lián)性不強(qiáng)的數(shù)據(jù)集,TSBCNN的效果不會(huì)高出傳統(tǒng)CNN太多。因此,針對(duì)這種類型的數(shù)據(jù)集可以考慮是否采用TSBCNN 網(wǎng)絡(luò)。

圖7 HWDB上準(zhǔn)確率對(duì)比

圖8 HWDB上損失函數(shù)對(duì)比
本文主要針對(duì)傳統(tǒng)CNN提取樣本特征時(shí)會(huì)包含大量非關(guān)鍵區(qū)分特征使得訓(xùn)練存在模型過(guò)擬合、訓(xùn)練收斂慢等問(wèn)題,提出利用少量典型樣本來(lái)指導(dǎo)修正CNN訓(xùn)練的卷積網(wǎng)絡(luò)TSBCNN,目的是讓CNN在訓(xùn)練過(guò)程中主要學(xué)習(xí)關(guān)鍵特征,進(jìn)而提高網(wǎng)絡(luò)訓(xùn)練收斂速度并在一定程度上起到減少過(guò)擬合作用。在MNIST數(shù)據(jù)集和HWDB數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果表明,對(duì)于數(shù)據(jù)集中同一類別下樣本較多且樣本之間差異性不大的數(shù)據(jù)集,TSBCNN網(wǎng)絡(luò)有很好的提升效果。對(duì)樣本相對(duì)較少且樣本個(gè)體差異比較大的數(shù)據(jù),提升效果并不明顯。未來(lái)將進(jìn)一步研究如何在樣本關(guān)聯(lián)性不強(qiáng)、樣本差異性大情況下,提高網(wǎng)絡(luò)訓(xùn)練效率以及準(zhǔn)確率。