999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力機(jī)制的模糊數(shù)字識(shí)別研究

2023-01-31 08:55:56
關(guān)鍵詞:特征實(shí)驗(yàn)模型

符 哲 夫

(復(fù)旦大學(xué) 上海 200433)

0 引 言

模糊數(shù)字識(shí)別是深度學(xué)習(xí)與模式識(shí)別下一個(gè)重要的分支。這項(xiàng)技術(shù)能夠運(yùn)用在財(cái)務(wù)報(bào)表、車牌識(shí)別、快遞分揀、犯罪證據(jù)判斷、試卷成績(jī)統(tǒng)計(jì)、銀行識(shí)別單據(jù)、統(tǒng)計(jì)金融數(shù)據(jù)等生活中方方面面,有著十分廣闊的應(yīng)用前景[1]。在全球數(shù)據(jù)化和人工智能快速發(fā)展的背景下,對(duì)于模糊數(shù)字識(shí)別研究的需要變得十分迫切,研究出準(zhǔn)確率高并且運(yùn)行時(shí)間短的識(shí)別算法有重要的意義和價(jià)值。Ghosh等[1]經(jīng)過實(shí)驗(yàn),發(fā)現(xiàn)結(jié)合注意力處理能提高大規(guī)模分類任務(wù)中CNN的性能。Fu等[2]提出了殘差注意力網(wǎng)絡(luò)可以提高特征提取性能。Sonbhadra等[3]共同提出了一種基于內(nèi)容的模糊數(shù)字識(shí)別算法,這種算法可以很好地應(yīng)對(duì)圖像邊界不清的問題。Zoran等[4]提出一種YOLO模型的檢測(cè)圖片內(nèi)容算法,最后的結(jié)果可以放到神經(jīng)網(wǎng)絡(luò)的模型中,完成圖像的識(shí)別。這種模型的檢測(cè)速度十分快速,同時(shí)還有非常可觀的準(zhǔn)確率,但是其模糊數(shù)字的邊界處理有一定的不足之處。Wang等[5]合作研究,開發(fā)出一種文本的數(shù)圖像檢測(cè)模型,使用檢測(cè)到的數(shù)字特征,再定位到數(shù)字字符的區(qū)域,最后把結(jié)果利用二值化的技術(shù)后傳送到一個(gè)全連接卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行檢測(cè)。Ma等[6]研究出了數(shù)字邊緣檢測(cè)模型,這種模型利用了滑動(dòng)窗口,可以采用共享權(quán)重的方式提取特征,并利用卷積神經(jīng)網(wǎng)絡(luò)加以檢測(cè),能取得一定效果,但是準(zhǔn)確率和時(shí)間復(fù)雜度仍有提高的空間。

本文主要提出基于注意力機(jī)制的SCDM模塊,用來應(yīng)對(duì)數(shù)字圖像識(shí)別中可能出現(xiàn)模糊不清難以提取特征的情況[7]。SCDM模塊具體可分為通道域(Channel)模塊和空間域(Space)模塊。使用該模塊能夠有效地利用圖像中的通道注意力信息和空間注意力信息[8],對(duì)模糊數(shù)字圖像的特征加以提取。本文介紹模SCDM模塊的基本結(jié)構(gòu)與各模塊特征的計(jì)算方法,并經(jīng)過實(shí)驗(yàn)驗(yàn)證,在ResNet網(wǎng)絡(luò)上使用該模塊,相較于之前的模糊數(shù)字識(shí)別方法準(zhǔn)確率能進(jìn)一步提高。

1 模塊設(shè)計(jì)

1.1 通道域模塊基本結(jié)構(gòu)

通道域的中心思想是,使用特征中通道之間的聯(lián)系,生成新的通道注意力圖I′,并對(duì)通過卷積得到的特征圖各通道層分配以不同的權(quán)重。這顯示了該層所表示特征與目標(biāo)信息的關(guān)聯(lián)性。相應(yīng)地,權(quán)重越大,這個(gè)層所表示的信息越重要,關(guān)聯(lián)性的程度越高。權(quán)重越小,這個(gè)層所表示的信息就越不重要。獲得k維卷積層后,通過壓縮函數(shù)、Sigmoid函數(shù)和比例函數(shù)等獲得各維的權(quán)重w1,w2,…,wk。這些權(quán)重將與各通道特征相乘,以獲得新的特征[9]。通道注意力模塊如圖1所示。

圖1 通道注意力模塊

如果將I∈RC×H×W的特征指定為輸入,SCDM將按先后順序得到一維通道注意力圖Mc∈RC×1×1以及二維空間注意力圖Ms∈R1×H×W。整個(gè)特征提取的過程可以概括為兩個(gè)階段:

I′=Mc(I)?I

(1)

I″=Mc(I′)?I′

(2)

(3)

(4)

通道域模塊注意力特征圖的計(jì)算方法為:

MC(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))

(5)

通道模塊的操作過程可以概括為以下:

(1) 對(duì)于一個(gè)中間特征圖作為輸入,利用兩種池化方式將每一個(gè)二維通道圖映射為一個(gè)特征量α,α一定程度上具有全局的感受野。最終獲得向量的維度k和中間特征圖的通道數(shù)是一致的。

(2) 利用共享的多層感知器MLP進(jìn)行調(diào)整,可以更好地?cái)M合特征通道間的聯(lián)系,同時(shí)也可以實(shí)現(xiàn)輕量級(jí)運(yùn)算,降低時(shí)間復(fù)雜度。再輸出經(jīng)過調(diào)整的特征F。

(3) 將每個(gè)向量各個(gè)元素進(jìn)行逐項(xiàng)相加,映射成一個(gè)一維向量F′,再輸入到Sigmoid函數(shù),這樣可以得到位于[0,1]區(qū)間內(nèi)的向量。

(4) 把每一個(gè)通道與輸入的中間特征圖進(jìn)行加權(quán)運(yùn)算,實(shí)現(xiàn)初始特征在通道的每一個(gè)維度上重新標(biāo)定。

1.2 空間域模塊基本結(jié)構(gòu)

空間域的設(shè)計(jì)思路是通過注意力機(jī)制,關(guān)注空間中的位置特性,將原來圖像中的空間特征映射到其他空間中,并保存重要的信息[13]。空間注意力模塊如圖2所示。

圖2 空間注意力模塊

對(duì)于某個(gè)確定的通道域的特征I″,計(jì)算空間注意力的主要的思路與通道注意力的思想方法類似。要想獲得空間注意力圖,需要計(jì)算一個(gè)二維向量β,該向量對(duì)全部區(qū)域所有像素點(diǎn)進(jìn)行通道賦值操作,然后將這個(gè)二維向量β輸入到一個(gè)卷積層當(dāng)中并獲得輸出β′。最終將注意力圖通過Sigmoid函數(shù)進(jìn)行歸一化[14]。

因?yàn)榫矸e操作是把不同的通道和空間信息融合在一起來獲得圖像特征,因此模糊數(shù)字識(shí)別中采用這個(gè)混合模塊來突出沿這兩個(gè)重要維度(空間域和通道域)的有價(jià)值特征[15]。為此,將空間域模塊和通道域模塊串聯(lián)使用,從而每個(gè)卷積模塊都可以單獨(dú)訓(xùn)練在通道域和空間域上的不同參數(shù)。該模塊能夠利用學(xué)習(xí)強(qiáng)化或削減某些信息,對(duì)于網(wǎng)絡(luò)內(nèi)的特征信息的提取具有重要的意義。

空間注意力向量Ct的定義為:

Ct=f(v,ht-1)

(6)

式中:f表示的是注意力映射函數(shù);v表示卷積層獲得的輸入圖像的特征;ht-1表示在t-1時(shí)隱藏層獲得的狀態(tài)。

之后用一個(gè)神經(jīng)網(wǎng)絡(luò)層把圖像特征和隱藏層狀態(tài)一起輸入,最后添加Softmax函數(shù)用來獲得圖片的空間注意力分布。

at=ktatanh(kvv+(khht-1))

(7)

γt=softmax(at)

(8)

式中:kta、kv、kh這幾個(gè)參數(shù)都需要通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)獲得的。

2 實(shí)驗(yàn)和分析

2.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)集說明

實(shí)驗(yàn)環(huán)境:本文中實(shí)驗(yàn)均采用的是如下硬件環(huán)境:CPU為Intel(R) Core i7- 920,主頻2.66 GHz,16 GB物理主存,GPU為NVIDIA GTX 1080,運(yùn)行的操作系統(tǒng)為ubuntu18.04,并通過Python3.6環(huán)境下編譯。

使用數(shù)據(jù)集:為了驗(yàn)證本文提出模塊的有效性,利用了多個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。

(1) SVHN[16],這是源自于Google街景拍攝的數(shù)字?jǐn)?shù)據(jù)集,數(shù)據(jù)豐富,包含約30 000幅模糊數(shù)字圖像。經(jīng)過優(yōu)化后,對(duì)于圖片的預(yù)先處理要求比較低。數(shù)據(jù)集含有兩個(gè)變量X代表圖像,訓(xùn)練集X的張量需要(samples,width,height,channels)等參數(shù),所以需要進(jìn)行轉(zhuǎn)換。由于直接調(diào)用cifar 10的網(wǎng)絡(luò)模型,數(shù)據(jù)需要先做個(gè)歸一化,將所有像素除以255,另外原始數(shù)據(jù)0的標(biāo)簽是10,這里要轉(zhuǎn)化成0,并提供one_hot編碼。

(2) MNIST[17],這是NIST共享集中的一個(gè)子數(shù)據(jù)集,已在特征方面優(yōu)化過,并添加高斯模糊處理。數(shù)據(jù)集包含了0~9共10類手寫數(shù)字圖片,每幅圖片都做了尺寸歸一化,都是28×28大小的灰度圖。每幅圖片中像素值大小在0~255之間,其中:0是黑色背景;255是白色前景。

2.2 評(píng)價(jià)指標(biāo)

模糊數(shù)字識(shí)別的任務(wù)里最通用的評(píng)價(jià)參數(shù)是識(shí)別準(zhǔn)確率,本文也以圖像識(shí)別準(zhǔn)確率進(jìn)行識(shí)別方法性能評(píng)估[18],如式(9)所示。

(9)

式中:K表示測(cè)試集中模糊數(shù)字圖像的總數(shù);Ka表示測(cè)試集數(shù)字圖片預(yù)測(cè)正確的圖片數(shù)目,識(shí)別準(zhǔn)確率可以比較好地反映識(shí)別的性能。

平均識(shí)別時(shí)間可由式(10)得到。

(10)

式中:n表示測(cè)試集中模糊數(shù)字圖像預(yù)測(cè)正確的總數(shù);Ti表示第i幅測(cè)試集數(shù)字圖片預(yù)測(cè)的消耗時(shí)間。平均識(shí)別時(shí)間也能反映識(shí)別的性能。

2.3 實(shí)驗(yàn)過程與結(jié)果分析

可以通過實(shí)驗(yàn)說明該利用模塊的有效性。對(duì)于此部分研究,使用SVHN、MNIST等數(shù)據(jù)集的圖片當(dāng)作訓(xùn)練集并采用ResNet作為基礎(chǔ)架構(gòu)[12]。SVHN分類數(shù)據(jù)集包含用于訓(xùn)練的8 000幅圖像和用于驗(yàn)證的多種類別的12 000幅圖像。MNIST數(shù)據(jù)集則包括了5 000幅數(shù)字圖像用于訓(xùn)練,14 000幅圖像用于測(cè)試。采用以上數(shù)據(jù)集進(jìn)行訓(xùn)練,224×224規(guī)格的數(shù)字圖像在測(cè)試中被用作輸入。學(xué)習(xí)率從0.1開始,訓(xùn)練批次為100,最大迭代次數(shù)20 000。

首先,使用ResNet模型在SVHN數(shù)據(jù)集上進(jìn)行添加SCDM模塊的模糊數(shù)字識(shí)別實(shí)驗(yàn)。先訓(xùn)練采用最大池化的ResNet模型,再將ResNet模型中初始池化層的最大池化替換成了平均池化進(jìn)行訓(xùn)練[19]。在第一個(gè)實(shí)驗(yàn)里,單獨(dú)利用通道注意力模塊,并且將壓縮比設(shè)置為16。實(shí)驗(yàn)采用跨通道域的平均池化方法和最大池化方法以及利用標(biāo)準(zhǔn)1×1卷積將通道維數(shù)減小為1的通道池[20]。另外,內(nèi)核大小分別為3和7。在第二個(gè)實(shí)驗(yàn)中,將之前討論的通道域模塊設(shè)置在空間域模塊的前面,這是為了將兩個(gè)模塊串聯(lián)使用。

利用MNIST數(shù)據(jù)集和SVHN數(shù)據(jù)集,復(fù)現(xiàn)文獻(xiàn)[6]的Inception模型的對(duì)比實(shí)驗(yàn),發(fā)現(xiàn)相比之前的文獻(xiàn)[6]的Inception模型,準(zhǔn)確性提高了近2.56百分點(diǎn),如圖3和圖4所示。另外還作了單獨(dú)添加空間注意力模塊的實(shí)驗(yàn)結(jié)果對(duì)比。可以觀察到加了空間注意力模塊能得到更高的準(zhǔn)確率,這表明兩個(gè)子模塊一起用能得到更精確的提取特征。可以看出添加單通道模塊和完整的SCDM模塊都能起到一定的效果。同時(shí)也能看出,如果只利用單通道模塊,而沒有利用完整的SCDM模塊,結(jié)果就會(huì)差一些,準(zhǔn)確率比后者要低4.35百分點(diǎn)。這說明加入SCDM模塊是一種可以提升精度的方法,可以在不增加其他可學(xué)習(xí)參數(shù)的情況下將識(shí)別準(zhǔn)確率從傳統(tǒng)方法的基礎(chǔ)上進(jìn)一步提升。在通道注意力模型里同時(shí)利用了平均池化方法和最大池化方法,且壓縮比設(shè)置為8。

圖3 MNIST數(shù)據(jù)集上的識(shí)別準(zhǔn)確率曲線圖

圖4 SVHN數(shù)據(jù)集在上的識(shí)別準(zhǔn)確率曲線圖

以上的實(shí)驗(yàn)結(jié)果表明,SCDM模塊在ResNet網(wǎng)絡(luò)中能夠提高識(shí)別的準(zhǔn)確率,但是實(shí)驗(yàn)過程僅僅只考慮到了ResNet的網(wǎng)絡(luò)架構(gòu)。為了進(jìn)一步證明該模塊的泛化性,另外使用了AlexNet網(wǎng)絡(luò)模型,添加該模塊后進(jìn)行對(duì)照實(shí)驗(yàn)。學(xué)習(xí)率從0.1開始,訓(xùn)練批次為100,最大迭代次數(shù)20 000。首先單獨(dú)利用通道注意力模塊,并且將壓縮比設(shè)置為16。再將通道域模塊與空間域模塊串聯(lián)使用。實(shí)驗(yàn)結(jié)果如圖5所示。從實(shí)驗(yàn)結(jié)果可以看出,在AlexNet網(wǎng)絡(luò)下使用SCDM模塊,準(zhǔn)確率比之前的Inception模型提高2.15百分點(diǎn)。這也能看出,SCDM模塊在不同網(wǎng)絡(luò)下準(zhǔn)確率均能取得一定的提升,但是在ResNet網(wǎng)絡(luò)使用該模塊提升的準(zhǔn)確率較多。

圖5 SVHN數(shù)據(jù)集在AlexNet網(wǎng)絡(luò)上的識(shí)別準(zhǔn)確率曲線圖

實(shí)驗(yàn)結(jié)果數(shù)據(jù)表明在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中通過引入該附加的模塊,能有效地利用注意力機(jī)制,能從傳統(tǒng)的基本網(wǎng)絡(luò)中獲得更高的準(zhǔn)確率[21]。這說明用SCDM加強(qiáng)的網(wǎng)絡(luò)比基礎(chǔ)傳統(tǒng)網(wǎng)絡(luò)更有針對(duì)性地關(guān)注目標(biāo)特征,同時(shí)也說明該模塊具有泛化性,在不同的網(wǎng)絡(luò)中都能使用。特征的提取性能提高主要是因?yàn)橛行畔⒌年P(guān)注和無效信息的弱化[6]。并且通過實(shí)驗(yàn)也能發(fā)現(xiàn),在SVHN和MNIST數(shù)據(jù)集上目標(biāo)提取識(shí)別的性能均有比較好的改進(jìn),這也說明了SCDM模塊能適用于多種場(chǎng)合的數(shù)據(jù)集,具有一定的普適性。在對(duì)比不同卷積核大小產(chǎn)生的影響時(shí),發(fā)現(xiàn)在兩種情況下利用更大的卷積核將會(huì)產(chǎn)生更高的精度。這說明有必要用一個(gè)更大的感受野來確定空間上需要重點(diǎn)關(guān)注的區(qū)域[22]。因此在計(jì)算空間注意力時(shí),可以利用通道數(shù)較多和內(nèi)核較大的卷積層來計(jì)算。使用空間注意力模塊時(shí),設(shè)置卷積核大小為7。此外,也對(duì)比了使用該方法和文獻(xiàn)[6]方法的識(shí)別時(shí)間,如圖6所示。結(jié)果表明相差不大,均在1.01 s左右。這是由于這個(gè)模塊的運(yùn)算量相比卷積網(wǎng)絡(luò)來說不太大,因此引入?yún)?shù)和提高計(jì)算時(shí)間的花費(fèi)可以相對(duì)忽略[23]。

圖6 MNIST數(shù)據(jù)集上的識(shí)別時(shí)間曲線圖

表1 多種方法識(shí)別準(zhǔn)確率對(duì)比

本節(jié)進(jìn)行的實(shí)驗(yàn)中,添加SCDM模塊的最終分類精確度最高為96.82%。比較現(xiàn)有的方法,采用文獻(xiàn)[6]的Inception模型的方法是分類精確度較高的一種方法。與文獻(xiàn)[6]的方法相比較,本文方法分類準(zhǔn)確度提升了2.56百分點(diǎn)。結(jié)果證實(shí)利用SCDM模塊能有效地提高模糊數(shù)字識(shí)別的準(zhǔn)確率和有效性。

3 結(jié) 語

本文對(duì)于不同場(chǎng)景下的模糊數(shù)字,提出一種基于注意力機(jī)制的SCDM模塊。在進(jìn)行訓(xùn)練時(shí)應(yīng)用該模塊,使中間的特征圖沿著空間與通道兩個(gè)不同的維度生成注意力特征圖,這樣能夠強(qiáng)化有效信息,削弱無效信息。在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中通過引入該附加的模塊,能有效地突出空間和通道上的特征,從傳統(tǒng)網(wǎng)絡(luò)中獲得更高的準(zhǔn)確率。并通過MNIST和SVHN數(shù)據(jù)集的實(shí)驗(yàn),驗(yàn)證了運(yùn)用該模塊獲得的識(shí)別準(zhǔn)確率要高于已經(jīng)存在的方法,說明該模塊具有一定的泛化性與普適性,同時(shí)也證明了注意力機(jī)制的有效性。

猜你喜歡
特征實(shí)驗(yàn)模型
一半模型
記一次有趣的實(shí)驗(yàn)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
3D打印中的模型分割與打包
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
主站蜘蛛池模板: 91在线视频福利| 中文字幕在线日本| 高潮毛片无遮挡高清视频播放| 亚洲中文无码av永久伊人| 国产午夜福利亚洲第一| 宅男噜噜噜66国产在线观看| 亚洲三级影院| 有专无码视频| 一级香蕉视频在线观看| 高h视频在线| 狠狠ⅴ日韩v欧美v天堂| 谁有在线观看日韩亚洲最新视频| 日a本亚洲中文在线观看| 无码国产伊人| 欧美人在线一区二区三区| 日本欧美视频在线观看| 中文字幕在线观| 国产黄网永久免费| 午夜国产精品视频黄 | 日本人妻一区二区三区不卡影院| 亚洲性视频网站| 国产经典免费播放视频| 99热这里只有精品久久免费| 蜜桃臀无码内射一区二区三区| 国产精品毛片一区| 午夜精品国产自在| www亚洲天堂| 亚洲系列无码专区偷窥无码| 亚洲欧洲一区二区三区| 国产精品999在线| 免费a级毛片18以上观看精品| 国内熟女少妇一线天| 久久久成年黄色视频| 99久久精品美女高潮喷水| 亚洲欧美成人综合| 欧美精品色视频| 久久精品66| 久久久久免费看成人影片| 久久国产精品麻豆系列| 在线免费观看a视频| 五月丁香在线视频| 久久semm亚洲国产| 精品色综合| 毛片在线播放a| 国产男女XX00免费观看| 黑色丝袜高跟国产在线91| 国产综合网站| 亚洲成aⅴ人在线观看| 欧美色丁香| a色毛片免费视频| 国产69精品久久| 亚洲天堂啪啪| 91国内视频在线观看| 国产精品三级av及在线观看| 高清国产va日韩亚洲免费午夜电影| 午夜一级做a爰片久久毛片| 亚洲成aⅴ人片在线影院八| 超级碰免费视频91| 毛片免费高清免费| 久久毛片基地| 精品久久国产综合精麻豆| 制服丝袜亚洲| 91午夜福利在线观看精品| 一级全免费视频播放| 久久狠狠色噜噜狠狠狠狠97视色 | 亚洲第一视频网| 不卡无码网| 亚洲国产成人麻豆精品| 日韩视频福利| 亚洲乱码在线播放| 国产杨幂丝袜av在线播放| 欧美亚洲一区二区三区导航| 亚洲第一中文字幕| 国产美女一级毛片| 成人噜噜噜视频在线观看| 国产精品亚洲αv天堂无码| 免费亚洲成人| 91精品啪在线观看国产| 91无码人妻精品一区二区蜜桃| 国产精品网址你懂的| 国产国产人成免费视频77777 | 国产精品网曝门免费视频|