999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于全采樣和L1范數(shù)降采樣的卷積神經(jīng)網(wǎng)絡(luò)圖像分類方法

2018-03-23 08:23:52宋婷婷徐世許
軟件 2018年2期
關(guān)鍵詞:分類實(shí)驗(yàn)方法

宋婷婷,徐世許

(青島大學(xué)自動(dòng)化與電氣工程學(xué)院,山東 青島 266071)

0 引言

近年來(lái),隨著計(jì)算能力的提升和卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)在圖像分類任務(wù)中的表現(xiàn)逐年變強(qiáng),相比全連接神經(jīng)網(wǎng)絡(luò)[1-4]的性能提升了很多。自2012年,AlexNet[5]獲得ILSVRC(ImageNet Large Scale Visual Recognition Challenge)圖像分類項(xiàng)目冠軍之后,2014年亞軍、2014年冠軍和 2015年冠軍也分別被卷積神經(jīng)網(wǎng)絡(luò) VGGNet[6]、Google InceptionNet[7]和ResNet[8]獲得。在卷積神經(jīng)網(wǎng)絡(luò)中,池化層對(duì)分類性能有重要影響。根據(jù) Springenberg等[9]的分析,池化層的作用相當(dāng)于卷積層中的激活函數(shù),只是用p范數(shù)替代了激活函數(shù)。池化層通過減小輸入尺寸來(lái)減少后一層的參數(shù)量和計(jì)算量。在最大池化層中,每個(gè)池化窗口中最大值被認(rèn)為是對(duì)分類“最有用”的信息而得以保留,其余信息被丟棄。而實(shí)際上,被丟棄的信息也可能對(duì)分類任務(wù)來(lái)說是有用的。針對(duì)最大池化的這一問題,本文提出全采樣方法和基于 L1范數(shù)的降采樣方法替代最大池化層,在CIFAR-10和MNIST數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,在網(wǎng)絡(luò)結(jié)構(gòu)相同、參數(shù)不增加的情況下,所提方法的分類準(zhǔn)確率高于最大池化方法。

1 全采樣和基于L1范數(shù)的降采樣

1.1 全采樣

全采樣包括重新組織輸入信息和使用 1×1卷積恢復(fù)通道數(shù)兩步。以尺寸為4×4、通道數(shù)為L(zhǎng)的輸入為例,介紹全采樣是如何重新組織輸入的。如圖1所示,輸入包括16個(gè)尺寸為1×1、通道數(shù)為L(zhǎng)的張量(多維數(shù)組),并且進(jìn)行了編號(hào)。一個(gè)尺寸為2×2,步長(zhǎng)為2的窗口遍歷輸入,窗口中的四個(gè)張量被抽取出來(lái),然后滑動(dòng)窗口,重復(fù)上述操作,直至遍歷結(jié)束。把每次抽取出來(lái)的相同位置上的張量拼成尺寸為2×2,通道數(shù)為L(zhǎng)的張量,然后把這四個(gè)張量在通道維度上拼接成尺寸為2×2,通道數(shù)為4L的張量。為了把通道數(shù)恢復(fù)為L(zhǎng),后緊跟一個(gè)包含L個(gè)1×1卷積核的卷積層。

1.2 基于L1范數(shù)的降采樣

如果要減少全采樣過程中 1×1卷積層的參數(shù)量,可以保留每個(gè)窗口的4個(gè)張量中L1范數(shù)最大的k∈ { 1,2,3}個(gè)張量,而不是所有的張量,這就是基于L1范數(shù)的降采樣方法。假設(shè)原輸入尺寸為 DF×DF(要求 DF為大于零的偶數(shù)),通道數(shù)為 L。圖 2給出了使用 L1范數(shù)進(jìn)行降采樣(k=3)的示意圖,DF= 4 。使用tensorflow[10,11]實(shí)現(xiàn)的具體步驟為:

步驟一,對(duì)原輸入進(jìn)行切片,得到四個(gè)新輸入,第一個(gè)新輸入與原輸入相同,第二個(gè)新輸入是原輸入右邊 DF×(DF-1)的部分,第三個(gè)新輸入是原輸入下邊(DF- 1 )× DF的部分,第四個(gè)新輸入是原輸入右下(DF- 1 )× ( DF- 1 )的部分;

步驟二,對(duì)每個(gè)新輸入進(jìn)行1×1、步長(zhǎng)為2的最大池化,得到四個(gè)張量,每個(gè)張量的尺寸為

步驟三,計(jì)算步驟二得到的四個(gè)張量的 L1范數(shù);

2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

為了比較全采樣方法、基于L1范數(shù)的降采樣方法和最大池化方法,本文使用結(jié)構(gòu)相同的四個(gè)神經(jīng)網(wǎng)絡(luò):FS-CNN、L1-Norm-CNN(k=3)、L1-Norm-CNN(k=2)和MP-CNN。每個(gè)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和參數(shù)如表1所示。受VGGNet啟發(fā),堆疊3×3卷積層就可以獲得不錯(cuò)的分類準(zhǔn)確率,每個(gè)卷積神經(jīng)網(wǎng)絡(luò)都只使用 3×3的卷積層。每個(gè)卷積層后都緊跟一個(gè)BN(Batch Normalization 批歸一化)層[12]用于加速訓(xùn)練過程,再使用ReLU(Rectified Linear Unit修正線性單元)層[13]作為激活函數(shù)。

(1)FS-CNN(Fully-Sampled-CNN)。第一層和第二層都是卷積層,分別包含96個(gè)3×3卷積核。第三層是全采樣層,包含一個(gè)96個(gè)1×1卷積核的卷積層。第四層和第五層是卷積層,分別包含 192個(gè)3×3卷積核。第六層是全采樣層,包含一個(gè)192個(gè)1×1卷積核的卷積層。第七層是包含192個(gè)3×3卷積核的卷積層。第八層是包含192個(gè)1×1卷積核的卷積層。第九層是包含10個(gè)1×1卷積核的卷積層。第十層是全局平均池化層,滑動(dòng)窗口尺寸為7×7,得到尺寸為 1×1、通道數(shù)為 10的輸出,正好對(duì)應(yīng)下小節(jié)實(shí)驗(yàn)中CIFAR10和MNIST的圖片種類。最后一層為softmax層。

(2)L1-CNN(k=3) (L1-Norm-CNN with k=3)。與FS-CNN的區(qū)別在于,L1- CNN(k=3)的第三層和第六層換成了基于 L1范數(shù)的降采樣層,選取了 3個(gè)L1范數(shù)最大的張量。

(3)L1-CNN(k=2)。與 L1-CNN(k=3)的區(qū)別在于,L1-CNN(k=2)降采樣層選取了2個(gè)L1范數(shù)最大的張量。

(4)MP-CNN(MaxPool-CNN)。為了說明FS-CNN比MP-CNN的性能提升既不是因?yàn)榻Y(jié)構(gòu)不同導(dǎo)致,也不是因?yàn)樵黾訁?shù)導(dǎo)致,把MP-CNN的最大池化層的輸出拷貝4份,然后在通道維度上拼接起來(lái),后接一層 1×1卷積層,使 MP-CNN和FS-CNN的結(jié)構(gòu)和參數(shù)個(gè)數(shù)都相同。

3 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)開發(fā)平臺(tái)為Tensorflow 1.2 GPU版本,使用 Python 3.4作為開發(fā)語(yǔ)言,使用 cuda8.0和cudnn5.1作為運(yùn)算平臺(tái),開發(fā)系統(tǒng)為ubuntu14.04。硬件平臺(tái)主要元件的規(guī)格型號(hào)如表2所示。

圖1 全采樣過程示意圖Fig.1 Full sampling process diagram

圖2 基于L1范數(shù)的降采樣方法的tensorflow實(shí)現(xiàn)示意圖Fig.2 The diagram of tensorflow implementation of the down-sampling method based on L1 norm

表1 實(shí)驗(yàn)使用的卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)Tab.1 The structure of the convolutional neural networks used in experiments

3.1 CIFAR-10數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

CIFAR-10數(shù)據(jù)集包含10類物體的圖像,每類物體有6000張圖片,50000張用于訓(xùn)練,10000張用于測(cè)試,圖像尺寸為32×32。實(shí)驗(yàn)使用了數(shù)據(jù)增強(qiáng)(data augmentation)技術(shù),包括隨機(jī)剪切、左右翻轉(zhuǎn)、調(diào)整亮度、調(diào)整色調(diào)、調(diào)整飽和度和調(diào)整對(duì)比度。隨機(jī)剪切時(shí)從原圖像中隨機(jī)截取28×28的連續(xù)像素區(qū)域。歸一化數(shù)據(jù)增強(qiáng)后的圖像作為神經(jīng)網(wǎng)絡(luò)的輸入。訓(xùn)練方法采用最小批梯度下降法(Mini Batch Gradient Descent),使用交叉熵函數(shù)作為損失函數(shù),每批訓(xùn)練數(shù)據(jù)包含50張圖片。采用Xavier[14]方法對(duì)參數(shù)初始化,每層神經(jīng)網(wǎng)絡(luò)的參數(shù)按照下列均勻分布進(jìn)行初始化:

其中,ni表示當(dāng)前層神經(jīng)網(wǎng)絡(luò)的參數(shù)量,ni+1表示下一層神經(jīng)網(wǎng)絡(luò)的參數(shù)量。參數(shù)更新采用Adam方法[15]。訓(xùn)練總迭代次數(shù)設(shè)置為300000次。為了比較不同卷積神經(jīng)網(wǎng)絡(luò)的性能,將四個(gè)網(wǎng)絡(luò)分別進(jìn)行三次實(shí)驗(yàn),每次實(shí)驗(yàn)包括一個(gè)訓(xùn)練過程和一個(gè)測(cè)試過程。

表2 硬件平臺(tái)主要元件的規(guī)格型號(hào)Tab.2 Specifications of the main components of the hardware platform

表3 CIFAR-10數(shù)據(jù)集上的平均分類準(zhǔn)確率(單位:%,使用了數(shù)據(jù)增強(qiáng))Tab.3 The average classification accuracy on CIFAR-10 datasets. (Unit: %, with data augmentation)

表4 卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)量(單位:百萬(wàn))Tab.4 The number of parameters of the convolutional neural networks. (Unit: million)

所有神經(jīng)網(wǎng)絡(luò)的平均分類準(zhǔn)確率如表3所示,參數(shù)量如表4所示。平均準(zhǔn)確率是三次實(shí)驗(yàn)結(jié)果的平均值。從表3可以看到,分類準(zhǔn)確率最高的神經(jīng)網(wǎng)絡(luò)是 FS-CNN,L1-CNN的分類準(zhǔn)確率低于FS-CNN、高于MP-CNN。表4給出了所有神經(jīng)網(wǎng)絡(luò)的參數(shù)量,F(xiàn)S-CNN與 MP-CNN的參數(shù)量相同,L1-CNN的參數(shù)量略少一些。從表3和表4中可以看出,當(dāng)輸入的四分之一被丟棄時(shí)(L1-CNN(k=3)),分類準(zhǔn)確率與輸入全部保留時(shí)(FS-CNN)相比下降了 0.49%,當(dāng)輸入的四分之二被丟棄時(shí)(L1-CNN(k=2)),分類準(zhǔn)確率繼續(xù)下降,與丟棄四分之一輸入時(shí)相比下降了0.41%,已經(jīng)與MP-CNN的分類準(zhǔn)確率89.60%差別不大。這說明輸入信息都是對(duì)分類“有用的”,盡管貢獻(xiàn)大小可能不一樣,丟棄的輸入越多,對(duì)分類越不利。

3.2 MNIST數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

MNIST數(shù)據(jù)集包含60000張手寫體阿拉伯?dāng)?shù)字圖片,訓(xùn)練集包含55000張圖片,驗(yàn)證集包含5000張圖片,測(cè)試集包含10000張圖片。所有圖片都是灰度圖,尺寸為28×28。訓(xùn)練迭代次數(shù)為20000次,沒有使用數(shù)據(jù)增強(qiáng),直接把28×28原始灰度圖片作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,實(shí)驗(yàn)所用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練方法和參數(shù)設(shè)置與 CIFAR-10相同。平均分類準(zhǔn)確率如表5所示,MNIST上平均分類準(zhǔn)確率的排名與CIFAR-10相同。因?yàn)镸NIST相比CIFAR-10分類難度低,所以神經(jīng)網(wǎng)絡(luò)的分類準(zhǔn)確率都比較高。因?yàn)镸NIST實(shí)驗(yàn)所用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與CIFAR-10數(shù)據(jù)集相同,所以參數(shù)量與表4相差很小,故不再單獨(dú)列出。MNIST實(shí)驗(yàn)也說明,與MP-CNN相比,F(xiàn)S-CNN和L1-CNN (k=3)使用了更多對(duì)分類“有用”的輸入信息,從而提高了分類準(zhǔn)確率因?yàn)榇蟛糠稚窠?jīng)網(wǎng)絡(luò)的平均分類準(zhǔn)確率較高。

表5 MNIST數(shù)據(jù)集上的平均分類準(zhǔn)確率(單位:%,沒有使用數(shù)據(jù)增強(qiáng))Tab.5 The average classification accuracy on MNIST datasets. (Unit: %, without data augmentation)

4 結(jié)束語(yǔ)

本文從卷積神經(jīng)網(wǎng)絡(luò)的降采樣層入手,針對(duì)最大池化丟棄對(duì)圖像分類“有用”的信息這一問題,提出了全采樣方法和基于L1范數(shù)的降采樣方法。分別保留全部輸入和部分輸入。在 CIFAR-10和MNIST上的實(shí)驗(yàn)表明,在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相同、參數(shù)量也相同甚至更少的情況下,所提方法比最大池化的分類準(zhǔn)確率高,說明使用的輸入信息越多,分類準(zhǔn)確率越高。

[1] 楊燕, 劉剛, 張龍. 基于2DPCA和LDA的人臉圖像預(yù)處理與RBF神經(jīng)網(wǎng)絡(luò)的人臉圖像識(shí)別研究[J]. 軟件, 2014,35(2): 115-118.

[2] 王宏濤, 孫劍偉. 基于BP神經(jīng)網(wǎng)絡(luò)和SVM的分類方法研究[J]. 軟件, 2015, 36(11): 96-99.

[3] 安大海, 蔣硯軍. 基于BP神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別系統(tǒng)[J]. 軟件, 2015, 36(12): 76-79.

[4] 王新年, 張濤, 王海姣. 基于神經(jīng)網(wǎng)絡(luò)和先驗(yàn)知識(shí)的低分辨率車牌字符復(fù)原方法[J]. 新型工業(yè)化, 2011, 1(6): 78-83.

[5] A. Krizhevsky, I. Sutskever, and G. E. Hinton, Imagenet classification with deep convolutional neural networks[C],Advances in neural information processing systems, 2012:1097-1105.

[6] K. Simonyan, A. Zisserman, Very deep convolutional networks for large-scale image recognition[J], arXiv preprint arXiv: 1409. 1556, 2014.

[7] C. Szegedy, W. Liu, Y. Jia, et al, Going deeper with convo-lutions[C], Proceedings of the IEEE conference on computer vision and pattern recognition, 2015: 1-9.

[8] K. He, X. Zhang, S. Ren, et al, Deep residual learning for image recognition[C], Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.

[9] J. T. Springenberg, A. Dosovitskiy, T. Brox, et al, Striving for simplicity: The all convolutional net[J], arXiv preprint arXiv: 1412. 6806, 2014.

[10] 才云科技Caicloud, 鄭澤宇, 顧思宇. TensorFlow: 實(shí)戰(zhàn)Google深度學(xué)習(xí)框架[M]. 北京: 電子工業(yè)出版社, 2017.

[11] 山姆·亞伯拉罕著. 段菲, 陳澎譯. 面向機(jī)器智能的TensorFlow實(shí)踐[M]. 北京: 機(jī)械工業(yè)出版社, 2017.

[12] S. Ioffe, C. Szegedy, Batch normalization: Accelerating deep network training by reducing internal covariate shift[C], International Conference on Machine Learning,2015: 448-456.

[13] V. Nair, G. E. Hinton, Rectified linear units improve restricted boltzmann machines[C], Proceedings of the 27th international conference on machine learning, 2010: 807-814.

[14] X. Glorot, Y. Bengio, Understanding the difficulty of training deep feedforward neural networks[C], Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics, 2010: 249-256.

[15] 何宇健. Python與機(jī)器學(xué)習(xí)實(shí)戰(zhàn): 決策樹、集成學(xué)習(xí)、支持向量機(jī)與神經(jīng)網(wǎng)絡(luò)算法詳解及編程實(shí)現(xiàn)[M]. 北京: 電子工業(yè)出版社, 2017.

猜你喜歡
分類實(shí)驗(yàn)方法
記一次有趣的實(shí)驗(yàn)
分類算一算
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 熟妇丰满人妻| 亚洲人成影院午夜网站| 国产激爽爽爽大片在线观看| 毛片a级毛片免费观看免下载| 成人看片欧美一区二区| 91午夜福利在线观看| 久久精品人人做人人| 91色国产在线| 亚洲熟妇AV日韩熟妇在线| 91无码人妻精品一区| 91精品日韩人妻无码久久| 色综合中文| 亚洲熟妇AV日韩熟妇在线| 99伊人精品| 美女被躁出白浆视频播放| 色婷婷国产精品视频| 精品超清无码视频在线观看| 欧美精品高清| 久夜色精品国产噜噜| 精品久久综合1区2区3区激情| 91精品伊人久久大香线蕉| 日本在线视频免费| 久久黄色毛片| 亚洲91精品视频| 亚洲a级在线观看| 在线免费不卡视频| 日韩在线播放欧美字幕| 亚洲人视频在线观看| 美美女高清毛片视频免费观看| 91麻豆精品国产高清在线| 国产精品成人一区二区不卡 | 看看一级毛片| 亚洲视频一区| 就去吻亚洲精品国产欧美| 自拍偷拍一区| 日本精品中文字幕在线不卡| 欧美在线视频不卡| 国模沟沟一区二区三区| 露脸真实国语乱在线观看| 亚洲精品亚洲人成在线| 亚洲无线一二三四区男男| 丁香婷婷久久| 亚洲人成网线在线播放va| 欧美性天天| 久久久噜噜噜| 国产日本欧美亚洲精品视| 香蕉蕉亚亚洲aav综合| 亚洲a级毛片| 国内黄色精品| 国产福利一区视频| 色吊丝av中文字幕| 国产日韩欧美黄色片免费观看| 中文字幕资源站| 国产毛片高清一级国语 | 久久精品电影| 中文字幕久久亚洲一区| 孕妇高潮太爽了在线观看免费| 色综合国产| 欧美第二区| 91久久大香线蕉| 亚洲人成网站在线观看播放不卡| 亚洲丝袜中文字幕| 国产精品无码一二三视频| 欧美成人精品在线| 国产无码制服丝袜| 天堂中文在线资源| 欧美日韩国产高清一区二区三区| 久久天天躁狠狠躁夜夜躁| 亚洲不卡av中文在线| 狠狠色综合网| 亚洲成人一区在线| 国产精彩视频在线观看| 久久久久亚洲精品成人网 | 日本人妻丰满熟妇区| 国产精品va| 香蕉伊思人视频| 亚洲精品人成网线在线| 91精品免费久久久| av一区二区三区高清久久| 国产成人h在线观看网站站| 久久综合色88| 99尹人香蕉国产免费天天拍|