999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進CNN特征的場景識別①

2019-01-07 02:40:40薄康虎李菲菲
計算機系統應用 2018年12期
關鍵詞:特征實驗模型

薄康虎,李菲菲,陳 虬

(上海理工大學 光電信息與計算機學院,上海 200093)

隨著信息時代的發展,場景識別在很多圖像(視頻)處理任務中扮演著重要的角色.然而,由于同類間的相似性和異類間的差異性導致場景識別在計算機視覺領域的發展具有挑戰性,強有力的特征提取和準確的分類器成為攻克難關的重要關鍵所在.

傳統的方法主要是提取低級特征用于貝葉斯或支持向量機(SVM)分類.但是,將低級特征直接進行映射可能會引起更大的語義鴻溝[1],后來又將低級特征編碼為中層語義信息進行解決上述問題.其中廣泛使用的編碼方法有詞袋模型(Bag of Words)[2]、空間金子塔模型[3]、概率生成模型[4],稀疏編碼[5]等.

近年來由于計算硬件的發展,卷積神經網絡(CNN)在計算機視覺領域帶來革命性的改革,推動了場景識別的發展.與傳統的統計學方法相比,神經網絡無需對概率模型進行假設,具有極強的學習能力和容錯能力,所以卷積神經網絡不僅可以提高場景識別的準確性,而且還可以作為各種通用特征提取器進行識別任務,如目標檢測、語義分割以及圖像檢索等.只要簡單的預處理圖像就可以直接作為輸入,省去了復雜的特征工程,提高CNN的傳輸能力,因此卷積神經網絡逐漸成為圖像識別問題的重要工具,在圖像理解領域中獲得了廣泛應用.

基于上述研究方法的考慮,本文采用卷積神經網絡進行場景識別的研究,由于不同模型之間的特性和運行效率,故選擇AlexNet模型作為基礎模型,分別進行不同方式的改進提高場景識別率.

1 卷積神經網絡

卷積神經網絡模型是利用空間結構數據的特殊神經網絡架構.一個標準的CNN包含三種特征操作層,即卷積層、池化層和完全連接層.當這些層被堆疊時,如圖1所描述的那樣就形成了CNN架構.

圖1 標準的卷積神經網絡框架

1.1 卷積層

卷積層首先執行卷積操作來完成一系列的線性激活,然后每個線性輸入到非線性激活函數中,例如ReLU、tanh.在卷積層中,輸入與一系列的卷積核進行卷積學習,卷積是一種在兩種信號上的線性操作,例如:有兩個函數x(t)和ω(t),t為連續變量,移位值a,卷積操作可以定義為:

其中,x表示信號輸入,ω表示卷積核 (濾波器),輸出h表示特征映射,t表示時間,a表示移動的步長.

傳統的神經網絡每個輸出都連接每個輸入,而卷積神經網絡擁有局部感受野,這意味著每個輸出單元只連接到輸入的一個子集,利用空間局部相鄰單元之間的相關性進行卷積運算.CNN的另一個顯著特性是參數共享,卷積層中使用的參數共享意味著每個位置共享相同的參數(權重和偏差),減少了整個網絡的參數數量,提高了計算的效率.

1.2 池化層

池化層一般存在于每個卷積層之后來降低上一層卷積計算輸出的維數,即將特征圖像區域的一部分求個均值或者最大值,用來代表這部分區域.如果是求均值就是 mean pooling,求最大值就是 max pooling.常用的是最大值池化,最大值池化輸出的是矩形鄰域內的最大值,圖2描述了具有2×2濾波器和步長為2的最大值池化,下采樣表示空間大小,此外,池化操作可以保證圖像的轉移不變性.

圖2 最大池化示例

1.3 全連接層

在完成多個卷積層和池化層之后,卷積神經網絡通常采用全連接層結束學習,完全連接層中的每個神經元都完全連接到前一層中的所有神經元,在整個卷積神經網絡中起到“分類器”的作用.

2 改進 CNN 網絡模型

傳統的卷積神經網絡(CNN)稀疏的網絡結構無法保留全連接網絡密集計算的高效性和實驗過程中激活函數的經驗性選擇造成結果不準確或計算量大等一系列待優化的問題,本章節以AlexNet作為基本的網絡模型,分別從模型深度、寬度、多尺度提取以及多層特征融合方面進行改進提高場景識別的有效性.

2.1 基本原則

(1)避免早期網絡階段的表達瓶頸問題

一般來說,在最終的表示之前從輸入到輸出表示的尺寸(特征映射分辨率)會緩慢降低,步幅的減少可能會減緩特征映射分辨率的下降并減少圖像信息的丟失,集成多分辨率特征來學習更多空間信息從而克服表達的瓶頸問題.

(2)平衡模型的深度、寬度以及卷積核大小的關系

隨著深度的加深,寬度和卷積核大小需要適當的調整.表1顯示了卷積核大小和步長之間的幾個經驗值.深度和寬度是調節網絡參數的兩個關鍵因素.盡管模型的深度越來越深,模型性能的顯著提高以及計算成本的加劇,但是深度依然被認為是設計CNNs架構時的最高優先級[6–8],另外,減少濾波器 (卷積核)的數量只能部分地補償參數過多的問題.過多的參數最終會導致過度擬合并限制分類精度的提高,因此深度是考慮優化的第一要務,但不是唯一因素.

表1 卷積核大小和步長的經驗值

(3)降低模型復雜度

從神經元數量、模型參數尺度以及所有卷積層的時間復雜度三個方面考慮深度卷積神經網絡的模型復雜度,綜合評估一個表現良好的網絡模型需要考慮這三個方面.

① 時間復雜度

其中,M代表每個卷積核輸出特征圖(Feature Map)的邊長;K代表每個卷積核(Kernel)的邊長;Cin代表每個卷積核的通道數;Cout表本卷積層具有的卷積核個數,即輸出通道數.

由此可見,每個卷積層的時間復雜度由輸出特征圖面積M2、卷積核面積K2,輸入Cin和輸出通道數Cout完全決定.

輸出特征圖尺寸本身由輸入矩形尺寸X,卷積核尺寸K,Padding以及Stride四個參數所決定,表示如下:

卷積神經網絡整體的時間復雜度可以表示為:

其中,D表示神經網絡所具有的卷積層數;l代表神經網絡第l個卷積層;Cl表示神經網絡第l個卷積層的輸出通道數Cout.

② 空間復雜度(模型的參數尺度)

空間復雜度即模型的參數數量,體現為模型本身的體積,可表示為:

可見,網絡的空間復雜度只與卷積核的尺寸K、通道數C、網絡的深度D相關.而與輸入數據的大小無關.

時間復雜度一方面決定了模型的訓練/預測時間,如果復雜度過高,則會導致模型訓練和預測耗費大量時間,既無法快速的驗證想法和改善模型,也無法做到快速的預測;另一方面決定了模型的參數數量,由于維度限制,模型的參數越多,訓練模型所需的數據量就越大,而現實生活中的數據集通常不會太大,這會導致模型的訓練更容易過擬合.

③ 神經元數量

神經元是神經網絡進行計算的重要單元之一,計算機模擬人的大腦去感知和認知世界,在某種程度上來說,神經元越多,學習能力必然會越強.但是,計算機不會像人腦一樣同時可以進行多樣任務的學習,龐大的神經元系統自然也就導致了一系列的問題,如計算效率下降、難以優化等.

2.2 增強的AlexNet網絡模型

基于卷積神經網絡的場景識別主要分三個主要部分,即圖像預處理、卷積操作提取特征以及全連接層的分類.以AlexNet網絡為基礎模型進行改進,AlexNet網絡模型如圖3所示,具體算法如下:

圖3 AlexNet學習框架

對于場景識別任務而言,空間布局信息是至關重要的,卷積神經網絡提取特征的過程中特別容易丟失空間布局的細節信息.現實中一張場景圖像包含多個目標場景,其次大部分場景對象相對于其他對象保持在水平或者垂直方向,如圖4所示.

考慮到不同目標場景圖像之間的冗余信息在特征提取過程中可能會有或多或少的影響,本實驗嘗試采用圖5所示的劃分方式,和原數據集組合為一個數據集,這樣一方面可以保留獨立的個體目標的表現力,另一方面可以達到數據增強的效果.

圖4 場景圖像的布局信息示例

圖5 場景圖像分割示例

(1)算法 1.改變濾波器的數量.

有研究顯示AlexNet網絡模型第三、四層的特征提取能力最強,故本文選擇高層次(第四層)的卷積核進行改進,對于特定的分類任務,在一定范圍內,卷積核數量過大提取過多的冗余信息會降低最終的識別效率,相反卷積核數量過小提取特征會表現得不充分,故本文通過多次實驗,選擇合適的卷積核數量進行改進,實驗結果如圖6所示,第四層濾波器數量取388識別率可達91.5%,效果最佳.

(2)算法 2.加深網絡的深度.

網絡模型的深度直接影響特征提取的表現能力,網絡模型越深,提取的特征就會越抽象.因此,本文中嘗試將AlexNet網絡模型進行加深,分別在第二層、第四層、第五層卷積層后面添加卷積層(卷積核為3×3),其中2-1代表的是在第二層卷積層后面添加一組卷積核為3×3的卷積層,如圖7表示對最終識別任務的影響,最高精度可達90.0%,前三種加深方法具有一定的提升,后三種的深度增強了提取特征的冗余性,降低了最終的識別率.

圖6 濾波器數量對識別精度的影響

圖7 網絡模型深度對識別精度的影響

(3)算法 3.多尺度化特征提取.

獲得高質量模型最保險的做法一般是增加模型的深度(層數)或者其寬度(層核或者神經元數),但是這樣做法會引起三大共同的問題:① 如果訓練集有限,參數過多會容易過擬合;② 網絡越大計算復雜度越大,難以應用;③ 網絡越深,梯度越往后傳播越容易消失,難以優化模型.鑒于此,本文通過不同的尺度卷積實現多尺度特征的利用,多尺度化提取模塊如圖8所示.

此外本文還采用兩個3×3的卷積核代替5×5的卷積核進行比較實驗,經過多次實驗可知多尺度提取結構所在層數越高,通道數越多,該方法越能獲得更高的效率.因此在兼顧特征冗余性影響的同時,分別在第五個卷積層(conv5)后加入1,2,3個多尺度化提取結構,改進前后的識別率分別為:88.6%,82.4%,73.6% 和91.5%,89.6%,88.9%.

(4)算法 4.多層特征融合.

傳統的CNN將輸入圖像層層映射,最終得到特征提取的結果.通過對AlexNet網絡模型進行反卷積可視化可得,末端卷積層Layer5提取的特征具有完整的辨別能力,而卷積層Layer2主要映射的是具有顏色和邊緣屬性的特征,卷積層Layer3提取的主要是比較有區別性的紋理特征.CNN主要采用的是最終提取的特征,卷積層Layer2、卷積層Layer3對圖像也具有一定的表現能力,故本算法將Layer2、Layer3卷積層進行多層再學習融合,具體學習框架如圖9所示.

圖8 多尺度化提取結構

圖9中,虛線框中對應的多層特征融合模塊,實驗步驟可以總結如下:(1)首先采用Fine-tuning的方式訓練學習實線部分的框架;(2)固定學習到的實線部分參數權重不變,如圖10,Block塊分別為無卷積層、Block1、Block2、Block3 四種情況進行學習;(3)融合第(1)、(2)步驟學習到的特征,進行全連接然后送入分類器中.經過多次實驗,對應的四種情況識別精度分別為 82%,85%,87%,92%.

綜合上述四種算法,算法1和算法2為常見的CNN改進算法,本文主要就場景識別任務進行了驗證,且都達到了一定的提升效果;算法3和算法4在此基礎上對網絡結構進行了改進,其中算法3對單層網絡結構進行多尺度化特征學習,使得最終的表達能力更為豐富,識別精度可以達到與算法1等高的91.5%,但此算法在泛化能力上明顯優于前者;算法4使用多層特征融合的方式,考慮到不同特征之間的冗余性,采用不同的Block再學習方式,識別效果和算法3差距比較小,而且它充分利用了不同層次的特征,使得表現力更加多元化.所以,下文將采用算法3和算法4的網絡模型作為改進的AlexNet網絡模型與原始AlexNet網絡模型進行對比,并作相應的評測.

圖9 多層特征融合學習框架

圖10 多層特征融合學習中Block塊的選取

3 實驗與分析

3.1 數據集

改進CNN識別能力分析需要選擇合適的數據集.深度卷積神經網絡在訓練過程中需要輸入大量的圖片進行數據處理,因此實驗所用的數據集應該包含豐富的場景信息.其次,所選的數據集應該具有一定權威性和公開性,方便與之前研究方法進行比較.

(1)數據集的選取

本次實驗采用數據集為 Fifteen Scene Categories進行前期改進的測試,采用數據集為eight sports event categories dataset進行后期性能的評估,前者數據集包括15類場景圖像,每類含有216~400張圖像,本實驗中每類隨機選取100張圖像作為訓練集,其余剩下的作為測試集,如圖8所示部分圖像.后者包含8 種體育場景圖像,分別為劃船,羽毛球,馬球,地滾球,滑雪板,槌球,帆船以及攀巖.根據人體判斷,圖像被分為簡單和中等,還為每個圖像提供前景對象距離的信息.

圖11 Scene15 數據集圖像示例

(2)圖像預處理

改進CNN分類性能分析需要大量的數據集進行實驗評估,但是現實中數據集一般都比較少,無法滿足訓練網絡的要求,所以一般進行實驗前都對數據進行必要的數據增強操作,比如旋轉、翻轉、移動,裁剪等一系列隨機變換.

3.2 實驗設置

在進行場景識別實驗之前,需要構建合適的網絡模型學習框架,現如今流行的深度學習框架主要有Caffe、Torch、MXNet以及 TensorFlow,本文實驗中采用的是Caffe[9],作為清晰而高效的深度學習框架,其核心語言采用 C++,支持命令行、Python和MATLAB接口,且可以在GPU上運行,直接集成了卷積神經網絡神經層,并且提供了如LeNet,AlexNet以及GoogLeNet等示例模型.

(1)實驗平臺

本文的實驗均在ubuntu16.04系統下進行,采用的是Caffe學習框架,其中使用編程語言python,且在圖像預處理過程中采用MATLAB.

(2)參數設置

使用caffe進行深度學習時,為了使得更快收斂并獲得比較高的識別精度,調參是必不可少的工作,表2為本次實驗時根據以往實驗的經驗進行的參數設置.

表2 Caffe 訓練參數設置

(3)采取微調(Fine-tuning)的方式訓練模型

在本次研究中,采用的是一種微調預訓練卷積神經網絡(AlexNet)模型的方法,這樣可以更好的解決由于缺乏標記圖像而導致的過擬合問題.因為前幾層提取的底層特征可以更好的適應不同的問題,故在微調的過程中前幾層應該被保持不動,最后的完全連接層是唯一一個可以用于調整權重的特征圖層,應修改為合適的數據集標簽.另外,在整個訓練過程中使用多批次的圖像進行學習,批量的大小由于CPU內存決定,圖9證實了微調預先訓練好的模型是有效的實驗方法.

圖12 微調 AlexNet模型效果圖

3.3 實驗與分析

綜合上述四種算法的改進,可知算法4和算法3表現得較為明顯,提升幅度達到6.2%和5.7%,最差的算法4提升幅度為4.2%,考慮到模型的泛化能力,因此選擇算法4和算法3作為最終的改進算法,為了更好的驗證改進算法的有效性,將數據集eight sports event categories輸入到訓練好的改進模型中進行測試,并取最好的實驗結果進行比較和作合理的評價.

表3和表4為各種方法分別在兩種實驗數據集上的識別精度結果,文獻[10,11]采用的是傳統的手工特征提取的方法,實驗表明使用CNN進行自動提取并進行改進遠遠高于普通手工提取的方法.在Scene15數據集上,改進的算法最終的結果比傳統的手工算法高8.1%~13.3%,比改進前 AlexNet高 6.2%;同樣的在eight sports數據集上,改進的算法比傳統算法高7.2%~15.1%,比改進前 AlexNet高 2.9%.此外,由實驗結果可以得知算法4的泛化能力略優于算法3.

表3 不同方法對 Scene15 數據集的平均識別精度

圖13為改進模型在 eight sports數據集上的混淆矩陣,分別表示每個運動場景類別的準確度.圖13表明了 8 類運動場景中,其中“bocce”、“sailing”場景均可以達到 100% 的識別率,而 “badminton”容易被“polo”和“rowing”混淆,識別率相對表現得有點遜色,其他運動場景類均可以達到90%以上的識別率.

表4 不同方法對 eight sports 數據集的平均識別精度

4 結論與展望

為了獲得高質量的網絡模型,本文首先從常規的改進方法出發(即增加模型的深度或者其寬度),并在場景識別任務上進行了測試;接著提出多尺度化特征提取和多層特征融合的改進方法,分別測試其識別效果;最終通過實驗結果的比較選擇最適合場景識別任務的改進模型,并選擇常用的數據集進行了有效性的驗證.實驗表明,本文的改進方法優于一般常見的識別算法.

圖13 改進模型在 eight sports 數據集上的混淆矩陣

基于本文的研究,后續的工作將從兩方面開展:首先選擇其他比較深的網絡模型進行改進,比如VGG和ResNet網絡,探索出更加優化的網絡模型;其次保證高精度識別的同時,提高其識別的效率,此外結合遷移學習的思想對模型的泛化能力進行優化.

猜你喜歡
特征實驗模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 亚洲色精品国产一区二区三区| 亚洲欧美日韩中文字幕在线一区| 精品福利视频导航| 久久伊人操| 国产爽爽视频| 日韩高清无码免费| 在线免费a视频| 亚洲天堂成人在线观看| 好久久免费视频高清| 无码一区二区三区视频在线播放| 国产一区二区三区精品欧美日韩| 久久无码免费束人妻| 美女裸体18禁网站| 无码中文AⅤ在线观看| 欧美精品亚洲二区| 久久久久久久久亚洲精品| 另类欧美日韩| 国产在线视频欧美亚综合| 日韩精品免费一线在线观看| 国产亚洲欧美日本一二三本道| 色丁丁毛片在线观看| 久久国产亚洲欧美日韩精品| 亚洲一级色| 国产精品女在线观看| 精品91在线| 久久这里只有精品2| 国产精品久久久久鬼色| 日韩在线第三页| 国产视频一区二区在线观看| 久久中文字幕不卡一二区| 国产97公开成人免费视频| 国产高清在线观看| 欧美国产成人在线| 曰韩人妻一区二区三区| 国产成人精品亚洲日本对白优播| 农村乱人伦一区二区| 国产欧美日韩另类| 亚洲最大福利视频网| 国产91九色在线播放| 成人在线亚洲| 久久久久久久97| 亚洲有无码中文网| 久久久久久久97| 婷婷亚洲视频| 亚洲综合在线最大成人| 精品自窥自偷在线看| 久久精品人人做人人| 久久精品亚洲专区| 亚洲中文字幕日产无码2021| 亚洲精品久综合蜜| 亚洲天堂首页| 2019年国产精品自拍不卡| 国内熟女少妇一线天| 怡红院美国分院一区二区| 亚洲av无码成人专区| 亚洲日韩第九十九页| 国产精品白浆在线播放| 午夜福利在线观看入口| 久久人人妻人人爽人人卡片av| 欧美激情第一欧美在线| 亚洲无码免费黄色网址| 国产美女91视频| 成人无码一区二区三区视频在线观看| 国产精品欧美在线观看| 一级成人a毛片免费播放| 啦啦啦网站在线观看a毛片| 国产毛片不卡| 天天躁夜夜躁狠狠躁躁88| 国产美女无遮挡免费视频| 久久青草免费91线频观看不卡| 伊人久久大香线蕉aⅴ色| 好久久免费视频高清| 国产精品内射视频| 亚洲欧美国产五月天综合| 亚洲视频四区| 国产伦精品一区二区三区视频优播 | 国产精品无码一区二区桃花视频| A级毛片无码久久精品免费| 国内精自视频品线一二区| 国产欧美成人不卡视频| 午夜无码一区二区三区| 黄片一区二区三区|