999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于回歸與深度強化學習的目標檢測算法

2018-02-12 12:24:56舒朗郭春生
軟件導刊 2018年12期
關鍵詞:深度學習

舒朗 郭春生

摘要:基于強化學習的目標檢測算法在檢測過程中通常采用預定義搜索行為,其產生的候選區域形狀和尺寸變化單一,導致目標檢測精確度較低。為此,在基于深度強化學習的視覺目標檢測算法基礎上,提出聯合回歸與深度強化學習的目標檢測算法。首先,深度強化學習agent根據初始候選區域所提取的信息決定相應搜索行動,根據行動選擇下一個逼近真實目標的候選區域;然后,重復上述過程,直至agent能確定當前區域為目標區域時終止搜索過程;最后,由回歸網絡對當前區域坐標進行回歸,達到精確定位目的。實驗結果顯示,在單類別目標檢測中,與原算法相比其精度提高了5.4%,表明通過引入回歸有效提高了目標檢測精確度。

關鍵詞:目標檢測;強化學習;深度學習;回歸網絡

Deep Reinforcement Learning for Object Detection with Regression

SHU Lang, GUO Chun?sheng

(School of Communication Engineering, HangZhou DianZi University, Hangzhou 310018, China)

Abstract:The object detection algorithm based on reinforcement learning usually adopts predefined search actions in the detection process and the shape and size of the proposal regions generated by them are not changed much, resulting in low accuracy of object detection. For this reason, based on the deep reinforcement object detection algorithm, we proposed an object detection algorithm by combining regression with deep reinforcement learning. Firstly, the agent determines the search action according to the information extracted from the initial proposal regions, and then selects the next proposal region approaching the ground truth according to the action. Then?the above process is repeated until agent has enough confidence to determine the current region as the ground truth, and then the search process is terminated. Finally, the current region coordinates are regressed by the regression network to achieve a better localization. Compared with the original algorithm, the accuracy of single?class object detection is improved by 5.4%, which indicates that the accuracy of visual object detection is improved effectively by introducing regression.

Key Words:object detection; reinforcement learning; deep learning; regression network

0?引言

隨著卷積神經網絡(Convolutional Neural Network ,CNN)的引入,目標檢測準確度有了顯著提高[1?2],典型算法為R?CNN[3]、Faster R?CNN[4]。 這類典型算法通過候選區域生成算法得到高質量的候選區域,然后對這些候選區域進行一系列處理,最終完成對目標的檢測。由于此類算法通常需要處理大量冗余的候選區域,因此在檢測速度上存在提升空間[5]。

強化學習是機器學習領域的一個重要研究方向,是一種通過和環境不斷交互進而從試錯中學習最優策略的方法,在決策控制領域發揮著重要作用[6]。為了減少目標檢測過程中處理的候選區域數量,針對傳統目標檢測算法不足,提出了很多基于強化學習的改進方法。Mathe等[7]提出了一種序列模型,從部分圖像位置上收集證據進行視覺目標檢測。該算法將序列模型轉化為強化學習中的策略搜索過程,能夠平衡強化學習中的難題,其檢測速度比滑動窗口提高兩個數量級。Caicedo等[8]提出了一種基于深度強化學習目標的定位算法,該算法將整幅圖片看作一個環境,通過引入一個智能體(agent)對邊界框進行自頂向下的搜索策略,該agent可以根據學習到的策略對邊界框執行一系列簡單的變形行動,最終將目標準確定位。Bueno等[9]提出了一種基于分層的深度強化學習目標檢測框架,根據收集的線索不斷將注意力聚集到有更多信息的區域,以達到檢測目的。Kong等[10]提出了一種基于協同深度強化學習進行不同目標的聯合搜索算法,該算法將每個檢測器看作一個agent,使用基于多agent的深度強化學習算法學習目標定位的最優策略,通過利用這些上下文信息有效提高目標定位的準確度。

基于強化學習的目標檢測算法根據收集到的信息執行相應區域探索策略,能夠顯著減少待處理的候選區域數量,但存在精確度較低的缺陷。為解決上述問題,本文引入回歸,研究了回歸網絡和深度Q網絡(deep Q?Network,DQN)[11]的聯合優化問題,利用經驗池優選訓練數據,改善網絡訓練效率;通過對DQN搜索到的候選區域作進一步微調,提高目標檢測精確度。

1?算法原理

強化學習提供一種通用框架解決智能體(agent)采取何種策略最大化累積獎賞策略[12]。文獻[5]中將整幅圖像看作一個環境,agent對候選區域進行變形,其目的是使候選區域將目標區域緊緊包圍起來。算法模型如圖1所示,該模型主要由行動?A、狀態S以及獎賞函數R?等組成。

行動集合定義:?A:{向右,向左,向上,向下,變大,變小,變寬,變高,終止},每個行動根據當前候選區域的尺寸大小,按照一定比例η?對其尺寸進行一個離散變化,終止行動代表agent已經找到目標。

狀態集合?S為一個元組,s=(o,h),其中o是當前觀察區域的特征向量,h?是一個固定大小向量,代表agent曾采取的?h?個歷史行動。

當agent采取行動?a由狀態s進入下一個狀態s′?時,環境給予agent相應的獎賞?R(a,s→s′)。獎賞函數R?定義了在當前狀態下所采取的行動是否有助于目標定位,計算如下:

其中,?IoU是目標區域g與候選區域b?之間的交并比。

當采取終止行動時,對應的獎賞函數?R?t?為:

根據以上定義的行動集合、狀態集合以及獎賞函數,通過應用Q?learning算法[13]學習最優策略?Q(s,a)?,智能體agent根據Q函數選擇具有最高期望獎賞的行動,其中Q函數使用貝爾曼方程進行更新[14],更新過程如下:

其中,?s為當前狀態,a為當前選擇的行動,r為即時獎賞,γ代表折扣系數,s′代表下一狀態,a′?代表接下來采取的行動。為了處理高維數據,文獻[5]引入深度CNN網絡,即DQN近似表示Q函數,通過建立經驗池(replay memory)存儲更新過程中需要的經驗數據?(s,a,r,s′)?。為了對同類多個目標進行檢測,算法還應用了返回抑制機制(Inhibition?of?Return,IoR) [15]以避免對某個顯著目標重復檢測。最后,對檢測到的目標區域應用一個預訓練的SVM分類器[16]以識別檢測到的目標類別。

2?深度強化學習目標檢測

在基于深度學習的目標檢測算法中,通常需要大量候選區域用于檢測目標,而對這些候選區域的處理成為提高檢測速度的瓶頸。在基于強化學習的目標檢測算法中,需要對候選區域進行選擇性搜索,主要按照當前候選區域的尺寸比例進行區域搜索,故存在精確度較低的缺點。本文在基于深度強化學習的目標檢測框架基礎上引入回歸,通過DQN網絡與回歸網絡相融合提高目標檢測的準確度。

圖2為本文算法的模型框架,主要由特征提取網絡、DQN網絡和回歸網絡3部分組成。其中特征提取網絡為預先訓練好的VGG網絡[17]。該模型首先由VGG網絡對候選區域進行特征提取,然后將提取的特征向量送入DQN網絡,DQN網絡負責確定搜索路徑,最后當DQN網絡終止搜索時,回歸網絡根據特征向量對候選區域進行回歸,輸出最終檢測結果。此外,DQN網絡訓練需要經驗池存儲大量的經驗樣本,而回歸網絡的訓練則需要大量滿足?IoU?大于一定閾值的樣本。在這個模型中,DQN網絡著重解決區域搜索問題,而回歸網絡則主要提高候選區域的準確度,故兩個網絡的訓練數據與優化目標均不相同,本文通過下述工作對回歸網絡和DQN網絡聯合進行優化。

2.1?損失函數

為了對DQN網絡與回歸網絡進行聯合優化,本文將損失函數設定為多任務損失函數,即DQN網絡損失與回歸網絡損失的加權和。其中,DQN網絡采用的是均方誤差損失函數,回歸網絡采用魯棒性較強的smoothL1損失函數[18]。整體損失函數定義為:

其中,?i是該樣本在最小數據樣本集中的索引值,參數y?i代表第i?個樣本的DQN網絡輸出,?Q(s?i,a)代表目標輸出,N?dqn?代表輸入DQN網絡的樣本數,?N?reg?代表送入回歸網絡的樣本數,λ為加權系數,用來平衡DQN網絡損失與回歸網絡損失,函數?R(t?i-t?*?i)代表回歸損失。其中R?函數為smoothL1損失函數,?t代表參數化的候選區域坐標,即t=(t?x,t?y,t?w,t?h),t?*代表參數化的真實目標區域坐標t=(t?*?x,t?*?y,t?*?w,t?*?h)。本文對候選區域坐標b=(x,y,w,h)?進行參數化[2]:

其中,?x、y分別代表回歸網絡輸出的候選區域中心點,w、h為其寬和高;x?a、y?a?分別代表DQN網絡得到的候選區域中心點,?w?a、h?a為其寬和高;x?*、y?*分別代表真實目標區域的中心點,w?*、h?*?為其寬和高。

2.2?模型訓練

在本文算法中,DQN網絡與回歸網絡采用相同的架構,它們之間的聯合訓練如下:

(1)為了平衡DQN網絡的探索與利用難題,本文使用?ε貪心算法(ε?greedy policy),即每次訓練以概率?ε進行行動探索,以1-ε的概率利用已學習到的策略進行決策,其中ε?的初始值為1。隨著訓練周期(epoch)的增加?ε?逐漸降低至0.1。對于agent終止行動的學習是比較困難的,因此為了幫助agent學習該行動,本文在當前區域與真實區域之間?IoU?>0.6時,強制其選擇終止行動。

(2)經驗池里存放的經驗為?(s,a,r,s′,b,g),其中s為當前狀態,a為采取的行動,r是在狀態s下執行行動a后立即得到的獎賞,s′為下一個狀態,b為當前區域坐標, g?代表目標真實區域坐標。DQN網絡與回歸網絡共用一個經驗池,其中DQN網絡訓練時,使用的部分數據是?(s,a,r,s′)。回歸網絡訓練時,使用的數據是(s,b,g),兩網絡的輸入數據均為s?。

(3)在對回歸網絡進行訓練時,為了回歸的準確性,本文僅使用目標區域與真實區域之間的?IoU?大于一定閾值的經驗樣本送入回歸網絡進行訓練。

對于一幅圖像,設其初始候選區域為整個圖像,首先將該初始區域的尺寸大小歸一化為224×224,傳入預訓練好的VGG進行特征提取,然后以概率?ε從合理行動集合中隨機選取一個行動進行搜索,以1-ε的概率利用已學習到的策略進行決策。執行行動a后,得到新候選區域b′?,根據式(1)賦予agent相應的獎賞?r,然后將b′對應的圖像區域尺寸歸一化為224×224,送入特征提取網絡提取特征,并與歷史行動向量結合,得到下一個狀態s′。重復上述過程,直至行動a為終止行動或者搜索步驟達到最大步驟數,結束搜索過程,然后由回歸網絡對候選區域進行微調,得到最終的定位結果。將每一步行動后所得到的經驗信息元組(s,a,r,s′,b,g)?存入經驗池中,利用該經驗池數據對整個網絡進行聯合訓練。從經驗池中隨機采樣一批經驗數據傳入DQN網絡與回歸網絡進行訓練,其中對于候選區域與真實區域的?IoU?小于0.4的樣本數據不參加回歸網絡訓練,然后按照式(5)計算網絡的損失函數,并對兩網絡進行參數更新。

3?實驗及結果分析

3.1?實驗平臺及參數設定

本文使用Torch7深度學習平臺[19],在數據庫VOC2007與VOC2012上進行仿真實驗[20],采用VOC2007與VOC2012的訓練集數據對模型進行訓練,采用VOC2007中的測試集對模型進行測試。本文僅對一種類別的目標進行檢測。在實驗中,比例值?η較大時,生成的候選區域很難覆蓋到目標,值較小時,需要經過多次搜索才能定位到目標,經過權衡后取η?=0.2。算法中的DQN網絡使用兩個全連接層,輸出維度為行動數量,同時在網絡中加入Dropout[21]層以及ReLU[22]。在使用貝爾曼方程更新Q函數時,選用的折扣系數?γ?取值為0.9。本文經驗池的大小設定為1 000,每次隨機采樣的最小批大小為128,訓練次數為20個epoch。

3.2?實驗結果與分析

圖3為本文模型損失值在訓練過程中的變化曲線,從圖中可以看出,隨著迭代次數的增加,模型的損失值急速下降,當訓練次數達到20 000次時,網絡逐漸收斂,損失值變化趨于平穩。由此可見在訓練過程中模型的參數得到了更新,網絡學習到了相關定位知識。

圖4是在簡單背景條件下對飛機類別的目標檢測效果,其中綠色框代表DQN網絡每次產生的候選區域,紅色框代表結合回歸網絡所得到的最終定位結果,白色框代表真實目標區域。對于正常尺寸目標,如圖4(b)和圖4(d)所示,模型僅需很少的搜索步驟即可定位到飛機目標所在位置。對于尺寸較大目標,如圖4(a)所示,DQN網絡根據當前區域特征,僅需執行一次搜索行動便能準確定位目標位置,隨后通過回歸網絡再對目標區域進行精確定位。對于尺寸較小目標如圖4(c)所示,由于目標較小,DQN網絡便會朝著目標區域的方向不斷進行搜索,直到收集到足夠的信息才會終止搜索行動,確定的區域即為目標區域(如圖中尺寸最小的綠色框),并由回歸網絡對目標位置進行更加準確的定位。

圖5是在復雜背景條件下對飛機類別的目標檢測效果。從圖中可以看出,背景中除了經常出現的藍天白云外,還存在建筑物、草地以及行人等多種干擾物體,傳統的目標檢測方法容易受這些干擾物的影響,難以精確地對目標進行定位。本文算法通過DQN網絡可以確定目標所在的大體位置,利用回歸網絡進一步對候選區域坐標進行精確定位,從而實現對復雜背景條件下的目標定位。

表1給出了文獻[4]算法、文獻[5]算法和本文算法在單一類別目標數據中的檢測準確率。從表中可以看出,相比于文獻[5]算法,本文算法的檢測精確度相對提高了5.4%,表明本文算法能夠有效提升目標定位的精確度。

4?結語

為克服基于強化學習的目標檢測算法中精確度較低的缺點,本文提出將回歸網絡與DQN網絡相融合的定位方式,首先由DQN網絡對目標進行粗定位,然后利用回歸網絡對DQN網絡產生的候選區域坐標進行矯正,以得到更準確的定位。在模型訓練階段,本文通過共享經驗池的方式對DQN網絡和回歸網絡進行聯合優化,在簡化訓練過程的同時,提高數據利用效率。實驗結果表明,相比于原算法,本文算法在單一類別目標檢測中有效提高了精確度。

參考文獻:

[1]?KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems. Curran Associates Inc.2012:1097?1105.

[2]?LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature,2015,521(7553):436?437.

[3]?GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]. IEEE Conference on Computer Vision and Pattern Recognition,2014:580?587.

[4]?REN S, HE K, GIRSHICK R, et al. Faster R?CNN: towards real?time object detection with region proposal networks[C].International Conference on Neural Information Processing Systems. MIT Press,2015:91?99.

[5]?HUANG J, GUADARRAMA S, MURPHY K,et al Speed/accuracy trade?offs for modern convolutional object detectors[C].Computer Vision and Pattern Recognition,2017:3296?3297.

[6]?周志華.機器學習[M].北京:清華大學出版社,2016.

[7]?MATHE S, PIRINEN A, SMINCHISESCU C. Reinforcement learning for visual object detection[C].Computer Vision and Pattern Recognition. IEEE,2016:2894?2902.

[8]?CAICEDO J C, LAZEBNIK S. Active object localization with deep reinforcement learning[C].IEEE International Conference on Computer Vision,2015:2488?2496.

[9]?BELLVER M, GIR?I?NIETO X, MARQUS F, et al. Hierarchical object detection with deep reinforcement learning[C]. Barcelona, Spain: Conference on Neural Information Processing Systems,2016.

[10]?KONG X, XIN B, WANG Y, et al. Collaborative deep reinforcement learning for joint object search[C]. IEEE Conference on Computer Vision and Pattern Recognition,2017:7072?7081.

[11]?LI H, WEI T, REN A, et al. Deep reinforcement learning: framework, applications, and embedded implementations[C]. IEEE International Conference on Computer?Aided Design,2017:847?854.

[12]?高陽,陳世福,陸鑫.強化學習研究綜述[J].自動化學報,2004,30(1):86?100.

[13]?JOS N, DEL R, POSENATO D, et al. Continuous?action Q?learning[J]. Machine Learning,2002,49(2?3):247?265.

[14]?劉全,翟建偉,章宗長,等.深度強化學習綜述[J].計算機學報,2018(1):1?27.

[15]?ITTI L, KOCH C. Computational modelling of visual attention[J]. Nature Reviews Neuroscience,2001,2(3):194?203.

[16]?BOSER B E, GUYON I M, VAPNIK V N. A training algorithm for optimal margin classifiers[C] .The Workshop on Computational Learning Theory.1992:144?152.

[17]?SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large?scale image recognition[J]. Computer Science,2014(6):1547?1552.

[18]?GIRSHICK R. Fast r?cnn[C]. IEEE International Conference on Computer Vision,2015:1440?1448.

[19]?COLLOBERT R, KAVUKCUOGLU K, FARABET C. Torch7: a Matlab?like environment for machine learning[C].BigLearn: Conference on Neural Information Processing Systems,2011.

[20]?EVERINGHAM M, GOOL L V, WILLIAMS C K I, et al. The pascal visual object classes (VOC) challenge[J]. International Journal of Computer Vision,2010,88(2):303?338.

[21]?SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research,2014,15(1):1929?1958.

[22]?NAIR V, HINTON G E. Rectified linear units improve restricted boltzmann machines[C]. International Conference on International Conference on Machine Learning, Omnipress,2010:807?814.

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 97在线碰| 2020极品精品国产| 欧美在线伊人| 成人伊人色一区二区三区| 成人自拍视频在线观看| 成人中文字幕在线| 日本高清成本人视频一区| 无码人妻热线精品视频| 亚洲无码视频图片| 国产一级妓女av网站| 国产黄色爱视频| 国产白浆视频| 国产人妖视频一区在线观看| 国产精品视频第一专区| 欧美色香蕉| 国产精品美女网站| 精品福利网| 五月婷婷精品| 国产xxxxx免费视频| 人妻出轨无码中文一区二区| 青青操视频免费观看| 国产精品亚洲专区一区| 日韩在线播放中文字幕| 国产毛片不卡| 三级毛片在线播放| 国产福利拍拍拍| 亚洲成人精品| 欧洲极品无码一区二区三区| 啪啪啪亚洲无码| 久久人体视频| 欧美性精品| 午夜国产大片免费观看| 天天色综合4| 亚洲第一黄片大全| 91精品国产一区自在线拍| 在线色国产| 婷婷综合色| 中文字幕乱码中文乱码51精品| 色综合天天操| 亚洲精品色AV无码看| 黄色一及毛片| 91九色最新地址| 一级全黄毛片| 久久婷婷人人澡人人爱91| 最新亚洲av女人的天堂| 国产精品视频久| 亚洲国产精品无码AV| 伊人成人在线| 日韩在线中文| 国产精品任我爽爆在线播放6080| 黄色片中文字幕| 国产情侣一区二区三区| 日本三区视频| 在线观看亚洲精品福利片| 一级毛片免费高清视频| 久久精品娱乐亚洲领先| 老色鬼欧美精品| 欧美日韩成人| 毛片久久久| 毛片久久网站小视频| 极品私人尤物在线精品首页 | 99国产精品免费观看视频| 国产99视频免费精品是看6| 欧美精品三级在线| 国产打屁股免费区网站| 国产精品三级av及在线观看| 婷婷午夜影院| 在线免费亚洲无码视频| a免费毛片在线播放| 福利片91| 免费jjzz在在线播放国产| 国产裸舞福利在线视频合集| 国产在线无码一区二区三区| 人妻少妇久久久久久97人妻| 国产流白浆视频| 中文字幕 欧美日韩| 色悠久久久| 伊人久热这里只有精品视频99| 免费国产无遮挡又黄又爽| 国产不卡一级毛片视频| 久久久成年黄色视频| 国产屁屁影院|