999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力掩模融合的目標檢測算法

2019-09-13 06:18:54董瀟瀟何小海吳曉紅卿粼波滕奇志
液晶與顯示 2019年8期
關鍵詞:特征檢測模型

董瀟瀟,何小海,吳曉紅,卿粼波,滕奇志

(四川大學 電子信息學院,四川 成都 610065)

1 引 言

目標檢測是結合了目標定位和識別2個任務的一項基礎性計算機視覺任務,它的目的是在圖像的復雜背景中找出若干目標,給出一個精確的目標邊框(Bounding box),并判斷該邊框中目標所屬的類別[1]。目標檢測在人工智能和信息技術的諸多領域如機器人視覺、消費電子、自動駕駛、人機交互、基于內容的圖像檢索、智能視頻監控[2-3]等有著廣泛的應用。

目前,基于深度學習的目標檢測算法主要分為兩類,一是單階段方法,二是兩階段方法。兩階段方法將檢測問題劃分為兩個過程,首先產生區域建議(Region proposals),然后對候選區域進行分類和邊界框回歸,這類算法的典型代表是基于區域建議的R-CNN系列算法,如R-CNN[4]、SPPNet[5]、Fast R-CNN[6]、Faster R-CNN[7]、Mask R-CNN[8]等。一階段方法采用基于回歸的思想,跳過區域建議階段,直接產生物體的類別概率和位置坐標值,經過單次檢測即可得出最終的檢測結果,故在檢測速度上有更好的結果,其代表性算法有:YOLO[9]、SSD[10]、Focal Loss[11]等。SSD結合了YOLO中的回歸思想和Faster-RCNN中的Anchor機制,使用多尺度的特征圖譜進行回歸,既保持了YOLO速度快的特性,也保證了Faster-RCNN精度高的優點。隨后為了進一步提高SSD的精度和對小目標的檢測能力,各種不同的方法被提出來。Fu等[12]為了提高淺層特征的表征能力,將基礎網絡由VGG替換為ResNet,并借助反卷積模塊以增加各層之間的上下文信息,提高了對小目標的檢測能力,但是速度相對于SSD卻大幅下降。Liu等[13]從人類視覺的感受野結構出發,提出了感受野模塊(RFB),通過構建多分支卷積層和隨后的空洞卷積層以加強網絡學習到的深層特征。Zhang等[14]綜合一階段和兩階段目標檢測的技巧,一方面引入兩階段中對包圍框由粗到細的思想,一方面結合特征融合用于檢測網絡,取得了很好的效果。Liang等[15]利用多層卷積特征進行目標檢測,其中利用淺層卷積特征實現目標定位,利用深層卷積特征實現目標識別,以充分發揮各層卷積特征的作用。

近年來,注意力機制在計算機視覺中的應用逐漸增加。現有的視覺注意模型可分為軟注意模型和強注意模型。軟注意模型以確定性的方式預測注意區域,由于它是可微的,故可以使用反向傳播進行訓練[16],讓神經網絡學到每一張新圖片中需要關注的區域,因而形成了注意力。強注意模型隨機預測圖像的注意點,通常通過強化學習或最大化近似變分下界來訓練。一般來說,軟注意模型比強注意模型更有效,因為強注意模型需要抽樣進行訓練,而軟注意模型可以進行端到端訓練。Hu等[17]設計了目標關系模塊,其注意力權重主要由外觀特征權重和空間權重組成,通過聯合其他目標的信息從而允許對它們之間的關系進行建模。Wang等[18]提出了一種基于Attention的殘差學習方式,設計了一種可堆疊的網絡結構,并從可堆疊的基本模塊中引入了注意力機制,不同的注意力特征圖譜可以捕捉到不同類型的注意力。Hu等[19]重點關注通道關系,顯示地建模特征通道之間的依賴關系,自適應地重新校準通道特征響應,從而增強有用的特征而抑制冗余特征。綜上,為了讓目標檢測重點關注有效信息,本文將注意力模型融入到目標檢測中去,在SSD和RefineDet基礎上提出了基于注意力掩模融合的改進的特征金字塔算法,主要用于改進當前目標檢測算法缺乏視覺注意力信息的缺點。實驗結果表明,本文算法進一步改進了目標檢測的精度,同時也能保持高效的速度。

2 RefineDet

RefineDet的損失函數主要包含ARM和ODM兩方面。ARM包含二進制分類損失Lb和回歸損失Lr,ODM包含多類別分類損失Lm和回歸損失Lr,ARM和ODM兩部分的損失函數一起前向傳播,損失函數如下:

(1)

圖1 RefineDet網絡結構Fig.1 Network of RefineDet

3 本文算法

3.1 網絡結構

算法的整體網絡結構如圖2所示。以輸入尺寸為320×320的圖像為例:

(1)使用基準網絡VGG16[20]提取特征,經過卷積操作和6次下采樣操作后,得到多尺度的卷積特征層。

(2)使用基本的卷積層conv4_3,conv5_3,fc7以及conv6_2進行初步的二分類和包圍框回歸操作,以得到預選框,減少負樣本搜索。

(3)將注意力掩模模塊Attention Mask Module(AMM)和特征金字塔結構結合起來,即將頂層特征同底層特征融合后,再輔之以注意力信息AMM,得到更加有效的特征P1,P2,P3,P4。

(4)最后將上述特征直接用于多分類和回歸操作,不斷訓練迭代模型,得到最終的檢測結果。

圖2 本文算法網絡結構Fig.2 Network of proposed algorithm

3.2 注意力掩模模塊

觀察一幅圖片時,人腦并不均衡地關注整幅圖片,而是帶有一定權重分布的。對于深度學習中的目標檢測任務而言,想要檢測出相關的人或者特定物體,將其與背景天空等區分開來,同樣需要有一定的選擇性側重。為此,引入文獻[18]中的注意力模型,將原本的殘差結構改為基本的神經網絡結構,并去除了一些卷積層,以便更加適應本文的網絡訓練。

注意力掩模模塊(AMM)的結構圖如圖3所示。在本文中,使用基本的卷積函數(conv),激活函數(relu)和池化函數(pool)來構建基本網絡。每個注意力掩模模塊分為兩個分支:掩模分支和主干分支。給定輸入x,主干分支經過卷積后得到輸出G(x),掩模分支經過卷積和反卷積操作得到相同尺寸的輸出M(x)。掩模分支中,首先經過兩次conv,relu,pool操作,然后經過兩次deconv操作得到特征圖譜S(x),最后經過sigmoid函數得到輸出的掩模:

在選取特征點匹配的算法時要考慮與其搭配的特征點提取算法,使用特征提取過程得到的特征描述符(DESCRIPTOR)數據類型有的是FLOAT類型的,比如說:SURF,SIFT,有的是UCHAR類型的,比如說有ORB,BRIEF。對應FLOAT類型的匹配方式有:FLANNBASEDMATCHER,BRUTEFORCE等。對應UCHAR類型的匹配方式有:BRUTEFORCE。所以ORB特征描述子只能使用BRUTEFORCE匹配法。另外還有一種相對于更加傳統的SURF+FLANN的方法。

(2)

圖3 注意力掩模模塊Fig.3 Attention mask module

輸出掩模類似于Highway Network[21]中的門控單元,控制著主干分支的神經元,可以自適應地學習到有效的特征并且抑制噪聲。主干分支中,經過兩次conv函數得到主干輸出。最后輸出的注意力模型P(x)公式如下所示:

Pi,c(x)=(1+Mi,c(x))*Gi,c(x),

(3)

式中:i代表神經元的空間位置,c代表神經元的通道位置。類似于殘差網絡中的恒等映射,M(x)的輸出范圍為[0,1],當M(x)接近0時,P(x)的輸出接近原始的特征G(x)。

在注意力掩模模塊中,注意力掩模不僅在前向傳播中充當特征選擇器,在反向傳播中也能進行梯度更新。特征掩模的梯度如下所示:

(4)

其中:θ是掩模分支參數,φ是主干分支參數。

3.3 改進的特征金字塔融合

SSD網絡雖然取得了較好的效果,但由于其只在若干個特征圖譜上進行檢測,并沒有結合不同尺寸的特征,導致低層的特征圖譜缺乏語義信息,這樣不利于小目標的檢測。而RefineDet網絡采取側邊連接的方法,將高層語義信息同低層定位信息融合在一起,可以進行多種尺度的檢測,仍然缺乏注意力信息。本文提出了融合不同特征圖譜與注意力掩模的結構,不僅能進行多尺度檢測,還可以結合注意力模型關注感興趣區域,從而有效地檢測出所有尺度物體。具體網絡結構如圖4所示。

圖4 特征金字塔融合結構Fig.4 Feature pyramid fusion structure

輸入的特征圖譜為(H×W×C),其中H和W代表高和寬,C代表通道的個數。對于底部特征L1,首先經過3×3的卷積層進行特征降維,將維度從512降到256,對于檢測特征P2,經過2×2的反卷積操作,在擴大特征圖譜同時也進行了降維的操作,得到的輸出為(40×40×256);然后將上述輸出進行eltwise sum操作,得到融合后的特征圖譜T1亦為(40×40×256);最后將注意力掩模模塊同T1融合以增加注意力信息,經過Relu層后得到的檢測特征P1可應用于檢測系統。

若圖片中存在多種尺度的目標,低層的特征如P1和P2可以用來檢測小目標,而高層的特征如P3和P4具有更大的感受野,負責檢測大目標。

4 實 驗

本次實驗在以下兩個公開數據集中開展:PASCAL VOC[22]2007和PASCAL VOC 2012。PASCAL VOC數據集包含20類物體,包括飛機、自行車、鳥等。本文的實驗平臺為:Ubuntu 16.04.5,Nvidia GTX 1080Ti GPU,Intel(R)Xeon(R)CPU E5-2686。采用的深度學習框架為Caffe,采用的精度評價指標為mAP(Mean average precision),速度評價指標為fps(Frames per second)。

4.1 VOC2007數據集

VOC2007數據集的訓練集有5 011張,測試集有4 952張。本次實驗在VOC2007 trainval和VOC2012 trainval上進行訓練,在VOC2007 test數據集上測試。所有的方法在VGG16基準網絡中進行預訓練。如圖2所示,使用conv4,conv5,fc7以及新增的conv6層進行定位和置信度的預測。使用Multistep方式來調整學習率,即在前80k次迭代中學習率設置為10-2,隨后20k和40k次迭代中學習率分別設置為10-3和10-4。輸入圖片尺寸為320×320時,訓練時batch size設置為16,GPU數量為1;當圖片尺寸為512×512時,由于一塊GPU顯存不夠,故采用兩塊GPU進行聯合訓練。測試時batch size設置為1。

表1 不同算法在VOC2007和VOC2012數據集上的測試結果Tab.1 Test results of different algorithms on VOC2007 and VOC2012 datasets

續 表

表2 不同算法在VOC2007數據集上20類別的AP比較Tab.2 AP comparison of 20 categoriesfor different algorithms on VOC2007 dataset

如表1所示,將本文的算法與其他主流的目標檢測算法進行對比。對于320×320的輸入,mAP達到了81%,與RefineDet 320相比提高了1%,與SSD相比提高了6.7%。由于本文測試所使用的GPU不同于RefineDet,故將RefineDet中在VOC07+12數據集上訓練的320×320的模型在1080Ti上進行測試,觀察得到,本文算法的速度同其相比降低了18.4%。在速度和精度的均衡下,本文算法仍能取得較好的效果。對于512×512的輸入,mAP為82.2%,比RefineDet的精度提高了0.4%,這也證明了本文算法的有效性。同精度更高的基于區域的目標檢測方法進行比較,可以看到,本文算法在尺寸小于CoupleNet的情況下,mAP幾乎能夠達到CoupleNet的效果。

表2中列舉出各類算法中20類目標的AP(Average precision),可以看到大部分類別的平均精度都有提升。

4.2 VOC2012數據集

VOC2012數據集的訓練集有11 540張,測試集有10 991張。本次實驗在VOC2007 trainval和VOC2012 trainval上進行訓練,在VOC2012 test數據集上測試。使用Multistep方式來調整學習率,即在前160k次迭代中學習率設置為10-2,隨后40k和80k次迭代中學習率分別設置為10-3和10-4。對于320×320和512×512的輸入,訓練的batch size設置為16,并且使用兩塊GPU進行訓練。其余實驗設定和4.1中相同。

如表1所示,Proposed320 mAP為79.0%,與RefineDet 320相比提高了0.9%,與SSD相比提高了6.6%。同二階段方法相比,本文算法比精度最高的CoupleNet低了1.4%。Proposed512 mAP為80.8%,與RefineDet 320相比提高了0.7%,且精度超過了CoupleNet,為所提算法中最高的。

4.3 定性結果

圖5給出了本文算法模型在VOC2007和VOC2012數據集上的具體測試結果。

圖5 VOC2007和VOC2012數據集的測試結果。(a)VOC2007測試結果,強調檢測的多尺度效果;(b)VOC2007測試結果,重點檢測小目標;(c)VOC2012測試結果,強調檢測的多尺度效果;(d)VOC2012測試結果,重點檢測小目標。Fig.5 Test result on VOC2007 and VOC2012 dataset.(a)Test result on VOC2007,emphasizing the multiscale effect of detection;(b)Test result on VOC2007,focusing on small targets;(c)Test result on VOC2012,emphasizing the multiscale effect of detection;(d)Test result on VOC2012,focusing on small targets.

5 結 論

本文提出了一種基于注意力掩模融合的目標檢測算法,通過神經網絡提取特征得到多尺度卷積特征圖譜,初步進行二分類和回歸,在特征金字塔結構中結合注意力掩模模塊進行多尺度的檢測。實驗結果證明:對于320×320的圖片輸入,本文算法在VOC2007和VOC2012數據集上達到了81.0%mAP和79.0%mAP,檢測速度為60.9 fps;對于512×512的圖片輸入,本文算法在VOC2007和VOC2012數據集上達到了82.2%mAP和80.8%mAP,檢測速度為35.0 fps,實現了精度和速度的均衡要求。

猜你喜歡
特征檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 欧美专区日韩专区| 在线观看网站国产| 午夜爽爽视频| www.国产福利| 99久久精品国产麻豆婷婷| 欧美成人区| 成人午夜在线播放| 欧美国产在线看| 91福利免费| 久久香蕉国产线看精品| 日本a∨在线观看| 久久久久久久久18禁秘| 2020精品极品国产色在线观看| 亚洲一级无毛片无码在线免费视频| 国产精品亚洲欧美日韩久久| 久久精品只有这里有| 亚洲欧美在线看片AI| 日本一本在线视频| 在线观看无码av免费不卡网站| a毛片免费在线观看| 欧美va亚洲va香蕉在线| 国产精品xxx| 一区二区三区在线不卡免费 | 男女性午夜福利网站| 日韩无码白| 国产精品网曝门免费视频| 手机精品福利在线观看| 在线观看免费人成视频色快速| 美女国内精品自产拍在线播放| 国产又黄又硬又粗| 亚洲欧美天堂网| 国产精品不卡片视频免费观看| 日韩亚洲综合在线| 国产资源站| 亚洲国产天堂在线观看| 亚洲成a人片7777| 国产99视频免费精品是看6| 亚洲精品免费网站| 亚洲美女一级毛片| 国产Av无码精品色午夜| 国产精品浪潮Av| 亚洲欧洲自拍拍偷午夜色无码| 欧美日本一区二区三区免费| 国产成人无码Av在线播放无广告| 国产欧美日韩视频怡春院| 91精品国产丝袜| 六月婷婷精品视频在线观看| 77777亚洲午夜久久多人| 欧美日韩资源| 免费毛片全部不收费的| 一级黄色网站在线免费看| 国产精品第页| 国产丝袜啪啪| 亚洲精品日产精品乱码不卡| 四虎精品免费久久| 日韩在线2020专区| 素人激情视频福利| 国产成人h在线观看网站站| 青青草91视频| 精品久久综合1区2区3区激情| 久久这里只有精品23| 国产中文一区二区苍井空| 中字无码精油按摩中出视频| 国产乱论视频| 999国内精品久久免费视频| 99视频免费观看| 亚洲大学生视频在线播放| 免费国产小视频在线观看| 国产美女在线免费观看| 精品国产Av电影无码久久久 | 亚洲另类色| 四虎影视无码永久免费观看| 国产黄色免费看| 午夜国产理论| 69视频国产| 最新日韩AV网址在线观看| 色哟哟国产精品| 久久9966精品国产免费| 夜夜操天天摸| 熟妇无码人妻| 国产精品视频猛进猛出| 国产无码性爱一区二区三区|