999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多注意力機制的口罩檢測網絡

2021-03-31 03:48:28余阿祥李承潤于書儀李洪均
關鍵詞:機制特征檢測

余阿祥,李承潤,于書儀,李洪均,2

(1.南通大學信息科學技術學院,江蘇 南通 226019)(2.南京大學計算機軟件新技術國家重點實驗室,江蘇 南京 210023)

新冠肺炎具有極強的傳染性[1],可通過呼吸道飛沫、氣溶膠和接觸傳播,病毒能在自然環境下存活 5 d[2],公共場所佩戴口罩成為抑制病毒傳播的必要手段. 在國家衛健委發布的《新型冠狀病毒感染肺炎預防指南》中明確要求,個人外出前往公共場所、就醫和乘坐公共交通工具時需要佩戴口罩. 貫徹落實佩戴口罩的相關規定不僅需要個人自覺遵守,也需要采取一定的手段加以監督.

考慮到口罩檢測和目標檢測具有很強的相似性,首先對現有的目標檢測模型進行研究. Girshick等在2014年提出了R-CNN[3],將神經網絡用于目標檢測,真正實現了將檢測任務轉換為分類任務;檢測算法的主流也由傳統模型轉為卷積神經網絡模型,檢測的平均精度均值得到了巨大的提升. 隨后,Girshick等又在2015年相繼提出Fast R-CNN[4]和Faster R-CNN[5]. 與R-CNN相比,Fast R-CNN在最后一層卷積層后加了一個 ROI(region of interest)池化層;損失函數使用了多任務損失,將邊框回歸直接加入到CNN網絡中訓練. Faster R-CNN創造性地采用卷積網絡自行產生建議框,并和目標檢測網絡共享卷積網絡,省去了選擇性搜索生成候選框環節,使得算法的速度得到很大的提升,但仍達不到實時檢測的效果. Redmon等提出的YOLO算法[6]是首個單階段目標檢測算法,YOLO將目標檢測問題看作是一個回歸問題,直接從圖像像素信息得到邊界框的位置和類別概率,速度快,但準確率較低. 隨后Liu等提出SSD算法[7],利用不同尺度的特征圖進行分類預測和回歸預測,在保證準確率的同時,可達到實時檢測. 接著,Redmon等又相繼推出了YOLOv2[8]、YOLOv3[9],通過不同的改進使得模型精確度得到了更好的提升. 2017年Lin及其團隊提出用Focal Loss替換交叉熵損失來提高檢測精度[10],很好地改善了單階段目標檢測算法正負樣本不均衡問題,使得RetinaNet的精度超越了Faster R-CNN的目標檢測算法. 2019年,Tan等人在EfficientNet[11]的基礎上,提出了名為EfficientDet[12]的一種新的目標檢測系列,EfficientDet采用一種復合縮放的方法來縮放網絡的寬度、深度和分辨率,其參數少,所需要的計算資源少,速度快,準確率高.

考慮到佩戴口罩檢測需要在自然場景下運用,人與人之間的重疊程度高,人臉區域模糊,本文在 EfficientDet 的基礎上加入多尺度注意力機制,以便更好地挖掘戴口罩人臉的特征,進而提高人臉佩戴口罩的檢測準確度. 同時,利用柔性非極大抑制的方法消除多余檢測框,避免重疊人臉檢測框被誤刪,減小模型的誤檢率.

1 EfficientDet網絡

EfficientDet網絡提出一種新的特征加強網絡(BiFPN),可實現多尺度特征融合. 圖1顯示了EfficientDet的總體體系結構. EfficientDet采用EfficientNet作為主干網絡,BiFPN作為特征加強網絡,從主干網絡中獲取3-7級{P3,P4,P5,P6,P7}輸入特征,并分別應用自上而下和自下而上的雙向功能融合,融合的特征被送到分類網絡和檢測框預測網絡,分別生成目標的類和目標檢測框.

圖1 EfficientDet目標檢測網絡Fig.1 EfficentDet target detection network

1.1 主干特征提取網絡

目標檢測算法中常用主干網絡有ResNet[13]、VGGNet[14]等. VGGNet主要通過3×3卷積核來提取圖像特征,ResNet由若干個卷積模塊組成,增加了跳層連接,解決了網絡加深引起的網絡退化問題,使得網絡加深的情況下預測效果依然得到提升. 但網絡加深會導致參數增加及訓練成本增加. EfficientNet重新思考了在原有網絡結構基礎上增加模型精度的方法:增加網絡的深度、寬度和分辨率. 任一參數的增加都能提高模型精度,但是隨著參數的增加,模型的精度增加變得緩慢,于是模型在總參數量不變的情況下,找出了8種不同的縮放模型,分別為EfficientNet-B0~EfficientNet-B7. 下面以EfficientNet-B0為例加以說明.

EfficientNet-B0由1個Stem模塊及若干個Block模塊組成. Stem模塊包含1個3×3步長為2的卷積層、批量標準化層及激活函數層. Block為一種通用模塊,如圖2所示.

圖2 EfficientNet Block內部具體結構Fig.2 The internal structure of EfficientNet Block

EfficientNet-B0總體設計思路是反轉殘差結構[15]和殘差結構,在3×3或5×5網絡結構前利用1×1卷積升維,在3×3或5×5網絡結構后增加一個關于通道方向的注意力機制,最后通過1×1卷積降維后增加一個殘差邊.

在每個模塊中,對于輸入x,對應的輸出H(x)可通過殘差邊的連接建立如下公式:

H(x)=f(x,{wi})+x,

(1)

式中,x為輸入向量;wi為權重參數;f(x,{wi})為需要學習的殘差映射,對于其余層的連接單元,可由式(2)表示:

f(x,{wi})=w3(δ1(w1(δ1(w0x))))×δ2(w2(Avgpool(δ1(w1(δ1(w0x)))))),

(2)

式中,δ1為Swish激活函數;δ2為Sigmoid激活函數;wi為各部分對應權重參數;Avgpool(·)為全局平均池化操作.

1.2 BiFPN特征增強網絡

BiFPN網絡將PANet[16]和NAS-FPN[17]融合,其主要思想是有效的雙向跨尺度連接和加權特征融合. 首先,刪除那些只有1個輸入邊的節點,得到簡化的雙向網絡. 其次,若原始輸入節點與輸出節點處于同一級別,則在其間添加一條額外的邊. 最后,將每個雙向路徑視為1個要素網絡層,并重復相同的層多次以啟用更多高級功能融合. 由于特征融合過程中,每個特征圖貢獻不同,因此加入了一個可學習的加權平均的權重. 圖3為一個BiFPN Layer的結構.

圖3 BiFPN Layer具體結構Fig.3 The specific structure of BiFPN Layer

式(3)介紹了如何得到特征圖p6_td和p6_out:

(3)

式中,w為權重;ε=0.000 1為最小值以避免數值不穩定;Resize(·)表示將特征圖尺寸變換到與本層相對應的尺寸. EfficientNet-B0共有3個BiFPN Layer,該層的輸出為下一次BiFPN Layer的輸入.

1.3 損失函數

EfficientNet-B0的損失包括分類損失和邊界框回歸損失. 分類損失使用Focal Loss損失函數[10]在交叉熵損失函數的基礎上進行修改,通過調整類別權重α緩解正負樣本不平衡問題. 實際檢測中,大多數先驗框中不包含物體,導致正負樣本不平衡,分類的準確性下降. 引入權重α能很好地解決正負樣本不均衡問題:

(4)

采用SmoothL1函數作為邊界框回歸損失來調整檢測框的位置[4],其公式為:

(5)

其曲線平滑,易于求導,梯度穩定,可以控制梯度的量級,從而更易訓練.

2 多注意力機制的高效網絡

2.1 多尺度注意力機制

注意力機制被廣泛用于自然語言處理[18]、計算機視覺領域[19]. 在計算機視覺中,注意力機制可提高特征的挖掘能力,進而提高圖像分類和目標檢測的準確性. 在佩戴口罩檢測的任務上,口罩種類多,目標較小,引入注意力機制能提高網絡的特征挖掘能力,提升口罩檢測的平均精度. 本文在BiFPN模塊之前加入注意力機制模塊,其結構受SE-Net[20]的啟發,如圖4所示.

圖4 加入多尺度注意力機制的網絡口罩佩戴檢測模型Fig.4 Netword mask wearing detection model with multi-scale attention mechanism

輸入特征圖先經過全局平均池化,得到1×1×C向量,經兩個全連接層和一個激活函數層得到的向量與輸入特征圖相乘,將施加注意力機制后的特征圖輸入到BiFPN特征加強網絡進行特征加強. 其過程可由式(6)表示:

f(x)=(δ2(w2δ1((w1(AvgPool(x))))))·x,

(6)

式中,wi為全連接層對應的權重;δ2為Sigmiod激活函數;Avgpool(·)表示全局平均池化;δ1為Swish激活函數;x表示輸入特征圖;f(x)表示輸出特征圖.

考慮到高層特征圖具有較高的語義信息而缺少像素信息,較低的特征具有較強的像素信息而缺少語義信息,將注意力機制施加在P3、P4、P5這3個特征圖.

2.2 柔性非極大抑制

圖片經過訓練目標檢測網絡,會在一個物體上產生很多檢測框,通常采用非極大抑制(NMS)算法來去除多余的檢測框,保留得分最大的框,其原理可由式(7)表示:

(7)

式中,B={b1,…,bN}是初始檢驗框的列表;S={s1,…,sN}包含相應的檢測分數;Nt為NMS閾值;M表示得分最高的檢測;iou(M,bi)表示兩者對應的iou.

當圖片中被檢測的物體稠密,物體與物體之間靠得太近或部分重疊時,漏檢的可能性就大大增加. 針對這個問題,Bodla等提出了一種柔性非極大抑制[21](soft-NMS). 該算法減小與M重合的檢測框的分數,而不是直接刪除. 因此,和M相距較遠的檢測框不會受到影響,和M重疊的檢測框會被分到更大的懲罰,其過程如式(8)所示:

(8)

以上公式在重疊方面是不連續的,當重疊達到Nt時,會突然懲罰. 為了使重疊連續,若懲罰函數是連續的,則為理想的狀況,否則可能導致檢測排名的突然變化. 為了消除這種情況,引入高斯懲罰函數進行修剪:

(9)

式中,D為最終檢測框集合;δ為系數.

EfficientDet-D0采用NMS除去多余的檢測框,考慮到本實驗中存在人臉重疊及人臉相距比較近的情況,將NMS改成soft-NMS.

3 實驗仿真與分析

3.1 數據庫

本實驗數據來源于MAFA dataset[22]和WIDER FACE dataset[23]. 其中,來自MAFA的照片有4 065張,來自WIDER Face的照片有3 894張. 本數據集采用VOC2007格式進行標注,數據集中人臉分別標注為face或face_mask. face表示不戴口罩的人臉,face_mask表示戴口罩的人臉. 將數據集隨機劃分為訓練集、驗證集和測試集,其中,訓練集有5 508張照片,驗證集有612張照片,測試集有1 839張照片.

3.2 實驗環境及模型訓練

本實驗在Windows10操作系統下進行,編程環境為Python3.7. 深度學習框架為TensorFlow1.13.2,Keras2.1.5. 深度學習加速工具為CUDA10.0,cudnn7.4.1.5. 硬件環境主要包括CPU 為Intel(R)Xeon(R)CPU E5-2696 v4 @2.20GHz,GPU為NVIDIA GeForce GTX 1080Ti@11GB,內存(RAM)32GB. 模型采用Adam優化算法進行訓練[24],其中lr為0.001,β1為0.9,β2為0.999,epsilon為1e-08. 訓練設置為100個epoch. 前50個epoch 訓練時凍結主干網絡,后50個epoch解凍主干網絡;前50個epoch的批量為8,后50個epoch批量為4. 前50個epoch初始學習率為0.001,當連續兩個epoch 驗證集loss不發生變化時,學習率縮小一半;當連續6個epoch驗證集loss不變時,提前終止訓練. 后50個epoch初始學習率為0.000 05,學習率衰減方式與前者相同.

主干網絡初始化權重采用在ImageNet數據集訓練的權重,其余層的初始化方式為“Xavier方法[25]”初始化.

3.3 實驗評價指標

本實驗采用平均精度(AP)和識別速度作為實驗的評價指標來客觀評價人臉佩戴口罩算法. AP為單一目標的檢測效果,其計算如式(10)所示:

(10)

式中,p(r)表示準確率P(Precision)和召回率R(Recall)之間的曲線. 準確率P和召回率R公式為:

(11)

(12)

式中,TP表示正樣本被預測為正樣本;FP負樣本被預測為正樣本;FN表示負樣本被預測為負樣本.

除了檢測準確度,目標檢測算法的另外一個重要性能指標是速度,識別速度的常用指標是每秒幀率(frame per second,fps),即每秒內可以處理的圖片數量.

3.4 實驗結果分析

當IOU閾值設置為0.5時,EfficientDet人臉佩戴檢測的平均精度達到了93.1%,本文提出的算法在人臉口罩佩戴檢測方面的平均精度達到了93.81%,如表1所示. 表1中,EfficientDet表示不作任何改進,Attention 表示在EfficientDet的基礎上單獨加入多注意力機制,soft-NMS表示在EfficientDet的基礎上單獨加入了柔性非極大抑制,Ours為本文提出的算法.

表1 實驗結果對比Table 1 Comparison of experimental results

由表1可知,本文提出的模型相較于EfficientDet在人臉佩戴口罩檢測方面和識別速度方面均得到了提升,其中人臉佩戴口罩方面平均精度提升了0.71%,識別速度提升了22.9%. 可見本文提出的算法能有效提高人臉口罩佩戴檢測的準確度和效率.

此外,單獨加入多注意力機制或柔性非極大抑制都能提高口罩佩戴檢測的準確率和效率. 單獨加入注意力機制時,人臉佩戴口罩檢測的平均精度提高了0.64%,說明加入注意力機制能更好地挖掘戴口罩人臉的特征,使得網絡模型對于人臉佩戴口罩識別能力有一定的提高. 單獨加入柔性非極大抑制,人臉佩戴口罩檢測的平均精度提高了0.15%,柔性非極大抑制能避免重疊檢測框的誤刪,避免重疊人臉檢測框的誤刪,從而提高人臉佩戴口罩檢測的平均精度.

圖5為實驗效果圖. 由圖可知,本文提出的算法能夠在復雜環境下區分佩戴口罩的人臉和未佩戴口罩的人臉,有效減少了模型的誤檢率. 同時,能更好地識別側臉的情況,在側臉方面的識別率更高. 該模型面對模糊及小人臉方面具有很好的魯棒性,能夠應對較為復雜的場景.

圖5 口罩佩戴檢測實際效果圖Fig.5 Actual effect diagram of mask wearing test

4 結論

本文通過對EffificientDet目標檢測算法的研究,提出了一種改進EffificientDet的口罩佩戴檢測模型,將其應用于口罩佩戴檢測任務上. 加入了多尺度注意力機制,經實驗驗證在不同環境下均具有很好的識別效果和魯棒性. 通過預訓練好的EffificientNet主干網絡加速模型的訓練,并使用soft-NMS代替NMS. 訓練后的模型在測試集上對佩戴口罩人臉的檢測平均精度達到93.81%,識別速度達到11.80 fps,驗證了將多尺度注意力機制運用到目標檢測模型來進行人臉口罩佩戴檢測的可行性. 未來的研究將在保證準確率的前提下簡化主干網絡和特征增強網絡,提高識別速度,加大訓練數據集,進一步提高模型識別準確率.

猜你喜歡
機制特征檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
抓住特征巧觀察
小波變換在PCB缺陷檢測中的應用
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
主站蜘蛛池模板: 久久国产精品嫖妓| 亚洲成a人在线播放www| 无码一区二区三区视频在线播放| 国产av无码日韩av无码网站| 亚洲最大福利网站| 亚洲精品国产日韩无码AV永久免费网| 色香蕉网站| 欧美精品啪啪一区二区三区| 久久久久人妻一区精品| 亚洲视频免费在线看| 天天色综合4| 亚洲午夜福利精品无码不卡 | 国产成人精品一区二区| 国产91在线|日本| 国产香蕉国产精品偷在线观看| 97精品国产高清久久久久蜜芽| 无码免费的亚洲视频| 18黑白丝水手服自慰喷水网站| 亚洲视屏在线观看| 亚洲无限乱码一二三四区| 国产欧美高清| 欧美午夜性视频| 国内精品久久久久久久久久影视| 精品人妻无码区在线视频| 福利视频久久| 在线观看亚洲精品福利片| 91在线无码精品秘九色APP | www亚洲精品| 亚洲一级毛片在线观播放| 在线播放91| 欧美一级黄色影院| 国产精品美女网站| 婷婷色婷婷| 欧美日韩国产成人在线观看| www.亚洲一区| 久久久久亚洲av成人网人人软件| 在线日本国产成人免费的| 日本国产一区在线观看| 九九视频在线免费观看| 男人天堂亚洲天堂| 欧美午夜视频| 亚洲午夜福利在线| av色爱 天堂网| 超级碰免费视频91| 黄色网站在线观看无码| 亚洲侵犯无码网址在线观看| 青青草综合网| 久久人人97超碰人人澡爱香蕉| 波多野结衣一二三| 天天色天天综合网| 欧美午夜理伦三级在线观看| 91精品国产一区| 天天激情综合| 99精品免费在线| 欧美日韩激情在线| 午夜福利网址| 亚洲精品不卡午夜精品| 日韩小视频在线观看| 亚洲AV无码一二区三区在线播放| 国产成人在线无码免费视频| 日本三级精品| 国产精品吹潮在线观看中文| 亚洲高清资源| 激情影院内射美女| 亚洲精品国产成人7777| 免费在线成人网| 一级成人a毛片免费播放| 成人免费网站久久久| 国产男女XX00免费观看| 青青青国产视频| 99资源在线| 制服丝袜国产精品| 多人乱p欧美在线观看| 在线免费a视频| 谁有在线观看日韩亚洲最新视频| 中文一级毛片| 欧美成a人片在线观看| 成人福利在线视频免费观看| 欧美日韩国产一级| 综合成人国产| 97视频免费在线观看| 亚洲免费福利视频|