999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于安全帽佩戴檢測的圖像描述方法研究

2020-04-10 05:15:08徐守坤倪楚涵吉晨晨
小型微型計算機系統 2020年4期
關鍵詞:檢測

徐守坤,倪楚涵,吉晨晨,李 寧

(常州大學 信息科學與工程學院,江蘇 常州 213164)

1 引 言

圖像描述,即利用人工智能的方法使計算機能夠自動生成自然語言來描述其所感知的圖像內容[1],是實現圖像理解最為直接的方式,也是目前的研究熱點.在施工場景中,作業環境的復雜性和工人的不安全行為易引發施工事故威脅生命安全,其中施工人員頭部受傷最易致命,是造成施工事故的主要原因[2].安全帽的佩戴是行為規范中最基本的要求,但在實際作業中時常存在未佩戴安全帽的行為.在施工場景中,對人員佩戴安全帽的情況進行圖像描述的研究,能夠降低作業風險,從而排除安全隱患以保障人身安全.

目前國內外已有相關學者對圖像描述這一任務展開研究.Li等[3]以神經網絡結構為基礎提出一種基于多主題的圖像描述生成模型,首先人工定義十個主題,然后生成與這十個主題內容相關的描述語句.Lebret等[4]提出一種語言模型,通過從給定的圖像樣本中推斷其描述短語,使用這些短語生成相關的描述語句.Hodosh等[5]使用一種近似于檢索的方法,設計了一種基于排序的框架來生成圖像描述.現有的圖像描述研究工作均已取得不錯的成果,但在復雜背景下生成的描述易丟失細節信息,存在描述不準確的問題,尤其對于施工場景而言,關于安全帽佩戴情況的圖像描述的研究又較為匱乏.

目前關于安全帽佩戴的研究基本上是針對圖像識別這一任務進行的.傳統的安全帽佩戴檢測算法[6,7]需通過人工設計特征來實現,對環境的要求較高,人工提取的特征不具備魯棒性,且泛化能力較差.近年來由于深度學習的迅速普及,已有相關學者將深度學習的方法應用于安全帽佩戴檢測的研究中.Zhang等[2]利用Faster RCNN(Faster Regions with Convolutional Neural Network feature)網絡來檢測施工人員佩戴安全帽的情況.Fang等[8]在YOLOv2(You Only Look Once)網絡中加入密集塊并利用MobileNet結構壓縮網絡模型,實現安全帽佩戴檢測,算法的檢測速度得到顯著提升.傳統算法和深度學習技術在安全帽的佩戴檢測上均已取得可觀成果,但針對于本文的研究任務而言存在局限性,即未能生成自然語言對作業人員的安全帽佩戴情況進行描述,尚未達到圖像理解的層面.

針對上述問題,本文提出一種安全帽佩戴圖像描述生成方法.為解決傳統的圖像描述方法應用于施工場景所帶來的細節描述不足的問題,采用基于目標檢測的方法,對安全帽佩戴情況進行檢測以提取視覺概念,結合規則和模板的方法生成施工人員安全帽佩戴的圖像描述,加強了圖像區域和語句描述的對應關系.為提高生成的語句對描述佩戴安全帽的人員數量的準確性,對目標檢測模塊進行改進,在原始的YOLOv3的基礎上,通過改進多尺度預測結構以及增加錨框數量,以提高小目標的檢測效果,進一步提高了語句生成的準確度.

2 相關工作

2.1 圖像描述

圖像描述是當前的研究熱點,傳統方法主要分為兩種,分別是模板法和檢索法.模板法需要對圖像中的對象、屬性、行為、場景進行檢測,再將檢測結果填充到固定的語言模板中生成圖像語義標注.檢索法則主要將圖像描述的生成作為檢索任務,通過檢索與之最為接近的句子生成圖像描述.Li等[9]首先檢測出圖中的對象和關系,然后利用預先定義的句子框架以生成圖像描述.Mitchell等[10]利用句法樹信息輔助描述語句的生成.模板法操作簡單,生成的句子合乎語法,但由于句子模板固定,不適用于所有圖像,生成的句子多樣性不足.Kuznetsova等[11]從字幕標注中檢索出給定圖像的描述短語,對這些短語詞組進行組合以生成描述語句.該方法屬于檢索法的一種,從現有的圖像描述中檢索出與給定圖像最為契合的描述語句.此方法能夠生成合乎語法的語句,但受限于訓練集,對于特定的圖像無法生成正確的描述語句.

近年來主要使用基于編碼-解碼(Encoder-Decoder)的方法生成圖像描述.早期的研究中,編碼器使用卷積神經網絡(Convolutional Neural Network,CNN)提取圖像特征,解碼器采用循環神經網絡(Recurrent Neural Network,RNN)處理文字序列以生成圖像描述.Vinyals等[12]采用長短時記憶網絡(Long Short Term Memory network,LSTM)替代RNN以處理描述語句的生成,與RNN相比,LSTM能夠更好地存儲長期信息,并有效解決訓練過程中的梯度消失和梯度爆炸等問題.Xu等[13]將注意力機制應用到圖像描述的研究中,生成相應單詞的同時聚焦于顯著對象.Lu等[14]提出一種自適應注意力機制,由圖像和標注文本共同決定LSTM生成的下一個單詞.基于編碼-解碼的方法,保證了圖像描述的多樣性和靈活性,但缺乏可解釋性且目標細節描述不充分.

當前已有的圖像描述的研究均是在公共數據集上進行,未曾發現關于特定場景的研究.針對安全帽佩戴情況的圖像描述研究較為匱乏的現狀,本文采用基于目標檢測的方法,以生成安全帽佩戴的圖像描述.

2.2 安全帽佩戴檢測

目前已有不少學者對安全帽佩戴檢測展開研究.Silva等[15]采用圓形霍夫變換(Circle Hough Transform,CHT)和方向梯度直方圖(Histogram of Oriented Gradient,HOG)描述符以提取圖像特征,使用多層感知器(Multi-layer Perceptron,MLP)對目標進行分類.此方法在單人佩戴的檢測上效果較好,但在多人佩戴的檢測上效果差,無法適用于多人圖片.近年來,基于深度學習的目標檢測技術發展迅速,主要分為兩種,分別是基于區域建議的two-stage方法和無區域建議的one-stage檢測方法.two-stage目標檢測算法主要為RCNN(Regions with Convolutional Neural Network)系列,如RCNN[16]、Fast RCNN(Fast Regions with Convolutional Neural Network feature)[17]和Faster-RCNN[18],其中Faster-RCNN的檢測效果最好.one-stage目標檢測算法中,SSD(Single Shot multibox Detector)[19]和YOLO系列具有一定的代表性,如YOLO[20]、YOLOv2[21]和YOLOv3[22],其中YOLOv3的效果最好.Shi等[23]在YOLOv3的基礎上采用圖像金字塔的模式獲取不同尺度的特征圖,利用多尺度訓練增加模型的適應性,提升了安全帽佩戴檢測的效率與精度.無論是傳統方法還是基于深度學習的方法,在安全帽的佩戴檢測上均已取得可觀的成果,但均未能實現有關安全帽的圖像描述.

從算法的檢測速度和精度綜合考慮,本文采用基于YOLOv3框架的目標檢測算法實現安全帽的佩戴檢測,為安全帽佩戴的圖像描述的生成提供基礎.為使YOLOv3更適用于本文任務,對YOLOv3進行改進.在原始YOLOv3的基礎上,改進多尺度預測結構和初始錨框參數以提升模型的檢測性能.利用改進的YOLOv3算法提取視覺概念,結合預定義的語義規則和語句模板的方法,生成安全帽佩戴的圖像語句描述.

3 本文算法

鑒于現有的圖像描述研究方法所生成的語句較為粗略,缺乏一定的準確率.為提高描述語句的準確度,以生成更為貼切的安全帽佩戴的圖像描述,本文結合目標檢測領域的研究方法,從圖像特征到語句描述映射的角度出發,加強圖像區域和語句描述的對應關系,提出基于目標檢測算法的安全帽佩戴的圖像描述.本文算法的實現由目標檢測和語句生成兩個模塊構成,目標檢測模塊采用改進后的YOLOv3算法實現,語句生成模塊采用基于規則和模板相結合的方法實現,算法流程如圖1所示.

圖1 本文算法流程Fig.1 Algorithm flowchart of this paper

3.1 基于改進YOLOv3的安全帽佩戴檢測

3.1.1 YOLOv3算法思想

YOLOv3的主要優點是僅利用單個CNN處理整張圖片,對圖像中的目標進行定位的同時并預測出其目標類別,將目標檢測問題轉換為回歸問題.YOLOv3采用殘差網絡(Resnet)[24]的結構搭建了Darknet-53網絡用以提取圖像特征,并利用3種不同尺寸上的特征圖對圖片進行多尺度預測.其網絡結構如圖2所示,該網絡由一系列的1×1的卷積層和3×3的卷積層組成,其中CBR模塊是YOLOv3的一個基本組件,表示卷積后進行批標準化操作,用ReLU(Rectified Liner Uints)作為激活函數,另一個基本組件resn殘差塊組件由Res_unit殘差單元所構成.

圖2 YOLOv3網絡結構圖Fig.2 Structure of YOLOv3 network

該網絡首先將不同大小的圖像自動調整為416×416的固定尺寸,再將原圖劃分為13×13的網格,由目標中心點所在的網格負責該目標的檢測.每個網格將預測覆蓋在該網格上的3個邊界框,以及這些邊界框的置信度,每個邊界框包含6個預測量:x,y,w,h,confidence和class,其中(x,y)表示預測框的中心與網格邊界的相對值,(w,h)表示預測框相對于整張圖片的寬度和高度的比值,confidence表示置信度,用以剔除掉低于閾值的邊界框,class表示目標的類別.每個邊界框的預測信息包含邊界框的坐標、寬度和高度,邊界框坐標計算公式如式(1)所示.

(1)

其中,(bx,by,bw,bh)表示預測的邊界框中心坐標和寬高,(tx,ty,tw,th)表示網絡學習的目標,(cx,cy)是網格的坐標偏移量,(pw,ph)是預設的錨框的維度.

除了坐標信息和邊界框的置信度,還需預測C個預定義的目標類別的得分.置信度confidence計算公式如式(2)所示.

(2)

Prob(object)表示預測框對應的網格中含有待檢測對象的概率,定義如式(3)所示.

(3)

(4)

3.1.2 改進多尺度預測結構

原始的YOLOv3網絡采用多尺度預測的思想,設置了3種不同尺寸的特征圖,大小分別為13×13、26×26、52×52.較大尺寸的特征圖對位置信息的預測較準確,但包含的語義信息越少;較小尺寸的特征圖包含較多的語義信息,但對位置信息的預測較粗略.在進行安全帽佩戴檢測時,需要對施工人員以及安全帽等多個目標進行檢測,由于拍攝距離的遠近,使得本文數據集中的目標尺寸不一,存在較小目標.為進一步提高小目標的檢測效果,改進YOLOv3的多尺度預測,采用13×13、26×26、52×52、104×104這4種尺度的特征圖.越往后的預測層所對應的特征圖尺寸越大,基于此特點,將尺寸較小的特征圖上采樣至同一尺寸并進行拼接,然后進行標準化卷積運算.

本文設置的目標類別分別為人(man)、安全帽(helmet)以及人戴安全帽(man wear helmet),故待檢目標只有3個類別(C=3).因原始網絡的類別數目為80,所以需要重新調整網絡的輸出類別數目以減少預測張量的維度,從而減少網絡的運算量.調整后,每個尺度所產生的預測張量的維度僅為3×(4+1+3)=24,因此改進后的網絡最終輸出的4種尺度的預測張量大小分別為13×13×24、26×26×24、52×52×24、104×104×24.

改進后的算法檢測過程如圖3所示,首先將輸入圖片重置為416×416的大小,然后利用Darknet-53網絡進行圖片特征的提取,接著將特征向量送至特征金字塔結構中進行多尺度預測,最后對預測出的邊界框進行非極大值抑制,以消除重復檢測得到最終的預測結果.

圖3 改進后的算法檢測流程Fig.3 Detection flow of improved YOLOv3 algorithm

3.1.3 改進初始錨框參數

傳統的YOLOv3網絡每種尺度的特征圖分別有3個錨框,尺度越大的特征圖使用越小的錨框,以得到更多的目標邊緣信息.原始的錨框參數由公共數據集聚類生成,公共數據集類別豐富,所確定的錨框參數值具有普遍性,但不適用于本文的安全帽佩戴數據集,因此在進行訓練之前需要設計新的錨框,以提高邊界框的檢測率.

原始的YOLOv3采用K-means聚類算法初始化錨框,用以預測邊界框的坐標.K-means聚類采用歐氏距離公式,錨框尺寸的大小會影響到檢測準確率的高低,而IOU距離表示預測框與實際邊界框的交并比,因此本文使用IOU距離公式以代替歐氏距離公式,從而避免使用歐氏距離公式所造成的影響.距離度量公式如式(5)所示.

d(box,centroid)=1-IOU(box,centroid)

(5)

其中,box表示實際邊界框信息,centroid表示聚類中心,IOU表示預測框與實際邊界框的交并比.

傳統YOLOv3網絡使用9個錨框并依次分布于3種尺度的特征圖上,由于本文采用4種尺度的特征融合預測層,故原始錨框的數量不適用于本文任務.改進錨框參數值,增加錨框的數量并選取12個錨框,在自制的安全帽佩戴數據集上進行K-means聚類得到12個錨框參數值,從小到大依次排列,將其均勻分布于4種尺度的特征圖上,分別對應于由大到小的4種尺度的特征圖.

3.2 基于規則和模板的語句生成

本文通過預定義一個語義規則,并將其與模板法相結合,以提高語句生成的準確度.首先利用目標檢測算法檢測出圖像中的視覺概念,其次結合預先定義的規則和句子模板,將檢測到的視覺概念填充到句子模板中,最后生成安全帽佩戴的描述語句.

前期階段利用改進后的YOLOv3實現關鍵目標檢測,主要檢測人、安全帽和佩戴安全帽的人這3類目標,以提取圖片中關鍵的視覺概念,其中將佩戴安全帽的人作為一個整體,以檢測出人和安全帽的佩戴關系.對這3類待檢測目標分別設置一個初值均為零的三元組(m,n,p)以統計待檢目標的個數,其中m表示檢測出的總人數,n表示檢測出的安全帽的總個數,p表示檢測出的佩戴安全帽的人數.佩戴安全帽的人員應不超過施工現場的總人數(0≤p≤m),否則視為檢測有誤(p>m),無法生成安全帽佩戴的描述語句.若檢測出佩戴安全帽的人數和總人數相等,即p=m則表示所有人均佩戴了安全帽;若檢測出佩戴安全帽的人數和總人數不等,即p≠m則表示部分人員佩戴了安全帽,尚有人員未佩戴安全帽.安全帽佩戴的描述語句具體規則定義如表1所列.

表1 描述語句規則定義
Table 1 Definition of rules for describing statements

條件m>0m=0p>0p>mp

句子模板通過圖片字幕標注生成,單詞的生成來源于原始的圖片字幕標注或是目標檢測算法提取出的視覺概念.視覺單詞的本質是一個標記,目的是為描述圖像中特定區域的單詞保留空位.本文采用目標檢測算法以提取出視覺概念,結合基于規則和模板的方法,生成施工人員安全帽佩戴的圖像描述語句,整體框架如圖4所示.

圖4 本文算法總體框架Fig.4 Overall framework of the proposed algorithm

針對圖4中的圖片而言,句子模板可為“ men on their heads”,然后利用改進的YOLOv3算法提取出區域的視覺概念(man、wear、helmet),并結合預定義的描述語句的規則,m=2且p=2,表示圖中所有施工人員均佩戴了安全帽,將其填充進句子模板中(→two,→wear,→helmets)最終生成圖像的描述語句“two men wear helmets on their heads.”

4 實驗結果及分析

本文使用Linux搭建實驗開發平臺,選用Ubuntu16.04作為操作系統,GPU選用NVIDIA GeForce GTX 1080Ti,CUDA8.0,CUDNN6.0,內存為12GB.實驗使用Keras深度學習框架進行模型的訓練和測試.

4.1 數據集的制作

4.1.1 數據采集

本文主要對安全帽佩戴進行圖像描述研究.關于圖像描述的研究基本使用公共圖像字幕數據集,如COCO[25]、Flickr8k[26]、Flickr30k[27]等,尚未發現有關安全帽佩戴的圖像字幕數據集,因此本文自制了安全帽佩戴圖像字幕數據集.由于采用基于目標檢測算法實現安全帽佩戴的圖像描述,因此本文同時制作了用于安全帽佩戴檢測的數據集.

本文主要通過公共數據集中篩選、網絡爬蟲技術搜集、自行現場采集等方式采集樣本,另從施工現場視頻監控數據中采集圖片,并加入多種噪聲圖片,如手拿安全帽的工人、沒有安全帽的工人、戴著棒球帽或草帽的工人等,以保證數據集的豐富性,提高模型的泛化能力.所采集的數據包含各種背景條件、不同分辨率、不同質量的施工場所關于安全帽佩戴的圖片,能夠較為完備的反映真實場景的情況,共2800張.數據集樣本如圖5所示.從中選取1000張作為測試集,剩余1800張圖片用于訓練.

4.1.2 數據增強

利用數據增強策略擴充圖像訓練集,避免出現過擬合.對原始圖片采用亮度增強及減弱、對比度增強及減弱、銳度增強及減弱、添加噪聲和數據抖動等8種處理方式.其中,亮度和對比度分別增強為原圖的1.2倍,銳度增強為原圖的2倍,亮度和對比度減弱為原圖的60%,銳度減弱為原圖的10%.對原圖添加方差為0.01的高斯噪聲,以模擬數據采集中可能產生的噪聲.實際采集到的圖片中佩戴棒球帽、草帽等這類負樣本,比佩戴安全帽這類正樣本數量少,故采用數據抖動以解決正負樣本分布不均的問題.

圖5 數據集樣本Fig.5 Samples of dataset

1800張原始圖片經數據增強后得到14400張圖片,從中隨機選取9600張圖片作為訓練集,剩余4800張圖片作為驗證集.訓練集和驗證集中均包含圖片及其相應的標注信息,而測試集不含標注信息,訓練集和測試集的圖片無重疊,以此驗證本文方法的有效性.

4.1.3 數據標注

1)安全帽佩戴檢測數據集制作

根據實驗要求,仿照VOC2007的標注格式,使用開源標注工具LabelImg對圖片進行多標簽標注,自動生成相應的xml格式標注文件,其中包含對象名和真實邊界框的坐標信息.標注的對象為3類分別為人(man)、安全帽(helmet)以及人戴安全帽(man wear helmet).

2)安全帽佩戴圖像字幕數據集制作

根據實驗要求,仿照COCO字幕數據集,在安全帽佩戴檢測數據集的基礎上進行字幕標注.針對圖片字幕標注,尚未發現有開源的標注工具可供使用,因此本文采用Python編程和人工標注相結合的方式,對圖片樣本進行標注:1)利用Python編程,讀取每張圖片的圖片名以及尺寸信息(寬和高),并賦予每張圖片唯一的圖片id編號;2)使用自行開發的標注軟件對圖片進行字幕標注,人工標注每張圖片的5個描述語句,主要圍繞人員的安全帽佩戴進行描述,并給每個語句賦予唯一的語句id編號.每張圖片均有對應的1個圖片id號和5個語句id號,以json格式存儲圖片字幕標注數據.

4.2 數據集的預處理

4.2.1 安全帽佩戴檢測數據集的預處理

仿照VOC格式自制的安全帽佩戴數據集,標注信息包含目標的類別及邊界框的坐標,需將標注信息進行歸一化處理,以轉換成網絡可用的訓練格式.

對樣本標注數據歸一化處理,即將樣本標注數據除以圖像的寬度和高度,以將最終的數據控制在0~1之間,便于訓練樣本數據的快速讀取,同時滿足多尺度訓練的要求.具體歸一化公式如式(6)所示.

(6)

其中,(xmax,xmin,ymax,ymin)表示原始樣本邊界框標注信息,(width,height)表示圖片尺寸,(x,y,w,h)表示歸一化后的標注信息,(x,y)為目標的中心點坐標,(w,h)為目標的寬和高.歸一化后的數據樣本中,每張圖片的每個目標的邊界框信息均包含5個參數,即(x,y,w,h)和類別序號class_id.

公共數據集的錨框參數值不適用于本文的數據集,因此需要根據自制的安全帽佩戴數據集重新確定錨框的參數值.通過K-means聚類算法,在本文數據集上進行聚類分析,得到12個錨框參數值分別為(12,16),(24,17),(37,27),(52,38),(61,45),(70,52),(88,68),(93,194),(137,211),(154,315),(205,226),(224,355).

4.2.2 安全帽佩戴圖像字幕數據集的預處理

本文參考Vinyals等人[12]的方法,對自制的圖像字幕數據集進行預處理,主要操作為:1)截斷標注樣本中超過15個單詞的字幕標注語句;2)刪除標注樣本中的“,”和“.”,并進行單詞大小寫的統一,將大寫單詞轉換為小寫;3)統計詞頻,并為標注樣本中的每個單詞賦予其唯一的id編號;4)構建一個詞匯表,包含3組信息(單詞id、單詞以及詞頻),將標注樣本中至少出現3次的單詞存入詞匯表中,剩余單詞視為生僻單詞,用“UNK”表示.在自制的圖片字幕訓練集上構建詞匯表,訓練集所構建的詞匯表中,詞頻較高的10個單詞如表2所列.

表2 詞頻較高的單詞及其對應詞頻
Table 2 Words with higher word frequency and
their corresponding word frequency

單詞詞頻單詞詞頻a106464is31482man53247his19940helmet43076wears15984in38250yellow13649the34665without11845

4.3 模型的訓練

根據本文自制的數據集的特點,對網絡的配置文件做相應的修改.在進行訓練之前,還需進行權重文件的轉換操作,將官網提供的權重文件根據修改后的網絡配置文件轉換成Keras框架下的權重文件,以便加載預訓練模型的加載,為模型的訓練提供初始化參數.

訓練時的批處理大小(batch)設置為64,即每輪迭代隨機選取64個樣本數據參與訓練,分組(subdivision)設為8,即將樣本分為8組送至網絡訓練,以減輕內存占用的壓力.使用BN(batch normalization)規范網絡模型,以提升模型的收斂速度.動量(momentum)設置為0.9,權重衰減(decay)設置為0.0005,以防止模型過擬合,初始學習率(learning rate)設置為0.001,每迭代5000次學習率衰減為原來的1/10.

模型最終迭代20000次,耗時約8個小時,其損失變化圖如圖6所示.從下圖可知,隨著迭代次數的增加,模型的損失在逐漸下降.在前4000次左右的迭代過程中模型迅速擬合,損失值下降速度快,當迭代10000次后損失值趨于穩定,只有些許振蕩.

4.4 評價標準

目前關于圖像描述語句生成的評價標準主要分為人工評價和量化指標評價.人工評價,即給定一張圖片及其生成的描述語句,人工評測其圖像描述語句生成的質量,具有一定的主觀性.量化指標評價,即通過計算生成的描述語句與對應的標注語句之間的匹配度,來衡量圖像描述語句生成的優劣,此評價標準客觀性較強,是較為主流的評價標準.

圖6 模型損失隨著迭代次數的變化曲線Fig.6 Model loss curve with the number of iterations

常見的量化指標包括:BLEU(Bilingual Evaluation Understudy)[28]、METEOR(Metric for Evaluation of Translation with Explicit Ordering)[29]、CIDEr(Consensus-based Image Description Evaluation)[30]等.BLEU指標起初用于對機器翻譯的評價,后用于對圖像描述的評價中,主要分析生成語句和人工標注描述語句之間n元組的共現程度,是基于N-gram共現統計的評價標準.METEOR指標通過計算生成語句與人工標注的描述語句之間的精度和召回率的調和均值,以衡量生成的描述語句和參考標注語句間的相似度.CIDEr指標將語句以向量形式表示,對每個n元組的權重進行計算,通過計算生成語句和人工標注的描述語句間的余弦距離來衡量圖像標注的一致性.

本文采用以上3種評價指標以及人工測評相結合的方式,對實驗結果分別進行定量和定性的分析.

4.5 實驗結果分析

本文采用改進的YOLOv3實現安全帽的佩戴檢測,同時與Faster-RCNN[18]、SSD[19]、YOLOv3[22]算法進行對比實驗.在測試集上對模型進行測試評估,以平均準確率AP(Average Precision)、3類目標的平均準確率均值MAP(Mean AP)和檢測速度作為模型性能的評估指標,得到數據如表3所示.

表3 不同算法的檢測效果對比
Table 3 Comparison of detection effects of different algorithms

不同算法AP(%)manhelmetman wearhelmetMAP(%)檢測速度(s)Faster-RC-NN87.6893.4586.0489.060.303SSD84.4786.5883.3284.790.083YOLOv391.8287.7588.6989.420.036本文算法95.5693.5794.1594.430.052

從中可見,在安全帽的檢測AP值上本文算法與Faster-RCNN相接近,但在MAP值上本文算法提高到94.43%.因為本文以YOLOv3為基礎,采用4種尺度特征融合預測,通過改進多尺度預測結構和初始錨框參數值,提高了模型的性能.但改進后增加了模型計算量,所以檢測速度略遜于原始的YOLOv3.在本文的安全帽佩戴圖像描述任務中,前期目標檢測模型檢測精度決定后一階段語句生成的準確性.本文算法的MAP值優于其他算法,檢測速度雖稍遜于YOLOv3,但仍比其他算法有優勢.綜合考慮,本文算法效果優于其他算法,在安全帽的佩戴檢測上取得一定的效果.

采用多種數據增強策略,以提高模型的泛化性能,不同數據增強策略在本文數據集上對本文模型的影響如表4所列.從中可見,色彩增強(亮度、對比度、銳度)、數據抖動和增加噪聲分別提升了1.81%、2.96%、2.17%的檢測精度,因數據抖動策略解決了樣本分布不均的問題,故提升效果最顯著.這些策略的同時使用將模型的檢測精度提升了3.98%.

表4 數據增強策略對本文模型的影響
Table 4 Influence of data augmentation strategy
on the model of this paper

策略亮度、對比度、銳度數據抖動增加噪聲MAP(%)1×××90.452×√√92.623√×√91.474√√×92.265√√√94.43

另選取幾組復雜場景下的測試圖片,與其他算法進行對比實驗,以便驗證本文算法的性能,不同算法的檢測效果如圖7所示.選取的3組測試圖片從左到右分別代表(1)單人佩戴安全帽的檢測效果、(2)佩戴非安全帽的檢測效果、(3)目標尺寸相差較大時的檢測效果.圖7(a)、圖7(b)、圖7(c)分別顯示了測試圖片在Faster-RCNN、YOLOv3以及本文算法下的檢測結果圖.從圖7中(1)的對比結果可見,本文算法的檢測結果較為理想,Faster-RCNN和YOLOv3均存在漏檢安全帽的情況.從圖7中(2)的對比結果可見,Faster-RCNN和YOLOv3均存在誤檢的情況,將佩戴棒球帽誤檢為佩戴安全帽,而本文算法不存在誤檢.從圖7中(3)的對比結果可見,雖然三種算法均能檢測出近處的工人安全帽佩戴的情況,但對于遠處的工人,YOLOv3存在漏檢的情況,而Faster-RCNN和本文算法能夠檢測出來,但在區分其安全帽的佩戴情況上,本文算法優于Faster-RCNN.圖7的實驗結果表明,本文對YOLOv3的改進帶來了小目標檢測效果的提升,并且增強了算法對復雜環境的適應性.

4.5.1 定量分析

本文前期利用改進的YOLOv3提取圖像中的視覺概念,后期利用規則和模板相結合的方法生成圖像的描述語句.為驗證本文算法生成圖像描述的有效性,在自制的安全帽佩戴圖像字幕數據集上,與NIC[12]、Soft-Attention[13]、Adaptive[14]等圖像描述算法進行對比,并用評價指標定量評估,結果如表5所列.

從表5可見,本文算法性能表現較好,BLEU-4上的得分與Adaptive持平,但在BLEU-1、METEOR、CIDEr指標上的得分均有略微的提升,分別提升了1.7、0.9、2.4.因為本文利用改進的YOLOv3對安全帽進行佩戴檢測,加強圖像區域和描述語句間的對應關系.采用基于語句模板的方法對安全帽佩戴進行圖像描述,在模板法的基礎上,通過引入規則使得本文算法能夠較為準確地描述圖片中佩戴安全帽的人數以及未佩戴安全帽的人數.

圖7 不同算法在復雜場景下的檢測結果Fig.7 Detection results of different algorithms in complex scenes

表5 不同算法在本文數據集上的性能比較
Table 5 Performance comparison of different algorithms
on the dataset of this paper

不同算法BLEU-1BLEU-4METEORCIDErNIC65.318.4——Soft-atten-tion68.120.919.5—Adaptive70.533.723.791.3本文算法72.233.724.693.7

4.5.2 定性分析

對無字幕標注的測試圖片進行實驗,定性分析本文方法的有效性,將本文方法與其他算法對于同一張圖片生成的描述語句進行對比.分為以下兩組對比實驗,單人佩戴情況和多人佩戴情況,分別如圖8、圖9所示.

1)單人情況下生成語句的性能對比

圖8 單人佩戴安全帽的圖像描述生成效果Fig.8 Generation effect of image caption of singleperson wearing helmet

圖8顯示了單人安全帽佩戴描述,圖8(a)為光照良好時的描述語句,圖8(b)為光照不足時的描述語句.光照良好時,兩種算法生成的描述語句雖略有差異,但均有較好的描述.光照不足時,本文算法更具優勢,原因在于本文利用圖像增強技術擴充數據集,提高了目標檢測模型的有效性,以適用于光照較差情況下的安全帽佩戴視覺概念的提取,生成的語句更為符合圖片的內容.

2)多人情況下生成語句的性能對比

圖9 多人佩戴安全帽的圖像描述生成效果Fig.9 Generation effect of image caption of multiplepeople wearing helmets

圖9顯示了多人安全帽佩戴描述,圖9(a)為部分人員佩戴安全帽情況下的描述語句,圖9(b)為目標尺寸差別較大情況下的描述語句.從中可見,兩種算法各有優劣.NIC算法生成的描述語句具有多樣性,但該算法易造成細節信息的丟失,不能準確描述佩戴安全帽的人員數量.由于本文前期對YOLOv3進行改進,通過改進多尺度預測結構和初始錨框參數,提升了目標檢測模型的性能,使本文方法可以提取出更為準確的視覺概念.后期采用基于規則和模板相結合的方法生成圖像描述,能夠較好地描述出佩戴安全帽的人數,但從句子的多樣性方面考慮,生成的語句略有不足.

綜合以上情況考慮,本文方法能夠針對不同復雜場景下施工人員的安全帽佩戴情況,生成較為準確的描述語句,表明本文方法的有效性.

5 結束語

本文針對施工人員安全帽佩戴情況進行圖像描述的研究,使用基于目標檢測的方法生成圖像描述.在原始的YOLOv3基礎上,改進多尺度預測結構和初始錨框參數值,提升了模型的檢測性能.采用改進的YOLOv3對圖像中的安全帽佩戴情況進行檢測以提取視覺概念,進而結合規則和模板的方法生成安全帽佩戴的圖像描述.在自制的安全帽佩戴數據集上進行實驗,并將本文方法與經典算法進行對比,實驗表明,本文方法在BLEU、METEOR、CIDEr等評價指標上的得分有略微的提高,相比于其他方法,本文方法在佩戴安全帽的人數方面能夠生成較為準確描述語句.根據實驗結果可知,本文方法生成的描述語句句式結構較為單一且多樣性不足,在后續的研究工作中,將在此方面著重展開,以求生成準確且多樣化的描述語句.

猜你喜歡
檢測
QC 檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
“有理數的乘除法”檢測題
“有理數”檢測題
“角”檢測題
“幾何圖形”檢測題
主站蜘蛛池模板: 午夜国产大片免费观看| 无码内射中文字幕岛国片 | 茄子视频毛片免费观看| 日韩精品一区二区三区中文无码| 亚洲国产亚洲综合在线尤物| 亚洲日韩精品综合在线一区二区| 久久视精品| 国产一区三区二区中文在线| 亚洲精品麻豆| 四虎精品免费久久| 大学生久久香蕉国产线观看| 四虎影视永久在线精品| 欧美人与牲动交a欧美精品 | 日韩精品中文字幕一区三区| 国产午夜福利亚洲第一| 色吊丝av中文字幕| 91在线精品麻豆欧美在线| 国产成人精品日本亚洲| 东京热高清无码精品| 免费看黄片一区二区三区| 色综合天天视频在线观看| 狠狠色丁香婷婷| 欧美一级在线看| 永久天堂网Av| 成人午夜网址| 国产黄色免费看| 久久亚洲综合伊人| 又大又硬又爽免费视频| 中文字幕2区| 午夜电影在线观看国产1区| 亚洲国语自产一区第二页| 男人天堂伊人网| 国产午夜一级毛片| 尤物午夜福利视频| 无码内射中文字幕岛国片| 国产成人精品综合| 97在线碰| 玖玖精品视频在线观看| 亚洲浓毛av| 性69交片免费看| 午夜在线不卡| 55夜色66夜色国产精品视频| 国内精品自在欧美一区| 亚洲中文在线看视频一区| 玖玖精品在线| 成人国产一区二区三区| 日韩无码视频专区| 97在线国产视频| 亚洲人人视频| 996免费视频国产在线播放| 国产美女无遮挡免费视频网站 | 国产系列在线| 波多野结衣亚洲一区| 国产一区在线观看无码| 国产日韩欧美在线播放| 欧美成一级| а∨天堂一区中文字幕| 国产99视频精品免费视频7| 亚洲一区精品视频在线| 成人在线观看一区| 丰满的熟女一区二区三区l| 看av免费毛片手机播放| 天天操天天噜| 亚洲性影院| 国产美女叼嘿视频免费看| 麻豆精选在线| 很黄的网站在线观看| 国产二级毛片| 免费aa毛片| 91综合色区亚洲熟妇p| 国产福利2021最新在线观看| 狠狠操夜夜爽| 婷婷五月在线视频| AV无码一区二区三区四区| 欧美特黄一级大黄录像| 国产欧美日韩va| 亚洲国产精品无码AV| 欧美三级不卡在线观看视频| 亚洲一区毛片| 免费无码在线观看| 国产在线观看第二页| 国产精品第一区|