999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向計(jì)算機(jī)視覺的吸煙檢測(cè)方法研究綜述

2024-01-18 16:52:02何嘉彬李雷孝徐國(guó)新
關(guān)鍵詞:動(dòng)作特征檢測(cè)

何嘉彬,李雷孝,2,林 浩,徐國(guó)新

1.內(nèi)蒙古工業(yè)大學(xué) 數(shù)據(jù)科學(xué)與應(yīng)用學(xué)院,呼和浩特 010080

2.內(nèi)蒙古自治區(qū)基于大數(shù)據(jù)的軟件服務(wù)工程技術(shù)研究中心,呼和浩特 010080

3.天津理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,天津 300384

近年來,與吸煙有關(guān)的死亡人數(shù)每年都在增加,在一些地區(qū),吸煙導(dǎo)致死亡的人數(shù)甚至超過了交通事故或飲酒[1]。此外,在公共場(chǎng)所吸煙也存在很多潛在危害。吸煙不僅嚴(yán)重危害自身健康,吐出的二手煙還會(huì)影響他人。煙草中含有多種有害物質(zhì),吸入人體后會(huì)在肺泡內(nèi)壁慢慢沉積導(dǎo)致肺部出現(xiàn)損傷。一支香煙通常燃燒時(shí)間在10 min左右,被隨意丟棄的煙頭接近易燃物品極易引發(fā)火災(zāi)。因此,為了保護(hù)自身健康和公共財(cái)產(chǎn)安全,對(duì)吸煙檢測(cè)方法展開研究具有重要意義。

目前,吸煙檢測(cè)的研究成果可分為基于硬件設(shè)備和無(wú)線信號(hào),以及基于計(jì)算機(jī)視覺的檢測(cè)方法。其中,基于硬件設(shè)備和無(wú)線信號(hào)的檢測(cè)方法適應(yīng)性較差,在一些特殊場(chǎng)景使用效果不佳。針對(duì)這些局限性,近年來基于計(jì)算機(jī)視覺的吸煙檢測(cè)方法被廣泛應(yīng)用。與此同時(shí),監(jiān)控系統(tǒng)從仿真時(shí)代、網(wǎng)絡(luò)化時(shí)代、高清時(shí)代逐漸步入智能化時(shí)代。監(jiān)控資源不再作為局部監(jiān)控功能,而是與計(jì)算機(jī)視覺相結(jié)合,實(shí)現(xiàn)智能監(jiān)控。根據(jù)吸煙產(chǎn)生煙霧的特點(diǎn),利用圖像處理相關(guān)算法提取疑似煙霧區(qū)域并準(zhǔn)確分割識(shí)別,可以極大改善傳統(tǒng)煙霧探測(cè)器的高誤報(bào)率和低檢測(cè)率。并且隨著深度學(xué)習(xí)的成功,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法迅速發(fā)展并成為檢測(cè)煙霧和煙支的主流方法。與傳統(tǒng)機(jī)器學(xué)習(xí)相比,它具有更強(qiáng)大的特征學(xué)習(xí)和特征表示能力,能夠更好地滿足大數(shù)據(jù)時(shí)代的需求。這類方法主要基于單幀圖像提取目標(biāo)的高維特征,對(duì)于吸煙檢測(cè)而言,沒有很好利用吸煙動(dòng)作的時(shí)序規(guī)律性。另一類方法是基于行為識(shí)別[2]的吸煙動(dòng)作檢測(cè),它更多地關(guān)注吸煙動(dòng)作的時(shí)序信息,利用模型構(gòu)造動(dòng)作特征描述人體吸煙動(dòng)作變化。其中人體骨架的高層次表示特征以及對(duì)視點(diǎn)、外觀和背景噪聲的魯棒性使得骨骼數(shù)據(jù)在動(dòng)作識(shí)別中更具有優(yōu)勢(shì)。Yang 等人[3]通過實(shí)驗(yàn)證明了在同一數(shù)據(jù)集上使用相同的分類器,基于人體骨骼的特征優(yōu)于外觀特征。所以基于骨骼數(shù)據(jù)的吸煙動(dòng)作檢測(cè)受到更多的學(xué)者們關(guān)注。

當(dāng)前研究只針對(duì)某一類方法,該領(lǐng)域還沒有系統(tǒng)歸納的綜述。因此本文基于現(xiàn)有吸煙檢測(cè)方法展開研究。首先,探討基于硬件設(shè)備和無(wú)線信號(hào)的非計(jì)算機(jī)視覺檢測(cè)方法,并分析其優(yōu)劣。其次,分別綜述三類主流計(jì)算機(jī)視覺檢測(cè)方法:(1)針對(duì)煙霧檢測(cè)從顏色、外觀和運(yùn)動(dòng)等多特征融合角度進(jìn)行論述;(2)煙支目標(biāo)檢測(cè)利用單階段和兩階段檢測(cè)算法對(duì)煙支目標(biāo)直接檢測(cè),或利用人臉、人體初步篩選煙支候選區(qū)域,再利用目標(biāo)檢測(cè)算法定位識(shí)別煙支目標(biāo);(3)吸煙動(dòng)作檢測(cè)從行為識(shí)別角度出發(fā),主要基于骨骼數(shù)據(jù)展開研究。最后總結(jié)全文并展望未來吸煙檢測(cè)研究的發(fā)展方向。本文結(jié)構(gòu)如圖1所示。

圖1 全文結(jié)構(gòu)Fig.1 Full-text structure

1 基于硬件設(shè)備和無(wú)線信號(hào)的吸煙檢測(cè)

對(duì)吸煙行為檢測(cè)的研究由來已久,傳統(tǒng)的檢測(cè)方法主要基于煙霧傳感器[4]。其中離子式煙霧傳感器利用煙霧會(huì)干擾帶電離子正常運(yùn)動(dòng)的原理,改變電流電壓,產(chǎn)生報(bào)警信息;光電式煙霧傳感器在煙霧的作用下,利用紅外光漫反射原理進(jìn)行檢測(cè);氣敏式煙霧傳感器通過檢測(cè)特定氣體濃度,分析環(huán)境中是否存在香煙煙霧。由于香煙煙霧濃度低、飄散快的特點(diǎn),煙霧傳感器需要具備較高的靈敏度。此外,室外環(huán)境還要考慮空氣中其他物質(zhì)對(duì)傳感器造成的干擾。近幾年,可穿戴設(shè)備[5]依靠其方便、快捷的優(yōu)勢(shì)逐漸成為吸煙檢測(cè)的解決方案。吸煙的頻率或方式通常因人而異,然而不同人的吸煙行為和生理現(xiàn)象總是存在相似之處。吸煙者一次吸煙過程通常包括以下動(dòng)作,點(diǎn)燃香煙后手部持煙準(zhǔn)備吸入,動(dòng)作表現(xiàn)為手部逐漸靠近嘴部;手部持煙一段時(shí)間吸入煙霧,動(dòng)作表現(xiàn)為手部與嘴部保持重合;吸入煙霧后動(dòng)作表現(xiàn)為手部逐漸遠(yuǎn)離嘴部。此時(shí)會(huì)有短暫的煙霧滯留在肺部,吸煙者通過鼻子或嘴呼出煙霧。這種特殊的呼吸方式和此時(shí)產(chǎn)生的心律變化相較于非吸煙者存在明顯差異,通過可穿戴設(shè)備表征這些差異可以檢測(cè)吸煙行為。雖然這類方法可以平衡外部環(huán)境因素導(dǎo)致吸煙檢測(cè)準(zhǔn)確度低的問題,但穿戴復(fù)雜的設(shè)備會(huì)給人帶來強(qiáng)烈的不適感,并且傳感器的響應(yīng)通常會(huì)受到吸煙者行為運(yùn)動(dòng)的影響。隨著無(wú)線通信技術(shù)和射頻識(shí)別技術(shù)的發(fā)展,部分研究使用無(wú)線信號(hào)來識(shí)別身體運(yùn)動(dòng)。主要利用WiFi 信號(hào)[6]的信道狀態(tài)變化檢測(cè)有規(guī)律的吸煙行為,在非視線區(qū)和穿墻環(huán)境中也能提取有價(jià)值的信息。還有研究利用超寬帶雷達(dá)信號(hào)[7]、聲學(xué)和光學(xué)信號(hào)[8-9]結(jié)合可穿戴設(shè)備進(jìn)行吸煙檢測(cè)。基于無(wú)線信號(hào)的檢測(cè)方法不僅需要考慮信號(hào)覆蓋問題,而且易受混淆活動(dòng)和吸煙行為多樣性的影響。基于硬件設(shè)備相關(guān)研究如表1所示。

以上方法都具有很大的局限性,測(cè)試過程也僅限于實(shí)驗(yàn)環(huán)境,無(wú)法同時(shí)滿足實(shí)際場(chǎng)景高精度檢測(cè)和實(shí)時(shí)性需求。相比基于硬件設(shè)備和無(wú)線信號(hào)的檢測(cè)方法,基于計(jì)算機(jī)視覺的吸煙檢測(cè)不受環(huán)境因素的干擾,也不需要考慮硬件成本問題。不少研究者利用計(jì)算機(jī)視覺中先進(jìn)的技術(shù)對(duì)吸煙行為進(jìn)行檢測(cè),并取得了良好的檢測(cè)效果。下面將分別介紹三種基于計(jì)算機(jī)視覺的吸煙檢測(cè)方法。

2 煙霧多特征檢測(cè)

這類方法使用特征提取和分割技術(shù)從圖像中提取所需特征,然后將這些特征與目標(biāo)對(duì)象的特征進(jìn)行比較。如果從圖像中提取的特征與目標(biāo)對(duì)象特征匹配或相似,則認(rèn)為檢測(cè)到目標(biāo)對(duì)象。常用機(jī)器學(xué)習(xí)方法如支持向量機(jī)(support vector machine,SVM)分類器對(duì)提取的特征進(jìn)行分類。基于煙霧多特征的吸煙檢測(cè)方法利用圖像處理技術(shù),通過提取煙霧的顏色、外觀和運(yùn)動(dòng)等特征并送入分類器進(jìn)行判別。這種吸煙煙霧檢測(cè)技術(shù)相比于煙霧探測(cè)器更適用于復(fù)雜、廣闊的室外環(huán)境,同時(shí)提供了豐富的早期煙霧視覺信息。

2.1 顏色特征

基于顏色特征算法利用不同顏色空間特點(diǎn)增強(qiáng)煙霧視覺特性,將移動(dòng)塊標(biāo)記為潛在的煙霧塊。常用的顏色空間包括RGB、HSV、YCbCr、YUV、HSI 等。潘廣貞等人[15]通過分析研究大量稀薄煙霧圖片,發(fā)現(xiàn)圖像中RGB顏色空間3個(gè)分量值差距不大,導(dǎo)致無(wú)法區(qū)分稀薄煙霧區(qū)域。將RGB 轉(zhuǎn)換HSV 顏色空間后,各通道分量值存在明顯差異。利用該特點(diǎn)分割稀薄煙霧和相似背景。唐杰等人[16]混合RGB和HSV顏色空間得到了更準(zhǔn)確的煙霧區(qū)域。胡春海等人[17]發(fā)現(xiàn)在YCrCb 顏色空間中,煙霧區(qū)域和非煙霧區(qū)域顏色布局描述符Y通道方差值差異明顯,利用該特點(diǎn)可以更好地分割煙霧和非煙霧區(qū)域。Lin 等人[18]將煙霧待檢測(cè)區(qū)域定位在口腔附近,吸煙產(chǎn)生的煙霧會(huì)改變口腔區(qū)域的飽和度和灰度值,通過計(jì)算這兩個(gè)屬性以檢測(cè)面部區(qū)域是否有煙霧。當(dāng)口腔圖像中白色像素點(diǎn)數(shù)量大于設(shè)置閾值且當(dāng)口腔飽和度明顯低于設(shè)置閾值時(shí),確定口腔中有白色煙霧。

2.2 外觀特征

基于外觀特征的算法在決策過程中考慮了煙霧擴(kuò)展方式和增長(zhǎng)速度以及煙霧形狀特征,通過定義煙霧物理屬性和煙霧輪廓特征的不規(guī)則變化來判斷圖像的運(yùn)動(dòng)區(qū)域是否與煙霧相似。汪祖云等人[19]利用煙霧擴(kuò)散變大、向斜上方緩慢運(yùn)動(dòng)的特性,計(jì)算煙霧的面積變化速率和質(zhì)心相對(duì)角度變化共建SVM分類器判別吸煙行為。黃訓(xùn)平等人[20]在此基礎(chǔ)上計(jì)算煙霧凸包周長(zhǎng)與輪廓周長(zhǎng)的比值、煙霧輪廓內(nèi)外接矩形面積比,對(duì)煙霧的不規(guī)則性加以定義。

2.3 運(yùn)動(dòng)特征

基于運(yùn)動(dòng)特征算法利用煙霧運(yùn)動(dòng)模式選擇潛在的煙霧區(qū)域。單幀圖像顯然無(wú)法描述物體運(yùn)動(dòng),所以需要基于視頻圖像序列獲取煙霧運(yùn)動(dòng)特征,從而分割出目標(biāo)區(qū)域以及更多視覺特征。經(jīng)典的煙霧運(yùn)動(dòng)視頻序列如圖2所示。

圖2 煙霧運(yùn)動(dòng)視頻序列Fig.2 Smoke motion video sequence

在靜止背景的情況下,運(yùn)動(dòng)目標(biāo)的提取方法有幀間差分法、背景差分法和光流法,如表2 所示。傳統(tǒng)運(yùn)動(dòng)目標(biāo)提取方法主要利用貝葉斯分類器的光流計(jì)算和運(yùn)動(dòng)熵來檢測(cè)圖像中的運(yùn)動(dòng)區(qū)域是否代表煙霧。為了更好地將煙霧運(yùn)動(dòng)目標(biāo)從圖像背景中分離出來,有研究提出使用自適應(yīng)混合高斯模型進(jìn)行運(yùn)動(dòng)區(qū)域分割[21]。利用混合高斯模型的無(wú)偏差性和有效性對(duì)圖像背景建模,結(jié)合運(yùn)動(dòng)目標(biāo)提取方法可以提取清晰的煙霧運(yùn)動(dòng)信息。其流程如圖3所示。

表2 靜止背景情況下運(yùn)動(dòng)目標(biāo)提取方法對(duì)比Table 2 Comparison of moving object extraction methods in static background

圖3 混合高斯模型+幀差法提取煙霧區(qū)域流程Fig.3 Mixed Gaussian model+frame difference method to extract smoke area process

2.4 小結(jié)

分析上述煙霧多特征檢測(cè)方法發(fā)現(xiàn)。煙霧顏色特征利用RGB、HSV 等顏色空間的色彩分量和飽和度特性檢測(cè)煙霧,雖然有一定的判別能力,但面對(duì)復(fù)雜環(huán)境時(shí)顏色特征易受外部環(huán)境因素干擾。外觀特征主要表現(xiàn)為提取煙霧區(qū)域的凸形特征計(jì)算周長(zhǎng)面積,但應(yīng)用的前提是必須提取完整的疑似煙霧區(qū)域。運(yùn)動(dòng)特征利用煙霧的漂移特性和擴(kuò)散特性,結(jié)合運(yùn)動(dòng)目標(biāo)提取方法描述煙霧運(yùn)動(dòng)信息,此類方法復(fù)雜度較高,需要計(jì)算每個(gè)像素點(diǎn)或塊的運(yùn)動(dòng),且抗噪能力不強(qiáng)。除了上述特征外還包括煙霧紋理、統(tǒng)計(jì)量特征。文獻(xiàn)[15,19]對(duì)每個(gè)像素點(diǎn)進(jìn)行HSV 顏色空間轉(zhuǎn)換時(shí),疑似煙霧區(qū)域內(nèi)的像素點(diǎn)可能存在漏檢或誤檢情況。針對(duì)這一問題,張日東[22]利用形態(tài)學(xué)的腐蝕和膨脹操作消除圖像中目標(biāo)邊界點(diǎn),使其邊界向內(nèi)部收縮。從而消除區(qū)域內(nèi)部存在的空洞和外在的孤立點(diǎn)。吸煙煙霧多特征簡(jiǎn)述如表3 所示。數(shù)據(jù)表明煙霧獨(dú)特的擴(kuò)散性使得特征提取主要集中于顏色和運(yùn)動(dòng)特征。但單一特征容易受到場(chǎng)景約束,所以特征多以組合形式出現(xiàn)。

表3 多特征融合方法Table 3 Multi-feature fusion method

綜上所述,吸煙煙霧檢測(cè)大多采用煙霧多特征結(jié)合方法,通過判斷所選特征的一定數(shù)量是否符合煙霧條件來確定圖像是否包含煙霧。雖然在一定程度上解決了煙霧易擴(kuò)散、顏色較淺的缺點(diǎn),但實(shí)際上煙霧檢測(cè)環(huán)境復(fù)雜多變,煙霧多特征需要的預(yù)處理步驟較多,檢測(cè)過程中會(huì)出現(xiàn)大量的計(jì)算。為解決上述問題已有學(xué)者提出結(jié)合目標(biāo)檢測(cè)方法檢測(cè)煙霧,將在3.3節(jié)介紹。

3 煙支目標(biāo)檢測(cè)

目前吸煙檢測(cè)使用較為廣泛的方法是利用目標(biāo)檢測(cè)算法提取圖像中的煙支。早期階段,目標(biāo)檢測(cè)算法主要依賴于人工特征提取和選擇,較多采用滑動(dòng)窗口方法遍歷整幅圖像,利用尺度不變特征變換(scale-invariant feature transform,SIFT)、HOG 等方法提取特征。由于缺乏圖像特征表示能力,研究者只能設(shè)計(jì)復(fù)雜的特征盡可能地描述場(chǎng)景。隨著卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的快速發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法受到了越來越多的關(guān)注。2014 年,Girshick等人[23]提出了RCNN(region convolutional neural network)首次將CNN用于目標(biāo)檢測(cè)。此后,Redmon等人[24]于2015年提出了單階段檢測(cè)算法YOLO(you only look once)。YOLO 將圖像分割成網(wǎng)格,同時(shí)預(yù)測(cè)每個(gè)網(wǎng)格的邊界框和概率。圍繞RCNN 和YOLO 衍生了一系列目標(biāo)檢測(cè)方法。根據(jù)方法設(shè)計(jì)框架不同,現(xiàn)有的目標(biāo)檢測(cè)主要分為兩階段和單階段算法。兩階段的目標(biāo)檢測(cè)基本原理同傳統(tǒng)目標(biāo)檢測(cè)方法類似,算法流程如圖4(a)所示。一階段提取一定數(shù)量的目標(biāo)候選區(qū)域,二階段利用特征提取網(wǎng)絡(luò)對(duì)這些候選區(qū)域進(jìn)行區(qū)分和定位。相比于傳統(tǒng)目標(biāo)檢測(cè)方法使用卷積神經(jīng)網(wǎng)絡(luò)代替手工特征提取,顯著提高目標(biāo)的特征表達(dá)能力。雖然兩階段目標(biāo)檢測(cè)算法在精度識(shí)別方面表現(xiàn)足夠優(yōu)秀,但其復(fù)雜的計(jì)算過程無(wú)法滿足實(shí)時(shí)檢測(cè)需要。單階段目標(biāo)檢測(cè)算法為了提高檢測(cè)速度,取消了兩階段目標(biāo)檢測(cè)算法中候選框生成網(wǎng)絡(luò),直接從特征映射中輸出目標(biāo)邊界框,大大提高了檢測(cè)效率。單階段目標(biāo)檢測(cè)算法流程如圖4(b)。

圖4 目標(biāo)檢測(cè)算法流程Fig.4 Target detection algorithm flow

3.1 單步驟目標(biāo)檢測(cè)

單步驟目標(biāo)檢測(cè)利用目標(biāo)檢測(cè)算法提取整張輸入圖像特征。包括目標(biāo)人物手拿煙未吸入等情況都會(huì)被檢測(cè),這種檢測(cè)方式適用于對(duì)吸煙把控較嚴(yán)格的場(chǎng)景。在目標(biāo)檢測(cè)任務(wù)中,對(duì)于小目標(biāo)的定義還沒有統(tǒng)一的標(biāo)準(zhǔn),而是根據(jù)不同的應(yīng)用場(chǎng)景有不同定義[25]。煙支目標(biāo)與常規(guī)目標(biāo)相比分辨率較低且特征信息不明顯,針對(duì)煙支小目標(biāo)檢測(cè)問題,研究人員已經(jīng)提出多種優(yōu)化方法。

2019 年,Poonam 等人[26]首次使用兩階段目標(biāo)檢測(cè)算法Faster RCNN(faster region convolutional neural network)進(jìn)行吸煙檢測(cè),并且在自建數(shù)據(jù)集上取得了93.87%的準(zhǔn)確率。結(jié)果表明,以煙支為目標(biāo),使用Faster RCNN 可以用于吸煙場(chǎng)景的檢測(cè),有效克服了傳統(tǒng)目標(biāo)檢測(cè)算法特征提取的缺陷。基于兩階段的目標(biāo)檢測(cè)算法雖然提高了煙支目標(biāo)檢測(cè)精度,但仍然不能滿足吸煙場(chǎng)景實(shí)時(shí)檢測(cè)需要。因此煙支目標(biāo)檢測(cè)大多基于檢測(cè)速度更快的單階段目標(biāo)檢測(cè)算法。Liao 等人[27]基于YOLOv3 網(wǎng)絡(luò)對(duì)公共場(chǎng)所的吸煙行為進(jìn)行檢測(cè)。YOLOv3 利用了特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)(feature pyramid network,F(xiàn)PN)將不同特征圖上的特征進(jìn)行融合,再利用融合得到的特征圖上進(jìn)行預(yù)測(cè)。小尺寸特征圖用于檢測(cè)大尺寸物體,大尺寸特征圖用于檢測(cè)小尺寸物體,以此來提高煙支小目標(biāo)的檢測(cè)準(zhǔn)確率。文獻(xiàn)[28-29]使用自制數(shù)據(jù)集和YOLOv3網(wǎng)絡(luò)訓(xùn)練煙支目標(biāo)檢測(cè)模型,并基于GUI(graphical user interface)開發(fā)圖形用戶界面構(gòu)建實(shí)時(shí)推理系統(tǒng),為后續(xù)模型嵌入硬件設(shè)備進(jìn)行實(shí)時(shí)檢測(cè)提供研究基礎(chǔ)。除YOLOv3外,YOLOv5也常被應(yīng)用于吸煙檢測(cè)研究,其檢測(cè)網(wǎng)絡(luò)共分為四個(gè)版本YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x,其 中YOLOv5s 的網(wǎng)絡(luò)深度和特征圖寬度均為最小。Zou 等人[30]通過比較YOLOv5 與其他模型的優(yōu)缺點(diǎn),選擇YOLOv5l 作為基礎(chǔ)模型,在自制的吸煙檢測(cè)數(shù)據(jù)集上取得了良好的檢測(cè)效果。楊國(guó)亮等人[31]將Transformer引入YOLOv5s 網(wǎng)絡(luò)頸部模塊,用于擴(kuò)大特征圖的感受野,減少模型誤檢率。綜上所述,F(xiàn)aster RCNN 通過犧牲檢測(cè)時(shí)間來?yè)Q取檢測(cè)精度,而YOLO 恰恰相反,它是犧牲檢測(cè)精度來?yè)Q取檢測(cè)效率。Yang 等人[32]提出使用SSD(single shot multibox detector)單階段檢測(cè)算法對(duì)駕駛員異常駕駛行為予以表征。SSD 算法結(jié)合上述兩者的優(yōu)點(diǎn),兼顧了mAP 和實(shí)時(shí)性要求,有效解決了吸煙、打電話等非法駕駛的行為檢測(cè)問題。煙支目標(biāo)檢測(cè)相關(guān)研究如表4所示。

表4 煙支目標(biāo)檢測(cè)相關(guān)算法研究Table 4 Research on correlative algorithm of cigarette target detection

除了上述目標(biāo)檢測(cè)模型外,還有學(xué)者使用自建網(wǎng)絡(luò)模型展開吸煙檢測(cè)的研究[47-48]。Zhang 等人[49]提出了一種基于CNN 的吸煙圖像檢測(cè)模型SmokingNet,它在GoogLeNet 的Inception 模塊基礎(chǔ)上進(jìn)一步優(yōu)化,使用非方卷積核增強(qiáng)了對(duì)目標(biāo)圖像的特征提取能力。SmokingNet 相比于傳統(tǒng)目標(biāo)檢測(cè)方法性能有明顯提升,但依然不能與發(fā)展成熟的單階段、兩階段目標(biāo)檢測(cè)算法相媲美。Zhang 等人[50]借鑒YOLOv5 算法思想,基于自定義注意力機(jī)制模塊和改進(jìn)的殘差網(wǎng)絡(luò)模塊設(shè)計(jì)了一種單階段檢測(cè)模型,通過主干網(wǎng)絡(luò)提取小目標(biāo)的語(yǔ)義信息和位置信息,利用YOLOv5的FPN結(jié)構(gòu)和路徑聚合網(wǎng)絡(luò)結(jié)構(gòu)(path aggregation network,PAN)進(jìn)行不同尺度的特征融合,提高小目標(biāo)的檢測(cè)精度。圖5 為FPN+PAN 結(jié)構(gòu)示意圖。同一個(gè)數(shù)據(jù)集下,該自定義模型無(wú)論在精度和速度方面要優(yōu)于Faster RCNN、SSD、YOLOv5 等基礎(chǔ)模型。Zhao 等人[51]提出了一種基于FPN和擴(kuò)張卷積技術(shù)相結(jié)合的方法,以檢測(cè)駕駛員圖像中的煙支小目標(biāo)對(duì)象并識(shí)別他們的吸煙行為。該模型的網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)于其他網(wǎng)絡(luò)結(jié)構(gòu)來說比較簡(jiǎn)單,方便將編程語(yǔ)言轉(zhuǎn)換成硬件運(yùn)行主板支持的語(yǔ)言并嵌入到平臺(tái)中。自建網(wǎng)絡(luò)模型和已經(jīng)發(fā)展成熟的目標(biāo)檢測(cè)模型相比,能更好地適應(yīng)特殊應(yīng)用場(chǎng)景,魯棒性更強(qiáng)。

圖5 FPN+PAN結(jié)構(gòu)示意圖Fig.5 Schematic diagram of FPN+PAN structure

3.2 多步驟目標(biāo)檢測(cè)

煙支目標(biāo)檢測(cè)背景復(fù)雜、易受環(huán)境噪聲干擾。多步驟目標(biāo)檢測(cè)結(jié)合人臉或人體區(qū)域提取算法進(jìn)一步縮小煙支目標(biāo)范圍,有效解決小目標(biāo)特征提取不充分問題。再提取到目標(biāo)區(qū)域基礎(chǔ)上使用目標(biāo)檢測(cè)算法定位識(shí)別煙支目標(biāo)。

部分研究對(duì)正在發(fā)生的吸煙行為進(jìn)行檢測(cè)(煙支和嘴部重合代表正在吸煙),這種方式能降低手拿煙未吸入等情況的誤檢率。因此多步驟目標(biāo)檢測(cè)的區(qū)域提取網(wǎng)絡(luò)大多基于人臉檢測(cè)模型提取人臉為候選區(qū)域。其中應(yīng)用較為廣泛的人臉檢測(cè)算法包括OpenCV 庫(kù)[52]、Dlib庫(kù)[53]、MTCNN算法[54]和RetinaFace算法[55],OpenCV庫(kù)的人臉檢測(cè)算法通過構(gòu)建Haar-like 特征和AdaBoost分類器實(shí)現(xiàn)人臉的檢測(cè);Dlib 庫(kù)的人臉檢測(cè)算法利用HOG 和級(jí)聯(lián)SVM 分類器構(gòu)建;MTCNN 算法是中科院深圳研究院提出的用于人臉檢測(cè)的多任務(wù)神經(jīng)網(wǎng)絡(luò)模型;RetinaFace 是InsightFace 團(tuán)隊(duì)提出的一種魯棒的單階段人臉檢測(cè)網(wǎng)絡(luò)。程淑紅等人[56]將吸煙檢測(cè)任務(wù)轉(zhuǎn)換為圖像分類問題,提出一種多任務(wù)分類網(wǎng)絡(luò)以檢測(cè)吸煙行為,檢測(cè)流程如圖6 所示。模型首先利用MTCNN算法進(jìn)行人臉的判別,在此基礎(chǔ)上利用級(jí)聯(lián)殘差回歸樹方法定位嘴部感興趣區(qū)域(region of interest,ROI),最后通過殘差網(wǎng)絡(luò)提取特征對(duì)吸煙行為做出判別。多算法融合構(gòu)建的多任務(wù)分類模型可以精準(zhǔn)識(shí)別正在發(fā)生的吸煙行為,但模型檢測(cè)速率不高輸出僅為25幀/s。文獻(xiàn)[57-59]都采用人臉到煙支的多步驟目標(biāo)檢測(cè)方法,首先結(jié)合人臉檢測(cè)算法縮小煙支目標(biāo)待檢測(cè)區(qū)域,再利用目標(biāo)檢測(cè)算法精準(zhǔn)定位煙支目標(biāo),此類方法相比于單步驟目標(biāo)檢測(cè)具有較低的誤檢率。

圖6 基于多任務(wù)分類的吸煙檢測(cè)流程Fig.6 Smoking detection process based on multitask classification

由于吸煙者不會(huì)經(jīng)常把香煙叼在嘴里,他們大部分時(shí)間都是手里拿著香煙。為了防止出現(xiàn)漏檢的情況,基于手部區(qū)域提取是有意義的。然而由于手部的不對(duì)稱性和吸煙手勢(shì)的不同使得定位手中煙支目標(biāo)更加困難。文獻(xiàn)[60-61]提出將目標(biāo)候選區(qū)域擴(kuò)大至人體,在減少目標(biāo)檢測(cè)面積的同時(shí)還不丟失煙支目標(biāo)特征,基于人體候選區(qū)域的吸煙檢測(cè)流程如圖7 所示。人體檢測(cè)利用方向梯度直方圖HOG的梯度信息反映圖像目標(biāo)的邊緣信息并通過局部梯度的大小將圖像局部的外觀和形狀特征化,最終通過SVM 分類器正確分離人體目標(biāo)。將人體作為煙支目標(biāo)檢測(cè)的候選區(qū)域,再使用CNN 提取人體圖像中煙支目標(biāo)特征。無(wú)論是基于人臉還是人體,多步驟目標(biāo)檢測(cè)方法的核心思想是縮小整張輸入圖像的煙支目標(biāo)范圍以提高準(zhǔn)確率,但也伴隨著區(qū)域提取網(wǎng)絡(luò)的開銷問題,所以需要兼顧煙支目標(biāo)檢測(cè)精度和模型檢測(cè)速率問題。

圖7 基于多人追蹤的吸煙檢測(cè)流程Fig.7 Smoking detection procedures based on multi-person tracking

3.3 小結(jié)

上述方法在煙支目標(biāo)檢測(cè)領(lǐng)域都取得了不錯(cuò)的效果。首先,基于深度學(xué)習(xí)的檢測(cè)方法在精度方面可以達(dá)到傳統(tǒng)方法無(wú)法達(dá)到的水平,在工業(yè)產(chǎn)品中更具實(shí)用性。其次,算法的運(yùn)行速度越來越快,能夠在可接受的時(shí)間范圍內(nèi)得到相應(yīng)的結(jié)果。驗(yàn)證了基于深度學(xué)習(xí)的方法已經(jīng)明顯優(yōu)于傳統(tǒng)方法。其中單步驟煙支目標(biāo)檢測(cè)方法更依賴網(wǎng)絡(luò)的特征提取能力,適用于實(shí)時(shí)性要求高的場(chǎng)景。但對(duì)整張圖像提取特征無(wú)法有效利用圖像局部信息,容易出現(xiàn)特征的冗余和缺失問題。多步驟目標(biāo)檢測(cè)把每個(gè)階段提取出的特征用于下一層的圖像處理,在提高檢測(cè)精度的同時(shí)增加了計(jì)算量和復(fù)雜度。近年來,無(wú)論是單步驟檢測(cè)還是多步驟檢測(cè)都圍繞提高模型精度和速率展開研究[62]。表5對(duì)所列舉的不同改進(jìn)策略、機(jī)制、優(yōu)勢(shì)、局限性和適用場(chǎng)景進(jìn)行了提煉分析。在實(shí)際應(yīng)用中需要根據(jù)具體情況綜合考慮,選擇合適的檢測(cè)方法。

表5 不同改進(jìn)策略對(duì)比Table 5 Comparison of different improvement strategies

近幾年,目標(biāo)檢測(cè)算法也常被應(yīng)用于吸煙煙霧檢測(cè)。史芳菲[63]使用混合高斯模型和幀差法提取疑似煙霧區(qū)域,再對(duì)疑似煙霧區(qū)域分別提取局部二值模式特征(local binary pattern,LBP)和方向梯度直方圖(histogram of oriented gradient,HOG)特征進(jìn)行融合,最后通過SVM 分類器標(biāo)記真實(shí)煙霧區(qū)域。也有相關(guān)研究利用目標(biāo)檢測(cè)模型來訓(xùn)練煙霧數(shù)據(jù)集。Yang等人[64]對(duì)EfficientDet算法進(jìn)行改進(jìn),引入雙通道注意力機(jī)制并改進(jìn)Bi-FPN 特征融合算法,解決了小煙霧區(qū)域的漏檢問題。Sha 等人[65]使用光流來檢測(cè)兩幀之間煙霧運(yùn)動(dòng)信息,再利用區(qū)域RCNN網(wǎng)絡(luò)檢測(cè)煙霧。Chen等人[66]基于煙霧動(dòng)態(tài)特性,采用混合高斯模型初篩煙霧區(qū)域,結(jié)合YOLOv5s算法檢測(cè)煙霧。上述方法均結(jié)合目標(biāo)檢測(cè)模型,相較于傳統(tǒng)吸煙煙霧檢測(cè)模型,無(wú)論在性能和準(zhǔn)確率方面都有所提升,也為后續(xù)吸煙煙霧檢測(cè)提供了新的研究方向。

4 吸煙動(dòng)作檢測(cè)

人體骨骼關(guān)鍵點(diǎn)檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域中的一個(gè)重要研究方向,已被廣泛應(yīng)用于行為識(shí)別、視頻監(jiān)控等方面。通過檢測(cè)出人體主要關(guān)節(jié),識(shí)別并獲取關(guān)鍵點(diǎn)在圖像中的坐標(biāo)數(shù)據(jù),以此來對(duì)人體行為動(dòng)作加以描述。由于吸煙動(dòng)作與骨骼關(guān)鍵點(diǎn)之間存在著十分密切的聯(lián)系,骨骼數(shù)據(jù)能更好地表征吸煙動(dòng)作整個(gè)過程。基于煙霧多特征和煙支目標(biāo)的吸煙檢測(cè)方法已趨于成熟,所以本文著重針對(duì)吸煙動(dòng)作的不同特征提取方法展開介紹。在計(jì)算機(jī)視覺領(lǐng)域,基于骨骼的動(dòng)作識(shí)別定義為對(duì)一副骨架序列進(jìn)行模式識(shí)別,識(shí)別這副骨架語(yǔ)義上所代表的執(zhí)行者所表達(dá)的動(dòng)作[67]。隨著人體關(guān)鍵點(diǎn)檢測(cè)模型和深度攝像頭傳感器等設(shè)備發(fā)展成熟,骨骼數(shù)據(jù)逐漸走入研究人員的視野。吸煙動(dòng)作特征根據(jù)構(gòu)建方式不同分為人工特征構(gòu)建和深度學(xué)習(xí)特征提取兩種方法。人工特征構(gòu)建直接利用骨骼數(shù)據(jù)構(gòu)造出物理屬性特征進(jìn)而判別是否符合吸煙動(dòng)作。基于深度學(xué)習(xí)的特征提取方法根據(jù)數(shù)據(jù)處理方式和骨干網(wǎng)絡(luò)不同總結(jié)為時(shí)空模型、時(shí)序模型、拓?fù)淠P秃突旌夏P退念悾眯袨樽R(shí)別網(wǎng)絡(luò)進(jìn)行多特征融合,提取更全面的吸煙動(dòng)作特征。基于骨骼數(shù)據(jù)的吸煙行為檢測(cè)流程如圖8 所示。在基于計(jì)算機(jī)視覺的研究中,首先通過攝像頭傳感器捕獲吸煙視頻數(shù)據(jù)。通過人體骨骼關(guān)鍵點(diǎn)檢測(cè)模型獲取到每幀的人體關(guān)鍵點(diǎn)信息,將此信息作為吸煙動(dòng)作特征提取模型的輸入數(shù)據(jù),再根據(jù)不同的特征提取方式進(jìn)行數(shù)據(jù)處理。通過以上步驟對(duì)吸煙動(dòng)作進(jìn)行判別最終輸出模型檢測(cè)結(jié)果。

圖8 基于骨骼數(shù)據(jù)的吸煙動(dòng)作檢測(cè)流程Fig.8 Smoking behavior detection procedures based on bone data

4.1 人工特征構(gòu)建

人工特征構(gòu)建方法是通過定義關(guān)鍵點(diǎn)之間的物理屬性反映出吸煙動(dòng)作本身的物理特性。物理特性包括關(guān)鍵點(diǎn)相對(duì)位置、距離、角度、速度和時(shí)間周期等特征,它們不僅可以反映出吸煙時(shí)人體關(guān)鍵點(diǎn)之間的空間結(jié)構(gòu)變化,還能反映出時(shí)間層面的動(dòng)作動(dòng)態(tài)演變過程。具體來講,人工特征構(gòu)建首先將人體關(guān)鍵點(diǎn)數(shù)據(jù)處理成方便獲取物理屬性的坐標(biāo)數(shù)據(jù),然后經(jīng)過預(yù)先人為構(gòu)建的物理屬性特征模型,進(jìn)行吸煙動(dòng)作的檢測(cè)。

近年來學(xué)者們廣泛利用基于人工特征構(gòu)建方法進(jìn)行吸煙檢測(cè)[68-71],如表6。由于整個(gè)吸煙過程歷時(shí)較長(zhǎng)且吸煙動(dòng)作具有周期性規(guī)律,利用該特點(diǎn)劉婧等人[68]首次基于人體骨骼對(duì)多人吸煙動(dòng)作進(jìn)行識(shí)別。通過計(jì)算關(guān)節(jié)點(diǎn)間坐標(biāo)描述出關(guān)節(jié)點(diǎn)運(yùn)動(dòng)軌跡,檢測(cè)運(yùn)動(dòng)軌跡是否符合吸煙動(dòng)作周期性規(guī)律。當(dāng)檢測(cè)到有三次符合規(guī)定的周期性動(dòng)作即判斷發(fā)生吸煙動(dòng)作。但這種方法只能識(shí)別符合一定周期性的吸煙過程。在該方法的基礎(chǔ)上,姜曉鳳等人[69]通過計(jì)算關(guān)節(jié)點(diǎn)之間距離、角度和時(shí)間周期等多個(gè)屬性判斷是否滿足吸煙動(dòng)作,該方法在自建的數(shù)據(jù)集上取得了不錯(cuò)的效果。徐婉晴等人[71]考慮到不同圖像中人體大小不同,提出采用關(guān)鍵點(diǎn)之間距離比值的方法代替歐式距離,由大量實(shí)驗(yàn)得出吸煙動(dòng)作的最佳比例,通過判斷是否滿足最佳比例的持續(xù)時(shí)間來識(shí)別吸煙動(dòng)作。

表6 基于人工構(gòu)建吸煙動(dòng)作檢測(cè)模型比較Table 6 Comparison of smoking action detection models based on artificial construction

4.2 時(shí)空特征構(gòu)建

基于骨骼數(shù)據(jù)的時(shí)空模型在數(shù)據(jù)處理方面通常會(huì)將人體骨骼數(shù)據(jù)映射成偽圖像,分別將關(guān)鍵點(diǎn)序列時(shí)間動(dòng)態(tài)編碼為行變化,每一幀的空間結(jié)構(gòu)表示為列,將關(guān)鍵點(diǎn)三維坐標(biāo)映射為圖像的RGB 三個(gè)通道,然后使用CNN模型進(jìn)行特征學(xué)習(xí)和識(shí)別[72],時(shí)空模型檢測(cè)流程如圖9 所示。但是上述對(duì)骨骼數(shù)據(jù)的編碼方式過于依賴數(shù)據(jù)集,并且人的平移和動(dòng)作尺度可能會(huì)影響最終的偽圖像映射結(jié)果。隨著圖像分類網(wǎng)絡(luò)模型在不同數(shù)據(jù)集上的出色表現(xiàn),Wang 等人[73]使用遷移學(xué)習(xí)將現(xiàn)有CNN模型進(jìn)行微調(diào)而無(wú)需重新訓(xùn)練整個(gè)深度網(wǎng)絡(luò)。通過顏色編碼將關(guān)節(jié)軌跡的空間結(jié)構(gòu)和動(dòng)態(tài)信息都表示成三種紋理圖像,然后將這些紋理圖像送入模型進(jìn)行分類。但這種方法比較復(fù)雜,在將三維骨架投影到二維圖像時(shí)可能會(huì)丟失一些重要的信息。Liu等人[74]在Du等人[72]的基礎(chǔ)上提出基于熱力圖的表示方法來編碼時(shí)空骨架關(guān)節(jié)。將骨架序列建模為一組五維點(diǎn),并使用數(shù)據(jù)可視化將其進(jìn)一步編碼為一系列彩色圖像。但也存在類似的問題。Li 等人[75]針對(duì)上述問題提出平移尺度不變的圖像映射方法,他不僅可以避免骨架數(shù)據(jù)平移和尺度變化帶來的影響,還能將骨骼數(shù)據(jù)映射到0~255范圍內(nèi)的彩色圖像。在此基礎(chǔ)上Liu等人[76]提出了一種增強(qiáng)骨骼可視化方法,將骨骼序列表示為一系列視覺和運(yùn)動(dòng)增強(qiáng)的彩色圖像,以緊湊而獨(dú)特的方式隱式描述了骨骼關(guān)節(jié)的時(shí)空特征,增加彩色圖像的辨別能力。將動(dòng)作序列表示為骨骼數(shù)據(jù),進(jìn)而映射為彩色圖像的方法能夠充分利用CNN 圖像特征提取的優(yōu)勢(shì),提高行為識(shí)別的準(zhǔn)確率。這種思想后續(xù)也被廣泛應(yīng)用于基于CNN和骨骼數(shù)據(jù)的行為識(shí)別研究中。

圖9 基于時(shí)空模型的吸煙動(dòng)作特征提取流程Fig.9 Extraction process of smoking action feature based on spatiotemporal model

綜上所述,對(duì)骨骼數(shù)據(jù)的處理大多基于Du 等人提出的骨架圖像的改進(jìn)版本,僅通過隱式的關(guān)節(jié)關(guān)系來學(xué)習(xí)運(yùn)動(dòng)表示。近幾年,計(jì)算機(jī)視覺研究界一直在研究如何在視頻中建模時(shí)間動(dòng)態(tài)來應(yīng)用3D 人體動(dòng)作識(shí)別,部分學(xué)者關(guān)注到顯式地使用關(guān)節(jié)關(guān)系可以增強(qiáng)時(shí)間動(dòng)態(tài)編碼。因此新型骨架圖像的表示方法陸續(xù)被提出。Yang 等人[77]考慮到若將所有關(guān)節(jié)按固定順序連接起來會(huì)導(dǎo)致骨骼語(yǔ)義的缺失,為此提出了一種樹結(jié)構(gòu)骨架圖像表示來保存空間關(guān)系。采用深度優(yōu)先遍歷對(duì)骨架圖像進(jìn)行重新設(shè)計(jì),增強(qiáng)了骨架圖像的語(yǔ)義。Caetano 等人[78]在此基礎(chǔ)上引入樹結(jié)構(gòu)和參考關(guān)節(jié)圖像提出一種新型骨架圖像表示方法。除此之外,Li等人[79]通過學(xué)習(xí)幾何代數(shù)時(shí)空模型的形狀運(yùn)動(dòng)表示,對(duì)骨骼數(shù)據(jù)進(jìn)行重新編碼。

4.3 時(shí)序特征構(gòu)建

在數(shù)據(jù)處理方面,基于骨骼數(shù)據(jù)的時(shí)序模型將所有人體骨骼關(guān)鍵點(diǎn)逐幀表示為向量序列,然后輸入骨干網(wǎng)絡(luò)模型獲得預(yù)測(cè)結(jié)果,模型檢測(cè)流程如圖10 所示。Du等人[80]第一次使用分層循環(huán)神經(jīng)網(wǎng)絡(luò),為基于骨架的動(dòng)作識(shí)別提供了端到端的解決方案。通過手工創(chuàng)建的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)子網(wǎng)對(duì)相鄰部分(雙臂、兩條腿和軀干)的關(guān)系進(jìn)行建模(圖11(a)),但是忽略了非相鄰關(guān)節(jié)部分之間的關(guān)系。Zhu等人[81]通過在模型中加入不同類型的正則化項(xiàng),可以利用非相鄰部分之間的關(guān)系,實(shí)現(xiàn)了骨骼關(guān)節(jié)特征共現(xiàn)的自動(dòng)學(xué)習(xí)。Shahroudy 等人[82]提出了另一種解決方案,他們將記憶單元分離為基于部分的子單元,并通過連接基于部分的記憶單元學(xué)習(xí)非相鄰部分關(guān)系。雖然以上兩種方法利用了身體各部分之間的關(guān)系(圖11(b)),但模型識(shí)別準(zhǔn)確率不高。Liu 等人[83]提出了一個(gè)更詳細(xì)的劃分,他們專注于相鄰關(guān)節(jié)并構(gòu)造鄰接圖設(shè)計(jì)出骨架樹遍歷算法。通過在輸入序列中排列最相關(guān)的關(guān)節(jié)節(jié)點(diǎn)來提高網(wǎng)絡(luò)的性能(圖11(c))。但這種以樹的形式遍歷骨架會(huì)忽略非相鄰節(jié)點(diǎn)之間的關(guān)系。隨著幾何關(guān)系建模的發(fā)展表明,在非相鄰關(guān)節(jié)之間添加關(guān)系可以進(jìn)一步提高網(wǎng)絡(luò)識(shí)別性能。Zhang等人[84]設(shè)計(jì)了8組幾何關(guān)系特征來表示相鄰關(guān)節(jié)和非相鄰關(guān)節(jié)之間的關(guān)系(圖11(d)),取得了很好的實(shí)驗(yàn)結(jié)果。Zhang等人[85]在考慮到不同視角下的骨骼數(shù)據(jù)可能會(huì)影響識(shí)別結(jié)果,為此引入了一種新的視角適應(yīng)方案,在動(dòng)作發(fā)生過程中自動(dòng)調(diào)節(jié)觀察視角以達(dá)到最先進(jìn)的識(shí)別效果。

圖10 基于時(shí)序模型的吸煙動(dòng)作特征提取流程Fig.10 Extraction process of smoking action feature based on time series model

圖11 不同關(guān)節(jié)間的特征建模Fig.11 Characteristic modeling between different joints

4.4 拓?fù)涮卣鳂?gòu)建

一副人體骨架可以抽象為兩種元素即關(guān)鍵點(diǎn)和骨骼,關(guān)鍵點(diǎn)的作用是連接兩根相鄰的骨骼,拓?fù)淠P偷臄?shù)據(jù)處理就采用這種方式。因此可以把骨架簡(jiǎn)化為一個(gè)由點(diǎn)和邊所構(gòu)成的拓?fù)鋱D。盡管CNN 和RNN 在基于結(jié)構(gòu)規(guī)則的歐式空間數(shù)據(jù)的特征提取中取得很好的效果,但是不適用于非歐式空間生成的圖結(jié)構(gòu)數(shù)據(jù)。2018年,Yan等人[86]第一次將圖卷積(graph convolutional networks,GCN)應(yīng)用于骨骼行為識(shí)別中,并將圖卷積網(wǎng)絡(luò)擴(kuò)展為時(shí)空?qǐng)D卷積(spatial temporal graph convolutional networks,ST-GCN)模型。其中每個(gè)節(jié)點(diǎn)對(duì)應(yīng)人體的一個(gè)關(guān)節(jié),節(jié)點(diǎn)邊包括兩種類型,即符合關(guān)節(jié)自然連通性的空間邊和跨越連續(xù)時(shí)間步長(zhǎng)的連接相同關(guān)節(jié)的時(shí)間邊。在此基礎(chǔ)上構(gòu)造了多層時(shí)空?qǐng)D卷積,實(shí)現(xiàn)了信息在空間維度和時(shí)間維度上的集成,拓?fù)淠P蜋z測(cè)流程如圖12 所示。這類方法要優(yōu)于傳統(tǒng)骨架模型,ST-GCN可以捕獲動(dòng)態(tài)骨架序列中的運(yùn)動(dòng)信息,實(shí)現(xiàn)對(duì)RGB模態(tài)的補(bǔ)充。

圖12 基于拓?fù)淠P偷膭?dòng)作特征提取流程Fig.12 Extraction process of action feature based on topological model

但是這種固定的骨架拓?fù)鋱D僅能捕捉關(guān)節(jié)間的局部物理依賴性,可能會(huì)遺漏隱式關(guān)節(jié)相關(guān)性。為了捕獲更豐富的依賴關(guān)系,Thakkar 等人[87]引入基于部分的圖卷積網(wǎng)絡(luò),他們將骨架拓?fù)鋱D劃分為四個(gè)子圖,子圖之間共享關(guān)節(jié)并使用幾何和運(yùn)動(dòng)特征來代替每個(gè)頂點(diǎn)的三維關(guān)節(jié)位置。使用基于部分的圖卷積網(wǎng)絡(luò)可以更好消除與對(duì)象的交互歧義。除此之外,Li等人[88]提出一個(gè)編碼器-解碼器結(jié)構(gòu)從數(shù)據(jù)中自適應(yīng)學(xué)習(xí)圖形,以捕獲特定于動(dòng)作的潛在依賴關(guān)系,從而獲取有用的非局部信息。Shi等人[89]在2019年首先提出將骨架表示為一個(gè)有向無(wú)環(huán)圖并對(duì)其建模實(shí)現(xiàn)信息傳播。然而在這種基于手動(dòng)設(shè)定拓?fù)鋱D的方法中,對(duì)于分層GCN 和不同動(dòng)作樣本來說可能不是最優(yōu)的,針對(duì)這一問題Shi 等人[90]在此前的研究基礎(chǔ)上提出使用反向傳播算法以端到端方式自適應(yīng)學(xué)習(xí)骨架拓?fù)鋱D,以提高圖構(gòu)建模型的靈活性和通用性。通過上述討論,最常見的關(guān)注點(diǎn)仍然是數(shù)據(jù)驅(qū)動(dòng),想要的只是獲取人體骨架序列數(shù)據(jù)背后的潛在信息,尤其是骨骼數(shù)據(jù)本身具有時(shí)空耦合性。而且在將骨骼數(shù)據(jù)轉(zhuǎn)化為拓?fù)鋱D時(shí),如何確定關(guān)節(jié)和骨骼之間的連接方式仍然是未來研究的重點(diǎn)。

4.5 小結(jié)

分析上述吸煙動(dòng)作檢測(cè)方法可分為人工特征構(gòu)建和深度學(xué)習(xí)特征提取兩種方式。基于人工設(shè)定的吸煙動(dòng)作特征可解釋性強(qiáng)且特征模型構(gòu)建簡(jiǎn)單。相比于深度學(xué)習(xí)方法不需要訓(xùn)練。表6 列舉了不同人工特征構(gòu)建方式,隨著特征屬性不斷增加,模型在自建數(shù)據(jù)集上的準(zhǔn)確率得到不斷提升。但利用自身先驗(yàn)知識(shí)定義特征主觀性較強(qiáng),過于片面,難以有效捕獲數(shù)據(jù)之間的復(fù)雜關(guān)系。所以不能很好表征整個(gè)吸煙動(dòng)作狀態(tài),導(dǎo)致模型的泛化能力不強(qiáng)。深度學(xué)習(xí)特征提取方法相比于人工構(gòu)建特征較為客觀,但模型需要依賴大量樣本訓(xùn)練。其中時(shí)空模型在動(dòng)作識(shí)別空間域的特征提取上有一定優(yōu)勢(shì),但忽略了人體骨骼固有的結(jié)構(gòu)信息。而拓?fù)淠P拖啾扔跁r(shí)空模型不僅考慮到相鄰關(guān)鍵點(diǎn)之間關(guān)系,而且能夠?qū)W習(xí)骨骼序列的時(shí)空關(guān)系,更符合人體結(jié)構(gòu)。但是他們對(duì)處理長(zhǎng)序列動(dòng)作而言,捕獲時(shí)序信息的能力不強(qiáng)。而時(shí)序模型依據(jù)它的“記憶”能力可以隨時(shí)間推移學(xué)習(xí)到動(dòng)作變化,對(duì)處理時(shí)序分類任務(wù)更突出。因此,混合模型基于上述三種模型的骨干網(wǎng)絡(luò)架構(gòu)組合而成,一般采用其中的兩種。它的輸入需要依據(jù)所組合模型的數(shù)據(jù)處理方式,輸入相應(yīng)關(guān)鍵點(diǎn)信息表示方式。混合模型通過組合不同網(wǎng)絡(luò)可以達(dá)到特征互補(bǔ)和信息增強(qiáng)等效果,更適用于處理動(dòng)作識(shí)別任務(wù)。然而不同網(wǎng)絡(luò)的結(jié)合會(huì)導(dǎo)致參數(shù)量增長(zhǎng)、模型訓(xùn)練時(shí)間長(zhǎng)等問題,對(duì)混合模型的優(yōu)化方法也有待發(fā)掘。表7 分別給出了不同模型在NTU RGB+D數(shù)據(jù)集上的準(zhǔn)確率實(shí)驗(yàn),其中數(shù)據(jù)集涉及吸煙、喝水、打電話等多種日常動(dòng)作。評(píng)價(jià)標(biāo)準(zhǔn)CS 和CV 分別代表按照人物和按照相機(jī)劃分訓(xùn)練集和測(cè)試集。

表7 深度學(xué)習(xí)特征構(gòu)建骨干網(wǎng)絡(luò)相關(guān)研究Table 7 Research on deep learning features to build backbone networks

結(jié)果表明,在該數(shù)據(jù)集上僅使用拓?fù)淠P捅葍H使用時(shí)空模型的平均準(zhǔn)確率高約5%,比時(shí)序模型的平均準(zhǔn)確率高約7%。這也證明圖卷積網(wǎng)絡(luò)在基于骨骼數(shù)據(jù)的動(dòng)作識(shí)別領(lǐng)域更具優(yōu)勢(shì)。混合模型通過組合不同網(wǎng)絡(luò)得到的準(zhǔn)確率也較高,但模型復(fù)雜度過高會(huì)直接導(dǎo)致模型檢測(cè)效率下降。為了學(xué)習(xí)更全面的動(dòng)作特征,已有學(xué)者綜合考慮提出將人工特征構(gòu)建方法與深度學(xué)習(xí)特征提取相結(jié)合。文獻(xiàn)[111-112]通過顯式計(jì)算骨骼關(guān)節(jié)的矢量幾何性質(zhì)等屬性來編碼時(shí)間動(dòng)力學(xué),有效約束補(bǔ)充骨骼時(shí)空動(dòng)態(tài)信息。然后輸入到已提出的深度學(xué)習(xí)模型中進(jìn)行高級(jí)特征學(xué)習(xí)。基于骨骼數(shù)據(jù)的吸煙動(dòng)作檢測(cè)涉及多方面技術(shù)細(xì)節(jié),應(yīng)用范圍也較為廣泛。例如室內(nèi)室外公共區(qū)域和一些特殊場(chǎng)景,其發(fā)展趨勢(shì)不僅受到諸如深度學(xué)習(xí)等方法的推動(dòng),還面臨著實(shí)際監(jiān)控場(chǎng)景的迫切需要。Zhang 等人[113]針對(duì)建筑工人在非吸煙區(qū)違反吸煙行為進(jìn)行檢測(cè),使用AlphaPose 算法獲取人體骨骼信息,利用ST-GCN網(wǎng)絡(luò)提取吸煙動(dòng)作特征對(duì)吸煙行為進(jìn)行初步識(shí)別。Jiao 等人[114]依據(jù)人工特征與自學(xué)習(xí)特征相結(jié)合的方式對(duì)駕駛員吸煙行為進(jìn)行有效判定。通過人為定義骨骼結(jié)構(gòu)向量,計(jì)算關(guān)鍵點(diǎn)之間矢量角度和模量比作為人工特征。將原始骨骼數(shù)據(jù)作為自學(xué)習(xí)特征,通過這種方式不僅可以避免人工特征構(gòu)建的主觀性,模型準(zhǔn)確率也大大提升。人工定義特征結(jié)合自學(xué)習(xí)的深度特征更有利于吸煙行為檢測(cè)準(zhǔn)確率的提高。

5 總結(jié)與展望

本文深入總結(jié)分析了近年來吸煙檢測(cè)研究現(xiàn)狀,對(duì)非計(jì)算機(jī)視覺的吸煙檢測(cè)方法進(jìn)行簡(jiǎn)要介紹,重點(diǎn)圍繞基于計(jì)算機(jī)視覺的檢測(cè)方法進(jìn)行分類總結(jié)。分別從煙霧多特征、煙支目標(biāo)、吸煙動(dòng)作三個(gè)方面分析總結(jié)。其中吸煙煙霧和煙支目標(biāo)是吸煙檢測(cè)最具代表性的特征,吸煙煙霧的檢測(cè)環(huán)境復(fù)雜多變且煙霧本身具有易擴(kuò)散性,導(dǎo)致煙霧檢測(cè)停滯于圖像處理階段。隨著目標(biāo)檢測(cè)模型的愈發(fā)完善,煙支目標(biāo)檢測(cè)逐漸成為吸煙檢測(cè)的主要方法,相關(guān)研究圍繞改進(jìn)小目標(biāo)檢測(cè)模型開展。考慮到吸煙動(dòng)作的時(shí)序規(guī)律性,從行為識(shí)別角度出發(fā)對(duì)吸煙動(dòng)作展開研究可能是未來發(fā)展方向。雖然目前的研究成果已經(jīng)取得了較好的進(jìn)展,但仍存在一些問題。例如大部分吸煙檢測(cè)方法只是在理想狀態(tài)下實(shí)驗(yàn)的,無(wú)法適用于真實(shí)的吸煙場(chǎng)景。由于缺少統(tǒng)一數(shù)據(jù)集導(dǎo)致模型好壞無(wú)法衡量。并且隨著準(zhǔn)確率的提高模型復(fù)雜度也隨之增加。側(cè)重于解決當(dāng)前問題,本文提出以下展望。

(1)完善吸煙數(shù)據(jù)集。常用吸煙檢測(cè)數(shù)據(jù)集并不多,來源主要是利用Kinect攝像機(jī)自行獲取多模態(tài)吸煙動(dòng)作信息或截取網(wǎng)絡(luò)圖片和視頻。因此構(gòu)建大規(guī)模高質(zhì)量的吸煙數(shù)據(jù)集更有利于提高模型適用性。且應(yīng)考慮不同的場(chǎng)景,例如圖書館、加油站、車站等公共場(chǎng)所。未來可以利用攝像頭傳感器拍攝多角度、多類型的圖片作為吸煙檢測(cè)數(shù)據(jù)集,以便模型能更好適應(yīng)不同場(chǎng)景的吸煙行為檢測(cè)任務(wù)。

(2)構(gòu)建完備的煙霧特征工程。目前的煙霧檢測(cè)主要基于煙霧的視覺特性與運(yùn)動(dòng)特性,特征算子基本靠先驗(yàn)知識(shí)手工設(shè)計(jì)。未來研究需要跳出傳統(tǒng)框架,多利用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)方法尋找更能體現(xiàn)煙霧本質(zhì)的特征。

(3)優(yōu)化煙支小目標(biāo)特征提取網(wǎng)絡(luò)。煙支目標(biāo)相比常規(guī)目標(biāo)可利用的像素較少,導(dǎo)致難以提取到較好的特征。除了3.3 節(jié)總結(jié)的不同改進(jìn)策略外,可以利用多尺度學(xué)習(xí)同時(shí)學(xué)習(xí)深層語(yǔ)義和淺層表征信息;還可以結(jié)合生成對(duì)抗網(wǎng)絡(luò)提高煙支目標(biāo)分辨率。

(4)細(xì)粒度吸煙動(dòng)作識(shí)別。細(xì)粒度行為識(shí)別在智能輔助領(lǐng)域極其重要,它更關(guān)注細(xì)微的時(shí)空語(yǔ)義差異。因此了解吸煙動(dòng)作的細(xì)節(jié)執(zhí)行方式,設(shè)計(jì)出更細(xì)致的行為識(shí)別特征提取器,能更好區(qū)分吸煙、喝水、托腮等易混淆動(dòng)作。

(5)多方法融合。通過組合不同方法進(jìn)一步提高吸煙檢測(cè)模型精準(zhǔn)率。例如在提取圖像中煙支空間特征的同時(shí),結(jié)合吸煙動(dòng)作時(shí)序特征構(gòu)建新型時(shí)空特征模型,或結(jié)合煙霧煙支檢測(cè)。但需要考慮不同模型的機(jī)制匹配構(gòu)建合理的聯(lián)合算法,而不是簡(jiǎn)單的模型組合。

(6)構(gòu)建輕量級(jí)網(wǎng)絡(luò)模型。隨著數(shù)據(jù)信息載體轉(zhuǎn)移到移動(dòng)端,網(wǎng)絡(luò)模型的輕量化就尤為重要。優(yōu)化模型的參數(shù)和計(jì)算可以從調(diào)整模型的設(shè)計(jì)結(jié)構(gòu)或分解模型參數(shù)這兩個(gè)方面入手。在實(shí)際應(yīng)用場(chǎng)景中,模型不僅要適用于嘈雜的背景環(huán)境,還要達(dá)到實(shí)時(shí)響應(yīng)的結(jié)果。因此期望設(shè)計(jì)低延時(shí)高性能的吸煙檢測(cè)模型并應(yīng)用于實(shí)際場(chǎng)景。

除此之外,吸煙檢測(cè)還需要關(guān)注特殊場(chǎng)景下的應(yīng)用情況。例如當(dāng)煙霧多特征檢測(cè)遇到浮塵等能見度低的環(huán)境時(shí),會(huì)對(duì)煙霧的特征提取造成影響。此時(shí)可以結(jié)合浮塵傳感器或利用煙支燃燒溫度點(diǎn)另作判斷。有研究發(fā)現(xiàn)煙支在抽吸過程中,煙頭達(dá)到800~900 ℃,在近紅外圖像上形成一個(gè)熱點(diǎn),提出的方法旨在檢測(cè)吸煙者頭部區(qū)域周圍的熱點(diǎn)[115]。在吸煙者側(cè)身情況或有遮擋條件下,解決被遮擋目標(biāo)在復(fù)雜場(chǎng)景的檢測(cè)問題。目前已有研究針對(duì)遮擋目標(biāo)從數(shù)據(jù)集和改進(jìn)檢測(cè)算法角度著手[116]。在行為識(shí)別領(lǐng)域,將多視圖數(shù)據(jù)進(jìn)行三維重建,構(gòu)建全方位的三維信息[117]。進(jìn)一步設(shè)計(jì)基于三維視頻數(shù)據(jù)的特征提取器以解決遮擋目標(biāo)的檢測(cè)問題。因此如何有效處理吸煙行為檢測(cè)的特殊情況也是未來研究的重點(diǎn)和難點(diǎn)之一。

猜你喜歡
動(dòng)作特征檢測(cè)
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
動(dòng)作描寫要具體
抓住特征巧觀察
畫動(dòng)作
動(dòng)作描寫不可少
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
主站蜘蛛池模板: 成人第一页| 国产精品丝袜在线| 色男人的天堂久久综合| 99er这里只有精品| 国产成人精品午夜视频'| 青青青伊人色综合久久| 午夜啪啪网| 欧美一区二区丝袜高跟鞋| 国产真实乱了在线播放| 国产不卡国语在线| 国产制服丝袜91在线| 青青青国产免费线在| 国产a在视频线精品视频下载| 亚欧成人无码AV在线播放| 成人在线第一页| 亚洲精品无码日韩国产不卡| 亚洲一区二区三区香蕉| 无码电影在线观看| 亚洲av无码人妻| 国产福利大秀91| 亚洲成AV人手机在线观看网站| 试看120秒男女啪啪免费| 片在线无码观看| 无码粉嫩虎白一线天在线观看| 99久久免费精品特色大片| 香蕉国产精品视频| 中文字幕在线日本| 亚洲大尺码专区影院| 久久精品无码中文字幕| 好吊妞欧美视频免费| 国产精品亚洲片在线va| 亚洲高清在线播放| 久久动漫精品| 亚洲乱强伦| 国产高清自拍视频| 亚洲va在线观看| 亚洲综合18p| 综合久久五月天| 国产一在线观看| 夜色爽爽影院18禁妓女影院| 视频一区亚洲| 婷婷伊人五月| 91麻豆国产视频| 天天做天天爱天天爽综合区| 波多野结衣中文字幕一区二区| 欧美午夜网| 91精品在线视频观看| 97人妻精品专区久久久久| 3p叠罗汉国产精品久久| 国产精品自在在线午夜| 尤物视频一区| 99视频精品全国免费品| 婷婷亚洲天堂| 五月天在线网站| 国内精品小视频福利网址| 永久在线播放| 免费在线国产一区二区三区精品| 国产美女无遮挡免费视频网站| 色婷婷综合在线| 国产欧美精品一区aⅴ影院| 国产精品香蕉在线| 欧美精品在线视频观看| 一区二区在线视频免费观看| 无码高清专区| 亚洲综合九九| 久久成人18免费| 国产亚洲男人的天堂在线观看 | 亚洲第一色网站| 亚洲综合一区国产精品| 麻豆精品在线播放| 亚洲一本大道在线| 国产在线观看99| 蝴蝶伊人久久中文娱乐网| 国产在线精彩视频二区| 亚洲AV无码久久精品色欲 | 一区二区自拍| 欧美中日韩在线| 波多野结衣一区二区三区四区视频| 日本在线亚洲| 国产色网站| 成人欧美日韩| 5555国产在线观看|