董昕宇,師杰,張國(guó)英
(中國(guó)礦業(yè)大學(xué)(北京) 機(jī)電與信息工程學(xué)院, 北京 100083)
對(duì)采煤工作面人員進(jìn)行實(shí)時(shí)檢測(cè),是保障采煤工作面人員安全的基礎(chǔ)[1-3]。隨著數(shù)字圖像處理技術(shù)的飛速發(fā)展,目標(biāo)檢測(cè)方法已被廣泛應(yīng)用于智慧礦山建設(shè)中[4-5]。通過(guò)目標(biāo)檢測(cè)方法對(duì)采煤工作面視頻監(jiān)控圖像進(jìn)行分析和檢測(cè),判斷采煤工作面是否有工人出現(xiàn),并與煤礦井下安全監(jiān)控系統(tǒng)報(bào)警產(chǎn)生聯(lián)動(dòng),可以一定程度上保障煤礦生產(chǎn)安全。
近年來(lái),基于深度學(xué)習(xí)的地面人員檢測(cè)方法發(fā)展較快,學(xué)者們提出了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)模型、YOLO(You Only Look Once)網(wǎng)絡(luò)、CenterNet等[6-9]。謝林江等[10]提出了一種加入選擇性注意層的CNN模型,在INRIA數(shù)據(jù)集上的目標(biāo)檢測(cè)準(zhǔn)確率達(dá)到96.14%;高宗等[11]提出了一種基于YOLO網(wǎng)絡(luò)的行人檢測(cè)方法,降低了誤檢率,提高了定位準(zhǔn)確性;徐哲等[12]針對(duì)小目標(biāo)行人漏檢問(wèn)題,提出了一種并行卷積神經(jīng)網(wǎng)絡(luò),提升了小目標(biāo)行人的檢測(cè)準(zhǔn)確率。姜建勇等[13]提出了一種PD-CenterNet(Pedestrian Detection CenterNet)模型,采用基于注意力機(jī)制的特征融合模塊來(lái)對(duì)低級(jí)特征和高級(jí)特性進(jìn)行融合,從而提升檢測(cè)精度。由于井下采煤工作面檢測(cè)環(huán)境較為特殊,存在粉塵嚴(yán)重、清晰度差、光照不足、局部強(qiáng)光照射等情況,上述方法應(yīng)用于井下時(shí)檢測(cè)效果不好。唐士宇等[14]提出了基于深度CNN的井下人員目標(biāo)檢測(cè)方法,能有效克服礦井中光線較暗、口罩遮擋、面部清潔度較差等問(wèn)題,準(zhǔn)確率達(dá)87.6%,但該方法因網(wǎng)絡(luò)較深,計(jì)算量大,不能達(dá)到實(shí)時(shí)檢測(cè)效果。
為減少網(wǎng)絡(luò)訓(xùn)練參數(shù)、提高模型檢測(cè)速度,本文提出了一種基于參數(shù)輕量化的井下人體實(shí)時(shí)檢測(cè)算法,采用深度可分離卷積和倒置殘差模塊提取圖像特征,減少了井下人體實(shí)時(shí)檢測(cè)網(wǎng)絡(luò)的學(xué)習(xí)參數(shù),提高了計(jì)算效率,實(shí)現(xiàn)了實(shí)時(shí)檢測(cè)。
基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法一般分為目標(biāo)特征提取與目標(biāo)分類2個(gè)部分。目標(biāo)特征提取網(wǎng)絡(luò)的性能受網(wǎng)絡(luò)層數(shù)和運(yùn)算方式的影響。網(wǎng)絡(luò)層數(shù)越多,提取到的目標(biāo)特征越細(xì)致,但計(jì)算量也越大。因此,構(gòu)建井下人員特征提取網(wǎng)絡(luò)時(shí)要注重卷積速度和檢測(cè)精度的雙向平衡。
考慮到實(shí)際應(yīng)用中實(shí)時(shí)性要求和圖形處理器(Graphics Processing Unit,GPU)性能,應(yīng)在保證檢測(cè)精度的前提下盡量減少網(wǎng)絡(luò)參數(shù)[15-16]。因此,本文采用深度可分離卷積模塊和倒置殘差模塊構(gòu)建輕量級(jí)特征提取網(wǎng)絡(luò),采用網(wǎng)絡(luò)參數(shù)較少且能滿足實(shí)時(shí)性要求的單階段目標(biāo)分類網(wǎng)絡(luò),結(jié)合SSD(Single Shot MultiBox Detector)多尺度檢測(cè)思想,實(shí)現(xiàn)井下人體實(shí)時(shí)檢測(cè)。
深度可分離卷積通過(guò)深度卷積和逐點(diǎn)卷積相結(jié)合的方式提取高級(jí)特征[17]。深度卷積負(fù)責(zé)逐通道過(guò)濾空間信息,逐點(diǎn)卷積負(fù)責(zé)映射通道。這種方法可以將空間信息和通道信息分開(kāi),相較于傳統(tǒng)的卷積方法,減少了參數(shù)數(shù)量,降低了運(yùn)算成本。
傳統(tǒng)卷積操作如圖1所示。用N個(gè)大小為Dk×Dk×M的卷積核對(duì)通道數(shù)為M的特征圖進(jìn)行卷積,得到大小為Dw×Dw×N的特征圖,此時(shí)參數(shù)量Cpar1和計(jì)算量Ccal1分別為
(1)
(2)

圖1 傳統(tǒng)卷積操作Fig.1 Traditional convolution operation
深度可分離卷積操作如圖2所示。用M個(gè)Dk×Dk×1的卷積核對(duì)通道數(shù)為M的特征圖進(jìn)行深度卷積,將卷積核拆分成為單通道形式,對(duì)每個(gè)通道進(jìn)行卷積操作,得到與輸入特征圖通道數(shù)一致的輸出特征圖,其大小為Dw×Dw×M;再用N個(gè)1×1×M的卷積核對(duì)深度卷積得到的特征圖進(jìn)行逐點(diǎn)卷積,對(duì)特征圖進(jìn)行升維操作,最終得到大小為Dw×Dw×N的特征圖。深度可分離卷積的參數(shù)量Cpar2和計(jì)算量Ccal2分別為
(3)
(4)

圖2 深度可分離卷積操作Fig.2 Depth separable convolution operation
深度可分離卷積的運(yùn)算量相較于傳統(tǒng)卷積操作均有大幅度下降,其比值為
(5)
N和Dk的最小值均為3,代入式(5)可得2種卷積的運(yùn)算量比值為4∶9,深度可分離卷積很大程度上壓縮了參數(shù)量和運(yùn)算量,提升了特征提取網(wǎng)絡(luò)的運(yùn)算速度,為目標(biāo)檢測(cè)的實(shí)時(shí)性提供了保證。
倒置殘差模塊由2個(gè)逐點(diǎn)卷積模塊和1個(gè)深度卷積模塊構(gòu)成,如圖3所示。卷積步長(zhǎng)為1的倒置殘差模塊使用快捷鏈接避免梯度消失。

(a) 卷積步長(zhǎng)為1的倒置殘差塊

(b) 卷積步長(zhǎng)為2的倒置殘差塊
深度卷積本身的計(jì)算特性決定了其不具備改變通道數(shù)的能力,為了在更高的維度上提取特征,在深度卷積之前增加1個(gè)逐點(diǎn)卷積模塊進(jìn)行升維。在首次逐點(diǎn)卷積和深度卷積過(guò)程中,激活函數(shù)是ReLu6。在MobileNet V2網(wǎng)絡(luò)模型[18]中,將輸入特征通過(guò)ReLu6函數(shù)嵌入到多維空間,按照不同的維度進(jìn)行信息輸出可以觀察到,輸入特征嵌入二、三維度時(shí)信息丟失嚴(yán)重,且隨著維數(shù)的增加,輸出特征容易陷入局部最優(yōu),找不到全局最優(yōu)解,從而影響神經(jīng)網(wǎng)絡(luò)的性能。因此,在倒置殘差結(jié)構(gòu)的末次逐點(diǎn)卷積中,將ReLu6激活函數(shù)改為線性激活函數(shù)。由線性函數(shù)激活的降維結(jié)構(gòu)稱為線性瓶頸結(jié)構(gòu),該結(jié)構(gòu)通過(guò)線性映射的方式解決信息丟失問(wèn)題。
倒置殘差結(jié)構(gòu)增加了信息維度,通過(guò)更高維度的張量來(lái)提取足夠多的信息,在運(yùn)用深度可分離卷積減少參數(shù)量的情況下,保證特征提取網(wǎng)絡(luò)的精確度。
SSD多尺度檢測(cè)方法在檢測(cè)速度和精度上有更好的平衡性[19]。特征層越多,其含有的語(yǔ)義信息越豐富,利用多層特征進(jìn)行檢測(cè),對(duì)不同級(jí)別的特征進(jìn)行融合,可有效提升檢測(cè)精度。同時(shí),目標(biāo)檢測(cè)的感受野隨特征層的增加而逐漸變大,淺層特征用于檢測(cè)小目標(biāo),深層特征用于檢測(cè)大目標(biāo)。
井下人體實(shí)時(shí)檢測(cè)模型是以輕量級(jí)特征提取網(wǎng)絡(luò)為基礎(chǔ)的多尺度特征檢測(cè)模型。在輕量級(jí)倒置殘差特征提取網(wǎng)絡(luò)的基本結(jié)構(gòu)上增添傳統(tǒng)卷積層至27層進(jìn)行卷積操作,其中6層特征圖被抽取進(jìn)行多尺度預(yù)測(cè)。井下人體實(shí)時(shí)檢測(cè)模型如圖4所示,其中灰色部分為傳統(tǒng)卷積模塊,粉色部分為倒置殘差模塊,紅色邊框的6層網(wǎng)絡(luò)作為不同尺度的特征圖,被輸入檢測(cè)分類模塊進(jìn)行多尺度預(yù)測(cè)。快速非極大值抑制(Fast Non-Maximum Suppression,F(xiàn)ast NMS)檢測(cè)框篩選部分通過(guò)計(jì)算檢測(cè)框之間生成的交并比矩陣,刪除與得分最高檢測(cè)框的重疊率大于閾值的檢測(cè)框,保留人體類別的最優(yōu)檢測(cè)器。
更快速的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster Region-based Convolutional Neural Networks,F(xiàn)aster R-CNN)[20]是一種雙階段的深度學(xué)習(xí)模型,在訓(xùn)練樣本很少的情況下也具有很高的精確度。VGG16+Faster R-CNN模型和VGG16+多尺度檢測(cè)模型是最常用的人體檢測(cè)模型,均利用VGG16網(wǎng)絡(luò)進(jìn)行特征提取。Faster R-CNN方法將底層特征圖分別輸入到區(qū)域建議網(wǎng)絡(luò)和分類回歸網(wǎng)絡(luò),精度高但網(wǎng)絡(luò)參數(shù)多,計(jì)算緩慢;而多尺度檢測(cè)方法在VGG16的第5個(gè)卷積模塊上剔除了全連接操作,繼續(xù)添加卷積層直接進(jìn)行多尺度預(yù)測(cè),相較Faster R-CNN大大減少了網(wǎng)絡(luò)參數(shù),提升了運(yùn)算速度,但還是不足以進(jìn)行實(shí)時(shí)人體檢測(cè)。模型固化后,在NVIDIA GeForce GTX 1080的GPU下,對(duì)比各常用人體檢測(cè)模型的大小及檢測(cè)速率,結(jié)果見(jiàn)表1。可見(jiàn),輕量化多尺度檢測(cè)模型最小,而檢測(cè)速率最高,更能滿足實(shí)時(shí)檢測(cè)要求。

表1 人體檢測(cè)模型性能對(duì)比Table 1 Comparison of human body detection model performance
井下采煤工作面環(huán)境與地面人員檢測(cè)環(huán)境在光照條件、人體姿態(tài)等方面存在巨大差異。現(xiàn)存公開(kāi)人體檢測(cè)數(shù)據(jù)集均為地面人體數(shù)據(jù)集,使用公開(kāi)的行人檢測(cè)數(shù)據(jù)集CUHK Occlusion Dataset(共1 063張行人圖像)對(duì)本文所提井下人體實(shí)時(shí)檢測(cè)模型進(jìn)行訓(xùn)練,得到人體檢測(cè)模型參數(shù)。利用模型對(duì)100張包含采煤工作人員的井下測(cè)試圖像(共包含106個(gè)井下人員)進(jìn)行檢測(cè),正確檢測(cè)出井下工作人員樣本框24個(gè),將背景誤檢為人體的錯(cuò)誤樣本框16個(gè),漏檢數(shù)為82,模型檢測(cè)精度為0.6,模型召回率為0.23。
測(cè)試結(jié)果表明,采用地面人體數(shù)據(jù)集對(duì)井下人體實(shí)時(shí)檢測(cè)模型進(jìn)行訓(xùn)練,不能達(dá)到實(shí)際應(yīng)用要求,需要構(gòu)建井下采煤工作面人員檢測(cè)數(shù)據(jù)集,供深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)。
由于標(biāo)注工作十分耗費(fèi)人力,小數(shù)據(jù)量無(wú)法保證輕量級(jí)檢測(cè)網(wǎng)絡(luò)的精確性,本文設(shè)計(jì)了一種半自動(dòng)人體數(shù)據(jù)標(biāo)注方法,用于井下場(chǎng)景人體目標(biāo)標(biāo)注及數(shù)據(jù)擴(kuò)增,以降低井下人體檢測(cè)誤檢率及漏檢率。
采煤工作面人員的主要特征如下:藍(lán)灰色制服(雙臂、前胸、后背、雙腿側(cè)有反光條),紅色安全帽,帽頂前方有礦燈,礦燈在環(huán)境中光照強(qiáng)度大。
實(shí)驗(yàn)圖像源于淮北礦業(yè)股份有限公司袁店一礦某采煤工作面的監(jiān)控視頻。從視頻數(shù)據(jù)中每20幀截取1張,獲得1 000張采煤工作面人員圖像。將1 000張圖像打亂順序,抽取其中200張,使用LableImg工具進(jìn)行人體標(biāo)注,獲得與原圖同名的標(biāo)注xml文件,包含標(biāo)注類別、人員數(shù)量、人體區(qū)域的起止坐標(biāo)等信息。標(biāo)注數(shù)據(jù)按照VOC數(shù)據(jù)集標(biāo)準(zhǔn)進(jìn)行存放。
將200張圖像送入輕量級(jí)井下人體實(shí)時(shí)檢測(cè)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,總輪次為20 000左右時(shí),模型基本完成收斂,即模型損失不再有明顯穩(wěn)定下降趨勢(shì)。生成的初代模型在測(cè)試集上的測(cè)試結(jié)果如圖5所示,可見(jiàn),該模型漏檢、誤檢嚴(yán)重,無(wú)法準(zhǔn)確識(shí)別并定位井下人體。

(a) 誤檢情況

(b) 漏檢情況
上述測(cè)試結(jié)果是深度學(xué)習(xí)模型欠擬合的表現(xiàn),欠擬合的解決方法一般有增大網(wǎng)絡(luò)參數(shù)、增加迭代次數(shù)、擴(kuò)大數(shù)據(jù)集等。由于模型在20 000次迭代下的損失已經(jīng)趨于穩(wěn)定,增加迭代次數(shù)的方法不可取。為了最大程度保證輕量級(jí)目標(biāo)檢測(cè)網(wǎng)絡(luò)的實(shí)時(shí)性,在不改變網(wǎng)絡(luò)深度的前提下,采取擴(kuò)增訓(xùn)練數(shù)據(jù)集的方式解決欠擬合問(wèn)題。
若采用人工標(biāo)注方法擴(kuò)增訓(xùn)練數(shù)據(jù)集,需耗費(fèi)大量時(shí)間和人力。因此,本文搭建Faster R-CNN,利用已有的200張標(biāo)注圖像進(jìn)行模型訓(xùn)練,得到一個(gè)可以進(jìn)行半自動(dòng)標(biāo)注的檢測(cè)網(wǎng)絡(luò)。
體育適性課堂教學(xué)應(yīng)在教師的指導(dǎo)下,以學(xué)生為主,設(shè)置合適的、能突破重難點(diǎn)的、能激發(fā)學(xué)生學(xué)習(xí)興趣的問(wèn)題串,從而運(yùn)用“一二·三六”教學(xué)模式探索實(shí)踐技能來(lái)完成整個(gè)學(xué)習(xí)過(guò)程。
Faster R-CNN通過(guò)20 000次迭代訓(xùn)練后,在測(cè)試數(shù)據(jù)集上表現(xiàn)出了很好的效果,半自動(dòng)標(biāo)注與手動(dòng)標(biāo)注效果對(duì)比如圖6所示。

(a) 第1組,手動(dòng)

(b) 第1組,半自動(dòng)

(c) 第2組,手動(dòng)

(d) 第2組,半自動(dòng)

(e) 第3組,手動(dòng)

(f) 第3組,半自動(dòng)

(g) 第4組,手動(dòng)

(h) 第4組,半自動(dòng)
圖6中,第1—3組半自動(dòng)標(biāo)注與手動(dòng)標(biāo)注的交并比均值為95.6%,可以直接作為標(biāo)注數(shù)據(jù)使用,第4組半自動(dòng)標(biāo)注與手動(dòng)標(biāo)注的交并比雖然只有68.7%,但標(biāo)注方式符合人體重心比例,也可直接作為標(biāo)注數(shù)據(jù)使用。其他類型數(shù)據(jù)可根據(jù)需要進(jìn)行人工微調(diào)。這種半自動(dòng)標(biāo)注方法可顯著減少人工工作量。
通過(guò)基于Faster R-CNN的半自動(dòng)人體數(shù)據(jù)標(biāo)注方法將采煤工作面人員檢測(cè)訓(xùn)練數(shù)據(jù)集擴(kuò)增到1 000張,包含仰面人體、背蹲人體、正蹲人體、背爬人體、半身人體各200張,其中仰面人體圖像中包含50張強(qiáng)光圖像。平均分布數(shù)據(jù)集中各種人員狀態(tài),可保證網(wǎng)絡(luò)檢測(cè)的準(zhǔn)確性。
網(wǎng)絡(luò)的損失函數(shù)由分類置信度損失和位置回歸損失組成。分類置信度損失Lconf為
(6)

位置回歸損失Lloc為
(7)

總損失L為
(8)
訓(xùn)練過(guò)程中的損失曲線對(duì)比如圖7所示。通過(guò)半自動(dòng)標(biāo)注方法擴(kuò)增訓(xùn)練數(shù)據(jù)集后,模型的學(xué)習(xí)速度和效率表現(xiàn)更好。圖7中,橙色曲線為200張訓(xùn)練圖像經(jīng)20 000次迭代后的損失情況,其下降緩慢,振蕩嚴(yán)重,誤檢、漏檢情況嚴(yán)重。藍(lán)色曲線為通過(guò)半自動(dòng)標(biāo)注方法擴(kuò)增到1 000張訓(xùn)練圖像后經(jīng)20 000次迭代的損失情況,其收斂迅速,振蕩相對(duì)較小,漏檢、誤檢情況較少。
模型訓(xùn)練過(guò)程中損失值變化情況對(duì)比見(jiàn)表2。由表2及圖7可知,在深度學(xué)習(xí)訓(xùn)練中,隨著樣本數(shù)量的增加,訓(xùn)練初始損失值增大,但損失值會(huì)更快速、平穩(wěn)地下降,最終結(jié)果更接近于真實(shí)情況。

(a) 分類損失

(b) 定位損失

(c) 總損失

表2 損失值變化情況對(duì)比Table 2 Comparison of loss value changes
模型在大部分測(cè)試數(shù)據(jù)上的檢測(cè)表現(xiàn)良好,但在一些數(shù)據(jù)上的結(jié)果還有改進(jìn)的空間,尤其是將背景檢測(cè)成人員的誤檢情況相對(duì)較多,此類情況有很大的改進(jìn)空間。鑒于此類誤檢情況光照情況良好,在正常光照下,一般工服為偏藍(lán)色,圖像中藍(lán)色通道(B)數(shù)值較大,工帽為偏紅色,紅色通道數(shù)值(R)偏大。
通過(guò)計(jì)算B、R通道均值與候選框像素點(diǎn)差值之和,剔除差值和在10以下的候選框,可以對(duì)深度學(xué)習(xí)模型的檢測(cè)框進(jìn)行進(jìn)一步篩選,剔除一些誤檢框。顏色信息修正結(jié)果如圖8所示,結(jié)果表明,利用礦工服裝顏色信息對(duì)結(jié)果框進(jìn)行二次篩選,能有效剔除將背景檢測(cè)為人體的誤檢框。

(a) 誤檢情況1

(b) 二次篩選結(jié)果1

(c) 誤檢情況2

(d) 二次篩選結(jié)果2

(e) 誤檢情況3

(f) 二次篩選結(jié)果3
經(jīng)過(guò)井下數(shù)據(jù)集訓(xùn)練及顏色信息修正的輕量化井下人體實(shí)時(shí)檢測(cè)模型在測(cè)試集上的部分檢測(cè)結(jié)果如圖9所示。測(cè)試結(jié)果表明,本文模型在井下各種復(fù)雜的人體形態(tài)及光照條件下都能得到準(zhǔn)確的檢測(cè)結(jié)果。

(a) 仰面人體

(b) 強(qiáng)光仰面人體

(c) 背蹲人體

(d) 正蹲人體

(e) 背趴人體

(f) 半身人體
井下人體檢測(cè)任務(wù)具有二分類特性,故選取精度J與召回率Z作為評(píng)價(jià)指標(biāo)。精度指檢測(cè)出的區(qū)域確實(shí)為井下人員的占比,召回率指檢測(cè)出的井下人員占實(shí)際人員數(shù)量的比例,其計(jì)算公式分別為
(9)
(10)
式中:ITP為正樣本(井下人員)被正確分為正樣本的數(shù)量;IFP為負(fù)樣本(背景)被錯(cuò)誤分為正樣本的數(shù)量;IFN為正樣本被錯(cuò)誤分為負(fù)樣本的數(shù)量。
用輕量化井下人體實(shí)時(shí)檢測(cè)模型對(duì)100張測(cè)試圖像(共包含106個(gè)井下人員)進(jìn)行檢測(cè),結(jié)果見(jiàn)表3。

表3 井下人體實(shí)時(shí)檢測(cè)模型評(píng)價(jià)指標(biāo)Table 3 Evaluation index of real-time detection model of underground human body
從表3可見(jiàn),模型的精度為92.86%,即模型誤檢率為7.14%;召回率為98.11%,即漏檢率不足2%,可以滿足應(yīng)用要求。
(1) 井下人體實(shí)時(shí)檢測(cè)模型通過(guò)深度可分離卷積壓縮參數(shù)量和運(yùn)算量,通過(guò)倒置殘差結(jié)構(gòu)保證特征提取網(wǎng)絡(luò)的精確度,采用SSD多尺度檢測(cè)方法平衡檢測(cè)速度和精度。測(cè)試結(jié)果表明,該模型的大小為18 MB,幀率約為35幀/s,性能優(yōu)于常用的VGG16+Faster R-CNN模型和VGG16+多尺度檢測(cè)模型。
(2) 設(shè)計(jì)了基于Faster R-CNN的人體數(shù)據(jù)半自動(dòng)標(biāo)注方法,將訓(xùn)練數(shù)據(jù)集由200張訓(xùn)練圖像擴(kuò)增到1 000張。測(cè)試結(jié)果表明,在深度學(xué)習(xí)訓(xùn)練中,隨著樣本數(shù)量的增加,訓(xùn)練初始損失值增大,但損失值會(huì)更快速、平穩(wěn)地下降,最終結(jié)果更接近于真實(shí)情況。
(3) 利用礦工服裝顏色信息對(duì)檢測(cè)結(jié)果框進(jìn)行二次篩選,剔除將背景檢測(cè)為人體的誤檢框。測(cè)試結(jié)果表明,輕量化井下人體實(shí)時(shí)檢測(cè)模型的精度達(dá)92.86%,召回率為98.11%,有效解決了井下人員漏檢及誤檢問(wèn)題。
(4) 基于參數(shù)輕量化的井下人體實(shí)時(shí)檢測(cè)算法對(duì)袁店一礦監(jiān)控圖像的檢測(cè)效果良好,但未對(duì)其他礦井監(jiān)控圖像進(jìn)行測(cè)試,接下來(lái)將對(duì)算法的泛化能力進(jìn)行進(jìn)一步研究。