張立亞, 王寓, 郝博南
(1. 煤炭科學(xué)技術(shù)研究院有限公司, 北京 100013;2. 煤礦應(yīng)急避險(xiǎn)技術(shù)裝備工程研究中心, 北京 100013;3. 北京市煤礦安全工程技術(shù)研究中心, 北京 100013;4. 中國(guó)傳媒大學(xué) 信息與通信工程學(xué)院, 北京 100024)
2020年2月25日,國(guó)家八部委聯(lián)合下發(fā)《關(guān)于加快煤礦智能化發(fā)展的指導(dǎo)意見(jiàn)》,加快了新一代信息化技術(shù)在煤礦行業(yè)的推廣應(yīng)用[1-2],其中礦井人員精確定位技術(shù)是煤礦智能化關(guān)鍵技術(shù)之一,可有效遏制煤礦井下超定員生產(chǎn),避免或減少煤礦重特大事故發(fā)生[3]。行人重識(shí)別技術(shù)作為人員身份位置信息確認(rèn)的重要手段,對(duì)人員安全監(jiān)管有著重要意義。煤礦作為傳統(tǒng)高危行業(yè),礦井內(nèi)部結(jié)構(gòu)環(huán)境復(fù)雜,受井下低照度、高塵霧等影響,視覺(jué)圖像采集困難,人員信息獲取不到位[4],如何利用行人重識(shí)別技術(shù)高效準(zhǔn)確區(qū)分井下工作人員身份位置信息是目前亟需解決的重要問(wèn)題。
2006年N. Gheissari等[5]提出了2種行人重識(shí)別方法,分別使用興趣算子和模型擬合來(lái)建立2個(gè)個(gè)體之間的空間對(duì)應(yīng)關(guān)系,開(kāi)啟了行人重識(shí)別新的研究熱潮。2007年,首個(gè)用于行人重識(shí)別算法研究的數(shù)據(jù)集VIPeR發(fā)布,包含了同一人的不同圖像,并囊括了攝像機(jī)視點(diǎn)變化等干擾因素[6]。從2014年開(kāi)始,深度學(xué)習(xí)框架開(kāi)始逐步應(yīng)用在行人重識(shí)別技術(shù)中,隨著開(kāi)源人員訓(xùn)練數(shù)據(jù)庫(kù)數(shù)據(jù)量的增大[7],行人重識(shí)別技術(shù)得到了飛速發(fā)展。目前較為成熟的行人重識(shí)別方法主要包括基于元學(xué)習(xí)和基于度量學(xué)習(xí)2類(lèi),基于度量學(xué)習(xí)的方法相較基于元學(xué)習(xí)的方法,更側(cè)重于利用特征相似性來(lái)進(jìn)行學(xué)習(xí)訓(xùn)練,特征相似性可以捕捉到數(shù)據(jù)的本質(zhì)特征,且可以減小噪聲的影響,因此基于度量學(xué)習(xí)的方法識(shí)別精度較高、應(yīng)用范圍更廣。文獻(xiàn)[8]提出了分層跨模態(tài)度量學(xué)習(xí)方法,解決了人員圖像距離過(guò)大的問(wèn)題;文獻(xiàn)[9]提出了倒排k近鄰的度量學(xué)習(xí)方法,提高了特征之間的相關(guān)性;文獻(xiàn)[10]提出了基于等距度量學(xué)習(xí)策略的行人重識(shí)別Equid-MLAPG算法,提高了模型的魯棒性;文獻(xiàn)[11]提出了一種基于距離度量學(xué)習(xí)的行人重識(shí)別方法,對(duì)每一個(gè)攝像機(jī)建立一個(gè)距離度量模型,提高了識(shí)別正確率。由于現(xiàn)有度量學(xué)習(xí)的損失函數(shù)未考慮正負(fù)樣本之間的絕對(duì)距離,易造成梯度消失或梯度彌散現(xiàn)象,從而導(dǎo)致井下人員位置信息識(shí)別精度不高。
針對(duì)上述問(wèn)題,本文提出了一種基于改進(jìn)度量學(xué)習(xí)的煤礦井下行人重識(shí)別方法。首先,通過(guò)手工設(shè)計(jì)特征的方法對(duì)井下人員特征信息進(jìn)行有效提取。然后,采用歐氏距離對(duì)人員高維特征進(jìn)行相似性計(jì)算。最后,將提取到的特征輸入到基于改進(jìn)度量學(xué)習(xí)的煤礦井下行人重識(shí)別算法中,通過(guò)在三重?fù)p失函數(shù)中加入自適應(yīng)權(quán)重,將正負(fù)樣本的絕對(duì)距離考慮在內(nèi),為不同絕對(duì)距離的正負(fù)樣本賦予不同權(quán)重,有效解決了傳統(tǒng)井下行人重識(shí)別算法中梯度消失或梯度彌散的問(wèn)題,提升了模型識(shí)別精度。
煤礦井下基于傳統(tǒng)度量學(xué)習(xí)的行人重識(shí)別方法流程如圖1所示。首先進(jìn)行特征提取,即通過(guò)神經(jīng)網(wǎng)絡(luò)中的卷積層和池化層對(duì)采集到的輸入圖像進(jìn)行特征提取,其中,卷積層用來(lái)捕捉圖像的局部特征,池化層用來(lái)降低特征的維度并提高模型的計(jì)算效率。然后進(jìn)行相似性度量,使用相似性度量方法計(jì)算2個(gè)行人圖像特征之間的距離或相似性得分,并選擇適當(dāng)?shù)膿p失函數(shù)來(lái)優(yōu)化行人重識(shí)別模型。最后進(jìn)行卷積迭代訓(xùn)練,用訓(xùn)練好的模型對(duì)人員進(jìn)行重識(shí)別,得到結(jié)果。

圖1 煤礦井下人員重識(shí)別流程Fig. 1 Process for underground personnel re-recognition
傳統(tǒng)煤礦井下人員特征提取方法主要針對(duì)人員身體關(guān)鍵部分進(jìn)行提取,忽略了環(huán)境、紋理與色彩等細(xì)節(jié),采集的人員特征信息單一,樣本量少,不利于模型準(zhǔn)確率的提升。因此,采用手工設(shè)計(jì)特征提取井下人員面部信息、所穿工作服等信息。通過(guò)對(duì)圖像進(jìn)行預(yù)處理,提取出圖像的特征點(diǎn),然后對(duì)這些特征點(diǎn)進(jìn)行描述,最終得到一個(gè)特征向量,用于圖像的識(shí)別和分類(lèi)。篩選后的具體采集特征指標(biāo)見(jiàn)表1。其中,手工設(shè)計(jì)特征主要包含顏色空間、紋理空間、局部特征、專(zhuān)用特征4種[12-13]。

表1 手工設(shè)計(jì)特征指標(biāo)Table 1 Manual design feature indicators
煤礦井下結(jié)構(gòu)復(fù)雜,采掘工作面、變電所、硐室、主輔運(yùn)等場(chǎng)所圖像環(huán)境差異較大。因此,煤礦井下行人重識(shí)別算法如何對(duì)不同視覺(jué)采集設(shè)備采集到的人員圖像信息進(jìn)行相似性判斷是算法的核心部分。本文通過(guò)對(duì)提取的人員特征進(jìn)行人員相似判斷,將不同圖像中具有相似特征的人判定為同一人[12],最終實(shí)現(xiàn)人員相似性判斷。選擇合適的特征相似性度測(cè)量方法是提高檢測(cè)準(zhǔn)確率的關(guān)鍵,相似性度測(cè)量方法分為無(wú)監(jiān)督測(cè)量和有監(jiān)督測(cè)量[14-16]。本文采用有監(jiān)督測(cè)量中的歐氏距離計(jì)算方法對(duì)不同攝像機(jī)下行人圖像特征向量進(jìn)行相似性計(jì)算,歐氏距離的計(jì)算公式為
式中:xi,yi為當(dāng)前像素點(diǎn)i的2個(gè)特征向量;Xi,Yi為特征向量中的所有特征點(diǎn);n為圖像中像素點(diǎn)個(gè)數(shù)。
損失函數(shù)是度量學(xué)習(xí)中的重要部分,是模型優(yōu)化的重要依據(jù),損失函數(shù)主要分為基于樣本對(duì)的損失函數(shù)、基于代理的損失函數(shù)和基于分類(lèi)的損失函數(shù)3類(lèi)。其中,基于樣本對(duì)的損失函數(shù)中的三重?fù)p失函數(shù)可以更好地解決訓(xùn)練數(shù)據(jù)中的類(lèi)內(nèi)變化和類(lèi)間差異問(wèn)題,從而提高模型的準(zhǔn)確率。三重?fù)p失函數(shù)的輸入為3張圖像,將這3張圖像分別命名為原始圖像特征A、正樣本圖像特征P、負(fù)樣本圖像特征N[17-18]。因此包括2對(duì)樣本,1對(duì)正樣本AP,1對(duì)負(fù)樣本AN。
三重?fù)p失函數(shù)的目標(biāo)是使相同圖像樣本在編碼空間中距離更近,不同圖像樣本在編碼空間中距離更遠(yuǎn),即需要使圖像中負(fù)樣本對(duì)距離大于正樣本對(duì)距離,或大于某一特定值[19]。三重?fù)p失函數(shù)的計(jì)算公式為
式中:da,p,da,n分別為正負(fù)樣本對(duì)之間的歐氏距離,即正負(fù)樣本對(duì)之間的相似度;m為根據(jù)實(shí)際需求設(shè)置的訓(xùn)練閾值參數(shù),即設(shè)定的正負(fù)樣本之間的距離間隔[20],m值越小,最后得出的損失值越接近0,越難以區(qū)分相似圖像;m值越大,用置信度區(qū)分相似圖像越容易,但損失值很難接近0,且易導(dǎo)致模擬的神經(jīng)網(wǎng)絡(luò)收斂性變差[21]。
當(dāng)三重?fù)p失函數(shù)對(duì)模型優(yōu)化成功時(shí),會(huì)將編碼空間中的正負(fù)樣本對(duì)距離收斂在一個(gè)閾值范圍內(nèi),但傳統(tǒng)的三重?fù)p失函數(shù)只考慮了正負(fù)樣本對(duì)之間的相對(duì)距離,并沒(méi)有考慮正負(fù)樣本對(duì)之間的絕對(duì)距離,當(dāng)特殊情況下負(fù)樣本和正樣本間距離太遠(yuǎn)時(shí),樣本間的差異會(huì)變得非常明顯,導(dǎo)致梯度變得非常小。在反向傳播的過(guò)程中,這些小的梯度會(huì)逐漸傳遞到模型的早期層,易造成這些層的權(quán)重更新變得非常緩慢,甚至不再更新,導(dǎo)致模型訓(xùn)練緩慢或停滯不前,通常將此類(lèi)特殊情況稱(chēng)為梯度消失或梯度彌散。三重?fù)p失函數(shù)的缺陷如圖2所示。

圖2 三重?fù)p失函數(shù)的缺陷Fig. 2 Deficiencies of triplet loss function
為解決上述問(wèn)題,本文提出一種自適應(yīng)的三重?fù)p失函數(shù),在計(jì)算樣本之間距離的過(guò)程中引入自適應(yīng)變量。傳統(tǒng)三重?fù)p失函數(shù)使用歐氏距離來(lái)衡量樣本之間的相似性,然后將不同類(lèi)別樣本之間的距離進(jìn)行比較,從而計(jì)算不同類(lèi)別樣本之間的差異。自適應(yīng)的三重?fù)p失函數(shù)增加了適應(yīng)性的權(quán)重來(lái)避免正負(fù)樣本由于絕對(duì)距離影響導(dǎo)致的模型精準(zhǔn)度下降問(wèn)題。具體來(lái)說(shuō),每個(gè)樣本的損失函數(shù)權(quán)重是動(dòng)態(tài)調(diào)整的,根據(jù)歐氏距離計(jì)算結(jié)果,如果2個(gè)正樣本之間的距離很大,那么它們之間的損失函數(shù)權(quán)重就會(huì)變得越大,從而使模型更加關(guān)注樣本之間的區(qū)別。反之,如果1個(gè)負(fù)樣本和所有正樣本的距離都很大,那么它的損失函數(shù)權(quán)重就會(huì)變得很小,可以避免對(duì)模型訓(xùn)練造成不良影響,從而提高模型的性能。自適應(yīng)的三重?fù)p失函數(shù)為
式中:α為正樣本對(duì)相似性權(quán)重;β為負(fù)樣本對(duì)相似性權(quán)重;s為補(bǔ)償因子;x為目標(biāo)樣本點(diǎn);Q為所有正樣本集合;Z為所有負(fù)樣本集合。
本文提出的自適應(yīng)三重?fù)p失函數(shù)使用自適應(yīng)的權(quán)重對(duì)損失函數(shù)進(jìn)行動(dòng)態(tài)調(diào)整,保證正負(fù)樣本間距在合理范圍內(nèi),使得模型更加關(guān)注難分類(lèi)的樣本和重要的樣本,在模型訓(xùn)練過(guò)程中忽略無(wú)關(guān)信息,提升模型收斂速度,增加模型的擬合能力,從而提高模型的性能和訓(xùn)練效率,降低梯度消失或梯度彌散問(wèn)題的影響。傳統(tǒng)的三重?fù)p失函數(shù)與自適應(yīng)三重?fù)p失函數(shù)的函數(shù)曲線如圖3所示。

圖3 傳統(tǒng)與自適應(yīng)的三重?fù)p失函數(shù)的函數(shù)曲線Fig. 3 Function curves of traditional and an adaptive trip loss function
由圖3可看出,由于正負(fù)樣本分布不均,有些正負(fù)樣本間距過(guò)大,傳統(tǒng)三重?fù)p失函數(shù)的值會(huì)在一段時(shí)間內(nèi)停滯不前,甚至出現(xiàn)震蕩或上升的情況,不能正常下降。自適應(yīng)三重?fù)p失函數(shù)的曲線呈平滑的自然下降趨勢(shì),這是因?yàn)楸疚奶岢龅姆椒舍槍?duì)樣本距離進(jìn)行權(quán)重分配動(dòng)態(tài)調(diào)整,避免了梯度消失或梯度彌散問(wèn)題。
為了驗(yàn)證本文提出的自適應(yīng)三重?fù)p失函數(shù)對(duì)度量學(xué)習(xí)的改進(jìn)效果,在內(nèi)蒙古某煤礦現(xiàn)場(chǎng)獲取實(shí)驗(yàn)數(shù)據(jù),從中選取60張完整的人身圖像作為測(cè)試集,對(duì)數(shù)據(jù)圖像進(jìn)行基于HSV色彩空間的轉(zhuǎn)換,提升人員細(xì)節(jié)檢測(cè)的精確度[22-24]。將每個(gè)人不同姿態(tài)和角度的60張圖像作為訓(xùn)練集,利用圖像分割將訓(xùn)練集與測(cè)試集分割成3個(gè)子塊。 同時(shí)采用HSV顏色空間對(duì)圖像數(shù)據(jù)進(jìn)行處理,圖像分割結(jié)果如圖4所示。

圖4 分割后子塊Fig. 4 Sub block and color extraction after segmentation
CMC(Cumulative Match Characteristic,累積匹配特征)曲線[23]將行人樣本與訓(xùn)練生成的K個(gè)行人圖像逐一進(jìn)行對(duì)比,計(jì)算K個(gè)值中包含真實(shí)行人樣本的概率,通常又稱(chēng)作擊中概率(top-k),k為樣本分別與K個(gè)值逐一比較的順序號(hào),CMC曲線斜率越大,說(shuō)明算法性能越好。
選取基于傳統(tǒng)度量學(xué)習(xí)的井下行人重識(shí)別方法與基于改進(jìn)度量學(xué)習(xí)的井下行人重識(shí)別方法進(jìn)行性能測(cè)試,得到CMC曲線,如圖5所示。可看出傳統(tǒng)度量學(xué)習(xí)的井下行人重識(shí)別方法在圖像數(shù)位于兩端(小于10或大于50)時(shí),識(shí)別效率不高,在相似樣本個(gè)數(shù)達(dá)到上限60時(shí),樣本匹配概率僅為83%左右。基于改進(jìn)度量學(xué)習(xí)的井下行人重識(shí)別方法在相似樣本個(gè)數(shù)為50左右時(shí),樣本匹配概率達(dá)100%,相比原有模型識(shí)別準(zhǔn)確率提升明顯。

圖5 基于傳統(tǒng)度量學(xué)習(xí)與改進(jìn)度量學(xué)習(xí)的行人重識(shí)別效率Fig. 5 Rerecognition efficiency under traditional heavy recognition and adaptive metric learning
使用傳統(tǒng)度量學(xué)習(xí)的井下行人重識(shí)別方法和基于改進(jìn)度量學(xué)習(xí)的井下行人重識(shí)別方法同時(shí)對(duì)分辨率分別為224×224與640×640的圖像進(jìn)行識(shí)別,對(duì)比2種方法的推理耗時(shí),對(duì)比結(jié)果見(jiàn)表2。可看出基于改進(jìn)度量學(xué)習(xí)的井下行人重識(shí)別方法對(duì)224×224與640×640圖像的推理耗時(shí)比傳統(tǒng)重識(shí)別方法分別減少了44,68 ms。

表2 傳統(tǒng)與改進(jìn)的度量學(xué)習(xí)的行人重識(shí)別推理耗時(shí)Table 2 The time cost between traditional rerecognition and adaptive metric learning
受到井下受低照度、高塵霧等環(huán)境影響及佩戴裝備限制,井下人員頭腳部分采集到的圖像精度往往較差且相似性普遍較高,本文提出的基于改進(jìn)度量學(xué)習(xí)的行人重識(shí)別方法可對(duì)圖像中頭腳部分進(jìn)行剝離,減小模型在訓(xùn)練及識(shí)別過(guò)程中由于頭腳相似性過(guò)高造成的噪聲,并對(duì)圖像進(jìn)行三重分割,得到CMC對(duì)比結(jié)果,如圖6所示。可看出基于改進(jìn)度量學(xué)習(xí)的井下行人重識(shí)別方法在舍棄行人頭腳部分圖像后表現(xiàn)更好,當(dāng)相似樣本個(gè)數(shù)為42左右時(shí),樣本匹配概率達(dá)100%,圖像識(shí)別準(zhǔn)確率得到了進(jìn)一步提高。

圖6 舍棄頭腳部信息后得出的自適應(yīng)的三重?fù)p失下重識(shí)別效率Fig. 6 Heavy identification efficiency of adaptive metric learning after discarding head and feet information
1) 基于傳統(tǒng)度量學(xué)習(xí)的井下行人重識(shí)別方法在相似樣本數(shù)位于兩端(小于10或大于50)時(shí),識(shí)別效率不高,在相似樣本個(gè)數(shù)達(dá)到上限60時(shí),樣本匹配概率僅為83%左右。基于改進(jìn)度量學(xué)習(xí)的井下行人重識(shí)別方法在相似樣本個(gè)數(shù)為50左右時(shí),樣本匹配概率達(dá)100%,相比原有模型識(shí)別準(zhǔn)確率提升明顯。
2) 基于改進(jìn)度量學(xué)習(xí)的井下行人重識(shí)別方法對(duì)224×224與640×640圖像的推理耗時(shí)比傳統(tǒng)重識(shí)別方法分別減少了44,68 ms。
3) 基于改進(jìn)度量學(xué)習(xí)的井下行人重識(shí)別方法在舍棄行人頭腳部分圖像后表現(xiàn)更好,當(dāng)相似樣本個(gè)數(shù)為42左右時(shí),樣本匹配概率達(dá)100%,圖像識(shí)別準(zhǔn)確率得到了進(jìn)一步提高。