孫寶聰
(大連國際機(jī)場基建工程部,大連 116003)
安防是“平安機(jī)場”建設(shè)中的重要問題,尤其是極端人員管控,是安防工作的重點(diǎn)和難點(diǎn)。通過人防、技防相結(jié)合,將5G通信、邊緣計(jì)算、人工智能等前沿技術(shù)應(yīng)用于機(jī)場安防場景,實(shí)現(xiàn)極端人員異常行為實(shí)施布控、及時(shí)發(fā)現(xiàn)、智能識(shí)別,是建設(shè)“智慧機(jī)場”的重要組成部分。隨著深度學(xué)習(xí)及計(jì)算機(jī)視覺的發(fā)展,行為識(shí)別已經(jīng)取得了重大的進(jìn)展,并廣泛應(yīng)用于公共安全領(lǐng)域[1]。目前人體行為識(shí)別領(lǐng)域大多從原始視頻幀中直接提取相關(guān)特征,并利用深度學(xué)習(xí)網(wǎng)絡(luò)模型進(jìn)行識(shí)別。基于人體關(guān)鍵點(diǎn)的行為分析在安防監(jiān)控、人體追蹤、行為檢測、步態(tài)識(shí)別等領(lǐng)域起著重要作用[2],該技術(shù)可廣泛應(yīng)用于機(jī)場、高鐵站等大型公共場所,實(shí)現(xiàn)可疑目標(biāo)異常行為的自動(dòng)識(shí)別。
人體關(guān)鍵點(diǎn)識(shí)別首先通過YOLO v3進(jìn)行人員目標(biāo)識(shí)別,以獲取適當(dāng)?shù)母惺芤埃涌礻P(guān)鍵點(diǎn)識(shí)別的速度,其次利用卷積姿態(tài)機(jī)對(duì)圖片人員目標(biāo)區(qū)域進(jìn)行關(guān)鍵點(diǎn)預(yù)測。在目標(biāo)識(shí)別的過程中采用Multitracker方法進(jìn)行目標(biāo)跟蹤,以獲取各人體目標(biāo)的時(shí)序關(guān)鍵點(diǎn)信息。
YOLO v3的網(wǎng)絡(luò)結(jié)構(gòu)分為骨干網(wǎng)絡(luò)(Darknet-53)和檢測網(wǎng)絡(luò),如圖1所示。骨干網(wǎng)絡(luò)由52個(gè)卷積層組成,并輸出13×13、26×26及52×52三種尺度的特征,送入檢測網(wǎng)絡(luò)。檢測網(wǎng)絡(luò)對(duì)三種尺度的特征回歸,預(yù)測出多個(gè)預(yù)測礦,并使用非極大抑制(Non-Maximum Suppression,NMS)算法去除交并比(Intersection over Union,IOU)較大與置信度較低的預(yù)測框,保留置信度較高的預(yù)測框?yàn)槟繕?biāo)檢測框[3]。

圖1 Yolo V3網(wǎng)絡(luò)結(jié)構(gòu)
YOLO v3模型在416×416分辨率下,對(duì)人體目標(biāo)的識(shí)別精度和識(shí)別速度都遠(yuǎn)超其他網(wǎng)絡(luò)模型,具備較高的準(zhǔn)確率和良好的實(shí)時(shí)性。圖2為YOLO v3模型在視頻幀中的人體識(shí)別結(jié)果。
光流是由對(duì)象或相機(jī)的移動(dòng)引起的兩個(gè)連續(xù)的幀之間圖像對(duì)象的明顯運(yùn)動(dòng)的模式,是2D矢量場,每個(gè)矢量是位移矢量,表示第一幀到第二幀點(diǎn)的運(yùn)動(dòng)[4]。

圖2 YOLO v3目標(biāo)識(shí)別
假設(shè)第一幀的像素I(x,y,t)在時(shí)間dt之后的下一幀中移動(dòng)距離(dx,dy),由于是相同像素且亮度不變,因此:

其泰勒近似為:

其中:

式(2)為光流方程,fx和fy為圖像梯度,ft為時(shí)間梯度,但由于有兩個(gè)未知量(u,v),導(dǎo)致方程不可求解。Horn-Schunck[5]求解方程的方法是假定一個(gè)速度(u,v)的平滑約束,其原理是對(duì)光流變化劇烈的局部區(qū)域增加一個(gè)懲罰系數(shù),約束方程如下所示:

其中α是預(yù)先設(shè)置的常量。較大的α值可以獲得國家滿足局部一致條件的運(yùn)動(dòng)流向量。Horn-Schunck方法求解的是全局的光流值,其效果如圖3所示,其中左圖為視頻原圖,右圖為Horn-Schunck光流圖。

圖3 Horn-Schunck光流跟蹤
卷積姿態(tài)機(jī)(Convolutional Pose Machines,CPM),是目前最先進(jìn)的2D人體姿態(tài)估計(jì)算法。CPM是一種FCN全卷積網(wǎng)絡(luò)結(jié)合VGGNet的神經(jīng)網(wǎng)絡(luò),CPM通過熱力圖識(shí)別人體關(guān)鍵點(diǎn),并實(shí)現(xiàn)人體關(guān)鍵點(diǎn)的跟蹤[6]。其網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
該算法將深度學(xué)習(xí)應(yīng)用于人體姿態(tài)分析,通過多層卷積神經(jīng)網(wǎng)絡(luò)來識(shí)別人體18個(gè)關(guān)鍵點(diǎn)[7]。識(shí)別的關(guān)鍵點(diǎn)序列如表1所示,圖5為關(guān)鍵點(diǎn)識(shí)別效果圖。

圖4 CPM模型網(wǎng)絡(luò)結(jié)構(gòu)

表1 人體關(guān)鍵點(diǎn)編號(hào)

圖5 關(guān)鍵點(diǎn)識(shí)別效果圖
行為識(shí)別模型采用SK-CNN模型,包含兩部分:一是對(duì)樣本視頻進(jìn)行時(shí)序關(guān)鍵點(diǎn)提取,并將時(shí)序信息轉(zhuǎn)換成空間信息;二是設(shè)計(jì)采用SK-CNN模型對(duì)樣本進(jìn)行訓(xùn)練并保存模型。
樣本標(biāo)注流程如下:
(1)對(duì)單目標(biāo)視頻每一幀,采用Yolo v3進(jìn)行目標(biāo)識(shí)別,并保存目標(biāo)框圖片范圍。
(2)對(duì)保存的圖片,進(jìn)行動(dòng)作提取,若連續(xù)N(N取18)幀包含某類動(dòng)作,則提取連續(xù)N張圖片信息,并標(biāo)注相應(yīng)的動(dòng)作類別。其中動(dòng)作類別包含:0-快速接近,1-持械攻擊,2-投擲,3-攀爬,4-持槍瞄準(zhǔn)。
(3)對(duì)提取的動(dòng)作樣本每一張圖片進(jìn)行關(guān)鍵點(diǎn)識(shí)別,提取18個(gè)關(guān)鍵點(diǎn)的像素坐標(biāo),并轉(zhuǎn)化為歸一化坐標(biāo)其中T代表幀數(shù),N代表關(guān)鍵點(diǎn)序列,width 和height 為圖片的寬度和高度。
(4)將骨骼關(guān)鍵點(diǎn)的時(shí)序信息轉(zhuǎn)換成2通道的空間信息。
設(shè)計(jì)如圖7所示結(jié)構(gòu)的SK-CNN卷積神經(jīng)網(wǎng)絡(luò)模型,該模型包括如下幾層:
(1)輸入層:參數(shù)為18×18×2,其中18表示圖片大小,2表示圖片通道。
(2)卷積層:參數(shù)為3×3,卷積核深度為6,不使用全0填充,卷積步長為1,輸出矩陣大小為16×16×6。
(3)池化層:池化層卷積核大小為2×2,不使用全0填充,卷積步長為2,輸出矩陣大小為8×8×6。
(4)卷積層:卷積核大小為2×2,卷積核深度為16,不使用全0填充,卷積步長為1,輸出矩陣大小為4×4×16。
(5)全連接層:全連接神經(jīng)元數(shù)量為120。
(6)全連接層:全連接神經(jīng)元數(shù)量為64。
(7)輸出層:輸出節(jié)點(diǎn)為5,代表5個(gè)異常行為類別。輸出層采用softmax激活函數(shù)。
為驗(yàn)證本論文所研究技術(shù)在真實(shí)場景下的性能,通過Nvidia DGX深度學(xué)習(xí)服務(wù)器,對(duì)深度學(xué)習(xí)模型進(jìn)行了訓(xùn)練。該服務(wù)器搭載Intel至強(qiáng)E5-2600 v4處理器以及4塊Nvidia Tesla V100顯卡,單塊顯卡顯存為16G。同時(shí),將已訓(xùn)練模型加載至Nvidia Jetson Xavier邊緣計(jì)算硬件平臺(tái),該平臺(tái)CPU硬件配置為8核ARM64,GPU配置為512CUDA核心。本文分別在室內(nèi)、室外復(fù)雜環(huán)境2種應(yīng)用場景進(jìn)行測試,每人每組動(dòng)作做20次,并統(tǒng)計(jì)模型對(duì)每個(gè)動(dòng)作的識(shí)別率,統(tǒng)計(jì)結(jié)果如表2所示。

表2 異常行為識(shí)別測試結(jié)果
本文研究了一種基于圖像檢測的機(jī)場人員異常行為分析技術(shù),可以廣泛應(yīng)用于機(jī)場、高鐵站等公共場所,實(shí)現(xiàn)對(duì)可疑目標(biāo)危險(xiǎn)行為的自動(dòng)識(shí)別和報(bào)警。在野外復(fù)雜環(huán)境和室內(nèi)場景對(duì)本文算法識(shí)別精度進(jìn)行了測試,結(jié)果表明,該模型的行為識(shí)別精度可達(dá)89%。
通過理論分析和實(shí)驗(yàn)驗(yàn)證表明,本文算法實(shí)現(xiàn)了公共場所可疑目標(biāo)危險(xiǎn)行為實(shí)時(shí)、準(zhǔn)確檢測,通過本文算法的應(yīng)用,可以極大地降低治安人員工作壓力,提高安全指數(shù),同時(shí),本文所提算法不僅可以運(yùn)行在服務(wù)器,同時(shí)也可以搭載于通用的邊緣計(jì)算平臺(tái),便于工程化和產(chǎn)品化。