沈茂東,高 宏,付新陽,周 偉,張俊嶺,公凡奎,馮志珍
1(國網山東省電力公司,濟南 250001)
2(山東魯能軟件技術有限公司,濟南 250001)
3(中國石油大學 計算機科學與技術學院,青島 266580)
電力復雜場景下人員的檢測跟蹤,對于預防人員違規及保證檢修人員的人身安全有極為重要的研究意義.目前流行的單目標追蹤主要是Siamese 系列,在孿生網絡的基礎上通過增加改進全連接層、區域候選網絡、Mask 分支來改進目標檢測的準確度.本論文針對多目標人員跟蹤現階段算法進行了深刻的研究,對于電力場景下的人員檢測跟蹤方法相對較少,本論文針對電力檢修特殊場景下進行行人追蹤,有效地提高人員目標準確率,緩解目標之間的部分遮擋和位置突變問題.不同的視頻跟蹤算法,模型的建立與目標的更新方式都不一樣.判定模型法對后驗概率建模,對物體的跟蹤效果較好,但其運算較復雜,判別式算法一般是通過分類器從圖像中找出與目標表觀最為相似的區域[1].攝像頭下視頻跟蹤算法層出不窮,大致可分為生成式和判別式兩類.
對于生成式跟蹤方法,跟蹤成為了在目標物體附近搜索最相似的區域.生成式可理解為先提取多目標的特征,學習出代表相應目標的外觀模型,通過它依次搜索圖像區域進行模式目標匹配,在圖像中找到和模型最匹配的區域,即判別為目標[2–4].生成式算法大致流程:輸入圖像序列并初始化目標狀態,提取目標特征生成表觀模型,目標表示,建立目標模型,通過相鄰幀間的時空特性,定位目標最可能出現的區域,在該候選區域提取目標特征,與待跟蹤目標進行匹配,輸出目標狀態[5–10].
傳統的跟蹤算法均屬于生成式跟蹤算法.卡爾曼濾波跟蹤方法是充分利用目標在相鄰幀間的空間位置特性對目標進行快速預測定位.粒子濾波跟蹤方法是通過非參數化的蒙特卡羅模擬(Monte Carlo)方法實現遞推貝葉斯濾波,該類方法適用于非線性系統.CamShift 算法是在MeanShift 基礎上改進的可以很好的適應多尺度變換的行人多目標跟蹤算法.在目標匹配問題上,當目標匹配不準確時此方法容易引起檢測漂移[10–17].對于生成模型法,其跟蹤更新策略較簡單,容易產生物體特征漂移等情況,跟蹤效果相對較差.
對于判別式跟蹤方法,通過訓練分類器準確區分檢測目標與背景,訓練出一個分類器從背景中區分出檢測目標物體.目前大部分的深度學習方法普遍使用的分類器主要有KNN、SVM、AdaBoost 等分類器.近年來,基于相關濾波的跟蹤方法由于其運行速度快而頗受歡迎,相關濾波類方法主要是通過將輸入特征回歸為高斯分布來對濾波器進行訓練,并且在后續的目標跟蹤中尋找預測分布中的響應峰值來定位目標的位置.相關濾波器類算法巧妙地應用快速傅里葉變換算法使其速度大幅提升[18–21].由于相關濾波算法在單目標追蹤領域的成功應用,提出核相關濾波算法把實數域的數據處理過程轉為頻率域處理,在處理速度上得到大大提升.
目前多目標運動跟蹤算法大多是判別式方法,主要是從提升準確性和追蹤速度兩個方面提升目標追蹤.提升準確性的算法有馬爾科夫決策模型[22](MDP)、卷積網絡的在線多目標追蹤(AP_RCNN)[23]、多特征融合的相關濾波追蹤(MAP-RF)[24]等;提升追蹤速度的算法有交并比(IOU-tracker)[20,25](SORT)、深度關聯簡單在線實時追蹤(DeepSORT)[26]等.
對于多目標追蹤算法,一般準確率和追蹤速度是呈反比的,如果僅利用目標的位置狀態信息建立目標運動模型追蹤速度相對較快,但實際追蹤效果的準確性較差;當考慮外觀模型進行追蹤處理時,追蹤準確性雖會提升,但又會使處理速度相對減慢[5].某些方法雖然對網絡進行集成,提高了對遺漏和遮擋的魯棒性,但多目標在實時運動過程中遠小近大而產生的尺度大小變化現象并沒有實際解決.本論文提出了基于改進SSD的電力檢修多目標人員跟蹤算法,根據目標檢測、預測及匈牙利關聯算法確定當前幀多目標行人跟蹤位置.
電力檢修視頻下的人員安全監控跟蹤,是大規模智能電力檢修監控系統的重要研究方向.基于CSSD的電力檢修多目標人員跟蹤算法引入模塊的出發點針對現階段基于攝像頭的目標尺寸、遠近和角度改變的特點,通過增大感受野來加強網絡的特征提取性能,在結構上增加了特征圖的融合,注重目標的邊緣特征,使提取的特征細?;?提高了多目標檢測的準確率和回歸率.網絡在前5 層中加入特征融合的模塊,前5 層直接采用VGG 網絡,第6、7 層由全連接層改為卷積層,利于參數共享,便于計算.Conv1-2 采用64 個3×3×3 卷積核,邊緣填充padding=2,步長為s=1,得300×300×64;最大池化max pooling為2×2,s=2,得150×150×64;Conv2-3,Conv3-4,Conv4-5 同樣采用3×3 卷積,卷積核數量分別為128、256、512,網絡結構各個層級的卷積數量以及參數依次如圖1所示.
本文基于行人多目標追蹤技術為基礎,提出了一種CSSD 網絡來進行模型的檢測,并使用卡爾曼濾波跟蹤預測目標位置狀態,基于預測檢測框的位置和IOU的匈牙利算法來解決視頻前后幀目標匹配問題.本論文利用CSSD 目標檢測網絡對圖像序列進行特征提取并進行目標檢測,在Conv6(19×19)層之前進行細化特征映射,該網絡主要在SSD 網絡[27]中引入1×1 Conv、2×2 pool、4×4 pool 3 個層進行處理,將卷積層得到的特征層進行2 次池化應用于網絡前端的特征映射中,再將得到的特征圖融合在一起,將此模塊集成到SSD 網絡結構的前端卷積層進行卷積池化訓練,在控制計算損失的情況下準確度相對提高.

圖1 CSSD 網絡結構圖
目標定位損失采用如式(1),避免梯度爆炸.

置信度損失采用式(2)Softmax 損失函數:

目標定位損失和置信度損失之和,式(3)為CSSD網絡總損失函數:

在結構上CSSD 網絡整體上是基于SSD 網絡進行改進,主要是在SSD的基礎上加入了卷積池化層,注重目標的邊緣特征,加強網絡的特征提取性能,使提取的特征細粒化,使用輕量級網絡來實現其高準確性和高速率,改進后的網絡檢測速度比較快,通過增加網絡的感受野加強網絡的特征提取能力有效提高對于小目標的檢測識別,同時對于多目標的檢測速度和識別精度也有一定的提高.網絡結構類似于金字塔結構,網絡全部采用卷積層,加入的特征融合部分可以提高網絡結構的感受野,網絡特征提取全部采用3×3的卷積核,而且通過特征圖的降采樣方法,小的特征圖對應小目標,大大特征圖對應大目標,隨著層數的加深,輸出特征圖尺寸變小,加強網絡特征提取性能,最后直接用卷積神經網絡來識別檢測目標.輕量級模型部署簡單便于優化,有利于電力檢修復雜場景應用.
基于CSSD的電力檢修多目標匹配匈牙利算法解決人員多目標跟蹤中的前后幀數據關聯問題,求得攝像頭視頻前后幀目標匹配問題的組合優化算法,實現人員的最準確匹配問題.將置信度較高的目標輸入匈牙利算法進行匹配,這樣才能得到較好的結果.為進一步提高跟蹤準確率,跟蹤器也使用了多種方法對運動多目標的外觀特征狀態進行建模.
匈牙利算法用來匹配前后兩幀目標進行最大匹配,求出來的匹配不一定是飽和匹配,但卻是最優關聯匹配.如圖2,t–1 幀的object{1,2,3,4,5,6,7}和t幀object{1,2,3,4,5}的人員匹配,匹配后object4 離開第t幀視頻.跟蹤人員目標的過程中,因人員的運動速度不是恒定的,即人員目標運動加減速,會產生相應的噪聲.針對因噪音產生的檢測邊界框不準確和檢測模型的非線性問題,本文采用卡爾曼濾波原理進行處理,處理完噪音后,再進行預測估計檢測框位置,采用簡單的卡爾曼濾波原理結合改進的SSD 網絡模塊,調整行人檢測的邊界框,有效提高目標檢測框定位的準確性.

圖2 匈牙利算法應用
對于SORT 算法,直接采用匈牙利算法進行目標關聯分析,使用馬氏距離計算檢測物體和物體跟蹤之間的距離.忽略了被檢測物體的表面特征,且不能很好的解決長時間被遮掩的物體關聯性問題[20].在DeepSORT中,采用卷積神經網絡進行人員大規模數據集提取特征和訓練,使用最近鄰匹配算法,融合目標運動信息和目標特征信息的測量指標,有效改善了目標追蹤過程中的遮掩問題[25].基于改進SSD的電力檢修多目標人員跟蹤在使用簡單的卡爾曼濾波處理逐幀數據的關聯性的基礎上使用匈牙利算法進行關聯度量,在電力檢修高幀速率視頻中獲得了良好的多目標人員追蹤性能.
本論文中使用了CSSD 網絡來進行模型的檢測,并使用卡爾曼濾波方法跟蹤預測目標的位置狀態,預測檢測框位置,使用IOU 方法和匈牙利算法聯合來解決視頻連續前后幀目標匹配問題.使得算法具有很高的效率.目標追蹤流程圖3所示.
由于Kalman 濾波的自身特點,使得目標追蹤具有很好的準確性和處理數據的快速性,本論文采用簡單的卡爾曼濾波原理結合改進的SSD 網絡模塊,調整行人檢測的邊界框,利用Kalman 濾波建立目標的外觀模型,并將其融合到多目標追蹤中,針對多個目標建立多個追蹤器進行目標訓練和檢測.用計算目標相似性距離解決目標重識別問題,求目標圖像的平均像素,當兩個目標平均像素誤差小于特定閾值時,認為是同一個目標.對于追蹤過程中目標消失問題,本論文設定一個最大丟失時間,當目標丟失時間超過此閾值則認為目標消失,即追蹤結束.

圖3 目標追蹤整體流程圖
訓練模型時使用的軟硬件設備為顯卡:NVIDIA GeForce GTX 1080TI;CPU 版本 Intel Core i5-6500@3.2 GHZ×4;顯存:16 GB;Ubuntu 16.04 LTS 64 位操作系統;CUDA8.0 版本.
(1)多目標跟蹤準確度MOTA (Multiple Object Tracking Accuracy):

MOTA 度量算法中,FN為False Negative,FP為False Positive,IDSW為ID Switch,GT為Ground Truth物體的數量.FNt、FPt、IDSWt分別是缺失數、誤判數和誤配數.MOTA 考慮了追蹤中所有幀中目標位置匹配錯誤.MOTA 給出了一個非常直觀的衡量跟蹤器在檢測物體和保持軌跡時的性能,與物體位置的估計精度無關.MOTA 以及MOTP是計算所有幀的相關指標再進行平均.
(2)多目標跟蹤精度MOTP (Multiple Object Tracking Precision):

MOTP 主要量化檢測器的定位精度,是關于位置誤差的評判指標.dt,i表示第t幀下目標和它配對假設位置之間的距離大小.MOTP 精度高低的好壞主要取決于度量距離d的定義方式,本論文中多目標算法精度越大越好,且不包含與跟蹤器實際性能相關的信息.c為在當前幀匹配成功的數目.
(3)MT (Mostly Tracked):正確跟蹤軌跡占80%以上的百分比,在所有跟蹤目標中所占的比例.
(4)ML (Mostly Lost):目標跟丟的軌跡占20%以下的百分比,在所有跟蹤目標中所占的比例.
(5)Recall:召回率是指正確匹配的檢測目標數占總的正例的比重.
(6)Precision:精確度是指追蹤時正確匹配的檢測目標數/檢測出的總目標數.
(7)FM (Frag Mentation):每當軌跡將其狀態從跟蹤狀態改變為未跟蹤狀態,并且在稍后的時間點跟蹤相同的軌跡時,就會對FM 進行計數.跳變數是指跟蹤軌跡從“跟蹤”到“不跟蹤”狀態的變化數.FM 計算的是跟蹤有多少次被打斷(即Ground Truth的track 沒有被匹配上).
本文對幀差法、GMM、ViBe、SORT、DeepSORT等算法在MOT2017 數據集上進行了測試,測試結果如下,經過試驗對比表明基于CSSD 網絡的人形多目標追蹤算法在追蹤準確率上表現最好,如表1.

表1 各算法性能對比
對比了其它方法的差距,基于CSSD 網絡的多目標追蹤方法在公開行人視頻數據集上測試取得了優化,特別是在MOTA和MOTP 測試上算法滿足可靠魯棒性.經實驗測試表明,本方法在電力設備場景下取得了人員跟蹤檢測在準確率和速度兩方面最優,跟蹤時可有效處理視頻幀中人員遮擋問題.以下是SORT、Deep SORT 及CSSD 算法截取連續幀的實驗效果圖,如圖4.

圖4 算法對比效果圖
圖4中綠色代表ViBe 算法的追蹤;紫色代表DeepSORT 算法的追蹤;紅色是本文方法,圖4(a)、圖4(b)為MOT2017 數據集上的測試結果,圖4(c)、圖4(d)為電力現場數據集上的測試結果.實驗分析表明本論文算法目標跟蹤平均速度22 fps 接近實時,能夠有效緩解追蹤時因為表觀突變或者部分遮擋導致的準確率下降問題,小目標跟蹤精度和準確率都大大提升,能最大程度的適應目標的尺寸、遠近和角度改變等.
本文基于改進SSD 網絡的電力檢修多目標人員跟蹤算法,構建目標追蹤外觀模型,利用圖形檢測建模,構建目標追蹤的運動模型,利用位置信息追蹤,結合空間和時間多策略的匹配對電力檢修特定場景的目標追蹤有了很大提升.攝像頭采集到大量視頻數據,主要任務為檢測圖片中是否存在人員目標,可在各種復雜場景中快速實時的檢測到圖片中的工作人員,是一種魯棒性的目標檢測追蹤算法.本論文結合實際項目需要,具體項目已部署于電力場地,為促進國民企業發展提供強有力的理論依據和技術支撐.