歐陽康淼 康曉樂 曹蕊 王綜勇 康來松
(1.北京京投城市管廊投資有限公司 北京市 100027 2.北京交通大學 北京市 100044)
隨著城市化進程的加快,北京市市政工程的建設規模越來越大,綜合管廊得到了長足的發展。綜合管廊通過統一運營管理以及集約化建設,緩解了城市快速發展對市政設施的負荷需求。同時,綜合管廊整體建于地下,內部空間相對密封,只有少量的交互接口與外界相通。因此,外來人員的非法入侵不僅對廊內基礎設施帶來威脅,甚至還會造成人員傷亡等災難性后果[1]。
為了保障綜合管廊的安全運營,管廊內部安裝了大量攝像機,從而形成一個監控網絡。基于攝像機的監控網絡產生了海量的視頻數據。采用人工監控的方式進行處理不僅需要耗費大量的人力、物力和財力,而且還容易受人為主觀因素的影響,從而降低監控的有效性。因此,迫切需要利用大數據技術,高效地獲取綜合管廊視頻數據所含有的監測信息,實現對視頻監控數據的快速有效處理,從而保障對監控區域進行長時間、大范圍的監控任務[2]。
當前,人工智能技術在安防領域得到了極大的應用,作為安防基礎核心的智能監管系統具有良好的應用前景。智慧視頻監控已經成為安全監控領域的研究熱點[3-6]。卷積神經網絡是前饋神經網絡的一種,這種神經元連接模式受動物視覺皮層檢測光學信號原理的啟發[7]。
綜上所述,將智慧視頻監控應用于綜合管廊具有如下三方面的意義:
(1)對進入廊內的工作人員進行識別,從而對其行為進行監測,保障其操作的規范性。

圖1:基于人員再識別的綜合管廊智慧監管系統總體設計圖

圖2:基于人員再識別的綜合管廊智慧監管算法架構圖
(2)當發生突發情況時,管理人員清楚地掌握管廊內工作人員的具體狀況,從而指導廊內人員的安全撤離,以及對突發情況的有效處理。
(3)對非法進入廊內的外來人員進行識別,防止其對管廊造成損害。
基于人員再識別的綜合管廊智慧監管系統由三大部分組成:視頻采集客戶端、特征識別服務端和綜合監控展示端。其對應的總體框架如圖1 所示。
視頻采集客戶端是直接與用戶進行交互的接口。客戶端根據用戶類別可分為管理員和普通用戶。視頻采集客戶端在用戶初次使用時,引導用戶進行注冊和登錄,使用手機實時驗證碼登錄。視頻采集客戶端用于采集管廊內特定目標的視頻數據,將該視頻數據發送到異常檢測模塊,特定目標可以為人員、物體、設備等。其中,視頻捕獲模塊可以由多個攝像機組成(例如291 個),包括子彈型攝像機和半球型攝像機。這些攝像機放置在管廊中的關鍵位置,例如上下樓梯,拐角和重要設施處,以對這些關鍵位置進行監視。由于子彈型攝像機始終專注于固定視野,主要用于監視設施艙;半球型攝像機具有更寬的視角,用于監視管道通道。所有攝像機均具有H.264 壓縮編碼的1080P 標準,并且視頻數據的存儲時間不少于15天。
特征識別服務端將特征值與特征值庫中的信息比對,從而進行人員識別。特征識別服務端通過CenterNet 從所述視頻數據中提取興趣區域的特征,并通過卷積自動編碼器對視頻數據中人員行為進行異常評分,確定興趣區域內人員行為是否正常。具體包括:從視頻數據中檢測場景中的興趣區域并提取相應的特征,生成基于這些特征的圖元以描述興趣區域,然后對興趣區域內有關人員行為進行異常評分,確定人員行為是否正常;然后將視頻處理結果存儲并發送給監控顯示模塊。
綜合監控展示端用于接收并顯示特征識別服務端發送的結果。如果檢測結果是異常事件,則彈出窗口并發出警報;如果檢測結果正常,僅顯示實時視頻。根據不同類型的人員行為異常結果,綜合監控展示端將不同的系統鏈接在一起,實現與管廊中其他系統的智能鏈,包括風扇系統,照明系統,廣播系統,電話系統,門禁系統。可以及時針對人員行為異常采取有效措施,以保證管廊的穩定運行和人員安全。
算法通過人員的兩類特征:1.跑步姿態2.衣著服飾,對進入管廊應急通道的人進行識別。算法結構如圖2 所示。
本文針對步態識別與衣著識別問題,提出了一種改進的深度卷積神經網絡架構。該架構共有10 層,包括4 層卷積層和4 層采樣層,每一層共有8 個特征圖。在每一卷積層中利用8 個卷積濾波器進行初始化,且在每一采樣層均有8 個采樣映射。該架構使用反向傳播學習算法對這些層進行訓練,同時利用具有自適應學習速率隨機梯度下降的均方根傳播來優化算法以最小化成本函數。
本文使用Xavier 均勻方差縮放方法來初始化卷積濾波器的權重:

應用步長為1,尺寸為5×5 的卷積濾波器。卷積層中的每個特征映射計算如下:

其中?表示卷積運算,FMi-1是前一層的特征映射。在第一層,FMi-1代表GEI 的原始像素。每個特征圖都具有偏差項β,偏差項初始化為零值。本文使用HyperTan 函數作為本文的激活函數,該函數為:

其中x 為卷積運算的結果,該運算被添加到該特征映射的偏差項中,如式(2)所示。
在本文所提出的DCNN 模型中,每個池化層輸出8 個池化的特征映射,匯總每個核映射的相鄰神經元組的輸出值。同時池化層還有助于減少輸入數據中的頻譜變化并產生平移不變特征,因為步態識別中的身體形狀是可以經歷許多波動的非剛性形狀,因此,這種優勢在步態識別中非常有價值。
在本文的模型中,池化單元以池化因子C=2 執行最大池化。同時,設置步長為2,使用池化單元大小為2×2 的最大池化過濾器對數據進行下采樣。具體操作定義如下:

其中MaxP 表示最大池操作。在第一個子采樣層中,8 個合并濾波器中的每一個產生68×68 輸出。在第4 層中,每個池化濾波器產生32×32 輸出。在第六層中,每一層產生14×14 輸出。在最后一個池化層中,8 個池化過濾器中的每一個都產生5×5 輸出。在完全連接的部分,只有兩層(輸入層和輸出層),其中soft-max 是本文的分類器。本文所提架構沒有任何隱藏的圖層。輸入層有200 個神經元,其主要來自最后一個池化層(5×5×8)。
在本文所提出的DCNN 模型中,l 層中的每個特征圖FMi僅連接到來自前l-1 層的一個特征地圖FMi。這極大地降低了計算成本,加快了訓練時間并減少了參數的數量。
實驗環境。本文設計的實驗硬件如下:CPU 為IntelCorei5 6200U,GPU 為NVIDIA GeForce GTX 1050Ti,內存為8G。本文設計的實驗軟件如下:操作系統為windows 10,開發環境為Python 3.6 以及Pytorch。
實驗數據與度量標準。本文采用兩類數據集:
(1)公開人體動作數據集,包括KTH 數據集、Weizmann 數據集和UCF Sports 數據集;
(2)自收集的數據集,該數據集包含了多段綜合管廊場景下的人員監控視頻。本文采用平均準確率(MAP)對算法的有效性進行度量。
實驗結果:本實驗是在公開的標準人體動作數據集上進行的。包括KTH 數據集、Weizmann 數據集、UCF Sports 數據集,并且本實驗把視頻數據轉化為靜態圖像進行實驗。本文采用的比較方法,包括DMP、CaffeNet、CNN。其中,CaffeNet 是深度學習框架中CaffeNet 提供的經過調優訓練之后的模型。同時,本文采用CNN和CaffeNet 結合DPM 進行對比。基于公開數據集的實驗結果如表1 所示,可以發現本文所提出的方法(ImprovedCNN)在三類公開數據集上都取得了最好的效果。基于綜合管廊數據集的實驗結果如表2 所示,整體符合預期結果,表明本文所提出的方法對人體動作識別的精確度的提高是有效的。
綜合管廊規模的擴大帶來了非法入侵的風險。采用智慧監管系統對進入綜合管廊內部的人員進行識別,是對抗非法入侵的有效方法。本文提出融合改進的卷積神經網絡算法(Improved CNN)識別進入管廊內部的人員。在特征提取階段,對人員的步態姿態以及衣著服飾進行提取。同時,對CNN 模型進行梯度優化訓練,加強人體動作識別。在特征融合階段,用加權求和的方式把兩類特征進行融合。用softmax 分類器進行人體動作的分類識別。在公開數據集以及綜合管廊數據集上的實驗結果表明,該方法能夠對管廊內部人員進行有效識別。

表1:基于公開數據集的算法有效性比較