嚴磊,車靚,王寶會
1.北京地鐵科技發展有限公司,北京,100072;2.北京航空航天大學軟件學院,北京,100000
2022年初,國內有50座城市建成了城市軌道交通,運營里程9192.62公里。其中地鐵占比78.9%,人們對地鐵的依賴程度與日俱增。隨著線路里程與客流大幅度增長,發車間隔縮短,運營時間延長,極大地增加了車站運營壓力,對車站服務工作的要求也越來越嚴格,車站的運營安全風險問題也隨之更為突出、復雜,對地鐵運營安全風險識別和管理也提出了更高的要求[1]。
地鐵車站不同崗位的工作人員人數眾多,職業素養、工作能力、工作負荷、工作疲勞程度各不相同,出現風險隱患的時候,急需智能化、自動化工具及時、全面、精準地提醒執崗員工及其上級監管人員。
目前,國內地鐵公司針對重點崗位員工執崗行為的監控與管理,主要通過主管部門及管理者人工檢查視頻安全監控系統這種傳統的方式進行。傳統的安全執崗行為監控系統,存在著如下問題:①看不及時,視頻錄像只為查證內容而無預警功能;②看不過來,過多的監控畫面無法得到實時的監控;③看不全面,監控值守人員面對繁多視頻畫面疏忽、大意;④特定場景(如車輛駕駛員連續動作的執行)下的風險預警幾乎無法實現。這些問題會導致重點崗位員工執崗行為風險隱患無法及時、全面地給以警示,導致運營安全風險事故概率增高,同時也會增加主管部門及管理者的監管壓力,間接導致風險隱患的產生及管理成本的升高。
基于視覺AI技術、機器學習技術等進行執崗行為監控系統的設計及應用研究,根據地鐵領域特定的重點崗位執崗行為的應用場景,定制構建一系列的安全生產預警模型,實現安全監控的無人值守,做到隱患和事故的提前預警,及早發現問題,避免重大事故的發生。對重點崗位員工執崗行為識別,作業過程加強監控,及時、全面地感知和預警人員違章違紀等行為,強化對員工執崗過程和執崗行為的監督與管控[2],具有深遠的意義。
AI深度學習技術的應用是基于視覺AI的執崗行為監控系統實現隱患預警、安全行為診斷的關鍵。圖像、視頻流識別與分析等技術其實都采用AI深度學習技術,通過大量的圖像、視頻的樣本數據,提取了地鐵業務領域的圖像、視頻的典型特征,并構建專業診斷模型,再通過對模型的長期訓練學習,來不斷提高算法的準確率和識別準確率[3-4]。
經典的目標檢測算法模型有faster-rcnn系列[5-6]、SSD[7]、YOLO系列[8-10]等。其中YOLO系列算法應用最為廣泛。
YOLO v1版本采用了回歸的方式直接獲取目標的分類信息和回歸信息,但近距離及小目標檢測效果不盡人意且泛化能力偏弱。YOLO v2在v1版本的基礎上添加了批規泛化層,加速網絡的收斂,采用了新的提取網絡結構,新增轉移層連接高低分辨率的特征圖,提高小物體的檢測能力,同時設置預選框,降低位置預測的計算量,性能明顯提高。但由于未采用類似殘差的網絡結構,多目標和小目標檢測能力,依然有待提升[12-13]。
YOLO v3采用Darknet-53經典的網絡結構,通過調節卷積步長控制輸出特征圖的尺寸,在保證檢測速度的前提下,同步提升檢測精度[12-13]。該模型采用多個尺度圖像融合的方式做預測,小目標檢測及實時檢測方面表現良好,但在物體遮擋的時候,檢測效果不好[12-13]。
YOLO v4模型,則采用了CSP DarkNet-53結構作為特征圖提取網絡,引入Mish激活函數并通過Mosaic進行數據增強,同時進行上下采樣對特征融合進一步加強。檢測速度和檢測精度大幅提升。如圖1所示,在COCO數據集上,v4達到了43.5%AP和65FPS, v4模型的AP和FPS比v3模型分別提高了10%和12%[11-12]。
在本文項目中,使用了YOLO V4模型算法。
YOLO v4網絡結構主要包括特征提取網絡(CSPDarknet53)、空間金字塔池化結構(SPP)和路徑聚合結構(PANet)。CSPDarknet53包含5個CSP模塊,解決深度CNN中網絡優化的梯度信息重復問題,減少網絡計算量,在特征融合層利用了PANet融合兩個特征金字塔對應的尺度特征,增強該網絡在三個特征尺度的特征提取能力和對不同尺度目標的檢測能力。該網絡由輸入層、卷積層、池化層、輸出層構成,檢測效果進一步提升[12-13]。
首先,Backbone的選擇:YOLO v4卷積層使用group(1-8)比較小的卷積,并將ResNeXt50、Darknet53分別與CSP結合,組成了CSPResNeXt50和CSPDarknet53。實驗證明CSPResNeXt50更適合于分類網絡,CSPDarknet53更適合于檢測網絡,因此YOLO v4的backbone選擇CSPDarknet53,參見圖2 Darknet-53。
其次,neck主要考慮如何擴大感受野以及如何更好地進行特征融合。對應檢測網絡而言,主要有三個要求:提高網絡輸入的分辨率和檢測小目標的可能性;更多的網絡層,擴大網絡的感受野用以支持大分辨率的輸入;更多的網絡參數用于檢測不同尺寸的目標。選擇SPP module和PANet中的path-aggregation neck作為YOLO v4的neck。
最后,Head則沿用YOLO v3的Head。
人體關鍵點檢測是人體行為識別非常重要的一個步驟,在人體步態識別、人體行為檢測、人體跟蹤識別等領域都具有重要的作用[15]。但該項技術在應用場景可能會受現場光照、識別角度、物體遮擋等因素的影響,需進一步研究[16]。
人體關鍵點主要提取表示人體骨骼特征的部位,重點檢測人體的頭、頸、手、腿、臂、腳踝等多處關節點。多人骨骼關鍵點檢測粗略分為自頂而下和自底而上兩種檢測方式[18]。自底而上的檢測方法步驟:關鍵點檢測和關鍵點聚類,即先找到人的關鍵點,檢測完成,再利用聚類算法把關鍵點聚類,從而完成每個人的關鍵點檢測。Openpose是最為常用的算法[19]。Openpose姿態估計算法是利用人體關鍵點親和域(part affinity fields,PAFs)以及自底而上的多人骨架提取算法,此方法可以提取2D和3D兩種人體骨架[17]。整體執行大致為圖像輸入、關鍵點檢測、關鍵點聚類和關鍵點聯結組裝骨架[14]。
基于視覺AI技術執崗行為安全監控系統,其核心在于利用深度學習技術,是一套完備的智能視頻監控、分析、處理、預警體系,包括模型構建及訓練、視頻數據接入及視頻流解析、推理分析、結果生成、預警告警、分析統計、校驗審核。
系統分層設計,按基礎設施層、數據資源層、業務邏輯層及應用展示層進行總體規劃、設計。上層調用下層服務,下層為上層提供服務,每層各司其職。
(1)基礎設施層。支持系統運行的網絡環境、軟件環境及硬件資源。主要包括網絡、主機、存儲、備份、軟件系統等。
(2)數據資源層。數據資源層是重點崗位員工執崗行為分析數據統一集合和后臺處理中心的重要組成部分,實現了視頻數據從接入、標注、建模、分析完整的處理過程,是整個視頻分析功能的數據基礎,為業務邏輯層提供數據服務。
地鐵內部現有的視頻監控系統的數據通過視頻數據接入部分對接。執崗行為模型及模型訓練是該層的重要組成部分,基于YOLO V4、OpenPose模型,實現對目標及動作的識別,使用Labelimg實現對所有圖片的精準標注,最終利用Darknet深度學習框架進行YOLO V4模型的訓練。
(3)業務邏輯層。部署業務邏輯組件分業務應用功能組件和系統運行技術支撐等。功能組件主要包括視頻分析、視頻配置、告警統計、告警設置、樣本庫、角色管理、用戶管理、配置引擎和規則引擎等;技術組件部分,包括JAVA、SpringBoot框架、FFmpeg視頻推流、Websocket實現實時告警等及 YOLO V4等算法模塊。樣本庫為針對地鐵重點崗位生成員工執崗行為違規樣本庫和員工執崗行為標準樣本庫。
(4)應用展現層為用戶使用系統功能的窗口,提供多樣化的界面展現形式和數據發布手段,通過調用業務邏輯層的相關組件,實現對重點崗位員工執崗行為分析結果的展示。主要對地鐵重點執崗場景員工執崗違規行為視頻分析及告警,針對綜控室、司機室、電梯場景的實時視頻和歷史視頻,通過視頻分析,識別員工執崗違規行為并進行告警。支持多路視頻同時接入和分析、本地視頻上傳分析等功能。
利用視頻數據,對重點崗位員工執崗行為分析,通過算法模型構建高準確度等級的違規行為識別,將識別結果生成告警信息,通過學習、感知、認知、行動、告警等流程,實時發現、實時處置。
根據地鐵領域特定的重點崗位執崗行為的應用場景,定制構建一系列的安全執崗行為模型、生產預警模型,及時、全面、精準地發現執崗行為中存在的不規范、具有安全隱患的行為。
重點崗位員工執崗行為分析基于地鐵內部視頻系統,對視頻進行標注,進而進行模型的構建及訓練,對擬分析對象與模型進行比對形成分析結果,并對分析結果進行展示,支撐違規行為告警功能及其他相關功能。地鐵監控場景下視頻數據的收集,這部分數據需要長期的積累和收集,且需要人工對數據進行標注和打標簽。系統上線階段屬于冷啟動階段,在初期構建的模型基礎上進行運行。而在運行后依然需不斷優化、學習和訓練。通過業界所公開的行為和動作識別的相關數據集,擇取和地鐵業務相關的作為識別的學習、訓練樣本。兩者數據相輔相成,構建地鐵重點崗位的執崗行為庫。
系統運行分為訓練環境和生產環境。在訓練環境中,對原始樣本進行數據處理、特征提取及映射,生成訓練樣本;根據地鐵車站(及司機室)特定業務場景,選擇不同的算法模型,進行標簽創建、數據抽取、數據標注、標注質檢、模型訓練、模型評估。
在生產環境中,根據既定的業務邏輯規則,對采集到的視頻進行實時的檢測、識別、分析,最終系統會給出及時、全面的警示信息。安全模型設計如表1所示。
本文將基于視覺AI的執崗行為監控系統實際運用到北京地鐵車站重點崗位的執崗工作監管環境中,在實際生產環境中驗證系統的功能及性能,重點場景介紹如下。

表1 重點崗位執崗行為視覺AI安全模型
綜控室(即綜合控制室)是車站的中樞,分為多個監控分區。如果綜控室工作人員離開崗位,或者撥打手機及把玩手機等處于非工作狀態,系統則發出帶告警事件的圖片信息[3],立即推送給相關管理人員,并啟動聲光告警,提示執崗人員有違規動作的出現,對執崗工作人員行為進行有效的監督和提醒。綜控員違規使用手機告警如圖5所示。
電扶梯屬于特種設備,必須定期對地鐵電扶梯特種設備進行維護保養及隨時加強對地鐵電扶梯的日常檢修管理。在指定時間特定區域沒有穿制服的維修人員出現、未攜帶工具箱、在指定時間未完成一定的操作都定義為違規行為。
系統模型設定對輔助工作人員(藍色T恤)、維修人員(綠領深灰工作服)、圍擋進行識別。通過識別到指定的員工類型,判定檢修人員規范工作。指定的維修時間內若未發現有上述特征目標出現在維修作業區域,則發出聲光報警并推送至管理人員,避免在計劃的作業時間工作人員沒有按時出現或作業中著裝不規范、未按規定設置圍擋等帶來的安全隱患,減小管理存在漏洞而導致的安全事故發生概率[3]。參見圖6所示。
在行車過程中,駕駛員起立觀望、操作、抬手平移、坐下、操作發車等操作動作及順序,是有嚴格要求的。如果駕駛員未完成規定動作其中一個或多個、順序顛倒、打電話、乘務室人員大于4人時等,都定義為違規行為。系統將進行提醒,同時系統可對動作范圍及時間進行調整,如人員接打電話時間過長,如超過5秒,則告警。
系統實現駕駛員整套動作序列按順序按規范的識別功能。如發現違規情況,即刻發出聲光報警,同步推送相關管理人員,避免由于其動作不規范而帶來的安全隱患,減小人員管理方面存在漏洞而導致的安全事故發生概率[3]。參加下圖7所示。
基于北京地鐵的實際數據,對系統進行評估。為了驗證基于視覺AI的執崗行為監控系統在實際業務場景中的可用性及優勢和特性,本文選擇了違規使用手機、駕駛員序列動作識別、電扶梯檢修三個場景,主要驗證系統的AI檢測準確率、事件響應率等指標,并與常規傳統的視頻監控系統下的安全監控效果做對比。對比結果,參見表2所示。表中的“傳統監控”場景是指利用北京地鐵CCTV系統,人員現場值守監控所得的實測值。

表2 應用場景監測驗證結果
由表2結果數據可知,本文設計的執崗行為監控系統在生產運營環境中的應用,可以達到實時監測的效果,全部都是在秒級就可識別到并且產生告警、預警,而傳統的利用視頻監控系統,只能依靠值守人員進行事件的響應,且都是在分鐘級別,并且還存在誤報、漏報可能。綜上所述,相對于傳統人工監控方式,本系統確實可以做到及時、全面、精準的實時監測及告警,改善了人工耗時、耗力、低效且存在漏報、誤報的可能,改變了監管方式。
針對現代地鐵運營線路增多、客運量增大、運營時間變長等對地鐵運營和服務造成的壓力,該研究對基于視覺AI的執崗行為監控系統進行了研究分析,并以北京地鐵某車站為示范,進行設計研究的驗證。該研究進行了以下技術設計:
(1)構建一套基于視覺AI技術執崗行為安全監控系統,通過該系統,將智能視頻監控、分析、處理、預警體系融為一體,實現模型構建及訓練、視頻數據接入及視頻流解析、推理分析、結果生成、預警告警等一體化設計。隨著科學技術的發展,基于視覺AI的執崗行為監控管理成為各地鐵監控管理發展的趨勢。
(2)構建執崗行為模型并選擇適合的算法模型。根據地鐵領域特定的重點崗位執崗行為的應用場景,基于YOLO V4、OpenPose模型,定制構建一系列的安全執崗行為模型、生產預警模型,并根據深度學習框架進行模型訓練。
本文研究設計的系統在地鐵生產運營環境中的應用,改善了傳統監控系統的低效、漏報、誤報的情況,改變了監管方式;可以實現地鐵運營全面監管及安全隱患的實時提醒,做到及時、全面、精準的告警,降低了企業管理成本、提高了地鐵運營安全管控水平。