高速列車智能視頻分析應用研究

2023-03-12 09:53:22哈大雷徐慧星江升輝

鐵路計算機應用 2023年2期

姜雪，哈大雷，徐慧星，楊帥，江升輝

（1. 中車長春軌道客車股份有限公司，長春 130062；2. 中車青島四方車輛研究所有限公司，青島 266031）

目前，我國已建成運營速度最快、里程最長的高速鐵路網(wǎng)，取得了令世界矚目的成就。為保持競爭力，我國高速鐵路需要在列車技術上持續(xù)創(chuàng)新，不斷提升旅客服務質量，為旅客提供更加安全、舒適、高效的出行體驗。

智能視頻分析技術借助計算機強大的數(shù)據(jù)處理功能，對監(jiān)控攝像機所拍攝的海量視頻進行高速分析，從視頻圖像的背景中將目標分離出來，自動捕獲和跟蹤可疑目標，一旦場景中的目標出現(xiàn)違反預定義分析規(guī)則的行為，會觸發(fā)預設置的聯(lián)動規(guī)則主動告警，為用戶提供有價值的關鍵信息。

為此，提出高速列車視頻智能分析應用方案，在高速列車車廂內安裝高清攝像機，構建高速列車智能視頻分析系統(tǒng)，對攝像機采集的視頻數(shù)據(jù)流進行智能分析，自動檢測和識別高速列車上的異常狀況，并將告警信息傳輸至車廂控制器，由車廂控制器將告警信息顯示在車載顯示設備上，或通過車載廣播設備播放告警信息，為改善旅客服務和保障列車安全運行提供信息服務。

1 智能視頻分析技術概述

目前，智能視頻分析主要采用深度學習，構造深層次的網(wǎng)絡結構，學習機制為以數(shù)據(jù)為驅動，算法分為訓練和推理2個階段；訓練階段使用預先標記的樣本（輸入和預期輸出）對模型進行訓練，通過網(wǎng)絡參數(shù)迭代得到一個最優(yōu)模型；推理階段使用訓練好的深度神經(jīng)網(wǎng)絡模型，預測無標記的新的輸入的輸出，輸出為連續(xù)值稱為回歸，輸出為離散值稱為分類。

按照智能視頻分析的任務類型，智能視頻分析技術包括目標檢測、目標跟蹤、目標識別、目標行為識別4種類型。

目標檢測是智能視頻分析的基礎，是從視頻圖像中去除掉背景成分，找出檢測目標的區(qū)域，在這個過程中盡可能地減少背景噪聲和前景噪聲的干擾；目標檢測方法主要包括光流法[1]、特征匹配法[2]和基于深度學習的方法[3]。

目標跟蹤是在視頻圖像中尋找與目標模板最相似的候選目標區(qū)位置的過程，其中目標跟蹤方法主要基于特征的跟蹤、基于區(qū)域的跟蹤和基于深度學習的方法[4]。

目標識別是指根據(jù)視頻圖像中的目標內容，自動將其劃分到預定義類別，如人、車輛等不同目標；根據(jù)可利用信息的不同，目標識別可分為基于形狀信息[5]和基于深度學習的方法。

目標檢測、跟蹤和識別屬于智能視頻分析中底層和中層處理部分，而目標行為識別是對目標的運動模式進行分析和識別，通過在跟蹤過程中目標的行為變化，根據(jù)用戶的自定義行為規(guī)則，判斷被跟蹤目標的行為是否存在異常，屬于智能視頻分析中高層處理部分；目標行為識別方法主要基于時空興趣點的方法、基于骨骼關節(jié)軌跡的方法和基于深度學習的方法[6]。

國內關于智能視頻分析技術在列車上的應用已開展了一些研究。段旺旺等人[7]基于視頻監(jiān)控圖像，使用Faster R-CNN模型進行車廂人數(shù)檢測與統(tǒng)計，實現(xiàn)動車組車廂擁擠度分析，車廂擁擠度預測結果的準確率達到93.89%；馮勇等人[8]設計了行李架遺留物檢測方法，對指定的行李檢測區(qū)域采用幀差法完成初檢，判斷是否有物品遺留在行李架上，當初檢檢測到行李遺留物時，使用YOLOv3模型對遺留物的位置、類別進行復檢。

2 高速列車智能視頻分析系統(tǒng)的構成及工作過程

2.1 系統(tǒng)構成

高速列車智能視頻分析系統(tǒng)主要由車廂攝像機、視頻監(jiān)控服務器和智能分析主機等設備組成，這些設備通過列車以太網(wǎng)組網(wǎng)進行信息交互，系統(tǒng)構成如圖1所示。

圖1 高速列車智能視頻分析系統(tǒng)構成示意

（1）車廂攝像機：選用高清網(wǎng)絡攝像機，主要安裝在車門通過臺、客室、吧臺區(qū)及司機室等區(qū)域，安裝位置應不影響現(xiàn)場設備運行和人員正常活動，并確保能夠獲取監(jiān)視目標區(qū)域清晰、完整的視頻畫面；所采集的監(jiān)視目標區(qū)域數(shù)字視頻流數(shù)據(jù)同時發(fā)送給視頻監(jiān)控服務器和智能分析主機。

（2）視頻監(jiān)控服務器：每節(jié)車廂布置布置1臺視頻監(jiān)控服務器，主要由供電模塊、通信模塊、網(wǎng)絡視頻錄像機（NVR，Network Video Recorder）模塊和存儲模塊組成；視頻監(jiān)控服務器采用視頻中間件的方式，可兼容多種數(shù)字攝像機設備的編碼格式，集中存儲車廂攝像機采集的視頻流數(shù)據(jù)，具備視頻數(shù)據(jù)管理功能，提供視頻數(shù)據(jù)查詢和下載、刪除服務。

（3）智能分析主機：根據(jù)智能視頻分析功能算力分析，每列 8編組動車組列車配置2臺智能分析主機，分別處理1～4車和5～8車的視頻數(shù)據(jù)；智能分析主機主要由供電模塊、通信模塊和智能分析模塊組成；智能分析模塊采用CPU+GPU+NPU硬件架構，具有高算力和高性能，主要完成列車智能視頻分析，自動識別和檢測各種異常事件；通過通信模塊接入基于車廂控制器構建的列車骨干網(wǎng)，可將智能分析模塊生成的告警事件信息發(fā)送給車廂控制器；還可從車廂控制器接收相關信息，實現(xiàn)與其他車載設備的信息交互，例如從車載旅客信息系統(tǒng)（PIS，Passenger Information System）獲取視頻流數(shù)據(jù)的補充信息。

車廂控制器接收到告警事件信息，將告警信息發(fā)送給公共區(qū)域車載顯示設備（如吊頂電視、內外顯示器等，面向乘客提供引導信息）、工作人員車載顯示設備（如乘務員室智慧屏），或通過司機室廣播設備播放告警信息。

2.2 工作過程

高速列車智能視頻分析系統(tǒng)工作過程如圖2所示。

圖2 高速列車智能視頻分析系統(tǒng)工作過程

（1）車廂攝像機通過車廂以太網(wǎng)，基于實時流傳輸協(xié)議（RTSP，Real-TimeStream Protocol ），同時向視頻監(jiān)控服務器和智能分析主機傳輸監(jiān)視目標區(qū)域的視頻流。

（2）視頻監(jiān)控服務器接收RTSP視頻流，從中抽取H.264裸流數(shù)據(jù)（含時間、日期、攝像機標識符），同時從車廂控制器獲取其他車載系統(tǒng)提供的補充信息（包括車次、列車運行區(qū)間、車廂號、攝像機位置號等），將視頻流數(shù)據(jù)和補充信息整合在一起后集中存儲，便于視頻數(shù)據(jù)檢索與查詢；提供視頻數(shù)據(jù)存儲管理，列車工作人員可在車載顯示設備上使用視頻管理軟件，進行指定監(jiān)控視頻的下載、回放、刪除等操作，授權操作可被記錄以備查詢。

（3）智能分析主機接收車廂攝像機傳輸?shù)臄?shù)字視頻流數(shù)據(jù)后，利用內置的視頻數(shù)據(jù)預處理程序與深度學習算法程序，對視頻流數(shù)據(jù)進行實時處理，自動完成車廂乘客擁擠度檢測、車廂敏感人員識別、車廂遺留行李檢測、車廂重點位置監(jiān)控及司機疲勞駕駛監(jiān)測等智能視頻分析；發(fā)現(xiàn)異常事件時，生成異常事件告警信息發(fā)送給車廂控制器。

（4）車廂控制器作為列車骨干網(wǎng)節(jié)點設備，可與智能視頻分析系統(tǒng)的智能分析主機及視頻監(jiān)控服務器進行信息交互，接收智能分析主機發(fā)送的異常事件告警信息；從PIS等其他車載系統(tǒng)或設備獲取視頻補充信息（如車次、列車運行區(qū)間、車廂號、攝像機位置號等），并將這些相關信息發(fā)送給智能分析主機和視頻監(jiān)控服務器。

（5）當車廂控制器接收到智能分析主機發(fā)送的異常事件告警信息時，將告警信息轉發(fā)給PIS；PIS根據(jù)告警事件類別，自動觸發(fā)告警信息的顯示或播報。對于車廂擁擠告警事件，PIS觸發(fā)公共區(qū)域車載顯示設備（如吊頂電視、內外顯示器等）顯示面向乘客的引導信息，方便乘客隨時了解各車廂擁擠程度；對于司機疲勞駕駛告警事件，PIS觸發(fā)司機室廣播設備播放報警信息，提醒駕駛員注意安全駕駛，及時解除危險行為；對于車廂敏感人員識別、車廂遺留行李檢測、車廂重點位置監(jiān)控識別的告警事件，PIS觸發(fā)工作人員車載顯示設備（如乘務員室智慧屏）顯示告警信息，告警信息包含車廂號、攝像機位置號、報警描述、報警圖像或報警視頻，工作人員可通過操作智慧屏，實時查看或回放指定車廂的監(jiān)控畫面，進一步了解車廂內祥情。

3 高鐵列車智能視頻分析主要應用

3.1 車廂敏感人員人臉識別

車廂敏感人員人臉識別屬于目標識別任務類型，是基于人的面部特征信息進行身份識別的一種生物識別技術，利用深度神經(jīng)網(wǎng)絡和多階段回歸從千萬級別的圖像中學習先驗知識，快速準確地對人臉進行檢測并定位，能夠克服光照情況不理想、人臉姿態(tài)變化復雜等因素的影響。采用人臉識別技術可實現(xiàn)敏感人員的智能檢測和預警，提供更加安全的乘車環(huán)境。

系統(tǒng)從公安系統(tǒng)備案獲取人臉黑名單庫或其他敏感人員人臉庫，將其提前導入智能分析主機，智能分析主機對車廂視頻監(jiān)控畫面進行人臉識別。車廂敏感人員識別流程如圖3所示。

圖3 車廂敏感人員識別流程

本文實現(xiàn)的人臉識別應用主要包含5個模塊：人臉檢測、人臉對齊、人臉特征提取、特征比對以及人臉識別；其中，人臉檢測采用MTCNN模型[9]，如圖4所示，這是一種層層遞進的多任務級聯(lián)卷積神經(jīng)網(wǎng)絡，主要包含Proposal Network（P-Net），Refine Network（R-Net）及Output Network（O-Net）3個網(wǎng)絡。在進行人臉識別時，先由P-Net通過卷積神經(jīng)網(wǎng)絡快速生成目標候選檢測框， R-Net接收PNet生成的目標候選檢測框，通過卷積神經(jīng)網(wǎng)絡進行目標檢測框過濾，丟棄重疊窗體；最終由O-Net使用卷積神經(jīng)網(wǎng)絡完成人臉位置的檢測，同時回歸生成5個面部關鍵點。人臉對齊則使用5個面部關鍵點將人臉進行歸一化處理以便進行人臉特征提取。人臉特征提取模塊核心單元采用了卷積神經(jīng)網(wǎng)絡提取高層語義特征，生成目標特征向量，特征比對模塊計算各特征向量之間的相似度，最終完成人臉識別，當檢測到車廂敏感人員時，智能分析主機發(fā)送報警信息。

圖4 MTCNN網(wǎng)絡結構示意

3.2 車廂乘客擁擠度檢測

車廂乘客擁擠度檢測屬于目標檢測任務類型，其目的是自動識別車廂內乘客擁擠程度。動車組車廂乘客一般按照座號就坐，座椅區(qū)域極少會出現(xiàn)乘客擁擠的現(xiàn)象，車廂擁擠檢測主要針對車廂通過臺區(qū)域和車廂通道區(qū)域[4]。本文以車廂通過臺和通道區(qū)域作為檢測區(qū)域進行人數(shù)統(tǒng)計，車廂座椅排數(shù)作為比較基準值，計算兩者比例判定車廂擁擠度。車廂擁擠度c定義為

其中，N為車廂通過臺和通道區(qū)域統(tǒng)計出的乘客數(shù)量；M是當前車廂座椅排數(shù)。

根據(jù)預先設置的車廂不同擁擠度等級的閾值，判斷車廂擁擠程度，車廂擁擠度系數(shù)閾值如表1所示。

表1 車廂擁擠度系數(shù)閾值表

列車車廂內空間狹小，當出現(xiàn)擁擠時，人體往往會嚴重遮擋。考慮到攝像機拍攝位置較高，本文采用目標檢測模型是通過對頭部的檢測實現(xiàn)人數(shù)統(tǒng)計，車廂乘客擁擠度檢測流程圖如圖5所示。

圖5 車廂乘客擁擠度檢測流程

YOLOv5 是用于目標檢測的最有效的深度學習算法之一[10]，包括 YOLOv5s、YOLOv5m、YOLO5l和 YOLOv5x 4種變體，每個變體具有特定的寬度和深度。車廂乘客擁擠度檢測使用輕量級的YOLOv5s模型，主要包括骨干網(wǎng)絡、特征融合及預測層3個組件，其輸出結果分別為目標位置矩陣框、目標類型和模型檢測置信度，如圖6所示。

圖6 YOLOv5s網(wǎng)絡結構示意

其中，骨干網(wǎng)絡包括Focus模塊、Conv模塊、C3模塊和SPP模塊，通過多重卷積和池化從輸入圖像中提取不同大小的特征圖，創(chuàng)建4個不同大小的特征圖。特征融合是將一組融合圖像特征并將其轉發(fā)到預測層的網(wǎng)絡層，融合了幾個層次的特征圖，用以收集更多的上下文信息并減少信息丟失，在融合過程中利用FPN和PAN的特征金字塔結構，F(xiàn)PN和PAN共同增強了網(wǎng)絡的特征融合能力。特征融合層生成小、中、大3種尺寸新特征圖。預測層是預測圖像特征，構造邊界框，然后預測目標類別。

3.3 終點站車廂行李遺留檢測

車廂遺留行李檢測屬于目標檢測任務類型，當乘客在終點站下車時，如有行李物品遺落在車廂內，智能分析主機可識別出行李物品遺留情況，并向乘務人員發(fā)出報警，方便乘務人員查找乘客遺留的行李物品。

車廂遺留行李檢測采用基于目標檢測模型YOLOv5s，模型輸出結果包含檢測目標位置矩陣框、目標類型和模型檢測置信度。當列車到達車次終點站時，乘客信息系統(tǒng)向智能分析主機發(fā)送到達列車終點站信號和列車行駛速度，智能分析主機先觸發(fā)車廂遺留人員檢測，當本車廂遺留乘客人數(shù)總數(shù)小于設定閾值時（如3人，可設置），隨即觸發(fā)終點站遺留物檢測，并生成行李遺留物信息，包括行李類別（手提箱、背包、其它）、位置等。當檢測到終點站車廂行李遺留時，智能分析主機發(fā)送報警信息，終點站車廂行李遺留檢測具體流程如圖7所示。

圖7 終點站車廂行李遺留檢測流程

3.4 車廂重點位置監(jiān)控

車廂重點位置監(jiān)控屬于目標識別任務類型，其目的是對列車重要區(qū)域進行實時監(jiān)測和預警，以保證列車安全運行。本文以乘客緊急制動手柄作為監(jiān)測對象。

智能分析主機提前導入緊急制動拉桿區(qū)域的背景圖像，智能分析主機基于背景差分法，對緊急制動拉桿區(qū)域的圖像進行實時分析。背景差分法通過將圖像序列中的當前幀與背景參考圖像對比來檢測運動物體，可快速檢測運動目標，且檢測準確率較高。本文采用背景差分法進行初檢，判斷是否存在可疑的入侵行為，再將初檢中發(fā)現(xiàn)的可疑圖像送入目標分類網(wǎng)絡進行復檢，進一步分析緊急制動拉桿區(qū)域是否存在異常動作。復檢采用基于經(jīng)典卷積神經(jīng)網(wǎng)絡ResNet構建的目標分類模型，ResNet網(wǎng)絡特有的殘差結構加深了網(wǎng)絡深度，并能夠加速網(wǎng)絡訓練速度，使網(wǎng)絡更快收斂。當檢測到緊急制動拉桿區(qū)域有乘客異常行為入侵時，智能分析主機發(fā)送報警信息，車廂重點位置監(jiān)控流程如圖8所示。

圖8 車廂重點位置監(jiān)控流程

3.5 司機疲勞檢測

司機疲勞檢測屬于目標行為識別任務類型，其目的是監(jiān)督司機的駕駛行為，避免其在駕駛過程中出現(xiàn)的危險行為，確保行車安全。本文以司機眼部狀態(tài)作為智能分析對象，據(jù)此推斷司機的疲勞狀態(tài)。

司機眼部關鍵點檢測基于改進的YOLOV5s模型，在YOLOv5-Face中添加人臉68個關鍵點坐標回歸，模型使用wing loss作為損失函數(shù)，對于小誤差，它表現(xiàn)為具有偏移量的對數(shù)函數(shù)，而對于大誤差，則表現(xiàn)為L1損失函數(shù)，wing loss損失函數(shù)的定義為

其中，w是一個正數(shù)，將非線性部分的范圍限制在 [-w,w]區(qū)間內；ε約束非線性區(qū)域的曲率，且C=w-wln(1+|x|/ε)）是一個常數(shù)，可平滑的連接分段的線性和非線性部分，ε應設置為一個很小的數(shù)值，因為它會使網(wǎng)絡訓練變得不穩(wěn)定，且很小的誤差就會導致梯度爆炸問題。

YOLOv5-Face模型輸出結果包含檢測目標位置矩陣框、檢測目標的關鍵點位置、目標類型和模型檢測置信度。根據(jù)司機眼睛的6個關鍵點的相對位置，對司機疲勞狀態(tài)進行識別。當駕駛員處于睜眼狀態(tài)時，眼睛關鍵點之間歐氏距離較大；在閉眼狀態(tài)時，眼睛關鍵點之間歐氏距離較較小。當識別到司機閉眼且持續(xù)時間超過一定的閾值（可進行設置）時，即可判斷司機處于疲勞狀態(tài)，當檢測到司機疲勞駕駛時，智能分析主機發(fā)送報警信息，司機疲勞檢測流程如圖9所示。

圖9 司機疲勞檢測流程

4 結束語

采用基于深度學習技術設計了一種高鐵列車智能視頻分析應用方案，實現(xiàn)了車廂乘客擁擠度檢測、車廂敏感人員識別、車廂遺留行李檢測、車廂重點位置監(jiān)控及司機疲勞駕駛監(jiān)測，提升了高速列車旅客服務智能化水平，減輕了乘務人員排查各車廂異常事件的工作負擔，有助于增強列車運行安全。

目前在實際應用中，高速列車智能視頻分析系統(tǒng)尚存在較高的誤報和漏報率，其原因主要是智能分析模型的訓練樣本數(shù)量有限。下一步將收集更多的視頻圖像數(shù)據(jù)，完成圖像標注，通過構造高質量的訓練數(shù)據(jù)集，持續(xù)對智能分析模型進行改進和優(yōu)化，提升檢測和識別的準確度。