熊偉國
(上海鐵路機車車輛發展有限公司,上海 200000)
目前,各機務段都配備了機車乘務員錄音筆、機車視頻監控,以監督乘務員落實日常作業標準。但由于視頻監控、錄音筆裝置是不間斷記錄,每天產生海量的音視頻數據,使轉儲后地面分析人員工作量巨大,分析的數量相對占比較小,且是事后管理,發現問題時已構成既成事實,造成事故時已無法挽回。經對五個鐵路局集團25個機務段不完全統計,僅2018年全年因乘務員未標準值乘作業而引發事故多達32起。因此有必要通過技術手段在線實時智能識別并規范乘務員標準化操作,提升視頻分析效率,并在發生問題時給予報警提示,防控風險于前期。
車內環境照度變化大,還有司機姿勢的變化,如何實時獲得準確、清晰的臉部、眼部、手勢圖像是技術難點之一;無需事先進行圖像注冊的情況下,就準確定位面部、眼睛、手勢,實時地提取各種動態參數并進行正確圖像識別是技術難點之二;使用的實時性要求在快速算法下達到足夠的識別率是技術難點之三。
裝置需實現功能包括:能夠依據LKJ公里、信號機、車站坐標,在線識別乘務員標準化作業執行情況,當乘務員簡化、違章作業時在線提醒乘務員,并生成數據記錄問題。具體如下:
(1)預設關鍵項點,實時對比乘務員值乘過程中手勢合規程度,在線提醒乘務員規范操作行為,并記錄不規范行為報警視頻。
(2)預設關鍵項點的乘務員“呼喚應答”標準語句,實時對比乘務員值乘過程中語音呼喚應答標準,在線提醒乘務員使用規范語音標準作業,并記錄不規范語音報警音頻。
(3)結合已開發成熟的“機車乘務員途中狀態預警提醒裝置”,實時監測乘務員行車工作狀態,當出現間斷瞭望行為時,立即語音提醒,并記錄報警視頻。
(4)通過體感手環,實現可穿戴式乘務員體征檢測設備,記錄機車乘務員在值乘前的睡眠時間,心率血壓體征等精神狀態指標。
(5)智能地面分析軟件。通過智能地面分析軟件,快速生成報警報表,具備檢索回放以及統計分析功能,按月生成車隊、車間報表,以及重點區域、時段分析,方便管理者分析使用。
本項目主要研究的內容是實現車載音視頻裝置采集機車乘務員值乘實時影音,并在線識別乘務員語音內容與呼喚應答標準用語進行比較,在線識別乘務員動作行為與手指眼看標準行為比較,在線識別乘務員瞭望狀態間斷瞭望實時提醒三大主要功能。系統框圖如圖1所示:
4.1.1 攝像頭信息的采集和預處理
攝像頭信息的采集和預處理,要進行手勢信息的獲取,首先需要擁有一定的硬件,如數據手套、攝像頭等。對于軟件方面則要安裝相應的驅動程序和了解它們的API。OpenCV提供了一系列通用而且簡潔的外部接口以便于實現以上的工作,對攝像頭操作代碼流程如圖2所示:

圖1 系統框圖

圖2 攝像頭操作代碼流程

圖3 計算面積的步驟
4.1.2 身體軀干的區域的提取
(1)膚色種子的獲取。在單擊鼠標時獲取鼠標相對圖像位置的顏色,處理這個圖像所在控件的點擊事件。CStatic控件還需要首先將其Notify屬性設置成True,以指定這個控件在單擊和雙擊時對父級控件發出通知。獲取鼠標相對于圖像的坐標可以通過先獲取鼠標的屏幕坐標,再將該坐標轉成相對于控件的坐標來實現。
(2)基于軀干與背景在一定顏色模型上的區別的初步提取。根據不同顏色模型,對轉換以后的對軀干的范圍采用不同的提取方法。用原始的rgb顏色模型的圖片來提取,可以用r、g、b三種通道各自與膚色種子的色差的最大值來判定圖像上的某點是否在軀干上;如果用顏色模型為一個亮度通道+兩個顏色通道的圖片,則可以通過先遍歷整個圖像,把每一點的像素歸化到[0,255]的整數范圍中,再將兩個顏色通道移到統一的位置進行統一的色差最大值判定。
(3)外部孤立點的消去。一些被選中的比較小的孤立區域,它們的顏色與軀干的顏色相近,但是其共同點是都在軀干的后面,而且所占的面積比軀干要小。為此可以通過獲取最大的連通區域的方法來去掉一些不合理的選取。當一個點首次到達一個連通區域(未計算)時,即開始計算這個區域的面積,算完該面積后再進去這個區域(已計算)將不會再重新算。計算面積的步驟如圖3所示:
4.1.3 身體軀干的關鍵點的提取
軀干的重心通過選取圖片(如memopic)中軀干的區域的內的x和y坐標的平均值來實現;軀干的面積可以反映軀干離攝像頭的距離。軀干的邊緣通過像素與其旁邊相差的大小來確定,但為了保持邊緣的寬度在1像素內,僅需判斷這個像素點與其右方和下方的顏色是否相同即可。
4.1.4 基于AI深度學習識別身體軀干
自動編碼器的核心關鍵是將原始圖像(視頻)輸入信號進行編碼,使用編碼后的信號來重建原始信號,使得兩者之間的重建誤差最小。通過將原始信號編碼成另一形式,能夠有效地提取信號中的主要信息,能夠簡潔地表達原始圖像(視頻)的特征。
4.2.1 近場麥克風陣列信號模型
在近場情況下,必須采用精確的球面波前模型,來代替遠場的平面波前模型。聲波在傳播過程中要發生幅度衰減,其幅度衰減因子與傳播距離成正比。對于遠場聲源,麥克風陣元接收的信號之間幅度差別相對很小,可以忽略不計;但對于近場聲源,麥克風陣元接收的信號之間幅度差別較大,必須予以考慮,其示意圖如圖4所示。

圖4 近場麥克風陣列信號模型

圖5 譜抵消的具體做法
4.2.2 譜抵消去噪及語音檢測
為了簡單起見,假設噪聲為加性白高斯噪聲(AWGN),且在各個麥克風之聞互不相關。但即便是這樣,在通常情況下,嗓聲的參數也是未知的。而且當環境改變時,噪聲參數都會變化,因此必須根據噪聲的變化實時地去噪,面譜抵消就是這樣一種去噪方法。譜抵消的具體做法如如圖5所示:
軟件開發工作分為六個階段,可行性研究及開發計劃、需求分析、軟件設計、系統實現、測試與完善。
算法由攝像頭輸入圖像開始,依次需要經過圖像預處理,需要識別對象進行特征提取,最后通過樣本數據庫進行對比,識別算法獲得識別結果。
研發地面分析軟件,對值乘全過程的音視頻錄像進行“摘要”化剪輯分析,實現數據檢索回放功能以及統計分析功能,方便各級管理者分析使用。
“乘務員值乘標準化智能分析裝置”基于技術成熟的高速DSP嵌入式處理系統和智能音視頻識別、智能視頻分析、機器視覺檢測技術,結合崗位作業標準化制度要求,及機車運行環境,對值乘司機作業中行為動作進行分析,發現行為異常或不符合機務值乘制度要求的行為時,系統及時發出語音報警提示,糾正司機作業行為,起到實時有效互控的目的,減少和防止因司機未落實崗位作業標準化,導致的行車事故的發生。不僅維護行車調度秩序,而且減少和避免對企業和個人造成經濟損失,可產生良好的社會影響,為提高機務系統安全風險管理水平和企業科技創新發展提供有力的技術手段。