馬勇,沈得智,劉國承,高翔,甘才發
(中國鐵路青藏集團有限公司,青海 西寧 810007)
目前,許多機務段都配備了機車乘務員錄音筆、機車視頻監控,并制定了管理辦法,組建了分析隊伍,結合LKJ專人分析,以監督乘務員落實日常作業標準。但由于視頻監控、錄音筆裝置是不間斷一直記錄,即乘務員開車多長時間,記錄多長時間,使轉儲后地面音視頻分析人員工作量巨大,每個機務段每天有少則幾百名乘務員,多則上千名乘務員在線值乘,產生海量的音視頻數據,而分析員能夠分析的數量相對每天產生的數據量相比很少,不能做到全覆蓋分析,使乘務員存在僥幸心理,因此,在值乘過程中違章問題始終沒有杜絕,且是事后管理,發現問題時已經構成既成事實,甚至造成事故無法挽回。
因此,研究一種能夠在線實時智能識別并進一步規范乘務員行車標準化操作的裝置十分有必要,同時,人工智能成為當今社會主導方向,在人工智能領域,語言識別、圖像識別、自然語言處理和專家系統等是核心技術,這為利用語言識別、圖像設備技術實現對機車乘務員值乘標準化作業執行情況、車載在線智能識別提供了技術基礎,使之成為可能。
《乘務員值乘標準化車載音視頻智能分析管理裝置》由主機、圖像采集器、拾音器音響、TAX板卡、電纜及輔助配件組成。主要部件如下。
主機:用于分析圖像采集器數據,分析TAX信息,產生報警信息等(圖1)。圖像采集器:用于實時采集人臉圖像和手勢圖像(圖2)。相控陣一體音箱:用于錄音、語音播放使用(圖3)。
該系統的工作詳細參數如下。工作溫度:-25~+70℃;工作海拔:0~3000m; 相 對 濕 度:8%~90%;外殼防護等級:IP65GB4208-93;電源輸入:DC+77~+137V;功耗:20W(不帶外設)。

圖1 系統主機設備圖

圖2 圖像采集器設備圖

圖3 相控陣一體音箱設備圖
視頻:視頻輸入:2路BNC1.0VPP75歐姆;視頻壓縮標準:H.264;視頻編碼尺寸:D1;視頻制式:PAL。
音頻:音頻輸入:6路復合視頻輸入,阻抗600Ω,車載航空插頭;音頻輸出:單路音頻輸出,阻抗600Ω,BNC,車載航空插頭和RCA;基本輸出:線性電平;錄音方式:聲音與視頻同步錄制。
本項目主要研究的內容是實現車載音視頻裝置,采集機車乘務員值乘實時影音,并在線識別乘務員語音內容與呼喚應答標準用語進行比較,在線識別乘務員動作行為與手指眼看標準行為比較,在線識別乘務員瞭望狀態、間斷瞭望、實時提醒3大主要功能。
(1)研究適用于在線識別的音視頻采集裝置。在線音視頻識別對音頻和圖像質量有別于傳統的攝像機加拾音盒組成的視頻裝置,在音頻方面需要對司機室嘈雜的背景音進行降噪過濾,提取出較為清晰的司機講話聲音,在視頻方面需要獲取到3D的視頻流,提取出乘務員在X、Y、Z3個方向上的動態,同時,這些降噪后的音頻和3D視頻的數據量較傳統視頻裝置成倍增長,又要實現在線實時識別,需要處理能力超強的CPU、緩存空間大、速度快的緩儲器等硬件,因此,要針對性能需求設計具有超強運算能力的處理器與相控陣麥克風、3D攝像機組成的音視頻采集裝置,作為整個項目的硬件底盤。
(2)研究實現在線提醒功能。采用智能圖像處理方法,以目前世界先進的人臉識別技術為基礎和PERCLOS方法識別人眼狀態,并融合人體姿態、運動特征,實現機車乘務員瞭望狀態智能識別。
當乘務員出現盹睡、間斷瞭望的現象,系統根據不同的間斷瞭望狀態,分3個級別發出不同的提醒聲音,級別劃分如下。①間斷瞭望持續時間達到10s,發出一級提醒;②間斷瞭望持續時間達到15s,發出二級提醒;③間斷瞭望持續時間達到20s,發出三級提醒。各級提醒報警過程中,當機車乘務員恢復瞭望狀態后,提醒報警自動解除,目前,該項技術是項目團隊成熟技術,在既有產品的基礎上,針對本項目開發的硬件底盤進行軟件修改,嵌入實現。
(3)研究實現對“手指確認”操作行為的在線識別提醒。手勢識別:通過Kinect傳感器獲得深度圖像,利用深度圖像信息進行人體初步分割與定位,實現人體與背景的分離,進而識別人體各部分(例如四肢、軀干),并根據人體各部分的實時位置形成相應的指令反饋給主機,主機根據反饋的指令進行相應的操作。根據TAX信息中信號機顯示變化、機車工況變化等工況條件信息,在設定的工況條件下,識別乘務員在規定情況是否做出相應的手勢或行為,在識別前進行友善提醒,對簡化作業進行錄像記錄。
(4)研究實現對“呼喚應答”的在線識別提醒。在前期語音采集過程中,根據語音特點建立合適的語音模型,并提取特征參數,構建語音識別參考模型;應用過程中,采用相控陣麥克風將接收到的語音信號轉換成電信號,并對待識別的語音進行預處理、端點檢測和特征參數提取,與“呼喚應答”語音識別參考模型進行匹配,進而通過判決規則得出識別結果。同樣,根據TAX信息中信號機顯示變化、機車工況變化等在設定的工況條件下,識別乘務員在規定情況是否進行呼喚應答,在識別前進行友善提醒,對簡化作業進行錄音記錄。
(5)智能結果分析功能。研發智能地面分析軟件,對值乘全過程的音視頻錄像進行“摘要”化剪輯分析,自動甄選有價值能夠反映乘務員標準化執行程度的音視頻畫面供管理者分析,并實現數據檢索回放功能以及統計分析功能,按月生成車隊、車間報表,以及重點區域、時間段分析,方便各級管理者分析使用。
采用智能圖像處理方法,以目前世界先進的人臉識別技術為基礎和PERCLOS方法識別人眼狀態,并融合人體姿態、運動特征,實現機車乘務員瞭望狀態智能識別。系統能夠全天候實時在線監測乘務員的瞭望狀態,當監測到乘務員有視野偏離、精神不振等間斷瞭望現象時,立即實施分級語音報警,在線提醒乘務員,使之保持專注瞭望,瞭望間斷現象消除后語音報警隨即結束。
通過Kinect傳感器獲得深度圖像,利用深度圖像信息進行人體初步分割與定位,實現人體與背景的分離,進而識別人體各部分(例如四肢、軀干),并根據人體各部分的實時位置形成相應的指令反饋給主機,主機根據反饋的指令進行相應的操作。
采用相控陣麥克風對司機的音頻進行定向降噪提取,將接收到的語音信號轉換成電信號,并對待識別的語音進行預處理、端點檢測和特征參數提取,與“呼喚應答”語音識別參考模型進行匹配,進而通過判決規則得出識別結果。