近年來,隨著視頻監控網絡化、高清化的逐步實現,視頻監控系統的大量普及安裝,監控系統所獲取并存儲的視頻數據信號的容量正以很快的速度增長。從理想角度看,在這些視頻信號中,包括了現實世界中的大量的信息,應該可以為我們的管理及安保工作帶來巨大的價值。但是從現實的角度來看,在大型的監控系統中,依靠人工處理包含數以萬計的視頻數據集,并從中獲取信息,是非常困難、甚至是不可能的。也因此,絕大部分監控系統所獲取并存儲的視頻數據,成了存儲在硬盤中無人使用的數據。
由于計算機和人兩者之間存在著比較深的“語義鴻溝”,計算機所理解的低層次圖像特征,與人類所理解的高層次語義信息,它們之間存在差異,視頻監控數據也無法成為我們能夠直接使用的信息。舉例來說,我們在觀看一段監控視頻時,可以結合先驗知識,判斷出視頻中奔跑的行人、交談的人群、甚至行人之間的相互關系,以及情緒等更加細節的信息,計算機卻不能這樣,它只能獲取圖像色塊、區域紋理或者運動方向等圖像特征。
數據挖掘技術可以使我們能夠從無法直接理解的圖像特征信息中,獲取到能夠應用的語義信息,是一座架在“語義鴻溝”之上的橋梁,但是現階段,在數據挖掘技術領域,視頻數據的挖掘還是一個難題,視頻數據是非規則的,且信息量非常龐大的一種數據格式,與文本數據不同,它并不具備文本數據那樣的語法及段落等規則;總體來看,視頻數據挖掘技術目前還處于初級階段,但是有部分技術,例如車牌識別技術、視頻入侵檢測技術等已經到了較成熟的規模化應用階段。另外,由于視頻信號中包含的信息量很大,對于視頻數據特征的融合和信息的提取都具有很高的難度。
在監控系統各個行業用戶,迫切需要解決的問題是如何在海量視頻數據中,提取出我們所能夠應用到的信息,甚至是經過歸納總結的知識。但是由于視頻監控中包含的信息量非常的龐大,不同行業客戶,對于視頻信息的提取的信息,及使用方式有存在著很大的差異。這樣,要求針對不同行業客戶的需求,監控技術的供應商能夠提供不同的視頻數據挖掘的解決方案。例如公安行業用戶,在進行刑偵工作時要對大量視頻進行目標查找,需要從視頻中獲取目標的身份信息,例如人員身份信息及車輛牌照信息等,它們在日常治安管理工作中,需要及時獲取治安異常事件的信息,例如斗毆事件或者群聚性事件,及時從視頻監控中獲取這些信息,從而可以及時的處理;而高速公路行業用戶,需要在收費處獲取車輛的牌照信息,在道路監控視頻中獲取異常事件信息,例如擁堵事件、停車等,還需要提取例如車流量、平均車速等統計類信息以實現管理優化。視頻質量信息,這些視頻信息是各行業用戶都需要的,例如,從視頻數據中,獲取的當前視頻設備運行狀態是否正常,對于各行業監控系統的運行維護,這些都有著很重要的作用。
在視頻中挖掘的信息分為五類,分別是:目標身份信息、事件語義信息、視頻統計信息及視頻質量信息,目標圖像特征信息、這是根據實際應用需求及應用方式的不同來分的。從視頻中獲取的可用語言描述的事件信息是事件語義信息,如有人奔跑、闖入區域、發生群聚性事件等,這類信息主要需要以報警的方式實時傳遞給用戶,用戶可以根據這類信息,實時對異常事件進行判斷,并進行及時的處理。可描述的目標圖像特征是目標圖像特征信息,例如紅色轎車、穿黑白條紋衣服的人員等,用戶以報警的方式或者檢索的方式使用這類信息稱為目標身份信息,人員身份及車輛牌照信息,例如車輛黑名單報警或者嫌疑人照片檢索。為了對目標進行快速定位用戶,在刑偵工作中,可以利用這類信息在海量視頻數據中進行檢索。對視頻質量進行診斷獲取的對視頻質量異常進行描述的信息稱為視頻質量信息,例如視頻被遮擋、視頻失焦、視頻偏色等,用戶可以利用這類信息進行監控系統的運行維護。從視頻中獲取的長時間統計數據稱為視頻統計信息,例如商場的客流量、交通要道的車流量等,用戶可以利用這類信息進行管理工作的優化。
視頻數據挖掘技術的實現方式可分為前端設備實現方式和后端設備實現方式兩種。前端設備實現方式是指在各種前端監控設備中集成智能視頻分析技術,以實現視頻信息的實時挖掘;后端設備實現方式是指利用后端服務器集群,對前端監控設備采集的視頻信息進行數據挖掘。一般而言,前端設備實現方式的優點是可以對視頻數據進行實時分析,并具有根據視頻分析算法的需要對前端設備進行成像控制的能力,對于信息實時性或者視頻成像特性有特定要求的數據挖掘技術更適合用前端設備實現方式。視頻數據挖掘技術可以根據需要,在IP攝像機、NVS、NVR和網絡球機等多種前端設備中集成。
在后端,視頻數據挖掘技術的實現在于可以利用服務器集群提供更強大的處理能力,并可實現多路視頻數據之間的信息融合,同時對多路視頻數據進行處理。視頻數據挖掘技術在后端服務器集群中實現,由于具有高度的靈活性及擴展性的云計算平臺,后端實現方式優秀的承載平臺,隨著云計算技術的發展及成熟,或許在不遠的將來云計算平臺將在視頻數據挖掘技術中發揮著很重要的作用。
根據其應用及技術特點,不同的視頻數據挖掘技術需要采用不同的實現方式。有些信息在數據挖掘的過程中需要對成像設備進行控制,或者信息的應用對于實時性有較高的要求,這類數據挖掘技術就適用于前端設備來實現,例如,事件語義信息的提取,用戶需要及時的獲取這類信息以做出應對,這類信息一般以報警的方式呈現給用戶的挖掘技術就適合用前端設備實現。又例如,有些數據挖掘技術在前端攝像機中實現具有較大的優勢,如車牌信息的提取及人臉圖像的檢測,為了獲取高清晰度的圖像,一般需要對成像設備進行實時的控制,例如攝像機的曝光時間、攝像機增益值等,以并保證所獲取信息的精確度。而對于視頻質量信息和統計類的信息,這些信息對于實時性和處理能力的要求并不高,用兩種前端和后端兩種方式都可以實現。
有時,在一些數據的挖掘的過程中,需要對多路視頻數據進行信息融合,這需要提供很強的計算能力支撐系統,這類數據挖掘技術就適用于后端實現方式。例如公安部門在刑偵工作中,需要完成對海量視頻數據中,具有一定特征的目標進行檢索,并且需要在較短的時間內完成,而利用服務器集群的后端實現方式,就可以提供高密度計算能力的支撐。
視頻數據挖掘的目的是建立底層視頻數據到高層語義信息之間的映射關系,由于這種映射關系比較復雜,一般采用多層次的信息提取及映射技術來最終實現數據挖掘過程。在視頻數據挖掘過程中,從底層的視頻數據中首先提取低層圖像特征信息,包括圖像紋理、圖像色塊、運動矢量、圖像邊緣、灰度直方圖等信息,這類信息無法為我們所直接理解,它們是提取元語義信息的基礎。然后利用目標檢測、目標跟蹤、特征比對等手段從圖像特征中提取元語義信息,包括運動目標、運動目標軌跡、車牌圖片、人臉圖片等,這類信息已經可以為我們所理解,但是離最終應用還有距離。最后將元語義信息融合為高層的語義級描述信息,例如融合運動目標軌跡信息及用戶設計的禁區信息所生成的描述內容為“發現有人闖入禁區”的語義級報警信息,再例如融合目標行人目標檢測信息及運動軌跡信息可以生成客流量統計報表等,隨著提取信息的層次越高,其包含的信息量逐步減少,其信息的抽象程度越高,也更接近我們所能應用及理解的范疇。
不同行業對于視頻信息的需求及應用方式是截然不同的,因此很難開發出一套通用的視頻數據挖掘技術去適用于各個行業。因此,在現有的技術發展水平下,根據各行業的需求,開發專用的視頻數據挖掘系統是比較合理的做法。視頻數據挖掘技術可以從視頻中獲取描述運動目標的各種元語義信息,并結合用戶事先設定的規則生成報警事件描述性語義信息,并及時通知用戶,使用戶能夠及時對這類事件做出反應。這類視頻數據挖掘技術已經發展到一定的成熟度,并在機場、鐵路、監獄、油田、住宅小區等監控領域有了較多的應用,但是這類技術具有比較強的場景依賴性,在比較復雜多變的場景下其應用效果還需要進一步提升。目前,由于技術上的限制,從視頻中挖掘的統計信息雖無法保證百分之百精確,它的優勢在于成本低廉且獲取的數據量龐大。監控視頻中包含了大量統計類信息,這類信息對管理優化及決策輔助有寶貴的應用價值,例如對于連鎖行業客戶,連鎖店的客流量、保有量及客戶購買率等信息非常重要,而現階段,要獲取這一類的信息,一般只能靠成本非常昂貴的人工方式來統計,利用視頻數據挖掘技術,我們可以通過安裝在連鎖店門口的攝像機,來獲取進出店門的人員視頻,并從視頻中獲取進出人員,人員運動軌跡等信息,并最終根據用戶設定的需求來生成各類統計報表。