李鵬飛 趙炫 王列
1. 視頻圖像信息智能分析與共享應用技術國家工程實驗室 2. 公安部第一研究所
近年來,在人工智能技術的發展及公共安全需求的推動下,越來越多的視頻分析技術從實驗室走向實際應用。借助計算機強大的數據處理功能,視頻分析系統可對海量視頻數據進行高速分析,過濾無用信息,自動提取其中有價值的關鍵信息,從而有效提升公安工作中視頻監控的深度應用水平[1]。隨著各種各樣的視頻分析算法和系統的提出,判斷這些系統實用性的評價方法變得至關重要。
本文在分析總結視頻分析測評技術研究現狀的基礎上,提出了視頻分析測評體系的構建思路,對視頻分析測評的關鍵技術進行了研究,最后對視頻分析技術的未來應用及發展方向進行了展望。
視頻分析測評的目的在于對視頻分析算法及系統的性能進行客觀、公平、公正的科學評價,為用戶采購產品提供可靠依據,同時促進視頻分析技術產品及產業市場的發展。視頻分析測評技術涉及面廣,難度大,一直是國內外學術界及產業界的重要研究課題之一。
2000年 , VACE( Video Analysis and Content Extraction)項目啟動。該項目主要關注人臉檢測/跟蹤、文本檢測/跟蹤/識別、行人檢測/跟蹤/定位、手檢測/跟蹤、事件檢測等任務。在VACE的第二階段(2002~2006年),南佛羅里達大學(USF)和美國國家標準和技術協會(NIST)協作進行了測評方面的工作[1]。
ETISEO(Evaluation du Traitement et de l'Interpretation de Sequences vidEO)是由法國政府贊助的視頻監控系統測評項目,項目研究時間從2005年到2006年12月,主要針對運動目標的檢測跟蹤、目標定位、目標分類以及事件識別等算法的性能評價方法進行研究[2]。
SUBITO(Surveillance of Unattended Baggage and the Identification and Tracking of the Owner)是由European Commission Framework 7 programme贊助的研究和開發項目[3]。該項目主要關注對丟棄行李的自動實時檢測,以及對相關人員(所有者)的跟蹤識別,同時研究了這些算法的性能評價方法。
PETS(Performance Evaluation of Tracking and Surveillance)會議主要由英國雷丁大學所倡導,是專門研究視覺跟蹤和監控算法性能評價方法的國際研討會。第一次PETS會議于2000年3月召開,到2017年為止已經召開了19屆[4]。早期的PETS主要關注人、車等運動目標的檢測和跟蹤,以及人員行為、行李遺棄等事件的識別檢測。2009年以后,PETS開始關注群體分析,包括擁擠的公共場合中的目標檢測跟蹤和事件識別,人員計數和密度估計,特定群體事件的檢測等。
以上的研究工作均提供了相應的測試數據集。此外比較著名的測試數據集還包括圖像識別領域的ImageNet[5]、目標檢測領域的PascalVOC[6]、 視頻檢索領域的TRECVID[7]、目標跟蹤研究領域的VTB[8]和 VOT[9]、人臉檢測及識別領域的FDDB、LFW、MegaFace等。
通過調研發現,國外現有的視頻分析測評研究主要針對算法測試,而非產品級的測試。FRVT(Face Recognition Vendor Test)為針對人臉識別系統的測試,但其數據以歐美人臉為主,與我國人臉實戰應用場景差距較大。
國內方面,香港中文大學、中科院自動化所、中科院計算所、清華大學、中山大學等研究機構在人臉識別、車輛識別、目標跟蹤等視頻分析算法測評領域進行了研究,并建立了部分相關數據集。如香港中文大學(王曉剛與湯曉鷗組)建立了人臉屬性識別數據集CelebA以及車輛識別數據集CompCars;中科院自動化所(黃凱奇組)建立了行人屬性識別數據集RAP dataset以及跨攝像機目標跟蹤數據集MCT;清華大學(王生進組)在行人再識別方面提出Market1501數據集等。但這些數據集容量有限,且以學術測評為主,與公安實戰應用差異較大,不能準確評估視頻分析系統的應用能力。此外,國家安全防范報警系統產品質量監督檢驗中心也在視頻分析測評領域進行了一定的研究工作,其主要測評目的為檢驗產品是否達到標準要求的最低功能和性能,同樣存在數據集容量有限等問題。
作者所在團隊從2007年開始,通過參與多個視頻分析測評相關的國家科技支撐課題,對視頻分析測評技術進行了深入的研究。研究了視頻分析測評的方法和流程,制定了實用、科學的視頻分析測試方法,形成了一套測試流程規范。同時面向技防和公安信息化應用,建立了內容豐富、規模龐大的測試視頻資源庫。
視頻分析測評體系框架大致可分為三個層次,如圖1所示,包括視頻分析測評方法層、測評系統與數據集層以及測評應用層。

其中,測評方法層包括測試方法、評價方法以及數據集建設和管理方法。測評系統與數據集層包括測評系統以及測試數據集。測評應用層則是測評的應用實施過程,包括目的與范圍確定、數據集與指標選擇、方案設計、組織與實施以及結果發布等。
視頻分析測評可采用現場測試和數據集測試兩種方式。現場測試指被測系統直接布署到應用環境中,被測系統本身具備從現場采集視頻圖像的能力,或通過網絡接口實時獲取監控視頻圖像;數據集測試則是將被測系統布署在實驗室環境中,通過接口讀取事先從現場環境采集的數據集。
現場測試的優點在于可以測試包含采集前端在內的視頻分析整體系統的性能,適用于對特定重要監控場景的專項測試與評價;其缺點是現場視頻圖像采集的范圍和數量往往有限,且因測試時間限制,導致應用場景單一,評價結果往往不能全面反映被測系統在多種環境下的綜合性能。同時現場測試大多只能采用人工方式進行測試結果統計。
數據集測試的優點是可以基于全國各地公安實戰應用場景中長期采集的大量現場數據進行測試,場景豐富,目標數量多,評價指標全面,測試結果統計可實現自動化;缺點是如果被測系統自帶視頻圖像采集前端,由于數據集測試中將已采集好的數據直接輸入給被測系統的分析處理模塊,該系統的圖像采集能力無法在測試指標中體現。實際測試過程中,將根據用戶需求兩種方式結合進行。
對視頻分析系統進行評價應從功能和性能兩個方面分別進行。功能評價相對容易,一般按照廠家產品說明書進行一一驗證即可。評價的難度和產品的優劣主要決定于其性能,性能評價包括視頻分析系統整體性能評價以及視頻分析性能評價。其中,系統性能應按響應時間、穩定性、兼容性等多項指標進行評價。視頻分析性能的評價方法可主要歸納為以下五種:
1. 目標檢測及特征提取類
包括運動目標檢測、行人檢測、人臉檢測、車輛檢測、目標分類、目標顏色檢測等視頻分析性能評價。
按照關注層面不同,此類視頻分析的性能評價由細到粗可分為像素、目標、目標活動周期(指目標在畫面中從出現到消失的過程)三個層次。像素級別的指標主要反映算法分割物體的性能,但不能反映分割時發生的物體分裂、合并等情況;目標級別的指標可以反映算法的分割準確度,但不能反映算法分割的精確程度;目標活動周期級別評價的優點在于指標統計方便,且與實際應用更一致。因此本文推薦采用目標活動周期級別的評價。
系統輸出結果后,以目標活動周期為單位與基準數據進行比較,統計并計算檢測率、誤檢率、準確率等指標,進行性能評價。
2. 目標識別類
(1)人臉識別
人臉識別根據應用模式的不同,可分為人臉證件照核驗,人臉檢索,人臉布控等,性能評價指標如表1所示。

?
(2)人像識別
對行人的性別、年齡、體型、衣物特征、附屬物等屬性進行識別。需使用識別準確度、識別精度、召回率等指標進行性能評價。
(3)車輛識別
包括車輛號牌識別、車輛基本特征識別、車輛個體特征識別等分析功能。性能評價指標如表2所示。

?
3. 事件檢測類
包括徘徊檢測、絆線檢測、逆行檢測、遺留物檢測、物體移除檢測、入侵檢測等。對事件檢測算法性能進行評價時,主要使用兩方面的指標。一方面,使用檢測率、誤檢率指標來衡量系統對實際場景中事件的識別率及識別的準確程度;另一方面,使用延時指標(系統輸出事件與基準數據中對應事件開始時刻的時間差)衡量算法識別事件的速度。
4. 數量統計類
包括流量統計和密度檢測等。進行性能評價時,主要需要比較場景中實際目標數或密度與系統輸出目標數或密度之間的差別。使用絕對平均誤差MAE和相對平均誤差MRE兩個指標來進行性能評價。
5. 目標檢索類
包括以圖搜圖功能。需使用檢出率、誤檢率、檢索速度、前N命中率等指標對系統性能進行評價。
一個有代表性的數據集對于視頻分析系統進行全面而公正的科學測評是至關重要的。隨著大數據時代的到來,訓練與測試數據集的重要性與日懼增。測試數據集構建至少包含兩部分重要工作,一是數據采集,二是數據標注。
視頻分析技術在應用上存在一定的局限性,特定的視頻處理算法僅適用于有限的場景和應用。測評過程中,必須針對視頻分析系統的不同功能,選擇多個特定場景的視頻序列進行性能評價。因此需要在調研視頻分析產品的功能、應用場景及算法原理的基礎上,對海量的監控視頻序列進行篩選,建立一個涵蓋廣、實效性強的測試數據集。數據采集時,至少應考慮表3中所示的因素。

?
數據標注是產生視頻分析測評基準數據的關鍵途徑,是實現自動化測評的前提。國外專門從事視頻監控性能測評研究的項目或組織,如ETISEO、PETS等,對視頻標注都有過一些研究,但其標注規范主要針對視頻分析算法的測評。因此需針對視頻分析系統不同功能在公共安全領域的應用特點,分類建立視頻測試序列庫,并對標注進行重新設計和規范。不同功能對應的標注特征如表4所示。

?
測評系統是視頻分析測評體系中的最重要環節,通過測評系統實現對測試數據的管理、標注以及對視頻分析系統的性能測評。測評系統主要由三個模塊組成,一是數據管理模塊,二是標注模塊,三是性能比對模塊。
如圖2所示,用于對視頻、圖片以及對應的基準數據進行管理。該模塊實現以下主要功能:
1. 視頻樣本入庫以及視頻樣本屬性描述、修改和信息瀏覽,需要描述的屬性信息包括:總體描述、采集環境、視頻特征、場景特征、基準文件等;
2. 圖片樣本入庫以及圖片樣本屬性描述、修改和信息瀏覽,需要描述的屬性信息包括:總體描述、采集環境、場景特征、基準文件等;
3. 視頻樣本和圖片樣本的按條件查詢等;
4. 視頻樣本和圖片樣本的批量出庫及規范化編號、出庫次數統計等。

用于對測試視頻及圖片進行人工標注以生成基準數據,如圖3所示。標注內容至少應包括目標信息、事件信息、流量信息、密度信息等。標注完成后,通過數據管理模塊將基準數據文件和視頻圖片數據進行關聯管理。標注模塊實現以下主要功能:
1. 視頻連續、逐幀、跳幀播放和視頻剪輯;
2. 各種視頻分析功能的基準數據標注;
3. 基準數據的生成、保存和輸出等。

實現視頻分析系統輸出結果和對應的基準數據之間的對比,通過設定的匹配原則,統計并計算各種性能評價指標,如圖4所示。主要實現以下功能:
1. 比對基準數據和視頻分析系統的分析結果,統計計算系統各項性能指標,以圖表形式輸出測評結果,完成產品的性能測評;
2. 管理視頻分析系統歸屬廠商的信息,包括:新建、修改和刪除;
3. 顯示視頻分析系統的測評歷史,包括:歷史列表、測評結果摘要、測評結果明細等。

基于在視頻分析測評領域的長期研究成果和實戰數據集,視頻圖像信息智能分析與共享應用技術國家工程實驗室先后受公安部多個業務局、多地公安機關邀請,組織了多次面向公共安全實戰應用的視頻分析測評,被測單位包括國內外視頻分析領域的幾十家知名企業和科研機構。通過這些測評實踐,我們對視頻分析系統的實戰應用能力進行了量化評價,為視頻分析系統的建設和應用提供了有價值的指導依據,有效幫助被測系統快速定位問題和不足,并找到優化改進的技術途徑。
視頻分析的測評目前仍然是國際難題,隨著技術的快速發展和業務應用的持續創新,如何面向建立適應新技術和新應用的評價方法,如何構建全面反映公共安全視頻分析應用復雜場景的海量數據集,如何建設高并發、廣兼容、自動化的測評系統,仍然存在許多技術問題需要深入研究和探索解決。視頻圖像信息智能分析與共享應用技術國家工程實驗室將依托承接的國家“十三五”重點研究計劃和公安部重點研究計劃中的測評相關課題,整合自身和行業資源,深入開展視頻分析測評的研究和應用,以推動視頻分析技術在公共安全視頻領域的深度應用。
[1] 黃凱奇,陳曉棠,康運鋒,譚鐵牛. 智能視頻監控技術綜述. 計算機學報, Vol.38(6),pp:1093-1118,2015.
[2] Manohar V, Boonstra M, Korzhova V, et al. PETS vs. VACE Evaluation Programs: a Comparative Study[C]. Proceedings of the Ninth IEEE International Workshop on Performance Evaluation of Tracking and Surveillance, New York, 2006: 1-6.
[3] Nghiem A T, Bremond F, Thonnat M, et al. ETISEO, Performance Evaluation for Video Surveillance systems[C]. Proceedings of the IEEE Conference on Advanced Video and Signal Based Surveillance, London,2007: 476-481.
[4] SUBITO: https://cordis.europa.eu/project/rcn/89391_en.html.
[5] Patino, L., Nawaz, T., Cane, T. and Ferryman, J. PETS 2017: Dataset and Challenge. In: IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 26 July 2017, Honolulu, HI,USA.
[6] Deng J, Dong W, Socher R, Li J J, Li K, Li F F. ImageNet: a Large-scale Hierarchical Image Database[C]. In: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition.Miami, FL, USA: IEEE, 2009. 248-255.
[7] Everingham M, Van Gool L, Williams C K I, Winn J, Zisserman A.The PASCAL Visual Object Classes (VOC) Challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303-338.
[8] Smeaton A F, Over P, Kraaij W. Evaluation Campaigns and TRECVid[C]. In: Proceedings of the 8th ACM International Workshop on Multi Media Information Retrieval. SantaBar-bara, CA,USA: ACM, 2006. 321-330.
[9] Wu Y, Lim J, Yang M H. Online Object Tracking: a Benchmark[C].In: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA: IEEE, 2013. 2411-2418.