楊寶生
(1.宿州市工業投資集團有限公司,安徽 宿州 234000;2.宿州市政府,安徽 宿州 234000)
近年來,隨著計算機科學與技術的快速發展,視頻監控依托計算機技術的進步也得到了廣泛的應用,而智能視頻分析技術、智能音頻分析技術、專家系統、傳感器融合技術等人工智能技術也為視頻監控帶來了新的發展的機遇。“高清”、“超清”以及全景視頻監控日漸成為市場及現實應用關注的焦點,即在同一個場景中視野更廣并且能看到盡可能多的實體[1-3],上述需求需要應用能360度全向視頻采集的全景攝像機及其對應的全景監控方案方能解決,如此與全景視頻監控解決方案相關的研究就應運而生了[3-4]。
全景視頻不僅可以全方位的實時記錄某時某地的現場情況,而且可以實時將某個地方的實景用三維立體的方式表現出來,讓觀察者能夠沉浸其中,這事是目前比較常見的VR解決方案。但是,全景視域下用戶可以環顧周圍環境,卻無法與場景進行交互,不能做到像真實生活中的經驗那樣,真正觸摸或改變視頻中的任何東西,即無法做到與視頻場景進行實時交互。360°全景視頻采集是一種新型的拍攝和呈現技術。針對大多數人而言,360°全景視頻的體驗卻是人們VR體驗的第一次嘗試。根據目前的發展趨勢及未來對全景對視頻采集、監控的現實需求而言,全景視頻的數量將會呈現爆炸式成長[5-9]。
全景視頻已經成為當今視頻采集、播放以及分析的新潮流,越來越多的視頻網站支持全景視頻播放,自從GOPRO流行起來之后,利用多個GOPRO鏡頭拼接起來拍攝360度無死角的全景視頻成為全景視頻領域的新寵,Facebook天價收購虛擬現實VR創業公司Oculus VR之后,VR全景視頻開始成為當紅花旦,社交領域也越發紅火。從技術角度而言,全景相機的對焦都是無限遠,而且無論有沒有將鏡頭對準被攝物體,最終成像都會包含這個被攝物,如果想要查看拍攝點的拍攝效果,通過短距離無線通信技術連接得到匹配的手機APP直接預覽畫面就可以。值得注意的是,距離拍攝物體最好1米以上,否則全景拍攝的“魚眼”效果很明顯,不利于觀看與分析[10-14]。
目前,學術界與產業界對能360度全向攝影的全景攝像機并沒有明確的量化定義。一般而言,能夠對某一特定監控區域獨立的無死角全向監控的攝像機都被稱為全景式攝像機,例如目前被廣泛應用的海康威視魚眼攝像機。與傳統攝像機不同的是,為了實現良好的拍攝效果,全景攝像機一般安裝在監控區域的上方,實現對監控區域的“鳥瞰”,例如可以會議室的天花板上安裝一臺向下 “俯視”的魚眼攝像機,從而實現拍攝會議室全景的效果,如圖1與圖2所示,諸如此類實現360度全向無死角拍攝的攝像機被稱之為全景攝像機[5,6]。

圖1 360度全景攝像機鳥瞰拍攝效果

圖2 360度全景攝像機側視拍攝效果
目前,全景攝像機主要應用于視野開闊的監控場景,比如各種道路交叉口、商場超市、政務及銀行大廳、車站碼頭等人員密集場所,上述人員密集場所所要監控的視域寬度往往達到成百上千米,結合深度學習與人工智能技術,需要從監控視頻中看清人臉、車輛牌照等細節,全景攝像機在這些場合得到大量的應用[5-7]。
Reality Lab Networks公司研發了一站式全景視頻采集、存儲、播放與分析工作平臺,以簡化360°全景視頻的制作流程。這個名為Live Planet的攝像頭工作站,包括一個全景攝像頭、云存儲平臺和相配套的視頻處理與分析套件。其中,攝像頭可以實時地對視頻片段進行全景記錄與編碼。之后,所有4K的全景視頻片段將被傳送到云平臺,這個云平臺能夠自動地根據不同的VR以及全景播放設備與平臺進行轉碼,可支持設備包括 Oculus,HTC Vive,Google Cardboard,Gear VR,Facebook 360 與 Youtube 360,等等[5-9]。
目前,在全景視頻與虛擬現實領域,最著名的Magic Leap公司是最受投資者青睞的公司之一,該公司的4D光場顯示技術的主要特點在于可以為用戶呈現出不同深度的監控視頻,讓觀眾從每個角度看到的東西都不一樣,提供很真實的視場體驗,并且有望解決觀看眩暈的缺點[15-17]。
本文提出的全景視頻監控系統框架如圖3所示,主體為中央處理單元,其對應的各組件功能描述如下:

圖3 全景視頻監控系統框架
(一)視頻采集組件:360度采集系統所要監控的區域視頻,并將采集到的視頻傳送到視頻防抖與去噪組件;360度視頻采集主要分為三種方式:(1)實拍獲取:采用一體式全景攝像機或者多相機組合方案,采集的方式是各個相機同時拍攝同一區域內不同角度的視頻,后期通過專業軟件輸出,或者通過專業的視頻拼接軟件進行同步、拼接、調整、輸出;(2)CG制作:使用諸如3Dmax等三維創作軟件進行模型搭建、貼圖處理、動畫制作,攝像機添加等工作,最后借由計算機渲染而成;(3)實拍結合CG制作:在專業攝影棚拍攝主體影像,包括人物,道具以及相關動作,后期加入CG制作的背景和環境、或者CG制作的其它元素和實拍影像進行融合,達到真實的全景效果。
(二)視頻抖動與噪音抑制組件:視頻采集過程中由于受設備本身與工作環境的影響,不可避免的會出現視頻抖動與噪音,需要視頻采集過程中出現的抖動與噪音進行最大程度的補償與抑制,并且對視頻中的噪音利用降噪編碼器技術進行降噪。
(三)視頻合成與切分:將全景攝像機采集到不同方向的視頻進行無縫拼接從而生成全景視頻,并傳輸到顯示終端;對于需要視頻分別顯示的應用場景,把相應的視頻按照要求進行拆分,顯示到不同的展示終端;視頻合成與分割是一個簡單易用的視頻轉換、合并與分割的功能,本文采用全新的國際一流的編解碼技術,具有轉換(支持單個與多個文件的同時處理)、合并與分割視頻質量高、速度快的特點,支持批量分割,是全景視頻處理常用必備的視頻處理功能。視頻合并與分割更是一款功能強大的全能視頻格式處理組件,該組件支持 RMVB、ASF、AVI、WMV、MPG、MPEG、GIF、MJPEG、MP4、MKV、MXF 等主流視頻格式。
(四)視頻投影與映射:將(3)中生成的全景視頻以及不同方向的視頻,根據實際需要進行投影或映射,輸出到不同的展示終端,同時接受并處理相應的人機交互指令。
(五)目標檢測組件:對視頻中的目標物體進行智能檢測,比如人臉識別、車牌識別、移動軌跡追蹤,綜合運用檢測到的各種信息統一進行智能研判。同時,可以結合目前主流的深度學習技術提升全景視頻中目標檢測的精度,在深度學習框架中,無需人工設計檢測目標的特征,深度學習良好的特征表達能力及優良的檢測精度,能很好的拓展深度學習技術在全景視頻分析領域的應用。目前,基于深度學習與大數據技術融合的目標檢測算法已經在檢測精度方面超越傳統的目標檢測方法,成為當前視頻目標檢測算法的主流。
文章提出的全景視頻監控方案主要適用于安防監控、智慧城市管理、智能交通、消防、智慧平安校園等各種具有地理信息、可視化管理以及實時監控需求的行業。并且有著非常廣闊的應用場景,可應用于人員密集場所的管控,物流區域調度、重要道路關口、人口密集區、水庫油料敏感場所、車站碼頭以及政府部門和水電油氣、金融等要害部位的安全風險防控,為管理部門提供實時的現場信息,提高管理部門應對突發事件的處置能力。圖4展示的即為敏感道路卡口的全景監控畫面,實現各個方向畫面的無縫對接,比傳統的視頻監控具有更廣的視野。
同時,全景監控方案目前應用比較廣的是智能車載系統中的全景倒車影像,通過車載顯示屏幕觀看汽車四周360度全景,加上超寬視角,無縫顯示車輛的圖像信息,讓駕駛員能更好的了解車輛周邊視線盲區,幫助完成倒車入位等。
融合目前在各個領域成功應用的深度學習技術,本文提出的全景視域下的視頻監控方案可以在如下兩個方面開展應用與研究:

圖4 道路卡口全景視頻畫面

圖5 360全景倒車影像
(一)基于深度學習技術的人臉識別:傳統的人臉檢測與識別主要是針對有限視域下的視頻信息進行的,本文提出的全景視域下的視頻監控及分析框架不僅彌補了傳統視頻監控視域有限的不足,而且對傳統的視頻分析模型提出了新的挑戰。針對上述問題,構建基于卷積神經網絡ResNet的人臉識別分析模型,通過對ArcFace人臉識別算法以及人臉識別損失函數Additive Angular Margin Loss進行完善與調優,實現對不同姿勢、復雜光照、不同表情以及存在遮擋的人臉進行穩定的識別,改善人臉檢測技術在實用中的泛化能力。該項技術可以被應用智慧交通中的行人穿紅燈識別,違章駕駛中的駕駛員信息識別等等。
(二)基于深度學習的異常行為檢測:金融以及金融活動場所的安全作為智慧城市建設的重中之重,目前面臨著諸如尾隨取款、現場搶劫、異常倒地、遺留物品、攜帶武器、破壞ATM機等異常行為。本文提出的全景視域下的視頻監控方案,可以在上述金融或其它公共場合布設全景監控設備,獲取實時全景視頻信息,采用基于稀疏自編碼的特征融合的深度學習框架,對人員的活動特征 (多尺度光流直方圖)以及表觀特征進行融合分析,并建立視頻語義分析模型,提取視頻語義信息,包括全局語義、局部語義以及高層特征的融合,利用卷積神經網絡中的2D卷積與3D卷積,解決深度學習網絡訓練過程中出現的“梯度彌散”問題。該項技術可以實現對智慧城市重點建設的自助銀行、無人超市、車站等公共場所人員的異常行為進行實時監測,做到及時發現并及時處理,提升安全保障。
隨著人工智能技術的發展,以及移動支付、智能金融、智慧安防等場景的延伸,以全景視頻為核心的監控系統越來越獲得市場的更大青睞。在人工智能、深度學習、大數據技術的推動下,視頻監控技術創新不斷,本文順應技術潮流,提出全景視域下的視頻監控與分析方案,并結合當今先進的、且在其他領域得到廣泛應用的深度學習技術,對基于深度學習技術的人臉識別與異常行為檢測的應用進行了探究,具有技術可行性,能很好的應用到實際生產中,并產生良好的經濟效益。
本文提出的全景視域下的視頻監控及分析框架進具有理論與技術實現可行性,框架中的中央處理單元包括視頻采集組件、視頻抖動與噪音抑制、視頻合成與切分以及投影與映射組件。本文提出的全景視頻監控方案實現了多角度、全方位無死角的視頻采集與處理,解決了傳統視頻監控需要在同一個區域部署多個單目視頻采集設備、需要大量人力物力并且增加后期視頻處理難度等問題。綜合當前學術界與產業界的需求,本文提出的全景視頻監控與分析框架具有現實應用價值。未來可以進一步融合大數據與深度學習技術,不僅可以拓寬全景視頻分析的研究視角,而且可以更好地實大數據與深度學習的應用前景。