耿兆森,董偉杰,趙家偉
(中興通訊股份有限公司FM產品團隊,南京 210012)
家用IPC(IP Camera,IP智能攝像頭)是傳統網絡攝像機與云計算技術相結合的產物,是專為家庭看護而設計的產品。隨著人們安全防范意識的提高,再加上近幾年智能家居業務的迅猛發展,推動著家用IPC成為眾多家庭的標配。
從市場層面看,近幾年家用IPC在國內一直保持著穩定、快速的增長。除了小米、螢石、樂橙、360、中興等企業外,國內的三大電信運營商也把IPC作為其智慧家庭的核心業務,紛紛推出自己的產品,如中國移動的 “和目”智能攝像頭。
從業務層面看,家用IPC主要用于家庭看護,如看小孩、看老人、看寵物等,主要提供遠程查看、視頻通話、移動告警、家庭相冊、視頻云存儲等功能。
從技術層面看,家用IPC正從“看清”向“看懂”的方向發展。主要表現為三個特點:
(1)720P產品正逐步被淘汰,1080P、H.265產品已成為主流,2K IPC很快會面市,其占比也會逐步提高,使得家用IPC圖像更加清晰。
(2)AI(Artificial Intelligence,人工智能)技術應用于家用領域,使得IPC具備人臉識別、行為識別、視頻檢索等“看懂”視頻圖像的能力。
(3)視覺識別技術有前端識別和云端識別兩種技術體制,這兩種體制未來會長期并存,相互分工、協作。
下面主要從技術角度闡述家庭看護領域AI的關鍵技術以及技術實現方案,而H.265、2K等視頻技術不在本文的討論范圍之內。
近些年來AI技術得到爆發式發展,其中人臉識別技術已經在公共安全、電子支付、電子門禁等諸多領域得到了廣泛應用。在專業監控領域,安裝在道路上的攝像機主要承擔視頻采集的工作,有的也承擔一些視頻分析預處理工作,大規模的、更復雜的人臉檢索、運動軌跡分析等會交由云端服務器完成。
家用IPC借鑒了專業監控IPC AI實現方案。根據人臉識別AI分析的地點,分為前端(IPC側)識別方案和云端識別方案兩類。
盡管人臉識別技術在專業IPC已應廣泛應用,但若將專業監控IPC的AI算法直接用于家用IPC,存在識別率偏低、算力資源需求偏高等問題,因此需要對專業監控AI算法進行改進和優化。
基于成本的考慮,家用IPC的SoC(System on Chip,芯片系統)芯片一般采用ARM、MIPS架構,內置CNN(Convolutional Neural Networks,卷積神經網絡)的算力較弱,而專業監控的人臉識別AI計算大多是基于GPU(Graphics Processing Unit,圖形處理器)實現,算力差異大,因此非常需要對算法進行降維、剪枝,以達到設備成本與算力間的平衡。就算力而言,云端識別方案較前端識別方案更有優勢。
家用IPC一般會被放置在墻角、空調機柜上方、電視柜等地方,IPC拍攝時人臉不能正對鏡頭,此外家用IPC多采用相對便宜的感光器件,拍攝出來的視頻存在一定程度的畸變,圖像偏暗,也會影響人臉識別準確率。
由于IPC的放置距離一般較遠,導致視頻中采集的人臉尺寸偏小。理論上人臉的尺寸達到180×270像素時,其識別準確率就能有所保證,但從實際使用情況看,不同算法對人臉尺寸的要求會有所差異。

表1 云端識別、前端識別技術方案對比
下面結合中興通訊的小興看看云化IPC AI技術解決方案,簡要介紹家用IPC AI關鍵技術。
將云計算技術與AI融合,使得AI的IT基礎架構具有云計算的彈性擴容、按需分配的特點,同時也能滿足AI的高性能、多元需求的需要,因此基于容器架構的AI云平臺是一個不錯的選擇。
AI容器云平臺可在開源云平臺基礎上,快速構建CPU+GPU的彈性異構AI云平臺,實現對異構的云計算資源池進行調度和分配。集成Caffe 2、Tensor Flow、CNTK等深度學習分布式架構,能有效提高訓練模型的擴展性,快速構建深度學習的開發環境和生產環境。

圖1 IPC AI容器云平臺架構
IPC采集視頻流,只有在畫面中出現人臉時,才需要進行人臉識別,若將全部視頻流轉發給AI服務器分析,勢必會導致AI服務器產生不必要的資源浪費。
通常情況下,IPC支持移動偵測、人形檢測、人臉檢測等基本功能,為此IPC可對視頻流進行預分析處理,當視頻畫面發生變化后,可再進行人臉檢測分析,如果人臉尺寸已達到預設的人臉比對尺寸,再轉發視頻流給AI服務器進行下一步的人臉識別分析。

圖2 AI推斷分析流程
基于CV(Computer Vision,計算機視覺)的AI分析,除可以進行人臉識別,還可以進行行為識別、跌倒識別、危險識別等多種視頻業務分析。
家用IPC鏡頭的四周圖像畸變一般會比較大,畸變后的人臉與人的正臉比對時,其準確率會較低,因此對待比對人臉進行人臉對齊處理就顯得尤為重要了。
所謂人臉對齊,是指將畸變人臉按照標準人臉進行歸一化的過程,將畸變人臉形狀盡可能貼近標準人臉的形狀,從而減小人臉比對時由于人臉畸變而產生的影響。
人臉對齊主要將人臉中的眼睛、嘴角、鼻尖、眉毛以及人臉各關鍵部件輪廓點檢測出來,并按照人臉坐標框輸出五官關鍵點的坐標序列。根據兩個人眼的連線與水平位置的夾角來確定人臉旋轉、矯正的角度,然后再進行仿射變換,使之對齊。五官關鍵點的數量常見有5點、68點、90點等。
MTCNN(Multi-task convolutions neural network,多任務卷積神經網絡)是一種級聯的人臉對齊技術架構。MTCNN總體可分 為P-Net(Proposal Net)、R-Net(Refine Net)、O-Net(Output Net)三層網絡結構。其中,P-Net,較淺層的CNN,快速產生候選窗體,獲取候選臉部窗口和邊界框回歸向量,用邊界框回歸向量校準候選臉部窗口。R-Net,較復雜的CNN,繼續過濾大量的虛假窗體,用邊界框回歸校準候選臉部窗口。O-Net,更強大的CNN,確定臉部區域后,最終輸出5個關鍵臉部關鍵點信息。

圖3 MTCNN流程示意圖
除MTCNN外,其他人臉對齊算法還有LAB、3DDFA、PRNet、GridFace等等,幾種算法各有千秋。
人臉識別是基于人臉3D結構分析的,光照投射出的陰影會加強或減弱原有人臉的特征,尤其在傍晚或弱光情況下,由于光線不足造成面部陰影會導致識別率急劇下降?;贙-L變換的人臉識別算法對于抗光線干擾存在一定的優勢。
此外在光線太暗時,IPC會切換到紅外工作模式,此時IPC拍攝的視頻圖像是黑白的,而目前基于黑白視頻圖片的人臉識別算法還不夠成熟。
隨著基于視頻圖像分析技術的不斷進步,新的技術架構以及算法會層出不窮地出現,推動著家用IPC的人臉識別準確率越來越高。
家用IPC支持人臉識別功能后,可以按照人員對視頻圖像進行分類管理,提供家庭相冊、視頻人員檢索等功能,還可以與智能家居系統聯動,為不同用戶提供音樂、燈光、空調等個性化智能控制。
除人臉識別的基本AI應用外,未來還會支持諸如人員跌倒識別、危險動作識別、火警識別等其他豐富的AI應用,為用戶提供更安全、可靠的家庭看護服務。