□ 文/周宇杰
深度學習提升智能IPC準確率的一線曙光
□ 文/周宇杰
究其根本,智能IPC的核心為圖像識別技術。通過各類視頻智能分析技術,解決傳統視頻監控必須依賴人工查看視頻的問題,實現有效信息的結構化數據提取,讓視頻監控的使用者真正告別人工安防,走進自動化安防的新時代。而現在,深度學習正帶動圖像識別技術的一大變革,對智能IPC而言,也許能夠解決困擾其多年的難題——準確率。
圖像識別的能力來源于人類,圖像刺激作用于感覺器官,人們辨認出它是經驗過的某一圖形,甚至能感知到圖像距離或者形狀的改變,這一過程叫做圖像再認。簡單來說,就是“之前見過一只狗,再看到類似狗的目標時,能夠將其認出來”的過程。在圖像識別中,既要有當時進入感官的信息,也要有記憶中存儲的信息,只有通過存儲的信息與當前信息進行比較的加工過程,才能實現對圖像的再認。
計算機的圖像識別技術,則是利用計算機對圖像進行處理、分析和理解,以識別各種不同模式目標和對象的技術。圖像識別所研究的問題,是如何用計算機代替人類去自動處理大量的無力信息,解決人類所無法識別或者識別過于耗費資源的問題,從而很大程度上解放人類的勞動力。
圖像識別技術可應用于各行各業,而對于安防行業而言,它的意義是顯而易見的。隨著國家對平安城市建設力度的加大,監控覆蓋面、密度越來越大,這在提升城市整體防控能力的同時,也給公安工作人員帶來了巨大的負擔——單獨一個高清視頻監控點每天約產生40G的視頻圖像數據,一個城市的監控體量達到萬級也不少見,要全部看完這些監控視頻,并提取、保存其中的重點線索,工作量可想而知。利用計算機圖像識別技術,就能對這些視頻進行智能分析,提取出其中關鍵的圖片、語義信息,并進行以圖搜圖、語義搜圖等大數據應用,避免“99%的視頻還沒經過梳理采集,就被自動覆蓋”的窘況。
在安防領域,以圖像識別技術為核心的視頻智能分析主要有兩種產品形態:前端智能和后端智能。而隨著IPC內置運算芯片性能的不斷提升,智能前端化已成為監控行業發展的大趨勢,在某些前端建設的項目中,已有客戶明確提出“智能IPC要占到全部建設點位數20%~40%”的要求。以科達感知型攝像機為代表,智能IPC通過將智能分析算法嵌入到前端攝像機中,前端攝像機在采集高清視頻的同時,對視頻內容進行實時分析,提取出畫面中關鍵的、感興趣的、有效的信息,形成結構化的數據,并傳送給后端大數據平臺做存儲或深入分析。

目前,智能IPC主要能夠對人、車目標進行分析,且針對不同的目標、應用場景擁有不同的類別??七_感知型攝像機分為車輛卡口、人員卡口、結構化、槍球聯動4大類別:
● 車輛卡口主要針對機動車道監控,能提供車輛目標檢測、車牌識別、車輛顏色識別、車型識別等功能;
● 人員卡口主要針對人形通道監控,能提供人臉檢測抓拍、行人檢測抓拍、行人基本屬性分析(包括性別、行進方向、顏色、有無口罩等)功能;
● 結構化攝像機主要針對一般監控場景,如人車混行的道路,提供車輛/人員目標檢測抓拍,結構化屬性分析功能;
● 槍球聯動主要針對廣場類的開闊場景,槍機負責檢測監控視野中的運動目標,球機在槍機的指令下對目標進行跟蹤特寫以及抓拍,同時分析目標的結構化屬性。
這4類攝像機基本覆蓋了平安城市項目中各類監控場景,通過智能前端化,實現智能視頻監控的規模化部署。
圖像識別技術應用智能IPC的市場前景以及意義是非凡的,然而,從目前來看,大部分智能IPC在實際應用中仍受到各種各樣的質疑,其中最為突出的問題就是準確率。智能IPC識別準確率根本上取決于圖像識別技術所使用的算法,而在很長一段時間里,“圖像識別模型”為主流方法。
圖像識別模型,是人們為了編制模擬人類圖像識別活動的計算機程序而提出的,模板匹配模型為其中之一。這種模型認為,識別某個圖像,必須在過去的經驗中有這個圖像的記憶模式(又叫模板),當前的刺激如果能與大腦中的模板相匹配,這個圖像也就被識別了。但這種模型強調圖像必須與腦中的模板完全符合才能加以識別,有一定的局限性,為此,格式塔心理學家又據此提出了一個原型匹配模型。原型匹配模型認為,在長時記憶中存儲的并不是所要識別的無數個模板,而是圖像的某些“相似性”,從圖像中抽象出來的“相似性”就可作為原型,拿它來檢驗所要識別的圖像;如果能找到一個相似的原型,這個圖像也就被識別了。但是,這種模型沒有說明人是怎樣對相似的刺激進行辨別和加工的,它也難以在計算機程序中得到實現。因此又有人提出了一個更復雜的模型,即“泛魔”識別模型……
應用圖像識別模型,安防行業已有較為成熟的應用案例,如車牌識別。對車牌識別而言,在標準卡口的架設條件下,車牌識別率普遍可以達到98%以上,甚至99%。這是因為,在車牌識別的過程中,車輛通過卡口時的姿態一般是固定的,車牌的安裝位置也比較固定,這為識別創造了很好的條件;同時,車牌識別只需識別幾十個漢字、10個數字和26個字母,這進一步降低了識別的難度。
與車牌識別出色、穩定的準確率相比,人臉識別的準確率最難把控,而人臉識別卻也是安防市場中最受關注、應用范圍最廣的智能模塊。所謂人臉識別的“準確率”,是指基于全世界最權威的人臉數據庫LFW進行比對測試的成績。LFW由美國馬薩諸塞大學阿默斯特分校管理,可以認為是一個考察深度學習系統人臉識別能力的“題庫”,它從互聯網上提取6000張不同朝向、表情和光照環境下的人臉照片作為考題,可以讓任何系統在里面“跑分”。跑分過程如下:LFW給出一組照片,詢問測試中的系統兩張照片是不是同一個人,系統給出yes或no的答案。99%的準確率,意味著在測試的所有題目中,人臉識別系統答對了99%的題目。
然而問題的關鍵是,LFW以及類似數據庫FDDB等,只是一個純粹實驗室級別、學術性質的測試工具,在樣本量可能達到十萬級、百萬級的實際商業場景下,測試得分高的系統不一定能保持已有成績,其誤識率將直線上升,甚至可能根本沒法用。部分真實復雜場景測試中,十萬分之一的誤識率下,98%的人臉識別準確率會直線下降到70%左右。且人臉識別系統在安防實際應用中,對安裝環境、安裝角度等要求較高,目前距離用戶實戰要求仍有一定距離。
現階段比較受歡迎的圖像識別基礎算法為深度學習法,深度學習模型屬于神經網絡,而神經網絡的歷史可追溯至上世紀四十年代,曾經在八九十年代流行。神經網絡試圖通過模擬大腦認知的激勵,解決各種機器學習的問題。

后來,由于種種原因,大多數學者在相當長的一段時間內放棄了神經網絡,轉而采用諸如支持向量機、Boosting、最近鄰等分類器。這些分類器可以用具有一個或兩個隱含層的神經網絡模擬,因此被稱作淺層機器學習模型。它們不再模擬大腦的認知機理;相反,針對不同的任務設計不同的系統,并采用不同的手工設計的特征,例如語音識別采用高斯混合模型和隱馬爾可夫模型,物體識別采用SIFT特征,人臉識別采用LBP特征,行人檢測采用HOG特征。
深度學習在計算機視覺領域最具影響力的突破發生在2012年,Hinton的研究小組采用深度學習贏得了ImageNet圖像分類的比賽。ImageNet是當今計算機視覺領域最具影響力的比賽之一,它的訓練和測試樣本都來自于互聯網圖片,訓練樣本超過百萬,任務是將測試樣本分成1000類。自2009年,包括工業界在內的很多計算機視覺小組都參加了每年一度的比賽,各個小組的方法逐漸趨同;2012年,排名2到4位的小組都采用的傳統模擬識別方法,他們準確率的差別不超過1%,而首次參賽的Hiton研究小組采用的是深度學習的方法,且準確率超出第二名10%以上。這個結果在計算機視覺領域產生了極大的震動,掀起了深度學習的熱潮。
與傳統模式識別相比,深度學習最大的不同在于它是從大數據中自動學習特征,而非采用手工設計的特征模型。在過去幾十年模式識別的各種應用中,手工設計的特征處于統治地位,它主要依靠設計者的經驗知識,很難利用大數據的優勢;由于依賴手工調整參數,特征的設計中只允許出現少量參數。深度學習的優勢則顯而易見——大數據中可以包含成千上萬的參數,用來訓練深度學習的數據越多,深度學習算法的魯棒性、泛化能力就越強。
目前,深度學習算法的數據普遍都是幾十萬、上百萬級,像一些互聯網行業的IT巨頭們,他們的訓練數據會是上千萬、甚至上億級別,這也是國外如Google、FaceBook、Microsoft等,國內如百度、騰訊等IT巨頭在深度學習算法的應用效果上有著一定優勢的原因。但IT企業與安防企業所用的訓練數據不同:IT巨頭擁有的是互聯網,安防企業擁有的則是安防大數據。二者圖像識別技術的關注點也有不同,IT巨頭的人臉識別技術是服務于他們的商業目標,比如圖像檢索、身份認證、無人駕駛等,而安防企業主要關注的是人臉識別技術在公共安全領域的應用。
經過龐大數據量的訓練后,深度學習不斷積累多種場景下的樣本數據,可逐步提升圖像識別的準確率。在車輛分析方面,原先車輛卡口攝像機只能做到車輛檢測、車牌檢測、車型分析等功能,依托深度學習,除了可以提升原有的智能算法的準確性,還可以擴展更多的智能分析領域,例如車輛子型號、年款的分析、車內司乘人員的檢測、安全帶檢測、打電話檢測等;對于最難的人臉檢測,深度學習基于海量的經驗積累,可明顯改善復雜場景下人臉識別技術的準確率。
理論上講,深度學習可以取代現有的很多傳統特征提取、目標檢測技術,在大幅提升圖像識別準確率上已有成功案例,我們有理由期待深度學習讓人臉識別等復雜的識別技術落地于實際項目應用中。
作者單位:蘇州科達科技股份有限公司