康運鋒 謝元濤 張世渝 中國科學院自動化研究所
人像屬性是指人體的一些典型外部特征,如性別、發型、服飾等。人像屬性識別通過監控視頻對目標性別、年齡、種族等屬性進行估計,能夠減少在數據庫中的查找范圍,增加身份識別的準確率。與目標識別、檢測、跟蹤等傳統視覺問題相比,屬性識別描述的是目標的外觀細節,是對目標信息的精細化語義解析。
傳統的視頻監控系統的工作模式是,利用精心設計的特征描述子從獲取的目標提取一組特征向量,輸入一個預先訓練好的分類器對目標進行比對。這些特征描述通常是底層視覺特征,如顏色、紋理、關鍵點信息等,不能轉化為具有特定語義的高層視覺描述。實際應用中,往往無法獲得目標的圖像,因此人們希望能夠用基于自然語言描述(如長發、背包、紅上衣)來對目標進行檢索和存儲。人像屬性識別可以為每個人像目標生成高層語義描述信息,為基于自然語言的圖像檢索和視頻結構化提供了可能。
當前監控場景下的人像屬性識別仍然非常具有挑戰性,主要體現在以下幾個方面[2]:(1)外觀多樣性——由于人像的服飾外觀多變,攝像頭視角和照明變化等不可控的多因素變化,同一屬性在不同圖像間存在較大的類內差;(2)外觀模糊性——由于圖像分辨率有限,存在攝像頭焦距導致的視覺模糊,以及遠視距離帶來的低質量視覺特征。
目前大多數現有的人像屬性研究都集中在特征工程或分類器學習上。傳統基于手工特征的屬性識別方法有兩個缺點:(1)手工特征(如顏色直方圖、局部二值模式)不能很好地處理實際監控場景中的環境變化;(2)人像屬性之間的關系被忽略[3]。深度學習網絡通過建立類似于人腦的模型結構,對輸入數據逐級提取從底層到高層的特征,從而能很好地建立從底層信號到高層語義的映射關系。
一般來說,典型的人像屬性識別應由三個部分組成:(1)從攝像頭中通過目標檢測算法獲取目標人員的包圍框;(2)通過對目標提取手工或深度特征,對人像屬性進行描述和建模;(3)通過對獲取到的數據進行比較和分類,輸出屬性識別結果。
在監控視頻中可以通過靜態目標檢測和運動目標檢測的方式獲取目標人像圖像。對于靜態圖像的屬性識別來說,可以利用HOG+SVM、RCNN、SSD等目標檢測方法對人體區域的包圍盒進行定位,也可以利用Graph Cut、Mask RCNN 等目標分割方法對人體輪廓進行精確分割。對于基于動態視頻的屬性識別來說,可以利用運動檢測的方法減除背景,僅使用前景的特征來進行屬性識別,免除背景的干擾。運動目標檢測是指對視頻中運動的前景部分進行定位,是后續進行跟蹤和識別處理的基礎,常用方法有幀差法、高斯背景建模、光流法等。
早期的人像屬性識別和行人再識別主要采用的是全局特征,就是用整圖得到一個特征向量進行分類輸出。但是全局特征受目標姿態變化和遮擋情況變化影響較大,于是基于局部特征的研究開始興起。人像屬性受空間限制和邏輯約束,也與局部特征的表達和局部特征間的關聯密不可分。通過前述運動檢測算法,可以從監控視頻中得到目標人員的大致輪廓。但是要進行人像屬性的精確識別,還需要對人體區域進行進一步劃分。常用的局部特征分析的思路主要有圖像切塊、人體關鍵點定位以及視覺注意力機制等。
1. 基于分塊區域的特征分析
人體區域可以通過輪廓、色彩和對稱性等視覺特性進行頭部、上半身和下半身的劃分,如圖1所示[4]。首先將運動的目標前景從背景中分割出來,根據頭部和上半身的輪廓差異劃分頭肩位置,根據身體上下半身的顏色差異劃分上半身和下半身,并為每個身體部件計算一個橫向對稱軸。基于身體結構分別提取顏色特征和紋理特征,并為靠近對稱軸的像素特征分配較大的權重,進行后續特征匹配的處理。

人體區域也可以根據垂直方向直接等分為若干塊,如圖2所示[5]。將被等分后的人體圖像塊按空間順序輸入到長短時記憶網絡(Long Short Term Memory Network,LSTM),通過序列建模對屬性的空間上下文和關聯性進行提取。但這種分塊方式的缺點在于對圖像對齊的要求比較高,如果一幅圖像沒有上下對齊,那么很可能出現把頭部當成上身進行特征提取的情況,影響識別效果。

2. 基于人體關鍵點的特征分析
為了解決分塊區域不對齊的問題,可以利用姿態估計模型對基于關鍵點的感興趣區域(Region of Interest,ROI)進行特征提取。如圖3所示[6],通過特征提取網絡(Feature Extraction Network)對14個人體關鍵點和7個人體結構區域(包括頭部、上身、下身3個主區域和4個四肢區域)進行多層局部特征提取,并用樹狀的特征融合網絡(Feature Fusion Network)對局部和全局特征進行融合,獲取不同層級的語義特征描述。

3. 基于服飾關鍵點的特征分析
當人體關鍵點被遮擋時,一些姿態檢測器難以準確定位人體關鍵點。如圖4所示[7],通過訓練服飾關鍵點檢測器(如領口、袖口、腰身、下擺等),從關鍵點位置提取服飾的局部信息。盡管不同場景和視角下的服飾形態會有變化,但服飾關鍵點處的局部特征仍具備一定的不變性。因此,采用基于服飾關鍵點區域的特征提取,能夠為人像的服飾屬性提供一個有效、可靠的特征描述。

4. 基于注意力機制的特征分析
除了基于先驗知識的關鍵區域劃分,可以采用基于注意力機制的卷積神經網絡將多層注意力圖映射到不同的特征層[8]?;谧⒁饬C制的網絡可以從低層到語義層獲取視覺注意力,并從多尺度的注意力挖掘特征來對最終的人像屬性進行描述?;谧⒁饬C制的人像屬性特征提取能夠補充從局部細節到全局高層語義的特征,如圖5(a)中,局部的語義特征用來分辨具有相似外觀的人員,如長發和短發,長袖和短袖;在圖5(b)中,淺層特征可以捕獲衣服條紋;在圖5(c)對應小尺度描述“打電話”;在圖5(d)中對應大尺度全局理解“性別”屬性描述。

當前主流的公開人像屬性數據集,如表1所示。其中,早期的VIPeR、PRID、GRID、APiS數據集樣本和屬性類別較少,Market-1501-Attribute和DukeMTMC-Attribute數據集是對行人再識別領域中Market-1501數據集和DukeMTMC-reID數據集加入屬性標注后的擴充,RAP和PETA數據集的屬性類別比其他數據集更豐富,且只有RAP數據集具有視角、遮擋和人體部件的標注,這些標注可以用于反映環境變化和空間上下文對人像屬性分析的影響。

?
PETA數據集是由10個較小規模的行人再識別數據集組成,并為每張人體圖像加入屬性標注,各個子數據集的名稱、比例和示例樣本如圖6所示。PETA數據集共包含19000張圖像,分辨率范圍從17x39到169x365。這些圖像重新標注了61個屬性,包括性別、年齡區間、發型、上下半身的服飾風格(便裝或正裝)以及配件等。

RAP數據集是目前最大的人像屬性公開數據集,是由中科院自動化所從多攝像機監控場景中采集的人像屬性數據集,共擁有72個豐富的屬性類別和41,585個人像樣本,用于人像屬性分析研究。跟之前的屬性數據集相比,RAP數據集還包括不同的視角,遮擋和身體部位信息。

人像屬性檢索技術包含人像屬性識別和檢索兩個方面。人像屬性識別技術是在人體檢測和人體子部件(帽子、上衣、褲子等)、附屬物(背包,帽子等)定位的基礎上,利用深度學習技術,實現人像的精細化識別。
人像屬性檢索是在人像屬性識別技術基礎上通過給定待檢索的單個屬性標簽或多個標簽組合,在人像屬性數據庫中進行多特征檢索,得到滿足屬性的人像數據。常用于刑偵中在一定地理范圍內,一段時間內的大量相關視頻中,事先快速構建好人像屬性數據庫,根據特定屬性標簽線索進行可疑人員的偵查,通過過濾大量無用信息,縮小偵查范圍,為公安破案提供更多有效線索,大大提高破案速度。除此之外,還可以在安全生產領域,通過對人員穿戴等附屬物識別及時發現違反安全生產行為(未穿安全服,未佩戴安全帽等),幫助企業規范日常生產生活,盡可能消除安全隱患。另外,還可以在商業領域幫助商場超市經營者,通過顧客屬性標簽及顧客停留軌跡,進行商業價值挖掘等。
目前人像屬性檢索主要性能指標在人像屬性識別精度上,雖然目前在公開數據集上達到了不錯的成績,但是由于實際場景的復雜多樣性,地點隨機,且光線、角度、姿態不同,再加上人體容易受到檢測精度、遮擋等因素的影響,屬性標簽識別并不理想,實際應用中精度并不是很高,這樣有遺漏重大人物線索風險,因此實際使用中仍依賴于大量人力的投入。
人體結構化是視頻結構化的一部分,它對視頻內容按照語義關系,采用時空分割、特征提取、對象識別等處理手段,組織成可供計算機和人理解的文本信息的技術,并進一步轉化為公安實戰所用的情報,實現視頻數據向信息、情報的轉化。
實際監控環境中,由于攝像機架設角度,位置等因素,常常無法獲取到臉部的有效信息,利用人體結構化技術能夠獲取監控場景中目標人員的人臉信息外的特征。提取包括人的生理特征(如性別、年齡、膚色、發色)、頭部穿戴飾物特征(眼鏡、墨鏡、帽子、口罩),人的衣著、運動方向、人的附屬物信息(是否背包、擰包、打傘),以及包含人體行為如越界、區域、徘徊、打架、遺留、聚集等多種行為特征,進行結構化描述。
公安業務部門可利用結構化技術結合人臉技術在機場、火車站、地鐵站、汽車站、商場、小區、重要路口及重點區域等進行實時布控,對案件中特定特征進行實時比對,若發現重點關注人員,將推送到警用實戰一體化平臺或手機終端,實現實戰預案聯動。也可以在人體結構化基礎上快速的在案發點附近的多路攝像頭中進行全局搜索,查找出相似的目標,通過時間、空間刻畫出嫌疑人的行動軌跡。
人體結構化有如下優點:
首先,是極大提升了視頻中目標人員的查找速度。通過對幾百上千小時的視頻經過人體結構化之后,從中找出某張截圖中的嫌疑目標,數秒鐘即可完成;
其次,是極大降低了存儲容量。通過結構化能夠去除大量無用信息,相同存儲容量能夠存儲更長時間內視頻的有效信息;
最后,人體結構化可作為數據挖掘提供數據基礎,通過對某段時間,某一區域內視頻中所有人像進行結構化處理存入數據倉庫后,結合其它文本等多模態數據進行數據整合分析,挖掘事件關聯,充分發揮大數據作用,提高視頻數據的分析和預測功能。
目前人體結構化應用上大多采用的是結構化服務器與大數據平臺相結合,其特色是結構化服務器支持單臺設備自成一個完整的系統,進行離線及在線結構化分析,提供結構化分析和視圖庫儲存,再對接入大數據平臺完成視頻結構化轉換。
人體結構化技術的發展極大的降低了案件偵破時間成本和人力成本,也大大降低了視頻存儲壓力,對原有智能安防是一種技術補充。國內很多安防廠商也推出各種結構化服務器產品,但是實際應用中也有很多問題,場景復雜性對于算法效果影響很大,算法性能還需要進一步提高。
目標跟蹤在警務工作中具有廣泛的應用價值,假如對任何感興趣的目標都可以準確完整地跟蹤到行進軌跡,將大大減輕偵查人員的工作量,大幅提高工作效率??鐖鼍澳繕烁櫟牧硪粋€應用場景是刑偵中廣泛用到的行人再識別。根據應用場景的不同,可以將目標跟蹤分為單場景目標跟蹤和跨場景目標跟蹤兩類。單場景目標跟蹤包括單目標和多目標跟蹤,跨場景目標跟蹤可以分為重疊場景和非重疊場景目標跟蹤(如圖8)。以下主要就跨場景目標跟蹤探索應用模式。

1. 重疊場景目標跟蹤
重疊場景目標跟蹤一般應用在特殊場合,對于空間和時間的連續性要求較高,這種場景下受遮擋影響比較小,而跟蹤范圍沒有非重疊場景大,并且需要對攝像機進行前期標定工作,因此對于跨場景的目標跟蹤問題,雖然可以利用重疊場景的豐富的空間信息解決單場景下比較棘手的遮擋等一系列問題,但是由于經濟因素和計算復雜度的限制,目前仍然沒有大規模的實戰應用。
由于采用多個攝像機從不同視角觀測相同區域,這個空間關系為跨場景目標持續跟蹤提供了有利條件。如圖9應用案例中,目標在行進過程中可以被一個以上攝像機監控到,根據目標頭肩、形體、衣著等人體屬性特征以及攝像機的拓撲結構,可以實時跟蹤和預判該目標的行進軌跡,在通關口岸等特殊場所有重要的應用價值。

2. 非重疊場景目標跟蹤
非重疊場景目標跟蹤在實際應用中分為兩種模式,一種是通過構建攝像機網絡拓撲結構進行目標跟蹤,也就是行人再識別,另一種是所謂的槍球聯動。
行人再識別應用一般由四部分構成,分別為拓撲估計、攝像機之間光照變化的處理、跨攝像機目標匹配和數據關聯。拓撲估計是通過學習得到描述多攝像機系統中各攝像機連接關系的拓撲圖。攝像機之間光照變化的處理是為了消除不同場景的不同光照條件對目標表觀造成的影響,是在進行跨攝像機目標匹配之前的一個預處理過程。跨攝像機目標匹配是對在不同時刻出現在不同攝像機前的目標進行建模,利用匹配策略,得到相應的匹配分數。數據關聯即把目標的表觀信息、各場景之間的空間信息、時間信息等各種信息相融合,最終實現運動目標在不同攝像機下的連續跟蹤。
隨著平安城市以及雪亮工程的建設推進,越來越多的監控攝像機投入使用,為行人再識別的應用構筑了堅實的數據基礎,并且行人再識別也吸引了大批相關企業的關注及投入。
槍球聯動是指利用高空固定攝像機與地面球機相結合的方式,通過高空固定攝像機獲取目標位置,然后通知地面球機利用人體基本屬性識別進行接力跟蹤。這種方式既可以應用在特殊的封閉場所,也可以應用在城市級,因為目前很多城市都架設了制高點攝像機,對于城市應急指揮以及協調大量攝像機進行刑偵工作可以發揮重要作用。如圖10應用案例中,通過樓頂槍機對周界進行監控,發現目標后將位置發送到最近的球機,球機根據目標的形體、衣著等屬性特征進行主動跟蹤,這樣無論目標處于任何位置都可以在電子地圖上顯示出行進軌跡。

不管是重疊場景還是非重疊場景,行人再識別在實際應用中都面臨巨大挑戰,國際上學術界在大的公開庫上的結果也不是特別理想,何況在實際場景中,不同攝像機安裝的角度不同,所處的光照環境不同,甚至攝像機的參數不同等諸多因素都使得不同攝像機下觀測到的同一個運動目標的表觀有很大區別,因此跨場景目標匹配和識別問題準確率會更低;另外,不同場景之間的監控盲區導致不同場景下的相同目標的不同觀測在時間和空間上都不連續,這種時空信息的缺失在實際應用中也給跨場景行人再識別關聯帶來極大挑戰。
隨著我國天網工程、平安城市、雪亮工程建設的推進,海量監控視頻的鋪設已初具規模。但隨之而來的是海量視頻的管理和應用難題,目標人群無從找起,歷史視頻難以查證,視頻大數據的潛在價值未被挖掘。隨著計算機視覺技術的不斷發展和計算能力的提升,人們希望能對監控視頻中的人體目標進一步理解分析,以進行后續的應用開發。近年來,人像屬性分析已成為智能視頻分析領域的關鍵方向之一,為海量視頻中基于語義屬性的人像檢索、人體結構化信息提取和挖掘、無重疊視野的跨場景目標跟蹤提供關鍵技術支撐,為大規模場景下的智能視頻分析應用拓寬思路。
當前,在計算機視覺領域,通過海量圖像數據學習的深度神經網絡,已被證明比傳統特征工程擁有更豐富的信息量,從底層表觀到高層語義為人像屬性提供多層次的特征提取,在未來具有高度的研究價值和實用價值。目前在人像屬性分析領域,人體檢測、人體分割、人像屬性識別的研究大多各自為戰,仍缺乏一個高效統一的端到端解決方案,亟待學術界和工業界共同推進。
[1] 高文慶. 監控環境下的行人屬性檢測方法研究[D]. 天津大學,2015.
[2] Deng Y, Luo P, Chen C L, et al. Learning to Recognize Pedestrian Attribute[J]. Computer Science, 2015.
[3] Li D, Chen X, Huang K. Multi-attribute Learning for Pedestrian Attribute Recognition in Surveillance Scenarios[C]// Pattern Recognition. IEEE, 2016.
[4] Farenzena M, Bazzani L, Perina A, et al. Person Re-identification by Symmetry-driven Accumulation of Local Features[C]// Computer Vision and Pattern Recognition. IEEE, 2010:2360-2367.
[5] Wang J, Zhu X, Gong S, et al. Attribute Recognition by Joint Recurrent Learning of Context and Correlation[C]// IEEE International Conference on Computer Vision. IEEE Computer Society, 2017:531-540.
[6] Haiyu Zhao, Maoqing Tian, Shuyang Sun, Jing Shao, Junjie Yan,Shuai Yi, Xiaogang Wang, Xiaoou Tang. Spindle net: Person Reidentification with Human Body Region Guided Feature Decomposition and Fusion[C]. CVPR, 2017.
[7] Liu Z, Luo P, Qiu S, et al. DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations[C]// Computer Vision and Pattern Recognition. IEEE, 2016:1096-1104.
[8] Liu X, Zhao H, Tian M, et al. HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis[J], 2017.