


近年來,深度學(xué)習(xí)算法和技術(shù)已經(jīng)在學(xué)術(shù)界與工業(yè)界的眾多領(lǐng)域取得了諸多突破性進(jìn)展。在計算機(jī)視覺領(lǐng)域,深度學(xué)習(xí)算法和技術(shù)在很多基準(zhǔn)數(shù)據(jù)集都極大改善并提升了人物圖像理解的性能。然而,在涉及視頻監(jiān)控、安防、電子商務(wù)、群體行為分析等現(xiàn)實場景時,圖象/視頻理解的性能還是不盡如人意。有關(guān)問題還需不斷做出改進(jìn)與完善,尋求更優(yōu)解決方案。
本團(tuán)隊圍繞“面向無約束場景下的圖象/視頻深度理解”進(jìn)行研究,逐漸形成了清晰的研究思路和完整的研究體系,并在多視角/跨年齡人臉建模與復(fù)雜多人場景細(xì)粒度語義理解等關(guān)鍵科學(xué)問題和實際應(yīng)用領(lǐng)域取得了較大技術(shù)突破,相關(guān)研究成果在北京2022年冬奧會中進(jìn)行了創(chuàng)新、轉(zhuǎn)化和應(yīng)用,助力科技冬奧。
人臉建模與復(fù)雜場景理解研究的突破與創(chuàng)新
圍繞“無約束人物圖像深度理解”,團(tuán)隊在多視角/跨年齡人臉建模與復(fù)雜多人場景細(xì)粒度語義理解等關(guān)鍵科學(xué)問題和實際應(yīng)用領(lǐng)域取得了較大技術(shù)突破,在識別層、解析層、應(yīng)用層均取得了一定創(chuàng)新。
在識別層,團(tuán)隊重點解決了3個難題:
第一,針對多視角人臉建模與人臉樣本姿態(tài)均衡化,提出了首個三維驅(qū)動雙代理生成對抗網(wǎng)絡(luò)架構(gòu),開創(chuàng)性地融合來自數(shù)據(jù)分布的先驗知識與人臉的域知識,精確恢復(fù)出將三維人臉投影至二維圖像空間過程中所丟失的固有信息。
第二,針對人臉正面化與姿態(tài)魯棒表征學(xué)習(xí),提出了首個雙路徑跨域?qū)咕W(wǎng)絡(luò)架構(gòu),開創(chuàng)性地融合無監(jiān)督跨域?qū)褂?xùn)練與一個基于動態(tài)卷積孿生判別器的“元學(xué)習(xí)”策略來恢復(fù)高保真度的正面人臉圖像并保持固有身份信息。
第三,針對人臉年輕化/老齡化隱式建模與年齡魯棒表征學(xué)習(xí),提出了首個解耦表征學(xué)習(xí)與跨年齡人臉圖像生成網(wǎng)絡(luò)架構(gòu),首次避免了以往方法對成對訓(xùn)練數(shù)據(jù)與測試樣本真實年齡標(biāo)簽的需求,可實現(xiàn)連續(xù)的人臉年輕化/老齡化,生成的跨年齡人臉圖像兼具優(yōu)異的真實度與身份保持特性。
在解析層,團(tuán)隊主要解決了3個難題:
第一,針對無約束條件下多人場景建模與多粒度多層次語義理解,提出了首個深度嵌套式對抗學(xué)習(xí)網(wǎng)絡(luò)架構(gòu),首次有效解決了實際復(fù)雜場景下多人交互、姿態(tài)各異與嚴(yán)重遮擋等難題,將實例級細(xì)粒度人物解析的準(zhǔn)確率提升了18.9%,推理速度提升了10倍。此外,還構(gòu)建了一個新的大規(guī)模基準(zhǔn)數(shù)據(jù)集,進(jìn)一步推動無約束場景下人物圖像理解的研究進(jìn)展。
第二,針對無約束條件下小樣本學(xué)習(xí)與泛化推理,提出了首個在線增量式學(xué)習(xí)網(wǎng)絡(luò)架構(gòu),大幅降低了圖像采集/清洗/標(biāo)注工作開銷,助推人工智能走向“小數(shù)據(jù)大智能”,同時,引入一個群體-個體排斥與吸引損失函數(shù),能夠有效解決多人交互、姿態(tài)各異與嚴(yán)重遮擋等條件下的人物圖像理解問 題。
第三,針對無約束條件下解析結(jié)果與人物身體結(jié)構(gòu)一致性,提出了首個空間圖關(guān)系學(xué)習(xí)網(wǎng)絡(luò)架構(gòu),開創(chuàng)性地采用基于圖的生成對抗網(wǎng)絡(luò)對細(xì)粒度多人解析進(jìn)行建模,確保解析推理結(jié)果與人物身體結(jié)構(gòu)相一致,極大提升了結(jié)果可解釋性、合理性、準(zhǔn)確性。此外,還構(gòu)建了一個新的基準(zhǔn)數(shù)據(jù)集,助推人物圖像理解的研究進(jìn)展。
在應(yīng)用層,針對實際場景中耦合的多種潛在挑戰(zhàn),進(jìn)一步提出了可行與有效的解決方案,包括網(wǎng)絡(luò)架構(gòu)設(shè)計與全局優(yōu)化、魯棒表征學(xué)習(xí)、小樣本學(xué)習(xí)與泛化推理、人眼視線方向估計、去遮擋、屬性分析、多任務(wù)學(xué)習(xí)機(jī)理、跨數(shù)據(jù)集混合訓(xùn)練策略等,開創(chuàng)性地從整體和全局角度迭代優(yōu)化、演進(jìn)升級了無約束人物圖像智能理解分析的精度、泛化/遷移性和可解釋性。
成果創(chuàng)新與轉(zhuǎn)化——助力冬奧
面對北京2022年冬奧會,時間緊、任務(wù)重,難度高、挑戰(zhàn)多,團(tuán)隊加班加點,按里程碑節(jié)點倒排計劃,集智攻關(guān),致力于用科技創(chuàng)新服務(wù)并賦能冬奧,實現(xiàn)作為科技工作者的價值。團(tuán)隊的研究成果針對冬奧會的創(chuàng)新、轉(zhuǎn)化和應(yīng)用主要圍繞以下兩個方面。
一是復(fù)雜環(huán)境下的低慢小目標(biāo)智能感知與監(jiān)管,主要采用特種光電設(shè)備,基于AI+視覺的多尺度目標(biāo)檢測跟蹤識別技術(shù),實現(xiàn)對冬奧會賽區(qū)及場館安全防范區(qū)域內(nèi)黑飛(非經(jīng)授權(quán))無人機(jī)的預(yù)警探測、監(jiān)視取證,并輔助反制系統(tǒng)進(jìn)行管控和處置。團(tuán)隊針對紅外無人機(jī)目標(biāo)尺度多變、對比度較低、易受背景干擾等難題,提出了一種新型的跟蹤器算法模型框架,充分挖掘紅外視頻序列中的時空信息和目標(biāo)運動特征,設(shè)計了局部跟蹤和全局檢測的自適應(yīng)動態(tài)目標(biāo)搜索機(jī)制,當(dāng)目標(biāo)狀態(tài)可靠時采用局部跟蹤,利用視頻時空連續(xù)性,有效抑制背景干擾;當(dāng)目標(biāo)狀態(tài)不可靠時(發(fā)生完全遮擋、從視野消失等)采用全局檢測,結(jié)合目標(biāo)運動特征鎖定候選區(qū)域,提高目標(biāo)再捕獲概率。
二是花樣滑冰AI輔助評分,即根據(jù)花樣滑冰評委和運動員使用需求、場景應(yīng)用需求打造AI+3D動作捕捉解決方案。花樣滑冰比賽不僅規(guī)則復(fù)雜,而且評分難度較高。評委需在高速運動且變化繁復(fù)的動作中依據(jù)動作的類型、難度系數(shù)、完成情況、標(biāo)準(zhǔn)程度等給出精準(zhǔn)的技術(shù)分,用AI技術(shù)來輔助評分難度也可見一斑。團(tuán)隊采用高清高速攝像機(jī),融合人體姿態(tài)估計、目標(biāo)跟蹤算法、ReID算法、視頻動作識別等技術(shù)實現(xiàn)3D動作捕捉,可以克服高度、光線等復(fù)雜因素,捕捉運動員的細(xì)微動作,通過回放和分解動作,幫助裁判對動作細(xì)節(jié)進(jìn)行判別。此外,該技術(shù)還可以在賽前為運動員提供定制方案,輔助運動員訓(xùn)練。
研用結(jié)合,助推智能視覺感知成果應(yīng)用落地
這次在冬奧會的應(yīng)用實例是一次非常重要的礪煉,整個團(tuán)隊都獲益匪淺。研用結(jié)合,科學(xué)研究就是要從實踐中來到實踐中去。除了服務(wù)冬奧會,團(tuán)隊也在推進(jìn)研究成果的轉(zhuǎn)化和多方面應(yīng)用場景探索,助推相關(guān)研究開展和應(yīng)用落地。
一是復(fù)雜環(huán)境下基于多光譜多模視頻目標(biāo)融合感知,旨在充分利用多光譜多模數(shù)據(jù)的優(yōu)勢互補特性,實現(xiàn)復(fù)雜環(huán)境下的目標(biāo)融合感知。團(tuán)隊分別依托CCFA類國際會議、計算機(jī)視覺領(lǐng)域頂級會議CVPR 2020、ICCV 2021組織了第一屆、第二屆無人機(jī)目標(biāo)跟蹤研討會和競賽,并即將依托ECCV 2022組織第三屆學(xué)術(shù)旗艦,助推相關(guān)領(lǐng)域前沿技術(shù)的發(fā)展和進(jìn)步。08E62C2A-6DE9-4404-B157-458B3935F4F6
二是無約束人物圖像/視頻深度理解,旨在針對非配合條件下的實際安防、對抗場景及應(yīng)用,實現(xiàn)以人為中心的智能視覺感知與理解。團(tuán)隊在GitHub開源了無約束人臉識別(face.evoLVe)和細(xì)粒度多人解析(Multi-Human-Parsing)的部分?jǐn)?shù)據(jù)、算法代碼及預(yù)訓(xùn)練模型以促進(jìn)相關(guān)學(xué)術(shù)研究和應(yīng)用落地,分別已被同行star 2800/560余次,fork 680/100余次,其中,face.evoLVe已被百度飛槳(PaddlePaddle)平臺官方正式引入。
作者簡介
趙健 軍事科學(xué)院助理研究員,主要研究領(lǐng)域為人工智能、模式識別、計算機(jī)視覺。入選第六屆中國科協(xié)和北京市科協(xié)青年人才托舉工程,擔(dān)任VALSE SAC、CCF-CV/CSIG-BVD委員、CSIG/BSIG青工委委員、BSIG第七屆理事會理事、PaddlePaddle開發(fā)者技術(shù)專家、PRL/Electronics特刊客座編輯、中國人工智能大賽專家委員會委員、CICAI'21評獎委員會委員、ACM MM'21分論壇主席。擔(dān)任T-PAMI、NeurIPS(NeurIPS'18前30%最佳審稿人)、CVPR等本領(lǐng)域主流國際期刊/會議受邀審稿人。
目前,共主持/參與科技委項目3項(序1/3/5),主持國自然青年科學(xué)基金項目1項。近5年已受理國家專利5項(序1),發(fā)表高水平學(xué)術(shù)論文50余篇,單篇影響因子最高16.389。曾作為第一作者獲得PREMIA'19 Lee Hwee Kuan獎、ACM MM'18最佳學(xué)生論文獎,并多次獲得頂級會議國際競賽全球冠軍。
編輯后記:科技報國志
趙健說:“作為一名青年科技工作者,最重要的是把自己的研究方向、研究領(lǐng)域同國家、國防建設(shè)和發(fā)展的重大需求相結(jié)合,以國家關(guān)于新一代人工智能的發(fā)展規(guī)劃為牽引和方向,以努力做0到1的原創(chuàng)突破為目標(biāo)和己任,守正創(chuàng)新、求真務(wù)實,踏踏實實解決好每個問題、做好每個課題、走好人生的每一步,堅持做‘頂天立地式的科研。同時,也照顧好家庭,家人的陪伴、支持和鼓勵永遠(yuǎn)是前進(jìn)路上不可或缺的原動力。”
2016年,趙健受中國留學(xué)基金委和國防科技大學(xué)公派,赴新加坡國立大學(xué)攻讀博士學(xué)位,師從馮佳時教授和新加坡工程院院士、AAAI/ACM/IEEE/IAPR Fellow顏水成教授,他說:“在新加坡求學(xué)期間最大的收獲是遇到了改變我人生的恩師,他們言傳身教、悉心栽培,一點點引導(dǎo)我對一些有意思的領(lǐng)域和問題產(chǎn)生濃厚的興趣,帶我入門、走進(jìn)學(xué)術(shù)的殿堂,教會我如何做真正有價值的科學(xué)研究,掌握必備的技能,開闊眼界和思維。此外,也很慶幸遇到了很多優(yōu)秀的同學(xué)和朋友,見賢思齊,跟優(yōu)秀的人在一起會讓一個人更加優(yōu)秀。我的導(dǎo)師和同學(xué)們,我們彼此都結(jié)下了很深的情誼,并且一直都保持著聯(lián)系,我想這也是我一生的寶貴財富。”2019年他提前獲得博士學(xué)位,選擇回國參加工作。
“世界著名科學(xué)家、兩彈一星功勛獎?wù)芦@得者錢學(xué)森錢老一直是我的偶像,他當(dāng)初在美國學(xué)成后參加工作,聲名大噪,事業(yè)發(fā)展一路順?biāo)欤?dāng)?shù)弥鎳枰阋闳粵Q然放棄優(yōu)厚待遇,克服萬難,選擇回國參加建設(shè),為祖國和人民奉獻(xiàn)了自己寶貴的一生,對我國火箭、導(dǎo)彈和航天事業(yè)作出了開創(chuàng)性貢獻(xiàn)。現(xiàn)在各方面條件都好了,我們的國家正在實現(xiàn)中華民族偉大復(fù)興的道路上奮力前行,這就更加需要我們這一批新一代知識分子積極投身建設(shè)祖國的時代洪流,以國家利益為己任,有靈魂、有本事、有血性、有品德,堅持真理、堅守理想,踐行初心、擔(dān)當(dāng)使命,用自己的所學(xué)所知所想為國家和國防建設(shè)作一點力所能及的貢獻(xiàn),做一個真正對祖國有用的人。”趙健如是說。08E62C2A-6DE9-4404-B157-458B3935F4F6