姜育剛:讓計算機看懂世界
本刊記者 徐 賽

專家簡介:
姜育剛,復旦大學計算機科學技術學院教授、上海市視頻技術與系統工程研究中心副主任。香港城市大學計算機系博士、美國哥倫比亞大學博士后,2011年9月通過復旦大學人才引進回國工作。目前,在國際上擔任Springer期刊Machine Vision and Applications編委、THUMOS國際大規模動作識別比賽程序委員會主席、IEEE Trans.on Multimedia等期刊客座編委等職。
主要學術成果體現在視頻語義概念識別、視頻動作與事件識別、大規模視頻檢索三個方面,至今發表論文91篇,其中SCI索引論文26篇(含5篇已錄用論文)、ACM/IEEE匯刊與計算機學會推薦的A類會議長文31篇。據Google Scholar統計,論文被引用合計3467次,第一作者論文單篇最高被引545次,H-因子為28。近年來獲得了2015年度教育部自然科學獎二等獎、軍隊科技進步獎二等獎、2015年ACM多媒體專業組(SIGMM)評選的新星獎(Rising Star Award;年度唯一獲獎人)、2016年國家優秀青年科學基金資助,2015年入選科學中國人年度人物。另外,姜育剛研制的大型場館智能管理系統為黨的十八大等會議提供了安全服務,受到了中共中央辦公廳警衛局的書面表揚。
相信許多人都看過《終結者》這部老影片。在電影中,由施瓦辛格扮演的機器人具備這樣的能力——它可以通過人臉識別、嘴型對比等技術來找到某個人,并且還能分析一個人的行為,從而推斷他的好壞。“這部電影是1984年上映的,那時是沒有技術能夠賦予機器這種能力的,而現在,我們正在一步步地將其變為現實!”姜育剛說。
姜育剛,復旦大學計算機學院教授,多年來長期從事視頻圖像大數據分析與識別研究,在他心底,有一個讓計算機看懂世界的愿望。
“相信大家對‘視頻圖像’這個概念都不陌生,在當下這個大數據時代里,它是最大的大數據!”姜育剛介紹說,思科公司曾經預測,到2019年互聯網數據總量的80%都將是視頻,如果那時我們想看完互聯網上一個月時間內傳播的視頻,大概需要花五百萬年。
在這樣的大背景下,姜育剛帶領團隊開展了視頻圖像大數據分析與識別研究,該技術很“全能”,在不同的領域都有很多的應用點,比如它可以提升互聯網管理和檢索數據方面的能力,幫助交警自動檢測車輛違章,實現智能投放視頻廣告等。“打個比方,當人們打開一個棒球的視頻,通過該技術,計算機就可以分析出視頻中的人物在打棒球,然后可以有針對性地在其中插入一條關于棒球的廣告。”姜育剛介紹說,視頻圖像大數據分析與識別研究讓計算機具備了一定的“思考”能力,也許,這將開啟一個新時代的序幕。
回憶過往,最讓姜育剛難忘的,就是在香港城市大學攻讀博士學位的經歷。2006年,他來到香港求學,在這個素有“東方之珠”“美食天堂”“動感之都”等美譽的地方,他的日子過得卻并不好。“求學的過程是充滿艱辛的,我在香港住在離學校很近、租金很便宜的一個地方——深水埗,熟悉香港的人可能知道,這是個很破爛的地方,我住在樓的最頂層九樓,我猜測應該是加出來的一層,沒有電梯,我在這個地方住了一年多的時間。”但是,那時的姜育剛卻仍感到很快樂,因為這期間,他在科研上收獲了諸多成果。
“在讀博時,我們做了這樣一件事,從算法的角度在視頻和圖像里面提取了很多小的特征。一般來說,兩段視頻就會具有大量的小特征,我們對其進行量化后,把它們放到同一個空間里面比對相似程度,在這個過程中,我發現使用傳統方法就會造成信息的大量損失。”姜育剛所講的就是視覺詞袋特征中的量化損失(Quantization Loss)問題,作為第一個揭示該問題的人,他對此展開了探索,提出了一種基于“軟權重”的量化方法,該方法在不影響量化效率的前提下,可以提升識別性能10%左右。該成果最終被發表在2007年ACM圖像視頻檢索大會上,至今已經被引用了500多次。雖然成果公布已達10年之久了,計算機領域的技術層面有了很大的變革,但是目前姜育剛創造的“量化方法”卻仍被廣泛地使用著。
體驗到了解決實際問題的快樂,姜育剛再接再厲,他借鑒了文本處理領域的本體(Ontology)思想,提出構建“視覺詞本體”,生成視覺詞關系樹。“通過估算和利用視覺詞之間的關系,可以更準確地計算了視頻之間的相似度,進一步降低量化損失。”姜育剛介紹說,該方法介于傳統視覺詞袋模型和局部描述子匹配方法之間,在精度上優于傳統視覺詞袋模型,接近局部描述子直接匹配的方法,但計算效率卻比后者提升了1個數量級。
自適應視頻語義擴散方法是姜育剛在這期間的另一貢獻點。“這個方法是基于圖模型理論提出的,我在此方法中構建的類別關系圖,不同于傳統方法中的數據樣本圖,圖中關聯關系較強的類別同時出現的概率更高,反之則更低。”語義擴散方法可以使得同一視頻的語義類別預測分數的分布,與類別關系圖更加一致,有效地提升了識別精度,而且該方法還具備針對類別關系圖的自適應調整能力,可以通過分析目標數據的特點自動調整類別關系,進而更精確地識別視頻語義。該成果相關論文已經發表在2009年計算機視覺領域的頂級國際會議ICCV上,擴展后的期刊文章于2012年發表在IEEE Trans.on Image Processing上。

姜育剛榮獲ACM中國新星獎
2009年,姜育剛漂洋過海來到美國,于哥倫比亞大學做博士后研究。哥倫比亞大學是美國歷史最悠久的5所大學之一,據統計,有104位諾貝爾獎得主曾在哥大工作或學習過,位列世界第二,是名副其實的科技殿堂!“剛到哥大的時候,學校的宿舍非常緊張,排不上,我就在一個破沙發上面住了半年。”姜育剛回憶道。在哥大,他如饑似渴地學習著,進一步地夯實了學術基礎,開闊了國際視野,提高了科研能力。
博士后出站后,姜育剛接過了復旦大學的“橄欖枝”,通過人才引進計劃回國工作。他在復旦大學計算機科學技術學院,成立了視頻大數據分析實驗室,繼續視頻內容識別的研究。從走出國門一心向學到回到故土置身科研,7年時光中,姜育剛創造了數個極具“亮點”的工作成果。
視頻動作與事件識別是姜育剛研究的一個重點領域。他基于相對運動思想,在此領域提出了一種新的視頻運動特征表示方法,減輕了鏡頭抖動帶來的影響。“這個方法的‘秘訣’就在于通過跟蹤局部描述子在時序上的運動過程,針對不同描述子之間的相對運動關系構建特征。”姜育剛介紹說,該方法全面考慮了局部描述子視覺詞、描述子之間的位置關系及相對運動方向信息,相關論文發表于歐洲計算機視覺大會 ECCV、ACM Multimedia(長文)和IEEE Trans. on Image Processing上。
由于無法高效利用視頻的時序信息及聲音信息,傳統的基于圖像的卷積神經網絡方法在視頻數據上的應用結果較差。如何解決該問題呢?姜育剛找到了答案,“我借鑒人類感知機理,針對視頻數據的特點,如含有時序運動信息,設計了一個完整的面向視頻數據的深度學習框架。”該框架綜合考慮了視頻中的靜態特征、局部運動特征以及時序信息,并采用一種新的基于神經網絡的多模態特征融合方法,從而可以更精確地識別視頻中的動作和事件。此外,姜育剛還研發了一個結合多種特征和時序信息的視頻事件識別系統,該系統在2010年美國國家標準局主辦的國際評測(TRECVID)中,獲得多媒體視頻事件識別任務(MED)的最優性能,精度高于卡內基梅隆大學、IBM等機構開發的系統。他于近期對該系統進行了優化,讓其在精度損失很小的情況下,識別速度提升220余倍。
在科研工作中,姜育剛很重視興趣的“力量”,他認為興趣驅動是做好科研工作的重要因素。在興趣的指引下,姜育剛在大規模視頻檢索領域進行了研究探索,他提出了一種結合場景、物體檢測進行人體動作識別的算法。“傳統的方法不區分相同漢明距離的哈希編碼與查詢的相似程度,導致結果排序不夠精細,大量與查詢漢明距離相同的樣本以隨機順序展示。”而姜育剛提出的方法則可以實時動態估算每個哈希編碼與查詢的實際相似度,將檢索結果的排序精細度從n(哈希編碼的長度)提高到2n(哈希編碼的數量),解決了這個問題。同時,姜育剛還提出了提出一種層次化(Hierarchical)展示方法,“當前大多數視頻檢索系統都采用單一列表形式(List)展示結果將查到的視頻排序,使用效果不佳。”為了提高了視頻瀏覽效率和用戶體驗,姜育剛針對復雜查詢如著名人物、地點等,研制了一種新的展示系統,此系統能自動地從不同角度分別介紹了相關內容。該成果的論文發表于2014年ACM Multimedia上,并榮獲該年度最佳短文獎。

2015年ACM SIGMM新星獎頒授典禮
從20世紀90年代以來,恐怖襲擊就在全球范圍內有迅速蔓延的嚴峻趨勢,是當下急需解決的世界性問題。各國的反恐部門在打擊暴恐的過程中發現,“網絡視頻”是暴恐思想蔓延的一個重要載體。小到制爆技術和方法,大到恐怖主義思想的傳播,暴恐視頻已經成為暴恐團伙的“思想指引”和“訓練教材”。為了打擊網絡暴恐視頻,國家互聯網信息辦公室開展了專項行動。
姜育剛勇挑重任,服務國家戰略,帶領復旦大學團隊研發了一套自動檢測暴恐視頻的計算機算法和軟件系統,在國家互聯網信息辦公室指導的全國性比賽——“2014年全國特定音視頻檢索識別挑戰賽”中,與37支參賽隊伍角逐,取得了一項任務第一、一項任務第二的好成績。經過近一年的反復評測、復旦大學團隊研發的系統最終脫穎而出,成功地被部署在國家互聯網信息辦公室,為國民安全做出了貢獻。
在鑄就了“反恐利器”的同時,姜育剛還憑借過硬的工作基礎和一流的學術積累,出色完成了一個大型會場智能服務系統中核心算法的攻關,為黨的“十八大”、近年來“兩會”等重要會議的順利召開提供了有效的服務支撐,受到了中共中央辦公廳警衛局的書面表揚,相關技術成果榮獲了2015年度軍隊科技進步獎。
從事了多年的科研工作,姜育剛對此有了自己的一番感悟,“我覺得做工科科研,我們需要興趣驅動、刻苦的鉆研。研究需要創造新的知識,在創造新的知識過程中,我們要盡量追求簡單,追求效率。在研究取得一定進展的時候,我們則要樂于分享。作為科學家,我們要擔當起為國服務的責任!”

姜育剛入選科學中國(2015)年度人物
視頻的語義包括從基本的物體、場景、人體動作到復雜的高層事件等,內容極為豐富。各類視頻語義之間存在著緊密的“紐帶”,例如,對物體、場景的理解可以幫助推測高層事件。隨著采集設備的普及和多媒體技術的迅速發展,視頻數據正呈爆炸式增長。已有的視頻語義分析研究局限于對幾百個物體、動作等類別的識別,不足以滿足實際應用需求。人們急需有效而全面的語義理解技術,為智能管理、檢索等各類高層應用提供核心支撐。
雖然大量的視頻數據觸手可及,但是訓練自動識別算法所需的人工標注信息卻非常稀缺。“而相比于物體、場景等類別,動作、復雜事件的訓練數據則更為緊缺。這是因為前者是靜態的,可以利用人工標注的圖像數據來訓練模型,后者則只能用視頻數據來訓練模型,而現有的圖像數據標注要遠多于視頻數據的標注。”姜育剛說。目前,可以公開下載使用的最大的動作識別數據集為2015年公布的ActivityNet,含有203個動作類別;而最大的帶有人工標簽的復雜事件識別數據集為FCVID,含有239個類別。這些現有的訓練數據均有漏洞,缺乏對類別之間關系的定義。
為了創造一個完整的大規模視頻語義理解系統,姜育剛開展了優秀青年科學基金項目“海量視頻的層次化語義內容識別關鍵技術研究”,“首先我將致力于構建一個全面的視頻語義訓練數據集合,涵蓋實際應用中需要的大多數語義。由于物體、場景等類別可以通過現有的圖像標注進行模型訓練,所以我將研究的重點放在了需要視頻動態信息進行識別的人體動作和復雜事件。”姜育剛介紹說,而除了設計科學的數據采集和標注方案,他還打算從底層的簡單人體動作到高層的復雜事件建構一個語義層次化組織,并對類別間的關聯關系做出明確定義。
從技術層面上講,姜育剛將研究目標對準了語義識別數據集構建、多模態特征深度融合、層次化視頻語義識別、視頻語義的時空定位。“其中,大規模數據集的構建是開展其他三個問題的研究的重要基石,多模態特征融合的輸出為語義識別模塊的輸入,而精確時空定位則在識別的基礎上進行。”
姜育剛的研究可以對視頻語義理解的相關理論研究和技術研發起到一定的推動作用。取得的成果可以為很多應用系統提供關鍵技術,如基于語義分析的互聯網廣告投放、互聯網視頻監管與檢索、智能視頻監控與安防等,進而促進相關產業的發展,產生較大的社會效益和經濟效益。