




找姜育剛不易,尤其要讓他同意接受采訪更不易。盡管是當(dāng)下炙手可熱的人工智能分支——計算機視覺領(lǐng)域——頗具影響力的學(xué)者,但上網(wǎng)查一下姜育剛的媒體采訪信息并不多。幾周前,他應(yīng)啟明星協(xié)會之邀參加了一次人工智能主題的星友早餐會,那次會上他作了主導(dǎo)發(fā)言,內(nèi)容豐富,涉及當(dāng)下大家感興趣的人工智能與各行業(yè)的結(jié)合,怎么看ChatGPT帶來的機遇與挑戰(zhàn)等。也是在那次會上我約他作啟明星專訪,他同意了。我理解這個同意的背后是一份信任,對啟明星協(xié)會,對采訪者的信任。采訪是在復(fù)旦大學(xué)邯鄲路校區(qū)綜合樓內(nèi)人事處一間會議室,去年起復(fù)旦大學(xué)人事處處長成了他的新職,而計算機科學(xué)技術(shù)學(xué)院教授、博士生導(dǎo)師,上海市智能視覺計算協(xié)同創(chuàng)新中心主任這些名分下的工作也要占用他大量的時間。這是我和姜育剛的第二次見面,睿智的目光、彬彬有禮的舉止再次加深了我對他的印象。
我們的評測結(jié)果要與全球同行比高低
姜育剛,1981年生于遼寧省鐵嶺市。按啟明星采訪慣例,我本要求他談一下從小求學(xué)經(jīng)歷有些什么故事,但他用“很簡單”一筆帶過,而建議把重點放到與專業(yè)的關(guān)聯(lián)上。姜育剛博士就讀于香港城市大學(xué),導(dǎo)師是楊宗樺教授。楊教授是馬來西亞籍華人,是在多媒體信息處理領(lǐng)域頗有影響力的學(xué)者,也是姜育剛真正進(jìn)入視頻(那時主要是電影電視內(nèi)容)處理領(lǐng)域的領(lǐng)路人。“那時的視頻分析主要是以鏡頭為單位來識別內(nèi)容,訓(xùn)練計算機對每個鏡頭包含的物體、場景等一一分類打標(biāo)簽。這種機器識別的語義信息對后期視頻檢索非常有用,也是當(dāng)時很前沿的方向。”姜育剛介紹,如果沒有辦法打標(biāo)簽,不斷增長的視頻素材只能大量積壓,查找起來就會十分困難。傳統(tǒng)視頻是分鏡頭的,檢索的單位就是鏡頭,所謂打標(biāo)簽就是讓計算機自動識別一個鏡頭中存在的場景、物體,比如人、車、下雨、下雪等。有了標(biāo)簽就可以實現(xiàn)自動化的檢索,這在當(dāng)時是一個極具挑戰(zhàn)的課題。
具體談到視頻檢索這個課題及課題的來源時,姜育剛說該項課題與很多需要研究者自己去找問題并設(shè)法求解的研究模式不同。“視頻檢索課題不是我去找的,而是美國國家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)定義的,并向全世界這個領(lǐng)域的研究者公開征求答案。我讀博期間一上手就是這個課題。這個課題的評測是對全球開放的,組織者NIST實際上是想通過公開評測來知道世界上有多少能做這類研究的團(tuán)隊及其技術(shù)水準(zhǔn)。這種具有挑戰(zhàn)性的征集方式吸引了全球這方面的專業(yè)人士。NIST每年會公布數(shù)據(jù),啟動這樣的評測。評測優(yōu)勝者會受邀參加每年10—11月在馬里蘭州的研討會。我參加過好幾次研討會。這種視頻檢索評測的運作已有多年,也已經(jīng)成體系了,極大推動了這一領(lǐng)域的技術(shù)革新。”姜育剛用這段經(jīng)歷想說明他不是通過自己找到問題進(jìn)入研究之門,而是通過做給定的重要問題,追求更好的結(jié)果來開展研究。在姜育剛看來,這種在公開選拔賽中勝出的難度極大,因為你的結(jié)果要與全球同行直接正面交鋒比試,做得不好后續(xù)文章都很難發(fā)出來。2005年底開始進(jìn)入這個評測領(lǐng)域的姜育剛說他也是在當(dāng)時的技術(shù)體系下,跟著楊老師花了很長時間,搞清楚技術(shù)、工程細(xì)節(jié),摸清門道后才敢上手。2006年首次嘗試后,2007年二次參賽的姜育剛的成績排在全球前5位,這個成績對于領(lǐng)域新人是一個很不錯的結(jié)果。“經(jīng)驗特別重要,2006年做完了會公布結(jié)果,2007年做的時候就可以借鑒2006年的經(jīng)驗去找到自己可以攻克的點,幫助你拿到更好的結(jié)果。持續(xù)參加這個評測的好處是讓你始終盯著這個方向,始終處于前沿位置。”
2007年,姜育剛和卡內(nèi)基 · 梅隆大學(xué)的華人學(xué)者楊俊合作發(fā)了兩篇文章,他們從頭至尾梳理了當(dāng)時NIST視頻識別評測的技術(shù)體系及方法的優(yōu)化,總結(jié)了很多經(jīng)驗。這兩篇文章被引超2 000次。這個過程中姜育剛從楊俊那里學(xué)到很多經(jīng)驗。基于2007年的研究結(jié)果,2008年繼續(xù)參賽的香港城市大學(xué)團(tuán)隊拿到了全球第一名的佳績,值得一提的是2008年,IBM沃森研究院、卡內(nèi)基 · 梅隆大學(xué)等單位都參與了,是一次全球高手云集的比試。
在一流大學(xué)團(tuán)隊得到重要的能力訓(xùn)練
2008年4月,由楊老師推薦并在香港政府獎學(xué)金支持下,姜育剛?cè)ッ绹鐐惐葋喆髮W(xué)數(shù)字視頻與多媒體實驗室訪學(xué)一年。2008—2009年在哥大訪問的姜育剛參與了當(dāng)時哥大團(tuán)隊的無人機視頻分析項目。在十多年前,既沒有這么多的高性能計算集群,也沒有大量標(biāo)注好的視頻數(shù)據(jù)集,所以視頻分析尤其是這種航拍視頻分析是十分具有挑戰(zhàn)性的。這個項目需要對航拍視頻中的物體及物體行為進(jìn)行識別。然而,高空拍攝的干擾因素很多,如陽光陰影、目標(biāo)很小等都會對識別構(gòu)成挑戰(zhàn)。育剛也為此開發(fā)了一個用于人、車、噪聲干擾等識別的工具,譬如陰影等干擾因素怎么篩除等。這一分類工具得到了好評。姜育剛回憶道:“在哥大期間一直在做大項目,經(jīng)常干到下半夜。對人的鍛煉很大,學(xué)到很多東西。”
2009年博士畢業(yè)后,姜育剛在哥大同一團(tuán)隊繼續(xù)從事博士后研究。他尤其提到哥大的博士后合作導(dǎo)師張世富(Shih-Fu Chang,現(xiàn)任哥大工學(xué)院院長、美國國家工程院院士)對他的影響和幫助:“我和導(dǎo)師經(jīng)常交流,每次一般不少于一小時,這種交流很燒腦,他會不停地問你各種細(xì)節(jié)問題,因此你要很認(rèn)真地準(zhǔn)備和回答,包括為什么要用這個方法,為什么要這么做,細(xì)節(jié)是什么等等,每一步都要回答,每一步要有依據(jù)。回過頭來想,正是這個過程幫助我去理思路,選問題,選方案,然后反復(fù)去想方案的合理性。經(jīng)過這樣歷練,我以后不管什么答辯碰到提問都沒有發(fā)怵過。這真的是一種能力的訓(xùn)練。”
學(xué)成回國前的2010年,姜育剛還參加了一個互聯(lián)網(wǎng)視頻內(nèi)容分析的項目。當(dāng)時互聯(lián)網(wǎng)視頻已經(jīng)越來越普及,這個項目的目的是通過分析互聯(lián)網(wǎng)視頻中的內(nèi)容,來了解互聯(lián)網(wǎng)輿情。2010年,NIST在評測中加入了互聯(lián)網(wǎng)視頻識別賽道,姜育剛牽頭開發(fā)的系統(tǒng)首次參賽就拿了第一名,高于IBM等所有參與團(tuán)隊。這個結(jié)果公布后他的導(dǎo)師非常開心,不想讓他走,極力挽留,但姜育剛還是如期回到了國內(nèi)。“回想起來,我覺得自己很幸運,當(dāng)年選擇了一個自己喜歡的方向,遇到了很好的導(dǎo)師和合作者,這么多年從來沒有放棄過,一直在視頻分析領(lǐng)域深入鉆研,在評測數(shù)據(jù)集構(gòu)建、核心算法研發(fā)以及成果應(yīng)用幾個方面都做了一些有意義的工作。”
復(fù)旦團(tuán)隊是國際上這一領(lǐng)域的第一梯隊
2011年姜育剛作為引進(jìn)人才受聘于復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院。入職復(fù)旦的十多年來,育剛的崗位、職務(wù)多有變動,從復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院院長、軟件學(xué)院院長到校人事處處長,以及上海市智能視覺計算協(xié)同創(chuàng)新中心主任、國家科技創(chuàng)新2030“新一代人工智能”重大項目負(fù)責(zé)人等。其研究領(lǐng)域也隨著承擔(dān)不同任務(wù)有所側(cè)重,包括多媒體信息處理、計算機視覺、魯棒可信人工智能等。但是,他的科研主軸主線基本上還是在視頻內(nèi)容識別方面,用他的話說就是專注于計算機視覺、圖像視頻處理和內(nèi)容識別領(lǐng)域的研究。也因為這種堅持和堅守,復(fù)旦團(tuán)隊一直位居國際上視頻識別領(lǐng)域的第一梯隊。在2014年美國電氣與電子工程師協(xié)會國際多媒體與博覽會(IEEE ICME)移動端視覺識別挑戰(zhàn)賽中,團(tuán)隊獲得了最佳精度獎;在歐洲MediaEval評測中,團(tuán)隊2014年、2015年蟬聯(lián)暴力視覺內(nèi)容識別任務(wù)第一名;在2016年國家網(wǎng)信辦指導(dǎo)的全國網(wǎng)絡(luò)輿情分析技術(shù)邀請賽中,團(tuán)隊獲得特定視頻識別賽道金獎;在2019年谷歌公司主辦的YouTube-8M全球最大規(guī)模視頻識別挑戰(zhàn)賽中,團(tuán)隊獲得全球第二名(亞洲第一)。這都是他們多年來在這個競爭特別激烈的領(lǐng)域始終專注、未敢半點懈怠才能得到的結(jié)果。育剛也因此獲得2019年度上海市青年科技杰出貢獻(xiàn)獎、2022年度國際模式識別學(xué)會會士(IAPR Fellow)等榮譽。
從ChatGPT技術(shù)的火爆引出的話題
原定的采訪時間已經(jīng)過了一刻鐘,姜育剛還是很有耐心地回應(yīng)我關(guān)于下一步互聯(lián)網(wǎng)視頻分析的走向,以及怎么看近期火熱的ChatGPT技術(shù)等問題。育剛說:“互聯(lián)網(wǎng)視頻分析目前的類別標(biāo)簽已上萬,打的標(biāo)簽越多對內(nèi)容的索引越周全,這樣要什么就可抓取什么。在今天的自媒體內(nèi)容生成時代,一個重要的用途是通過標(biāo)簽可以識別使用者的喜好,諸如軍事、科技、文化、飲食等每一個個體感興趣的內(nèi)容,都可以推送到個體,實現(xiàn)千人千面、精準(zhǔn)推薦。近期備受關(guān)注的大語言模型展現(xiàn)出了令人矚目的通用智能能力,但它也存在許多局限性。例如,它缺乏事實依據(jù),經(jīng)常生成不合實際的內(nèi)容。它是通過大量數(shù)據(jù)學(xué)習(xí)詞語之間的依賴關(guān)系而生成內(nèi)容的。然而,它并不了解這些句子后面的許多事實依據(jù)。微軟已經(jīng)嘗試將其搜索引擎與大語言模型結(jié)合起來,這是一個很好的方向。因為搜索引擎所找到的基本上都是事實,這樣控制生成內(nèi)容的范圍就可以避免憑空捏造。”
姜育剛認(rèn)為,當(dāng)前,文本大模型已經(jīng)得到了廣泛的研究和應(yīng)用,接下來的發(fā)展方向?qū)⑹嵌嗄B(tài)大模型,即結(jié)合語言信息更好地理解以及生成視聽覺數(shù)據(jù)。盡管視覺數(shù)據(jù)的細(xì)粒度理解和生成很難,目前的結(jié)果還不盡理想,但這是一個非常重要的發(fā)展方向。目前來看,多模態(tài)大模型有兩個重要方向:(1)如何結(jié)合文本模型對視覺數(shù)據(jù)完成更高精度的內(nèi)容識別?比如通過對已經(jīng)發(fā)生事件的語義總結(jié)并結(jié)合視覺信息對未來可能發(fā)生的事件做一個預(yù)測和推理;(2)如何生成時序連貫、細(xì)節(jié)清晰的視頻?現(xiàn)有的一些工作生成的視頻幀不夠連貫、也不夠清晰,生成具有時序一致性的視頻也是目前的研究熱點。
擁抱人工智能技術(shù)的同時也要善于趨利避害
近年來,姜育剛在多個場合呼吁發(fā)展可信人工智能,保障人工智能健康發(fā)展。幾周前的那次啟明星早餐會上,姜育剛有一段話說得很到位,這里我借用過來作為本篇采訪的結(jié)語:“21世紀(jì)初,當(dāng)我開始攻讀博士學(xué)位時,人工智能發(fā)展并不順利,技術(shù)水平不夠好,應(yīng)用受限,研究人員也相對不多。得益于2010年以來深度學(xué)習(xí)等諸多技術(shù)突破,人工智能領(lǐng)域取得了非常迅猛的發(fā)展。特別在數(shù)據(jù)、算法、算力這三要素均衡提升之后,人工智能領(lǐng)域的應(yīng)用迎來了爆發(fā)式的增長,給各行各業(yè)帶來深遠(yuǎn)的影響。我個人認(rèn)為人工智能未來的發(fā)展速度將更加迅猛。當(dāng)然,我們在擁抱人工智能的同時也要趨利避害,處理好數(shù)據(jù)安全、知識產(chǎn)權(quán)、科技倫理等挑戰(zhàn)。只有做到安全、可靠、可控,才能走得更穩(wěn)、更遠(yuǎn)。”
江世亮采寫于2023年6月22日