

2011年,在中山大學即將碩士畢業的羅平寄出了一份厚厚的郵件,這份郵件要寄給彼時正在香港中文大學任教的湯曉鷗教授。湯曉鷗是全球人臉識別技術的“開拓者”和“探路者”,為補香港中文大學信息工程系在圖像處理上的短板,他于2001年創立了“多媒體實驗室”(又稱MMLAB),主要研究系統性能與人臉識別。在研讀學術論文時,MMLAB的研究吸引到羅平,促使他萌生了加入實驗室繼續深造的想法,于是認真準備了一份簡歷。塑料皮精美封裝、彩色打印,這份用心設計的簡歷成功引起湯曉鷗的注意。“湯老師曾回憶,他之前和后來從未遇到過設計如此獨特的簡歷。”羅平笑著說。
正是這份簡歷,牽起了羅平與湯曉鷗、王曉剛(商湯研究院院長、香港中文大學電子工程系教授)的師生緣。師從兩位計算機視覺領域的頂級專家讀博士,羅平獲得了在學術上的迅速成長,并成為亞洲最早將深度學習應用于計算機視覺的研究者之一。
梳理羅平的科研足跡,從紅樓疊影的中山大學、萬木蔥籠的蓮花山計算機視覺研究院、兼容并蓄的香港中文大學、堅持原創的商湯科技到亞洲“常春藤”香港大學,伴隨時空的變化,他的研究也經歷了從軟件工程、計算機視覺、深度學習向更廣泛的人工智能方向轉變。歪打正著,羅平在科研上的步伐都不偏不倚踩在了計算機學科發展的點上。在慶幸這份幸運的同時,羅平也承認面臨的壓力。計算機視覺在過去5年的發展,對于羅平這些身處領域中的研究者來說,是帶有“洗劫”性質的破壞性創新。如何打破壁壘,在瞬息萬變的破壞性創新中建立更合理的機制,讓羅平的思維一直保持在最活躍的狀態。
蓮花山“朝圣”
“羅平博士開發了具創新性的人工智能技術,以教授機器人理解豐富的人類語言與行為,如人臉姿態與語言、人臉屬性與情感、肢體動作、服飾和社會關系等。相信人類智能在任何人工智能系統中都扮演著重要角色,通過構建人類智能和人工智能的協作橋梁,能夠極大提升AI技術的性能。”這是2020年入選“35歲以下科技創新35人”亞太地區榜單時,《麻省理工技術評論》給羅平的頒獎詞。
其實在此前,羅平已贏得諸多獎項,2014年國際圖像識別挑戰賽(ImageNet ILSVRC)亞軍、2017年DAVIS視頻分割挑戰賽冠軍、2017年八百萬Youtube視頻識別挑戰賽金牌及2018年自動駕駛可駕駛車道區域分析冠軍等。為表彰他們最早把深度學習應用于人臉識別的原創性工作,羅平和湯曉鷗還在2013年被授予微軟學者獎。獎項對于羅平,不僅是領域內對他工作的認可,也記載了他的科研軌跡。
成為醫生,是高中時羅平對職業的向往。報考大學時,他的第一志愿是中山大學的8年制醫學專業,但未能如愿,最后被第一年招生的軟件工程專業錄取。所以進入計算機這一正在快速發展的領域,在羅平是機緣巧合。
學習過程中,羅平發現自己對計算機科學有極大興趣。專業開設課程豐富,讓羅平迅速積累了不少知識。因在課后加入了朝紅陽老師組織的科研小組,羅平在大三時就有機會參與到一個“863”課題的攻關中。完整參與一個大項目,對于一個本科生來說是一個很高的起點,羅平幸運地踩到了這個點上。
項目由蓮花山計算機視覺研究院、北京電影學院動畫學院、中山大學三方共同申請,目標是研發中國第一個具有自主知識產權的動漫制作系統與數據庫。由全球著名計算機視覺專家朱松純教授帶領的蓮花山計算機視覺研究院負責算法與理論研究,北京電影學院動畫學院提供動畫素材與專業的動畫制作流程,中山大學負責軟件工程實踐。
大三被派至蓮花山,直到從中山大學碩士畢業,羅平一直都在那里開展研究。蓮花山環境優美,令人心曠神怡。在風景如畫之處能跟隨領域內的大專家學習,接觸當時最頂級的計算機視覺研究,對羅平來說是一種超值的收獲。
朱松純是湖北鄂州人,2005年,他在故鄉創辦蓮花山計算機視覺研究院,籌建了世界上最早的大數據標注團隊之一,發布了以精細化程度高、語義信息豐富著稱的大規模數據庫LHI Dataset。“用概率模型做邊緣提取,進行人臉識別研究,是當時計算機視覺的主流,朱老師又是代表人物,因此蓮花山成了‘圣地’,吸引了大批人來此‘朝圣’。”羅平說。
被譽為“AI教母”的李飛飛,創建了數據庫ImageNet。業內評價:“沒有ImageNet,就沒有現在的深度學習革命。”而ImageNet概念的起源,與2005年李飛飛到蓮花山的一次參會有或多或少的關聯。
2003年,朱松純因在做圖像解譯方面的突破拿到了計算機視覺的最高榮譽馬爾獎,隨后他牽頭舉辦了首屆“蓮花山計算機視覺與模式識別國際研討會”,此時李飛飛剛從美國加州理工學院博士畢業,受邀參加了會議。
會后,李飛飛認識到基于統計的算法極度依賴數據集的規模和代表性,大多數研究者都只是在盡可能地尋找更好的算法,但他們訓練模型所基于的數據卻并不能反映真實的世界,這樣即使再好的算法也不會訓練出有用的結果。因此她決定構建一個足夠大的能夠反映真實世界的開放數據集。
2007年年初,李飛飛回到美國普林斯頓大學任教,同時啟動了ImageNet項目。通過眾包平臺,李飛飛有效避開了此前朱松純在構建LHI Dataset時遇到的資金和時間上的瓶頸問題。到2009年,ImageNet已經完成了320萬張圖片的標注,而后來ImageNet大規模視覺識別挑戰賽(ILSVRC)的成功舉辦,更是大家有目共睹的。
“蓮花山上最前沿的計算機視覺研究啟發了很多曾在那里待過的人,也包括我。”羅平說。本科時,他已在圖像處理的頂級會議發表論文,2009年碩士第一年他就在計算機視覺三大會之一的歐洲計算機視覺國際會議(ECCV)上發表文章。
“那個年代沒有深度學習,通過設計圖像的語法,像名詞、動詞、形容詞那樣去描述圖像,每一個計算部件在模型里負責什么,解釋得非常清楚、完美。”用統計建模的方式去做計算機視覺,開拓了羅平的視野,也為他后來的研究奠定了扎實基礎。“能在蓮花山接觸到當時世界最好的計算機視覺科研,我覺得是一件很神奇的事情。”羅平說。
探路新方向
在蓮花山研發動漫制作系統時,羅平注意到了一些新的系統功能需求,例如把各種場景重新分割,不同因素再組合,制作新的動畫。這需要做視頻結構化研究,包括視頻解析、視頻分割、物體跟蹤等。另外如何把二維圖片做成三維模型,也是一大功能需求。
在研讀論文時,羅平了解到香港中文大學的湯曉鷗在做這樣的工作,在平面上畫線,能直接生成三維圖形。被這項工作深深吸引的羅平,認真準備了那份自薦信。收到信后,湯曉鷗沒有猶豫,將羅平收入麾下。師從湯曉鷗和王曉剛兩位計算機視覺領域的領軍人物,羅平在香港中文大學度過了3年的博士求學時光。
兩位恩師給羅平帶來的影響很大,包括從論文選題、實驗到寫作風格,剛開始都需要通過學習和模仿他們來得到提高。通過持續學習,羅平逐漸發展出自己的風格。
羅平之前的研究注重計算機視覺的建模跟理論,不太關注性能指標的評估。到香港后,他發現原來計算機視覺可以有非常嚴謹的,甚至嚴謹到有些夸張的大量性能評測。“他們非常注重算法實際落地的效果,會想方設法地證偽,去跟別人‘PK’,來確定究竟哪些方向真正值得提高,這是我之前從未接觸過的。”羅平說。
在香港求學更將羅平領入了一個全新的方向。2009年,微軟第一次將深度學習應用于大規模語音識別,只用了很短的時間就完成了微軟一個龐大團隊花幾個月做的事,在業內引起了轟動。敏銳的湯曉鷗很快嗅到這個新方向的潛力:他心想,語音的信號與視覺差不多,既然深度學習能在語音上取得驚人的效果,那深度學習也可能在視覺上取得驚人的效果。于是他當即和王曉剛商量。
王曉剛在讀博時研究計算機視覺的方法主要是概率圖模型,但也聽過深度學習,也很感興趣,堅定要研究深度學習。對于這個當時很少人關注的方向,湯曉鷗和王曉剛選擇了兩位學生來探索,其他人繼續做原來的工作。這兩位被選中的學生之一便是羅平。“湯老師后來跟我聊,因為他覺得我在入學前已經有頂會的文章,不用那么著急發文章,可以慢一點嘗試一些新探索。”羅平說。
湯曉鷗團隊算得上是亞洲計算機視覺領域最早進行深度學習研究的團隊。2011年開始做深度學習時,條件還很差。早期深度學習框架還沒出現,全球能跑通深度學習的團隊屈指可數,他們從零開始,是摸著石頭過河。最開始,他們是用C++寫代碼在筆記本電腦來跑數據。羅平回憶,他發表在國際計算機視覺與模式識別會議(CVPR)上的第一篇深度學習文章是在個人筆記本電腦上完成的。因為當時他們根本沒有拿CPU跑數據的意識,結果一個研究做了幾個月,都沒有獲得好的實驗結果。
湯曉鷗在深圳先進院有任職,與內地學者深入合作,可以申請一些內地的項目,拿到經費后才買了很多CPU。而那時王曉剛也還是一個處于長聘制考核中的助理教授,其實很有壓力。但他一直堅持和大家一起失敗了又繼續,從來沒有放棄。
當時卷積神經網絡用于深度學習研究的工具屬性已初見端倪,但一開始,羅平并沒有嘗試使用卷積神經網絡,因為大家開始注意到它,其實是在2012年的ImageNet比賽上它取得很大成功后。“我們最早使用的還是玻爾茲曼機這樣的模型,其實還是統計學習建模那套東西,我在蓮花山學的就是統計建模,這套東西對我來說非常熟。后來卷積神經網絡提供了強大的工具,把它與統計建模結合,有基礎加上工具,這可能也是我后來進展比較快的原因。”
隨后,羅平在計算機視覺和深度學習上做出了一系列開創性成果,2012年他率先將深度學習用于人臉分割、人臉生成等領域。與此同時,他做的人臉關鍵點工作還是多任務深度學習的代表性工作。
羅平和團隊伙伴的探索,掀起了深度學習應用于計算機視覺研究的熱潮。2011年計算機視覺領域頂會CVPR與深度學習相關的文章只有4篇,如今CVPR一年接收2000多篇文章,全部都與深度學習相關。而對于羅平他們來說,先行一點點,就與別人拉開了很大距離。據統計,2011年到2013年,羅平所在的MMLAB在國際計算機視覺大會(ICCV)和CVPR上一共發表了14篇基于深度學習的研究論文,占了兩大頂會在全球范圍內接收的深度學習論文總量(29篇)的一半。
當時,香港中文大學的學者在全球計算機視覺研究領域被封神。羅平記得去北京領微軟學者獎時,已故曠視科技公司首席科學家孫劍曾對他說:“我從來沒想過人臉識別可以這么做。”這對羅平是一個肯定的評價。
如此年輕,又在一個嶄新的領域取得如此突出的成績,有人曾問過羅平當時有沒有膨脹。他笑著坦言,確實出現過小插曲,讓他錯過了一個更大的成果。獲得微軟學者獎,就等于不用面試,直接拿到微軟重要科研小組的實習入場券,但羅平是為數極少的拿到獎卻從來沒去實習過的人。
“湯老師當時給我的規劃其實是跟著何愷明(計算機視覺領域著名學者)去做一些事情,但我手上有很多課題,覺得都能出不錯的論文,所以就完美錯過了下一波熱點——何愷明領銜的深度殘差網絡開發。”羅平說。
盡管如此,羅平所在的香港中文大學MMLAB還是吃到了深度學習應用于計算機視覺領域發展的紅利。到了2014年,MMLAB在深度學習視覺上的研究已經突破了學術與科研的邊界,開始體現出落地與產業化的態勢:2014年3月的高斯人臉識別(GaussianFace)算法在LFW數據庫上準確率達到98.52%,首次超過人眼識別率;6月的DeepID系列算法將準確率提升至99.55%,突破落地門檻。
資本的嗅覺很敏銳,MMLAB獲得了高達數千萬美元的天使輪投資。中國視覺人工智能市場從此拉開帷幕。2014年10月,商湯科技成立。
在“破壞”中突圍
2014年年底,從香港中文大學畢業后,羅平加入商湯科技,偏向于市場和企業需求,他為淘寶、阿里巴巴做了服裝品類分析、識別,線上換裝等相關的計算機視覺落地應用研發和技術儲備工作,雖然工作開展順利,但他一直有回到學術界的想法。
羅平感恩路上遇到的恩師、前輩,湯曉鷗、王曉剛及香港大學的王文平教授都是助力他成長的貴人。前兩位恩師將他帶入一個全新的領域,后一位前輩則將他帶回了學術界。
與王文平的兩次交集,羅平記憶深刻。一次是2011年申請讀博士時,王教授曾去中山大學面試,面試完后與羅平握了手,說“希望你能來”。另一次是2019年找教職,王教授告訴他香港大學有好機會,入職第一天,他又跟羅平握了手。王文平溫文儒雅、德行高尚,尤其他的兩次握手為羅平留下了深刻印象。“因為一個德高望重的人會主動過來跟你握手,對年輕人是非常大的觸動。”羅平說。
回到學術界的羅平,也回到了血雨腥風的“主戰場”,回顧過去5年,他坦言自己一直在尋求突破,嘗試在破壞中建立新的機制。“學術界變化非常快,深度學習的定義、計算機視覺的一些根本假設,它們的變化都是破壞性的發展,特別是2022年OpenAI發布了ChatGPT,計算機視覺領域在過去5年被‘洗劫’了很多次。”羅平說。
每次面對破壞性的變化,羅平都不會回避,而是直接迎上去。從卷積神經網絡、基礎模型到生成式模型,在破壞性創新帶來的挑戰中,羅平帶領團隊不斷突圍,力圖去建立更合理的機制。
2023年8月,上海舉辦了第一屆生成式人工智能(AIGC)國際會議,羅平參會并擔任會議程序委員會聯合主席。“在ChatGPT、AIGC快速發展的背景下,首屆、也是世界范圍內第一個專門針對人工智能生成內容的國際會議在上海舉辦,也證明了我們直面破壞性變化的勇氣和胸懷。”羅平坦言。
香港的科研支持主要來自于企業的捐贈,在此支持模式下,羅平追蹤著計算機視覺最前沿的技術發展。同時,他也承擔著科技部2030下一代人工智能重點研發計劃課題。他透露了目前課題進展情況:“各項指標超前,甚至還在不停迭代。”
羅平回憶,在MMLAB求學時,開會時每個學生都要上臺用一句話總結自己想要做的工作,而湯曉鷗的要求是,這句話必須總結到位,只要別人聽這一句話,就能立刻判斷出這個課題是否有研究的價值。
湯曉鷗選題就兩個標準:一個是開辟一個新方向,另一個是結束一個方向。2019年回到香港大學后,羅平指導學生和開展研究的要求也是如此。
“我指導學生的風格完全受湯老師的影響,他是那種不會說‘不’的人,你有任何想法、意愿跟要求,他都盡量想辦法無條件地滿足。他學生很多,博士生加上一些訪問學者,整個師門算下來有四五百人,我相信大家都覺得他是世界上最好的人。”羅平說。
羅平想成為湯曉鷗那樣的人,他也在用行動去成為那樣的人,給學生創造機會,鼓勵他們做獨一無二的創新,尊重他們的想法,并適當引導。在學生眼中他是一個很棒的人。采訪中,羅平的學生胡宇韜和紀源豐提到老師時都非常敬重和佩服他。
湯曉鷗將香港中文大學建成了中國計算機視覺的“黃埔軍校”,在他選擇一條冷清的道路時,有一批校友與他同行,隨后又遇到羅平等同路人繼承出新,他們走在了時代的前面,也得到了時代的饋贈。2023年湯曉鷗的故去,讓羅平對未來要走的路做了認真思忖。
未來,羅平愿將科研與基金事業揉到一起,他正在參與籌備MMLAB慈善基金,希望基金能為實驗室成員及他們的孩子提供一些幫助,尤其鼓勵他們投入人工智能跟交叉學科的研究中來。“我相信,這也是湯老師和他的家人都希望看到的。”在不確定的探索中繼續前進,總有人與羅平共闖“華山”。