10月20日,由中國電子信息產業發展研究院主辦的“第一屆中國人工智能技術與應用大會暨人工智能60周年頒獎典禮”在北京舉行。
“人工智能立體設計師崢嶸”為還原視覺本真、推動產業革新做出重大貢獻,評獎組委會授予“中國人工智能技術創新獎”。
一直以來,機器視覺都被看作人工智能領域的一大難點。深度學習的發展將人工智能及其在各行業的應用,推向了一個全新的高度。
“崢嶸”便是將深度學習與產業需求相結合,在機器視覺領域的一項重大突破。
機器的藝術直覺
嚴格意義上,“崢嶸”是一位人工智能立體設計師,它基于北京聚力維度科技有限公司(以下簡稱“聚力維度”)研發的人工智能2D轉3D技術,用于2D視頻向3D的轉換。
傳統的手工3D轉制工藝,不僅流程繁雜且難度高。轉制工序主要分為圖像分割、深度繪制、補圖及合成,四道程序。人類立體設計師不僅要看到第一只眼睛看不到的東西,也需要勾畫出每一幀的深度。不僅要圈出輪廓,當物體離得較近時,也要細細定義出每一局部的深度值,比如鼻子、眼睛、嘴巴等,并嚴格按照深度值來擺放。由此,傳統的3D轉制工作會耗費大量時間和人力成本。
但是,當機器擁有了藝術直覺,一切將會大有不同。“崢嶸”就是一位擁有藝術直覺的人工智能立體設計師。
它天生能進行完美的深度預算。研發人員曾讓人類立體設計師與“崢嶸”同時轉制同一幀鏡頭。幀鏡頭中畫面的景深很大,人眼看來,背景一片模糊。近處,只有一位滿臉溝壑的長者頭像。
一位擁有近3年3D轉制經驗的手工立體設計師,整齊地分割出老者的面部輪廓與模糊的背景,并細致地雕琢鼻子、眼睛、皺紋等細節,技藝精湛。當“崢嶸”轉制出同一幀鏡頭的深度圖時,右上角卻出現了一塊高亮區。這讓研發人員大為困惑。在對原片進行對比度等調整后,在原片右上角竟有一張人臉。
“崢嶸”不僅能識別人眼不易看清的場景,在繪制顏色相近、人物遠近距離微差畫面上,也遠超人類立體設計師。另外,它將3D轉制時效凈提升120余倍,在時效上也優勢明顯。
目前,聚力維度已經用“崢嶸”完成了網絡劇《執念師》的3D 轉制工作,熱播劇《幻城》的轉制任務也開始緊鑼密鼓地進行。
“深度學習+”的產物
人工智能立體設計師“崢嶸”的主要技術負責人趙天奇也是聚力維度的CTO。他從2009年開始研究3D顯示技術,并敏銳地意識到3D內容將是3D顯示技術中的重要部分。
2010年,趙天奇創立公司,并推出國內領先的2D轉3D 軟件,并成功申請多項專利和軟件著作權。
只有預先埋下種子,否則再合適的土壤,也不會發芽。趙天奇和他的團隊,就是一群預先播種者。創業開始,他們就在研究智能2D轉3D的可行性。
“那時候經常有人問我,2D轉3D能否由智能算法自動完成?我的回答都是不能。一方面,我們查遍了當時相關計算機視覺領域的最前沿論文,能達到的效果距離現實需求太遠;另一方面,所有的算法從智能本質上來看過于低端,僅能實現一定的立體效果。”
他們同時也在關注人工智能領域發展迅猛的深度學習技術,但直到2014年后半期,出現可以給出圖像像素級結果的技術時,趙天奇才感覺看到了實現智能2D轉3D技術的曙光。
憑借多年在2D轉3D領域的技術積累,并結合深度學習的特點,同時,聯合清華大學、北京郵電大學和澳大利亞阿德萊德大學的幾個研發團隊,終于在2014年底實現第一張圖的自動轉換。
2015年初,第一個有生產價值模型研發成功,這是人工智能立體設計師,并將它命名為“崢嶸一號”。趙天奇表示:“目前‘崢嶸二號‘崢嶸三號和‘崢嶸四號的模型也已落地。尤其‘崢嶸四號模型的表現已經達到人類立體設計師學習立體轉制九個月的水準。”
“人工智能+”或者說“深度學習+”,是人工智能顛覆傳統行業的主要形式。他要求企業既具備強大的深度學習能力,又要精通某個行業。所以,想要實現“深度學習+3D轉制”的顛覆,既要在深度學習領域達到世界前沿水平,同時也要將傳統2D轉3D的技術內核修煉的爐火純青,并對其商業應用了如指掌。
趙天奇和他的團隊就是不斷在行業內摸爬滾打并直擊痛點。在大量國內外一線電影的3D轉制項目中,他們積累下豐富的實操經驗,并逐步落實到算法和工序中。在用深度學習解決3D轉制問題時,他們幾乎沒走彎路。
經驗與使命重疊
深度學習不是一項強人工智能技術,很多有巨大市場前景的需求并不能被深度學習解決。聚力維度是幸運的,通過深度學習實現了2D視頻向3D的自動轉換。
趙天奇介紹,“崢嶸五號”、“崢嶸六號”模型也在研發中,“崢嶸”系列的終極目標是讓機器在處理毫無規律可言的鏡頭畫面時從各個方面超越人類。
“據了解,僅有華盛頓大學和我們一樣也在使用深度學習來解決2D轉3D的問題。可惜他們缺乏產業經驗,建立的模型效果并不好。”趙天奇說,“我們無所謂技術壁壘,最大的敵人不是競爭對手,而是能否把人工智能2D轉3D的問題徹底解決,在這個領域為人類的強人工智能的未來做出貢獻。”