費斌杰
2月15日,OpenAI發布了Sora模型,能夠根據提示詞生成長達一分鐘的視頻,效果以假亂真。
Sora究竟是怎么做到的呢?
微軟研究院在近期發布了一篇論文,對Sora背后的技術框架給出了猜測,還是有較高的可信度的。
我先給大家講一下重點。
關鍵技術一:DiT。Sora模型與此前同類模型相比,最大的區別在于使用DiT作為模型的主網架構。
DiT全稱為Diffusion Transformer,其本質是DDPM與Transformer的結合。DDPM即去噪擴散概率模型,是一種傳統的擴散模型。
Sora和Runway、Pika都用了Diffusion擴散模型。不同之處在于,Sora把主網架構從U-Net換成了Transformer。
值得一提的事,DiT并不是一個新模型,是去年3月份發布的,兩個作者分別是Peebles和謝賽寧。
Peeble在不久之后進入了OpenAI,成為Sora模型的核心主力,而謝賽寧教授則在紐約大學任教。
有趣的是,當時他倆的這篇跨時代的論文,被CVPR拒稿了,因為創新不足(limited novelty)。
關鍵技術二:視頻壓縮網絡與時空區塊。視頻數據包含的信息量巨大,如果不進行壓縮處理就開始訓練,會消耗大量帶寬和存儲資源。
因此,Sora通過“視頻壓縮網絡”技術,將輸入的圖片或視頻壓縮成一個更低維度的表示形式。
根據推測,這里的視頻壓縮網絡,大概率使用了VAE,即變分自編碼器。接下來,Sora將這些壓縮后的數據進一步分解為“時空區塊”(Spacetime Latent Patches),統一了圖像、視頻在“時間”與“空間”這兩個維度上的數據表達。
這就是Sora能夠不限分辨率、視頻時長、視頻尺寸進行訓練的原因。
理論上看,只要算力足夠,Sora生成的視頻長度可以無限長,圖像效果可以無限逼近真實。
我們知道,涌現能力(Emergent Abilities)是本輪AI的第一性原理。
如果說ChatGPT是涌現能力在文本生成方面的體現,那么Sora模型就是涌現能力在視頻生成領域的體現。
關于Sora是否存在涌現,一直存在爭議。我認為這個結論是相當明確的。
因為,“真實感”本身就是一種涌現。
這次Sora生成的視頻,很多朋友看到的第一感受,就是“真實”。
其實,要讓我們人類感覺到真實,是一件看起來簡單,實則非常困難的事情。
因為真實感的背后,是無數細節的堆疊。
以Sora生成的貓貓走路視頻為例。這個視頻看起來很真實,是因為:
潮濕地面的光影反射,符合基本光學原理。貓貓走路是四肢協調,符合基本的曲柄連桿機械原理,以及自由度限制。貓咪毛茸茸且飄逸的毛發,符合基本的流體力學原理,等等。
只要其中有哪怕一處細節與常識嚴重不符,就會打破“真實感”。所以,真實感,其實也是一種涌現。需要無數個細節的擬真,才會涌現出真實感。
Sora告訴我們,通過訓練大型視頻生成模型,有望構建真正意義上的物理世界模型,從而增進我們對世界的理解。
相信Sora只是開始,還有更多的精彩在路上。