
Meta發布了一個新的人工智能系統Make-A-Video,它可以基于文本提示生成短視頻。
Make-A-Video允許你輸入一些單詞或句子,比如“一只狗狗穿著超級英雄的服裝和一件紅色斗篷在天空中飛翔”,然后它會生成一個5秒的短視頻片段,雖然準確率很高,但視頻效果有些不盡如人意。
盡管效果相當粗糙,但該系統提供了生成式人工智能的早期前景,這也是2022年掀起了巨大熱潮的從文本到圖像的人工智能系統的下一步。
Meta發布的Make-A-Video可能會促使其他人工智能實驗室發布他們自己的版本。這也引發了一些重大的倫理問題。
人工智能實驗室OpenAI開始向所有人提供其最新的文本到圖像的人工智能系統DALL-E ,另一家人工智能初創公司Stability.AI也推出了開源的文本到圖像生成系統Stable Diffusion。
但從文本到視頻的人工智能面臨著一些更大的挑戰。首先,這些模型需要大量的計算能力。
它們所需的算力,比大型文本到圖像的人工智能模型多得多,因為它們使用數百萬張圖像來訓練,生成一個短視頻就需要用到數百張圖像。
這意味著,在可預見的未來,只有大型科技公司才真正有能力建造這些系統。它們的訓練也比較困難,因為沒有與文本匹配的高質量視頻數據集。
為了解決這個問題,Meta整合了來自3個開源圖像和視頻數據集的數據來訓練其模型。
經過標注的靜態圖像(標準文本圖像數據集)可以幫助人工智能掌握物體的名稱和樣子。
視頻數據庫可以幫助它理解這些物體如何在真實世界中行動。這兩種方法的結合有助于實現基于文本生成視頻并最終用于制作Make-A-Video模型。該模型的詳細介紹發表于一篇未經同行評議的論文中。
艾倫人工智能研究所的計算機視覺研究科學家坦梅爾·古普塔說,Meta的研究結果看起來很有前景。
Meta發布的視頻顯示,該模型可以隨著相機的旋轉捕捉到三維形狀。該模型也對深度和光照的概念有著一定的理解。古普塔表示,許多細節和動作都做得很不錯,而且令人信服。
然而他也補充說,“技術層面仍有很大的進步空間,特別是如果這些系統要用于視頻編輯和專業內容創作,比如我們仍然很難在物體之間建立復雜的交互模型。”
在使用“藝術家用畫筆在畫布上繪畫”這段文字生成視頻時,我們可以看到畫筆在畫布上移動,但畫布上的筆觸并不真實。古普塔說:“我希望看到這些模型能夠成功地產生一系列的互動,比如‘男人從書架上拿起一本書,戴上眼鏡,一邊坐下來一邊喝咖啡’。”
就Meta而言,它將這項技術視為是“為創作者和藝術家打開新的機會”。
但隨著技術的發展,人們擔心它可能會被用來作為一種制造和傳播虛假信息和深度造假的強大工具。這可能會使區分網絡內容的真假變得更加困難。
合成媒體專家亨利·阿杰德說,Meta的模型提高了生成式人工智能的技術和創造性,但同時也帶來了風險,因為“生成視頻而不是靜止圖像可能造成獨特的傷害”。
古普塔說:“至少在今天,創造出人們可能相信的虛假內容需要花費一些努力。但在未來,可能只要點幾下鼠標,就有可能產生誤導性的內容。”
制作Make-A-Video的研究人員過濾掉了包含攻擊性的圖片和文字,但他們使用了由數以百萬計的圖片和單詞組成的數據集,幾乎不可能完全刪除所有有偏見和有害的內容。
Meta的一位發言人表示,他們還未計劃向公眾提供該模型,“作為本研究的一部分,我們將繼續探索進一步完善模型和降低潛在風險的方法。”