
近日,網絡上出現(xiàn)一幕網球名將“費德勒” 同“小威廉姆斯”同場競技的情景,網球愛好者們紛紛驚掉了下巴。這場男女單打的破天荒對戰(zhàn),是如何發(fā)生的呢?
原來是一名來自斯坦福大學計算機專業(yè)的博士生——張浩天,他和團隊使用 AI 技術生成了上面的場景。張浩天介紹,該項目的名稱為 Vid2Player,可以讓你操控選手并實時生成接近真實的比賽視頻。除了能讓費德勒同小威對戰(zhàn),它還有很多有趣的功能。
溫網破天荒地被取消,多少球迷斷供,Vid2Player 或許不失為一條新的 “解渴” 路徑。
網球冠軍的弟子
事情的起因很簡單。“我個人對視頻理解與生成非常感興趣,尤其是利用已有的大規(guī)模視頻數(shù)據(jù),比如在 YouTube 平臺,來解決現(xiàn)實中遇到的問題。”張浩天說。
此前他曾做過一個項目,是使用 AI 技術去分析、理解過去十年來美國主要的三家有線電視網絡(CNN、FOX News、MSNBC)的視頻數(shù)據(jù)中出現(xiàn)的人物及內容。由于是嚴肅的報道內容,不太適合將視頻生成技術應用其中,這讓他非常遺憾。
所以在立項之初,他就決定挑選一個適合于做視頻生成的領域,后來便選中了體育賽事類視頻。原因有三。首先,體育比賽中包含豐富的人類肢體動作及與相關道具的交互,而且運動員天然遵守比賽規(guī)則,有更強的規(guī)律性及約束性,這非常適合于做視頻生成;其二,這一類素材在網絡上非常容易獲取;其三,體育賽事的受眾很廣,因此未來該技術的應用前景更加多元。
至于為什么選擇網球,張浩天笑稱,他的博士導師 Kayvon Fatahalian 在卡內基梅隆大學讀本科階段,曾經是美國大學生網球聯(lián)賽(NCAA)的男子單打冠軍,是非常優(yōu)秀的運動員,選擇網球或多或少受他的影響。
Vid2Player 從立項到論文定稿,大概經歷了一年時間。它更多地是基于計算機圖形學來展開,其中用到的最經典的方法是視頻紋理技術,該技術歷史悠久,可以追溯到 “拳皇” 時代。張浩天解釋道,根據(jù)用戶指定的輸入,比如想要放一個“大招”,程序可以選擇對應的視頻片段來播放,玩家就可以看到他控制的角色做出了對應的動作。“我們使用視頻中的已有片段來呈現(xiàn)展示內容,會讓生成的視頻顯得更加真實。而假如這個項目使用純 AI 技術,就意味著運動員全部由模型通過神經網絡生成,目前這類技術尚未成熟,生成的視頻可能存在模糊、動作不連貫等問題。”
AI 技術在 Vid2Player 的應用主要是負責決策運動員的行為。AI 會根據(jù)當前雙方球員的位置及球的軌跡等信息,決定運動員接球的擊打方式、落點以及擊打后運動員恢復準備狀態(tài)的位置。他們根據(jù)原始比賽視頻中運動員的歷史數(shù)據(jù)為每一名網球名將訓練了這樣一個模型來負責控制角色的行為和規(guī)則。以上兩種技術分別負責運動員的外觀和行為,再加上一個掌控全局的網球回合狀態(tài)機——運動員擊球前跑位、擊球、擊球后跑位,周而復始運行,一場完整的網球比賽就此生成。
自由 “操控” 網球名將
張浩天說,為了最終實現(xiàn) Vid2Player,我們需要對從網絡下載的視頻進行必要的標注工作。首先,預先逐幀框選出兩個運動員的位置,然后標注遮罩及姿勢的關鍵點。另外,還需要知道球的軌跡,相當于在每一幀標注出球的位置。這里有兩個很關鍵的時刻——球被運動員擊打的時刻和位置、球被擊打出之后,落地反彈的時刻和位置。最后,還要對現(xiàn)有視頻中網球場地進行三維重建,將 2D 信息轉換成 3D 的格式。
值得注意的是,目前每次擊球的時間都需要人為手工進行標注。張浩天解釋道,由于擊球的瞬間球速很快,并且球體很小,他們的 AI 暫時不能很好地定位捕捉,這里的確有待改進。除此之外,以上絕大部分的標注工作都可以通過計算機模型自動生成。包括張浩天在內的 Vid2Player 兩名主力成員,本次共處理標注了 20 個小時左右的網球比賽素材。
此外,為了讓輸出的網球比賽更加貼近真實場景,他們做了很多的工作:
表現(xiàn)層處理完畢之后,需要加入控制層的邏輯。張浩天說,之后,你可以像玩游戲一樣實時操控一方運動員,改變他的跑位及擊球位置。Vid2Player 中訓練的運動員模型可以實現(xiàn)自動針對對方的弱勢手、高難度接球、近網的位置截擊等等技術動作。
比如下圖,當程序的行為模型介入之后,成功“扭曲現(xiàn)實”,給出更加符合網球策略的擊球方案。加入狀態(tài)機的邏輯之后,網球賽中的每個回合都被分解,循環(huán)往復串行。
在這些基礎之上,可以做一些非常有意思的事情,比如可以編輯已有的網球比賽。有個例子是費德勒在 2019 年溫網決賽痛失賽點的一個經典失誤,利用 Vid2Player 可以改變費德勒擊球的落點,這一小小的改變足以扭轉歷史,讓費天王拿下 2019 溫網冠軍!
你還可以改變對戰(zhàn)雙方的運動員,前提是該運動員處于視頻集合當中。比如開頭的費德勒同小威廉姆斯的同場競技,甚至你還可以請費德勒自己同自己對局。如果你愿意,甚至可以錄制一些原始的素材,經由 Vid2Player 處理,生成同費德勒對戰(zhàn)的視頻。
應用前景
是否考慮未來將 Vid2Player 應用到游戲當中,張浩天的回答是:“現(xiàn)在主流的游戲同我們采用完全不同的技術路線,一般情況下如果游戲廠商要做一款真人網球游戲,他們必須讓運動員穿著采集器來建立 3D 模型,而 Vid2Player 目前是以純二維的方式來解決問題。”“我們更多地是從視頻生成的角度,解決了生成真人網球視頻的問題。理論上,這個解決方案也適用于乒乓球和羽毛球的單打比賽中。”“目前 Vid2Player 所能做的其實比較有限,未來我們考慮讓它能夠兼容更多種的運動和模式。拿籃球運動來舉例,屆時我們希望它不再需要人類幫助定義狀態(tài)機,而是讓 AI 自己學會區(qū)分不同的狀態(tài),如傳球、投籃、格擋等等。”視頻生成比圖像生成要難得多,張浩天說。在圖像生成領域,利用 GAN 已經能夠生成很真實的圖像,如人臉等。
但視頻生成領域,純 AI 的模型還很難生成任意的高像素、逼真的視頻。其原因在于,視頻的復雜度較圖像要高很多,當加入時間的維度之后,空間大小暴漲。需要無限的模型容量以及無限的訓練數(shù)據(jù),才可能有一個通用的 AI 生成視頻模型。他說,以目前的硬件和算力水平,這個問題尚無法解決。目前視頻生成領域可以使用 AI 解決換臉的問題,原因在于臉部其實是一個非常強的約束條件,相比之下,至今還沒有一款公開、通用且成熟的能夠生成人體全身動作的 AI 模型。“所以,我們的出發(fā)點不是一個通用的視頻生成模型,而是專注于生成某領域的視頻模型。Vid2Player 因此而誕生,它其實融合了兩個領域的技術,一是視頻生成,二是統(tǒng)計學意義上的體育視頻分析。”
張浩天描述道,體育視頻分析的商業(yè)前景廣闊,已經有很多公司在做相關的數(shù)據(jù)挖掘的工作,比如籃球運動員的罰球命中率、搶籃板數(shù)等就是來自于此。再比如 Vid2Player 中用到的預測網球落點的技術,也是關鍵、且非常熱門的技術。“但是此前沒有人將這兩個領域結合到一起,某種程度上我們做了一件前人沒做過的事。希望未來這項技術可以應用到體育新聞解說或體育教學的可視化中,為受眾提供一種全新的體驗。”
(綜合自網絡)(編輯/萊西)