999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Sora:文生視頻模型的突破與啟示

2024-06-21 03:50:14
信息化建設(shè) 2024年3期
關(guān)鍵詞:模態(tài)物理能力

Sora是OpenAI繼文字、圖像之后,在內(nèi)容生成領(lǐng)域的又一創(chuàng)新,強(qiáng)大的視頻生成和模擬能力標(biāo)志著AI在多模態(tài)領(lǐng)域?qū)崿F(xiàn)重大突破。Sora的視頻生成不僅僅是對人類語言的理解,而且是人對AI世界規(guī)律的更深認(rèn)知

2023年是屬于大語言模型的一年,而2024年,以Sora為首的多模態(tài)大模型,將帶領(lǐng)我們走向超乎想象的遠(yuǎn)方。Sora是OpenAI繼文字、圖像之后,在內(nèi)容生成領(lǐng)域的又一創(chuàng)新,強(qiáng)大的視頻生成和模擬能力標(biāo)志著AI在多模態(tài)領(lǐng)域?qū)崿F(xiàn)重大突破。

從技術(shù)原理看,Sora模型不是一次全新的底層技術(shù)創(chuàng)新,而是大語言模型技術(shù)的集大成者

目前,OpenAI沒有公布Sora的訓(xùn)練細(xì)節(jié),只在技術(shù)報告中提到Transformer(谷歌團(tuán)隊2017年提出的一種經(jīng)典模型)、擴(kuò)散模型、Patch等,這些都不是新技術(shù)。初步判斷,Sora不是全新的底層大模型,而是建立在OpenAI一系列堅實的技術(shù)沉淀上,包括視覺理解Clip、Transformers模型和ChatGPT、Video Caption(DALL·E3)等,是基于“語言大模型訓(xùn)練思路+模型創(chuàng)新”的一次進(jìn)步。

深度神經(jīng)網(wǎng)絡(luò)依然是Sora的基礎(chǔ),將視覺數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的表示形式,運(yùn)用帶有Transformer框架擴(kuò)散模型Diffusion,給定輸入的噪聲塊+文本prompt,來預(yù)測原始的“干凈”分塊,AI從數(shù)據(jù)中學(xué)習(xí)并執(zhí)行復(fù)雜的任務(wù)。同時,OpenAI引入了視覺領(lǐng)域的Patch,將各種不同尺寸、分辨率、長寬比、時長的視覺數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的表示形式,極大擴(kuò)展了訓(xùn)練樣本的來源和數(shù)量,提升了豐富度。類似語言模型,經(jīng)過大規(guī)模樣本訓(xùn)練后,Sora展現(xiàn)出模擬現(xiàn)實世界某些屬性的“涌現(xiàn)”能力。同時,根據(jù)用戶喜好,Sora運(yùn)用DALL·E3等“文生圖”應(yīng)用,修改出不同的視頻風(fēng)格。

Sora可生成分辨率1920×1080的視頻,也可基于靜止圖片創(chuàng)建視頻,使用新素材擴(kuò)展現(xiàn)有素材。比如,用戶給它一張森林圖片,它可以幫你加上鳥、獸、人;給它一張汽車行駛圖,它能加上道路、交通燈、沿途建筑物和風(fēng)景。Sora類似語言模型,經(jīng)過大規(guī)模樣本訓(xùn)練后,展現(xiàn)出模擬現(xiàn)實世界的“涌現(xiàn)”能力。

從發(fā)展進(jìn)程看,Sora是視頻領(lǐng)域的ChatGPT時刻

Sora目的是創(chuàng)建能夠“模擬物理世界”的通用工具,Sora離真正的“世界模擬器”還有相當(dāng)?shù)木嚯x,效果雖然不完美,但證明了這條路的可行性。Sora的視頻生成不僅僅是對人類語言的理解,而且是人對AI世界規(guī)律的更深認(rèn)知。

Sora目的是創(chuàng)建能模擬物理世界的通用工具

在Sora之前,并不清楚長期的一致性能否獨(dú)立出現(xiàn),或者它是否需要復(fù)雜的主題驅(qū)動生成流水線,甚至是物理模擬器。GPT—4必須隱式地學(xué)會Python基本知識,才能生成Python代碼,并不是直接存儲符號化的Python語法知識。同樣,Sora必須學(xué)習(xí)一些隱式的文本到3D、3D變換、光線追蹤渲染和物體運(yùn)動等物理規(guī)則,才能精確地模擬視頻像素。

Sora是通過數(shù)據(jù)學(xué)習(xí)和直觀感受來實現(xiàn),模擬現(xiàn)實世界中的人、動物和環(huán)境,不需要對三維空間、物體等有任何特定的人工建模,而純粹由大規(guī)模的數(shù)據(jù)驅(qū)動。OpenAI把視頻生成模型稱作“世界模擬器”,認(rèn)為持續(xù)擴(kuò)展視頻模型是一條模擬物理和數(shù)字世界的希望之路。當(dāng)然,Sora離真正的“世界模擬器”還有相當(dāng)?shù)木嚯x,其技術(shù)路徑是否正確,業(yè)界還有不同聲音。

Sora在生成效果上與之前的技術(shù)拉開了顯著差距

在視頻時長上,以前的視頻生成模型,只能生成固定尺寸、時長幾秒鐘的視頻。Sora能生成各種尺寸視頻(最大2048×2048),時長達(dá)到60秒。

在視覺效果上,Sora同樣表現(xiàn)優(yōu)越,視頻中的人物和場景元素能夠在三維空間中保持連貫移動,并能有效處理短距離和長距離的依賴關(guān)系。同樣,Sora能在同一視頻樣本中多次展示同一角色,確保其外觀貫穿始終。甚至能模擬出簡單的影響世界狀態(tài)的行為。

值得注意的是,Sora的關(guān)注點是創(chuàng)建模擬物理世界的通用工具,并不特別注重畫質(zhì)、細(xì)節(jié),但其視覺效果仍然非常優(yōu)秀。

從價值意義看,Sora將重新定義人類與AI的交互關(guān)系

“真實”和“虛擬”的界限將變得模糊

Sora不僅僅是“視頻模型”,而且是“世界模擬器”,是OpenAI“教AI理解和模擬運(yùn)動中的物理世界”計劃中的一步,目的是幫助人們解決需要現(xiàn)實世界交互的問題。

憑借以假亂真的視頻生成能力,Sora將為短視頻和游戲行業(yè)帶來新機(jī)遇。同時,傳統(tǒng)影視制作和商業(yè)模式將面臨重塑,可能會減少對人類演員、編導(dǎo)等創(chuàng)造性角色的需求。同時,基于AI技術(shù)強(qiáng)大的圖片和視頻生成能力,可能加劇虛假信息的泛濫,因此需要多角度地思考“真實”與“虛擬”交融帶來的影響。目前,Sora正在進(jìn)行評估關(guān)鍵領(lǐng)域潛在危害或風(fēng)險的工作,OpenAI還邀請了一批視覺藝術(shù)家、設(shè)計師和電影制作人加入,屆時Sora的能力將進(jìn)一步完善。

人與AI之間的新交互與新關(guān)系

GPT和Sora的出現(xiàn)徹底變革了人機(jī)交互模式,讓用戶通過直接說話與AI交流,讓自然語言交互成為可能,極大地提高了可操作性。相較于傳統(tǒng)的圖形用戶界面,自然語言是人類最自然的交互方式,幾乎不需要學(xué)習(xí),且交互效率更高。

新的交互模型會如何影響組織中的人機(jī)協(xié)同?人類與機(jī)器的關(guān)系將何去何從?技術(shù)進(jìn)步既是挑戰(zhàn)也是機(jī)遇,需要更多地思考如何在AI時代定位自己,如何將AI技術(shù)為我所用。AI的意義在于讓更多人從簡單重復(fù)的勞動中解脫出來,以更高的效率去創(chuàng)造更大的價值。當(dāng)自然語言的交互模式極大降低AI技術(shù)的應(yīng)用門檻,任何人都能使用AI輔助自己的工作。

AI離物理世界更近了一步

GPT展現(xiàn)了強(qiáng)大的文本處理能力,但主要處理單一模態(tài)數(shù)據(jù),而Sora預(yù)示著多模態(tài)模型在模擬物理世界時的巨大潛能。當(dāng)然,目前的AI工具精細(xì)度仍然有限,如何高效地與AI溝通,將是未來必須學(xué)習(xí)和具備的技能。OpenAI給出簡單的指令,如“一個身穿藍(lán)色牛仔褲和白色T恤的女人在南非約翰內(nèi)斯堡愉快地散步,在一場冬季風(fēng)暴中”,Sora就能生成一個非常真實、流暢的短視頻,而女人膚色、路人等細(xì)節(jié)都不在指令中。

從體驗和娛樂角度看,Sora生成的視頻非常驚艷且有趣,但生成具有科普性或商業(yè)化等專業(yè)性較高的視頻時,仍需要滿足更多內(nèi)容和細(xì)節(jié),一方面用戶須提供盡可能詳細(xì)的指令。另一方面,AI不能完全理解并實現(xiàn)用戶提出的每一個指令細(xì)節(jié)。以GPT為例,如果給出一個較為復(fù)雜的指令,有時候GPT就會“自主”忽略指令中的幾個細(xì)節(jié)要求,甚至似是而非。

從國際競爭來看,國內(nèi)企業(yè)與Sora有較大差距,但追趕的技術(shù)路徑清晰

Sora具備多項創(chuàng)新功能,同業(yè)處于追趕狀態(tài)

Sora具備多項創(chuàng)新:

一是Sora可輸出長達(dá)60秒的一鏡到底的文生視頻,準(zhǔn)確性、多樣性和穩(wěn)定性均有所提升;

二是多鏡頭切換,Sora可在單個視頻中設(shè)計出多個鏡頭,并在多角度的鏡頭切換中能保持人物、邏輯等一致性;

三是Sora在理解用戶Prompt(輸入到文生圖模型的文字)的同時,也同步分析該P(yáng)rompt中事物身上的物理規(guī)律,如OpenAI展示的視頻中,汽車在山路上的顛簸、火車車窗上的倒影等鏡頭符合物理規(guī)律,視頻更接近于人類現(xiàn)實拍攝。

Sora的技術(shù)路徑具備可復(fù)制性

Sora所依賴的技術(shù),如Transformer和擴(kuò)散模型、視覺理解模型、語言模型是過去幾年廣泛研究且公開發(fā)表的技術(shù),更多是一種工程上的應(yīng)用和優(yōu)化,國內(nèi)企業(yè)具備趕超的能力。如國內(nèi)企業(yè)的擴(kuò)散模型技術(shù)已廣泛應(yīng)用到圖像生成、視頻生成領(lǐng)域;視覺理解領(lǐng)域的零樣本圖像描述、通用視覺問答、文本導(dǎo)向的視覺問答、細(xì)粒度視覺定位等領(lǐng)域能力,整體上已接近GPT—4V,語言模型能力與GPT—4Turbo接近。但如何找到實現(xiàn)高質(zhì)量文生視頻的工程化方法和路徑,仍需要艱辛的探索和試錯。

Sora之后預(yù)示著大模型需要更多人才、算力和數(shù)據(jù),這將加速AI基礎(chǔ)大模型供給側(cè)收斂的步伐

業(yè)界一種猜測是,GPT5具有接收全模態(tài)輸入、產(chǎn)生全模態(tài)輸出的能力,具備對物理世界的理解和建模能力,這也是Sora需要具備的能力。Sora就是GPT5的一部分,它們共同成長、演進(jìn)和迭代。從ChatGPT到Sora,大模型為科技公司不斷帶來充滿前景的新賽道,進(jìn)一步驗證了基礎(chǔ)大模型產(chǎn)業(yè)是技術(shù)、資本、人才、算力、數(shù)據(jù)高度密集型產(chǎn)業(yè)。

Sora進(jìn)一步提高了基礎(chǔ)大模型的門檻,這意味著進(jìn)入AI基礎(chǔ)模型的競爭賽道,企業(yè)需要做好人才、算力、數(shù)據(jù)和資本長期高強(qiáng)度投入的準(zhǔn)備,并能構(gòu)建大模型商業(yè)化可行的路徑和商業(yè)模式。這進(jìn)一步加速了AI基礎(chǔ)大模型供給側(cè)收斂的步伐。從目前來看,美國正在形成以3家AI基礎(chǔ)大模型為主導(dǎo)的市場競爭格局。

2023年中國涌現(xiàn)了254個大模型,有人說,中國迎來了“百模大戰(zhàn)”。事實上,中國不存在“百模大戰(zhàn)”,可能連“十模大戰(zhàn)”也不存在。這就像幾百人參加的田徑賽場上,有人擲鐵餅,有人扔標(biāo)槍,有人在跳高,有人跑百米,但能進(jìn)入10項全能的只有3—5個。未來3—5年,中國真正能在AI大模型賽道上具備追趕美國GPT技術(shù)步伐的企業(yè),將是非常有限的。

(本文由阿里云科技研究中心供稿)

猜你喜歡
模態(tài)物理能力
只因是物理
井岡教育(2022年2期)2022-10-14 03:11:44
消防安全四個能力
處處留心皆物理
大興學(xué)習(xí)之風(fēng) 提升履職能力
你的換位思考能力如何
三腳插頭上的物理知識
國內(nèi)多模態(tài)教學(xué)研究回顧與展望
抄能力
我不是教物理的
中學(xué)生(2015年2期)2015-03-01 03:43:33
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
主站蜘蛛池模板: 99热这里只有免费国产精品| 久久精品国产亚洲麻豆| 久久不卡国产精品无码| 十八禁美女裸体网站| 精品国产美女福到在线直播| 精品久久综合1区2区3区激情| 欧美日韩成人| 日韩欧美色综合| a欧美在线| 欧美午夜视频在线| 国产精品乱偷免费视频| 国产噜噜噜| 亚洲无码高清一区二区| 亚洲综合天堂网| 人妻91无码色偷偷色噜噜噜| 欧美成a人片在线观看| av色爱 天堂网| 一本大道香蕉高清久久| 亚洲无线国产观看| 欧美亚洲国产视频| 日韩精品久久久久久久电影蜜臀 | 无套av在线| 亚洲中文精品人人永久免费| Jizz国产色系免费| 亚洲国产黄色| 四虎国产永久在线观看| 手机在线免费不卡一区二| 国产福利在线免费观看| 麻豆国产在线不卡一区二区| 免费看美女自慰的网站| 亚洲一道AV无码午夜福利| 亚洲最新地址| 成年av福利永久免费观看| 国产乱肥老妇精品视频| 在线a网站| www.亚洲天堂| 亚洲一区二区三区中文字幕5566| 欧美一级专区免费大片| 亚洲一级毛片在线观播放| 黄色三级毛片网站| 69av免费视频| 在线中文字幕网| 视频国产精品丝袜第一页| 国产成人免费手机在线观看视频| 国产sm重味一区二区三区| www.91中文字幕| 国产伦片中文免费观看| 福利在线一区| 日韩在线永久免费播放| 激情六月丁香婷婷| 国产精女同一区二区三区久| 99这里只有精品免费视频| 日韩免费毛片| 国产成人无码Av在线播放无广告| 国产91色在线| 国产精品久久久久久久伊一| 国产精品成人免费视频99| 凹凸国产分类在线观看| 久久精品午夜视频| 国产亚洲一区二区三区在线| 国产成人精品视频一区二区电影| 国产精品一线天| 香蕉网久久| 色网站在线视频| 欧美日韩中文字幕二区三区| 免费a级毛片18以上观看精品| 国产熟女一级毛片| 久久五月视频| 日韩黄色大片免费看| 国产精品露脸视频| 国产精品免费电影| 亚洲中文字幕av无码区| 日韩小视频网站hq| 欧美三级日韩三级| 女人18毛片一级毛片在线 | 天堂在线www网亚洲| 中文字幕在线播放不卡| 97se亚洲综合在线| av免费在线观看美女叉开腿| 亚洲视频在线青青| 91成人在线观看视频| 亚洲一级毛片|