999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

從Sora到“世界模擬”:視頻大模型的技術原理、應用場景與未來進路

2024-07-09 12:35:41任天知沈浩
新聞愛好者 2024年6期

任天知 沈浩

【摘要】Sora引領的視頻生成模型以其提出的“世界模擬器”理念展示出人工智能進展的重大突破,模型甫一問世便被視為邁向通用人工智能的標志。以Sora的誕生為契機,系統探討該模型如何從知識理解、跨模態信息處理及因果推理等技術維度漸進實現“世界模擬”的構想。結合Sora展現的功能特性,展望其在影視制作與游戲開發、教育培訓及科學研究等領域中的潛在應用價值。鑒于通用人工智能的宏大愿景,文中指出Sora代表的視頻大模型仍需在認知突圍、自主進化、機器自省等方面持續攻關,為未來智能技術的全面發展奠定堅實基礎。

【關鍵詞】Sora;文生視頻模型;視頻大模型;通用人工智能;世界模擬器

一、Sora的誕生:人工智能向視頻生成領域的跨越

2024年2月,美國人工智能研究公司OpenAI再度顛覆了人工智能研究領域的既定格局,推出名為Sora的文生視頻模型。模型甫一問世,即被視為邁向通用人工智能(Artificial General Intelligence,AGI)的里程碑,彰顯出人工智能技術演進過程中的重要躍遷。

相較于同類視頻生成模型,Sora在視頻時長、分辨率的精細化程度以及場景真實感再現方面均達到了全新高度。尤為突出的是,Sora在模擬物理世界現象的精確性和多樣性方面實現了突破,它超越了僅能創造虛擬表現形式的局限,展現出重現現實世界豐富細節場景的強大能力,激發了對現實與虛擬邊界日益模糊的深刻探討。Sora能夠自主建構高度擬真的虛擬現實環境,昭示著人工智能內部邏輯架構與外部客觀世界之間的關系日趨緊密。Sora的研發歷程,揭示了人工智能技術在模擬與理解現實復雜世界過程中所取得的深層進步。

在此背景下,OpenAI在技術報告中提出了“世界模擬器”(World Simulator)這一前瞻性框架,將Sora視為實踐這一理念的視頻生成載體,將Sora作為“構筑物理世界通用模擬器的一條可行之路”[1]。“世界模擬器”的概念承載著宏大的科技創新愿景,旨在利用前沿的人工智能技術手段,尤其是借助視頻生成模型技術,建立能夠精細化模擬現實世界中物理規則、社會動態及環境相互作用的復雜計算仿真生態系統。該概念的重要性不僅體現在其在視覺逼真表現層面上的生成與應用,也在于其整合了自然語言理解與執行能力,可以響應指令模擬復雜情境并實時輸出適應性行為。此外,它還預示著在對未來多種可能性進行高級模擬分析方面的深層次功能拓展。

Sora是否能夠真正意義上“模擬世界”?Sora是否構成實質性的“世界模擬器”等問題還有待深入探究和驗證。在賦予此類模型“世界模擬器”的稱謂之前,我們有必要對其如何精細捕獲和有效模擬物理情境背后的技術原理、應用場景以及未來發展進路進行更為詳盡的研究。Sora的進步是對“世界模擬”這一理想的實質性邁進,但通往全面理解和構建真實世界模擬器的道路才剛剛開始。

二、Sora的技術原理:視頻模型模擬世界的可能性

(一)知識處理:海量數據歸納與規律模擬

作為視頻生成模型,Sora的知識基礎根植于對龐大多元的視覺、語言數據集的深度學習過程。通過對億級以上的圖像、視頻素材以及相應的文本標注和預訓練,Sora汲取了廣泛的視覺語義內涵和世界常識圖譜。相較于簡單的數據存儲與再現,Sora所代表的文生視頻模型注重從海量數據中挖掘、仿真出所謂世界運作的深層法則與動態規律,進而生成逼真且流暢的視頻內容。

Sora采用無監督學習策略對視覺世界的基礎要素進行探索與建模,涵蓋物體實體、環境場景、事件行為等各種構成單元,以及各單元在時空維度上的聯系和互動效應。這種結構化、模塊化的場景表征方式,賦予Sora構建多層次知識組織架構的能力,使之能將復雜視覺現象拆解成基本組成單位,通過靈活重組創作出相對符合規律及常識推理框架的畫面表現。多模態學習技術的應用使Sora建立了視覺表征與語義標簽間的對應關系,通過對齊視覺—語言表征空間,使得文本描述能夠精確定位并關聯至相關視覺單元。這一特性使Sora能夠在理解語言指令的基礎上,將其轉化成為直觀和準確的視覺表達形式。此外,Sora對處理的大量視頻數據進行高效的時間序列建模,以掌握各類事件演進的固有模式以及場景間因果關系的內在邏輯。由此,Sora能夠依據前后情境線索,對未來畫面做出合理預測,進而生成具有連續性、故事性特征的視頻片段,初步顯現出其在因果推理與規劃生成方面的能力。

“我們正在教人工智能理解和模擬運動中的物理世界,目的是訓練模型,幫助人們解決需要現實世界交互的問題。”[2]Sora借助對數據資源的有效學習,構建起一套相對全面、立體的視覺世界理論模型,該模型囊括了從物體形態直至規律原理等多個認知層次的知識內容。這種從數據中萃取知識精華、構筑邏輯聯系的能力,確定了Sora相較于傳統視覺生成模型的優勢所在:其不僅是一款視頻創作工具,也正有意發展為具備初級常識推理能力的智能體,體現了人工智能由單純的“感知層面”朝向高階“認知層面”邁進的偉愿。

在人類的認知發展過程中,“幼年時期即體現出對直觀物理學原理的初步掌握,如對物體存在的持久性(即便不在視線范圍內物體仍持續存在)、堅固性(物體間不會穿透)和凝聚性(物體作為一個統一的整體一同移動)等基本屬性持固有期待”[3]。這種對物理世界及其規則的理解,源于人類大腦內建的一個類似“直覺物理引擎”(Intuitive Physical Engine, IPE)的機制,它憑借類比物理定律的方式進行運作,以統計學的概率預測方式推斷物體隨時間的動態演變[4]。相較而言,Sora作為一種端到端的深度神經網絡結構,并未直接融入傳統物理引擎的計算方法,而是在大規模數據集的基礎上挖掘和學習隱藏的物理規律表達。

如果說“世界模型”是通過壓縮感知輸入和預測未來狀態,提供環境的內部表征,那么Sora的工作方法是通過視頻壓縮網絡將原始視頻映射至特定空間,并通過擴散變換器(Diffusion Transformer)在此空間中對時空片段進行精細化建模,從而捕捉到場景中的動態交互機制。[4]當前,Sora的主要訓練目標聚焦于生成高質量的視頻內容,而非直接構建用于模擬體驗的物理環境。盡管Sora展現出的場景連貫性提示其在模擬物理規律方面存在發展潛力,但其未來能否進化成為真正的“世界模擬器”仍有待考證。

(二)跨模態理解:打通視覺、語言等認知通道

作為“世界模擬器”的Sora,能夠整合語言、視覺等認知模態,實現跨模態的理解和生成,其能力主要體現在以下幾方面。

一是Sora與大語言模型的無縫結合。作為在ChatGPT等先進語言模型基礎上拓展出的迭代成果,Sora展現出自然語言與視覺場景理解和生成之間的無縫對接能力。通過汲取ChatGPT的語義解析優勢,Sora可以提升對文本描述精準語義的捕獲效率。相較于大語言模型,Sora拓展了對時間和空間維度的處理能力,能夠駕馭具有時空屬性的視頻內容生成任務。因此,Sora不局限于再現靜態圖像世界的特性,能夠在模擬動態演變世界時發揮效用。當接收到文本指令時,Sora能夠解碼其中的意義,據此生成貼合文本語境的視頻內容,涵蓋了時空連續性和復雜場景建構等多個維度。通過集成、優化與大語言模型的協作關系,Sora在視覺感知與語義理解間架設起通信橋梁,為構建多模態理解提供支撐。此外,Sora不僅能夠模擬再現客觀物理世界,也能創造性地構建符合主觀意念的虛構場景,這種雙重特性賦予其成為“世界模擬器”的潛在能力,拓寬了在現實與想象世界互動探索的應用前景。

二是Sora展示出交互式多視角的生成能力。在視頻生成流程中,Sora能夠模擬攝像機視點的動態轉換,確保場景中物體在三維空間中的運動表現保持連續且一致,這一特點揭示了其在結構化模型層面超越二維幀序列拼接的機制。Sora采用三維幾何原理及透視變換等核心知識構建場景模型,這是實現物理世界仿真不可或缺的基礎。同時,Sora在時間維度的精細化建模方面表現出色,其生成的一分鐘視頻內,物體運動始終保持一致性和連貫性,表明Sora初步具備時間邏輯推理和因果關系建模的功能,這對于精確模擬真實物理過程至關重要。由此,Sora可以賦予用戶切換視角的自由度,可以使用戶從不同角度觀測所生成的世界,這反映了Sora內部構建了可以整合多視角信息的全景式多模態框架,從而實現對虛擬場景全方位、靈活的視角控制與展現。

三是Sora體現出對物理世界構成規則的基礎理解。其在空間與時間維度上的建模性能,實質上來源于對諸如運動規律、力學規律等基礎物理法則的學習和初步應用。不同于傳統的物理引擎模擬器,Sora通過大規模數據訓練習得對物理世界的內在認知能力,這也是其作為潛在世界模擬器的價值所在。Sora底層學習并融合了對物理世界的基本理解,將視覺等多模態信息嵌入內部表征之中。然而,現階段Sora對于物理規律的理解與模擬仍存在局限性,比如在處理物體的臨界狀態表達和因果性運動等方面仍存在不足,這些問題可能源于訓練數據的局限性或者模型架構與計算資源約束所致。未來,通過增加訓練數據的豐富度和多樣性、改進模型結構設計以及增強算力投入,Sora有望進一步提高其對物理世界的理解與模擬精度,可能朝向真正意義上AGI級別的世界模擬器演進。

(三)因果推理:構建事件邏輯,內容貼近真實

若要實現視頻內容與真實世界的高度契合,模型須具備深入的因果推理能力來識別和學習各實體事物之間的因果關聯。Sora通過一系列關鍵技術模擬了事件邏輯,從而提高了生成內容的真實性。

Sora采用視頻壓縮網絡(Video Compression Network),通過視覺編碼器將原始視頻壓縮至低維潛在空間,將復雜的視頻信息簡化為時空補丁,這些補丁類似語句中的詞匯,承載著組建視頻的關鍵時空特征與動態變化信息。[5]進而,Sora預測這些補丁如何有效拼接,以生成連貫且視覺吸引力強的視頻內容。通過視頻壓縮,Sora能夠在簡化后的潛在空間內專注高質量視頻內容的生成,為后續擴散變換模型提供了視覺信息。

Sora所搭載的擴散變換模型(Diffusion Transformer)借鑒了馬爾可夫鏈理念,采用遞歸去噪的方式逐步生成視頻幀序列。該模型在生成過程中體現明確的因果依賴關系,即將每一幀的生成嚴格建立在前序幀信息擴散和演變的基礎上,有力推動了視頻內容中事件邏輯鏈條的有效構建與延續。

為更準確地響應用戶意圖并在模擬過程中遵循合理的因果邏輯,Sora通過整合大型語言模型的指令跟隨能力,有效增強了模型對文本輸入的理解。它首先訓練視頻字幕生成器產生高質量的視頻、描述性字幕作為訓練數據,然后使用大語言模型將簡短的用戶提示擴展為與訓練數據格式一致的詳細描述,確保在推理時的輸入與訓練保持一致[6]。通過這種方式,Sora能夠從簡短提示推導豐富語義,生成契合用戶意圖、合乎邏輯的高質量視頻內容。

在提示工程方面,Sora的視頻/圖像提示能力極大增強了內容與現實世界的視覺相似性和內在一致性。除文本輸入外,它能夠接受視頻片段或圖像作為生成線索,引導生成過程沿著特定的藝術風格或主題脈絡演進,在模擬層面更加接近真實世界的多元表現形態。

以上核心技術,共同支撐Sora實現具有因果邏輯的世界模擬。盡管當前Sora等“視頻模型在正確模擬物理交互方面仍存在一些限制,包括對基本物理定律的模擬存在疏忽、難以一致展現物體的物理狀態變化等問題”[7],但其已在因果推理、構建事件邏輯以及提升生成內容真實感方面取得了重要突破。賦予模型深入的因果推理能力和學習物理定律、常識知識的能力,使其能夠推測事物運動變化背后的成因及其相互作用效應,是邁向高度逼真世界模擬的必經之路。Sora代表的新一代文生視頻模型正積極向此目標邁進。

三、Sora的應用圖景:想象與現實交匯

(一)賦能內容生產:影視創作、游戲開發等領域

Sora可能重塑影視制作與游戲開發等創意產業的生產和表達范式,不同于傳統視頻生成技術帶來的藝術完整性方面的折損,Sora采用了保留原始畫面比例的訓練機制,確保其輸出的視頻內容無論在何種設備支持下,均可傳達主題并展現出卓越的視覺美學。Sora可適應目標屏幕尺寸生成相應分辨率及縱橫比的高質量視頻內容,語言理解能力使其準確提取文字腳本,詮釋生成為驚艷的視覺敘事。

Sora“可能改變電影制作和動畫的預制作過程,讓故事講述者推介和完善他們的表達”[8]。在影視預制作階段,Sora正重新定義編劇和導演的工作流程。過去,將抽象的創意概念轉化為具象視覺,通常需要美術團隊投入大量的時間精力進行草圖創作與概念設計。而今,利用Sora,創作團隊可直接將劇本文本轉化為視頻演示溝通,甚至可以快速制作預告片與動畫預覽。Sora引領的文本驅動與視頻生成技術,不僅優化了影視前期工作流程,還可以引入動態評估和交互式劇本的開發手段,有助于提升創意的探索效率。

在游戲開發維度上,Sora同樣扮演著“破局者”角色。文本到視頻的轉化能力可以應用于游戲場景構建,助力游戲設計師快速生成基礎素材,有效緩解繁復的手工建模壓力。游戲行業越發注重劇情敘事,Sora可依據游戲腳本生成對應的視頻片段,以提升場景過渡效果、深化游戲內部故事敘述的感染力,進而增進玩家的沉浸式體驗。在游戲互動層面,Sora進一步延伸玩家參與內容創作的權力邊界。通過簡單的文本輸入,玩家得以定制個性化的游戲場景,這一參與式創作模式有望開辟游戲互動娛樂的新維度。

當前,游戲行業不斷追求打破真實感和沉浸感界限的方式與方法,傳統游戲開發常受困于預先設定的環境和預編程的限制。而“通過集成如Sora擴散模型實現實時、高保真度視頻內容以及擬真音效的生成,有望突破現存局限,賦能開發者構建隨玩家行為和游戲事件動態變化的游戲環境”[9]。如模擬真實的氣候現象、地形動態變化,甚至是創造性地布局新場景,從而營造更加真實、響應靈活的游戲世界。

(二)更新教育方式:定制化學習體驗,均等化教育資源

長久以來,教育內容一直以靜態資源為主。傳統教學資源面臨著制作成本高、動態變化需求響應能力不足等困境。Sora可以“將描述性文本或課程大綱轉化為特定風格的、為個人學習者興趣量身定制動態視頻內容”[10],構筑個性化且富有吸引力的學習體驗。

在個性化教學視頻的生成方面,Sora允許教育工作者根據學生個體的認知特征和需求,指導模型生成貼合具體教學內容的定制視頻教材。尤其在實驗教學場景中,Sora表現出強大的應用前景。在要求立體化認知的空間結構教學中,其不僅能將諸如“溶解過程”等抽象概念以直觀視頻形式表現,還可以揭示微觀層面的分子運動與作用機制,通過生成多角度視圖進行場景展示,拓展學生對復雜系統知識的理解深度。對于因安全、成本等因素限制而難以在現實環境中實施的實驗,如解剖學實驗中的實物標本操作,或是汽車碰撞實驗中的破壞性場景,Sora可模擬生成虛擬實驗視頻,在克服資源限制與潛在風險的同時,增強課堂教學互動探索性。

Sora還展現出多元化的教育領域應用潛能。在語言文化教學上,Sora可根據教學需要創造出地域情境,使學生體驗異域文化習俗和實踐特定語言交際,這一特性超越了傳統課本教學的局限,使學習者通過仿效真實對話情景習得語言技能并領悟文化內核。在歷史課程教學中,Sora能夠生動再現關鍵歷史場景,將遙遠的時空瞬間拉至學生身邊,將歷史教學從被動回顧轉向主動沉浸式體驗。

Sora的虛擬化屬性有助于提升教育的普及性和可及性。其技術應用一定程度上降低了傳統教學方式對人力物力的過度依賴,即便是資源匱乏的邊遠地區學校,也能以較低成本獲得豐富的視頻教學資源,進而填補優質師資力量的空白,Sora可能充當“AI助教”角色解答疑難問題,一定程度上彌合了地區間教育資源鴻溝。Sora一旦普及為普遍民主化的教學工具,則有望在促進教育公平性方面發揮效用。

(三)助力科學研究:模擬實驗環境,共享科學知識

科學研究的本質在于探尋現象背后的運行機理,其過程包含從概念提煉、理論建構至實驗驗證、學術傳播等多個環節。Sora有望將復雜理論模型和實驗過程以直觀形象的方式傳達給學術同行和社會公眾,在模擬實驗環境和科學知識共享方面發揮關鍵作用。

在理論模型的可視化表達方面,諸多科研領域借助計算機模擬復雜系統的行為,大量原始數據難以直接轉譯為易于解讀的可視化形式。專業模擬軟件具備建模與仿真功能,但其專業化程度高、學習曲線陡峭,學科外的非專業人士難以駕馭。Sora的介入,可以使科研工作者短時間內將深奧的模型計算結果轉化為易懂的視覺材料,將抽象概念變得直觀可感,從而增強理論傳播的有效性。

在實驗環境模擬方面,對于涉及危險操作或受限于特殊環境的實驗項目,Sora可根據文本說明構建虛擬實驗流程并生成模擬視頻。一方面可以幫助科研團隊在執行前評估潛在風險,另一方面通過反復模擬優化實驗設計并節約實驗成本。在探索科學前沿的過程中,對于未經實證的理論設想或假設性的物理現象,研究者可通過Sora將其轉化為可觀的視頻形態,直觀顯現可能的表現狀態。

在科學知識共享與普及方面,Sora的高效視頻生成技術有望促進跨學科合作與交流。其產出的科學概念視頻可以突破專業知識屏障,讓不同領域的專家得以通過視覺語言信息展開無障礙溝通,有助于加快科學發現。同時,Sora可能消除傳統科普視頻制作耗時長、成本高的障礙,快速生成科普視頻可以吸引公眾深入理解科學原理,提升科普教育的吸引力與影響力。

四、Sora的未來進路:邁向AGI的下一站

(一)認知突圍:挑戰感知、推理、決策等更高階能力

作為文生視頻模型,Sora在技術應用層面取得了顯著成就,但在攀登通用人工智能高峰的道路上,依然受制于其認知能力的局限,尤其在跨模態感知、深度推理和智能決策等高階認知維度,Sora仍有待拓展。

首先,在感知能力方面,盡管Sora實現了基于文本指導的視覺內容再現,但在跨模態感知整合方面尚欠完備。理想的AGI應能融合多種感官輸入,以實現對環境的全方位、多維度認知,并具有自主探索與學習的主動性,目前Sora并不具備這樣的特性。其次,在推理能力方面,雖然Sora在視頻生成任務中表現出色,但對于復雜情境下的因果邏輯推理和狀態預測能力卻較為有限,其無法生成基于深層因果關系分析的行為策略和決策預案。AGI的構建要求具備強大的推理框架,能結合底層物理規律與高層語義知識,構建起對復雜世界的微觀因果模型,進而準確預測未來狀態演變,以實現智慧型決策而非簡單的響應式輸出。最后,在高層次認知能力方面,Sora不能應對需要動態規劃、復雜策略制定的現實問題,更未顯示出諸如創造力、探索欲望、自我意識等人類級別的高級認知屬性。而AGI應具備與人類相似的創造性思維、好奇心驅動力、自我意識以及終身學習和適應環境變化的能力。

Sora或許是AGI發展歷程中的重要節點,而要實現對現有認知邊界的實質性突破,須在以下方面進行改革:一是開發端到端學習和融合不同模態信息的新型神經網絡架構,利用注意力機制動態調節各模態權重,建立對現實世界的統一表征;二是強化模型對物理規則的理解與運用,構建基于物理驅動的因果推理引擎,深度融合基礎理論與數據驅動模型,精確模擬底層物理過程;三是設計仿照人腦的多層次認知結構,建立由感知、注意力分配、工作記憶、長期存儲及執行控制系統構成的類腦架構,進一步開發用于規劃、決策、創新思維等模塊,賦予系統創新思考與長期學習潛能。未來的AGI有望接近甚至達到與人腦相同的認知廣度與深度,能夠進行精準的分析決策,實現對世界的高保真模擬與靈活操控。

(二)自主進化:擺脫指令,自主學習

盡管Sora在視頻生成任務上成績斐然,其核心技術框架仍受限于對人類指令的高度依賴。從Sora邁向真正AGI的關鍵轉型在于實現AI系統的自主學習與演化,使之脫離對外部指令的剛性需求。

Sora依托大規模監督學習訓練而成,其視頻生成活動依賴預定義的文本指令輸入,而此類指令集的構建耗時耗力、難以覆蓋未來潛在的新任務場景。理想的AGI系統應具備自發探索環境、獨立發現規律并自我更新迭代的能力,而非僅僅是對既定指令的被動響應。Sora在開放式學習方面的欠缺,表現為訓練后的靜態知識狀態,其無法在實際應用中進行自我擴展與升級。其知識體系源于有限且固定的訓練數據,無法隨著現實世界的開放性與動態變化而自適應與學習。而真正的AGI系統應當具備開放式持續學習能力,能夠在各種新情境、規則和任務需求面前實時適應,持續吸收新知識并優化內部世界模型。此外,當前的人工智能系統缺乏內在驅動力和自我意識,其發展主要受外在需求引導而非源自內在求知欲。成熟的AGI應模擬人類的內在學習動機,主動追求新知識,以此為基礎推進系統自主、持續的進步與發展。

在邁向AGI自主進化的道路上,需在現有被動學習框架基礎上進行革新,擺脫對靜態訓練數據的過度依賴,轉向自主學習與進化的能力,同時嵌入持續學習的開放機制和內在激勵機制。為此,首先,可采用在線連續學習技術使得模型能在與環境互動的過程中實時學習、整合新知識并動態調整自身參數,這要求開發新的在線神經網絡參數調整算法,并解決相關穩定性問題。其次,須構建內在獎勵機制,模擬生物學中類似好奇心、自我實現等高級心理驅動因素,為系統注入主動探索的動力,并通過正向反饋激發其持久的“求知沖動”。最后,為了應對現實世界層出不窮的新情況,AGI系統應具備強大的元學習和遷移學習能力,迅速消化新知識并將已掌握的知識有效應用于新情境,提升其在應對全新挑戰時的自適應速度和效能。

(三)機器自省:具備元認知,確保可信度

透明度與可解釋性對于確保人工智能系統的可信度至關重要,目前包括Sora在內的大模型普遍遭遇“黑盒效應”,其內部運算過程難以透視,決策機制呈現低透明度與低可解釋性特征。因此,在通向AGI的道路上,亟待新一代AI發展出元認知能力,通過自我反思其認知過程來增強透明度與可解釋性。

針對透明度缺失引發的可解釋性問題,Sora模型從文本指令到視頻生成的具體轉化機制尚不清晰,這導致用戶難以預測其輸出行為,更無法進行精準的調整優化。至于自我監督與自我調節機制,當前Sora等模型不具備深度的自省能力,其內部的認知活動猶如黑盒,外界難以對其實施有效的監督與控制。若發生計算偏誤或不合理操作,系統自身無法及時察覺并自我修復。現階段的Sora等系統在自我評估與自我約束方面存有局限,易于遭受誤用和操控風險。相比之下,理想的AGI系統則應構建起透明化架構和可追溯的決策流程,具有自我監督及自我調節功能,能夠積極闡明決策邏輯,還能真誠地評價自身存在的風險與局限,明確表述認知邊界的所在,進而提升系統的可靠性和信任度。

未來的AGI系統要在架構設計上實現機器自省,需具備三個核心機制:一是配備元認知監測機制,嵌入系統結構中以實時監控各個認知模塊的表現,通過對異常模式識別、決策路徑的剖析以及計算偏差的發現與校正,實現全面的自我監管與調整;二是建立多視角融合機制,確保認知理解的穩健性,這意味著模型需要有能力協調并綜合來自不同視角的理解,力求形成統一而全面的世界觀;三是主動設定認知邊界,確保世界模型的可靠性,系統應能精確評估自身認知能力的局限,并通過與人類用戶的主動交流,誠實地反映認知局限性及潛在風險,接納人類反饋以指導改進,形成“人機協同解釋”機制,規避超越能力邊界所帶來的額外風險。

Sora代表的視頻生成模型,躍升至精確模擬動態復雜世界的“世界模型器”仍需時日。擁抱Sora等智能技術創新,意味著人類正在積極擘畫智能時代的藍圖。隨著技術持續精進,從單一視覺模擬向多元感官模擬擴展,再到全方位世界建模的演化,人工智能將在深刻理解現實的基礎上,推動人類社會在諸多領域實現前所未有的變革。

[本文為國家社科基金重大項目“我國新聞傳播業人工智能應用現狀與發展趨向研究”(項目編號:19ZDA327)的研究成果;本文由中國傳媒大學中央高校基本科研業務費專項資助(CUC23GY011)]

參考文獻:

[1]Brooks T,Peebles B,Homes C,et al.Video generation models as world simulators. [J/OL].(2024-02-15) [2024-02-15].https://openai.com/research/video-generation-models-as-world-simulators/.

[2]Creating video from text:Sora is an AI model that can create realistic and imaginative scenes from text instructions. [EB/OL]. [2024-02-15]. https://openai.com/sora/.

[3]Margoni, F., Surian, L., Baillargeon, R. The violation-of-expectation paradigm: A conceptual overview[J/OL]. Psychological Review, 2023.

[4]Raphal Millière. Are Video Generation Models World Simulators? [EB/OL]. [2024-03-01]. https://artificialcognition.net/posts/video-generation-world-simulators/.

[5]Bilal Mansouri. Sora AI: The Future of AI Video Generation. [EB/OL] [2024-02-19]. https://gptpluginz.com/sora/#Transforming_Visual_Data_into_Manageable_Patches/.

[6]Liu, Y., Zhang, K., Li, Y., Yan, Z., Gao, C., Chen, R., Yuan, Z., Huang, Y., Sun, H., Gao, J., He, L., Sun, L. Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models [J/OL]. [2024-02-28]. ArXiv: 2402.17177.

[7]Cho, J., Puspitasari, F.D., Zheng, S., Zheng, J., Lee, L.H., Kim, T.H., Hong, C.S., Zhang, C. Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation [J/OL]. [2024-03-08]. ArXiv: 2403.05131.

[8]Liu, Y., Zhang, K., Li, Y., Yan, Z., Gao, C., Chen, R., Yuan, Z., Huang, Y., Sun, H., Gao, J., He, L., Sun, L. Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models [J/OL]. [2024-02-28]. ArXiv: 2402.17177.

[9]Hu, L., Gao, X., Zhang, P., Sun, K., Zhang, B., Bo, L. Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [J/OL]. [2023-12-07]. ArXiv: 2311.17117.

[10]Xing, J., Xia, M., Liu, Y., Zhang, Y., Zhang, Y., He, Y., Liu, H., Chen, H., Cun, X., Wang, X., Shan, Y., Wong, T.T. Make-Your-Video: Customized Video Generation Using Textual and Structural Guidance [J/OL]. [2023-06-01]. ArXiv: 2306.00943.

作者簡介:任天知,中國傳媒大學媒體融合與傳播國家重點實驗室博士后,中國傳媒大學國家輿情實驗室研究人員(北京 100024);沈浩,中國傳媒大學教授,中國傳媒大學媒體融合與傳播國家重點實驗室大數據首席科學家(北京 100024)。

編校:王志昭

主站蜘蛛池模板: 亚洲美女一区二区三区| 国内精品自在欧美一区| 99热精品久久| 在线观看的黄网| 亚洲成a人片在线观看88| 91九色国产在线| h网址在线观看| 日韩不卡高清视频| 欧美高清国产| 亚洲丝袜第一页| 高清欧美性猛交XXXX黑人猛交| 精品夜恋影院亚洲欧洲| 日韩不卡高清视频| 亚洲欧美日韩中文字幕在线一区| 亚洲黄网在线| 精品国产Av电影无码久久久| 丁香综合在线| 亚洲a级在线观看| 狠狠躁天天躁夜夜躁婷婷| 国产女人在线视频| 国产专区综合另类日韩一区| 亚洲天堂成人| 一本大道无码日韩精品影视| 亚洲精品动漫| 天天干伊人| 免费看a级毛片| 亚洲视频在线青青| 国产一级毛片网站| 亚洲综合久久成人AV| 亚洲系列无码专区偷窥无码| 一本久道久久综合多人 | 国产成人综合日韩精品无码首页 | 国产中文一区a级毛片视频| 国产精品人成在线播放| 欧美日韩激情在线| 美女内射视频WWW网站午夜| 国产超碰一区二区三区| 日韩精品无码免费一区二区三区| 国产亚洲高清视频| 99ri精品视频在线观看播放| 大学生久久香蕉国产线观看| 国产全黄a一级毛片| 亚洲天堂久久久| 国产视频 第一页| 国产日韩精品欧美一区灰| 国产一级毛片高清完整视频版| 五月丁香在线视频| 亚洲欧美日韩天堂| 国产免费福利网站| 六月婷婷综合| 国产理论一区| 91精品国产麻豆国产自产在线| 在线另类稀缺国产呦| 国产在线日本| 欧美精品一二三区| 三级国产在线观看| 久久77777| 国产一区成人| 精品成人免费自拍视频| 国产精品手机在线观看你懂的| 亚洲精品免费网站| 在线免费亚洲无码视频| 国产精品亚洲日韩AⅤ在线观看| 久久精品一品道久久精品| jizz国产视频| 亚洲无码熟妇人妻AV在线| 中文字幕免费在线视频| 亚洲欧美日韩成人在线| 国产精品大尺度尺度视频| 欧美三级视频网站| 日韩午夜福利在线观看| 九九九精品成人免费视频7| 亚洲无码37.| 综合色区亚洲熟妇在线| 99热6这里只有精品| 成人在线视频一区| h网站在线播放| 91精品人妻一区二区| 欧美不卡在线视频| 精品91自产拍在线| 国产杨幂丝袜av在线播放| 国产人妖视频一区在线观看|