999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中學生也能看懂的Sora技術分析簡報

2024-04-28 01:17:24崔原豪
科學大眾(中學) 2024年5期
關鍵詞:文本模型

崔原豪

2024年2月16日,OpenAI在社交媒體上發布了一條消息,隆重介紹了自家的新文本轉視頻模型——Sora。幾乎是一夜之間,Sora就在全網刷屏。

文生視頻并不是一項從無到有的技術,為什么Sora的出現會引起這么大的反響呢?

目前,在視頻生成行業中,一般的視頻長度為4秒,且受到諸多限制。然而,Sora的出現徹底打破了這一現狀,它能夠生成長達60秒的視頻,并且支持鏡頭的分切。同時,Sora還支持不同的分辨率。這就像你們班上的同學一起參加一場難度極高的數學競賽,大多數同學的分數都是30多分,而這個名叫“Sora”的同學卻以70分的成績驚艷了全場。

生成一段60秒高質量視頻有多難

我們應該都知道,視頻是由一系列圖像組成的,并且這一系列圖像是存在先后順序的。就像是我們自制的手翻書一樣,它包含一系列連貫動作的圖像,當這些圖像被快速翻閱時,由于視覺暫留現象,我們會感覺圖像動了起來,產生了動畫效果。視頻其實也是這個原理。

文生視頻則可以說是時間維度上的運動建模。為了保證生成視頻的連貫性,這使得模型需要在時間維度上進行建模,并能夠捕捉、理解和生成運動信息。這大大增加了模型的復雜度。

而且,視頻數據比圖像數據更加復雜,因此需要更大規模且更高質量的訓練數據。然而,目前公開的高質量“文字- 視頻”數據非常有限。

此外,視頻生成模型的訓練需要大量的計算資源和時間,訓練成本十分高昂。因此,生成一段長達60 秒的高質量視頻是非常困難的!

那么,Sora 是怎么做到的呢?

中學生也能看懂的Sora 技術解讀

首先,Sora 利用了被稱為“視頻壓縮網絡”的技術,將輸入的圖片或視頻進行壓縮。就好比我們數學試卷中的壓軸題,出題老師通常將一道大題拆分成3 個小問題,第一個小問題通常是相對簡單的,同時第二個小問題的解題思路也藏在第一個小問題里,要解決最難的第三個小問題,也要依賴我們前面做過的兩個小問題。當然,命題老師其實是可以直接讓你求解第三個小問題的。但是,如果沒有前面兩個小問題的鋪墊,處理起第三個小問題會很困難。而把這道題拆解開來,就會變得相對容易。視頻壓縮網絡技術也是運用了這個方法,將復雜的視頻數據簡單化,同時保留其關鍵信息,經過壓縮后可以大幅降低計算負荷,使得Sora 能夠在訓練過程中更加高效地處理大量數據。

對于經過壓縮網絡處理的視頻,Sora 會將其進一步分解成“空間時間補丁”,這些補丁是視頻的小塊組成部分,不僅包含了視頻的局部空間信息,還融合了時間維度上的動態變化。

為了形象地理解空間時間補丁,我們可以將其比作電影的每一幀。如果我們將每一幀畫面看作一張靜止的照片,那么這些照片可以被撕成許多小碎片,每一片都是一個空間時間補丁,每個補丁包含了畫面的一小部分信息。我們在看到這些小碎片的時候,也能聯想出與之相關的其他場景。在 Sora 中,空間時間補丁使模型能夠更精細地處理視頻內容的每個小片段,并同時考慮它們隨時間的變化。

在提取了必要的信息后,Sora便著手開始視頻的生成過程。它基于Transformer模型,結合給定的文本提示和已提取的空間時間補丁,開始創作視頻內容。

比如,你告訴Sora生成一段“在校運會上參加100米比賽并獲得第一名”的視頻,這段文字就是你給它的文本提示,它會怎么做呢?首先,Sora會去理解這句話的具體含義;其次,它會根據它所理解的意思,在它的“大腦”中尋找與之相關的記憶片段(空間時間補丁),基于這些片段,它發揮自己的想象力,不斷地補全畫面并進行時間上的排序,例如起跑畫面是要在沖刺畫面之前的。經過反復的補充、完善,Sora就會生成你想要的這段視頻了。

在這個過程中,Sora會對初始的噪聲視頻(畫面不完善、時間線混亂的視頻)進行精細的“潤色”,濾除無關緊要的信息,并添加必要的細節。通過反復的優化,最終生成與文本提示完美契合的視頻。

剛才我們提到過,Sora最開始生成的是一個噪聲視頻,也就是存在瑕疵的視頻。此時,視頻中的每個像素點都被隨機地賦予顏色值,所呈現出來的畫面也是雜亂無章的。曾經看過“大腦袋電視”的人應該都對這個畫面不陌生,電視沒有信號的時候,出來的就是這種畫面。

然而,通過不斷訓練和優化,Sora能夠精確地調整圖像塊的位置、大小、角度和亮度等參數,最終預測出這些噪聲圖像背后的清晰畫面。

這個過程就好比我寫這篇文章一樣,一開始可能只有一個大綱,先大概列好這篇文章的整體結構,要分為幾部分去寫,每一部分都要寫什么內容,然后再不斷地填充文字、配圖等,最終呈現出一篇邏輯清晰、內容豐富的完整文章。對于視頻而言,這意味著Sora 需要一次性地預測多幀畫面,并將這些帶有噪聲的多幀圖像轉換為清晰連貫的圖像序列。當這些清晰的圖像以連續的方式呈現時,就形成了最終流暢自然的視頻。

Sora 帶來的新變化

Sora 的出現,可以說是打破了人們對文生視頻這一技術的傳統認知。

首先,Sora 展示了強大的多格式視頻生成能力。我們平時在用手機或者其他設備拍攝視頻的時候,經常會根據自己的需求選擇橫屏或者豎屏的拍攝方式,這就造成了視頻的屏幕比例不是統一的,而Sora 能輕松處理各種屏幕比例的視頻,滿足多樣的觀看需求。此外,Sora 能在低分辨率下快速構建內容初稿,然后在完整分辨率下細化,整個過程都在同一個模型中進行,提升了創作靈活性并簡化了生成流程。

其次,Sora 在視頻構圖和框架上有顯著改進。傳統的訓練模型在裁剪視頻時,會默認為裁剪成正方形,這就會導致部分畫面無法展示,而Sora 能更準確地保持視頻主題全貌。

最后,得益于OpneAI 擁有ChatGPT 這個大語言模型產品及其技術積累,Sora 對文本有著深度的理解,能夠精確理解用戶通過文本提供的指示,并基于這些指示創造出具有豐富細節和情感表達的角色以及生動的場景。這種技術使得從簡單的文本提示到復雜視頻內容的轉換過程顯得更加自然和流暢。無論是動作密集的戲份還是微妙的情感流露,Sora 都能夠精準地捕捉和呈現。

如果說ChatGPT 的出現改變了人們生產文字的方式,那么,Sora的出現則讓視頻創作的門檻變得更低。對絕大對數人來說,將來各種社交媒體的內容也將不只局限在文字與圖片了。

(責任編輯:白玉磊)

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 91破解版在线亚洲| 国外欧美一区另类中文字幕| 三区在线视频| 国产婬乱a一级毛片多女| 九九视频免费在线观看| 亚洲男人的天堂网| 精品剧情v国产在线观看| www.91在线播放| 亚洲欧美天堂网| 成人国产精品一级毛片天堂| 免费一级毛片在线播放傲雪网| 在线观看国产精品一区| a毛片在线播放| 亚洲国产精品一区二区高清无码久久| 国产乱子伦手机在线| 天堂网国产| 人人看人人鲁狠狠高清| 久久不卡精品| 亚洲AⅤ永久无码精品毛片| 欧美午夜小视频| 伊人久久久久久久| 婷婷五月在线视频| 国产主播在线一区| 亚洲国产精品无码久久一线| 亚洲综合久久成人AV| 熟妇丰满人妻av无码区| 国产精品夜夜嗨视频免费视频 | 亚洲av无码人妻| 99久久免费精品特色大片| 国产欧美日韩18| 999国产精品永久免费视频精品久久| 日本三区视频| 国产一级小视频| 国产精品亚洲αv天堂无码| 国产精品网址你懂的| 国产综合亚洲欧洲区精品无码| 高潮毛片无遮挡高清视频播放| 日韩123欧美字幕| 国产精品免费入口视频| 狠狠色狠狠色综合久久第一次| 亚洲无码日韩一区| 在线观看精品自拍视频| 欧美精品一二三区| 一级片一区| 91丝袜美腿高跟国产极品老师| 精品国产Ⅴ无码大片在线观看81 | 波多野结衣无码视频在线观看| 手机永久AV在线播放| 久久99国产综合精品1| 国产精品免费露脸视频| 91人妻日韩人妻无码专区精品| 久久毛片网| 一级全黄毛片| 69国产精品视频免费| 国产精品久久久久久久久kt| 美女潮喷出白浆在线观看视频| 亚洲国产中文欧美在线人成大黄瓜| 无码福利日韩神码福利片| 天天综合色网| 欧美亚洲国产一区| 手机在线免费毛片| 国产屁屁影院| 无码有码中文字幕| 国产精品xxx| 国产福利一区视频| 91视频区| 色婷婷电影网| 亚洲最大看欧美片网站地址| 91在线精品麻豆欧美在线| 91久草视频| 狠狠色狠狠色综合久久第一次| 色网在线视频| 国产精品不卡永久免费| 欧美 国产 人人视频| 亚洲不卡影院| 中文字幕av无码不卡免费| 亚洲Av激情网五月天| 99在线视频免费| 天堂久久久久久中文字幕| 精品国产www| 日韩大乳视频中文字幕| 一级毛片中文字幕|