
摘要:目的:人工智能技術不斷發展,在影視制作中的應用越來越廣泛,從早期在后期制作中的有限參與發展到介入影視制作全過程,特別是近年來文生圖和文生視頻等生成式大模型呈現出前所未有的創造性。文章對從深度學習到生成式大模型的關鍵技術進行深入解析,旨在推動人工智能技術在影視制作中的廣泛應用。方法:文章從人工智能技術的跨模態應用出發,深入分析文生圖和文生視頻等生成式大模型的底層技術結構,并結合深度學習技術的發展進化,對Transformer模型和生成模型進行解析。對Transformer模型,通過與卷積神經網絡對比,重點分析其注意力機制的計算優勢和向視覺領域的拓展方式。對生成模型,比較了流行的生成對抗網絡(GAN)、變分自編碼器(VAE)和擴散模型三種類型,并結合生成式大模型分析其應用。結果:Transformer模型以自主力機制改變了深度學習的技術架構,在自然語言處理和視覺領域都取得了極大成功,觸發了大模型和跨模態應用。生成式模型是高質量圖像生成力的核心,Transformer與生成模型配合,形成了生成式大模型的創新力量。結論:人工智能技術在影視行業引發了極大關注,隨著技術的不斷升級和創作者的實踐探索,人工智能技術將給影視行業帶來更大的機遇與挑戰。
關鍵詞:大模型;人工智能;深度學習;Transformer模型;擴散模型;生成模型
中圖分類號:TP18 文獻標識碼:A 文章編號:1004-9436(2024)15-00-05
0 引言
人工智能(Artificial Intelligence,AI)技術在影視制作中的應用可以追溯到20世紀末。其發展大致可以分為三個階段:第一階段為后期制作中人工智能的有限參與,主要用于對圖像的優化,以增強影像的視覺效果,算法相對簡單;第二階段的人工智能算法開始變得復雜,應用也更加廣泛,不僅涉及影視制作的全過程,而且出現了AI換臉這樣具有一定生成性的技術,如Deepfakes等;第三階段即目前最新的生成式人工智能(Artificial Intelligence Generated Content,AIGC)大模型,如以Stable Diffusion、Midjourney為代表的文生圖大模型,以及尚未市場化但備受矚目的文生視頻大模型Sora等。得益于AIGC技術的發展,它們具有一定的創造性,不再局限于影像修正或強化作用。目前,文生視頻尚處于測試與發展階段,還未真正進入成熟的市場化應用階段。
從技術層面來說,生成式人工智能具體表現為不同的生成式大模型,如文生文、文生圖、文生視頻、文生聲音等,它們可以根據文本描述生成不同形式的數據,為影視藝術創作提供全新的技術手段。雖然生成的形態有一定差異,但這些生成式大模型的底層技術結構非常類似。本文試圖從這些通用的技術結構入手,對生成式人工智能的關鍵技術進行解析。
1 生成式大模型:創造性的載體
文本、圖像、聲音、視頻等代表數據的不同形式,在人工智能領域,通常將每種形式稱為一個模態(Modality)。生成式大模型可以同時理解和處理多個不同模態的數據,并能夠實現不同模態之間的轉換。隨著AI技術的發展,多模態處理已成為一種趨勢,文生視頻在一定程度上可以被看作文生圖技術的延伸和升級,從原理上來說,逐幀生成所需圖片再連接起來就可以生成一段動態的視頻。但考慮到視頻中物體在空間上的一致性和視頻內容在時間上的連貫性,實際文生視頻的難度遠高于文生圖。目前的文生視頻大模型還處于初級階段,一般僅能生成幾十秒到一兩分鐘長的短視頻。但隨著生成視頻時長和質量的不斷提高,未來其將在影視行業展現出巨大的應用價值。
文生圖和文生視頻的底層技術框架非常類似,都是依賴基于Transformer的深度學習技術,通過理解和處理文本描述,使用擴散模型等生成對應的視覺內容。以Stability AI公司推出的Stable Diffusion為例,其核心結構主要包括三個模塊,即文本編碼器、圖像信息生成器和圖像解碼器。文本編碼器對輸入的文本描述進行編碼,捕捉文本的含義,將文字轉化為在計算機中用數學表示的語義向量;圖像信息生成器是文與圖連接的核心,在文本對應的語義向量引導下,使用擴散模型從噪聲圖像逐步去噪,生成與文本描述匹配的較低維度的圖片信息;圖像解碼器將低維圖片信息對應的特征向量進行解碼放大,生成分辨率較高的實際圖像[1]。需要注意的是,圖片信息生成器并不直接生成圖像,而是生成圖像信息,圖像的生成實際上是由圖像信息生成器和圖像解碼器共同完成的。
大模型是深度學習技術發展的最新階段。深度學習是人工智能領域的一個重要分支,自2010年以來,深度學習技術快速發展,在自然語言理解、圖像識別和語音識別等領域獲得了廣泛應用。深度學習技術源于人工神經網絡的研究,其核心在于使用多層次的神經網絡結構(又稱深度神經網絡),通過逐層抽象來理解和處理數據,通過訓練,每層網絡都能學習到數據的一個特定表示,多層組合使整個網絡具有強大的表示能力。與傳統神經網絡相比,深度神經網絡以數據的原始形態作為網絡的輸入,其“深度”不僅體現在網絡層數之多、神經元數量之大,更在于它把傳統人工智能技術中人為操作的特征設計轉化為利用神經網絡自主提取特征。這樣既避免了人工特征的局限性,通過多層神經網絡的逐層抽象來學習數據的特征表示,又能將特征提取與分類識別網絡有機結合,增強神經網絡的學習和表示能力,從而處理復雜的任務。
早期的深度學習模型主要包括卷積神經網絡(Convolutional Neural Networks,CNN)和循環神經網絡(Recurrent Neural Network,RNN)兩類。CNN及其各種改進模型擅長獲取圖像的空間相關特征,廣泛用于圖像分類和圖像識別領域;RNN及其改進模型主要處理時間序列數據,廣泛用于自然語言處理(Natural Language Processing,NLP)和語音識別等。近年來,Transformer模型橫空出世,不僅成為NLP等時間序列數據處理的主流模型,還成功跨界到圖像處理和計算機視覺(Computer Vision,CV)領域,更催生了ChatGPT和目前爆火的生成式人工智能。
Transformer同樣基于深度神經網絡,是目前最強大的深度學習模型之一。通過完全依賴自注意力機制(Self-Attention)模型,Transformer具有高效的并行計算能力、強大的表示能力和適應長序列數據等突出優點,在文本、圖像和視頻等方面都表現出了超越RNN和CNN的性能。ChatGPT是一種基于Transformer的語言大模型,其中的GPT表示生成式預訓練(Generative Pre-Trained Transformer)。自OpenAI發布ChatGPT以來,其在對話、問答、推理和文本生成等方面的卓越表現引起了社會的普遍關注,也預示了通用人工智能(Artificial General Intelligence,AGI)時代的來臨。
與專門用于特定任務處理的深度學習模型相比,大模型具有大規模參數和復雜的計算結構,參數量有數十億甚至數千億,因此模型的表達能力和預測性能較強,能夠處理更加復雜的任務和數據。以Midjourney、Stable Diffusion、DALL-E、Sora等為代表的AIGC大模型,更是把語言大模型與圖像/視頻生成模型相結合,可以根據用戶輸入的提示詞或文字描述,生成逼真的圖像或視頻。這些AI大模型擁有多模態的處理能力,為AIGC發揮創造力提供了空間。目前,這些主流AI大模型的技術結構有一定的相似性,其中最為突出的關鍵技術當數Transformer模型和生成模型。
2 Transformer模型:自注意力機制
Transformer是一種基于自注意力機制的深度神經網絡模型[2]。注意力機制源于對人類視覺的研究,在觀察事物時,人類會選擇性地關注特定部分的信息,而忽略其他可見信息。Transformer最初針對NLP提出,在處理序列數據時,其中的每個元素都與序列中不同位置的其他元素交互,通過注意力權重捕捉與序列中其他元素的關系來不斷更新自身的表示。與CNN和RNN等不同,自注意力機制使模型可以靈活處理不同位置之間的依賴關系,尤其是獲得全局信息和長距離依賴關系。自注意力機制主要使用查詢(Query,Q)、鍵(Key,K)和值(Value,V)三個關鍵向量來計算注意力權重。具體而言,以查詢向量Q為基礎,通過計算Q與所有鍵向量K之間的相似度來計算每對元素之間的注意力分數,并將它們加權求和得到注意力權重,再將對應的值向量V與注意力權重相乘并求和,得到該元素的輸出。Q、K、V的概念源于信息檢索系統,Q表示希望獲取的信息,K用于確定與Q匹配的信息,而V則包含與相應K關聯的實際信息。自注意力機制通過Q、K、V的設計使模型能夠捕捉到序列數據中的復雜關系,其核心算式如下:
在實際應用中,往往將多個注意力機制模塊并置,同時計算,再將它們的結果合并在一起,稱為多頭注意力機制。在訓練過程中,每個“頭”能夠獨立學習不同的注意力權重。通過這種“多頭”組合的方式,模型能夠同時關注輸入序列數據中不同方面的相關信息,從而捕捉序列元素之間的微妙關系,增強模型的表達能力。
從結構上來看,Transformer與基于CNN的語義分割網絡類似,也采用編碼器—解碼器結構。在NLP任務中,這是一種流行的做法。編碼器處理輸入序列數據并生成其緊湊的抽象表示,解碼器則根據該表示解碼生成輸出序列。Transformer的編碼器部分由多個編碼器級聯而成,每個編碼器包含兩個子層連接結構,第一個子層由一個多頭自注意力機制模塊、規范化層和一個殘差連接組成,第二個子層包括一個前饋全連接層、規范化層和一個殘差連接。解碼器部分也由多個解碼器堆疊而成,每個解碼器包含三個子層連接結構,前兩個子層都由一個多頭自注意力機制模塊、規范化層和一個殘差連接組成,第三個子層也由一個前饋全連接層、規范化層和一個殘差連接組成。前饋全連接層是最早的簡單人工神經網絡類型之一;規范化層對數據進行規范化處理,使樣本數據更穩定,從而加快模型的收斂速度;殘差連接可以緩解神經網絡訓練過程中可能出現的梯度消失或梯度爆炸問題。規范化層和殘差連接是深度學習中廣泛使用的技術手段,有助于穩定訓練過程,使模型訓練更深更穩定。
為使Transformer能夠處理文本,首先需要使用分詞(Tokenization)和詞嵌入(Embedding)操作,把文本轉換成一系列向量,然后輸入模型中進行計算。分詞的概念出現于20世紀90年代,指把一段連續的文本切分成若干獨立的、有意義的基本語義單元(token)序列的過程。對英語文本而言,最簡單的分詞方法就是按空格把每個單詞作為一個token,但這需要非常龐大的詞典,而且實際語法中存在很多組合詞、縮略詞、俚語等,這時使用空格進行分詞就不合適了。分詞處理既需要保留表示文本序列的能力,也要有助于控制詞典的規模。目前最常用的分詞方法有BPE、BBPE、WordPiece等。
詞嵌入技術可以追溯到20世紀五六十年代的語言學研究,是為分詞后的每個token提供一個多維的向量表示,把稀疏離散型的高維token向低維的連續空間映射,將每個token編碼為向量。該向量可以表示token的語義,如果一個單詞在上下文中經常與另一個單詞一起出現,那么它們嵌入后在向量空間的位置會比較接近,這意味著它們有相似的語義。早在20世紀八九十年代,人們就嘗試用神經網絡來學習單詞的向量表示,再根據單詞的上下文預測下一個單詞。近年來,BERT、ELMo等大型語言模型也可以生成上下文相關的向量表示,更好地捕捉單詞的語義和上下文信息。
與RNN相比,Transformer可以利用自注意力機制進行并行計算,從而高效處理長序列數據。在編碼器部分,整個序列可以被同時處理,所有位置的計算并行,各位置的向量能同時與序列中的其他位置交互,計算注意力權重并加權求和。在解碼器部分,訓練時同樣可以進行并行處理,而在推理時則順序處理數據。通過自注意力機制和前饋神經網絡層,Transformer實現了編碼器和解碼器內部的并行計算,顯著提高了長序列數據的計算效率。其強大的表示能力使其一枝獨秀,不僅從NLP跨界到計算機視覺領域,更成為幾乎所有大模型的基礎。
Transformer也被用于視覺領域。CNN模型的不足體現在其卷積和池化操作僅能考慮局部感受,需要不斷加深網絡來獲取全局性特征,因此CNN對長距離像素關系的感受能力相對較弱。Transformer為計算機視覺應用提供了一種新的思路,與文本的序列性不同,圖像表達的是二維的空間分布,為使用Transformer模型處理圖像,需要先將圖像轉化為序列數據。Google團隊提出的ViT是第一個用Transformer代替CNN的圖像分類模型[3],它將輸入圖像分成一系列固定像素大小的圖像塊(Patches,如16×16),再經過Embedding處理,把圖像塊展平為向量形式作為Transformer的輸入。為完成圖像分類任務,Vit在輸入序列中加入一個特殊的token,訓練后對應的結果即為最后的類別判斷。Vit是Transformer在CV領域的里程碑之作,打通了圖與文之間的壁壘,圖與文可以進行統一建模。
與Vit類似,Sora文生視頻模型的核心技術之一是把視頻數據轉化為Patches的形式進行統一表示,并結合Transformer和擴散模型進行訓練。由于視頻包含連續的時間維度,Sora把視頻切分成時空圖像塊(Spacetime patches)[4],其中既包含空間上的紋理和顏色等信息,也包含時間維度上連續幾幀的信息。這些圖像塊是視頻處理的基本單元,再被轉換成一系列向量,這樣Sora就能夠利用Transformer架構的優勢同時處理空間和時間上的信息。
3 生成模型:生成力的核心
生成模型(Generative Model)是人工智能領域的一個重要分支,專注于通過訓練對已有數據集進行學習,在訓練過程中模型學習該數據集中數據的內在結構、模式和分布特征,從而生成與之類似但又不完全相同的新數據。生成模型與判別模型相對,兩者都屬于有訓練數據作為參考的監督式學習,但后者主要關注對數據的分類、識別或預測等[5]。為生成多樣化的新數據,生成模型必須具有隨機性。從概率與統計的角度來看,判別模型是在給定數據X的情況下,對類型Y出現的概率進行判斷,訓練學習的是條件概率分布P(Y/X);而生成模型學習得到的是聯合概率分布P(X,Y),即數據X和類型Y共同出現的概率,它表征了數據的分布特征,反映的是同類數據本身的相似度。由生成模型可以進一步得到相應的判別模型。相較于判別模型,生成問題的難度更大,往往更難解決。不難想象,用計算機生成一只貓的圖片的難度遠大于判斷一張圖片是否屬于貓的類型。
目前,較為流行的生成模型主要有生成對抗網絡(Generative Adversarial Net,GAN)[6]、變分自編碼器(Variational AutoEncoder, VAE)[7]和擴散模型(Diffusion Model)[8]等。
GAN主要基于CNN模型,結構由生成器和判別器兩個神經網絡組成。生成器負責生成盡可能逼真的樣本數據,以欺騙判別器;而判別器負責判斷輸入數據的真假。GAN的基本思想是通過生成器和判別器的相互對抗來不斷增強數據生成能力,兩者在訓練過程中共同進化,使生成器可以生成真假難辨的新數據。GAN自2014年提出以來受到廣泛關注,成為當時最流行的生成類任務算法,在風格遷移、圖像生成、語言合成等多個領域取得了顯著成果。經典的換臉應用Deepfakes采用的就是基于GAN的技術。
VAE模型由編碼器和解碼器組成。編碼器把訓練樣本編碼為潛在空間(Latent Space)的分布參數,而解碼器則根據這些參數生成新的數據樣本。VAE模型假設潛在空間的變量遵循一定的概率分布(如高斯分布),通過引入隨機性和對潛在空間的約束,來學習樣本在潛在空間的概率分布參數,并認為這些參數代表了樣本數據的內在結構,可以據此解碼生成高質量的圖像。與GAN相比,VAE易于訓練和調試,但生成樣本的質量不如GAN清晰。
擴散模型是近年來才提出的一種生成模型。擴散的概念源于自然界的擴散現象。如果將一滴墨水或者一顆糖果放入水里,它們會隨著時間慢慢在水中擴散開來,直到達到均衡狀態。而如果把這個過程反過來,水中則會重新匯聚出墨滴或糖果。但時間不可能倒流,自然界的擴散現象也無法逆轉,按照熱力學第二定律,這是一個熵增的不可逆過程。受非均衡熱動力學啟發,研究者定義了基于馬爾可夫鏈的擴散模型。馬爾可夫鏈表示一種隨機過程,其下一狀態的概率分布只由當前狀態決定,而與前面的狀態無關,即“無記憶性”。這個特性簡化了向圖像中添加噪聲過程的建模,只需要用上一步的圖像來預測下一步,就可以通過模擬不斷向圖像添加隨機噪聲的逐漸擴散過程,并用神經網絡進行迭代訓練,來學習擴散的逆向過程,從噪聲中重構圖像。
擴散模型包括正向擴散和逆向擴散兩個過程。正向擴散在樣本中基于隨機過程不斷添加一定量的噪聲,逐步提升樣本的復雜度,使原始信息逐漸模糊,直至淹沒在噪聲中。逆向擴散過程即生成的過程,與正向擴散相反,通過多步循環迭代,逐層去除噪聲,逐步從噪聲中恢復出清晰的圖像。擴散模型生成的新樣本不可能與原始樣本完全一致,但可以與原始樣本分布類似。與GAN、VAE等模型相比,擴散模型的應用優勢?主要體現在高質量圖像生成上,其能夠生成具有豐富細節和高逼真度的高質量圖像,圖像樣本更加多樣化,同時擴散模型在訓練時更穩定。當前主流的文生圖、文生視頻模型,如Midjourney、Stable Diffusion和DALL-E等,均采用擴散模型作為圖像生成的核心技術。
如前文所述,Stable Diffusion的圖像生成過程由圖像信息生成器和圖像解碼器兩步組成。圖像信息生成器采用的是擴散模型,實現從文本到圖像信息的生成;而圖像解碼器使用的則是VAE模型,實現圖像的解碼放大。擴散模型采用UNet結構進行建模,基于噪聲矩陣實現文本引導下的潛空間(latent space)圖像特征信息生成(即低維圖片)。UNet本來是一種基于CNN的圖像分割任務網絡,因U形對稱結構而得名,包含一個特征提取及下采樣的編碼器和一個特征上采樣及圖像重建的解碼器。在擴散模型中,UNet承擔著預測隨機噪聲,從帶有噪聲的圖像中恢復出圖像信息的任務。UNet有強大的特征提取和重建能力,通過多級編碼器提取圖像的多層次特征,在解碼器部分則逐步放大特征圖,并結合跳躍連接傳來的底層細節信息,預測應該去除的噪聲。如上文所述,擴散模型是循環運行的,UNet在擴散循環中進行迭代去噪,每次預測的噪聲由文本特征向量和循環的時間步進行引導,將預測的噪聲在隨機噪聲矩陣中去除,最終形成穩定的圖像特征。VAE包含編解碼結構,通過編碼器的壓縮和解碼器的放大功能,構建高清圖像與潛空間特征信息的變換關系,Stable Diffusion通過VAE模型解碼放大功能與擴散模型圖像特征信息生成功能的組合來實現高質量圖像的生成。
Stable Diffusion使用CLIP(Contrastive Language-Image Pre-training)預訓練模型[9]作為文本編碼器,再通過交叉注意力機制將編碼的特征向量作為條件送入圖像信息生成器。2021年,OpenAI發布的CLIP模型是一種基于文本—圖像對進行對比學習的預訓練Transformer模型,其訓練使用了一個超大規模的數據集,該數據集包含4億個通過互聯網收集的文本—圖像對數據。通過對比學習,模型計算文本和圖像特征向量的余弦相似性,學習文本和圖像的匹配關系。CLIP可以實現文本和圖像的對齊,在多模態應用領域邁出了重要一步,為文本生成圖像或視頻奠定了基礎。
為在文本和圖像之間建立聯系,CLIP使用文本編碼器對文本進行特征提取和編碼形成文本特征向量,使用圖像編碼器對圖像進行特征提取和編碼形成圖像特征向量,并在規范化后計算兩者的余弦距離,同對數據的結果趨近于1,不同對的結果趨向于0,采用對比損失進行誤差反向傳播和訓練。在訓練中,最大化同對文本描述和圖像之間的相似度,而最小化文本描述與其他圖像的相似度。文本編碼器可以使用基于Transformer的BERT模型,圖像編碼器可以使用基于CNN的ResNet或基于Transformer的Vit模型。CLIP的核心是從文本和圖像中學習一個跨模態的表示空間,在這個空間內,具有相似意義的不同模態的特征向量能夠映射在一起,從而實現根據文本搜索圖像、生成圖像,或者根據圖像生成相應的文本描述等。由于CLIP采用文圖對比進行訓練,其編碼后的文本特征向量對圖像更具有魯棒性。
4 人工智能技術在影視制作中的應用
2012年,深度學習技術開啟了人工智能的大門,很多領域因為深度神經網絡的使用而步入智能時代;2022年末,ChatGPT/GPT-4大放異彩,掀起了以“大模型”為關鍵詞的新一輪人工智能浪潮;2023年,AIGC大模型被賦予了更多的想象力和可能性,為影視行業的創新發展和升級提供了新的工具和視角。
2024年,關于生成式人工智能在影視制作中的探討,無論是學術研討還是行業實踐,都呈現井噴狀態,關于人工智能的討論幾乎遍布各大與藝術或者影視有關的學術論壇。與此同時,行業內的實踐如火如荼地展開。2月,國內首部使用人工智能制作的6集動畫《千秋詩頌》在央視綜合頻道上線開播;4月,央視電影頻道“AI影像人才優選計劃”推出《鳳鳴山海》等以荊楚文化為主題的短片;第14屆北京國際電影節,首次開設了“AIGC電影短片單元”,動畫《致親愛的自己》獲得AIGC電影短片單元最佳影片。這些作品的問世顯示了生成式人工智能巨大的潛力。一方面,生成式大模型的出現讓(下轉第頁)
(上接第頁)影視制作的門檻變低,一部2分鐘的短片可以由5個人在10多天內完成,為更多潛在的創作者提供入行契機;另一方面,其制作過程并非“一鍵生成”,所需要的前期儲備與藝術積淀并不弱于傳統制作。未來,隨著技術的不斷升級以及創作者們的不斷實踐探索,AIGC大模型對影視制作的介入將呈現出愈發多元的面貌,給影視行業帶來更多的機會與挑戰。
5 結語
從深度學習到基于Transformer和擴散模型的生成式大模型,人工智能技術在影視制作中的應用越來越廣泛。基于注意力機制的Transformer模型能夠更好地理解和處理文本,捕捉文本含義,不僅是各種語言大模型的基礎框架,更跨越到視覺領域,為跨模態應用奠定了基礎。擴散模型引領了生成模型的最新發展,通過借鑒物理學中的擴散過程,采用逐步添加噪聲并去除噪聲的方式,獲得高質量的圖像生成能力。
目前,生成式人工智能主要表現為文生圖和文生視頻等生成式大模型,這種基于文本描述生成內容的新技術,可能改變影視內容創意與生產的范式,為創意表達提供前所未有的技術工具。
參考文獻:
[1] Zhang X, Kang H, Cai Y, et al. CLIP Model for Images to Textual Prompts Based on Top-k Neighbors[C] //International Conference on Electronic Information Engineering and Computer Science. Proceeding of 2023 3rd International Conference on Electronic Information Engineering and Computer Science. Changchun: Lecture Hall of Changchun University of Science and Technology, 2023: 9.
[2] Vaswani A, Shazeer N, Parmar N, et al. Attention Is All You Need[EB/OL]. arXiv, (2017-06-12) [2024-07-14]. https://arxiv.org/abs/1706.03762.
[3] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale[EB/OL]. arXiv, (2020-10-22) [2024-07-14]. https://arxiv.org/abs/2010.11929.
[4] Vincent K. Explaining OpenAI Sora's Spacetime Patches: The Key Ingredient [EB/OL]. Medium, (2024-02-16) [2024-07-14]. https://towardsdatascience.com/explaining-openai-soras-spacetime-patches-the-key-ingredient-e14e0703ec5b.
[5] Jebara T. Machine learning: discriminative and generative[M]. New York: Springer, 2004: 1-16.
[6] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative Adversarial Nets [EB/OL]. arXiv, (2014-06-10) [2024-07-15]. https://arxiv.org/abs/1406.2661.
[7] Kingma D P, Welling M. Stochastic Gradient VB and the Variational Auto-Encoder [EB/OL]. arXiv, (2013-12-20) [2024-07-15]. https://arxiv.org/abs/1312.6114v6.
[8] Ho J, Jain A, Abbeel P. Denoising Diffusion Probabilistic Models [EB/OL]. arXiv, (2020-06-19) [2024-07-15]. https://arxiv.org/abs/2006.11239.
[9] Radford A, Kim J W, Hallacy C, et al. Learning Transferable Visual Models From Natural Language Supervision[EB/OL]. arXiv, (2021-02-26) [2024-07-15]. https://arxiv.org/abs/2103.00020.