2024生成式AI圖像模型年報(bào)

2025-02-20 00:00:00羅霄趙伯祚

藝術(shù)學(xué)研究 2025年1期

關(guān)鍵詞：功能模型

生成式AI在2023年呈現(xiàn)井噴式發(fā)展態(tài)勢(shì)，而在2024年，其發(fā)展的最顯著特征則在于實(shí)現(xiàn)了跨領(lǐng)域的廣泛應(yīng)用。商業(yè)AI工具的高質(zhì)量與便捷性，結(jié)合開源AI模型在各類復(fù)雜工作流程中的深度整合，使AI技術(shù)從專業(yè)人員的研究對(duì)象轉(zhuǎn)變?yōu)楦餍懈鳂I(yè)不可或缺的日常工具。另一個(gè)顯著特征是國(guó)產(chǎn)AI模型的崛起。2023年，行業(yè)關(guān)注度主要集中在國(guó)際巨頭身上，以Midjourney、DALL·E（OpenAI）、Stable Diffusion為代表的圖像生成工具及專注于視頻生成的Runway都表現(xiàn)出色，在大語(yǔ)言模型領(lǐng)域則以ChatGPT和Claude最令人矚目。而2024年，國(guó)產(chǎn)AI繪畫工具呈現(xiàn)百花齊放之勢(shì)，在視頻領(lǐng)域，可靈、Vidu、海螺、豆包PixelDance等新興產(chǎn)品與老牌Runway形成競(jìng)爭(zhēng)之勢(shì)；更值得關(guān)注的是，豆包、元寶、Kimi等大語(yǔ)言模型展現(xiàn)出更為廣闊的發(fā)展前景。

本文將聚焦視覺藝術(shù)與設(shè)計(jì)領(lǐng)域，系統(tǒng)梳理2024年生成式AI圖像模型及相關(guān)工具的發(fā)展歷程。

1月

Midjourney在2023年12月發(fā)布V6 Alpha版后，在2024年持續(xù)優(yōu)化，提升了圖像的美觀度、連貫性和放大質(zhì)量。同期，Midjourney針對(duì)動(dòng)漫類圖像優(yōu)化的Niji-Journey也發(fā)布了V6版本（圖1）。

Google發(fā)布的視頻生成模型Lumiere采用創(chuàng)新的空間—時(shí)間架構(gòu)（Space-Time U-Net architecture），能夠一次性生成整個(gè)視頻，Lumiere在時(shí)間連貫性和物理場(chǎng)景一致性方面表現(xiàn)出色，能支持文生視頻、圖生視頻等多種模式。

InstantX團(tuán)隊(duì)（來(lái)自小紅書）開發(fā)的InstantID模型實(shí)現(xiàn)了一項(xiàng)技術(shù)突破：僅需輸入單張面部圖片，即可生成多樣化的風(fēng)格圖像，同時(shí)還能保持較高的身份特征保真度（圖2）。這一成果顯著簡(jiǎn)化了傳統(tǒng)工作流程。在此之前，類似功能的實(shí)現(xiàn)通常依賴于Textural Inversion、DreamBooth或LoRA等模型訓(xùn)練方法，需要收集充足的數(shù)據(jù)集并經(jīng)過較長(zhǎng)時(shí)間的訓(xùn)練過程，才能獲得經(jīng)微調(diào)的模型以生成風(fēng)格化圖像。InstantID通過創(chuàng)新性地設(shè)計(jì)IdentityNet架構(gòu)，采用強(qiáng)語(yǔ)義約束與弱空間約束相結(jié)合的方式，將面部特征圖像與地標(biāo)信息及文本提示有機(jī)整合，從而指導(dǎo)圖像生成過程。這種方法省略了繁瑣的模型訓(xùn)練環(huán)節(jié)，在性能和效率方面展現(xiàn)出顯著優(yōu)勢(shì)。

在工具生態(tài)方面，Stable Diffusion的兩大主要圖形界面WebUI和ComfyUI分別代表傳統(tǒng)軟件風(fēng)格和節(jié)點(diǎn)式風(fēng)格，持續(xù)為創(chuàng)作者提供便捷的創(chuàng)作環(huán)境。

在國(guó)內(nèi)，大部分Stable Diffusion WebUI用戶使用的是由秋葉（秋葉aaaki）定制的WebUI整合包，它打包了Stable Diffusion WebUI運(yùn)行所需的軟件環(huán)境，開箱即可使用，降低了手動(dòng)安裝帶來(lái)的復(fù)雜度，適合新手使用。2024年1月，秋葉首次發(fā)布了ComfyUI整合包。

2月

本月，Stability AI相繼發(fā)布了兩款重要模型。首先是Stable Cascade模型，它采用創(chuàng)新的三階段級(jí)聯(lián)架構(gòu)，有別于傳統(tǒng)的Stable Diffusion系列。該模型專注于高質(zhì)量、高分辨率圖像的生成，盡管算力消耗較高，但在高精度、高細(xì)節(jié)圖像創(chuàng)作方面表現(xiàn)卓越。緊隨其后，公司發(fā)布了Stable Diffusion 3的早期預(yù)覽版，這是該系列功能最強(qiáng)大的文生圖模型，在多主題提示詞理解、圖像質(zhì)量和文本拼寫能力方面均實(shí)現(xiàn)了顯著提升。在視頻生成領(lǐng)域，Stability AI還開啟了Stable Video Diffusion網(wǎng)站的公測(cè)。

2月最引人矚目的事件是OpenAI發(fā)布了Sora模型。該模型致力于通過人工智能理解并模擬物理世界的動(dòng)態(tài)特性，由此生成時(shí)長(zhǎng)達(dá)1分鐘的高質(zhì)量視頻內(nèi)容，并能準(zhǔn)確響應(yīng)用戶的文本提示（圖3）。盡管本月僅發(fā)布了演示視頻系列，但Sora在圖像質(zhì)量、時(shí)序連貫性、動(dòng)作幅度和穩(wěn)定性等方面的卓越表現(xiàn)，顯著超越了同期同類模型，有效解決了AI視頻生成領(lǐng)域的諸多技術(shù)難題。這一突破性進(jìn)展與ChatGPT首次發(fā)布時(shí)的影響力相似，迅速引發(fā)全球關(guān)注，甚至促使學(xué)界探討其作為“世界模擬器”的潛在意義。

在AI圖像工具領(lǐng)域，ControlNet的開發(fā)者lllyasviel（張呂敏）基于現(xiàn)有版本開發(fā)并發(fā)布了新一代Stable Diffusion WebUI，并將其命名為Stable Diffusion WebUI Forge。該版本在資源管理方面實(shí)現(xiàn)了顯著優(yōu)化，不僅大幅提升了運(yùn)行性能，還簡(jiǎn)化了Stable Diffusion生態(tài)系統(tǒng)中各類模型算法的實(shí)現(xiàn)過程。這些優(yōu)化為后續(xù)的技術(shù)發(fā)展奠定了基礎(chǔ)，使得2024年新推出的更為先進(jìn)的Flux模型能夠率先在WebUI Forge平臺(tái)上得到支持和實(shí)現(xiàn)。

Deforum是早期首個(gè)基于Stable Diffusion模型的視頻生成工具，也有在WebUI中的擴(kuò)展版本。2月Deforum推出了無(wú)需安裝便可以在線直接使用的Deforum Studio。2024年上半年國(guó)內(nèi)AI視頻初火，一些具有所謂“AI瞬息全宇宙”效果、尤其在央視頻和各地方融媒體上出現(xiàn)的一系列AI文旅宣傳片，很多鏡頭都是用Deforum制作的。

3月

Midjourney在本月推出角色一致性（Character Reference）功能，實(shí)現(xiàn)了同一角色在不同圖像中的固定表現(xiàn)（圖4）。這一功能雖然在Stable Diffusion生態(tài)中早已存在（通過模型訓(xùn)練、IPAdapter或InstantID等方式實(shí)現(xiàn)），但Midjourney的實(shí)現(xiàn)方式更加便捷，提升了用戶體驗(yàn)。

Stability AI本月發(fā)布了多項(xiàng)重要更新：首先推出了TripoSR，這是一種快速的三維物體重建模型，能由單張圖片生成高質(zhì)量的三維模型；其次公開了Stable Diffusion 3的研究論文，揭示了其采用MMDiT（多模態(tài)擴(kuò)散Transformer）架構(gòu)的技術(shù)細(xì)節(jié)，該架構(gòu)使用獨(dú)立權(quán)重分別處理圖像和語(yǔ)言，并結(jié)合三個(gè)文本編碼器，在視覺美學(xué)、提示詞遵循和排版方面均有顯著提升；最后發(fā)布了Stable Video 3D，這是一種基于Stable Video Diffusion的三維生成模型，相比2023年12月發(fā)布的Stable Zero123，在生成效果的一致性和泛化性方面表現(xiàn)更優(yōu)。

OpenAI繼續(xù)深化對(duì)Sora的應(yīng)用探索，與視覺藝術(shù)家、設(shè)計(jì)師、創(chuàng)意總監(jiān)和電影制作人密切合作，推出了名為“第一印象”（First Impressions）的作品系列，再次展示了其卓越的技術(shù)實(shí)力。

4月

Adobe在2024美國(guó)國(guó)際廣播電視展（NAB Show）上展示了Premiere Pro的重要更新，通過集成Runway和OpenAI Sora等第三方視頻生成模型，大幅拓展了媒體創(chuàng)作的可能性。這一集成使得創(chuàng)作者能夠在Premiere Pro中直接使用AI視頻生成功能，為專業(yè)視頻制作帶來(lái)了革命性的變化。

國(guó)產(chǎn)視頻大模型領(lǐng)域迎來(lái)重要突破，生數(shù)科技聯(lián)合清華大學(xué)發(fā)布了中國(guó)首個(gè)高性能視頻大模型 Vidu。該模型具備視頻時(shí)間長(zhǎng)、畫面一致性好、高動(dòng)態(tài)性等特點(diǎn)，能夠模擬真實(shí)的物理世界，支持多鏡頭生成，是繼Sora發(fā)布后迅速跟進(jìn)的重要國(guó)產(chǎn)成果。

字節(jié)跳動(dòng)在4月提出了Hyper-SD，這是一種創(chuàng)新的軌跡分段一致性模型。該模型最大特點(diǎn)是能夠快速生成高質(zhì)量圖像，在SDXL和SD1.5兩種架構(gòu)下，僅需1至8步就能生成頂級(jí)質(zhì)量的圖像（圖5）。由于生成速率極快，該技術(shù)甚至可以用于接近實(shí)時(shí)的繪畫創(chuàng)作，為交互式AI藝術(shù)創(chuàng)作提供了新的可能性。

5月

Google在2024 I / O大會(huì)上發(fā)布了兩款重磅產(chǎn)品：圖像生成模型Imagen 3和視頻生成模型Veo。Imagen 3作為Google最高質(zhì)量的文本轉(zhuǎn)圖像模型，能夠生成具有更精細(xì)細(xì)節(jié)、更豐富光線和更少干擾偽影的圖像。Veo則是針對(duì)OpenAI Sora的競(jìng)爭(zhēng)產(chǎn)品，支持生成高質(zhì)量、1080p分辨率、時(shí)長(zhǎng)超過一分鐘的視頻，并具有多種電影和視覺風(fēng)格。

近兩年在“AI繪畫”領(lǐng)域，Stable Diffusion（1.5與XL版）幾乎是開源圖像模型里的唯一選擇。5月，騰訊開源了他們的混元DiT文生圖大模型（圖6），該模型是一種高性能細(xì)粒度中文理解多分辨率擴(kuò)散Transformer模型，基于全新的DiT架構(gòu)，與Sora、Stable Diffusion 3相同。開源后的混元DiT模型甚至可以在以前由Stable Diffusion模型專屬的WebUI、ComfyUI等工具中使用。這一舉措不僅豐富了開源生態(tài)，也為中文環(huán)境下的AI創(chuàng)作提供了新的選擇。

6月

Stability AI在本月正式發(fā)布了Stable Diffusion 3 Medium版模型（此前僅發(fā)布過相關(guān)論文）。該模型能生成具有出色細(xì)節(jié)、色彩和光照效果的圖像，不僅實(shí)現(xiàn)了照片級(jí)的真實(shí)感，還支持多種靈活風(fēng)格的高質(zhì)量輸出。模型成功解決了以往版本的常見缺陷，特別是在手部和面部的真實(shí)感呈現(xiàn)方面表現(xiàn)出色。在理解力方面，模型能夠準(zhǔn)確理解涉及空間推理、構(gòu)圖元素、動(dòng)作和風(fēng)格的長(zhǎng)篇復(fù)雜提示詞。通過采用DiT架構(gòu)，模型實(shí)現(xiàn)了前所未有的圖文質(zhì)量，顯著減少了圖像中文字的拼寫、字距調(diào)整、字母形成和間距方面的錯(cuò)誤。此外，模型的整體性能得到提升，更加適合定制化微調(diào)訓(xùn)練。

6月，在AI視頻領(lǐng)域也有重要突破。國(guó)產(chǎn)AI視頻大模型繼續(xù)發(fā)力，快手發(fā)布了對(duì)標(biāo)Sora的視頻生成模型“可靈”（Kling）。該模型采用與Sora類似的DiT架構(gòu)，并結(jié)合多項(xiàng)自研創(chuàng)新，在運(yùn)動(dòng)幅度、一致性、物理世界模擬以及多種尺寸比例等方面均實(shí)現(xiàn)了大幅提升。可靈發(fā)布后在國(guó)內(nèi)外均獲得了廣泛關(guān)注，繼首次發(fā)布文生視頻功能后，本月又推出了圖生視頻功能。

Luma AI發(fā)布的視頻模型Dream Machine同樣支持文本提示和圖像提示，能夠生成高分辨率的、符合美學(xué)風(fēng)格和物理運(yùn)動(dòng)規(guī)律的視頻。

視頻生成領(lǐng)域的領(lǐng)軍企業(yè)Runway也在本月發(fā)布了Gen-3 Alpha版。作為Runway下一代基礎(chǔ)模型中的首個(gè)版本，它在全新構(gòu)建的大規(guī)模、多模態(tài)訓(xùn)練基礎(chǔ)設(shè)施上進(jìn)行訓(xùn)練。與Gen-2相比，新版本在保真度、一致性和運(yùn)動(dòng)表現(xiàn)方面都有了顯著改進(jìn)（圖7），向構(gòu)建通用世界模型邁出了重要一步。值得注意的是，Runway Gen-3在訓(xùn)練過程中特別組建了由工程師、科學(xué)家和藝術(shù)家組成的跨學(xué)科協(xié)作團(tuán)隊(duì)，旨在更好地詮釋電影術(shù)語(yǔ)及各種藝術(shù)風(fēng)格。

7月

Stability AI的聊天機(jī)器人產(chǎn)品Stable Assistant本月推出新功能。基于Stable Diffusion 3的最新圖像生成技術(shù)Stable Image Ultra，該產(chǎn)品提供了多樣化的圖像編輯工具，包括圖像分辨率提升和基于圖像的視頻生成功能。該產(chǎn)品的核心功能包括：（1）搜索和替換：允許用戶在上傳的圖像中指定對(duì)象并無(wú)縫替換（圖8），這對(duì)需要在保持整體構(gòu)圖的同時(shí)修改視覺效果的創(chuàng)意專業(yè)人士尤為實(shí)用。（2）保持構(gòu)圖：在保持輸入圖像結(jié)構(gòu)的同時(shí)支持高級(jí)內(nèi)容創(chuàng)建，如場(chǎng)景重建或模型角色渲染，確保生成圖像嚴(yán)格遵循預(yù)設(shè)結(jié)構(gòu)參數(shù)。（3）草圖轉(zhuǎn)圖像：將手繪草圖轉(zhuǎn)化為精致圖像，實(shí)現(xiàn)對(duì)最終效果的精確控制；對(duì)非草圖圖像，可通過輪廓線和邊緣進(jìn)行細(xì)節(jié)操作。

同時(shí)，Stability AI推出了用于動(dòng)態(tài)多角度視頻生成的Stable Video 4D。該技術(shù)能將單一對(duì)象視頻轉(zhuǎn)換為8個(gè)不同角度的多視圖視頻，僅需一次推理即可在約40秒內(nèi)生成8個(gè)視圖的5幀內(nèi)容。用戶可自定義攝像機(jī)角度以滿足特定創(chuàng)意需求。該模型目前仍處于研究階段，未來(lái)有望應(yīng)用于游戲開發(fā)、視頻編輯和虛擬現(xiàn)實(shí)領(lǐng)域。

Midjourney在7月底發(fā)布6.1版模型。新版本在多個(gè)方面實(shí)現(xiàn)突破：圖像內(nèi)容連貫性顯著提升，特別是在手臂、腿、手、身體、植物、動(dòng)物等細(xì)節(jié)表現(xiàn)方面；圖像質(zhì)量大幅提升，減少像素偽影，增強(qiáng)紋理和皮膚效果；小型圖像特征更加精確細(xì)致；圖像放大器質(zhì)量提升；整體性能改進(jìn)；文字準(zhǔn)確性進(jìn)一步提高。

快手除了備受關(guān)注的視頻生成模型“可靈”，本月還開源了圖像生成大模型“可圖”（Kolors）。該模型基于數(shù)十億圖文對(duì)數(shù)據(jù)集訓(xùn)練，在視覺質(zhì)量、復(fù)雜語(yǔ)義理解和圖像文字生成等方面表現(xiàn)優(yōu)異，并支持中英雙語(yǔ)，對(duì)中文語(yǔ)境和中國(guó)文化創(chuàng)作更加友好。“可靈”模型本月更新增加了多項(xiàng)控制參數(shù)：可調(diào)節(jié)視頻內(nèi)容與提示詞的符合程度，增加運(yùn)鏡控制功能，支持負(fù)提示詞設(shè)置，并在圖生視頻環(huán)節(jié)加入首尾幀控制功能，這項(xiàng)功能尤其實(shí)用，可用于實(shí)現(xiàn)多段視頻內(nèi)容的連接（圖9）。此外，快手發(fā)布了LivePortrait技術(shù)，這是一種基于拼接和重定向控制的高效率肖像動(dòng)畫技術(shù)。通過輸入面部表情視頻和肖像照片（含繪畫），可實(shí)現(xiàn)視頻驅(qū)動(dòng)肖像動(dòng)畫，甚至支持人類表情驅(qū)動(dòng)動(dòng)物肖像的創(chuàng)新應(yīng)用。

8月

本月最引人注目的是開源圖像大模型生態(tài)的重大更新—Flux的發(fā)布。由前Stability AI核心成員Robin Rombach創(chuàng)立的黑森林實(shí)驗(yàn)室（Black Forest Labs）開發(fā)的Flux，其圖像生成效果已達(dá)到可與Midjourney媲美的水平。本月發(fā)布的FLUX.1文生圖模型套件在圖像細(xì)節(jié)、提示詞遵循、風(fēng)格多樣性和場(chǎng)景復(fù)雜性等方面展現(xiàn)了領(lǐng)先水平。為平衡可用性與功能性，F(xiàn)LUX.1推出3個(gè)版本，F(xiàn)LUX.1 [pro]：作為最優(yōu)版本，在提示詞遵循、視覺質(zhì)量、圖像細(xì)節(jié)和輸出多樣性方面表現(xiàn)卓越；FLUX.1 [dev]：面向非商業(yè)應(yīng)用的開放權(quán)重導(dǎo)向蒸餾模型，直接從pro版本提煉，保持相似質(zhì)量，可在24G顯存顯卡（3090、4090）上穩(wěn)定運(yùn)行；FLUX.1 [schnell]：遵循Apache 2.0許可協(xié)議，專為本地開發(fā)和個(gè)人使用優(yōu)化的高速版本。Flux在圖像精細(xì)度方面表現(xiàn)突出，支持復(fù)雜提示詞，能靈活定制圖像細(xì)節(jié)。雖未能實(shí)現(xiàn)完全精確，但相比此前的Stable Diffusion XL等開源模型，提示詞遵循性有顯著提升。

盡管核心人員離職并發(fā)布了Flux，Stability AI仍保持創(chuàng)新勢(shì)頭，推出了Stable Fast 3D。該技術(shù)僅需0.5秒即可從單幅圖像生成高質(zhì)量3D圖像。基于TripoSR架構(gòu)改進(jìn)，該模型特別適用于游戲、虛擬現(xiàn)實(shí)開發(fā)以及零售、建筑、設(shè)計(jì)等圖形密集型行業(yè)。

Ideogram AI發(fā)布的Ideogram 2.0展現(xiàn)了業(yè)界領(lǐng)先的文生圖能力，其在生成逼真圖像、圖形設(shè)計(jì)和排版方面表現(xiàn)優(yōu)異。新版本支持靈活的圖像樣式控制和任意縱橫比，顯著提升了真實(shí)感和文本準(zhǔn)確性，尤其適合賀卡、印刷品、海報(bào)等設(shè)計(jì)需求。

智譜開源了CogVideoX系列視頻生成模型，支持文生視頻、圖生視頻和視頻轉(zhuǎn)繪等功能，豐富了開源視頻模型生態(tài)。

阿里云發(fā)布新一代視覺語(yǔ)言模型Qwen2-VL，基于千問Qwen2打造而成。該模型在視覺內(nèi)容理解方面表現(xiàn)突出，可處理不同分辨率和長(zhǎng)寬比的圖片，支持20分鐘以上長(zhǎng)視頻的理解，并具備多語(yǔ)言圖像理解能力。

8月末，MiniMax公司在其海螺AI平臺(tái)推出視頻生成模型abab-video-1，支持文生視頻功能，特點(diǎn)是實(shí)現(xiàn)2K高分辨率和25fps高幀率輸出。

9月

Runway Gen-3 Alpha推出視頻生成視頻（又稱視頻風(fēng)格化、視頻轉(zhuǎn)繪、Video to Video）功能。雖然該功能在2023年Runway Gen-1就已推出，但當(dāng)時(shí)效果欠佳，市場(chǎng)上的視頻轉(zhuǎn)繪方案主要依賴開源的ComfyUI結(jié)合AnimateDiff模型實(shí)現(xiàn)。此次Runway Gen-3 Alpha作為領(lǐng)先的商業(yè)視頻模型，顯著提升了視頻轉(zhuǎn)繪質(zhì)量。用戶只需上傳源視頻，提供美學(xué)方向的提示詞或從預(yù)設(shè)樣式中選擇，即可獲得優(yōu)質(zhì)的轉(zhuǎn)繪效果。

Adobe發(fā)布了Firefly Video模型預(yù)覽，展示的樣例視頻效果出眾，該模型將于近期正式發(fā)布。

阿里云推出通義萬(wàn)相視頻生成模型，具備文生視頻、圖生視頻功能。該模型在概念理解與組合生成方面表現(xiàn)突出，特別優(yōu)化了中式元素的表現(xiàn)，并支持多語(yǔ)言輸入和可變分辨率輸出。

字節(jié)跳動(dòng)發(fā)布兩款豆包視頻生成模型：PixelDance和Seaweed（圖10）。其中，PixelDance以精準(zhǔn)的提示詞響應(yīng)見長(zhǎng)，支持在單個(gè)視頻中生成多個(gè)鏡頭，適合復(fù)雜劇情敘事創(chuàng)作；Seaweed則在動(dòng)效合理性和運(yùn)鏡自然度方面表現(xiàn)優(yōu)異，更注重視覺表現(xiàn)力。

快手“可靈”發(fā)布1.5版模型，實(shí)現(xiàn)1080P高清視頻直接輸出，在畫面美感、運(yùn)動(dòng)合理度和文本響應(yīng)度等方面均有提升。

10月

Pika在沉寂多時(shí)后發(fā)布PIKA 1.5版本。作為2023年曾與Runway并駕齊驅(qū)的視頻模型廠商，其此次更新的特點(diǎn)是實(shí)現(xiàn)了更逼真的動(dòng)作表現(xiàn)、大屏幕鏡頭效果，以及一系列突破物理定律的特效，其中“充氣”特效一度引發(fā)熱議（圖11）。

Meta發(fā)布Meta Movie Gen系列模型，集成了文生圖、文生視頻、圖生視頻、個(gè)性化視頻、視頻編輯等功能。該模型視頻編輯功能支持通過提示詞直接修改視頻中的具體元素，如外觀或背景；個(gè)性化視頻功能則允許用戶通過提示詞和單張照片生成個(gè)性化視頻內(nèi)容。

Adobe在全球創(chuàng)意大會(huì)Adobe MAX 2024上正式發(fā)布Firefly Video Model，并將其集成至旗下視頻剪輯工具Premiere Pro中。

Runway推出表情驅(qū)動(dòng)功能Act-One。雖然類似功能在業(yè)界并不罕見，但Runway憑借頂級(jí)的效果質(zhì)量和獨(dú)特視角脫穎而出。該功能允許用戶自主表演來(lái)驅(qū)動(dòng)目標(biāo)角色，結(jié)合Runway Gen-3 Alpha強(qiáng)大的視頻轉(zhuǎn)換能力，特別適合制作需要復(fù)雜分鏡、豐富表情和多角色互動(dòng)的敘事型短劇。用戶甚至可以實(shí)現(xiàn)一人分飾多角，通過單個(gè)演員和攝像機(jī)設(shè)置生成多機(jī)位對(duì)話場(chǎng)景（圖12）。

愛詩(shī)科技發(fā)布PixVerse V3版本視頻生成大模型，在底層模型能力、提示詞遵循度和視頻質(zhì)量方面均有顯著提升，并提供創(chuàng)意模板支持多模態(tài)視頻生成。

靜態(tài)圖像領(lǐng)域，Midjourney推出在線圖像編輯器和紋理重構(gòu)（retexturing）功能。編輯器支持圖像上傳、擴(kuò)展、裁剪、重繪及場(chǎng)景內(nèi)容修改，實(shí)現(xiàn)設(shè)計(jì)與藝術(shù)創(chuàng)作的深度融合。紋理重構(gòu)功能可估計(jì)場(chǎng)景形狀并重新渲染紋理，效果類似Stable Diffusion的ControlNet。

Black Forest Labs發(fā)布FLUX 1.1[pro]版，生成速度較前代提升六倍，同時(shí)改進(jìn)了圖像質(zhì)量、及時(shí)性和多樣性。

Stability AI在經(jīng)歷公司高管變動(dòng)、核心成員出走并推出強(qiáng)力競(jìng)爭(zhēng)對(duì)手模型Flux后，本月強(qiáng)勢(shì)歸來(lái)，發(fā)布了Stable Diffusion 3.5。該開放版本包含3個(gè)可定制模型變體，Stable Diffusion 3.5Large：81億參數(shù)的頂級(jí)基礎(chǔ)模型，適合百萬(wàn)像素級(jí)專業(yè)應(yīng)用；Stable Diffusion 3.5 Large Turbo：Large 版本的精簡(jiǎn)版，4步即可生成高質(zhì)量圖像；Stable Diffusion 3.5 Medium：25億參數(shù)的平衡版本，采用 MMDiT-X 架構(gòu)，適合消費(fèi)級(jí)顯卡使用。這些模型的大小可進(jìn)行高度定制，可在消費(fèi)級(jí)顯卡上運(yùn)行，并且在寬松的 Stability AI 社區(qū)許可下可免費(fèi)用于商業(yè)和非商業(yè)用途。可從Hugging Face下載所有 Stable Diffusion 3.5模型，并在GitHub上下載推理代碼。

ControlNet作者lllyasviel（張呂敏）推出基于Flux的IC-Light V2光照模型，支持保留輸入圖像細(xì)節(jié)的同時(shí)進(jìn)行光照、陰影修改，并實(shí)現(xiàn)原生高分辨率輸出。

開源圖像模型生態(tài)的創(chuàng)作軟件ComfyUI本月推出了有史以來(lái)最重磅的版本更新V1版。該版本發(fā)布了完整桌面安裝包，跨平臺(tái)支持Windows/macOS/Linux，具備自動(dòng)更新功能，以及更多細(xì)節(jié)功能，直接解決新手最大的痛點(diǎn)：環(huán)境安裝與部署。用戶界面也做了全新的設(shè)計(jì)，還提供Comfy節(jié)點(diǎn)注冊(cè)表（CNR），類似Web開發(fā)生態(tài)中的軟件包管理器NPM，目標(biāo)是創(chuàng)建更安全、更穩(wěn)定的ComfyUI自定義節(jié)點(diǎn)用戶體驗(yàn)。

11月

Runway持續(xù)為影像創(chuàng)作者提供更多創(chuàng)作想象力，在視頻生成功能的基礎(chǔ)上推出了更高級(jí)的鏡頭控制功能。同時(shí)，Runway新增視頻擴(kuò)展功能，支持將小幅畫面擴(kuò)展為更高分辨率和不同尺寸比例的畫面。此外，11月下旬，Runway推出了Frames圖像生成模型。這是一種提供前所未有風(fēng)格控制的模型，在風(fēng)格控制和視覺保真度方面取得了顯著進(jìn)步，幫助創(chuàng)作者構(gòu)建更具審美特征和細(xì)膩細(xì)節(jié)的靜態(tài)圖像內(nèi)容。

2024年早些時(shí)候刷屏的Sora又在11月引發(fā)關(guān)注，但引發(fā)關(guān)注的問題并非來(lái)自O(shè)penAI官方，而是起因于民間“泄露”事件。一封公開信顯示，參與Sora早期測(cè)試活動(dòng)的一批受邀藝術(shù)家和創(chuàng)意合作伙伴認(rèn)為，OpenAI通過該測(cè)試活動(dòng)將特邀藝術(shù)家視為“無(wú)償免費(fèi)漏洞測(cè)試員、公關(guān)傀儡和訓(xùn)練數(shù)據(jù)來(lái)源”。數(shù)百名藝術(shù)家參與了測(cè)試計(jì)劃，免費(fèi)貢獻(xiàn)作品和實(shí)驗(yàn)測(cè)試，但僅有少數(shù)人的作品通過競(jìng)賽形式得以公開展示。對(duì)此，一些藝術(shù)家將Sora的測(cè)試API（接口）公開至huggingface網(wǎng)站，向所有人開放使用。然而，公開信發(fā)表后，API很快失效，無(wú)法繼續(xù)使用，但仍有部分通過API制作的視頻Demo流出。無(wú)論事件本身的真實(shí)性如何，這一案例確實(shí)反映了當(dāng)前AI模型廠商的主流運(yùn)營(yíng)方式。包括國(guó)內(nèi)廠商在內(nèi)，幾乎每家在發(fā)布新版本時(shí)，都會(huì)召集創(chuàng)作者社群，開展模型試用和創(chuàng)作獎(jiǎng)勵(lì)活動(dòng)，以快速收集一手使用反饋并積累種子用戶。各廠商的獎(jiǎng)勵(lì)機(jī)制和實(shí)際運(yùn)營(yíng)策略有所不同，而從創(chuàng)作者的角度來(lái)看，更期待這種合作能成為雙贏的良性循環(huán)。

可靈1.5版本新增了運(yùn)動(dòng)筆刷、運(yùn)鏡控制和圖生視頻首尾幀功能。同時(shí)推出的人臉模型功能可確保視頻中人臉I(yè)D的一致性。根據(jù)創(chuàng)作者社群的測(cè)試反饋，可靈在國(guó)產(chǎn)視頻模型中的綜合能力處于領(lǐng)先地位。在靜態(tài)圖像生成領(lǐng)域，可靈推出了AI試衣功能，并能結(jié)合視頻模型生成試衣效果的動(dòng)態(tài)展示。

3D圖形生成方面，騰訊混元開源了Hun-yuan3D-1.0模型。作為首個(gè)同時(shí)支持文生和圖生的3D開源模型，進(jìn)一步豐富了國(guó)內(nèi)開源生態(tài)。

字節(jié)跳動(dòng)發(fā)布的新模型SeedEdit支持通過提示詞直接編輯圖像，用戶只需一句話即可實(shí)現(xiàn)內(nèi)容替換、風(fēng)格變換等操作。值得注意的是，類似功能此前已在Stable Diffusion開源生態(tài)的ControlNet 1.1 Instruct Pix2Pix中出現(xiàn)。

作為圖像模型第一梯隊(duì)的Flux，在11月推出了FLUX.1 Tools工具集。在已具備頂級(jí)圖像生成質(zhì)量的基礎(chǔ)上，這套工具集的功能類似于Stable Diffusion的ControlNet擴(kuò)展，使Flux能夠在復(fù)雜設(shè)計(jì)場(chǎng)景中實(shí)現(xiàn)更廣泛的應(yīng)用。FLUX.1 Tools包含以下組件，F(xiàn)LUX.1 Fill：基于Inpaint技術(shù)，提供局部重繪和擴(kuò)圖功能；FLUX.1 Depth：Flux官方版本的ControlNet深度模型；FLUX.1 Canny：邊緣檢測(cè)模型；FLUX.1 Redux：支持通過提示詞改變圖像風(fēng)格。

面對(duì)Flux的強(qiáng)勁攻勢(shì)，Stability AI迅速做出回應(yīng)，為Stable Diffusion 3.5 Large推出了ControlNet模型，同樣致力于圖像深度定制場(chǎng)景的應(yīng)用。

12月

12月初，斯坦福大學(xué)教授李飛飛公布了她的空間智能項(xiàng)目，通過單張圖片和一句提示詞就能生成可交互的3D空間（圖13）。

騰訊混元系列繼續(xù)開源，這次是視頻生成模型HunyuanVideo，其能夠基于文本描述自動(dòng)生成高質(zhì)量的視頻內(nèi)容。該模型采用了深度學(xué)習(xí)與大規(guī)模數(shù)據(jù)訓(xùn)練，支持多種風(fēng)格和場(chǎng)景的創(chuàng)作，使得視頻制作更加便捷與智能化。

字節(jié)跳動(dòng)的“即夢(mèng)”AI全新繪圖模型V2.1更新了中文海報(bào)生成工具，旨在通過AI技術(shù)簡(jiǎn)化視覺創(chuàng)作過程。該模型基于深度學(xué)習(xí)，能夠根據(jù)用戶提供的文本描述，自動(dòng)生成精美的中文海報(bào)設(shè)計(jì)。V2.1版本在細(xì)節(jié)處理和視覺效果上進(jìn)行了優(yōu)化，提升了圖像的藝術(shù)性與表現(xiàn)力，特別適合廣告、活動(dòng)推廣和品牌宣傳等場(chǎng)景。即夢(mèng)AI繼而更新了視頻生成中的對(duì)口型功能，只要準(zhǔn)備一張照片和一段語(yǔ)音，就能用語(yǔ)音去驅(qū)動(dòng)視頻說(shuō)話。也可以打字選擇不同的音色來(lái)生成語(yǔ)音控制圖片嘴形。

OpenAI的Sora正式上線，核心功能包括文生視頻、圖生視頻、視頻生視頻等，支持多種視頻風(fēng)格設(shè)定，可滿足不同需求。高級(jí)功能包括故事板功能、混音與編輯、視頻混合等。Sora的費(fèi)用包含在現(xiàn)有OpenAI Plus或Pro訂閱中，無(wú)需額外付費(fèi)。

Google發(fā)布AI視頻模型Veo 2和AI繪圖模型Imagen 3改進(jìn)版本，標(biāo)志著其在多模態(tài)生成技術(shù)上的進(jìn)一步突破。Veo 2是一款先進(jìn)的視頻生成模型，能夠根據(jù)文本描述自動(dòng)生成高質(zhì)量的視頻內(nèi)容。與前一版本相比，Veo 2在生成速度和視頻細(xì)節(jié)上都有顯著提升，支持更復(fù)雜的場(chǎng)景轉(zhuǎn)換與動(dòng)態(tài)內(nèi)容生成，能夠處理更長(zhǎng)時(shí)間的視頻輸出，并在視覺效果上做到了更加真實(shí)與流暢。Imagen 3則是Google推出的AI繪圖模型的改進(jìn)版本，專注于提升圖像生成的精度與藝術(shù)表現(xiàn)力。該版本在生成質(zhì)量、細(xì)節(jié)處理和風(fēng)格適應(yīng)性方面進(jìn)行了多項(xiàng)優(yōu)化，支持更加復(fù)雜的創(chuàng)作需求，尤其是在細(xì)致圖像生成和人物表情描繪方面表現(xiàn)突出。Imagen 3可以更好地理解自然語(yǔ)言，根據(jù)用戶指令創(chuàng)作出更具個(gè)性化與創(chuàng)意的圖像。

Midjourney新推出的情緒板功能（Mood-boards）為用戶提供了一個(gè)創(chuàng)新的工具，幫助他們通過聚合多個(gè)圖像、顏色、風(fēng)格和元素，快速構(gòu)建一個(gè)情緒板，從而更直觀地表達(dá)創(chuàng)作的情感基調(diào)和視覺風(fēng)格。該功能簡(jiǎn)化了創(chuàng)意過程，使設(shè)計(jì)師和藝術(shù)家能夠高效地整理靈感并確保創(chuàng)作方向的一致性，突破了單純依賴文字描述的局限。用戶可以上傳自己的圖片或選擇 Midjourney 生成的圖像，整合成統(tǒng)一的視覺概念，這也更便于團(tuán)隊(duì)成員之間的協(xié)作與反饋。Moodboards 還提供多元化的模板選擇，適用于不同的創(chuàng)作需求，為設(shè)計(jì)和靈感的整合提供更多便利，相當(dāng)于用戶也可以通過簡(jiǎn)單的操作完成模型的訓(xùn)練。

快手“可靈”上線的1.6版本模型對(duì)生成視頻和動(dòng)畫的質(zhì)量進(jìn)行了提升，特別是在物理規(guī)律和人物動(dòng)作的表現(xiàn)上。此次更新增強(qiáng)了模型對(duì)自然物理法則的理解，使得生成的視頻更加符合現(xiàn)實(shí)世界的重力、慣性等物理規(guī)律，提升了畫面真實(shí)感。此外，人物動(dòng)作的流暢度和細(xì)膩度也得到了改善，能夠更加準(zhǔn)確地模擬復(fù)雜的人體動(dòng)作和表情變化，使得生成的內(nèi)容更加生動(dòng)和自然。在語(yǔ)意理解方面也有所增強(qiáng)，這種語(yǔ)義增強(qiáng)使得用戶在進(jìn)行創(chuàng)作時(shí)，可以更加精確地表達(dá)意圖，生成的動(dòng)畫和視頻場(chǎng)景能夠更好地捕捉語(yǔ)言中的細(xì)節(jié)和情感變化，提升了創(chuàng)作的自由度和內(nèi)容的個(gè)性化程度。這些改進(jìn)使得可靈模型在短視頻創(chuàng)作、動(dòng)畫制作以及虛擬角色互動(dòng)等領(lǐng)域的應(yīng)用更加廣泛。可靈還上線了AI模特功能，為用戶提供了一個(gè)創(chuàng)新的虛擬模特創(chuàng)作工具，能夠根據(jù)用戶的需求自動(dòng)生成和定制虛擬人物模型。這個(gè)功能可以通過簡(jiǎn)單的文本描述或模板選擇，快速生成符合要求的虛擬模特，并且模特的姿勢(shì)、動(dòng)作、服裝等都可以根據(jù)創(chuàng)作需要進(jìn)行調(diào)整（圖14）。

12月底，PixVerse更新了3.5版本，引入一系列重要功能，增強(qiáng)了其在圖像生成、編輯和創(chuàng)作領(lǐng)域的能力。關(guān)鍵功能亮點(diǎn)包括極速視頻生成、動(dòng)漫生成效果提升、首尾幀功能等。PixVerse V3.5為全球用戶帶來(lái)了更加豐富的創(chuàng)作體驗(yàn)。

2024年被視為大語(yǔ)言模型和生成式AI圖像模型真正開始大范圍落地的關(guān)鍵節(jié)點(diǎn)。隨著算力、算法和數(shù)據(jù)規(guī)模的持續(xù)增長(zhǎng)，這些前沿技術(shù)的應(yīng)用領(lǐng)域已從實(shí)驗(yàn)室和藝術(shù)家創(chuàng)作逐步擴(kuò)大到更廣泛的產(chǎn)業(yè)和日常工作場(chǎng)景。它們不再僅僅停留于專業(yè)技術(shù)人員的實(shí)驗(yàn)或藝術(shù)愛好者的探索，而是已經(jīng)切實(shí)地融入營(yíng)銷設(shè)計(jì)、內(nèi)容創(chuàng)作、客戶服務(wù)、智能辦公等多種商業(yè)環(huán)節(jié)，顯著提升了生產(chǎn)效率。展望2025年，AI圖像模型將在各個(gè)垂直行業(yè)中被進(jìn)一步深化應(yīng)用。伴隨行業(yè)知識(shí)與AI算法的結(jié)合加深，從零售、制造業(yè)到醫(yī)療、教育等領(lǐng)域，都會(huì)出現(xiàn)更加豐富多樣且能解決實(shí)際問題的工作流方案。最終，這些深度融合的技術(shù)與場(chǎng)景會(huì)讓AI發(fā)揮出更穩(wěn)定、更高效的價(jià)值，為產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型注入新動(dòng)力，也為人們帶來(lái)更便利、更具創(chuàng)造力的工作和生活方式。

責(zé)任編輯：楊夢(mèng)嬌