999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

2024生成式AI圖像模型年報(bào)

2025-02-20 00:00:00羅霄趙伯祚
藝術(shù)學(xué)研究 2025年1期
關(guān)鍵詞:功能模型

生成式AI在2023年呈現(xiàn)井噴式發(fā)展態(tài)勢(shì),而在2024年,其發(fā)展的最顯著特征則在于實(shí)現(xiàn)了跨領(lǐng)域的廣泛應(yīng)用。商業(yè)AI工具的高質(zhì)量與便捷性,結(jié)合開源AI模型在各類復(fù)雜工作流程中的深度整合,使AI技術(shù)從專業(yè)人員的研究對(duì)象轉(zhuǎn)變?yōu)楦餍懈鳂I(yè)不可或缺的日常工具。另一個(gè)顯著特征是國(guó)產(chǎn)AI模型的崛起。2023年,行業(yè)關(guān)注度主要集中在國(guó)際巨頭身上,以Midjourney、DALL·E(OpenAI)、Stable Diffusion為代表的圖像生成工具及專注于視頻生成的Runway都表現(xiàn)出色,在大語(yǔ)言模型領(lǐng)域則以ChatGPT和Claude最令人矚目。而2024年,國(guó)產(chǎn)AI繪畫工具呈現(xiàn)百花齊放之勢(shì),在視頻領(lǐng)域,可靈、Vidu、海螺、豆包PixelDance等新興產(chǎn)品與老牌Runway形成競(jìng)爭(zhēng)之勢(shì);更值得關(guān)注的是,豆包、元寶、Kimi等大語(yǔ)言模型展現(xiàn)出更為廣闊的發(fā)展前景。

本文將聚焦視覺藝術(shù)與設(shè)計(jì)領(lǐng)域,系統(tǒng)梳理2024年生成式AI圖像模型及相關(guān)工具的發(fā)展歷程。

1月

Midjourney在2023年12月發(fā)布V6 Alpha版后,在2024年持續(xù)優(yōu)化,提升了圖像的美觀度、連貫性和放大質(zhì)量。同期,Midjourney針對(duì)動(dòng)漫類圖像優(yōu)化的Niji-Journey也發(fā)布了V6版本(圖1)。

Google發(fā)布的視頻生成模型Lumiere采用創(chuàng)新的空間—時(shí)間架構(gòu)(Space-Time U-Net architecture),能夠一次性生成整個(gè)視頻,Lumiere在時(shí)間連貫性和物理場(chǎng)景一致性方面表現(xiàn)出色,能支持文生視頻、圖生視頻等多種模式。

InstantX團(tuán)隊(duì)(來(lái)自小紅書)開發(fā)的InstantID模型實(shí)現(xiàn)了一項(xiàng)技術(shù)突破:僅需輸入單張面部圖片,即可生成多樣化的風(fēng)格圖像,同時(shí)還能保持較高的身份特征保真度(圖2)。這一成果顯著簡(jiǎn)化了傳統(tǒng)工作流程。在此之前,類似功能的實(shí)現(xiàn)通常依賴于Textural Inversion、DreamBooth或LoRA等模型訓(xùn)練方法,需要收集充足的數(shù)據(jù)集并經(jīng)過較長(zhǎng)時(shí)間的訓(xùn)練過程,才能獲得經(jīng)微調(diào)的模型以生成風(fēng)格化圖像。InstantID通過創(chuàng)新性地設(shè)計(jì)IdentityNet架構(gòu),采用強(qiáng)語(yǔ)義約束與弱空間約束相結(jié)合的方式,將面部特征圖像與地標(biāo)信息及文本提示有機(jī)整合,從而指導(dǎo)圖像生成過程。這種方法省略了繁瑣的模型訓(xùn)練環(huán)節(jié),在性能和效率方面展現(xiàn)出顯著優(yōu)勢(shì)。

在工具生態(tài)方面,Stable Diffusion的兩大主要圖形界面WebUI和ComfyUI分別代表傳統(tǒng)軟件風(fēng)格和節(jié)點(diǎn)式風(fēng)格,持續(xù)為創(chuàng)作者提供便捷的創(chuàng)作環(huán)境。

在國(guó)內(nèi),大部分Stable Diffusion WebUI用戶使用的是由秋葉(秋葉aaaki)定制的WebUI整合包,它打包了Stable Diffusion WebUI運(yùn)行所需的軟件環(huán)境,開箱即可使用,降低了手動(dòng)安裝帶來(lái)的復(fù)雜度,適合新手使用。2024年1月,秋葉首次發(fā)布了ComfyUI整合包。

2月

本月,Stability AI相繼發(fā)布了兩款重要模型。首先是Stable Cascade模型,它采用創(chuàng)新的三階段級(jí)聯(lián)架構(gòu),有別于傳統(tǒng)的Stable Diffusion系列。該模型專注于高質(zhì)量、高分辨率圖像的生成,盡管算力消耗較高,但在高精度、高細(xì)節(jié)圖像創(chuàng)作方面表現(xiàn)卓越。緊隨其后,公司發(fā)布了Stable Diffusion 3的早期預(yù)覽版,這是該系列功能最強(qiáng)大的文生圖模型,在多主題提示詞理解、圖像質(zhì)量和文本拼寫能力方面均實(shí)現(xiàn)了顯著提升。在視頻生成領(lǐng)域,Stability AI還開啟了Stable Video Diffusion網(wǎng)站的公測(cè)。

2月最引人矚目的事件是OpenAI發(fā)布了Sora模型。該模型致力于通過人工智能理解并模擬物理世界的動(dòng)態(tài)特性,由此生成時(shí)長(zhǎng)達(dá)1分鐘的高質(zhì)量視頻內(nèi)容,并能準(zhǔn)確響應(yīng)用戶的文本提示(圖3)。盡管本月僅發(fā)布了演示視頻系列,但Sora在圖像質(zhì)量、時(shí)序連貫性、動(dòng)作幅度和穩(wěn)定性等方面的卓越表現(xiàn),顯著超越了同期同類模型,有效解決了AI視頻生成領(lǐng)域的諸多技術(shù)難題。這一突破性進(jìn)展與ChatGPT首次發(fā)布時(shí)的影響力相似,迅速引發(fā)全球關(guān)注,甚至促使學(xué)界探討其作為“世界模擬器”的潛在意義。

在AI圖像工具領(lǐng)域,ControlNet的開發(fā)者lllyasviel(張呂敏)基于現(xiàn)有版本開發(fā)并發(fā)布了新一代Stable Diffusion WebUI,并將其命名為Stable Diffusion WebUI Forge。該版本在資源管理方面實(shí)現(xiàn)了顯著優(yōu)化,不僅大幅提升了運(yùn)行性能,還簡(jiǎn)化了Stable Diffusion生態(tài)系統(tǒng)中各類模型算法的實(shí)現(xiàn)過程。這些優(yōu)化為后續(xù)的技術(shù)發(fā)展奠定了基礎(chǔ),使得2024年新推出的更為先進(jìn)的Flux模型能夠率先在WebUI Forge平臺(tái)上得到支持和實(shí)現(xiàn)。

Deforum是早期首個(gè)基于Stable Diffusion模型的視頻生成工具,也有在WebUI中的擴(kuò)展版本。2月Deforum推出了無(wú)需安裝便可以在線直接使用的Deforum Studio。2024年上半年國(guó)內(nèi)AI視頻初火,一些具有所謂“AI瞬息全宇宙”效果、尤其在央視頻和各地方融媒體上出現(xiàn)的一系列AI文旅宣傳片,很多鏡頭都是用Deforum制作的。

3月

Midjourney在本月推出角色一致性(Character Reference)功能,實(shí)現(xiàn)了同一角色在不同圖像中的固定表現(xiàn)(圖4)。這一功能雖然在Stable Diffusion生態(tài)中早已存在(通過模型訓(xùn)練、IPAdapter或InstantID等方式實(shí)現(xiàn)),但Midjourney的實(shí)現(xiàn)方式更加便捷,提升了用戶體驗(yàn)。

Stability AI本月發(fā)布了多項(xiàng)重要更新:首先推出了TripoSR,這是一種快速的三維物體重建模型,能由單張圖片生成高質(zhì)量的三維模型;其次公開了Stable Diffusion 3的研究論文,揭示了其采用MMDiT(多模態(tài)擴(kuò)散Transformer)架構(gòu)的技術(shù)細(xì)節(jié),該架構(gòu)使用獨(dú)立權(quán)重分別處理圖像和語(yǔ)言,并結(jié)合三個(gè)文本編碼器,在視覺美學(xué)、提示詞遵循和排版方面均有顯著提升;最后發(fā)布了Stable Video 3D,這是一種基于Stable Video Diffusion的三維生成模型,相比2023年12月發(fā)布的Stable Zero123,在生成效果的一致性和泛化性方面表現(xiàn)更優(yōu)。

OpenAI繼續(xù)深化對(duì)Sora的應(yīng)用探索,與視覺藝術(shù)家、設(shè)計(jì)師、創(chuàng)意總監(jiān)和電影制作人密切合作,推出了名為“第一印象”(First Impressions)的作品系列,再次展示了其卓越的技術(shù)實(shí)力。

4月

Adobe在2024美國(guó)國(guó)際廣播電視展(NAB Show)上展示了Premiere Pro的重要更新,通過集成Runway和OpenAI Sora等第三方視頻生成模型,大幅拓展了媒體創(chuàng)作的可能性。這一集成使得創(chuàng)作者能夠在Premiere Pro中直接使用AI視頻生成功能,為專業(yè)視頻制作帶來(lái)了革命性的變化。

國(guó)產(chǎn)視頻大模型領(lǐng)域迎來(lái)重要突破,生數(shù)科技聯(lián)合清華大學(xué)發(fā)布了中國(guó)首個(gè)高性能視頻大模型 Vidu。該模型具備視頻時(shí)間長(zhǎng)、畫面一致性好、高動(dòng)態(tài)性等特點(diǎn),能夠模擬真實(shí)的物理世界,支持多鏡頭生成,是繼Sora發(fā)布后迅速跟進(jìn)的重要國(guó)產(chǎn)成果。

字節(jié)跳動(dòng)在4月提出了Hyper-SD,這是一種創(chuàng)新的軌跡分段一致性模型。該模型最大特點(diǎn)是能夠快速生成高質(zhì)量圖像,在SDXL和SD1.5兩種架構(gòu)下,僅需1至8步就能生成頂級(jí)質(zhì)量的圖像(圖5)。由于生成速率極快,該技術(shù)甚至可以用于接近實(shí)時(shí)的繪畫創(chuàng)作,為交互式AI藝術(shù)創(chuàng)作提供了新的可能性。

5月

Google在2024 I / O大會(huì)上發(fā)布了兩款重磅產(chǎn)品:圖像生成模型Imagen 3和視頻生成模型Veo。Imagen 3作為Google最高質(zhì)量的文本轉(zhuǎn)圖像模型,能夠生成具有更精細(xì)細(xì)節(jié)、更豐富光線和更少干擾偽影的圖像。Veo則是針對(duì)OpenAI Sora的競(jìng)爭(zhēng)產(chǎn)品,支持生成高質(zhì)量、1080p分辨率、時(shí)長(zhǎng)超過一分鐘的視頻,并具有多種電影和視覺風(fēng)格。

近兩年在“AI繪畫”領(lǐng)域,Stable Diffusion(1.5與XL版)幾乎是開源圖像模型里的唯一選擇。5月,騰訊開源了他們的混元DiT文生圖大模型(圖6),該模型是一種高性能細(xì)粒度中文理解多分辨率擴(kuò)散Transformer模型,基于全新的DiT架構(gòu),與Sora、Stable Diffusion 3相同。開源后的混元DiT模型甚至可以在以前由Stable Diffusion模型專屬的WebUI、ComfyUI等工具中使用。這一舉措不僅豐富了開源生態(tài),也為中文環(huán)境下的AI創(chuàng)作提供了新的選擇。

6月

Stability AI在本月正式發(fā)布了Stable Diffusion 3 Medium版模型(此前僅發(fā)布過相關(guān)論文)。該模型能生成具有出色細(xì)節(jié)、色彩和光照效果的圖像,不僅實(shí)現(xiàn)了照片級(jí)的真實(shí)感,還支持多種靈活風(fēng)格的高質(zhì)量輸出。模型成功解決了以往版本的常見缺陷,特別是在手部和面部的真實(shí)感呈現(xiàn)方面表現(xiàn)出色。在理解力方面,模型能夠準(zhǔn)確理解涉及空間推理、構(gòu)圖元素、動(dòng)作和風(fēng)格的長(zhǎng)篇復(fù)雜提示詞。通過采用DiT架構(gòu),模型實(shí)現(xiàn)了前所未有的圖文質(zhì)量,顯著減少了圖像中文字的拼寫、字距調(diào)整、字母形成和間距方面的錯(cuò)誤。此外,模型的整體性能得到提升,更加適合定制化微調(diào)訓(xùn)練。

6月,在AI視頻領(lǐng)域也有重要突破。國(guó)產(chǎn)AI視頻大模型繼續(xù)發(fā)力,快手發(fā)布了對(duì)標(biāo)Sora的視頻生成模型“可靈”(Kling)。該模型采用與Sora類似的DiT架構(gòu),并結(jié)合多項(xiàng)自研創(chuàng)新,在運(yùn)動(dòng)幅度、一致性、物理世界模擬以及多種尺寸比例等方面均實(shí)現(xiàn)了大幅提升。可靈發(fā)布后在國(guó)內(nèi)外均獲得了廣泛關(guān)注,繼首次發(fā)布文生視頻功能后,本月又推出了圖生視頻功能。

Luma AI發(fā)布的視頻模型Dream Machine同樣支持文本提示和圖像提示,能夠生成高分辨率的、符合美學(xué)風(fēng)格和物理運(yùn)動(dòng)規(guī)律的視頻。

視頻生成領(lǐng)域的領(lǐng)軍企業(yè)Runway也在本月發(fā)布了Gen-3 Alpha版。作為Runway下一代基礎(chǔ)模型中的首個(gè)版本,它在全新構(gòu)建的大規(guī)模、多模態(tài)訓(xùn)練基礎(chǔ)設(shè)施上進(jìn)行訓(xùn)練。與Gen-2相比,新版本在保真度、一致性和運(yùn)動(dòng)表現(xiàn)方面都有了顯著改進(jìn)(圖7),向構(gòu)建通用世界模型邁出了重要一步。值得注意的是,Runway Gen-3在訓(xùn)練過程中特別組建了由工程師、科學(xué)家和藝術(shù)家組成的跨學(xué)科協(xié)作團(tuán)隊(duì),旨在更好地詮釋電影術(shù)語(yǔ)及各種藝術(shù)風(fēng)格。

7月

Stability AI的聊天機(jī)器人產(chǎn)品Stable Assistant本月推出新功能。基于Stable Diffusion 3的最新圖像生成技術(shù)Stable Image Ultra,該產(chǎn)品提供了多樣化的圖像編輯工具,包括圖像分辨率提升和基于圖像的視頻生成功能。該產(chǎn)品的核心功能包括:(1)搜索和替換:允許用戶在上傳的圖像中指定對(duì)象并無(wú)縫替換(圖8),這對(duì)需要在保持整體構(gòu)圖的同時(shí)修改視覺效果的創(chuàng)意專業(yè)人士尤為實(shí)用。(2)保持構(gòu)圖:在保持輸入圖像結(jié)構(gòu)的同時(shí)支持高級(jí)內(nèi)容創(chuàng)建,如場(chǎng)景重建或模型角色渲染,確保生成圖像嚴(yán)格遵循預(yù)設(shè)結(jié)構(gòu)參數(shù)。(3)草圖轉(zhuǎn)圖像:將手繪草圖轉(zhuǎn)化為精致圖像,實(shí)現(xiàn)對(duì)最終效果的精確控制;對(duì)非草圖圖像,可通過輪廓線和邊緣進(jìn)行細(xì)節(jié)操作。

同時(shí),Stability AI推出了用于動(dòng)態(tài)多角度視頻生成的Stable Video 4D。該技術(shù)能將單一對(duì)象視頻轉(zhuǎn)換為8個(gè)不同角度的多視圖視頻,僅需一次推理即可在約40秒內(nèi)生成8個(gè)視圖的5幀內(nèi)容。用戶可自定義攝像機(jī)角度以滿足特定創(chuàng)意需求。該模型目前仍處于研究階段,未來(lái)有望應(yīng)用于游戲開發(fā)、視頻編輯和虛擬現(xiàn)實(shí)領(lǐng)域。

Midjourney在7月底發(fā)布6.1版模型。新版本在多個(gè)方面實(shí)現(xiàn)突破:圖像內(nèi)容連貫性顯著提升,特別是在手臂、腿、手、身體、植物、動(dòng)物等細(xì)節(jié)表現(xiàn)方面;圖像質(zhì)量大幅提升,減少像素偽影,增強(qiáng)紋理和皮膚效果;小型圖像特征更加精確細(xì)致;圖像放大器質(zhì)量提升;整體性能改進(jìn);文字準(zhǔn)確性進(jìn)一步提高。

快手除了備受關(guān)注的視頻生成模型“可靈”,本月還開源了圖像生成大模型“可圖”(Kolors)。該模型基于數(shù)十億圖文對(duì)數(shù)據(jù)集訓(xùn)練,在視覺質(zhì)量、復(fù)雜語(yǔ)義理解和圖像文字生成等方面表現(xiàn)優(yōu)異,并支持中英雙語(yǔ),對(duì)中文語(yǔ)境和中國(guó)文化創(chuàng)作更加友好。“可靈”模型本月更新增加了多項(xiàng)控制參數(shù):可調(diào)節(jié)視頻內(nèi)容與提示詞的符合程度,增加運(yùn)鏡控制功能,支持負(fù)提示詞設(shè)置,并在圖生視頻環(huán)節(jié)加入首尾幀控制功能,這項(xiàng)功能尤其實(shí)用,可用于實(shí)現(xiàn)多段視頻內(nèi)容的連接(圖9)。此外,快手發(fā)布了LivePortrait技術(shù),這是一種基于拼接和重定向控制的高效率肖像動(dòng)畫技術(shù)。通過輸入面部表情視頻和肖像照片(含繪畫),可實(shí)現(xiàn)視頻驅(qū)動(dòng)肖像動(dòng)畫,甚至支持人類表情驅(qū)動(dòng)動(dòng)物肖像的創(chuàng)新應(yīng)用。

8月

本月最引人注目的是開源圖像大模型生態(tài)的重大更新—Flux的發(fā)布。由前Stability AI核心成員Robin Rombach創(chuàng)立的黑森林實(shí)驗(yàn)室(Black Forest Labs)開發(fā)的Flux,其圖像生成效果已達(dá)到可與Midjourney媲美的水平。本月發(fā)布的FLUX.1文生圖模型套件在圖像細(xì)節(jié)、提示詞遵循、風(fēng)格多樣性和場(chǎng)景復(fù)雜性等方面展現(xiàn)了領(lǐng)先水平。為平衡可用性與功能性,F(xiàn)LUX.1推出3個(gè)版本,F(xiàn)LUX.1 [pro]:作為最優(yōu)版本,在提示詞遵循、視覺質(zhì)量、圖像細(xì)節(jié)和輸出多樣性方面表現(xiàn)卓越;FLUX.1 [dev]:面向非商業(yè)應(yīng)用的開放權(quán)重導(dǎo)向蒸餾模型,直接從pro版本提煉,保持相似質(zhì)量,可在24G顯存顯卡(3090、4090)上穩(wěn)定運(yùn)行;FLUX.1 [schnell]:遵循Apache 2.0許可協(xié)議,專為本地開發(fā)和個(gè)人使用優(yōu)化的高速版本。Flux在圖像精細(xì)度方面表現(xiàn)突出,支持復(fù)雜提示詞,能靈活定制圖像細(xì)節(jié)。雖未能實(shí)現(xiàn)完全精確,但相比此前的Stable Diffusion XL等開源模型,提示詞遵循性有顯著提升。

盡管核心人員離職并發(fā)布了Flux,Stability AI仍保持創(chuàng)新勢(shì)頭,推出了Stable Fast 3D。該技術(shù)僅需0.5秒即可從單幅圖像生成高質(zhì)量3D圖像。基于TripoSR架構(gòu)改進(jìn),該模型特別適用于游戲、虛擬現(xiàn)實(shí)開發(fā)以及零售、建筑、設(shè)計(jì)等圖形密集型行業(yè)。

Ideogram AI發(fā)布的Ideogram 2.0展現(xiàn)了業(yè)界領(lǐng)先的文生圖能力,其在生成逼真圖像、圖形設(shè)計(jì)和排版方面表現(xiàn)優(yōu)異。新版本支持靈活的圖像樣式控制和任意縱橫比,顯著提升了真實(shí)感和文本準(zhǔn)確性,尤其適合賀卡、印刷品、海報(bào)等設(shè)計(jì)需求。

智譜開源了CogVideoX系列視頻生成模型,支持文生視頻、圖生視頻和視頻轉(zhuǎn)繪等功能,豐富了開源視頻模型生態(tài)。

阿里云發(fā)布新一代視覺語(yǔ)言模型Qwen2-VL,基于千問Qwen2打造而成。該模型在視覺內(nèi)容理解方面表現(xiàn)突出,可處理不同分辨率和長(zhǎng)寬比的圖片,支持20分鐘以上長(zhǎng)視頻的理解,并具備多語(yǔ)言圖像理解能力。

8月末,MiniMax公司在其海螺AI平臺(tái)推出視頻生成模型abab-video-1,支持文生視頻功能,特點(diǎn)是實(shí)現(xiàn)2K高分辨率和25fps高幀率輸出。

9月

Runway Gen-3 Alpha推出視頻生成視頻(又稱視頻風(fēng)格化、視頻轉(zhuǎn)繪、Video to Video)功能。雖然該功能在2023年Runway Gen-1就已推出,但當(dāng)時(shí)效果欠佳,市場(chǎng)上的視頻轉(zhuǎn)繪方案主要依賴開源的ComfyUI結(jié)合AnimateDiff模型實(shí)現(xiàn)。此次Runway Gen-3 Alpha作為領(lǐng)先的商業(yè)視頻模型,顯著提升了視頻轉(zhuǎn)繪質(zhì)量。用戶只需上傳源視頻,提供美學(xué)方向的提示詞或從預(yù)設(shè)樣式中選擇,即可獲得優(yōu)質(zhì)的轉(zhuǎn)繪效果。

Adobe發(fā)布了Firefly Video模型預(yù)覽,展示的樣例視頻效果出眾,該模型將于近期正式發(fā)布。

阿里云推出通義萬(wàn)相視頻生成模型,具備文生視頻、圖生視頻功能。該模型在概念理解與組合生成方面表現(xiàn)突出,特別優(yōu)化了中式元素的表現(xiàn),并支持多語(yǔ)言輸入和可變分辨率輸出。

字節(jié)跳動(dòng)發(fā)布兩款豆包視頻生成模型:PixelDance和Seaweed(圖10)。其中,PixelDance以精準(zhǔn)的提示詞響應(yīng)見長(zhǎng),支持在單個(gè)視頻中生成多個(gè)鏡頭,適合復(fù)雜劇情敘事創(chuàng)作;Seaweed則在動(dòng)效合理性和運(yùn)鏡自然度方面表現(xiàn)優(yōu)異,更注重視覺表現(xiàn)力。

快手“可靈”發(fā)布1.5版模型,實(shí)現(xiàn)1080P高清視頻直接輸出,在畫面美感、運(yùn)動(dòng)合理度和文本響應(yīng)度等方面均有提升。

10月

Pika在沉寂多時(shí)后發(fā)布PIKA 1.5版本。作為2023年曾與Runway并駕齊驅(qū)的視頻模型廠商,其此次更新的特點(diǎn)是實(shí)現(xiàn)了更逼真的動(dòng)作表現(xiàn)、大屏幕鏡頭效果,以及一系列突破物理定律的特效,其中“充氣”特效一度引發(fā)熱議(圖11)。

Meta發(fā)布Meta Movie Gen系列模型,集成了文生圖、文生視頻、圖生視頻、個(gè)性化視頻、視頻編輯等功能。該模型視頻編輯功能支持通過提示詞直接修改視頻中的具體元素,如外觀或背景;個(gè)性化視頻功能則允許用戶通過提示詞和單張照片生成個(gè)性化視頻內(nèi)容。

Adobe在全球創(chuàng)意大會(huì)Adobe MAX 2024上正式發(fā)布Firefly Video Model,并將其集成至旗下視頻剪輯工具Premiere Pro中。

Runway推出表情驅(qū)動(dòng)功能Act-One。雖然類似功能在業(yè)界并不罕見,但Runway憑借頂級(jí)的效果質(zhì)量和獨(dú)特視角脫穎而出。該功能允許用戶自主表演來(lái)驅(qū)動(dòng)目標(biāo)角色,結(jié)合Runway Gen-3 Alpha強(qiáng)大的視頻轉(zhuǎn)換能力,特別適合制作需要復(fù)雜分鏡、豐富表情和多角色互動(dòng)的敘事型短劇。用戶甚至可以實(shí)現(xiàn)一人分飾多角,通過單個(gè)演員和攝像機(jī)設(shè)置生成多機(jī)位對(duì)話場(chǎng)景(圖12)。

愛詩(shī)科技發(fā)布PixVerse V3版本視頻生成大模型,在底層模型能力、提示詞遵循度和視頻質(zhì)量方面均有顯著提升,并提供創(chuàng)意模板支持多模態(tài)視頻生成。

靜態(tài)圖像領(lǐng)域,Midjourney推出在線圖像編輯器和紋理重構(gòu)(retexturing)功能。編輯器支持圖像上傳、擴(kuò)展、裁剪、重繪及場(chǎng)景內(nèi)容修改,實(shí)現(xiàn)設(shè)計(jì)與藝術(shù)創(chuàng)作的深度融合。紋理重構(gòu)功能可估計(jì)場(chǎng)景形狀并重新渲染紋理,效果類似Stable Diffusion的ControlNet。

Black Forest Labs發(fā)布FLUX 1.1[pro]版,生成速度較前代提升六倍,同時(shí)改進(jìn)了圖像質(zhì)量、及時(shí)性和多樣性。

Stability AI在經(jīng)歷公司高管變動(dòng)、核心成員出走并推出強(qiáng)力競(jìng)爭(zhēng)對(duì)手模型Flux后,本月強(qiáng)勢(shì)歸來(lái),發(fā)布了Stable Diffusion 3.5。該開放版本包含3個(gè)可定制模型變體,Stable Diffusion 3.5Large:81億參數(shù)的頂級(jí)基礎(chǔ)模型,適合百萬(wàn)像素級(jí)專業(yè)應(yīng)用;Stable Diffusion 3.5 Large Turbo:Large 版本的精簡(jiǎn)版,4步即可生成高質(zhì)量圖像;Stable Diffusion 3.5 Medium:25億參數(shù)的平衡版本,采用 MMDiT-X 架構(gòu),適合消費(fèi)級(jí)顯卡使用。這些模型的大小可進(jìn)行高度定制,可在消費(fèi)級(jí)顯卡上運(yùn)行,并且在寬松的 Stability AI 社區(qū)許可下可免費(fèi)用于商業(yè)和非商業(yè)用途。可從Hugging Face下載所有 Stable Diffusion 3.5模型,并在GitHub上下載推理代碼。

ControlNet作者lllyasviel(張呂敏)推出基于Flux的IC-Light V2光照模型,支持保留輸入圖像細(xì)節(jié)的同時(shí)進(jìn)行光照、陰影修改,并實(shí)現(xiàn)原生高分辨率輸出。

開源圖像模型生態(tài)的創(chuàng)作軟件ComfyUI本月推出了有史以來(lái)最重磅的版本更新V1版。該版本發(fā)布了完整桌面安裝包,跨平臺(tái)支持Windows/macOS/Linux,具備自動(dòng)更新功能,以及更多細(xì)節(jié)功能,直接解決新手最大的痛點(diǎn):環(huán)境安裝與部署。用戶界面也做了全新的設(shè)計(jì),還提供Comfy節(jié)點(diǎn)注冊(cè)表(CNR),類似Web開發(fā)生態(tài)中的軟件包管理器NPM,目標(biāo)是創(chuàng)建更安全、更穩(wěn)定的ComfyUI自定義節(jié)點(diǎn)用戶體驗(yàn)。

11月

Runway持續(xù)為影像創(chuàng)作者提供更多創(chuàng)作想象力,在視頻生成功能的基礎(chǔ)上推出了更高級(jí)的鏡頭控制功能。同時(shí),Runway新增視頻擴(kuò)展功能,支持將小幅畫面擴(kuò)展為更高分辨率和不同尺寸比例的畫面。此外,11月下旬,Runway推出了Frames圖像生成模型。這是一種提供前所未有風(fēng)格控制的模型,在風(fēng)格控制和視覺保真度方面取得了顯著進(jìn)步,幫助創(chuàng)作者構(gòu)建更具審美特征和細(xì)膩細(xì)節(jié)的靜態(tài)圖像內(nèi)容。

2024年早些時(shí)候刷屏的Sora又在11月引發(fā)關(guān)注,但引發(fā)關(guān)注的問題并非來(lái)自O(shè)penAI官方,而是起因于民間“泄露”事件。一封公開信顯示,參與Sora早期測(cè)試活動(dòng)的一批受邀藝術(shù)家和創(chuàng)意合作伙伴認(rèn)為,OpenAI通過該測(cè)試活動(dòng)將特邀藝術(shù)家視為“無(wú)償免費(fèi)漏洞測(cè)試員、公關(guān)傀儡和訓(xùn)練數(shù)據(jù)來(lái)源”。數(shù)百名藝術(shù)家參與了測(cè)試計(jì)劃,免費(fèi)貢獻(xiàn)作品和實(shí)驗(yàn)測(cè)試,但僅有少數(shù)人的作品通過競(jìng)賽形式得以公開展示。對(duì)此,一些藝術(shù)家將Sora的測(cè)試API(接口)公開至huggingface網(wǎng)站,向所有人開放使用。然而,公開信發(fā)表后,API很快失效,無(wú)法繼續(xù)使用,但仍有部分通過API制作的視頻Demo流出。無(wú)論事件本身的真實(shí)性如何,這一案例確實(shí)反映了當(dāng)前AI模型廠商的主流運(yùn)營(yíng)方式。包括國(guó)內(nèi)廠商在內(nèi),幾乎每家在發(fā)布新版本時(shí),都會(huì)召集創(chuàng)作者社群,開展模型試用和創(chuàng)作獎(jiǎng)勵(lì)活動(dòng),以快速收集一手使用反饋并積累種子用戶。各廠商的獎(jiǎng)勵(lì)機(jī)制和實(shí)際運(yùn)營(yíng)策略有所不同,而從創(chuàng)作者的角度來(lái)看,更期待這種合作能成為雙贏的良性循環(huán)。

可靈1.5版本新增了運(yùn)動(dòng)筆刷、運(yùn)鏡控制和圖生視頻首尾幀功能。同時(shí)推出的人臉模型功能可確保視頻中人臉I(yè)D的一致性。根據(jù)創(chuàng)作者社群的測(cè)試反饋,可靈在國(guó)產(chǎn)視頻模型中的綜合能力處于領(lǐng)先地位。在靜態(tài)圖像生成領(lǐng)域,可靈推出了AI試衣功能,并能結(jié)合視頻模型生成試衣效果的動(dòng)態(tài)展示。

3D圖形生成方面,騰訊混元開源了Hun-yuan3D-1.0模型。作為首個(gè)同時(shí)支持文生和圖生的3D開源模型,進(jìn)一步豐富了國(guó)內(nèi)開源生態(tài)。

字節(jié)跳動(dòng)發(fā)布的新模型SeedEdit支持通過提示詞直接編輯圖像,用戶只需一句話即可實(shí)現(xiàn)內(nèi)容替換、風(fēng)格變換等操作。值得注意的是,類似功能此前已在Stable Diffusion開源生態(tài)的ControlNet 1.1 Instruct Pix2Pix中出現(xiàn)。

作為圖像模型第一梯隊(duì)的Flux,在11月推出了FLUX.1 Tools工具集。在已具備頂級(jí)圖像生成質(zhì)量的基礎(chǔ)上,這套工具集的功能類似于Stable Diffusion的ControlNet擴(kuò)展,使Flux能夠在復(fù)雜設(shè)計(jì)場(chǎng)景中實(shí)現(xiàn)更廣泛的應(yīng)用。FLUX.1 Tools包含以下組件,F(xiàn)LUX.1 Fill:基于Inpaint技術(shù),提供局部重繪和擴(kuò)圖功能;FLUX.1 Depth:Flux官方版本的ControlNet深度模型;FLUX.1 Canny:邊緣檢測(cè)模型;FLUX.1 Redux:支持通過提示詞改變圖像風(fēng)格。

面對(duì)Flux的強(qiáng)勁攻勢(shì),Stability AI迅速做出回應(yīng),為Stable Diffusion 3.5 Large推出了ControlNet模型,同樣致力于圖像深度定制場(chǎng)景的應(yīng)用。

12月

12月初,斯坦福大學(xué)教授李飛飛公布了她的空間智能項(xiàng)目,通過單張圖片和一句提示詞就能生成可交互的3D空間(圖13)。

騰訊混元系列繼續(xù)開源,這次是視頻生成模型HunyuanVideo,其能夠基于文本描述自動(dòng)生成高質(zhì)量的視頻內(nèi)容。該模型采用了深度學(xué)習(xí)與大規(guī)模數(shù)據(jù)訓(xùn)練,支持多種風(fēng)格和場(chǎng)景的創(chuàng)作,使得視頻制作更加便捷與智能化。

字節(jié)跳動(dòng)的“即夢(mèng)”AI全新繪圖模型V2.1更新了中文海報(bào)生成工具,旨在通過AI技術(shù)簡(jiǎn)化視覺創(chuàng)作過程。該模型基于深度學(xué)習(xí),能夠根據(jù)用戶提供的文本描述,自動(dòng)生成精美的中文海報(bào)設(shè)計(jì)。V2.1版本在細(xì)節(jié)處理和視覺效果上進(jìn)行了優(yōu)化,提升了圖像的藝術(shù)性與表現(xiàn)力,特別適合廣告、活動(dòng)推廣和品牌宣傳等場(chǎng)景。即夢(mèng)AI繼而更新了視頻生成中的對(duì)口型功能,只要準(zhǔn)備一張照片和一段語(yǔ)音,就能用語(yǔ)音去驅(qū)動(dòng)視頻說(shuō)話。也可以打字選擇不同的音色來(lái)生成語(yǔ)音控制圖片嘴形。

OpenAI的Sora正式上線,核心功能包括文生視頻、圖生視頻、視頻生視頻等,支持多種視頻風(fēng)格設(shè)定,可滿足不同需求。高級(jí)功能包括故事板功能、混音與編輯、視頻混合等。Sora的費(fèi)用包含在現(xiàn)有OpenAI Plus或Pro訂閱中,無(wú)需額外付費(fèi)。

Google發(fā)布AI視頻模型Veo 2和AI繪圖模型Imagen 3改進(jìn)版本,標(biāo)志著其在多模態(tài)生成技術(shù)上的進(jìn)一步突破。Veo 2是一款先進(jìn)的視頻生成模型,能夠根據(jù)文本描述自動(dòng)生成高質(zhì)量的視頻內(nèi)容。與前一版本相比,Veo 2在生成速度和視頻細(xì)節(jié)上都有顯著提升,支持更復(fù)雜的場(chǎng)景轉(zhuǎn)換與動(dòng)態(tài)內(nèi)容生成,能夠處理更長(zhǎng)時(shí)間的視頻輸出,并在視覺效果上做到了更加真實(shí)與流暢。Imagen 3則是Google推出的AI繪圖模型的改進(jìn)版本,專注于提升圖像生成的精度與藝術(shù)表現(xiàn)力。該版本在生成質(zhì)量、細(xì)節(jié)處理和風(fēng)格適應(yīng)性方面進(jìn)行了多項(xiàng)優(yōu)化,支持更加復(fù)雜的創(chuàng)作需求,尤其是在細(xì)致圖像生成和人物表情描繪方面表現(xiàn)突出。Imagen 3可以更好地理解自然語(yǔ)言,根據(jù)用戶指令創(chuàng)作出更具個(gè)性化與創(chuàng)意的圖像。

Midjourney新推出的情緒板功能(Mood-boards)為用戶提供了一個(gè)創(chuàng)新的工具,幫助他們通過聚合多個(gè)圖像、顏色、風(fēng)格和元素,快速構(gòu)建一個(gè)情緒板,從而更直觀地表達(dá)創(chuàng)作的情感基調(diào)和視覺風(fēng)格。該功能簡(jiǎn)化了創(chuàng)意過程,使設(shè)計(jì)師和藝術(shù)家能夠高效地整理靈感并確保創(chuàng)作方向的一致性,突破了單純依賴文字描述的局限。用戶可以上傳自己的圖片或選擇 Midjourney 生成的圖像,整合成統(tǒng)一的視覺概念,這也更便于團(tuán)隊(duì)成員之間的協(xié)作與反饋。Moodboards 還提供多元化的模板選擇,適用于不同的創(chuàng)作需求,為設(shè)計(jì)和靈感的整合提供更多便利,相當(dāng)于用戶也可以通過簡(jiǎn)單的操作完成模型的訓(xùn)練。

快手“可靈”上線的1.6版本模型對(duì)生成視頻和動(dòng)畫的質(zhì)量進(jìn)行了提升,特別是在物理規(guī)律和人物動(dòng)作的表現(xiàn)上。此次更新增強(qiáng)了模型對(duì)自然物理法則的理解,使得生成的視頻更加符合現(xiàn)實(shí)世界的重力、慣性等物理規(guī)律,提升了畫面真實(shí)感。此外,人物動(dòng)作的流暢度和細(xì)膩度也得到了改善,能夠更加準(zhǔn)確地模擬復(fù)雜的人體動(dòng)作和表情變化,使得生成的內(nèi)容更加生動(dòng)和自然。在語(yǔ)意理解方面也有所增強(qiáng),這種語(yǔ)義增強(qiáng)使得用戶在進(jìn)行創(chuàng)作時(shí),可以更加精確地表達(dá)意圖,生成的動(dòng)畫和視頻場(chǎng)景能夠更好地捕捉語(yǔ)言中的細(xì)節(jié)和情感變化,提升了創(chuàng)作的自由度和內(nèi)容的個(gè)性化程度。這些改進(jìn)使得可靈模型在短視頻創(chuàng)作、動(dòng)畫制作以及虛擬角色互動(dòng)等領(lǐng)域的應(yīng)用更加廣泛。可靈還上線了AI模特功能,為用戶提供了一個(gè)創(chuàng)新的虛擬模特創(chuàng)作工具,能夠根據(jù)用戶的需求自動(dòng)生成和定制虛擬人物模型。這個(gè)功能可以通過簡(jiǎn)單的文本描述或模板選擇,快速生成符合要求的虛擬模特,并且模特的姿勢(shì)、動(dòng)作、服裝等都可以根據(jù)創(chuàng)作需要進(jìn)行調(diào)整(圖14)。

12月底,PixVerse更新了3.5版本,引入一系列重要功能,增強(qiáng)了其在圖像生成、編輯和創(chuàng)作領(lǐng)域的能力。關(guān)鍵功能亮點(diǎn)包括極速視頻生成、動(dòng)漫生成效果提升、首尾幀功能等。PixVerse V3.5為全球用戶帶來(lái)了更加豐富的創(chuàng)作體驗(yàn)。

2024年被視為大語(yǔ)言模型和生成式AI圖像模型真正開始大范圍落地的關(guān)鍵節(jié)點(diǎn)。隨著算力、算法和數(shù)據(jù)規(guī)模的持續(xù)增長(zhǎng),這些前沿技術(shù)的應(yīng)用領(lǐng)域已從實(shí)驗(yàn)室和藝術(shù)家創(chuàng)作逐步擴(kuò)大到更廣泛的產(chǎn)業(yè)和日常工作場(chǎng)景。它們不再僅僅停留于專業(yè)技術(shù)人員的實(shí)驗(yàn)或藝術(shù)愛好者的探索,而是已經(jīng)切實(shí)地融入營(yíng)銷設(shè)計(jì)、內(nèi)容創(chuàng)作、客戶服務(wù)、智能辦公等多種商業(yè)環(huán)節(jié),顯著提升了生產(chǎn)效率。展望2025年,AI圖像模型將在各個(gè)垂直行業(yè)中被進(jìn)一步深化應(yīng)用。伴隨行業(yè)知識(shí)與AI算法的結(jié)合加深,從零售、制造業(yè)到醫(yī)療、教育等領(lǐng)域,都會(huì)出現(xiàn)更加豐富多樣且能解決實(shí)際問題的工作流方案。最終,這些深度融合的技術(shù)與場(chǎng)景會(huì)讓AI發(fā)揮出更穩(wěn)定、更高效的價(jià)值,為產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型注入新動(dòng)力,也為人們帶來(lái)更便利、更具創(chuàng)造力的工作和生活方式。

責(zé)任編輯:楊夢(mèng)嬌

猜你喜歡
功能模型
一半模型
也談詩(shī)的“功能”
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
關(guān)于非首都功能疏解的幾點(diǎn)思考
懷孕了,凝血功能怎么變?
媽媽寶寶(2017年2期)2017-02-21 01:21:24
“簡(jiǎn)直”和“幾乎”的表達(dá)功能
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
中西醫(yī)結(jié)合治療甲狀腺功能亢進(jìn)癥31例
主站蜘蛛池模板: 黄色网在线免费观看| 国产精品第三页在线看| 国产手机在线ΑⅤ片无码观看| 999国产精品| 亚洲无码高清视频在线观看| 久久精品国产91久久综合麻豆自制| 99精品久久精品| 亚洲色欲色欲www在线观看| 国产精品福利一区二区久久| 日韩天堂视频| 国产微拍一区| 亚洲中文字幕国产av| 综合色在线| 国产精品视频999| 国产主播福利在线观看| 国产欧美日韩资源在线观看| 国产亚洲视频中文字幕视频| 色婷婷国产精品视频| 国产乱人激情H在线观看| 欧美成人在线免费| 久久中文字幕不卡一二区| 亚洲人人视频| 四虎影视永久在线精品| 91九色视频网| 亚洲美女久久| 99久久国产综合精品2023| 国产一在线| 9966国产精品视频| 欧美成人A视频| 在线看AV天堂| 亚洲国产精品一区二区第一页免| 国产三区二区| 伊人激情久久综合中文字幕| 久久精品人人做人人爽97| 国产极品粉嫩小泬免费看| 久久99国产综合精品1| 国产在线视频导航| 一本久道久久综合多人| 青青草原国产| 国产特级毛片aaaaaa| 最新国产精品鲁鲁免费视频| 无码日韩精品91超碰| 亚洲精品在线观看91| 中文字幕啪啪| 久久久精品久久久久三级| 日本不卡在线播放| 欧美午夜性视频| 激情无码字幕综合| 无遮挡国产高潮视频免费观看| 亚洲成在人线av品善网好看| AV网站中文| 一级做a爰片久久毛片毛片| 精品三级网站| 污网站在线观看视频| 欧美在线天堂| 日本国产一区在线观看| 亚洲一本大道在线| 九九视频在线免费观看| 老司国产精品视频91| 亚洲天堂日本| 无码aaa视频| 日本道综合一本久久久88| 国产一区二区三区在线观看视频| 少妇被粗大的猛烈进出免费视频| 国产亚洲精品在天天在线麻豆| 午夜福利网址| 免费一级全黄少妇性色生活片| 欧美精品xx| 久久久久国产精品免费免费不卡| 日韩av无码精品专区| 浮力影院国产第一页| 国产H片无码不卡在线视频| 9啪在线视频| а∨天堂一区中文字幕| 中文字幕在线一区二区在线| 久久美女精品国产精品亚洲| 久久情精品国产品免费| 国产精品无码在线看| 国产偷国产偷在线高清| 欧美午夜视频在线| 啪啪永久免费av| 国产日本一区二区三区|