1972 年,休伯特 ·德雷福斯(Hubert Dreyfus)在《計算機不能做什么》一書中對“認(rèn)知模擬”(Cognitive Simulation,簡稱 CS)和“人工智能”(Artificial Intelligence,簡稱 AI)兩個計算機子領(lǐng)域的實踐持悲觀態(tài)度 [1]。他認(rèn)為,“只要‘人工智能是否可能(實現(xiàn))’的問題還是一種經(jīng)驗性的問題,這個問題的答案便只會是—在認(rèn)識模擬或人工智能中幾乎不可能再取得有意義的進展”[2]。如今,情況發(fā)生了改變,“生成式 AI”(Generative AI)突破了從前僅能進行邏輯符號規(guī)則運算的“符號式 AI”(symbolic AI)的認(rèn)知局限,在一定程度上擁有了處理上下文環(huán)境的能力。當(dāng)人工智能的“符號主義”(symbolicism)全面轉(zhuǎn)向“聯(lián)結(jié)主義”(connectionism)后,新近 出 現(xiàn) 的 ChatGPT、Sora、DeepSeek 等 生 成 式AI 無一例外都展現(xiàn)出一個開放性系統(tǒng)的“涌現(xiàn)”(emergence)特征。輸入?yún)?shù)—生成結(jié)果,這一過程依托于系統(tǒng)內(nèi)部各個模塊的交互、系統(tǒng)與環(huán)境的交互及系統(tǒng)的自我組織 [1]。生成式 AI 以其全新的自組織方式將觸角伸向了藝術(shù)創(chuàng)作等領(lǐng)域,正如列夫·馬諾維奇(Lev Manovich)所言,“計算機通過各類型媒介中現(xiàn)有表征的大型數(shù)據(jù)集來預(yù)測新的圖像”[2]。這一情況的出現(xiàn)帶來了新的藝術(shù)創(chuàng)作意識,其與人類過往通過“表征”(representation)創(chuàng)作出真實或想象場景的圖像有所不同。但這似乎并不能動搖德雷福斯的結(jié)論,因為完全模擬人類大腦的技術(shù)還遠未成熟[3]?!耙圃斐鲆粋€足夠像我們的裝置,在我們的世界中行動和學(xué)習(xí),似乎也是不可能的?!盵4]
在當(dāng)下生成式 AI 的發(fā)展浪潮中,德雷福斯的結(jié)論有助于我們理解“人工智能不能做什么”這一問題,但無法消除生成式 AI 給藝術(shù)創(chuàng)作者帶來的焦慮與困惑,因為對于處于發(fā)展進行時的AI 技術(shù)而言,相比“人工智能不能做什么”,公眾更關(guān)心的是“人工智能能做什么”,即人工智能在未來的藝術(shù)創(chuàng)作中將扮演怎樣的角色?它會重新定義藝術(shù)創(chuàng)作的主體嗎?我們能否脫離德雷福斯哲學(xué)式的思考方式,去思考人工智能的困境及其所帶來的挑戰(zhàn)?
一、美學(xué)的技術(shù)化評判標(biāo)準(zhǔn):AI生成影像的“優(yōu)化”思路
AI 生成影像是“人工智能生成內(nèi)容”(AIGenerated Content,簡稱 AIGC)在數(shù)字影像創(chuàng)制這一藝術(shù)領(lǐng)域的應(yīng)用實踐。當(dāng)下的 AI 生成影像藝術(shù)實踐仍處于起步階段,并且伴隨著技術(shù)突破不斷發(fā)展。2023 年,文生視頻模型 Runway還保持著 AI 生成視頻最長時長 16 秒的紀(jì)錄,2024 年 2 月 15 日這一紀(jì)錄便被 OpenAI 推出的Sora 所打破,文生視頻達到60 秒的長度。同年,StreamingT2V 將這一時長延伸到 2 分鐘和理論上的無限長。在這一過程中 Sora 獲得極大的關(guān)注度,引發(fā)了新一輪關(guān)于AI 生成影像的討論,但學(xué)術(shù)界對此的看法各不相同。一派懷揣著技術(shù)樂觀主義觀點,認(rèn)為Sora 作為“世界模擬器”(worldsimulators)是一種“強大的媒介”,“具有現(xiàn)實建構(gòu)能力”,并且可以和 500 多年前的印刷術(shù)、100 多年前的“火腿電臺”(ham radio)、20 多年前的 Web 2.0 比肩 [5]。另一派則認(rèn)為 Sora 包含了將 AI 技術(shù)“黑箱化”的傾向,難以產(chǎn)生藝術(shù)杰作,因為“視頻模型無法模擬出創(chuàng)作者的情感動態(tài)”[6]。還有一派保持著理性和中立的立場,認(rèn)為Sora 被視作“傳統(tǒng)電影的延續(xù)和新生”的同時,仍需要解決“語言的邏輯和視覺的邏輯之間建立起真正的互通關(guān)系”的難題,因而“它至多只能是作為輔助人類進行創(chuàng)作的工具和手段”[7]。
圍繞著 Sora 產(chǎn)生的這些爭議,并非“杰作的力量”[1] 的老調(diào)重彈,當(dāng)下藝術(shù)理論的主流觀點,并沒有像電影剛剛誕生時看待電影那樣將 AI 生成影像視為技術(shù)變革時代的“藝術(shù)救世主”,而是更加關(guān)注技術(shù)的目的、藝術(shù)媒介的歷史回路及其對人類生存狀態(tài)的影響等問題,并對 AI 生成影像的價值與社會影響表達了深切的憂慮。
關(guān)于 AI 生成影像的美學(xué)與創(chuàng)造力問題同樣存在爭議。在馬諾維奇等人看來,正因為藝術(shù)長久以來都被認(rèn)為是典型的人類控制的領(lǐng)域,而且其不可解性和復(fù)雜性不會因為算法的出現(xiàn)而有絲毫的減少,所以美學(xué)和人工智能的相遇才是如此的關(guān)鍵 [2]。馬諾維奇整理出當(dāng)時人們設(shè)想的定義人工智能藝術(shù)的三種主要方案。第一種是將圖靈測試擴展到人工智能藝術(shù)上,把通過測試的作品認(rèn)定為屬于當(dāng)代藝術(shù)或某一歷史時期的藝術(shù)。對這一方案馬諾維奇持否定態(tài)度,他認(rèn)為圖靈測試是為了判斷機器和人之間的智力相似性而設(shè)計的,并不能將其套用在對審美和創(chuàng)造力的判斷中 [3]。第二種方案是將程序化設(shè)計、機器學(xué)習(xí)、深度神經(jīng)網(wǎng)絡(luò)和風(fēng)格遷移等計算機技術(shù)應(yīng)用于藝術(shù)創(chuàng)作過程中。第三種方案是繼續(xù)探索計算機生成人類藝術(shù)系統(tǒng)所不具有的新系統(tǒng),從而打破人類文化的元模式 [4]。馬諾維奇持有一種非人類中心主義視角,這使他對未來人工智能藝術(shù)前景的預(yù)測經(jīng)常表現(xiàn)出盲目的樂觀,忽略了人類至今未能建構(gòu)出一套完整的 AI 藝術(shù)審美評價體系的問題。其過分強調(diào) AI 藝術(shù)具備開創(chuàng)新視覺文化潛能的論調(diào),也掩蓋了至今人們?nèi)匀粺o法辨析“AI 藝術(shù)究竟和人類藝術(shù)有何不同”這一根本性美學(xué)問題的事實。
從技術(shù)出發(fā),目前的 AI 生成影像帶來了驚人的視覺效果,對 AI 生成影像審美價值的評判標(biāo)準(zhǔn)主要為“效果”“細節(jié)”和“幀數(shù)”等技術(shù)化指標(biāo)。為了讓 AI 生成視頻擁有視覺吸引力和強烈的動態(tài)效果,模型的“優(yōu)化”功能成為決定生成質(zhì)量的關(guān)鍵要素。在 OpenAI 官網(wǎng)給出的介紹性文獻《視頻影像的創(chuàng)生模型作為世界模擬器》中,“高保真”(high fidelity)被當(dāng)做 Sora對比其他文生視頻大模型的重要優(yōu)勢,這種定位也暗含著“優(yōu)化”追求的目標(biāo);而 Sora 的技術(shù)原理和方法則被解釋為“利用一種轉(zhuǎn)換器架構(gòu)來進行時空補丁(spacetime patches)的操作”,在一個“擴散模型”(diffusion model)中對文本、影像、圖像進行轉(zhuǎn)化 [5]。簡而言之,Sora 在 AI生成影像領(lǐng)域引發(fā)的范式轉(zhuǎn)變來源于技術(shù)整合,其通過新的建模技術(shù)(一種將擴散和轉(zhuǎn)換器結(jié)合在一起的擴散轉(zhuǎn)換器模型)靈活并廣泛地處理不同時長、長寬比、分辨率的視頻和圖像,成為一種視覺數(shù)據(jù)的通用模型。盡管該文獻并未包含完整模型和具體實施細節(jié),但是“時空補丁”和“擴散模型”兩個技術(shù)概念已構(gòu)成了理解 AI 生成影像底層邏輯的核心。
“時空補丁”對應(yīng)“大語言模型”(Large Language Model,簡稱LLM)技術(shù)中的“文本詞元”(texttokens),其主要用于整合大量的視覺數(shù)據(jù)模型,“是一種高度可擴展的有效的表征(representation)”[1]?!拔谋驹~元”是通過“分詞化”(tokenization)的過程,即將文本劃分為具有獨立語義的詞元來完成對文本的預(yù)測和生成[2]?!皶r空補丁”的工作流程與之類似,是將原始視覺數(shù)據(jù)“分割化”的過程。具體而言,“時空補丁”工作流程是首先將視頻壓縮,然后通過視覺編碼將之轉(zhuǎn)化為“補丁”,最后將這些“補丁”的表征分解為零散的“時空補丁”(圖 1)。在這里,視頻或圖像本身可被視為一種對現(xiàn)實的“表征”,“時空補丁”則是對“表征”的破壞與重建。通過大量的模型訓(xùn)練和對原始長寬比、分辨率的維持,Sora 能夠靈活且有效地處理各種視覺數(shù)據(jù),生成高質(zhì)量的影像內(nèi)容。
“擴散模型”(又稱“去噪擴散模型”,Denoising Diffusion Model,簡稱 DMM)是當(dāng)前圖像生成技術(shù)的主流方法之一,其通過在圖片中加入“高斯噪聲”(又稱“正態(tài)噪聲”,Gaussian Noise)[3]來模擬擴散現(xiàn)象,并且通過逆向過程從(隨機)噪聲中生成圖片。簡而言之,該模型通過加噪和去噪的雙向過程出色地實現(xiàn)了對圖像生成質(zhì)量的提升,尤其適合生成高分辨率、類似照片的仿真圖像。在最早提出這種方法的論文中,帕斯卡爾·文森特(Pascal Vincent)等人將“去噪自動編碼器”(Denoising Autoencoders)定位為“一種新的無監(jiān)督學(xué)習(xí)表征的訓(xùn)練原則”[4],擴散模型通過向圖像添加噪聲,也就是將圖像的表面“像素化”,拆解為一個個小的“技術(shù)方塊”,再從中進行篩選、重組,幫助圖像在大量的、隨機的數(shù)據(jù)中表現(xiàn)得更加穩(wěn)定,進而生成一個新的、質(zhì)量更高的圖像,無論是“時空補丁”還是“擴散模型”,它們的目的都是確保生成過程中“圖像 / 影像”輸出結(jié)果的準(zhǔn)確度、穩(wěn)定性和精細度,這只是一種單向的、矢量化的技術(shù)思路。
這一“優(yōu)化”思路本身就帶有一種美學(xué)標(biāo)準(zhǔn)技術(shù)化的特征,極大地影響了人們對AI 生成影像的美學(xué)價值評判,并造成了美學(xué)標(biāo)準(zhǔn)與技術(shù)標(biāo)準(zhǔn)的概念混淆。大眾目前對AI 生成影像的追捧一定程度上也源于 AI 圖像 / 影像的“高保真性”。這種技術(shù)主義傾向不只關(guān)乎技術(shù)進步,還牽引出藝術(shù)創(chuàng)作意識的改變對影像認(rèn)知環(huán)境的影響。正如威廉·弗盧塞爾(Vilém Flusser)對“寫入”和“寫上”的區(qū)分—如果說用刻刀鑿字的“寫入”過程是費力的、緩慢的,如同刻“紀(jì)念碑”,那么用毛筆涂寫則是匆忙的、傳遞性的、“文件性”的??梢?,從“寫入”到“寫上”的轉(zhuǎn)變已成為一種舍棄一切存在(Sein)而僅僅追求生成(Werden)的做法 [1]??梢哉f,AI 生成影像的創(chuàng)作意識已從弗盧塞爾所言的“寫上”進入“生成”階段,這一過程是自動化和連續(xù)性的,是通過“時空補丁”和“擴散模型”對圖像/ 影像的表征進行“破壞”繼而“重建”完成的?!凹夹g(shù)物”涌現(xiàn)化的存在模式與“藝術(shù)物”表征化的存在模式有很大的不同,人類在其中的位置則變成了“交互”而非“存在”的主體。交互過程發(fā)生在人類的提示語句 / 圖像 / 影像和人工智能的自動機制之間,因此在這種指令邏輯隱形的結(jié)構(gòu)中,海德格爾所稱的那種使用者與工具交互的“在手狀態(tài)”消失了 [2]。
圖1 “時空補丁”的工作流程。圖片來源:OpenAI官網(wǎng)。

二、表面、競速與游戲:AI生成影像的美學(xué)表征
“在手狀態(tài)”的消失導(dǎo)致了當(dāng)代美學(xué)評價體系對 AI 生成影像評判標(biāo)準(zhǔn)的價值認(rèn)知偏移。如此一來,重塑 AI 生成影像的美學(xué)評判標(biāo)準(zhǔn),就是發(fā)現(xiàn)、認(rèn)知 AI 真正美學(xué)價值的前提。首先,AI 生成影像所借助的表征形式不再是符號修辭學(xué)所“代表”和呈現(xiàn)的那個映射現(xiàn)實之物,而是經(jīng)由“時空補丁”“去噪擴散”等數(shù)字技術(shù)手段所帶來的“擬像”的建構(gòu)性生產(chǎn)。其次,當(dāng)下的AI 生成影像將人類對真實和虛擬的懷疑都轉(zhuǎn)化為一個遠大目標(biāo)—“對物理(真實)世界的模擬”[3]。為實現(xiàn)這個目標(biāo),OpenAI 在“討論”(Discussion)部分并未對藝術(shù)創(chuàng)作的情感表達、人類與新影像之間的關(guān)系等問題做出回答,而僅僅只是列舉當(dāng)下 Sora 模型在模擬現(xiàn)實方面的缺陷—“它不能準(zhǔn)確模擬許多常見的、由互動產(chǎn)生的物理現(xiàn)象,如玻璃碎裂。其他的互動,例如吃食物,并不總能表現(xiàn)出正確的物體狀態(tài)變化”[4]。而解決技術(shù)缺陷又被定義為未來人工智能生成影像領(lǐng)域主要的努力方向。AI 生成影像的技術(shù)底層邏輯和技術(shù)持有者的“遠大目標(biāo)”共同為其美學(xué)表征定下了基調(diào),即“模擬”大過一切。
這一建基于“擬像”技術(shù)的“模擬”行為和以安德烈·巴贊(André Bazin)為代表的建基于物質(zhì)現(xiàn)實的攝影影像本體論(The Ontology of thePhotographic Image)有著明顯區(qū)別。巴贊根據(jù)攝影的復(fù)制邏輯,建立了電影與客觀世界—攝影對象之間的現(xiàn)實主義對應(yīng)關(guān)系,其理論基礎(chǔ)在于“電影的實在”(cinematic reality),也即影像存在的確定性[5]。在巴贊看來,“照片作為‘自然’現(xiàn)象作用于我們的感官,它猶如蘭卉,宛如雪花,而鮮花與冰雪的美離不開植物與大地的本源”[6]。然而,AI 生成影像在“涌現(xiàn)化”的創(chuàng)作過程中缺少明確的索引性,難以找尋到其藍本或原型,更遑論與客觀世界之間的對應(yīng)關(guān)系。因而,AI 生成影像的美學(xué)表征問題并非巴贊式的影像本體論問題,而是技術(shù)邏輯掩蓋下的與人類現(xiàn)實的關(guān)系問題。我們不能以技術(shù)標(biāo)準(zhǔn)來衡量“美”,但可以從“優(yōu)化”“擬像”“生成”等技術(shù)環(huán)境出發(fā),發(fā)現(xiàn) AI 生成影像在美學(xué)上的具體呈現(xiàn)。具體而言,AI 生成影像的美學(xué)表征體現(xiàn)出三個方面的內(nèi)容,分別是去深度化與離身性的表面美學(xué),去拓撲化和新巴洛克式的競速美學(xué),以及去歷史化和隨機性的游戲美學(xué)。
(一)表面美學(xué):去深度化與離身性
從AI 生成影像的技術(shù)原理來看,“去深度化”是其顯著特征。無論是“時空補丁”的壓縮與切割,還是“擴散模型”在影像表面的加噪與去噪,二者都體現(xiàn)出一種只針對“表征”的操作流程。就AI 生成影像與人類的互動關(guān)系而言,“表面”同時作為“界面”(interface)具備著“交互性”?!氨砻孀鳛橐粋€空間界限的概念,為界面交替 /切換(commutation)所取代”[1],其影像生成過程需要人類進行指令輸入才得以完成。車致新在其對抖音的討論中,將抖音的反深度化界面設(shè)計和獨特的視覺形式概括為一種“表面美學(xué)”,因為在抖音中除了“表面”一無所有 [2]。抖音所代表的短視頻界面的無深度和 AI 生成影像的“去深度化”有一定的聯(lián)系和區(qū)別。一方面,抖音和AI 生成影像的“交互性”都必須在界面上完成,二者對界面設(shè)計都有技術(shù)要求,而且這一技術(shù)要求均以“優(yōu)化”為目標(biāo)。另一方面,短視頻通過讓人的注意力在一個“表面”與另一個“表面”之間滑動來塑造一種沉浸式體驗,而 AI 生成影像的機制具有離身性,人類僅在輸入指令的時間段與界面互動,因此也就無法復(fù)現(xiàn)在短視頻消費中所獲得的“沉浸”。
在 Sora 推出的第一批 AI 生成影像中,我們可以看到城市的“表面”(《東京街頭的女子》)、物體的“表面”(《玻璃球中的禪公園》)、動物的“表面”(《猛犸象》)、人類的“表面”(《在云上閱讀的男子》)、歷史的“表面”(《加利福尼亞的歷史影像》)、藝術(shù)的“表面”(《跳迪斯科的卡通袋鼠》)等 48 個對現(xiàn)實的模擬影像,這些影像不僅包含了物理世界的現(xiàn)實,也包含了人類的社會現(xiàn)實、歷史現(xiàn)實與文化現(xiàn)實。盡管我們可以忽略掉其中的技術(shù)瑕疵,比如人物動作的不自然、不能準(zhǔn)確生成腳趾數(shù)量、雪與人物服裝的矛盾等,但是這些影像仍然是“不及物”的—其相對完整地再現(xiàn)了外部世界的表面,卻動搖了影像得以存在的外部秩序,在對表征的破壞與重建過程中,在“涌現(xiàn)”的生成機制中,“終止與外部世界的聯(lián)系”[3] —由表面而來,向著表面而去,這是離身性的另一重含義所在。
(二)競速美學(xué):去拓撲化與新巴洛克式
借用法國哲學(xué)家保羅·維利里奧(Paul Viri-lio)“電影即戰(zhàn)爭”[4] 的說法,我們同樣可以說“AI 生成影像即戰(zhàn)爭”。維利里奧認(rèn)為,電影場和戰(zhàn)場一樣都是知覺場,現(xiàn)代技術(shù)的超越帶來了電影系統(tǒng)和武器系統(tǒng)向間接視覺運動的升級,從而產(chǎn)生了一種“競速美學(xué)”—知覺的加快、
時空的加快、身體的重塑等現(xiàn)象同樣意味著知覺的消失、時空的消失、身體的消失 [1]。對于 AI 生成影像而言,這場“戰(zhàn)爭”不僅僅關(guān)乎技術(shù)競賽、對“優(yōu)化”的不間斷追求,而且也關(guān)乎對時空和視覺的雙重占領(lǐng)。一方面,AI 生成影像塑造了一種新的“地形”,形成了時空的“去拓撲化”,這種虛擬真實消除了我們對距離和維度的認(rèn)識[2]。另一方面,視覺的加速體現(xiàn)在“新巴洛克式”的生成模式之中,在“潛在空間”(Latent Space)中對影像不斷破壞和重建,其主導(dǎo)力量不再是情節(jié)或故事,而是“模式”—無限重復(fù)的、自身封閉的、規(guī)則操控的結(jié)構(gòu)與算法的模式 [3]。簡而言之,“競速美學(xué)”帶來的是對時空感知能力的破壞,以及視覺的繁復(fù)與空洞。
全球首部人工智能算法自動生成電影《我們的終結(jié)者 2 重制版》(OurT2Remake)呈現(xiàn)了“萬花筒”般的影像世界,各種畫風(fēng)和影像類型充斥其中。全片片長82 分53 秒,被劃分為25 個小章節(jié),這些小章節(jié)分別由不同的 AI 模型生成,最終拼湊出一部所謂“電影長片”。在 2024 年 2 月 21 日發(fā)布預(yù)告片后,該片于 2024 年 3 月 6 日上映。影片翻拍自《終結(jié)者 2》(Terminator2:JudgmentDay,1991),通過將 ChatGPT 發(fā)布之后所引發(fā)的技術(shù)恐懼內(nèi)化為敘事的一部分,展開了人類與 AI 之間的戰(zhàn)役。在片中,各類時空、人物、畫面交織在一起,同時破壞了空間和時間的拓撲結(jié)構(gòu),指向一種無根基的、純粹的數(shù)字時空。各類算法、模型的綜合運用也未能保證基本敘事情節(jié)的完整,在眼花繚亂的競速影像中,影片向“新巴洛克式”風(fēng)格邁進,進而滑入了空無深淵。影片中出現(xiàn)的許諾—“AI 將讓這個世界變得更好”(圖2)—看上去更像是一種安慰,因為在速度之中,一切都消失了。
圖2 《我們的終結(jié)者2重制版》中出現(xiàn)的“AI將讓這個世界變得更好”的臺詞。圖片來源:Youtube網(wǎng)站。

(三)游戲美學(xué):去歷史化與隨機性
AI 生成影像的游戲美學(xué)不僅體現(xiàn)在它的“交互性”上,也體現(xiàn)在它對電子游戲影像的征用上。在 Sora 推出的 48 個模擬影像中,有一個是模擬電子游戲《我的世界》(Minecraft)“像素風(fēng)”的生成影像,其完整還原了該游戲的界面、角色行動視角及環(huán)境生態(tài)。在此之前,同為 AI 模型的英偉達推出的深度學(xué)習(xí)超級采樣技術(shù)(DeepLearning Super Sampling, 簡 稱 DLSS3.5) 已 經(jīng)被用于電子游戲的光線效果重建,以提升畫面的幀率和色彩等方面的呈現(xiàn)效果。如果說 DLSS3.5的技術(shù)應(yīng)用仍然是為了“優(yōu)化”的整體目標(biāo),那么 Sora 在模擬“像素風(fēng)”時所生成的游戲世界則是為了突出“它在構(gòu)建、實施連貫性原理這個方面的實力與強力”[1]。克里斯汀·達利(KristenDaly)在《電影 3.0:互動影像》(Cinema3.0:TheInteractive-Image)一文中指出,“互動成為數(shù)字媒體必然的結(jié)果”,因此“世界不再是畫面,而是游戲”[2]。Sora 影像和基于游戲引擎制作出的“引擎電影”(Machinima)均為“互動影像”。通過將二者進行對比,我們可以探知 AI 生成影像是如何將“世界”編碼為“游戲”的,并揭示出蘊含其中的游戲美學(xué)—其對游戲風(fēng)格的模擬是一種“去歷史化”的表征方式,是脫離了“敘述”的隨機性界面展示。
基于《我的世界》游戲引擎制作而成的引擎電影《我的三體》(TheThre-BodyProbleminMinecraft)改編自劉慈欣的科幻小說《三體》。創(chuàng)作者利用游戲的“像素風(fēng)”嘗試還原原著中所描繪的“三體世界”。與 Sora 版“我的世界”將模擬游戲界面和視角視為作品目的不同,《我的三體》將“游戲引擎”背后的意涵視為服務(wù)于敘事的表現(xiàn)手段。當(dāng)然,Sora 對于敘事的摒棄可被解釋為技術(shù)條件的限制,但其“去歷史化”的游戲美學(xué)特征并不來源于此,而是來源于影像的隨機性及觀看者和影像之間關(guān)系的改變。正如列昂 ·葛瑞威奇(Leon Gurevitch)在分析谷歌地球的虛擬場景時所指出的那樣,“數(shù)字模擬不再與客體空間保持傳統(tǒng)關(guān)系,攝影機變成了空間的組成部分”[3]。如果說《我的三體》對游戲影像有意的排列組合是為了構(gòu)建一個將觀看者納入其中的敘事空間,是一種歷史化的敘述方式,那么在Sora 版《我的世界》中,攝影機或者說敘述空間成為生成空間的組成部分,而觀看者則被排除在外,他們所看到的僅僅是隨機性生成的界面展覽。
以 Sora 為代表的 AI 生成影像將再現(xiàn)的、結(jié)構(gòu)的、拓撲化、歷史化的美學(xué)表征破壞殆盡,并將其重建為離身的、新巴洛克式的、隨機的界面展覽。這一進程改寫了葛瑞威奇所謂“游戲效應(yīng)”美學(xué)。葛瑞威奇認(rèn)為“游戲效應(yīng)”將會使影像跨媒介空間的建構(gòu)方法從“交易電影”轉(zhuǎn)向“互動電影”[4]。“交互”或者“互動”這一本應(yīng)成為關(guān)鍵性美學(xué)表征的元素在生成式技術(shù)邏輯之下也被削減為機械化的重復(fù)勞動指令,在“生成”取代“寫上”之后,其美學(xué)潛能還有待進一步發(fā)掘。在世界影像化的時代,這一動作同時帶來的是尼古拉斯·尼葛洛龐蒂(NicholasNegroponte)所說的“數(shù)字化生存”[5] 程度的加深,人類的生存空間被大大小小的屏幕所占據(jù),“點擊”“劃動”等動作成為日常生活的一部分。那么,在這一頻繁的、必不可少的動作背后,AI生成影像能給人類帶來新的藝術(shù)體驗嗎?和人類藝術(shù)作品相比,AI 生成影像所帶來的藝術(shù)體驗又有何不同?
三、感覺的邏輯:作為“不相關(guān)影像”的AI生成影像
AI 創(chuàng)作體現(xiàn)的上述三種表征,正是其與在現(xiàn)實物理場域呈現(xiàn)的傳統(tǒng)藝術(shù)產(chǎn)生審美差異的關(guān)鍵。AI 生成影像以界面展覽的形式取消了其與現(xiàn)實之間的聯(lián)系,而當(dāng)人類與之發(fā)生互動時,除了有“輸入”和“點擊”這些身體動作的參與,還有觀看和體驗的權(quán)力介入。在AI 生成影像表面、競速、游戲的美學(xué)表征之下,其實還蘊藏著另外一個特征,即 AI 生成影像與人類之間不存在傳統(tǒng)藝術(shù)作品與人之間的那種“感覺邏輯”[1]。
想要正確建構(gòu)當(dāng)下有關(guān)AI影像的審美體系,就必須正視AI 生成作品對“感覺邏輯”的破壞,而德勒茲對審美發(fā)生的一系列分析可以為當(dāng)下有關(guān) AI 影像的審美體系建構(gòu)提供啟示。德勒茲認(rèn)為,“藝術(shù)作品是感覺的一種生存物,而不是任何別的什么:因為它自在地存在”[2]。在對法國畫家塞尚的繪畫分析中,德勒茲強調(diào)了“形象”的重要性—“所謂形象,就是被拉到了感覺層面的、可感覺的形狀;它直接對神經(jīng)系統(tǒng)起作用,而神經(jīng)系統(tǒng)是肉體的”[3]。在對培根繪畫的論述中,德勒茲進一步指出,所謂“感覺的邏輯”并非建立在“形象—感覺—肉身”的相關(guān)性之上,而是建立在“情動—身體”的關(guān)聯(lián)性架構(gòu)中—在一種色彩、一種味道、一種觸覺、一種氣味、一種聲音、一種重量之間,應(yīng)該有一種存在意義上的交流,從而構(gòu)成感覺的“情感”時刻(非再現(xiàn)性的時刻)[4]。
因而,藝術(shù)作品所依靠的“感覺的邏輯”是“非再現(xiàn)性的”“情動—身體”的關(guān)聯(lián)性架構(gòu),那么,以“再現(xiàn)”和“模擬”為目標(biāo)的 AI 生成影像目前可否被稱為“藝術(shù)作品”?德勒茲說:“只要畫布未損,畫面上的年輕人便會永遠微笑?!盵5] 我們是否可以說“只要 AI 未損,界面上的年輕人便會永遠微笑”?Sora 所呈現(xiàn)出的人物動態(tài)、擬真環(huán)境、畫面細節(jié)均不以接近創(chuàng)作為目的,而是以模擬現(xiàn)實為追求,在它生成的影像中不僅有“永遠微笑的年輕人”,還有城市、物體、動物、歷史、藝術(shù)的“表面”。這也說明這些影像更加靠近自然影像的范疇,并朝著“AI 藝術(shù)”邁進。雖然AI 生成影像脫離了人工的創(chuàng)作痕跡,同時兼具上述“表層化”的美學(xué)表征,但其仍然可以被視作一種“感知物”:一方面,AI 生成影像還未成熟,處于發(fā)展階段,其最終形態(tài)尚未確定;另一方面,技術(shù)開發(fā)和加速進程讓 AI 生成影像成為未來影像的一種確定形態(tài)和主要發(fā)展趨勢。在不能對 AI 生成影像的藝術(shù)本體作出判斷時,從“感覺的邏輯”及其“相關(guān)性”入手,也就是從藝術(shù)作品與人類之間發(fā)生交互的“情動—身體”架構(gòu)入手,仍可一窺其表層之下的真實面貌。
在AI 生成影像中,“感覺的邏輯”發(fā)生了變化,這種“相關(guān)性”因此被“不相關(guān)影像”所取代。對于德勒茲來說,過去在繪畫中出現(xiàn)的對象的表征是一個時間性的綿延過程,“感覺”不是存在于光線與色彩的無人介入的空氣之中,而是存在于身體之中 [1]。對于 AI 生成影像而言,其影像是表面和離身的,身體僅僅依靠輸入指令無法參與到界面的隨機生成過程中,“交互”的動作反而破壞了原本對時空和偶然性的感知。在肖恩·丹森(Shane Denson)看來,AI 生成影像“本質(zhì)上是完全過程性的,這表現(xiàn)為從它們的數(shù)字接收和傳遞到它們在計算播放設(shè)備中的實時處理”,“這種基本過程性推翻了影像作為離散包裝單元的本體地位,并將其自身影射到我們自己對感知信息的微時間處理中,從而擾亂感知人類主體的相對固定性”[2]。也就是說,AI 生成影像的技術(shù)時間破壞了我們感知信息的微時間,它將實時生成的技術(shù)過程重建為基于“交互”的行動過程,超出了人類感知的范疇。這不僅影響到人類對其產(chǎn)生情感交互的現(xiàn)象學(xué)效果,而且也與人類的主體性不相關(guān)—其不再適應(yīng)人類感知過程的頻率,因此不再必然出現(xiàn)于“情動—身體”的架構(gòu)中[3]。
在《不相關(guān)影像》(Discorrelated Images)一書中,丹森以數(shù)字模擬鏡頭光暈為例,來說明這種不相關(guān)現(xiàn)象。丹森認(rèn)為,數(shù)字模擬鏡頭中的光暈導(dǎo)致了敘境空間和非敘境空間的微妙混淆,光暈實時模擬了相機的物理特性(只要求被看到,以便我們感知到更多的模擬真實),同時也包含夸張的展覽性目的(乞求我們?nèi)タ吹竭@種光線和虛擬鏡頭之間互動的驚人的模擬效果)[4]。在 AI 生成影像中同樣如此,例如在 Sora 發(fā)布的“下雪的東京”(圖 3)的十幾秒影像中,生成技術(shù)所模擬的鏡頭光暈效果營造了一個真實的飄著雪的戶外空間。鏡頭以一個俯視的視角跟隨著兩個行人運動,觀者仿佛置身于東京的街頭,能夠察覺到光線照射在雪花和櫻花上的區(qū)別,也可以看到遠處天空中云層的光邊。不可否認(rèn),影像所呈現(xiàn)的效果建立起了觀者和如夢似幻的“模擬現(xiàn)實”之間的感知聯(lián)系,吸引觀者“進入”到影像當(dāng)中。但與此同時,觀者并未真正“進入”到該影像當(dāng)中,因為鏡頭光暈將觀者的注意力轉(zhuǎn)移到了效果本身上,通過虛擬攝影機的流暢運動,細節(jié)的逼真性突出了影像的人工性。
圖3 Sora發(fā)布的生成式影像“下雪的東京”。圖片來源:OpenAI官網(wǎng)。

在羅蘭 ·巴特(Roland Barthes)的“刺點”(Punctum)理論中,這種“相關(guān)性”在影像(巴特是以照片為例的)中與人類的生命體驗相聯(lián)結(jié)。在《明室》一書中,巴特對“研點”(Studium)和“刺點”作出了區(qū)分?!癝tudium”是指照片中的文化含義,屬于信息層面,是“我”被照片的內(nèi)容所喚起的情感,“這種感動是通過道德和政治的理性中介起作用的”?!癙unctum”則是照片所帶出的“刺點”,偶然刺痛“我”的東西,“作為一個‘細節(jié)’存在的同時,這個‘Punctum又不合常情地充滿了整張照片”[1]。巴特舉了很多例子來說明“我”與照片之間的相關(guān)性,其中一 個 是 查理 ·克利 福 德(Charles Clifford) 拍攝的《阿蘭布拉》(TheAlhambra,圖 4)。
一棟老房子,一個帶陰影的門廳,房頂上的瓦,老式的阿拉伯風(fēng)格的裝潢,靠墻坐著的人,空蕩蕩的街道,一株地中海地區(qū)常見的樹(查理·克利福德拍攝的《阿蘭布拉》),這樣一張老照片(攝于 1854 年)打動了我:這很簡單,我只是想到“那里”去生活。這個想法深深地藏在我心頭,我不知道源于什么:炎熱的氣候?關(guān)于阿波羅的地中海神話?無人繼承?退休?隱姓埋名?高尚情操?不管是什么(源于我的自我,我的動機,我的幻覺),我就是想到那里去生活,“講究地”生活—而這種講究,一張旅行照片是永遠滿足不了的。[2]
圖4 《阿蘭布拉》,[英]查理·克利福德攝影,1854—1856年。

在巴特的論述中,“刺點”是“我”和照片相關(guān)聯(lián)的中介。這一中介并非在形象層面對照片內(nèi)容的認(rèn)知,也不僅僅是肉身對該照片所產(chǎn)生的情感反應(yīng),而是一種深層次的“情動—身體”架構(gòu),它既關(guān)乎“感覺的邏輯”,也關(guān)乎“我”生存的方式和意義。沿著巴特的“刺點”理論路徑,我們不禁自問:“我”真的想去AI生成的影像中生活嗎?
在這個意義上,AI 生成影像作為一種“不相關(guān)影像”破壞了時間性、偶然性上的感覺綿延,中斷了感覺邏輯的運作過程,而“情動—身體”的關(guān)聯(lián)性架構(gòu)被重建為丹森所說的“新陳代謝”過程。在丹森看來,“新陳代謝”是沒有感覺或情緒的情動,這個代謝影像是變化的典型影像,它反映了一個觀點,即新陳代謝本身的沉浸式、無差別的(非)視角—一種物質(zhì)情動—作為過渡的媒介分布在身體和環(huán)境中 [1]。也就是說,AI 生成影像的“不相關(guān)性”所引發(fā)的不僅是“感覺的邏輯”被破壞和重建,而且也帶動了整個媒介環(huán)境或者說人與影像關(guān)系的改變。
結(jié)語
AI 生成影像作為“不相關(guān)影像”喪失了“情動—身體”架構(gòu),成為一種無生命影像,并指向“人—機”關(guān)系不確定性的未來。具體而言,AI 生成影像在技術(shù)層面上破壞了傳統(tǒng)影像美學(xué)理論的表征,追求“高質(zhì)量”的影像美學(xué)評判標(biāo)準(zhǔn)加重了審美領(lǐng)域中的“技術(shù)決定論”傾向;破壞圖像的“再現(xiàn)”、重建圖像的“界面”的創(chuàng)作方法,生成了競速時代新的展覽化影像形態(tài);在感知層面破壞主體感知的時間性綿延,成為自動化“新陳代謝”過程。回到文章開頭德雷福斯所提出的“人工智能不能做什么”的問題,若從“不相關(guān)性”的視角出發(fā),這一問題的答案就不應(yīng)僅是“人工智能并不能依靠模擬大腦來生成影像”,而且還應(yīng)有“它在改變我們的大腦”。
由此,對 AI 生成影像美學(xué)表征的分析最后仍然無法回避和人類現(xiàn)實相關(guān)的道德問題,AI能否引領(lǐng)一個更加美好的未來?這個問題的答案需要在人類的具體可感知的實踐生活中去尋找。在史蒂文 ·斯皮爾伯格(Steven Spielberg)導(dǎo)演的科幻電影《人工智能》(A.I.:ArtificialInteligence,2001)的開場段落,是一群人在會上討論是否要制造一個擁有“愛”的能力的小孩機器人,一位黑人女士提出了一個至關(guān)重要的問題:“社會彌漫著仇視機器人的氣氛,問題不是制造會愛的機器人,真正的問題是……人類能不能愛他們?”對于 AI 生成影像而言,這一問題變成了“當(dāng)虛擬現(xiàn)實完全能夠模擬真實世界的時候,真正的問題是……人類能不能愛這個世界?”