劉佳,蕭惠丹
北京師范大學藝術與傳媒學院,北京100875
從遠古時期人類在巖壁上的圖像繪制到機械復制技術下的圖像復制,再到人工智能時代的圖像生成,人類創作圖像的歷程經過了漫長的歲月。每一次的技術迭代,都會影響人類創作圖像的生產方式、欣賞方式、傳播方式致使藝術審美發生巨大的變革。人工智能技術經過數十年的發展,在參與數字藝術創作方面已經展現出不容忽視的創作能力,尤其是在圖像生成領域,人工智能參與圖像生成技術被越來越多的研究者開發,已經引起了藝術界的廣泛關注。
文本智能生成圖像技術主要的關注重點是將人類單句自然描述形式的文本直接翻譯成相應的圖像。這項技術的達成首先得解決兩個子問題,第一是深度學習捕捉自然語言中的視覺表示信息,第二是根據信息合成相應的圖像[1]。初代AI“藝術家”The Painting Fool起源于2001 年,發起人西蒙·科爾頓希望把一些數碼照片變成藝術品,經過十多年的改進,The Painting Fool學會了物理繪畫、模擬人類情緒繪制肖像、識別和創造三維世界,向著“有創造力的藝術家”不斷前進。2014年伊恩·古德費洛等人開發的深度學習模型——“生成對抗網絡(簡稱GAN)”,提出通過對抗過程估計生成模型的新框架,主要應用在圖像生成、超分辨率任務、語義分割等方面。2015 年谷歌公司公布Deep Dream項目,通過人工神經網絡對圖像的深度解讀,加大對圖像特征的識別,提取越來越高的圖像特征,最終作出顯示什么內容的決定。Deep Dream 程序使用卷積神經網絡,通過算法的空想性錯視查找并增強圖像中的特征,從而在過度解釋的圖像中產生類似夢境的幻覺外觀[2]。2021 年1 月5 日,Open AI 公布人工智能神經網絡“DALL·E”,其因聲稱可以通過自然語言文本直接生成對應圖像而獲得廣泛關注,本文也將以DALL·E 為基點,研究文本智能生成圖像所蘊含的藝術性及其背后的重構與復制,進而探討“藝術創作與藝術復制”所引發的問題與解決方案。
DALL·E 是變壓器語言模型,模型的命名來自藝術家薩爾瓦多·達利和皮克斯的機器人WALL-E 名字的結合。DALL·E 的詞匯量同時具有文本和圖像概念[3]。經過數據的訓練后,向模型輸入文本,DALL·E可自動生成相應圖像,也就是說,輸入進行訓練的數據將會影響DALL·E 最終輸出的效果。DALL·E 使用CLIP對進行重新排名有交互式視覺對象,取每個標題512個樣本里的前32個。此程序也可以被看作是一種語言引導搜索,并可能對樣品質量產生巨大影響[4]。
DALL·E 功能強大,不僅可以同時繪制多個不同屬性的對象,例如“一只戴著藍色帽子、紅色手套,穿著綠色上衣、黃色褲子的企鵝”(見圖1),還可以允許控制場景的視點,例如特寫、俯視、仰視等,還可以渲染場景的3D樣式及改變風格、設置和時間,繪制內部結構,渲染外部結構等,而引入對象越多,成功率越低。輸入替代用語重復文本句可以提高結果的一致性。同時,DALL·E可以將不相關的概念結合在一起生成新的圖像,例如“一只帶有豎琴紋理的蝸牛”,豎琴和蝸牛概念相距甚遠,而DALL.E 可以將兩個概念結合生成全新圖像(見圖2)。基于DALL·E 的功能,用戶可以使用DALL·E 進行設計,包括角色、服裝、廣告、平面、室內設計等。根據上述應用機制,可以歸納出DALL·E的技術特點:(1)視覺效果依賴于訓練數據,即無法脫離數據進行獨立創作,如數據庫不變,輸入相同的內容,結果不會變化,不具有獨立創新性;(2)視覺效果取決于算法機制,不同的算法或者原算法得到改進,數據庫不變,輸入相同內容,結果可能會發生變化;(3)拼貼和合成性強,通過學習訓練,根據輸入文本將數據進行拼貼合成;(4)生成時間短、生成結果多元化,只要向模型輸入文本,DALL·E 就可以通過計算迅速生成大量相應圖像,相同時間內的效率及數量是人類正常創作無法達到的。

圖1 DALL·E生成圖像(一)

圖2 DALL·E生成圖像(二)
以DALL·E 為例,用戶只需要輸入相關的詞語或一個自然單句,即可生成圖像。同時,用戶還可以設置條件加以限制。基于Image GPT技術,用戶向DALL·E 提供上半部分圖像,DALL·E 可生成相應的下半部分圖像。因此,除了輸入相關語句,還可以增加上半部分圖像加以限制。可見,基于后臺的龐大數據與算法,圖像生成過程中用戶的參與度是很低的,僅僅需要相應的文字與圖像即可。
根據DALL·E 的技術特點,可以歸納出其圖像生成的特點:(1)風格、內容等高度依賴于數據庫,由于DALL·E的視覺效果依賴于訓練的數據庫,因此,生成圖像的風格、內容等會高度受到數據庫的限制;(2)生成圖像的拼貼和合成性極強,例如當輸入文本“一個商店的店面寫著‘open ai’字樣”,生成的圖片中的商店和街道背景就是由訓練數據拼貼組合而成的;(3)生成結果受措辭方式影響,輸入替代用語重復文本句可以提高結果的一致性;(4)由于圖像由數據、算法決定,只是機器的理性排列的結果,沒有人為情感及故事的參與和表達,因此缺乏情感與故事性;(5)訓練數據足夠龐大時,生成圖像可實現多樣化。
討論文本智能生成圖像的藝術特性,必須回歸到藝術創作本身,首先討論智能生成圖像是否屬于藝術,以及是否屬于藝術創作的范疇。藝術創作是指藝術家運用自己的藝術經驗、藝術觀念以及審美體驗,通過一定的藝術媒介和藝術語言,把特定的藝術內容、藝術形式轉化為藝術形象、藝術作品和藝術文本的創造性活動。藝術創作從根本上來說是人類的自由創造活動[5]。也就是說,藝術創作的重點在于是否具有創造性。盡管人工智能藝術的出現極大地挑戰了大眾對于藝術本質的理解,但藝術依然應當是藝術家主體觀念與自由意志的展現[6]。
再現說認為,藝術是對世界的模仿與再現[7]。模仿是西方藝術理論長久以來的重要原則,并非指機械地進行模仿,而是如丹納所說,藝術的本質在于表現事物的主要特征,模仿的目的應該指向表現事物的主要特征[8]。現代中國反映論認為,藝術來源于生活,是社會生活的反映,同時,藝術反映生活必須由人來完成[9]。人工智能模仿了人類學習的過程。人工智能輸入大量數據進行訓練,正如一位畫家早期學習繪畫技術時,需要大量臨摹他人的作品,進而使自己的藝術技巧得到提升,人工智能的學習也是如此。但是,人工智能的學習主要停留在形式上,沒有到達藝術的內涵。藝術的基本特征由形象性、審美性、情感性構成[10],人工智能目前在形象性、審美性上已有較大進展,但情感性依舊缺失。
人工智能經過對文本和圖像數據的訓練,能夠根據文本要求創作出所需要的形象,并且可以具有一定審美價值。微軟小冰花了22個月,就學習完了人類藝術歷史上400年236位畫家的畫作,最終參加中央美術學院研究生畢業展,從央美研究生畢業。微軟小冰能夠根據命題獨立完成原創的繪畫作品,所得作品無論是筆觸、構圖、色彩、表現力等都得到了央美老師的肯定。雖然作品的形象性和審美性是得到了肯定,但人工智能所生成的作品缺乏情感性仍是其最大的缺陷,也是其自身生成行為不能被稱為藝術創作的重要原因。無論是微軟小冰還是DALL·E都需要用戶輸入一段描述或其他文字作為激發源,微軟小冰聲稱能進行原創創作也是建立在用戶的激發之上的。也就是說,人工智能所創作的作品是基于人類所擁有的情感或想法而生成的,但機器本身是不具備情感的,因此作品并不擁有機器的情感。同時,人類處于社會生活中,根據反映論,作品是社會生活的反映,而機器并不處于創作者所處的人類社會中,不具有人際關系,因此也無法自主地在作品中反映自己的生活。
回歸人工智能的本身定義,人工智能的定義是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的技術科學[11]。對于人類而言,人工智能是模擬人的一項技術科學,而且實質是一項模擬人,幫助人來解決問題的技術或工具。因此,無論是微軟小冰還是DALL·E,它們都很難自主獨立地進行創作,但卻能根據人類的想法來完成創作,是幫助人完成藝術創作的工具。從傳統繪畫的畫筆、顏料到數字繪畫的Photoshop、Sai、Procreate等,其實是繪畫工具越來越智能化的過程,多種筆刷選擇、數字選色、特效處理和歷史步驟記錄等減少了人類繪畫的成本和門檻,沒有經過藝術訓練的人不再需要進行筆觸的訓練、顏色的調配就可以選擇自己需要的顏色和筆觸進行繪畫。而人工智能技術則是一項功能更加強大的工具,人們只需要輸入文本即可輸出相應的圖像,人工智能生成圖像技術代替人類為使用藝術技巧、工具進行的訓練,直接輸出創作者需要表達的視覺內容。無論這項工具如何精進,表達的想法仍是創作者的想法,并非機器本身的想法,因此,文本智能生成圖像技術更像是一項功能強大的藝術創作工具,而非獨立創作者,其藝術價值還是需要創作者的主動性和創造性來實現。
要探索文本智能生成圖像的藝術性,將其與傳統圖像、數字圖像進行比較分析是必要的。下面將梳理三者之間的區別,探討人與人工智能在圖像創作中因主體差異性而產生的創作過程的差異。
傳統圖像是使用一定的物質材料(包括畫筆、顏料、刀等)作為工具,運用線條、色彩等藝術語言,在二維空間(包括紙張、木板、墻壁等)通過構圖、造型等藝術手段塑造出的靜態視覺形象。傳統圖像中的傳統繪畫藝術必須由藝術家去完成,需要較長的創作時間,且具有獨一無二的特性。本雅明在《機械復制時代的藝術作品》中提到,傳統藝術品的即時即地性,即它在問世地點的獨一無二性,是復制所無法達到的[12]。而這種獨一無二的特性及需帶有一定距離的觀賞是“光韻”產生的原因,傳統繪畫作品所帶有的“光韻”是數字圖像和文本智能生成的圖像難以得到的。然而,攝影技術的出現和發展使得“靈韻”不可逆轉地被瓦解。機械復制技術使得一個圖像原本可以有多個摹本,圖像獨一無二的特性消失,觀眾能夠輕易地近距離與作品進行接觸,靈韻便也不復存在。
數字圖像通過計算機存儲和處理,因此以像素為組成數字圖像的最小單位。與傳統圖像相同,數字圖像作品的創作者只有創作者本人,由于創作工具從物質材料得到解放,不再像傳統繪畫一樣要調配顏料才可得到需要的顏色,所以創作時間大大減少。人們可以通過Photoshop、Adobe Illustrator、Sai 等軟件作為繪畫平臺進行創作,筆刷、濾鏡等功能大大增加了創作的便捷程度。數字圖像與傳統圖像相比,盡管創作工具發生了變化,但創作的靈感仍來源于創作者本人,創作過程仍需要創作者本人來進行。盡管作品可以被無限復制,但藝術家獨立創作完成的數字圖像的藝術創作仍具有獨特性。數字復制技術的出現,確實對藝術領域產生了強烈的沖擊,數字影像的爆炸性增值、傳播,使藝術的復制達到了新的高度。馬克思主義追求的根本價值目標是實現人的自由全面的發展。藝術大眾化是必然的發展趨勢,而藝術復制技術的革新也是藝術大眾化的需要和表現[13]。
文本智能生成的圖像也屬于數字圖像。它是在設計好算法模型后,通過輸入大量文本和圖像數據對人工智能軟件進行訓練,用戶只需要輸入相關的詞語或一個自然單句,即可生成相應的圖像。與傳統圖像和數字圖像不同,文本智能生成的圖像創作者不再僅僅是創作者本人,進行創作的過程由人工智能代替,創作者僅參與文本部分的編寫,用于激發模型產生圖像。這是人工智能生成圖像與傳統圖像、數字圖像最大的差異,即創作過程由算法模型和數據庫決定,具有絕對的理性,一切都是數據分析運算的結果,是對已有的數據庫的復制和重構。而無論是傳統圖像還是數字圖像,都是由創作者本人進行設計、繪畫,僅僅是作畫的工具發生了變化。這種創作主體的變化一方面使藝術大眾化的發展更加迅速,給藝術領域帶來劇烈的沖擊;另一方面也引發類似“人工智能能否代替人類進行藝術創作”等關于人工智能的討論。與此同時,人們也對人工智能創作是否屬于藝術發出質問。
文本智能生成圖像技術在當前的技術條件下尚無法取代人類通過自主情感和創造性完成整個藝術創作的過程。但是文本智能生成圖像技術可以通過對以往作品的深度學習,學會精湛的藝術表現技巧,掌握人類個體無法擁有的龐大藝術手段,成為擁有最豐富的藝術創作經驗的“藝術家工具人”,以輔助創作者進行創作。就文本智能生成圖像技術而言,它的藝術性體現在三個方面:(1)人工智能通過深度學習模擬完成了藝術家的藝術學習過程,為藝術創作積累、沉淀經驗;(2)文本智能生成圖像對已有藝術圖像進行運算、分析,在指令要求下進行相關藝術作品的復制與重構,完成藝術創作;(3)文本智能生成圖像將復雜的藝術技巧機械化,變成“傻瓜化”的工具,成為人人都可以參與的藝術創作類型,促進了大眾藝術的普及化。
關于通過文本智能生成圖像進行創作無可避免的復制性的問題。數字圖像的復制性主要發生在其藝術創作完成后,可以隨時隨地對作品進行拷貝粘貼,甚至進行修改,很難探尋其“原真性”。而文本智能生成圖像既具有數字圖像的復制性屬性,又包含了自身特性的新復制屬性,即在作品的創作過程中,根據指令的要求,人工智能生成圖像技術會調用數據庫,生成目標圖像的拼貼、合成作品。這一過程中必然發生對已有藝術作品的復制與重構,而由此引發一系列的問題。
第一,復制性削弱了文本智能生成圖形的藝術創新性。人工智能經過學習人類藝術史上的技法,雖然能在藝術技巧上超越單個人類的技法,卻無法帶來革新的技法,也無法經過生活體驗進行創新的藝術構思。單純由人工智能技術生成的圖像仍然是對已有圖像進行運算和分析的結果,無法對已有藝術進行創新,僅僅只是對人類已有藝術作品的復制和重構。
第二,復制性受到數據庫和算法的影響,難免在創作中出現重復的圖像。用戶輸入同樣的文本內容,在相同的算法模型和相同數據庫下,得到的結果相同,無法保持作品的獨特性。“獨特性”的缺失會極大損害文本智能生成圖像的藝術價值,從而影響文本智能生成圖像成為藝術作品。
第三,人工智能生成內容版權保護問題爭議較大,復制行為是否涉及剽竊仍眾說紛紜。由于人工智能生成物是計算機運行的結果,缺乏自主獨創性,未被視為“作品”,所以并未受到著作權法的保護,其責權規范也并未明確。對文本智能生成圖像藝術重構的尺度成為衡量其藝術價值的重要參照。但是目前并沒有一個權威的指標體系明確藝術復制與藝術重構之間的界限。
對于文本智能生成圖像在藝術創作過程中的復制性問題,可從如下幾個角度進行思考和改進。
第一,把文本智能生成圖像作為一項高度智能化的工具,用于協助人類進行藝術創作或許是實現人工智能作用最大化的最佳用途,創作者可以通過對文本智能生成圖像技術的充分應用來輔助創作。創作者利用龐大的數據庫,將所需要的想法轉換為文字,輸入模型中,以得出的圖像作為產生靈感的素材,再由創作者本人進行再度創作,這不僅可以突破個人審美和意識的限制,打開創作思路,還可以避免單純的復制行為的發生。
第二,在通過文本進行智能圖像生成創作伊始,創作者要盡可能地完善自己的藝術構思,讓創意性成為主導創作內容的核心力量,而藝術呈現的技巧僅是輔助工具,這樣既可以避免文本智能生成圖像在創作過程中復制的雷同性,又可以增強文本智能生成圖像作品的藝術性價值。
第三,文本智能生成圖像的復制性問題的解決還是有賴于人工智能技術的不斷提升,在深度學習中模擬人類的能動性和創造性,將文本智能從表層的數據庫內容提取提升到創造性的藝術作品重構。在文本智能生成圖像模型構建階段,制定藝術作品重構的指標體系,讓藝術學習、藝術模仿與藝術復制在數字化的過程中形成明確區分。
在新的藝術創作形式萌芽之時,對藝術作品的看法也在發生著重大的改變。正如喬治·迪基所言:“藝術是一定時代人們的習俗所規定的,任何一個人工制品,如果在一個特殊時代為多數人共同承認為藝術,那么它就是藝術。而且,隨著習俗的發展,藝術的范圍也會變化、擴大[14]。”藝術創作不再是單一的以人類為創作主體的藝術形式,人工智能成為協助人類藝術創作的助手,是人與機器人的親密合作。文本智能生成圖像作為高度智能化的工具,目前階段人類依然是其藝術創作的主體,應更多的發揮人類藝術創作的主觀能動性;人工智能技術在藝術創作中的主體地位提升還有賴于模仿人類的能動性和創造性能力的繼續開發。