摘要:目的:文章以展覽館設計為例,探索在空間設計中應用開源圖像生成人工智能模型——穩定擴散的客觀影響與當下現實。方法:通過分析穩定擴散模型現實功能、組成原理與各類拓展性神經網絡,結合展覽館空間設計的設計需要和設計步驟,從客觀實踐出發,分析如今穩定擴散模型在展覽館空間設計中的客觀現實。結果:穩定擴散作為一款開源圖像生成模型,在各類拓展性神經網絡的幫助下,能高效生成空間設計中的效果圖像,在空間設計項目制作中對提升專業設計師的設計效率具有一定的幫助,即可提供大量風格各異的效果圖像、輔助空間設計中的不同功能區確定、迅速生成設計師構思圖像促進商業交流。但受社會道德、科學技術、基本原理等因素的限制,穩定擴散模型難以直接取代傳統的空間設計出圖流程,大規模生成符合專業設計師最終所需要的現實效果圖像,僅能生成空間設計草圖效果。結論:穩定擴散作為開源圖像生成模型無疑有更多的可能。但是,當下由于各類問題的存在,穩定擴散模型仍需要實現算法上的突破,吸收其他領域的優秀算法與先進技術,實現技術上的質變。只有讓穩定擴散模型完全理解空間關系,優化空間效果圖像生成,最終才能實現空間設計的真正變革。
關鍵詞:人工智能;空間設計;穩定擴散;展覽館設計
中圖分類號:G269.2 文獻標識碼:A 文章編號:1004-9436(2024)03-0-03
0 引言
當下,民用人工智能技術實現了跨越式發展。由美國OpenAI公司研發的人工智能ChatGPT、由中國華為公司研發的人工智能盤古、由中國中車集團研發的軌道輪驅動三臂智能巡檢機器人等人工智能均已為社會生產提供了巨大幫助。穩定擴散模型作為圖像生成人工智能模型讓進一步提高設計師的出圖效率成為可能。該人工智能模型作為開源模型,能夠實現對不同領域的針對訓練,融合與協調各種算法技術,具有極強的拓展性與無限的可能。但是,由于種種原因,目前穩定擴散模型在空間設計的實際應用中嚴重缺乏探索,僅在二維圖形設計中有大量使用。本文基于人工智能技術飛速發展的背景,探索如何在空間設計中應用穩定擴散,總結應用辦法,旨在為穩定擴散模型應用于空間設計提供思路與策略。
1 展覽館空間設計分析
顧名思義,展覽館是以展示為目的而存在并且對公眾開放的公共場館。展覽館中存放的物品一般為社會或集體經過漫長歲月,或實現進步創新所創造出的優秀文化遺產,代表社會或集體與其他群體不同的生存與勞動方式,反映社會或集體的價值取向與感情歸屬。同時,展覽館作為文化場所,其最主要的功能是普及科學與文化知識,開展各種各樣的社會宣傳或組織活動,以推動社會主義精神文明建設[1]。
1.1 展陳設計構成
公共空間對外展示時,需要滿足一定條件,展覽館也不例外。展覽館需要具備參觀服務、展覽展示、教育活動、休閑服務、商業活動、城市旅游等功能。所以設計師設計展覽館空間時,需要考慮展覽館的各項功能是否完善,功能與功能之間、功能與展陳效果之間是否協調。因此,在一般情況下,設計師需要積累大量的項目經驗,或與客觀存在的場館對標,以保證設計方案的完整性、合理性,以及各功能之間的協調性[2]。
1.2 分類與風格
與眾多空間一樣,根據展示目的的不同,可將展覽館劃分為不同類型。例如,根據展覽內容的不同,可劃分為綜合型、專業型、展覽與會議結合型、經貿型、命題型、人文自然型等;根據展覽手段的不同,可劃分為實物型、圖片型、綜合型等。以展示目的所匹配的設計風格為劃分標準,展覽館可劃分為自然型、科技型、生活化、簡約型、非實物展示型、建筑裝飾型、后現代主義型等。
2 穩定擴散分析
穩定擴散(Stable Diffusion)屬于一類稱為擴散模型的開源深度學習模型。它是一種生成模型,其目的是生成類似于它們訓練數據的新數據——圖像。使用者可以通過輸入正向提示詞與調節相關權重獲取所需圖像,也可以輸入負向提示詞與調節權重來拒絕相關要素在圖像中生成。
2.1 運行原理
穩定擴散通過連續添加高斯噪聲來破壞訓練圖像,直到圖像成為純高斯噪聲。然后,反轉這個噪聲過程,學習并且恢復圖像。更確切地說,擴散模型是一種潛變量模型,使用馬爾可夫鏈映射到潛在空間。
所以,穩定擴散模型的工作過程也被分為正向擴散過程與逆向擴散過程。正向擴散過程即連續增加高斯噪聲,表示圖像從一個狀態到另一個噪聲圖像狀態的隨機過程。
穩定擴散模型深度學習體現則源于逆向擴散。逆向擴散時,穩定擴散模型對噪聲圖像進行推斷降噪,得到逆轉后的數據分布,生成新的圖像。根據逆向擴散降噪次數也可以生成不同的圖像[3]。
2.2 設計常用拓展功能概述
相較于常用的另一款AI繪畫工具中途(Midjou-rney),穩定擴散作為一款開源模型,能被更多開發者開發,因此具有更多可能。
第一,潛在模型。潛在模型為可組合擴散的一個擴展,可以幫助使用者確定子參數在圖像中的潛空間(所在)區域[4]。
第二,控制網神經網絡??刂凭W是一種通過添加額外條件來控制擴散模型的神經網絡結構,能為從文本到圖像的擴散模型添加條件控制[5]。
第三,X/Y/Z軸坐標腳本。該腳本可以實現多個不同參數之間的對比。
第四,提示詞矩陣。該腳本可以對比不同提示詞生成的數據。
2.3 未來展望
當前的穩定擴散在各類神經網絡的支持下憑借硬件給予的強大計算能力能夠快速生成各類圖像。并且,在Deforu、Temporalkit等神經網絡的支持下,穩定擴散甚至可以在一定程度上實現視頻的生成。所以,基于當前穩定擴散與硬件算力的發展,可以樂觀地認為穩定擴散在不久的將來能完全實現穩定且快速的視頻生成,滿足人們視頻方面的產出需求。
3 穩定擴散對展覽館空間設計的輔助影響與實現
設計師設計展覽館空間的主要環節有全面分析設計目標展館相關信息、規劃展覽館空間劃分、確定具體功能區、明確展館設計風格、創作展館各項設計要素、導出展館效果圖。
體系化的設計過程,反映出展覽館空間設計的嚴謹要求與效率需要,也為未來優化設計方法論提供了參考。
3.1 提供大量風格各異的設計草圖
穩定擴散模型開發者利用計算機偽隨機數算法演變出穩定擴散的隨機種子功能,為穩定擴散提供各不相同的隨機噪聲圖像,使穩定擴散在逆向擴散過程中能夠生成風格各異、類型多樣、特征鮮明的數據圖像。同時,穩定擴散模型存在多種采樣算法,因此可以繪制風格更多樣的圖像[6]。當設計師缺乏某一展覽館的設計經驗或設計想法時,可以利用穩定擴散獲得大量設計草圖,再在生成的大量圖像中選取較好的草圖,逆推其方案可行性,推進設計項目。
3.2 快速生成構思圖像
展覽館作為展現某一類事物的公共場所本身存在獨一性,而且在人們的視野中,展覽館也并非以同一空間結構展現。因此,對人工智能生成圖像輔助展覽館設計,需要具體問題具體分析,考慮展覽館所在空間的各項要素,盡量化解二維畫面與三維立體的矛盾。設計師繪制需渲染空間的語義分割圖——Seg圖像(擴散模型能夠根據顏色理解該區域要素,然后繪制)與各類神經網絡相配合,實現對構成畫面各空間要素的控制,如此便能繪制所需空間效果圖像[7]?;谏鲜霾僮鳎O計師可以根據心中構想總結提示詞,使用穩定擴散將個人靈感迅速表現為生成圖像,實現與各方的交流,促進商業合作。
基于穩定擴散的圖像快速生成能力與圖像優化能力,設計師可以迅速將構思圖像以草圖的形式生成,所生成的草圖相比手繪草圖更貼近現實,從而減少構思與表現效果偏差導致的時間浪費。在項目推進期間,受各種因素的影響,設計師常常不得不終止或更改原有計劃。例如,設計構思效果不符合預期、風格與周圍環境差異過大,等等。設計師引入穩定擴散進行輔助設計,能在開始建模、渲染等之前得到構思草圖,從而更全更快地認知整體效果,避免浪費時間。
3.3 圖像的修改與優化
在控制網v1.1中,加入針對重繪功能進行優化的重繪模型,重繪模型可以幫助穩定擴散模型生成重繪圖像。重繪能夠有效應用移除或添加圖像中的某像素。
同期加入的Tile模型具有圖像優化功能,由此衍生出穩定擴散對設計小品與圖像的拼接能力。Tile的圖像優化功能讓圖像拼接邊緣區域更加柔和,使得圖像生成更為穩定。
相較于以往為了獲得心中構思的整體草圖效果,重新制作三維模型替換原有模型進行渲染的方法,該方法可以更迅速地獲取心中構思的草圖效果,進而更迅速地確定設計風格與具體功能區。
4 穩定擴散輔助設計存在的部分問題
穩定擴散在為展覽館空間設計提供諸多便利的同時,也存在一些問題。受當下科技發展水平的限制,穩定擴散的日常使用存在一定的物質條件壁壘。此外,倫理是人們必須遵守的基本道德義務與社會行為規范,是道德規范中不可逾越的臨界點。穩定擴散作為一款開源本地部署深度學習模型,也因其開源特征存在引發道德倫理問題的可能。
4.1 科學技術限制
在軟件方面,穩定擴散作為深度學習模型,容易在生成時出現一定程度的優化問題。例如,模型對圖像圖形的學習理解不足、模型學習了大量劣質圖像、模型對特殊的物體缺乏學習等,均會使圖像數據生成無法達到預期。并且,穩定擴散作為一款深度學習模型,無法主動創造,這表明穩定擴散對訓練圖像訓練數據有著極高的要求,否則無法保證圖像數據的高質量生成。
在硬件方面,穩定擴散的諸多功能對硬件方面的顯存容量有極高的要求。而相比游戲旗艦顯示適配器RTX4090,同級別顯存容量更大并且可以通過英偉達鏈接接口進行顯存共享的專業級顯示適配器,價格可以達到游戲端顯示適配器的數倍。由此可見,壟斷使得新技術的應用門檻大幅提高,限制了新技術的作用發揮。
4.2 道德倫理問題
穩定擴散是一款開源深度學習模型,所有人均可對一個獨立的擴散模型進行數據訓練,然后向外界公布。然而,尚且沒有針對性技術能夠監測一個合格模型所學習的內容。如果有不法的模型訓練者將模型學習的不適應素材貼上正向標簽,模型分享網站的中端運營商即便應用NSFW算法也難以直接監測和判斷訓練數據是否健康。若此類模型對外流出,將引發道德倫理問題,影響穩定擴散的合理利用。
4.3 空間關系復雜且難以控制
穩定擴散的功能基于對二維圖像進行學習理解,因此其難以通過圖像降噪學習理解嚴謹的三維空間。該底層邏輯使擴散模型生成基于復雜三維空間的展覽館效果圖像面臨挑戰,難以直接繪制復雜且完美的空間圖像。穩定擴散當下僅能直接繪制空間疊壓較少的空間圖像,僅能繪制設計草圖,無法替代渲染器生成設計效果圖。
5 結語
穩定擴散模型能為展覽館空間設計提供一定的輔助,如為設計師提供設計草圖、思維圖像等。穩定擴散作為新時代開源的先進AI模型,無疑有更多的可能。然而,需要繪制Lumion、Escape、V-Ray等
現實渲染效果時,穩定擴散因其種種原因難以快速穩定地生成復雜且完美的圖像。所以,穩定擴散在當下難以替代各類渲染器為設計師提供展覽館空間設計在商業活動中提交設計方案時所需的現實效果圖像。不過,相信在不久的未來,穩定擴散能夠吸收更多的先進技術,穩定生成現實效果圖像,使展覽館空間設計得到變革性發展。
參考文獻:
[1] 趙鵬飛.當代展覽館的展示設計分析與研究[J].包裝工程,2011,32(2):119-122.
[2] 張樂.探索契合的展陳空間與公共空間:以中國大運河博物館為例[J]. 東南文化,2021 (3):155-160.
[3] 羅賓·隆巴赫,安德烈亞斯·布拉特曼,多米尼克·洛倫茨,等.利用潛在擴散模型的高分辨率圖像合成[C]//
計算機視覺和模式識別會議(CVPR).美國:IEEE/CVF,2022:10674-10685.
[4] 祁旭,陳琦,賈杰,等.半參數圖像合成[C]//計算機視覺和模式識別會議(CVPR).美國:IEEE/CVF,2018:8808-8816.
[5] 張呂敏,饒安儀,馬尼什·阿加瓦爾.向文本到圖像擴散模型添加條件控制[C]//計算機視覺和模式識別會議(CVPR).美國:IEEE/CVF,2023:3836-3847.
[6] 喬納森·何,阿杰·賈恩,彼得·阿貝爾.去噪擴散概率模型[J].神經信息處理系統進展,2020(33):6840-6851.
[7] 鄭光聰,周先盼,李雪偉,等.布局擴散:用于生成布局到圖像的可控擴散模型[C]//計算機視覺和模式識別會議(CVPR).美國:IEEE/CVF,2023:22490-22499.
作者簡介:高超(1969—),男,湖北武漢人,碩士,副教授,研究方向:公共藝術設計。
羅茂峰(1999—),男,湖南株洲人,碩士在讀,系本文通訊作者,研究方向:公共藝術設計。