馬進,范明浩,馬良山,胡潔
基于圖文多模態融合推理的產品創新方案設計方法研究
馬進1a,范明浩1a,馬良山2,胡潔1b*
(1.上海交通大學 a.感知科學與工程學院 b.設計學院,上海 200240;2.上海中軟計算機系統工程有限公司,上海 200001)
針對當前產品創新設計領域中對基于圖像-文本多模態知識支撐創新設計方法研究不足的問題,提出了一套基于圖文多模態的產品創新方案設計方法。首先,對設計師的設計草圖與文本要求進行預處理,然后引入產品設計知識圖譜來促進設計思維的發散和創新;其次,通過微調的生成式預訓練變換器模型和擴散模型生成產品方案及其概念圖;最后,利用深度多模態設計評估模型對產品設計方案的可行性和市場潛力進行評估。通過產品設計知識圖譜,及深度多模態設計評估模型的引入,該設計流程可以生成富有創新性且具備可行性的產品方案。基于圖文多模態的產品創新方案設計流程結合了最新的深度學習技術,不僅提高了設計的效率,還為設計師提供了更廣闊的創新視角和靈感來源。
圖文多模態;深度生成模型;知識圖譜;產品創新設計
產品的創新設計是一個從發散到收斂的過程,涵蓋設計概念的生成、評價與篩選。如何生成創新設計解方案是產品創新設計的核心。發散性思維作為打破現有產品方案設計范式的高開放、高活躍度設計模式,能顯著提高設計的創新性。然而,受限于設計師經驗及學科背景,現有設計活動中難以避免地束縛著設計師創新設計能力的發揮[1]。因此,如何將設計師從其學科背景和認知范圍的局限中解放出來,提升其創造力和想象力,實現高開放度、高活躍性的設計,成為當前產品創新設計亟待解決的關鍵問題。
隨著網絡信息技術的不斷發展,越來越多的知識以圖像、文本和視頻等模態在互聯網中呈現,這為設計師利用多學科知識打破傳統思維束縛奠定了知識基礎。而深度學習新浪潮的到來,為挖掘和利用網絡泛在多模態知識以獲取支持創新設計的有用知識、輔助設計過程的創造性活動、提升設計效率,以及為設計師帶來更廣闊的創新視角和靈感來源提供了有效工具。因此,本文將圍繞圖像、文本多模型知識在創新設計領域的應用展開,深入探討基于圖像-文本多模態融合推理的方法以優化產品創新方案的設計過程,從而探索支持創新設計方案的自動生成新方法和新思路。
深度學習不僅通過為設計師提供跨領域的多學科知識以實現創新思維激勵,也可直接作為設計概念的生成器(輔助工具)來生成創新設計方案,掀起了設計領域的技術革命。Jin等[2]通過深度學習網絡抽取了2013年至2017年RedDot獲獎設計的范式輔助創新。Deldin等[3]基于AskNature仿生設計方法實現了跨領域創新設計支持。Luo[4]提出的InnoGPS可抽取專利數據庫中的設計知識以支持工程領域的創新設計。Luo等[5]提出了技術語義網絡,實現了根據設計目的與思維激勵之間的語義距離來尋找技術空白,從而為創新設計提供方向指導。Chakrabarti等[6]提出基于編碼的方法以實現設計方案的快速生成。隨著深度生成模型的誕生,AIGC(AI Generated Content)技術在產品創新設計中的應用迅猛發展,對抗生成網絡(Generative Adversarial Network, GAN)、變分自編碼器(Variational Auto-Encoder,VAE)、標準化流模型(Normalization Flow,NF),以及擴散模型(Diffusion Models,DM)等從圖像或網絡中學習設計知識,在視覺表現中以風格遷移等方式生成新的設計方案,取得了良好的效果。Dosovitskiy等[7]提出基于卷積神經網絡的椅子創新設計概念。Yuan等[8]提出了面向時尚產品設計的深度注意力對抗神經網絡(Deep Attention-GAN)模型。Oh等[9]將GAN模型與拓撲優化相結合,從而實現了汽車輪轂的創新設計。如圖1所示,以GPT(Generative Pre-trained Transformer)為代表的大語言模型與Midjourney、DALL-E 2和Disco Diffusion等深度生成模型的結合實現了基于文本的圖像或視頻生成[10]。Zhu等[11]、Cai等[12]與Lee等[13]都對此進行了研究。鄧正根等[14]通過StyleGAN模型將草圖轉換為高質量的產品設計方案,實現了基于草圖的產品概念圖生成方案。Zhu等[15-16]探索了基于自然語言處理技術的設計概念生成。
現有的、面向產品創新設計的深度學習方法研究,通常聚焦文本或圖像的單一模態知識,忽略了對圖像和文本聯合模態知識的關注。多模態技術能夠同時處理和融合多源信息,為產品設計提供更全面的視角。近年來,多模態融合網絡模型在結合圖像和文本數據特征中取得了較為不錯的成果。Verma等[17]提出了結合“需求—檢索—匹配”邏輯和風格因果的模型,從而生成了滿足設計需求的文本-圖像模態組合。Wu等[18]擴展了變分自動編碼器、GAN和基于流的模型以處理圖像和文本等多模態知識。Lao等[19]提出了多階段處理增強特征融合方法以加強集成視覺和文本多模態知識的混合,并嵌入融合網絡以提高視覺問答的準確性和魯棒性。OpenAI提出的Sora模型能夠實現從一段話生成一段視頻。現有的基于多模態的創新設計模型研究雖已取得了較大進展,能夠在一定程度上理解設計師的需求表達,并拓展創新設計解的方案集合,創造出符合設計師設想的產品設計方案,但在輔助推理過程和設計方案可解釋性等方面仍然面臨著圖文多模態匹配知識規模小、缺乏圖文多模態一致性知識表示模型等挑戰。
為此,本文提出了基于圖文多模態融合推理的、從“創新設計需求—設計方案發散生成—方案評估”的產品方案創新設計方法。設計過程首先對設計師的設計草圖與文本要求進行預處理,然后引入產品設計知識圖譜來促進設計思維的發散和創新;其次,通過微調的生成式預訓練變換器模型和擴散模型實現產品方案及其概念圖的生成;最后,利用深度多模態設計評估模型對產品設計方案的可行性和市場潛力進行評估,并引入產品設計知識圖譜來促進設計思維的發散和創新。最后,利用深度多模態設計評估模型對產品設計方案的可行性和市場潛力進行評估。其中,知識圖譜(Knowledge Graph)通過構建網狀知識結構,高質量、結構化地表達設計知識中各類實體、概念及其之間的語義關系。通過實體嵌入(Entity Embedding)和關系嵌入(Relation Embedding)的知識表征學習方法將實體和關系映射到低維空間,利用蘊含于知識圖譜中的設計實例對深度神經網絡模型進行訓練以提升模型的性能,實現各種知識的推理和應用,解決創新設計活動中的可解釋性問題,輔助設計師對設計概念發散過程的掌握,從而生成更具創新性的產品設計方案。而在知識圖譜的搭建上,引入基于空間域的圖注意力網絡(Graph Attention Networks,GAT)[20],其通過注意力機制(Attention Mechanism)實現相鄰節點聚合操作和權值自適應分配,支持圖結構設計知識更高效、準確地建模。擴散模型通過其強大的生成能力,以確保在圖像和文本模態知識生成任務中所輸出創新設計方案的多樣性和真實性。由于擴散模型在生成過程中對設計范式有更深入的理解,在生成細節上表現出更高的精確度,能夠更好地捕捉和模仿復雜的創新設計方案分布。
如圖2所示,基于圖文多模態融合推理的產品創新方案設計流程可以分為:設計要求輸入、產品特征提取、知識圖譜發散、產品方案生成、產品方案評估五個部分。
一個產品設計的成功與否是由市場決定的。因此,設計師需要對產品進行市場調研,了解產品用戶的需求,對所設計的產品進行初步定位,再結合設計師自己的靈感,最終給出產品設計的文本要求與草圖,作為整個基于圖文多模態的產品創新方案設計流程的輸入。

圖2 多模態融合推理產品創新方案設計流程
在設計師將產品設計需求以文本和草圖的形式輸入后,需要從其中提取出產品的名稱、樣式、功能、風格等特征的描述。如圖3所示,設計草圖的產品特征提取可以使用基于深度學習的圖像描述(Image Captioning)模型來對圖像內容生成描述性文字。該模型由特征提取器和序列模型兩部分組成,特征提取器是通過產品草圖數據集訓練后的卷積神經網絡來對設計草圖進行特征提取。這里的卷積神經網絡需要在特定的設計草圖數據集上微調以更好地適應設計領域的視覺特征。序列模型則采用帶有注意力機制的長短期記憶網絡(Long Short-term memory,LSTM)對提取的視覺特征進行處理并生成與圖像內容相匹配的描述性文本。這種基于圖像的反饋可以幫助設計師捕捉其在最初的文本描述中可能遺漏或未能充分表達的設計細節和元素,與文本形式的設計需求相互補充,從而提高設計的全面性和創新性。
通過圖像描述可以將設計師的草圖轉化為與圖像內容相匹配的描述性文本,將轉換的文本與輸入的文本信息進行綜合,其中重復的文本信息為產品的重要特征需求,其余的作為產品的次要特征需要。而關于產品的描述性文本則可以通過微調的生成預訓練變換器模型對其中產品的性質特征關鍵詞進行提取,例如產品的顏色、樣式,風格,功能等。首先需要收集一定量的產品描述性文本數據,這些數據可以來自產品手冊、設計網站、用戶評論等。通過人工標注識別文本中對產品特征描述的關鍵詞,然后選擇一個適合的預訓練變換器模型,用標注好的數據集對模型進行微調,設置適當的學習率、批次大小、迭代次數等。

圖3 圖像描述模型
為了解決在產品設計過程中多樣性和整體創新性受到限制的問題,本文引入了設計概念知識圖譜。設計概念知識圖譜的搭建一共分為四步(如圖4 所示)。
首先是搭建產品設計數據庫,豐富的產品設計數據是構建設計概念知識圖譜的基礎,數據來源一般來自設計類網站、現有的產品數據庫,以及一些設計概念比賽等。在收集到數據后,需要對其進行清洗和標準化,包括去除噪聲數據、格式統一、錯誤糾正等,以確保數據的質量和一致性。
搭建好產品設計數據庫后,就要對數據庫中設計產品的特征實體進行識別,如產品的顏色、形狀、圖案、風格等,需要通過微調的生成預訓練變換器模型實現。
關系提取是構建設計概念知識的核心,即提取實體之間的各種關系。實體之間的關系可以構成一個圖結構,其中實體作為節點、關系作為邊,通過圖注意力網絡來學習這些實體和關系的復雜模式,對其實體節點進行分類,預測可能存在的、未觀察到的關系,識別和添加遺漏的信息,從而提高知識圖譜的質量和完整性。
最后將提取的實體和關系整合到統一的框架中,構建出結構化的知識圖譜,并選擇合適的存儲系統來保存知識圖譜。將不同類型的設計相關數據存儲在關系數據庫和NoSQL數據庫中。關系數據庫由于其結構格式而存儲集成數據。NoSQL數據庫以基于圖的形式存儲所提取的知識,其中節點表示實體、邊代表其關系。
在基于圖文多模態的產品創新方案設計流程中,將產品設計需求的特征關鍵詞放入設計概念知識圖譜中進行檢索,并根據產品創新性需求進行不同程度的發散,找到其中與特征關鍵詞有關聯的實體作為產品方案生成的參考與依據。
產品方案生成層主要采用條件擴散模型(Con-di-tional Diffusion Model)逐步引入隨機噪聲到圖像或文本模態設計知識中,然后通過相應的逆過程來重構知識,從而達到根據設計需求生成特定類型的方案輸出這一目的。在基于文本描述的圖像生成任務中,模型會利用文本信息作為條件,生成與文本描述相符的圖像。

圖4 設計概念知識圖譜搭建流程
根據知識圖譜檢索與發散的結果,使用預訓練變換器模型生成產品的設計方案,一個完整的產品設計方案應包括產品概述、設計理念、產品規格、技術方案、成本預算等部分。然后根據設計方案并結合設計草圖,使用文本到圖像擴散模型(eDiff-I)[21]來生成產品的設計概念圖。
深度多模態設計評估模型(Deep Multimodal Design Evaluation,DMDE)[22]是一種先進的評估工具,可以用于分析和理解歷史設計數據中的視覺、功能特征、產品的可行性,以及目標用戶之間的關系。通過DMDE對生成的產品設計方案來進行評估,其過程如下。
1)利用在ImageNet數據集上對深度學習模型進行預先訓練并在專用產品數據集上通過微調的ResNet-50網絡來處理產品的正交視圖圖像。同時使用經過大型產品描述數據集微調的基于變換器的雙向編碼器表示技術(Bidirectional Encoder Representations from Transformers,BERT)模型來分析文本產品描述,并通過自注意機制對圖像文本模態知識進行對齊和融合。
2)利用訓練好的網絡對設計方案的實用性進行初步評估,包括材料選擇、成本估算和制造工藝的可行性。根據生成的產品設計方案風格,從年齡、性別等層面分析其所面向的目標消費群體,確保設計方案的市場競爭力。此外,模型還會對設計方案的市場潛力進行預測,評估可能的市場接受度和銷售前景。
3)通過綜合所有評估結果,對設計方案進行打分,將實用性不足的方案篩除。設計師可以根據評估結果對生成的產品設計方案進行選擇,或者重復上述過程對方案進行不斷的迭代與優化,最終得到可行性高、市場競爭力強的產品設計方案。
在概念開發過程中,深度多模態設計評估模型為設計師提供了一個數據驅動循環,在概念評估階段提供更為直觀的參考。這一循環被集成到概念開發流程中,形成了一個自動化、迭代的設計評估周期,從而為設計團隊在概念選擇和優化過程中提供了數據支持。
為驗證方法有效性,以足球鞋的方案設計為案例對上述基于圖文多模態的產品創新方案設計流程進行展示。如圖5所示,完整設計流程描述如下。
1)在設計需求的輸入部分,設計師打算設計一款中高幫的控球型足球鞋。通過市場調研后,計劃以龍年限定作為特點,產品用戶對象為東亞足球愛好者,因此可以填寫文本信息“設計一款龍年限定版足球鞋,中高幫,控球型,適合東亞人的足型,AG鞋釘”,并附上設計草圖。

圖5 基于圖文多模態的足球鞋方案設計
2)對輸入的文本和圖像進行產品特征實體的提取。首先用訓練好的卷積神經網絡對草圖中的元素進行識別,然后用帶有注意力機制的長短期記憶網絡生成與草圖內容相匹配的描述性文本“一雙帶有龍圖案的中高幫AG足球鞋”。隨后,通過微調的生成預訓練變換器模型對兩部分的文本信息進行處理,以“實體-關系-實體”三元組的形式提取其中描述產品特征的實體與關系,例如“足球鞋-圖案-龍”。
3)將所提取的、描述產品特征的實體與關系放入知識譜圖中進行發散。足球鞋設計知識圖譜的搭建需要先收集有關足球鞋設計的數據庫。數據主要來自足球鞋網站及開源的數據庫(如圖6所示),例如Football Boots Database中有4 694款足球鞋的名稱、材質、顏色、價格等數據。在對數據庫中的數據進行整理后,通過圖注意力網絡來學習其中實體和關系的復雜模式,然后使用訓練好的網絡對其他實體節點進行分類,并對可能存在的關系進行預測、識別與添加,最后整合為可檢索的知識圖譜。對上個步驟中得到的實體與關系進行運用,在知識圖譜中檢索對應的足球鞋數據并以圖的形式進行發散,作為設計方案生成的參考與依據。
4)根據知識圖譜發散的結果生成滿足設計要求的足球鞋方案。首先選用需要選擇一個預訓練的GPT模型為基礎,然后將上一步驟知識圖譜發散的結果作為知識庫對GPT模型進行微調,并用微調后的模型生成足球鞋設計方案,包括產品概述、設計理念、產品規格、技術方案、成本預算、市場推廣計劃,以及風險評估和應對策略。隨后,以設計師的草圖作為基準圖,根據文本方案,并利用文本到圖像擴散模型(eDiff-I)生成產品的設計概念圖。
5)利用深度多模態設計評估模型對生成的產品設計方案進行評估。首先爬取網絡商城和足球鞋論壇上使用者對不同足球鞋的評論,然后對評論信息數據進行清洗與預處理,構建足球鞋評估反饋數據集。然后使用構建的數據集對在ImageNet上預訓練的ResNet-50模型進行訓練,并使用數據集微調后的BERT模型來分析文本產品描述,對產品可行性與市場潛力進行評估,兩部分通過自注意力模塊進行特征融合。將上個步驟生成的產品方案與概念圖放入評估模型中,給出足球鞋設計方案的可行性分析與市場分析并綜合所有評估結果對其進行打分。設計師可以根據評估結果修改輸入的設計要求,重復步驟二至步驟四,迭代生成新的設計方案。

圖6 足球鞋數據庫
通過對比實驗來驗證本文提出的、基于圖文多模態融合推理的產品創新方案設計方法相比于傳統的單一模態方法的有效性和優越性。實驗過程針對同一設計任務設置了三組實驗:(1)采用本文的圖文多模態融合推理方法生成足球鞋設計方案;(2)僅利用自然語言處理技術生成足球鞋設計方案;(3)僅利用圖像處理技術生成足球鞋設計方案。如圖7所示,最直觀地通過比較上述三種方法所生成的足球鞋產品概念圖,可以發現僅基于利用自然語言處理技術生成的足球鞋設計方案雖然包括了文本中設計要求的元素,但龍年限定的特點并沒有按照設計師所設想的以鞋身側面的龍圖案進行表達。而僅用圖像處理技術生成的足球鞋設計方案由于圖像信息的模糊性導致生成的產品概念圖完全偏離設計師的設計要求。相比之下,圖文多模態融合推理方法能夠更好地捕捉和融合來自圖像和文本的信息,并生成更貼合設計需求的創新方案,而且在設計效率和用戶滿意度等方面也表現出明顯的優勢。
總而言之,基于圖文多模態的產品創新方案設計流程不僅包括了從初始想法到具體設計方案的生成,還涵蓋了對設計方案的全面評估和優化,在確保設計可實現性的同時,滿足市場需求。通過這種綜合性和系統性的設計流程,可以為產品設計領域帶來新的變革,使得設計過程更加智能化、高效化,同時也更加貼近用戶和市場的真實需求。這種流程有望推動產品設計領域向更高水平的發展,為創新設計提供強有力的技術支持。

圖7 本文方法與傳統單一模態方法的對比
本研究提出了基于圖文多模態融合推理的產品創新方案設計流程,通過結合圖像和文本的多模態知識,利用最新的深度學習技術,包括圖像描述生成模型、設計概念知識圖譜、圖注意力網絡、生成式預訓練變換器模型、擴散模型,以及深度多模態設計評估模型,構成了一個完整的產品創新設計流程,涵蓋產品設計從概念生成到最終評估的全過程,解決了當前在深度學習輔助的產品設計領域中出現的創新性和可實現性方面的問題,使生成的設計方案既新穎又可行。這一方法不僅提高了設計的效率和靈活性,還為設計師提供了豐富的創新靈感和視角。基于圖文多模態的產品創新方案設計方法為產品設計領域帶來了新的思維方式和工具。這種方法不僅使設計過程更加智能化和高效,還增強了設計方案的創新性和市場競爭力。隨著深度學習和多模態數據融合方法的不斷發展,未來這種方法將在設計領域發揮更大的作用,推動設計實踐的進一步革新。
[1] VISWANATHAN V, TOMKO M, LINSEY J. A Study on the Effects of Example Familiarity and Modality on Design Fixation[J]. Artificial Intelligence for Engineering Design And Manufacturing, 2016, 30(2): 171-184.
[2] JIN X, DONG H. New Design Heuristics in the Digital Era[C]// Proceedings of the Design Society: Design Conference. Cambridge: Cambridge University Press, 2020: 607-616.
[3] DELDIN J M, SCHUKNECHT M. The AskNature Database: Enabling Solutions in Biomimetic Design[M]. London: Springer London, 2013: 17-27.
[4] LUO J. Data-driven Innovation: What is It?[J]. IEEE Transactions on Engineering Management, 2022, 70(2): 784-790.
[5] LUO J, SARICA S, WOOD K L. Guiding Data-driven Design Ideation by Knowledge Distance[J]. Knowledge-based Systems, 2021, 218: 106873.
[6] CHAKRABARTI A, SHEA K, STONES R, et al. Computer-based Design Synthesis Research: An Overview [J]. Journal of Computer Information Science and Engineering, 2011, 11(2): 021003.
[7] DOSOVITSKIY A, TOBIAS S J, BROX T. Learning to Generate Chairs with Convolutional Neural Networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2015: 1538-1546.
[8] YUAN C, MOGHADDAM M. Attribute-aware Generative Design with Generative Adversarial Networks[J]. IEEE Access, 2020, 8: 190710-190721.
[9] OH S, JUNG Y, LEE I, et al. Design Automation by Integrating Generative Adversarial Networks and Topology Optimization[C]// ASME International Design Engineering Technical Conferences and Computers and Information in Engineering Conference. Berlin: ASME, 2018: 51753.
[10] BRISCO R, HAY L, DHAMI S. Exploring the Role of Text-to-image AI in Concept Generation[C]// Proceedings of the Design Society. London: Design Society, 2023: 1835-1844.
[11] ZHU Q, ZHANG X, LUO J. Biologically Inspired Design Concept Generation Using Generative Pre-trained Transformers[J]. Journal of Mechanical Design, 2023, 145(4): 041409.
[12] CAI A, RICK S R, HEYMAN J L, et al. DesignAID: Using Generative AI and Semantic Diversity for Design Inspiration[C]// Proceedings of the ACM Collective Intelligence Conference. Delft: ACM, 2023: 1-11.
[13] LEE Y H, CHIU C Y. The Impact of AI Text-to-image Generator on Product Styling Design[C]// International Conference on Human-computer Interaction. Cham: Springer Nature Switzerland, 2023: 502-515.
[14] 鄧正根, 呂健, 劉翔, 等. 基于StyleGAN的草圖生成產品設計效果圖方法研究[J]. 包裝工程, 2023, 44(6): 188-195.DENG Z, LYU J, LIU X, et al. StyleGAN-based Sketch Generation Method for Product Design Renderings[J]. Packaging Engineering, 2023, 44(6): 188-195.
[15] ZHU Q, LUO J. Generative Pre-trained Transformer for Design Concept Generation: an Exploration[C]// Procee-dings of the Design Society. London: Design Society, 2022: 1825-1834.
[16] ZHU Q, LUO J. Generative Transformers for Design Concept Generation[J]. Journal of Computing and Information Science in Engineering, 2023, 23(4): 041003.
[17] VERMA G, BV S, SHARMA S, et al. Generating Need-adapted Multimodal Fragments[C]// Proceedings of the 25th International Conference on Intelligent User Interfaces. Cagliari: ACM, 2020: 335-346.
[18] WU M, GOODMAN N. Multimodal Generative Models for Scalable Weakly-supervised Learning[J]. Advances inNeural Information Processing Systems, 2018, 31: 21-43.
[19] LAO M, GUO Y, PU N, et al. Multi-stage Hybrid Embedding Fusion Network for Visual Question Answering[J]. Neurocomputing, 2021, 423: 541-550.
[20] VELICKOVIC P, CUCURULL G, CASANOVA A, et al. Graph Attention Networks[J]. STAT, 2017, 10(20): 10-48.
[21] JIN Z, SHEN X, LI B, et al. Training-free Diffusion Model Adaptation for Variable-sized Text-to-image Synthesis [J]. Advances in Neural Information Processing Systems, 2024, 36:31-49.
[22] YUAN C. Deep Neural Network Architectures for User- centered Design Concept Generation and Evaluation[D]. Shenyang: Northeastern University, 2022.
Innovative Product Design Schemes Based on Image-text Multi-modal Fusion Reasoning
MA Jin1a, FAN Minghao1a, MA Liangshan2, HU Jie1b*
(1. a. School of Sensing Science and Technology b. School of Design, Shanghai Jiao Tong University, Shanghai 200240, China; 2. Shanghai China Software Computer Systems Engineering Co., Ltd., Shanghai 200001, China)
The work aims to propose a novel multi-modal process which integrates both image and text elements for innovative product design to address the issue of insufficient innovation and feasibility in product design schemes within the field of AI-assisted product design. The work begins with preprocessing the designer's sketches and textual requirements, followed by the incorporation of a product design knowledge graph to facilitate divergent thinking and innovation. Subsequently, a fine-tuned generative pre-trained Transformer model and a diffusion model were employed to generate product schemes and their conceptual diagrams. Finally, a deep multi-modal design assessment model was adopted to evaluate the feasibility and market potential of the product design schemes. The results indicated that the introduction of the product design knowledge graph and the deep multi-modal design assessment model enabled the generation of innovative product schemes that also possessed feasibility. In conclusion, this multi-modal approach to innovative product scheme design, leveraging cutting-edge AI and deep learning technologies, not only enhances design efficiency but also provides designers with a broader perspective for innovation and inspiration sources.
multi-modal image and text; deep generative models; knowledge graph; innovative product design
TB472
A
1001-3563(2024)08-0021-08
10.19554/j.cnki.1001-3563.2024.08.003
2023-11-10
國家自然科學基金面上(52375254);上海交通大學醫工交叉項目(21X010301670)
通信作者