郭宇軒,孫 林
(大連工業(yè)大學(xué) 服裝學(xué)院, 遼寧 大連 116034)
服裝效果圖是服裝設(shè)計(jì)中的重要環(huán)節(jié),設(shè)計(jì)師通過服裝效果圖表現(xiàn)服裝款式、色彩以及材料,為后續(xù)成衣生產(chǎn)提供形象依據(jù)和設(shè)計(jì)方案[1]。互聯(lián)網(wǎng)電商與快時(shí)尚產(chǎn)業(yè)的發(fā)展加速了時(shí)尚產(chǎn)品的迭代[2],消費(fèi)者對個(gè)性化設(shè)計(jì)的需求增加,設(shè)計(jì)環(huán)節(jié)需要提高效率以適應(yīng)快節(jié)奏的服裝生產(chǎn)周期。傳統(tǒng)的服裝效果圖繪制主要依賴設(shè)計(jì)師的設(shè)計(jì)靈感、個(gè)人審美和繪畫技術(shù),設(shè)計(jì)師常使用畫筆或Photoshop等計(jì)算機(jī)軟件進(jìn)行人工繪制,需要消耗大量精力,導(dǎo)致出現(xiàn)設(shè)計(jì)方案片面、設(shè)計(jì)風(fēng)格固化以及創(chuàng)意靈感匱乏等問題。
機(jī)器學(xué)習(xí)與深度學(xué)習(xí)算法在圖像生成領(lǐng)域的應(yīng)用為設(shè)計(jì)的智能化提供新的思考維度,生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks, GAN)算法及其衍生網(wǎng)絡(luò)給予設(shè)計(jì)提供新的途徑,在汽車造型設(shè)計(jì)[3]、迷彩圖案設(shè)計(jì)[4]以及服裝款式搭配[5]等領(lǐng)域均有應(yīng)用。在服裝設(shè)計(jì)領(lǐng)域,Wu等[6]提出的ClothGAN模型可生成帶有敦煌元素的時(shí)尚服裝;Tirtawan[7]提出的條件生成對抗網(wǎng)絡(luò)(Conditional Generative Adversarial Networks, CGAN)能夠生成蠟染圖案服裝;Ping等[8]提出了一種用于編輯上衣的衣領(lǐng)、袖長等屬性的Fashion-AttGAN算法;任雨佳等[9]使用深度卷積對抗網(wǎng)絡(luò)(Deep Convolutional Generative Adversarial Networks, DCGAN)進(jìn)行小黑裙的款式設(shè)計(jì),提出了服裝款式個(gè)性化設(shè)計(jì)的方法。通過優(yōu)化算法能夠提高GAN模型的性能,王文靖等[10]對GAN系列模型的改進(jìn)提高了生成服裝圖片的質(zhì)量;Makkapati等[11]引入的對稱損失優(yōu)化 GAN 模型減少了訓(xùn)練時(shí)間。目前圖像生成領(lǐng)域更加注重高分辨率圖像生成,在圖像質(zhì)量提高的同時(shí)也增加了模型訓(xùn)練時(shí)間和訓(xùn)練難度[12]。
相較于深度置信網(wǎng)絡(luò)(Deep Belief Networks,DBN)、變分編碼器(Variational Auto-Encoder, VAE),GAN模型生成圖像質(zhì)量更高,生成數(shù)據(jù)更加多樣[13]。DCGAN在GAN的基礎(chǔ)上進(jìn)行改進(jìn),能夠更好地捕捉圖像特征,相比于生成高清圖像的StyleGAN模型,DCGAN的硬件要求與訓(xùn)練時(shí)間成本低,圖像生成效率高[14]。服裝效果圖生成的任務(wù)重點(diǎn)是提取服裝特征并快速表現(xiàn)服裝色彩、款式以及人體,DCGAN模型可以較好平衡模型訓(xùn)練時(shí)間與圖像質(zhì)量的關(guān)系,其隱含空間(Latent Space)效應(yīng)能大大豐富生成設(shè)計(jì)的多樣性,適合執(zhí)行快時(shí)尚類服裝效果圖生成任務(wù)。
本文提出一種基于DCGAN模型生成服裝效果圖的設(shè)計(jì)方法,通過整理時(shí)尚秀場數(shù)據(jù)集,調(diào)整和訓(xùn)練DCGAN模型提取服裝色彩和款式特征,快速生成符合流行趨勢的服裝效果圖供設(shè)計(jì)師參考,以期為服裝設(shè)計(jì)的智能化與自動(dòng)化提供新的途徑。
GAN是2014年由Goodfellow等[15]提出的一種深度生成模型,網(wǎng)絡(luò)結(jié)構(gòu)由生成器(Generator)和判別器(Discriminator)構(gòu)成。生成器通過學(xué)習(xí)真實(shí)圖片生成假圖片,判別器的目的是判斷輸入數(shù)據(jù)是來自真實(shí)數(shù)據(jù)分布還是來自生成器數(shù)據(jù)的分布,通過生成器與判別器相互博弈,最終生成器能生成出判別器判斷不出真假的圖像。GAN的目標(biāo)函數(shù)定義為:
[logD(x)]+Ez~pz(z)[log(1-D(G(z)))]
式中:G表示生成器;D表示判別器;E表示期望值;V表示最大化2項(xiàng)之和;p表示概率分布;z表示輸入服從正態(tài)分布的隨機(jī)向量;x表示真實(shí)圖片分布中的隨樣本;D(x)表示判別器判別輸入真實(shí)圖像為真的概率;D(G(z))表示判別器判別生成圖像為真的概率。
2016年Radford等[16]在GAN的基礎(chǔ)上提出DCGAN,DCGAN成功將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)模型嵌入到 GAN 模型中。CNN可以更有效提取圖像特征,提升模型生成圖像的表達(dá)能力。以大量特定形態(tài)的現(xiàn)實(shí)圖像作為訓(xùn)練數(shù)據(jù)時(shí),DCGAN可以從大批量無標(biāo)記的產(chǎn)品圖像中學(xué)習(xí)到良好的中間特征,生成與真實(shí)產(chǎn)品具有相似特征的圖像,從而衍生出新的設(shè)計(jì)方案[17]。DCGAN的隱含空間效應(yīng)能使1張生成圖像平滑地過渡成為另1張生成圖像。在模型生成圖像的過程中,2張生成圖片間的過渡狀態(tài)有可能將不同的服裝色彩與款式映射在同一張生成圖片中,形成原創(chuàng)的服裝設(shè)計(jì),因此本文選擇DCGAN模型進(jìn)行服裝效果圖生成實(shí)驗(yàn)。
根據(jù)任務(wù)目標(biāo)與實(shí)驗(yàn)流程構(gòu)建如圖1所示的服裝效果圖生成任務(wù)系統(tǒng)框架,整個(gè)系統(tǒng)框架包括數(shù)據(jù)集構(gòu)建、模型訓(xùn)練、圖像評價(jià)和交互設(shè)計(jì)4個(gè)部分。

圖1 服裝效果圖生成任務(wù)系統(tǒng)框架Fig.1 Effect drawing generation task system framework
首先,對近年來自巴黎、米蘭、倫敦、紐約的時(shí)裝周秀場圖片進(jìn)行預(yù)處理與篩選后作為訓(xùn)練數(shù)據(jù)集訓(xùn)練DCGAN模型。模型訓(xùn)練開始前需要對原始DCGAN模型進(jìn)行調(diào)整,在保留原有CNN模型的同時(shí)調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),提高生成圖像分辨率,模型開始訓(xùn)練后由生成器提取新的服裝效果圖設(shè)計(jì)方案。圖像評價(jià)由設(shè)計(jì)師完成,通過對生成圖片進(jìn)行主觀篩選,評估模型生成圖片效率和設(shè)計(jì)師滿意度,設(shè)計(jì)師對生成圖像的滿意度是生成質(zhì)量的重要參考標(biāo)準(zhǔn)。最后,設(shè)計(jì)師可以根據(jù)實(shí)際情況對生成圖片進(jìn)行主觀調(diào)整和優(yōu)化,通過交互設(shè)計(jì)的方式獲得最終服裝效果圖。
選擇2018—2023年巴黎、米蘭、倫敦、紐約時(shí)裝周的女裝秀場圖片作為訓(xùn)練數(shù)據(jù)來源,為保證生成圖片人體特征的統(tǒng)一性,只選取秀場走姿模特圖片作為訓(xùn)練集,手動(dòng)去除站姿、棚拍、藝術(shù)大片等圖片,保證訓(xùn)練數(shù)據(jù)集具有較為統(tǒng)一的模特姿態(tài)。數(shù)據(jù)集并未通過人體邊緣檢測去除模特背景,意在保留服裝和背景的整體協(xié)調(diào)性。訓(xùn)練開始前將所有數(shù)據(jù)集圖片進(jìn)行批量化預(yù)處理,獲得42 287張分辨率為445×445的秀場圖像,數(shù)據(jù)集部分樣本如圖2所示,由于預(yù)處理后圖片比例縱向壓縮,因此生成圖像需要統(tǒng)一調(diào)整回正常比例。

圖2 時(shí)尚秀場數(shù)據(jù)集部分樣本Fig.2 Part sample of the fashion show dataset
DCGAN在GAN網(wǎng)絡(luò)的基礎(chǔ)上加入了CNN結(jié)構(gòu),生成器和判別器舍棄了CNN的池化層(pooling),判別器保留CNN的整體架構(gòu),由4個(gè)卷積層(Conv)和1個(gè)全連接層構(gòu)成,全連接層使用Sigmoid函數(shù)作為激活函數(shù),生成器則是將卷積層替換成了轉(zhuǎn)置卷積(ConvTranspose),通過輸入100維的隨機(jī)正態(tài)分布向量合成3通道彩色圖像,輸出層使用 Tanh 激活函數(shù)。生成器和判別器網(wǎng)絡(luò)結(jié)構(gòu)中均加入批量標(biāo)準(zhǔn)化層(BatchNormalization),使得網(wǎng)絡(luò)更容易訓(xùn)練。
經(jīng)典DCGAN卷積神經(jīng)網(wǎng)絡(luò)輸出的圖像分辨率為64×64,由于較低的分辨率會(huì)導(dǎo)致生成圖像細(xì)節(jié)模糊,因此需要調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)提高生成圖像的分辨率,同時(shí)保證真實(shí)圖像的特征仍然能夠被模型學(xué)習(xí)和提取。經(jīng)典DCGAN卷積神經(jīng)網(wǎng)絡(luò)的卷積核(Kernel size)大小為 5×5,步長(Stride)大小為 2,本文方法主要修改生成器和判別器網(wǎng)絡(luò),通過增加1層卷積,并調(diào)整卷積核和步長以提高生成圖像分辨率;卷積層考慮卷積核的大小能被步長整除,減少生成圖像中存在的棋盤狀偽影;生成器網(wǎng)絡(luò)結(jié)構(gòu)中使用卷積核4×4、步長為2,卷積核4×4、步長為1以及卷積核6×6、步長為3的3種轉(zhuǎn)置卷積,生成分辨率為445×445的圖像;為配合生成器,判別器網(wǎng)絡(luò)結(jié)構(gòu)需要做出相應(yīng)調(diào)整,調(diào)整后的生成器與判別器網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

圖3 調(diào)整后的生成器與判別器結(jié)構(gòu)Fig.3 Modified Generator and Discriminator structure
本文實(shí)驗(yàn)使用的編譯語言為Python,Python解釋器使用PyCharm,以 Pytorch作為深度學(xué)習(xí)框架。硬件環(huán)境:顯卡型號 NVIDIA GeForce RTX 3080 Laptop GPU,CPU型號為 11th Gen Intel(R) Core(TM) i7-11800H @ 2.30GHz,顯存大小16 G,內(nèi)存大小16 G。
通過多次參數(shù)調(diào)整和生成實(shí)驗(yàn)發(fā)現(xiàn),隨著訓(xùn)練次數(shù)不斷增加,圖像由最初的噪聲逐漸出現(xiàn)人形輪廓和色塊,在訓(xùn)練60輪(Epoch)后出現(xiàn)可以初步辨認(rèn)的模特著裝圖像,但仍存在大量噪聲。隨著訓(xùn)練次數(shù)增加,扭曲模糊圖案減少,背景與人物過渡較為和諧,訓(xùn)練進(jìn)行至100個(gè)Epoch后服裝輪廓與人體姿態(tài)較為清晰,200個(gè)Epoch后圖像質(zhì)量逐漸穩(wěn)定。實(shí)驗(yàn)發(fā)現(xiàn)由于不同的訓(xùn)練參數(shù)設(shè)置,訓(xùn)練可能出現(xiàn)模型坍塌,生成全部為噪聲的圖像,雖然繼續(xù)訓(xùn)練可能重新出現(xiàn)服裝圖像,但款式重復(fù)單一,效果較差。經(jīng)過多次實(shí)驗(yàn),綜合考慮訓(xùn)練穩(wěn)定與硬件限制,選擇訓(xùn)練600個(gè)Epoch未出現(xiàn)坍塌的模型參數(shù),學(xué)習(xí)率設(shè)置為0.000 3,訓(xùn)練過程中保存生成器生成的偽圖像作為服裝效果圖的備選方案。
數(shù)據(jù)集預(yù)處理時(shí)將圖片比例調(diào)整為1∶1,因此模型生成服裝效果圖的人體比例也同樣被壓縮,需要將生成圖像重新調(diào)整回原始圖像比例,調(diào)整后生成的部分服裝效果圖如圖4所示。大部分生成圖像對于人體的姿態(tài)特征表現(xiàn)相對精確,畫面呈現(xiàn)類似水彩技法的效果圖表現(xiàn)方式,背景與模特有較強(qiáng)的區(qū)分,生成圖像能夠較好地表現(xiàn)富有垂感的面料與薄紗面料,部分生成圖像能夠形成面料肌理。生成服裝效果圖的服裝廓形與色彩豐富且基本符合現(xiàn)代服裝審美,能夠減少設(shè)計(jì)師在服裝款式與配色上的實(shí)驗(yàn)負(fù)擔(dān)。雖然生成的服裝模特臉部五官與手并不完美,但不影響效果圖的整體表現(xiàn)力。

圖4 DCGAN模型生成的部分服裝效果圖Fig.4 Part of effect drawing generated by DCGAN model
生成圖像中存在隱含空間效應(yīng),效果圖平滑轉(zhuǎn)變?yōu)榱硪粡埿Ч麍D的中間狀態(tài)仍然被生成和保存,如圖5所示,過渡狀態(tài)形成的具有混合特征的圖像呈現(xiàn)出新的色彩搭配、服裝廓形和背景圖案。生成圖像中存在的不規(guī)則、扭曲、色彩混沌等服裝形態(tài)在正常情況下應(yīng)視為不合格,但對于設(shè)計(jì)師而言,部分不規(guī)則圖像能夠提供創(chuàng)意靈感啟發(fā)設(shè)計(jì),仍然具有參考價(jià)值。

圖5 生成圖像隱含空間效應(yīng)Fig.5 Latent space of the generated image
模型訓(xùn)練過程中生成效果圖的款式與色彩存在隨機(jī)性和多樣性,由于生成圖像最終服務(wù)于設(shè)計(jì)師,因此需要服裝設(shè)計(jì)師對生成圖像進(jìn)行評價(jià)。有效生成圖像標(biāo)準(zhǔn)為服裝模特形體較完整,服裝款式與色彩符合當(dāng)下流行趨勢,并且能夠啟發(fā)設(shè)計(jì)師的設(shè)計(jì)靈感,輔助設(shè)計(jì)師完成設(shè)計(jì)表達(dá)。通過計(jì)算有效生成圖像的占比,驗(yàn)證本文調(diào)整的DCGAN模型是否能夠高效生成可供參考的有效服裝效果圖。
模型訓(xùn)練過程中每個(gè)Epoch訓(xùn)練時(shí)間約為536 s,每個(gè)Epoch訓(xùn)練生成704張效果圖,模型訓(xùn)練過程中能夠較為迅速的生成大量效果圖作為備選圖像。從模型訓(xùn)練0~300 Epoch中每間隔25個(gè)Epoch隨機(jī)抽取36張款式不重復(fù)的生成服裝效果圖作為評估樣本。評估人員由7名受過服裝設(shè)計(jì)系統(tǒng)訓(xùn)練的服裝設(shè)計(jì)師組成,其中男性3人,女性4人。設(shè)計(jì)師根據(jù)評價(jià)標(biāo)準(zhǔn)選擇出具有設(shè)計(jì)參考價(jià)值的有效圖像,統(tǒng)計(jì)結(jié)果去除選擇有效圖像數(shù)量最多和最少的2位設(shè)計(jì)師的極端數(shù)據(jù),保留5位設(shè)計(jì)師的評價(jià)結(jié)果。每個(gè)Epoch有效圖像比例為5位設(shè)計(jì)師選擇有效圖像數(shù)量平均值與評估樣本量的比,統(tǒng)計(jì)結(jié)果如表1所示。

表1 有效生成圖像調(diào)查表Tab.1 Effectively generate image surveys
由表1可知生成圖像在0~75 Epoch中圖像質(zhì)量不斷上升,75~200 Epoch由于模型訓(xùn)練波動(dòng)導(dǎo)致生成圖片質(zhì)量不穩(wěn)定,225個(gè)Epoch后有效圖片占比基本穩(wěn)定在50%以上,說明本文模型在訓(xùn)練穩(wěn)定后生成的大量服裝效果圖中,超過半數(shù)的圖像符合設(shè)計(jì)師的預(yù)期效果,為設(shè)計(jì)師提供多樣化的服裝款式和色彩設(shè)計(jì)參考,提高服裝設(shè)計(jì)的效率。
通過實(shí)驗(yàn)發(fā)現(xiàn),DCGAN模型能夠迅速學(xué)習(xí)秀場服裝的色彩和款式生成服裝效果圖,節(jié)約服裝設(shè)計(jì)師調(diào)研流行趨勢和搜集靈感的時(shí)間,但由于生成圖像分辨率和模型精度限制,服裝結(jié)構(gòu)細(xì)節(jié)需要設(shè)計(jì)師根據(jù)實(shí)際設(shè)計(jì)要求進(jìn)行調(diào)整,在原始生成圖像上進(jìn)一步細(xì)化和明確,并根據(jù)生成圖像提取服裝款式與色彩,通過人機(jī)交互的方式形成設(shè)計(jì)方案,如圖6所示。在生成圖像保留流行趨勢的同時(shí)加入設(shè)計(jì)師對于設(shè)計(jì)的理解,以設(shè)計(jì)師主導(dǎo)最終設(shè)計(jì)結(jié)果,可將DCGAN模型作為服裝效果圖輔助設(shè)計(jì)的新工具。

圖6 人機(jī)交互設(shè)計(jì)流程Fig.6 Interactive design process
通過整理時(shí)尚秀場數(shù)據(jù)集,利用Pytorch深度學(xué)習(xí)框架,基于生成對抗網(wǎng)絡(luò)GAN調(diào)整和訓(xùn)練深度卷積對抗網(wǎng)絡(luò)DCGAN模型,并將其用于提取服裝色彩和款式特征,最后進(jìn)行服裝效果圖的生成實(shí)驗(yàn)和設(shè)計(jì)師評價(jià)。結(jié)果表明:通過調(diào)整的DCGAN模型進(jìn)行訓(xùn)練后能夠快速生成符合流行趨勢的服裝效果圖,超過半數(shù)的生成圖像符合設(shè)計(jì)師的預(yù)期效果,可為服裝設(shè)計(jì)師提供靈感,提高設(shè)計(jì)效率。后續(xù)研究主要集中在訓(xùn)練數(shù)據(jù)集模特姿態(tài)與服裝背景對生成圖像的影響以及改進(jìn)和優(yōu)化生成對抗網(wǎng)絡(luò),提高生成設(shè)計(jì)方案的多樣性與圖像質(zhì)量。未來服裝企業(yè)可以根據(jù)設(shè)計(jì)目標(biāo)和生產(chǎn)需求架構(gòu)個(gè)性化的人工智能系統(tǒng)以提高設(shè)計(jì)效率,為消費(fèi)者提供給更加多樣化的時(shí)尚服裝產(chǎn)品。