999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DCGAN的手寫漢字圖像生成研究

2024-01-08 12:13:54孟先新李俊偉韓立偉朱永萍
現代計算機 2023年20期
關鍵詞:實驗模型

孟先新,李俊偉,韓立偉,朱永萍

(華北水利水電大學信息工程學院,鄭州 450046)

0 引言

漢字作為一種獨特的文字,數量眾多且具有豐富的文字結構特征。另外,由于人們書寫習慣的差異,要實現手寫漢字的識別就需要大量豐富的數據。當前,在計算機視覺領域,生成具有真實視覺效果的圖像已成為研究的熱點之一[1]。隨著深度學習的發展,圖像識別研究取得了許多顯著的成果,識別準確度已經相當高。然而,在實現圖像識別的過程中離不開預處理這一前提步驟,但在實驗數據量不足的情況下預處理遠遠達不到預期的效果。若通過生成圖像技術進行數據增強,生成具有與原數據相同特征規律的實驗數據,則可以解決樣本不足的問題。

目前的圖像生成研究主要是采用基于對抗生成網絡(GAN)的思想[2],該方法通過判別器(discriminator)和生成器(generator)之間的對抗博弈,去實現圖像數據內在特征分布規律的平衡。在GAN 模型中,深度卷積網絡(deep convolutional neural network)和深度反卷積網絡(deep transpose convolutional neural network)被用作判別器和生成器,就形成了深度卷積生成對抗網絡(DCGAN)。本文研究基于DCGAN 構建了手寫漢字圖像的生成模型,并在HWDB1.1 數據集上進行了測試。實驗結果表明,該模型能夠生成具有良好視覺效果的手寫漢字圖像。

1 GAN模型

生成對抗網絡(GAN)[3]的核心結構由生成器G(generator)和判別器D(discriminator)組成。GAN 模型的訓練過程是通過兩者之間的對抗博弈實現的:在給定輸入樣本的情況下,生成器G試圖生成逼真的樣本,而判別器D則努力區分生成器生成的樣本和真實樣本,以達到最大的分辨能力。通過不斷迭代訓練,期望生成器G能夠生成與真實樣本難以區分的高質量樣本,使判別器D無法準確區分生成樣本和真實樣本。

生成器是一種神經網絡結構,它的輸入通常是從隨機分布(如高斯分布或均勻分布)中采樣得到的噪聲。生成器的訓練目標是通過生成樣本,在后續的判別階段能夠獲得更高的概率。判別器則可以采用任意神經網絡結構,它的輸入是待判別的樣本。判別器的訓練目標是能夠準確地區分生成樣本和真實樣本,并給予它們相應的概率(通常是二分類問題)。在訓練過程中,生成器和判別器兩個網絡交替進行訓練,相互博弈并逐漸提高其能力。這種對抗訓練的機制可以通過不斷調整生成器和判別器的參數來使二者的性能同步提高,最終實現更好的生成樣本效果。如圖1所示。

圖1 GAN訓練過程

GAN 訓練過程是一個min-max 問題的求解,對應的目標函數如式(1)所示:

以上目標函數是有全局最優解的:當且僅當PG=Pdata時,

在交替優化的過程中,通常會對判別器D進行多輪優化,而對生成器G 只進行一輪優化。這樣的設計是基于一個重要的觀察:通過多輪優化判別器D,可以使其更加準確地區分生成樣本和真實樣本,提高判別器的判別能力。當判別器能夠更好地區分真實樣本和生成樣本時,它能夠給予生成樣本更低的概率,從而提供更準確的反饋信號給生成器G。然而,如果對生成器G進行多輪優化,可能會導致生成器過度擬合判別器,降低了生成樣本的多樣性和質量。因此,通過只對生成器G進行一輪優化,可以避免這種情況發生,保持生成器的多樣性和創造力。

2 DCGAN模型結構

深度卷積生成對抗網絡(DCGAN)是對抗生成網絡(GAN)的一種變體。按照理論上的描述,一個對抗生成網絡由兩個多層神經網絡模型組成:生成模型(generative model)和判別模型(discriminative model)。生成模型,也稱為生成器,用符號G 表示,其作用是生成類似于真實數據分布的合成數據;判別模型,也稱為判別器,用符號D 表示,用于區分輸入數據是來自生成器產生的合成數據還是真實數據。

對抗生成網絡的訓練過程旨在使生成器產生的合成數據盡可能逼近真實數據的分布,并且使判別器能夠準確地區分合成數據和真實數據。其目標是使生成器生成的數據足夠逼真,以至于判別器將合成數據和真實數據的判別概率都趨近于0.5。因此,DCGAN 作為一種對抗生成網絡的變體,在訓練過程中通過生成器和判別器之間的對抗博弈,致力于提高生成器合成數據的質量,以及判別器對真實與合成數據的準確判別能力。

DCGAN[4]的基本思想是通過使用卷積神經網絡替代傳統的多層神經網絡,以生成盡可能逼近真實圖像的合成圖像。DCGAN 具有以下特點:①判別器用卷積層代替池化層,生成器用反卷積產生仿真圖像;②除了生成器的輸出層和判別器的輸入層外,網絡其他層都使用Batch Normalization;③生成器和判別器均無全連接層;④生成器的輸出層使用Tanh 激活函數,其他層使用ReLU 激活函數;⑤判別器使用Leaky ReLU激活函數。

一個DCGAN 的生成器結構如圖2 所示,判別器結構與生成器結構相反,如圖3所示。

圖2 DCGAN生成器結構

圖3 DCGAN判別器結構

生成器的主要目標是將輸入向量z映射到真實數據空間。如果數據是圖像,那么生成器需要將輸入向量z轉換為圖像。為了實現這一目標,生成器使用一系列的二維轉置卷積(反卷積)操作,并在每個轉置卷積之后添加二維批歸一化層(batch norm)和ReLU 激活函數層。具體而言,生成器通過一系列的轉置卷積操作逐漸將輸入向量z轉化為與真實圖像具有相似特征的輸出圖像。每個轉置卷積操作后都會應用二維批歸一化層來提高模型的訓練穩定性,并通過ReLU 激活函數層引入非線性特征。最后,為了確保生成器的輸出范圍在[-1,1]之間,通常會將輸出連接到Tanh 函數。這樣的設計使得生成器能夠學習到將輸入向量映射為逼真圖像的能力,并保證生成的圖像具有適當的范圍和質量。

判別器是一種二元分類器,用于評估輸入圖像的真實性,并輸出圖像為真實圖像的概率。判別器接受3×64×64 尺寸的圖像作為輸入,經過一系列的卷積層、批歸一化層(BN 層)、Leaky ReLU 層的處理,最后通過Sigmoid 激活函數輸出圖像為真實圖像的概率。判別器的具體結構可以根據實際情況進行調整。在判別器的結構中,Strided 卷積層、BN 層和Leaky ReLU 層是常用的組件,它們被廣泛應用于提升判別器的性能和穩定性。DCGAN[5]的研究指出,相較于傳統的池化層,Strided 卷積層在下采樣方面表現更出色。使用Strided 卷積層可以使網絡學習到自身的下采樣函數,而不是依賴于固定的池化函數。此外,BN 層和Leaky ReLU 層的應用可以提高梯度傳播的效率,對判別器和生成器的學習過程有著積極的幫助。

3 手寫漢字圖像生成模型結構

根據對DCGAN 模型結構的分析,本文設計了一個用于生成手寫漢字圖像的DCGAN 生成模型,該模型的生成器G的詳細結構見表1。

表1 DCGAN生成器G網絡結構表

生成器G是一個反卷積神經網絡,用于從隨機噪聲中生成圖像[6]。首先,輸入一個100維度的隨機噪聲,然后使用ConvTranspose2d-1進行反卷積操作,輸出為512 通道、4×4 像素大小的特征圖,并對輸出進行批歸一化處理,使用ReLU激活函數進行激活;隨后,使用ConvTranspose2d-4 進行反卷積操作,輸出為256 通道、8×8 像素大小的特征圖,并對輸出進行批歸一化處理,使用ReLU 激活函數進行激活;接下來,使用ConvTranspose2d-7 進行反卷積操作,輸出為128通道、16×16像素大小的特征圖,并對輸出進行批歸一化處理,使用ReLU 激活函數進行激活;然后,使用ConvTranspose2d-10進行反卷積操作,輸出為64通道、32×32像素大小的特征圖,并對輸出進行批歸一化處理,使用ReLU 激活函數進行激活;最后,使用ConvTranspose2d-13 進行反卷積操作,輸出為3 通道、64×64 像素大小的特征圖,并使用Tanh 激活函數對輸出進行激活,將像素值縮放到[-1,1]的范圍內。

通過以上的生成器結構設計,可以將隨機噪聲映射為具有逼真視覺效果的手寫漢字圖像。每一次反卷積操作有助于將隨機噪聲逐步轉換為圖像特征,而批量歸一化處理和ReLU 激活函數的應用則能夠增強模型訓練的穩定性并提高生成圖像的質量。

本文提出的判別器模型D與生成器G基本上呈現互為逆向運算的關系,其具體結構見表2。首先,判別器模型包含一個2D卷積層(Conv2d),輸入圖片大小為64×64×3,使用64 個3×3 卷積核,步長為1,padding 為1。接下來是一個Leaky ReLU 激活函數,其負斜率為0.2,用于激活神經元。隨后,判別器模型又包含一個2D卷積層(Conv2d),使用128 個3×3 卷積核,步長為2,padding 為1。之后,模型應用了Batch Normalization對特征圖進行歸一化處理,以緩解訓練過程中的梯度消失和梯度爆炸問題,并提高模型的穩定性。最后,再次使用LeakyReLU 激活函數進行激活。這個過程不斷重復,隨著步長的逐漸加深卷積核的數量逐漸增加,直到最后一層輸出大小為1×1×1 的特征圖。通過應用Sigmoid 激活函數,將特征圖的值壓縮到[0, 1]的范圍內,表示輸入圖片為真實圖像的概率。

表2 DCGAN判別器D網絡結構表

總的來說,判別器網絡的主要任務是將輸入的圖片判別為真實圖像(1)或生成圖像(0),并輸出對應的概率。通過構建逐層卷積操作和應用適當的激活函數,判別器能夠學習圖像的特征并具備區分真實與生成圖像的能力。判別器模型的設計旨在提高對真實與生成圖像的判別能力,并為生成器提供有效的反饋信號,以促使生成器生成更加逼真的圖像。

4 實驗

本文的實驗旨在探究深度卷積生成對抗網絡在生成手寫體漢字圖像方面的應用。為了探究實驗,采用了中科院平臺提供的手寫漢字圖像數據集HWDB1.1。該數據集包含了來自300人的3755 個常用漢字的手寫圖像。實驗環境是在PyCharm 中的PyTorch 框架下使用CPU 進行的。通過該實驗,旨在驗證深度卷積生成對抗網絡在手寫體漢字圖像生成方面的性能,并評估其生成質量和多樣性。實驗結果將為深入理解手寫體漢字生成的問題提供重要的參考和洞察。

本文的實驗主要分為三個步驟:首先,對備選數據集進行預處理,將HWDB1.1 數據集轉換為PNG 格式并進行標記序號存儲,然后對圖像進行灰度化、歸一化和平滑去噪處理。其次,搭建了生成手寫漢字圖像的網絡模型。本實驗采用了基于深度卷積生成對抗網絡的模型。在模型搭建過程中,主要關注生成器G和判別器D的網絡結構,具體的模型構建可以參考第3節中關于手寫漢字圖像生成模型結構的介紹。在完成網絡模型的搭建后,對輸入的數據集進行預處理和尺寸歸一化操作,設置訓練的超參數、Adam 優化器和二元交叉熵(BCE)損失函數。這些設定將有助于訓練過程的優化和網絡參數的更新。最后,利用搭建好的生成器和判別器模型進行訓練。通過調整參數和數據集,旨在達到更好的生成效果。

本文的實驗內容主要包括兩個方面:一是對3755 個手寫漢字的生成效果進行實驗探究;二是對特定的手寫漢字的生成效果進行研究并提升。通過訓練過程中的參數調整和數據集的使用,期望能夠得到預期的生成效果。

(1)3755個漢字的生成實驗。

通過構建好的手寫漢字生成模型對3755 個漢字進行50 人、100 人的生成實驗,圖4 是50人、100人實驗模型對3755個漢字迭代5次訓練后的生成效果。這兩次實驗的生成效果差,難以主觀識別漢字。

圖4 3755個漢字迭代5次的生成效果

實驗生成效果不佳可能是由多種因素導致的。首先,生成手寫漢字圖像是一項復雜且具有挑戰性的任務,需要模型能夠準確捕捉漢字的結構和細節,并生成逼真的圖像。其次,僅進行5 次迭代可能限制了模型的優化和收斂程度,對生成效果的提升產生了限制。此外,模型的架構和超參數的選擇也可能對生成效果產生影響。雖然此次實驗生成效果不理想,但通過進一步的優化,如增加迭代次數、調整網絡架構和優化超參數,有望提高生成手寫漢字圖像的質量和準確性。

DCGAN 的網絡架構和超參數都是經過多次實驗探究的最佳組合,考慮到上述實驗因硬件CPU 限制,實驗模型進行5 次迭代訓練。因此,可以得出造成上述實驗生成效果不好的原因是實驗模型迭代訓練次數過少。為進一步探究實驗模型并提高模型的生成效果,設計了以下對于特定漢字增加實驗模型訓練迭代次數的生成實驗。

(2)特定漢字的生成實驗。

本次實驗選取300人手寫的“齊”字為數據集,對實驗模型進行1000 次迭代訓練。隨著實驗模型迭代次數的增加得到如圖5所示的生成效果。通過觀察可以發現,生成的“齊”字的效果先變好,之后生成的效果又變差了。結合本次實驗的生成損失函數和判別損失函數的變化趨勢(如圖6所示),可以發現隨著訓練迭代次數的增加生成損失函數值先下降到一定量后趨于穩定收斂,而后振蕩上升,而判別損失函數值則由趨于0的平穩收斂變得波動起伏大的收斂。

圖5 “齊”字300人迭代的生成效果

圖6 “齊”字300人迭代1000次的生成損失函數和判別損失函數變化趨勢

由此可以得出,適當地增加實驗模型的訓練迭代次數可以提高圖像的生成效果,但增加迭代次數超過一定量后實驗模型的生成效果不會變好,反而會變差。

綜上所述,在一定范圍內,適當地增加訓練迭代次數對于DCGAN 模型的生成效果具有增益作用。在實際應用中,需要綜合考慮模型的訓練時間和生成效果,找到最佳的迭代次數,以獲得滿足需求的高質量生成結果。

5 結語

本文對生成對抗網絡(GAN)模型和深度卷積對抗生成網絡(DCGAN)模型的結構進行了研究,并利用PyTorch 深度學習框架設計了一種用于生成手寫漢字圖像的深度卷積對抗生成網絡模型。實驗首先使用了HWDB1.1 數據集中較少人數的漢字圖像進行了較少迭代次數的模型評估訓練;然后又在該數據集中選用特定的漢字全部圖像并增加訓練迭代次數進行進一步的模型優化訓練,獲得了在手寫漢字圖像生成方面具有較好效果的實驗模型。

猜你喜歡
實驗模型
一半模型
記一次有趣的實驗
微型實驗里看“燃燒”
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 久久亚洲天堂| 欧美yw精品日本国产精品| 亚洲欧美h| 国产浮力第一页永久地址 | 伊人色在线视频| av一区二区三区在线观看 | 九九九九热精品视频| 中国一级毛片免费观看| 黄色在线网| 精品国产免费第一区二区三区日韩| 国产精品一线天| 免费一级无码在线网站| 国产精品伦视频观看免费| 久久一本精品久久久ー99| 在线色国产| 国产91线观看| 成人无码区免费视频网站蜜臀| 99久久精品美女高潮喷水| 日日噜噜夜夜狠狠视频| 福利在线免费视频| 亚洲精品无码高潮喷水A| 香蕉伊思人视频| 幺女国产一级毛片| 久久99精品久久久久纯品| 福利一区在线| 国产高清在线观看| 亚洲伊人天堂| 狠狠色狠狠色综合久久第一次| 亚洲人成在线精品| 国产精品片在线观看手机版| 四虎永久在线视频| 中国一级特黄视频| 在线亚洲天堂| 中国一级特黄大片在线观看| 国产69精品久久久久孕妇大杂乱 | 国产特级毛片aaaaaa| 国产玖玖玖精品视频| 日韩免费毛片| 在线免费看片a| AV无码一区二区三区四区| 免费一级毛片| 久久精品嫩草研究院| 天天色天天综合网| 亚洲第一成年网| 亚洲区视频在线观看| 黄色网页在线播放| 大学生久久香蕉国产线观看| 久久semm亚洲国产| 亚洲成A人V欧美综合天堂| V一区无码内射国产| 亚洲天堂啪啪| 国产在线精品99一区不卡| 国产三级成人| 国产日产欧美精品| 无码在线激情片| 在线色综合| 亚洲中文在线视频| 国产亚洲精久久久久久无码AV| 全部免费特黄特色大片视频| 国内老司机精品视频在线播出| 久久毛片网| 97精品久久久大香线焦| 极品尤物av美乳在线观看| 色悠久久综合| 国产一区二区三区在线观看视频 | 中文字幕日韩欧美| 国产一二视频| 91九色最新地址| 亚洲国产av无码综合原创国产| 国产福利微拍精品一区二区| 久久大香伊蕉在人线观看热2| 国模视频一区二区| aⅴ免费在线观看| 欧美国产在线精品17p| 国产成熟女人性满足视频| 制服丝袜一区二区三区在线| 国产成熟女人性满足视频| 亚洲精品第1页| 婷婷伊人久久| 免费精品一区二区h| 国产视频自拍一区| 国产精品福利一区二区久久|