黃錦濤



摘 要 為提高深度學習技術在不同環境中的識別率,本文利用四種生成式對抗網絡生成不同環境的數據,包括模糊和拍攝角度不理想等情形,最后采用卷積神經網絡識別生成數據。實驗表明:四種網絡中循環生成對抗網絡生成的數據效果最好,并且平均識別率達到85%,表明生成對抗網絡模型生成的數據可以用于訓練識別復雜環境下的深度模型,達到了擴充數據的目的。
關鍵詞 生成式對抗網絡;數據增強;車牌識別
前言
車牌識別技術已經在日常環境中的應用日益成熟,但是當天災人禍來臨國家搶險救災時,需要在惡劣復雜的環境下識別救援車輛,根據救援內容對人員和車輛進行調度。所以快速識別車牌對于時間就是生命的救援現場有著重要意義。由于環境的復雜與惡劣性,傳統的識別方法無法有效應用于救災現場的車輛識別,所以如何實現復雜環境下的車牌識別成為一個亟待解決的問題。
傳統車牌識別方法采用特征提取的方法,對圖像先預處理后再經神經網絡進行識別。Li提出了一種無須分割使用深度卷積神經網絡和LSTM進行車牌識別的級聯框架[1]。Gao運用深度神經網絡用于特征提取[2]。為滿足深度學習所需的復雜環境數據集,傳統的擴充數據方法除了人工收集外,還有向原始圖像中添加噪聲、畸變和模糊處理,但是圖像的生成質量卻無法達到深度學習訓練所需的要求,所以本文采用生成對抗網絡擴充數據。
1方法
生成對抗網絡(GAN)通過對抗訓練得到生成模型與判別模型,它可以通過以類標簽為條件生成對應的圖像[3]。GAN主要是由生成器網絡和判別器網絡兩部分網絡構成,通過兩個網絡的博弈,讓生成器網絡最終能夠學習到輸入數據的分布然后輸出數據。生成器網絡接受一個隨機噪聲并生成數據,判別器網絡通過對輸入的真實數據和由生成的假數據進行判斷。通過兩個網絡的互相博弈,最終使整個網絡達到納什均衡。當判別器無法判別真假數據時,此時生成器的輸出接近真實數據。
2實驗結果
2.1 實驗環境與數據
本文的實驗環境為:CPU-2.21GHz,RAM-16GB,顯卡GTX-1070,Tensorflow框架,版本1,12.0和Pycharm編譯環境。將不同的環境下10,000張車牌數據處理成150 * 150像素的RGB圖像,然后數據進行裁剪,最終將其轉換為TF記錄格式,劃分為30個TF記錄文件。
2.2 生成圖像實驗細節
在10000張車牌上訓練GAN,DCGAB、WGAN和CycleGAN模型。原始GAN模型的學習率設為0.0001,每個輪次結束后保存模型,并在200個輪次后停止訓練。訓練DCGAN模型時設置學習率為0.0001,betel為0.5,批量大小為256,保存每個輪次結束后的模型,并在30輪次后停止訓練。輸出尺寸設置為64,生成器的每層網絡結構的輸出分別為:64*64, 32*32, 16*16, 8*8,4*4,判別器中的卷積層的輸出分別為:32*32, 16*16, 8*8, 4*4。訓練WGAN的模型時,dieter設置為0.7,每次梯度更新之后將判別器的參數調整到[-0.01,0.01]。WGAN的學習率為0.0005,批量大小為256。生成器中每層網絡的輸出特征數量為512,256,128,32,判別器中每層網絡特征數量分別為64,128,256,512。設置CycleGAN模型的基礎學習率為0.0002,設置為10.0,betel設置為0.6,設置輪次為300,在每100步后保存訓練模型與訓練日志。實驗最后獲得20000張車牌數據。
圖1展示部分實驗結果,可直觀看出CycleGAN網絡模型生成的數據更接近真實數據,WGAN模型和DCGAN模型產生的效果次之,原始GAN模型經常遇到模型崩潰導致難以訓練的問題,難以生成理想圖像。
2.3 生成圖像識別
將通過CycleGAN網絡模型生成的20000張車牌數據按其70%劃分為訓練集,30%作為測試集。本文利用可以識別車牌的卷積神經網絡模型識別數據,測試生成圖像數據的識別準確率。
從圖2結果可以看出識別網絡在訓練集和驗證集上隨著迭代次數增加識別錯誤率降級,識別的正確率逐漸上升,平均識別率達到85%,這表明生成對抗網絡模型生成的數據可以用于深度卷積神經網絡的測試集,用于訓練識別復雜環境下的深度模型,達到了擴充數據的目的。
3結束語
本文對復雜環境下的車牌擴充數據方法和可行性進行了分析研究,針對深度學習識別車牌缺乏復雜環境下車牌數據的問題,利用GAN,DCGAN,WGAN和CycleGAN網絡進行車牌數據增強,驗證了幾種對抗生成網絡的性能并測試了生成數據的識別準確率。通過實驗發現CycleGAN擴充數據效果最好,WGAN模型產生的效果次之,DCGAN模型和原始GAN模型經常遇到模型難以訓練和崩潰的問題,無法生成理想圖像。而且擴充數據的平均識別率都能達到85%,這表明生成對抗網絡模型生成的數據可以用于深度卷積神經網絡的測試集,用于訓練識別復雜環境下的深度模型,達到了擴充數據的目的。本文尚存一些改進的地方,如沒有嘗試更多復雜優化的對抗網絡模型的數據增強方法和模型評價標準,接下來將在這方面做更深入研究并考慮將文本表示和圖像樣式之間的映射應用于車牌數據的生成問題。
參考文獻
[1] H. Li.C. Shen. Reading car license plates using deep convolutional neural networks and lstms [J]. arXiv preprint arXiv.2016:1601.
[2] Gao Q.Wang X.Xie G. License Plate Recognition Based On Prior Knowledge[C].Automation and Logistics, 2007 IEEE International Conference on. IEEE, 2007:2964-2968.
[3] Reed S.Akata Z.Yan X.et al. Generative Adversarial Text to Image Synthesis[J]. In Proceedings of International Conference on Machine Learning.2016.(3):177.
[4] Radford A.Metz L.Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks[J].Computer Science.2015.1(1):1-19 .
[5] T. Salimans.I. Goodfellow.W. Zaremba.et al.Improved techniques for training gans[J].In Advances in Neural Information Processing Systems.2016.(1):2226-2234.