周俊炎,王竟成,楊小奎,舒暢,王津梅,張宸
基于GAN的小樣本腐蝕失厚率數據增強方法
周俊炎,王竟成,楊小奎,舒暢,王津梅,張宸
(西南技術工程研究所,重慶 40003)
對小樣本腐蝕失厚率數據進行數據增強,實現數據擴充,以提升后續分析模型的預測精度,減輕過擬合程度,并提升模型的泛化能力。利用生成對抗網絡(Generative Adversarial Networks,GAN)擴充腐蝕失厚率數據,使數據分布更加全面。對生成數據進行降維可視化分析,探究生成數據與原始數據樣本的分布規律,分析數據增強合理性,并從多個算法模型、多個評價指標角度對分析預測能力、泛化能力進行評估。生成數據填補了原始數據在樣本空間分布的薄弱環節,加入生成數據后,各機器學習算法模型得出的MSE均值為未加入生成數據的61.72%~91.74%,皮爾遜均值為99.01%~113.64%,預測準確度提升,結果關聯性更強,模型泛化能力增強。GAN能有效對小樣本腐蝕失厚率數據進行增強,數據擴充對分析預測提供正向支持,生成數據不宜多于原始數據,防止擾亂訓練樣本分布,同時存在生成數據多樣性受限的問題。
腐蝕失厚率;小樣本;生成對抗網絡;數據增強;降維分析;樣本分布
腐蝕失厚率作為重要的環境效應數據,是金屬板材最基本的腐蝕評價指標。如El-Mahdy[1]以鋅合金為出發點,研究腐蝕行為反映的環境污染程度,這些腐蝕數據具有重要的評估、經濟價值。但由于金屬服役環境復雜,導致環境影響因子不同;試驗過程具有隨機性、多變性、突變性及非線性等特點,導致存在各種不確定性因素;數據采集易受儀器、人員操作等噪聲干擾,導致數據易出現奇異值;跨度時間漫長,導致數據易丟失、屬性值不完整等問題。因此,最終可用于分析的完整可靠的腐蝕失厚率數據為小樣本數據,迫切需要攫取數據潛在價值,實現腐蝕失厚率小樣本數據集擴充,一定程度上代替傳統的長時間跨度下環境試驗收集數據方法,為后續腐蝕失厚率分析預測夯實數據基礎。
目前,腐蝕失厚率分析預測主要的手段是根據樣本分布與統計規律,直接套用各種數學函數定義腐蝕失厚率機理模型,實現小樣本腐蝕失厚率數據分析預測,雖能達到一定精度,但泛化能力較弱,推廣價值較低。如Feliu等[2]研究了大氣中氯化物及二氧化硫對鋅腐蝕的影響規律。王振堯等[3]及王光雍等[4]研究得出鋅的大氣腐蝕與試驗時間為近似線性規律。從數據層面分析,其機理為假定了樣本分布,但實際樣本分布規律隨機多變,尤其在小樣本數據上,樣本分布更加不穩定。
本文提出一種生成對抗網絡(Generative Adversarial Networks,GAN)的模型用于小樣本腐蝕失厚率數據擴充,提升數據價值密度[5],以輔助后續分析預測。GAN模型不要求樣本分布,通過無監督學習的方式,使生成數據逼近真實樣本分布[6]。本文通過調試GAN網絡模型參數得到性能較好的腐蝕失厚率數據結果,通過PCA降維探究數據分布,并在多種機器學習算法上驗證生成數據的可靠性及其對預測效果的提升。
腐蝕失厚率原始數據囊括不同材料牌號、不同環境試驗場景因素數據,其中不同環境試驗場景通常以平均溫度、相對濕度、降水量、日照時數等環境因素數據體現。本文腐蝕失厚率預測主要針對同材料牌號純鋅,在不同環境因素條件下腐蝕失厚率的數據預測。
鋅在電位序中處于相對活性的位置,其腐蝕電位低于鋼鐵[7-8],鋅的大氣腐蝕本質是薄液膜下鋅金屬的電化學腐蝕,其腐蝕行為具有較高的研究價值[9]。鋅材料的腐蝕破壞產生嚴重的經濟損失[10],本文以腐蝕失厚率為依據之一。純鋅腐蝕失厚率數據示例見表1,總數據量為20條,包含12個試驗地點,記錄其典型環境因素條目,并在大氣環境暴露環境下測量1 a的腐蝕失厚率數據。
表1 純鋅腐蝕失厚率數據示例

Tab.1 Example of pure zinc corrosion loss rate data
通過純鋅腐蝕失厚率數據訓練得到預測模型,預測純鋅在其他各個試驗地點的腐蝕失厚率,可通過全國乃至全球的環境因素數據直接預測得到純鋅的腐蝕失厚率,因此需要有效、合理利用這20條原始數據。由于某些站點進行了多樣本測量,需要將數據順序進行打亂,以8︰2的比例建立訓練集與測試集。通常預測分析時采用交叉驗證的方法,即多次重新取訓練集與預測集進行結果分析,這樣得出的結果更加可靠穩定,能減輕過擬合程度。但此方法中需要先訓練GAN模型,再以GAN模型去生成數據,混合生成的增強數據與原始數據進行模型訓練。考慮到交叉驗證需要多個GAN模型,引入額外隨機量,進行驗證時變量過多,不具備理論說服力。因此,將訓練集和測試集的數據固定,再采用降維可視化直接分析數據分布規律。
在后續腐蝕失厚率數據分析預測中,由于其主要數據表現形式為數值型,采用回歸擬合的方式,擬采用典型回歸評價指標[11]。如賽曉勇等[12]用平均絕對誤差、平均相對誤差、誤差平方和作為評價方法好壞的指標,以分析陽性檢查效率。王雪等[13]用決定系數2、均方根誤差、驗證誤差、預測均方誤差等作為紅外光譜預測數據驗證。參考董永權等[14]對相關系數的解釋,誤差絕對值也體現了統計特征[15]。本文使用均方差(MSE)、絕對值誤差(MAE)、皮爾遜相關系數、相關指數2共4個指標作為回歸結果評價、顯著性檢驗手段。
生成對抗網絡源于博弈論,以納什均衡作為數學基礎,是一種新的無監督學習算法框架[16]。二者博弈,使得二者不斷以螺旋式動態提升,最終二者能力都得到顯著增強。這種對抗的博弈方式,能夠訓練得出高質量的假數據,相比傳統機器學習算法,泛化性能更好,生成模型能夠學習到隱性的特征,具有更好的特征表達能力[17]。GAN得到越來越多學者青睞,廣泛運用在各個領域中,在計算機視覺領域最廣泛、最成熟。一是由于圖片由多個像素點組成,蘊含了大量隱藏特征屬性;二是生成的圖片具有直觀屬性,能夠進行人工有效判斷[18]。陳星宇等[19]將生成模型運用到圖像視頻顯著性檢測上。貝悅[20]等結合條件生成了對抗網絡重構HDR圖像,在計算機視覺方向成果顯著。李凱偉等[21]利用GAN生成了情感對話內容。曹爽[22]基于生成對抗網絡合成了表格數據。生成對抗網絡逐漸普及到各個領域。
GAN結構如圖1所示,核心為2個網絡結構,分別為生成器(Generator)和判別器(Discriminator),生成器的決策方向是盡可能生成逼近真實分布的假數據,讓判別器無法識別生成的增強數據,而判別器決策方向是鑒別數據是否為真,盡可能區分真假數據。生成器和判別器形成對抗,從而不斷迭代提升自身的判別或生成能力。當最終生成網絡和判別網絡的損失函數收斂時,一般情況下,此時判別網絡能夠一定程度上鑒真,但某些生成數據也會被判別為真數據,這就說明生成模型已經學習到真實樣本的分布,并能夠生成合理的假數據。

圖1 GAN結構
在固定生成器的情況下,需要最優化判別器,判別器迭代過程就是最小化交叉熵的過程,損失函數為:

式(1)中,真實數據滿足真實采樣分布real(),生成數據滿足先驗分布fake(),代表數據期望值。為達到需要,最小化式(1),在連續空間上有:





GAN訓練過程即訓練判別器不斷最大化判別能力,同時不斷訓練生成器最小化判別能力。一般而言,采用交替訓練的方式,固定生成器,迭代優化判別器,然后固定判別器,迭代優化生成器,當生成器生成數據樣本分布與原始數據樣本分布對抗平衡時,達到全局最優解。
GAN普遍存在樣本多樣性較弱的問題[23],但對于小樣本腐蝕失厚率數據而言,若生成數據過于廣泛,將導致實際物理意義不存在的問題。比如原始數據中有萬寧、北京、武漢等地環境因素數據,如果生成差異性過大的數據,實際上不存在對應的真實地點,這樣從機理層面無法解釋,所以GAN生成偏向于真實數據的增強數據,使生成數據具有物理意義。因此,GAN模型適用于腐蝕失厚率數據增強。
提出基于GAN的腐蝕失厚率生成式模型,并進行校驗驗證,流程如圖2所示。首先是生成對抗網絡主要組成部分的判別模型和生成模型,經參數調試,最適用于純鋅腐蝕失厚率數據分析的GAN模型網絡結構為4層分類神經網絡,判別器輸入8個特征,中間層分別構建16、256、64個節點。二分類輸出判別真假,使用ReLU作為激活函數,而生成器與判別器鏡像對抗,輸入為1個特征,中間層構建64、256、16個網絡節點,最后輸出8個特征,即假數據。利用小樣本的腐蝕失厚率數據進行GAN訓練,并保存生成網絡模型。生成網絡模型生成假數據,與真數據進行PCA降維可視化分析,校驗數據是否分布合理。同時對比真數據、混合真數據和假數據在不同算法的預測結果,輸出得到各類評價指標,以此驗證基于GAN進行數據增強后是否對預測精度提升提供支持。

圖2 腐蝕失厚率生成式模型流程
保存收斂的生成網絡模型,要求腐蝕失厚率GAN模型達到收斂。輸出判別器與生成器的損失函數值,得到如圖3所示損失函數曲線。圖3中,迭代次數指損失輸出次數,采取措施是前200代每10次輸出1次損失函數,之后每50代輸出1次損失函數,所以600多次迭代次數對應實際30 000次循環。判別器與生成器損失在初期100次(即實際4 200代)以內波動非常大,150次迭代次數(即實際6 700代)后緩慢收斂,最終取30 000次循環結果作為收斂結果。最終判別器損失收斂于0.7左右,生成器損失收斂于2.3左右,所以判別器基本穩定收斂,生成器由于數據量較少,只能達到基本收斂。另外,GAN的收斂不能只取決于判別器與生成器的收斂,同時輸出真假數據在判別器的概率,當真假數據概率基本持平時,模型達到收斂。當GAN模型達到收斂時,將生成模型參數、網絡結構保存,以備后續生成假數據、分析使用。

圖3 腐蝕失厚率GAN模型損失函數
純鋅腐蝕失厚率數據為7個特征列與1個標簽列,共8維數據,無法直觀分析其分布規律,需要將其降維到三維及其以下可視化數據特征。這里采用主成分分析技術(Principal Components Analysis,PCA),利用方差信息進行線性變換投影降維,壓縮數據空間,將高維度的純鋅腐蝕失厚率數據在三維空間中直觀展示出來[24]。
如圖4a所示的不帶label列的PCA三維降維結果,指只使用生成數據的特征列進行降維。從三維降維可視化結果可得,原始的20條小樣本數據散亂地分布在樣本空間中,并且在、、值都較大或都較小的情況時,數據不存在,生成模型主要填補了此種情況下的樣本分布,使樣本分布更加完整。帶label列的PCA三維降維結果與不帶label列的降維結果基本一致,主要補齊樣本在某些情況下的分布,如圖4b所示。GAN生成的數據特征主要集中在非label列,即特征列上。因此,GAN生成的腐蝕失厚率假數據的樣本分布合理,可支撐后續分析研究,但生成數據多樣性不夠豐富。由可視化結果可知,主要補齊的數據沿2條直線分布(低維線性分布,在原始高維分布一般不為線性分布),存在GAN典型的模式坍縮問題。

圖4 PCA三維降維結果
為了驗證生成數據是否可以提升預測的精度,增加模型的泛化能力,采用極端隨機樹回歸算法(ETR)、梯度提升樹算法(GBM)、bagging回歸算法、支持向量機回歸算法(SVM)、隨機森林回歸算法(RF)共5種機器學習算法,分別使用原始數據、混合原始數據加部分生成數據2種方式進行模型訓練。原始數據通過8︰2的比例劃分訓練集與測試集,即使用16條數據進行訓練,而加入生成數據的策略為使用16條原始數據,并加上4條生成數據,保證原始數據權重,防止訓練數據樣本分布過于偏向生成數據樣本分布。最后以4條測試集數據實際值與預測值進行均方差(MSE)、絕對值誤差(MAE)、相關指數2、皮爾遜相關系數4個評價指標來驗證結果。
由于多數回歸模型都具有一定隨機性,比如梯度提升樹,該模型不斷隨機抓取數據進行梯度提升以達最優解,因此每次訓練模型得到的結果存在一定波動性。鑒于此,采用多次訓練模型,并取統計直方圖的方法進行效果校驗,取10 000次循環輸出統計直方圖。以隨機森林為例,各評價指標的統計直方圖見圖5。對于均方差和絕對值誤差而言,加入生成數據訓練的模型結果均值更小,模型準確度更高,同時方差更大,說明通過加入樣本擴充分布后隨機性得到一定提升,過擬合程度相對降低。對于皮爾遜相關系數和相關指數2而言,加入生成數據訓練的模型結果均值更大,說明預測值與實際值關聯性更強,方差更大,增添隨機性,過擬合程度相對降低。

圖5 數據增強前后隨機森林評價指標
參考袁培等[25]從多維、多源數據進行多尺度分析,本文通過5種回歸算法分別對使用原始數據、原始數據加部分生成數據2種方式的訓練結果進行評價指標分析。由于每種算法多次測算,以多次測算的均值方差來代替直方圖表達,最終統計得到數據增強前后各模型評價指標數值,見表2。特別地,對于SVM回歸而言,由于SVM是一種數值解法,若輸入一樣,每次結果一致,不存在隨機過程,所以未加入隨機生成數據時,使用同樣的16個訓練數據得到的結果完全相同,體現為方差等于0。
表2 數據增強前后各模型評價指標

Tab.2 Evaluation indicators of each model before and after data enhancement
通過統計計算,加入生成數據后的MSE均值是未加入生成數據MSE均值的61.72%~91.74%,皮爾遜均值為99.01%~113.64%。MSE綜合衡量偏差與方差,模型精確度提升,皮爾遜均值衡量預測值和實際值之間相關性,結果關聯度更高。
根據表2得到綜合圖示,如圖6所示,直觀展示各算法模型對各評價指標的數值結果,ETR、gbm、bagging、SVM、RF分別指極端回歸樹、梯度提升樹、bagging回歸、支持向量機回歸、隨機森林回歸算法模型,“是”與“否”代表是否加入生成數據,如“ETR-是”指加入生成數據的極端回歸樹算法結果。圖6中負指標縮小為10%處理,且未展示方差。首先因為方差數值量級差異較大,難以直觀展示,其次方差體現隨機性,而隨機性可通過PCA降維分析推導或者方差計算得出。由圖6可直觀得出,加入生成數據后,MSE、MAE均值降低,2、皮爾遜均值增大。
為了探究生成數據數量對分析預測結果的影響,這里使用梯度提升樹算法(GBM)為基礎,測試取不同量生成數據gbm算法結果,見表3。可見,隨著生成數據取用數量的增多,MSE逐漸趨小,但同時存在隨機性減小、過擬合程度增大的問題。從MSE方差角度看,加入生成數據后,方差增加幾十倍,生成數據取用數為4左右時達到峰值,說明此時隨機性更好,樣本分布更加全面。因此,對于腐蝕失厚率數據而言,納入訓練的原始數據16條,再加入4條生成數據時,分析預測精度高,隨機性更好,樣本分布更全面。將實驗結果繪制成折線圖,如圖7所示。生成數據只要不超過原始數據數量的100%,分析預測結果較為可觀。

圖6 數據增強前后各算法評價指標
表3 取不同量生成數據gbm算法結果

Tab.3 Results of the gbm algorithm for different amounts of generated data

圖7 不同量生成數據gbm算法結果展示
1)綜合考慮腐蝕失厚率小樣本數據特點,提出適用的GAN算法模型,調整4層網絡結構及參數。
2)使用多算法模型、多個評價指標對GAN數據增強結果進行驗證,結果表明,GAN數據擴充能有效對小樣本腐蝕失厚率分析預測提供可靠支持。
3)對比取不同數量的增強數據分析預測結果,采用適中數量的生成數據才能得到最佳的分析預測結果。試驗證明,生成數據小于原始數據數量時,腐蝕失厚率分析效果較好,不會擾亂樣本分布。
4)生成數據存在多樣性不夠充分問題,GAN存在模式坍縮問題,后續可探究WGAN等更復雜的網絡結構,或者通過數據清洗等方法優化樣本分布,以解決存在的問題。
[1] EL-MAHDY G A. Advanced Laboratory Study on the Atmospheric Corrosion of Zinc under Thin Electrolyte Layers[J]. Corrosion, 2003, 59(6): 505-510.
[2] FELIU S, MORCILLO M, FELIU S Jr. The Prediction of Atmospheric Corrosion from Meteorological and Pollution Parameters—I. Annual Corrosion[J]. Corrosion Science, 1993, 34(3): 403-414.
[3] 王振堯, 于國才, 韓薇. 我國若干典型大氣環境中的鋅腐蝕[J]. 腐蝕科學與防護技術, 2003, 15(4): 191-195.
WANG Zhen-yao, YU Guo-cai, HAN Wei. Atmospheric Corrosion Performance of Zinc at Several Selected Test Sits in China[J]. Corrosion Science and Technology Protection, 2003, 15(4): 191-195.
[4] 王光雍, 王海江, 李興濂, 等. 自然環境的腐蝕與防護[M]. 北京: 化學工業出版社, 1996.
WANG Guang-yong, ANG hai-jiang, LI Xing-lian, et al. Corrosion and Protection of the Natural Environment[M]. Beijing: Chemical Industry Publishing House, 1996.
[5] 尚宇煒, 馬釗, 彭晨陽, 等. 內嵌專業知識和經驗的機器學習方法探索(一): 引導學習的提出與理論基礎[J]. 中國電機工程學報, 2017, 37(19): 5560-5571.
SHANG Yu-wei, MA Zhao, PENG Chen-yang, et al. Study of a Novel Machine Learning Method Embedding Expertise Part Ⅰ: Proposals and Fundamentals of Guiding Learning[J]. Proceedings of the CSEE, 2017, 37(19): 5560-5571.
[6] 楊懿男, 齊林海, 王紅, 等. 基于生成對抗網絡的小樣本數據生成技術研究[J]. 電力建設, 2019, 40(5): 71-77.
YANG Yi-nan, QI Lin-hai, WANG Hong, et al. Research on Generation Technology of Small Sample Data Based on Generative Adversarial Network[J]. Electric Power Construction, 2019, 40(5): 71-77.
[7] 郝顯赫, 王振堯, 汪川. 鋅在遼寧紅沿河核電站的大氣腐蝕研究[J]. 裝備環境工程, 2012, 9(3): 108-110.
HAO Xian-he, WANG Zhen-yao, WANG Chuan. Atmospheric Corrosion of Zinc at Hongyanhe Nuclear Power Station[J]. Equipment Environmental Engineering, 2012, 9(3): 108-110.
[8] 周學杰, 張三平, 鄭鵬華, 等. 純鋅在水環境中腐蝕行為[J]. 裝備環境工程, 2008, 5(5): 9-12.
ZHOU Xue-jie, ZHANG San-ping, ZHENG Peng-hua, et al. Corrosion Behavior of Pure Zn in Water Environment[J]. Equipment Environmental Engineering, 2008, 5(5): 9-12.
[9] 葉堤. 重慶市大氣污染對鋅材料腐蝕的經濟損失分析[J]. 裝備環境工程, 2007, 4(1): 21-24.
YE Di. Economic Loss Estimates of Zinc Corrosion by Acid Deposition in Chongqing[J]. Equipment Environmental Engineering, 2007, 4(1): 21-24.
[10] 朱志平, 左羨第, 銀朝暉. 鋅在模擬工業大氣環境下的腐蝕行為研究[J]. 裝備環境工程, 2015, 12(4): 1-5.
ZHU Zhi-ping, ZUO Xian-di, YIN Zhao-hui. Zinc Corrosion Behavior in Simulated Industrial Atmospheric Environment[J]. Equipment Environmental Engineering, 2015, 12(4): 1-5.
[11] 王振杰, 姚吉利. 廣義測量平差分類[J]. 淄博學院學報(自然科學與工程版), 2001(1): 62-64.
WANG Zhen-jie, YAO Ji-li. The Classification of General Surveying Adjustment[J]. Journal of Zibo University, 2001(1): 62-64.
[12] 賽曉勇, 邢秦菊, 孟定茹, 等. 五種預測方法在退田還湖區血吸蟲病發病的擬合效果評價[J]. 第四軍醫大學學報, 2006(17): 1603-1605.
SAI Xiao-yong, XING Qin-ju, MENG Ding-ru, et al. Comparison of Predicting Effect of Schistosomiasis Prevalence by 5 Statistical Models in the Areas of “Breaking Dikes or Opening Sluice for Water Store” in Dongting Lake[J]. Journal of the Fourth Military Medical University, 2006(17): 1603-1605.
[13] 王雪, 馬鐵民, 楊濤, 等. 基于近紅外光譜的灌漿期玉米籽粒水分小樣本定量分析[J]. 農業工程學報, 2018, 34(13): 203-210.
WANG Xue, MA Tie-min, YANG Tao, et al. Moisture Quantitative Analysis with Small Sample Set of Maize Grain in Filling Stage Based on near Infrared Spectroscopy[J]. Transactions of the Chinese Society of Agricultural Engineering, 2018, 34(13): 203-210.
[14] 董永權, 王占民. 關于相關系數的幾點注釋[J]. 大學數學, 2008, 24(2): 182-186.
DONG Yong-quan, WANG Zhan-min. Some Notes about Correiation Coefficient[J]. College Mathematics, 2008, 24(2): 182-186.
[15] 丁勇. 誤差絕對值的統計特征和應用[J]. 數理統計與管理, 2016, 35(1): 39-46.
DING Yong. The Statistical Characteristic and Application of the Error Absolute Value[J]. Journal of Applied Statistics and Management, 2016, 35(1): 39-46.
[16] 王坤峰, 茍超, 段艷杰, 等. 生成式對抗網絡GAN的研究進展與展望[J]. 自動化學報, 2017, 43(3): 321-332.
WANG Kun-feng, GOU Chao, DUAN Yan-jie, et al. Generative Adversarial Networks: The State of the Art and beyond[J]. Acta Automatica Sinica, 2017, 43(3): 321-332.
[17] 梁俊杰, 韋艦晶, 蔣正鋒. 生成對抗網絡GAN綜述[J]. 計算機科學與探索, 2020, 14(1): 1-17.
LIANG Jun-jie, WEI Jian-jing, JIANG Zheng-feng. Generative Adversarial Networks GAN Overview[J]. Journal of Frontiers of Computer Science and Technology, 2020, 14(1): 1-17.
[18] 陳亮, 吳攀, 劉韻婷, 等. 生成對抗網絡GAN的發展與最新應用[J]. 電子測量與儀器學報, 2020, 34(6): 70-78.
CHEN Liang, WU Pan, LIU Yun-ting, et al. Development and Application of the Latest Generation Against the Network of GAN[J]. Journal of Electronic Measurement and Instrumentation, 2020, 34(6): 70-78.
[19] 陳星宇, 葉鋒, 黃添強, 等. 融合小型深度生成模型的顯著性檢測[J]. 電子學報, 2021, 49(4): 768-774.
CHEN Xing-yu, YE Feng, HUANG Tian-qiang, et al. Saliency Detection Combined with Small-Scale Deep Generation Model[J]. Acta Electronica Sinica, 2021, 49(4): 768-774.
[20] 貝悅, 王琦, 程志鵬, 等. 基于條件生成對抗網絡的HDR圖像生成方法[J]. 北京航空航天大學學報, 2022, 48(1): 45-52.
BEI Yue, WANG Qi, CHENG Zhi-peng, et al. HDR Image Generation Method Based on Conditional Generative Adversarial Network[J]. Journal of Beijing University of Aeronautics and Astronautics, 2022, 48(1): 45-52.
[21] 李凱偉, 馬力. 基于生成對抗網絡的情感對話回復生成[J/OL]. 計算機工程與應用, 2021: 1-8. (2021-04-22). https://kns.cnki.net/kcms/detail/11.2127.TP.20210422.1328.011.html.
LI Kai-wei, MA Li. Emotional Dialogue Response Generation Based on Generative Adversarial Network[J/OL]. Computer Engineering and Applications, 2021: 1-8. (2021-04-22). https://kns.cnki.net/kcms/detail/11.2127.TP.20210422.1328.011.html.
[22] 曹爽. SCGAN: 合成單類別表格數據的生成對抗網絡[J]. 計算機時代, 2021(4): 25-27.
CAO Shuang. SCGAN: A Generative Adversarial Network for Single Category Tabular Data Synthesis[J]. Computer Era, 2021(4): 25-27.
[23] RADFORD A, METZ L, CHINTALA S. Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks[J]. Computer Science, 2015, 1511: 06434.
[24] 陳佩. 主成分分析法研究及其在特征提取中的應用[D]. 西安: 陜西師范大學, 2014: 8-15.
CHEN Pei. Research on Principal Component Analysis and Its Application in Feature Extraction[D]. Xi'an: Shaanxi Normal University, 2014: 8-15.
[25] 袁培, 王舶仲, 毛文奇, 等. 基于多重生成對抗網絡的智能開關設備狀態感知與診斷研究[J]. 電力系統保護與控制, 2021, 49(6): 67-75.
YUAN Pei, WANG Bo-zhong, MAO Wen-qi, et al. Research on State Perception and Diagnosis of Intelligent Switches Based on Triple Generative Adversarial Networks[J]. Power System Protection and Control, 2021, 49(6): 67-75.
Corrosion Thickness Loss Rate Data Enhancement Based on a Small Sample of GAN
ZHOU Jun-yan, WANG Jing-cheng, YANG Xiao-kui, SHU Chang, WANG Jin-mei, ZHANG Chen
(Southwest Institute of Technology and Engineering, Chongqing 400039, China)
The work aims to conduct data enhancement on the corrosion thickness loss rate of small samples to achieve data expansion, improve the prediction accuracy of the subsequent analysis model, reduce the degree of overfitting and improve the generalization ability of the model. The Generative Adversarial Network (GAN) was used to expand the corrosion thickness loss rate data and make the data distribution more comprehensive. Dimensionality reduction visual analysis on the generated data was conducted. The distribution of generated data and original data samples was explored. The rationality of data enhancement was analyzed. In addition, the analysis and prediction ability and generalization ability were evaluated from the perspectives of multiple algorithm models and multiple evaluation indicators.The generated data filled in the weak link of the original data in the sample space distribution. After adding the generated data, the average MSE obtained by each machine learning algorithm model was 61.72% to 91.74% of the result without the generated data, and the Pearson average was 99.01% to 113.64 %. The prediction accuracy was improved. The results were more relevant. And the model generalization ability was enhanced.GAN can effectively enhance the corrosion thickness loss rate data of small samples. Data expansion provides positive support for analysis and prediction. The generated data should not be more than the original data to prevent disturbing the distribution of training samples. At the same time, there are problems with limited diversity of generated data.
corrosion thickness loss rate; small sample; generative adversarial networks; data enhancement; dimensionality reduction analysis; sample distribution
TP399
A
1672-9242(2023)01-0142-09
10.7643/ issn.1672-9242.2023.01.020
2021–11–17;
2021-11-17;
2021–12–28
2021-12-28
周俊炎(1995—),男,碩士,工程師,主要研究方向為環境試驗與觀測。
ZHOU Jun-yan (1995-), Male, Master, Engineer, Research focus: environment test and observation research.
周俊炎, 王竟成, 楊小奎, 等. 基于GAN的小樣本腐蝕失厚率數據增強方法[J]. 裝備環境工程, 2023, 20(1): 142-150.
ZHOU Jun-yan, WANG Jing-cheng, YANG Xiao-kui, et al. Corrosion Thickness Loss Rate Data Enhancement Based on a Small Sample of GAN[J]. Equipment Environmental Engineering, 2023, 20(1): 142-150.
責任編輯:劉世忠