馬惠玲 曹夢(mèng)柯 王 棟 邱凌雨 任小林
(1.西北農(nóng)林科技大學(xué)生命科學(xué)學(xué)院, 陜西楊凌 712100; 2.西北農(nóng)林科技大學(xué)園藝學(xué)院, 陜西楊凌 712100)
我國(guó)蘋(píng)果年產(chǎn)量約占世界總產(chǎn)量的50%[1]。準(zhǔn)確預(yù)測(cè)貨架期能有效減少貯藏?fù)p失,保障上市果實(shí)品質(zhì)。在蘋(píng)果保鮮技術(shù)的研究中,通常測(cè)定失重率、可溶性固形物含量、可滴定酸含量、硬度、色值、抗壞血酸含量等品質(zhì)指標(biāo)來(lái)衡量保鮮效果[2-5]。因此,有望從中篩選特征指標(biāo)或組合來(lái)用于采后蘋(píng)果的貨架期預(yù)測(cè)。目前在一些果蔬上已成功運(yùn)用品質(zhì)指標(biāo)來(lái)構(gòu)建貨架期預(yù)測(cè)模型[6-8]。
廣泛應(yīng)用于貨架期預(yù)測(cè)的模型主要包括傳統(tǒng)的動(dòng)力學(xué)模型以及機(jī)器學(xué)習(xí)模型等。前人對(duì)蘋(píng)果采后品質(zhì)指標(biāo)變化也進(jìn)行了探究,以及建立了Arrhenius貨架期預(yù)測(cè)方程,但預(yù)測(cè)準(zhǔn)確率較低[9],說(shuō)明常用的動(dòng)力學(xué)模型難以表征蘋(píng)果采后品質(zhì)綜合變化的復(fù)雜性,從而使其預(yù)測(cè)誤差率較高。機(jī)器學(xué)習(xí)模型如反向傳播人工神經(jīng)網(wǎng)絡(luò)(Back propagation-artificial neural networks, BP-ANN)已經(jīng)廣泛應(yīng)用于農(nóng)產(chǎn)品[10-12]的貨架期預(yù)測(cè)問(wèn)題上。然而,由于機(jī)器學(xué)習(xí)模型的復(fù)雜性,小樣本數(shù)據(jù)集容易造成過(guò)擬合、欠擬合現(xiàn)象。擴(kuò)充數(shù)據(jù)集,可以在一定程度上降低過(guò)擬合現(xiàn)象,提高模型預(yù)測(cè)的準(zhǔn)確率。SMOTE(Synthetic minority over-sampling technique)及其改進(jìn)算法的數(shù)據(jù)合成方法屬于線性插值法,其合成的數(shù)據(jù)和實(shí)際數(shù)據(jù)相關(guān)性不強(qiáng)[13]。生成式對(duì)抗網(wǎng)絡(luò)(GAN)模型是一種基于深度學(xué)習(xí)的數(shù)據(jù)生成方法,其基于博弈理論的數(shù)據(jù)生成原理,并采用無(wú)監(jiān)督的學(xué)習(xí)方法,能自動(dòng)對(duì)數(shù)據(jù)集進(jìn)行學(xué)習(xí),生成高質(zhì)量的數(shù)據(jù)[14]。目前GAN已經(jīng)應(yīng)用于在一些小規(guī)模樣本生成問(wèn)題上[13,15-17],暫未發(fā)現(xiàn)其用于果蔬理化指標(biāo)數(shù)據(jù)的生成。
“富士”作為蘋(píng)果中的優(yōu)良品種,在我國(guó)和日本的種植比例都高達(dá)50%以上[18]。本文使用GAN提升BP-ANN模型的預(yù)測(cè)性能,基于蘋(píng)果貯藏期間的真實(shí)數(shù)據(jù)來(lái)生成采后“富士”蘋(píng)果的理化品質(zhì)指標(biāo)、貯藏溫度及貨架期數(shù)據(jù),擴(kuò)大BP-ANN的訓(xùn)練樣本集數(shù)量,結(jié)合不同的變量排序方式對(duì)品質(zhì)指標(biāo)進(jìn)行排序,分別建立品質(zhì)指標(biāo)和貯藏溫度作為輸入變量的貨架期預(yù)測(cè)模型。
分別于2016—2018年10月10—11日在陜西省渭南市白水縣某果園采收達(dá)到商品成熟期的套袋栽培的“富士”蘋(píng)果(采收前7 d脫去最后一層半透明果袋),選取果形規(guī)整、表面光潔、大小均勻的套袋果,去果袋,單果套發(fā)泡網(wǎng),運(yùn)回西北農(nóng)林科技大學(xué)(3 h)。于0℃冷庫(kù)預(yù)冷24 h,散去田間熱量,再分別在溫度0、5、15、25℃和相對(duì)濕度 85%~90%的條件下貯藏,所有果實(shí)均裝于加有厚度11 μm塑料內(nèi)襯袋的果框內(nèi),袋口松散折疊以保濕。0℃貯藏果前72 d每12 d取樣一次,后198 d每24 d取樣一次;5℃貯藏果前63 d每9 d取樣一次,后108 d每18 d取樣一次;15℃果每6 d取樣一次,25℃果每3 d一次。每次取樣隨機(jī)抽取12個(gè)果實(shí),以4個(gè)為一組建立3個(gè)生物學(xué)重復(fù),用于在貯藏期間的各品質(zhì)指標(biāo)測(cè)定。
1.2.1顏色參數(shù)
使用白板校準(zhǔn)后的CR-400型色差計(jì) (日本Konica Minolta公司),分別用果實(shí)赤道線均勻的5個(gè)點(diǎn)來(lái)測(cè)定果實(shí)的顏色參數(shù)(亮度L、紅綠度a、黃藍(lán)度b)。總色差ΔE和飽和度C計(jì)算公式為
(1)
(2)
式中L0、a0、b0——顏色參數(shù)初始值
1.2.2硬度
沿蘋(píng)果果實(shí)赤道線的陰陽(yáng)兩面各取兩點(diǎn)削去1 cm×1 cm果皮,然后采用GY-3型果蔬硬度計(jì)(意大利Aldo Brue公司)測(cè)定硬度,單位為N/cm2。
1.2.3可溶性固形物含量、可滴定酸含量和固酸比
沿果實(shí)的赤道面,隨機(jī)選取3個(gè)點(diǎn),每個(gè)點(diǎn)去皮后各取10 g果肉,用榨汁機(jī)榨出汁,用吸管吸取3滴果汁,使用SW-LB32T型折光儀測(cè)定蘋(píng)果的可溶性固形物含量,用質(zhì)量分?jǐn)?shù)表示。取剩余的果汁,采用酸堿滴定法測(cè)定可滴定酸含量[19],用質(zhì)量分?jǐn)?shù)表示。固酸比為可溶性固形物與可滴定酸質(zhì)量分?jǐn)?shù)的比值。
1.2.4抗壞血酸含量
隨機(jī)稱取蘋(píng)果鮮樣5 g,采用鉬藍(lán)比色法[20]測(cè)定果實(shí)中還原型抗壞血酸的質(zhì)量比,單位為mg/kg。
1.2.5淀粉含量
隨機(jī)稱取蘋(píng)果鮮樣1.5 g,采用硫酸蒽酮法[21]測(cè)定果實(shí)中淀粉質(zhì)量比,單位為g/kg。
1.2.6質(zhì)量損失率
每次取樣時(shí)稱取蘋(píng)果的鮮質(zhì)量,以質(zhì)量隨時(shí)間下降的百分比計(jì)算質(zhì)量損失率。
請(qǐng)10名經(jīng)過(guò)專業(yè)培訓(xùn)的人員,對(duì)每次取樣的12個(gè)果實(shí)進(jìn)行品嘗和感官品質(zhì)評(píng)分,參照文獻(xiàn)[22]的評(píng)定項(xiàng)目和權(quán)重,每批果實(shí)的得分值為10個(gè)品嘗員評(píng)分的平均值。
1.4.1理化品質(zhì)指標(biāo)排序
(1)稀疏主成分分析
稀疏主成分分析是在主成分分析的基礎(chǔ)上引入帶有稀疏度的懲罰系數(shù)或者不同的系數(shù)約束條件,使得到的部分載荷向量為零,從而得到稀疏的主成分[23]。
(2)ReliefF算法
ReliefF算法最早由文獻(xiàn)[24]提出,最早用于解決二分類問(wèn)題,ReliefF算法是公認(rèn)的效果較好的Filter式特征評(píng)估算法。其關(guān)鍵思想是根據(jù)屬性的值對(duì)實(shí)例的區(qū)分程度去估計(jì)這個(gè)特征區(qū)分鄰近樣本的能力,特征選擇的思路是選取一個(gè)特征子集,使得特征子集上的分類錯(cuò)誤率最小[25-26]。預(yù)測(cè)的品質(zhì)指標(biāo)權(quán)重通常取決于最近鄰的數(shù)量,在本研究中,一共有12個(gè)品質(zhì)指標(biāo),將最近鄰分別設(shè)置為從2到11的數(shù),計(jì)算預(yù)測(cè)權(quán)重平均值來(lái)作為最終結(jié)果,其權(quán)重即代表品質(zhì)屬性的重要程度,權(quán)重越大,則該品質(zhì)屬性越重要。
1.4.2附加GAN的BP-ANN貨架期預(yù)測(cè)模型
生成式對(duì)抗網(wǎng)絡(luò)(GAN)是由文獻(xiàn)[27]提出的基于博弈論的生成式深度學(xué)習(xí)算法。GAN的一般結(jié)構(gòu)如圖1所示,主要由生成器和判別器兩部分組成。由生成器接收隨機(jī)噪聲數(shù)據(jù),真實(shí)數(shù)據(jù)的標(biāo)簽為0,生成數(shù)據(jù)的標(biāo)簽為1,由判別器判別是真實(shí)數(shù)據(jù)還是生成器生成的數(shù)據(jù),判別器的損失函數(shù)為一個(gè)二分類模型,可通過(guò)交叉熵計(jì)算目標(biāo)函數(shù),其損失函數(shù)為
(3)
式中G、D——生成器和判別器的可微函數(shù)
E——目標(biāo)函數(shù)的期望值
x——真實(shí)樣本數(shù)據(jù)
z——隨機(jī)噪聲
G(z)——判別器的生成數(shù)據(jù)
下角標(biāo)x~Pdata(x)表示x采樣于真實(shí)數(shù)據(jù)分布Pdata(x),z~Pz(z)表示z采樣于真實(shí)數(shù)據(jù)分布Pz(z)。
第1項(xiàng)代表D判斷出x是真實(shí)數(shù)據(jù)的情況,第2項(xiàng)代表D判斷數(shù)據(jù)是否是由生成器G將噪聲矢量z映射而成的生成數(shù)據(jù)。G和D進(jìn)行二元零和博弈,GAN算法的流程為先固定生成器優(yōu)化判別器,使得判別器的判別準(zhǔn)確率最大化,然后固定判別器,優(yōu)化生成器使得判別器的判別準(zhǔn)確率最小。當(dāng)且僅當(dāng)Pdata(判別真實(shí)數(shù)據(jù)的準(zhǔn)確率)等于Pg(判別生成數(shù)據(jù)的準(zhǔn)確率)時(shí)達(dá)到全局最優(yōu)解。
生成器和判別器均采用全連接網(wǎng)絡(luò)結(jié)構(gòu)。生成器是由兩層感知機(jī)組成,其輸入為隨機(jī)噪聲,第1層其激活函數(shù)為ReLU,由 25個(gè)隱藏層神經(jīng)元組成,第2層其激活函數(shù)為L(zhǎng)inear,輸出維度為14的數(shù)據(jù)。判別器也是由兩層感知機(jī)組成,其輸入為真實(shí)數(shù)據(jù)和生成器生成的假數(shù)據(jù),第1層由25個(gè)神經(jīng)元組成,其激活函數(shù)為ReLU,第2層由1個(gè)神經(jīng)元組成,其激活函數(shù)為Sigmoid。每訓(xùn)練3 000次,保存一次模型。文獻(xiàn)[15]通過(guò)直接觀察生成的菌菇表型圖像數(shù)據(jù)來(lái)選擇GAN生成的圖像;文獻(xiàn)[13]根據(jù)鴨蛋的蛋形指數(shù)來(lái)選擇GAN生成的數(shù)據(jù);文獻(xiàn)[17]根據(jù)模型預(yù)測(cè)的準(zhǔn)確率來(lái)判斷GAN模型對(duì)于長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)的改進(jìn)作用,從而選擇GAN生成的數(shù)據(jù)。在本研究中,蘋(píng)果的品質(zhì)指標(biāo)取值均隨著貯藏時(shí)間的變化而變化,而且品質(zhì)指標(biāo)無(wú)法像圖像一樣可以直接觀察,因此通過(guò)GAN的判別器判別真實(shí)數(shù)據(jù)和生成數(shù)據(jù)的準(zhǔn)確率對(duì)生成數(shù)據(jù)進(jìn)行初次選擇,并通過(guò)繪圖的形式,將生成數(shù)據(jù)和真實(shí)數(shù)據(jù)的取值范圍進(jìn)行比較,再通過(guò) GAN-BP-ANN模型預(yù)測(cè)貨架期的準(zhǔn)確性來(lái)再次判斷GAN生成數(shù)據(jù)的質(zhì)量。試驗(yàn)平臺(tái)為Windows 10系統(tǒng),8 GB內(nèi)存,500GB SSD,1TB HD,Intel Core i5-5200U,2.20 GHz,Nvidia GeForce 930M,2 GB。算法采用Tensorflow V1.1GPU框架和Python 3.7實(shí)現(xiàn)。
BP-ANN模型是一種誤差反向傳播的模型,其通常由輸入層、隱藏層和輸出層3層組成。在此研究中,將品質(zhì)屬性和貯藏溫度作為輸入層,貨架期作為輸出層。將得到的品質(zhì)指標(biāo),按照其排序結(jié)果,從1到12逐一疊加,再組合貯藏溫度,作為輸入變量分別建立擴(kuò)充數(shù)據(jù)集的GAN-BP-ANN和未擴(kuò)充數(shù)據(jù)集的BP-ANN貨架期預(yù)測(cè)模型。從圖2可以看出,基于GAN改進(jìn)的BP-ANN模型結(jié)構(gòu)將GAN生成的最優(yōu)解和真實(shí)測(cè)定的數(shù)據(jù)同時(shí)作為BP-ANN的輸入層,BP-ANN模型第1層的激活函數(shù)為T(mén)ansig,第2層的激活函數(shù)為Purelin,若在最大迭代次數(shù)內(nèi)未達(dá)到訓(xùn)練目標(biāo),則根據(jù)相應(yīng)規(guī)則對(duì)參數(shù)進(jìn)行優(yōu)化,如果達(dá)到訓(xùn)練目標(biāo),則保存模型,并根據(jù)保存的模型對(duì)驗(yàn)證集進(jìn)行預(yù)測(cè)。訓(xùn)練目標(biāo)為0.000 1,學(xué)習(xí)率為0.01,最大迭代次數(shù)為1 000。 由于其初始化的權(quán)值和閾值對(duì)網(wǎng)絡(luò)的性能具有較大的影響,在此研究中通過(guò)多次建模來(lái)選擇最優(yōu)的權(quán)值和閾值。
采用平均相對(duì)誤差和決定系數(shù)(R2)作為模型準(zhǔn)確性的評(píng)價(jià)標(biāo)準(zhǔn),建模過(guò)程通過(guò)Matlab 2019a軟件實(shí)現(xiàn),在進(jìn)行建模前,將所有數(shù)據(jù)進(jìn)行歸一化處理。
考慮到生產(chǎn)上采用冷藏、氣調(diào)貯藏蘋(píng)果的溫度通常在0℃,采用自然低溫貯藏時(shí)在5~15℃,消費(fèi)者在室溫存放又常為20~25℃,因此,蘋(píng)果采后可能存在的環(huán)境溫度為0~25℃范圍內(nèi)的任意溫度,本研究選定其中的4種特征溫度進(jìn)行仿真試驗(yàn)。
從圖3可看出,0℃下貯藏的蘋(píng)果12種品質(zhì)指標(biāo)變化速率最慢,隨著溫度的升高,變化速率加快。各指標(biāo)在不同溫度下的變化總趨勢(shì)一致,表現(xiàn)為3種類型:①漸降型。首先是可溶性固形物含量,各組可溶性固形物含量在第2個(gè)觀測(cè)點(diǎn)均出現(xiàn)短暫上升,這是果實(shí)采后初期淀粉等多糖降解量較大,可溶性糖的積累大于消耗,使其總量增加所致。而采后可溶性糖主要是作為呼吸底物而被消耗[28],因此,貯藏(貨架)全程呈現(xiàn)總體下降趨勢(shì)。其次,可滴定酸和還原型抗壞血酸含量也全程下降。抗壞血酸作為一種抗氧化劑,能清除機(jī)體內(nèi)活性氧,延緩衰老[29-30],其在中性和堿性環(huán)境下極易被氧化,它和可滴定酸總量的含量逐漸減少意味著蘋(píng)果果實(shí)貯藏過(guò)程中除了酸味會(huì)變淡外,果實(shí)營(yíng)養(yǎng)品質(zhì)也在下降;淀粉作為果實(shí)細(xì)胞重要的貯藏性物質(zhì),其降解與果實(shí)的軟化有關(guān)[31]。②上升型。質(zhì)量損失率呈現(xiàn)上升趨勢(shì),導(dǎo)致果實(shí)質(zhì)量損失的原因主要是水分的喪失和呼吸消耗[32]。隨著貯藏溫度的升高和貯藏時(shí)間的延長(zhǎng),黃藍(lán)度b、總色差ΔE、色彩飽和度C總體呈現(xiàn)上升狀態(tài),主要是由于在貯藏期間葉綠素逐漸被降解[33],反映了蘋(píng)果的底色逐漸黃化,光澤變暗。③起伏+漸變型。硬度在前7個(gè)觀測(cè)點(diǎn)和a、L在前3~5個(gè)觀測(cè)點(diǎn)取值均呈起伏式變化,以后緩慢下降,雖然隨著貯藏時(shí)間的延長(zhǎng),果膠物質(zhì)逐漸被細(xì)胞壁酶降解,細(xì)胞壁結(jié)構(gòu)逐漸發(fā)生變化,果實(shí)的硬度總體下降[32],但是,不同蘋(píng)果采后硬度下降快慢不同,“富士”蘋(píng)果以其“寧爛不綿”而著稱,此文結(jié)果從數(shù)據(jù)上展示了該品種硬度在貯藏全程下降慢的屬性;5~25℃組的前3個(gè)觀測(cè)點(diǎn)均表現(xiàn)a先上升再下降,對(duì)應(yīng)地,L先下降再上升,可見(jiàn),蘋(píng)果采后在貨架期紅度短暫增大,亮度短暫下降,這與果實(shí)采后后熟有關(guān)[33]。“富士”蘋(píng)果果實(shí)的這種變化特性在其它研究中也有所報(bào)道[29,34]。0℃組可溶性固形物含量和a的初期變化幅度小,L卻也先急降后上升,表明除了與紅度有關(guān)外,L還受到果面其它屬性,如果粉厚度等影響,是與糖分、紅綠度不完全相關(guān)的獨(dú)立屬性。
在建立貨架期預(yù)測(cè)模型時(shí),用簡(jiǎn)化的數(shù)據(jù)集作為模型的輸入變量可以節(jié)省運(yùn)算時(shí)間和預(yù)算。稀疏主成分分析(SPCA)和ReliefF算法對(duì)品質(zhì)指標(biāo)進(jìn)行排序的標(biāo)準(zhǔn)不同,SPCA算法是將高維數(shù)據(jù)向低維子空間映射降維,ReliefF算法側(cè)重于自變量對(duì)因變量的區(qū)分程度。表1列出這2種分析方法對(duì)品質(zhì)屬性的排序結(jié)果,可以看出,兩種排序結(jié)果有很大區(qū)別,SPCA中,當(dāng)k=1時(shí),得到的排序第一的品質(zhì)指標(biāo)為質(zhì)量損失率。ReliefF算法中,與貨架期關(guān)聯(lián)度最大的為L(zhǎng)。

表1 2種特征提取方法得到的品質(zhì)指標(biāo)排序結(jié)果Tab.1 Ranking of quality attributes obtained by three feature extraction methods
2.3.1GAN生成的有效數(shù)據(jù)
在構(gòu)建預(yù)測(cè)模型時(shí),數(shù)據(jù)集越大,預(yù)測(cè)模型能學(xué)習(xí)到的特征越多并且越準(zhǔn)確,從而越能避免模型的過(guò)擬合和欠擬合現(xiàn)象,使得模型的預(yù)測(cè)準(zhǔn)確性越高。而實(shí)際上,經(jīng)常由于試驗(yàn)材料、經(jīng)費(fèi)等眾多問(wèn)題使試驗(yàn)獲得的數(shù)據(jù)集較小。生成式對(duì)抗網(wǎng)絡(luò)(GAN)是一種深度學(xué)習(xí)算法,其通過(guò)生成器和判別器互相博弈來(lái)提高生成數(shù)據(jù)的準(zhǔn)確性。隨著迭代次數(shù)的增加,GAN的生成器會(huì)生成不同的數(shù)據(jù)。在此研究中,為了使品質(zhì)屬性的取值更加可靠,將年份之間作為重復(fù),獲得的理化指標(biāo)和對(duì)應(yīng)貨架期的平均值數(shù)據(jù)為51組,判別器對(duì)此真實(shí)數(shù)據(jù)和生成數(shù)據(jù)判別準(zhǔn)確率如圖4所示。可以看出,隨著迭代次數(shù)的增加,判別準(zhǔn)確率逐漸接近于0.50,當(dāng)?shù)螖?shù)為33 000次時(shí),判別真實(shí)數(shù)據(jù)的準(zhǔn)確率為0.51,判別生成數(shù)據(jù)的準(zhǔn)確率也為0.51,均最接近于0.50,繼續(xù)增大迭代次數(shù)至2.0×105,判別器對(duì)兩組數(shù)據(jù)判別準(zhǔn)確率偏差增大,說(shuō)明迭代次數(shù)為33 000時(shí)的生成器和判別器之間已經(jīng)接近納什均衡,即生成數(shù)據(jù)與真實(shí)數(shù)據(jù)已經(jīng)非常相似。由圖5(圖中參數(shù)序號(hào)1~14分別表示硬度(N/cm2)、可溶性固形物質(zhì)量分?jǐn)?shù)(%)、可滴定酸質(zhì)量分?jǐn)?shù)(%)、固酸比、還原型抗壞血酸質(zhì)量比(mg/kg)、淀粉質(zhì)量比(g/kg)、質(zhì)量損失率(%)、L、a、b、ΔE、C、貯藏溫度、貨架期)顯示,生成數(shù)據(jù)各指標(biāo)取值均在真實(shí)數(shù)據(jù)取值范圍之內(nèi),直觀表現(xiàn)了二者的相似性。由于前人的研究均沒(méi)有對(duì)GAN生成數(shù)據(jù)的合理量有具體約定[13-15],故選擇迭代次數(shù)33 000次時(shí)生成的38組數(shù)據(jù)作為通過(guò)GAN進(jìn)行數(shù)據(jù)生成的結(jié)果,用于后續(xù)的模型構(gòu)建。
按訓(xùn)練集和驗(yàn)證集為3∶1的比例進(jìn)行建模和驗(yàn)證,訓(xùn)練集經(jīng)生成式對(duì)抗網(wǎng)絡(luò)(GAN)擴(kuò)充得到的38組生成數(shù)據(jù)不用于驗(yàn)證集驗(yàn)證,即分別采用真實(shí)數(shù)據(jù)的3/4(38組)、真實(shí)數(shù)據(jù)+生成數(shù)據(jù)(76組)作為訓(xùn)練集,選取每個(gè)貯藏溫度下的剩余的1/4組數(shù)據(jù)(其中25℃共4組數(shù)據(jù),其它3個(gè)溫度各3組),共13組真實(shí)數(shù)據(jù)作為驗(yàn)證集來(lái)構(gòu)建BP-ANN和GAN-BP-ANN貨架期預(yù)測(cè)模型。
2.3.2GAN對(duì)ReliefF-BP-ANN預(yù)測(cè)貨架期準(zhǔn)確性的影響
為了評(píng)估GAN對(duì)于 BP-ANN貨架期預(yù)測(cè)模型的改進(jìn)作用,分別按照ReliefF排序方法的結(jié)果,將1~12個(gè)品質(zhì)指標(biāo)依次累加,再加上貯藏溫度作為輸入層變量,分別建立經(jīng)過(guò)訓(xùn)練集擴(kuò)充的ReliefF-GAN-BP-ANN模型和未經(jīng)訓(xùn)練集擴(kuò)充的ReliefF-BP-ANN模型。為了有效評(píng)估GAN的作用,均將各個(gè)模型重復(fù)訓(xùn)練100次,取其平均值作為最后的結(jié)果,模型的最大訓(xùn)練次數(shù)、學(xué)習(xí)率和激活函數(shù)均相同。由表2可知,ReliefF-GAN-BP-ANN模型其訓(xùn)練集平均相對(duì)誤差在0~0.095之間,ReliefF-BP-ANN模型其訓(xùn)練集平均相對(duì)誤差在0~0.112之間,ReliefF-GAN-BP-ANN相比ReliefF-BP-ANN模型,其建模效率沒(méi)有明顯的改善。由圖6可直觀地看出,采用ReliefF-GAN-BP-ANN模型其驗(yàn)證集的平均相對(duì)誤差均低于ReliefF-BP-ANN模型,決定系數(shù)均高于ReliefF-BP-ANN模型,表明附加GAN的BP-ANN模型(ReliefF-GAN-BP-ANN)對(duì)本研究中建模較單獨(dú)采用ReliefF-BP-ANN的準(zhǔn)確度有明顯提高,有效地增加了模型的預(yù)測(cè)準(zhǔn)確率,說(shuō)明GAN生成數(shù)據(jù)的有效性及增大數(shù)據(jù)集改進(jìn)BP-ANN預(yù)測(cè)貨架期的準(zhǔn)確性。由圖6可知,用ReliefF對(duì)品質(zhì)指標(biāo)進(jìn)行排序后,分別構(gòu)建ReliefF-BP-ANN和ReliefF-GAN-BP-ANN模型,當(dāng)采用排序前8的8個(gè)品質(zhì)指標(biāo)即L、還原型抗壞血酸含量、a、C、ΔE、可滴定酸含量、硬度、b和貯藏溫度作為ReliefF-GAN-BP-ANN的輸入變量時(shí),驗(yàn)證集中13組數(shù)據(jù)的預(yù)測(cè)值與真實(shí)值的平均相對(duì)誤差最小,為0.154,決定系數(shù)為0.957。

表2 采用ReliefF排序方法構(gòu)建GAN-BP-ANN和BP-ANN模型訓(xùn)練集的平均相對(duì)誤差Tab.2 Mean relative error of GAN-BP-ANN and BP-ANN model training set based on ReliefF
2.3.3GAN對(duì)SPCA-BP-ANN預(yù)測(cè)貨架期準(zhǔn)確性的影響
按照SPCA排序方法的結(jié)果,將1~12個(gè)品質(zhì)指標(biāo)依次累加,再加上貯藏溫度作為輸入層變量,分別建立經(jīng)過(guò)訓(xùn)練集擴(kuò)充的SPCA-GAN-BP-ANN模型和未經(jīng)訓(xùn)練集擴(kuò)充的SPCA-BP-ANN模型。均將各個(gè)模型重復(fù)訓(xùn)練100次,取其平均值作為最后的結(jié)果,模型的最大訓(xùn)練次數(shù)、學(xué)習(xí)率和激活函數(shù)均相同。由表3可知,SPCA-GAN-BP-ANN模型其訓(xùn)練集平均相對(duì)誤差在0~0.018之間,SPCA-BP-ANN模型其訓(xùn)練集平均相對(duì)誤差在0~0.019之間,均小于ReliefF-GAN-BP-ANN和ReliefF-BP-ANN模型,SPCA-GAN-BP-ANN相比SPCA-BP-ANN模型,其建模效率沒(méi)有明顯的改善。由圖7可見(jiàn),采用SPCA-GAN-BP-ANN模型其驗(yàn)證集的平均相對(duì)誤差也均低于SPCA-BP-ANN模型,決定系數(shù)也均高于BP-ANN模型。當(dāng)采用排序第1的品質(zhì)指標(biāo)即質(zhì)量損失率和貯藏溫度(D1組)一起作為GAN-BP-ANN的輸入變量時(shí),驗(yàn)證集中13組數(shù)據(jù)的預(yù)測(cè)值與真實(shí)值的平均相對(duì)誤差最小,為0.052,決定系數(shù)為0.989。當(dāng)采用排序前2的兩個(gè)品質(zhì)指標(biāo)和貯藏溫度作為輸入層時(shí),即質(zhì)量損失率、b和貯藏溫度(D2組)作為GAN-BP-ANN的輸入變量時(shí),驗(yàn)證集中13組數(shù)據(jù)的預(yù)測(cè)值與真實(shí)值的平均相對(duì)誤差為0.064,決定系數(shù)為0.990。當(dāng)采用排序前6的6個(gè)品質(zhì)指標(biāo)即質(zhì)量損失率、b、淀粉含量、可滴定酸含量、還原型抗壞血酸含量、ΔE和貯藏溫度(D3組)作為GAN-BP-ANN的輸入變量時(shí),驗(yàn)證集中13組數(shù)據(jù)的預(yù)測(cè)值與真實(shí)值的平均相對(duì)誤差為0.070,決定系數(shù)為0.992。綜合可知,2種特征選擇方法中,SPCA通過(guò)特征累加所構(gòu)建的模型其驗(yàn)證集平均相對(duì)誤差最小,通過(guò)SPCA挑選出3組GAN-BP-ANN建模的特征品質(zhì)指標(biāo),即:質(zhì)量損失率和貯藏溫度(D1組);質(zhì)量損失率、b和貯藏溫度(D2組);質(zhì)量損失率、b、淀粉含量、可滴定酸含量、還原型抗壞血酸含量、ΔE和貯藏溫度(D3組),其驗(yàn)證集中13組數(shù)據(jù)的相對(duì)誤差分別為0.052、0.064和0.070,低于BP-ANN的0.109、0.104和0.115,即附加GAN的模型把預(yù)測(cè)準(zhǔn)確度從平均0.891提高到0.938,提高了0.047;驗(yàn)證集中預(yù)測(cè)值和真實(shí)值決定系數(shù)R2分別為0.989、0.990和0.992,大于等于未附加GAN模型的0.989、0.963和0.991。這說(shuō)明輸入層為D1、D2和D3組所構(gòu)建的GAN-BP-ANN模型可以較為準(zhǔn)確地預(yù)測(cè)采后蘋(píng)果的貨架期。

表3 SPCA排序方法構(gòu)建GAN-BP-ANN和BP-ANN模型訓(xùn)練集的平均相對(duì)誤差Tab.3 Mean relative error of GAN-BP-ANN and BP-ANN model training set based on SPCA
2.3.4GAN-BP-ANN模型與其它貨架期預(yù)測(cè)模型的比較
常用的貨架期預(yù)測(cè)模型還包括多元線性回歸(MLR)、決策樹(shù)(DT)和支持向量機(jī)(SVM)等。分別建立品質(zhì)屬性與貨架期之間的多元線性回歸(MLR)、決策樹(shù)(DT)模型和支持向量機(jī)(SVM)等,使用上述通過(guò)SPCA得到的最優(yōu)模型的輸入變量作為輸入變量,即分別使用質(zhì)量損失率和貯藏溫度(D1組);質(zhì)量損失率、b和貯藏溫度(D2組);質(zhì)量損失率、b、淀粉含量、可滴定酸含量、還原型抗壞血酸含量、ΔE和貯藏溫度(D3組)作為輸入變量,其訓(xùn)練集和驗(yàn)證集平均相對(duì)誤差和決定系數(shù)如表4所示,可以看出其訓(xùn)練集和驗(yàn)證集的平均相對(duì)誤差均比較高,決定系數(shù)均比較低。上述選出的最優(yōu)模型其性能均優(yōu)于MLR、DT和SVM。

表4 多元線性回歸(MLR)、決策樹(shù)(DT)和支持向量機(jī)(SVM)貨架期預(yù)測(cè)模型訓(xùn)練集和驗(yàn)證集的平均相對(duì)誤差和決定系數(shù)Tab.4 Mean relative error and determination coefficient of training set and validation set of multiple linear regression (MLR), decision tree (DT) and support vector machine (SVM) shelf-life prediction models
(1)采用GAN法對(duì)觀測(cè)數(shù)據(jù)集進(jìn)行擴(kuò)充,迭代次數(shù)33 000次時(shí)生成器和判別器之間接近納什均衡,生成數(shù)據(jù)均在真實(shí)數(shù)據(jù)的分布范圍之內(nèi)。
(2) 2種變量排序法下,均以附加GAN的BP-ANN所建模型對(duì)貨架期的預(yù)測(cè)準(zhǔn)確度高。且以SPCA法排序結(jié)果構(gòu)建GAN-BP-ANN模型的平均相對(duì)誤差較ReliefF更低,部分驗(yàn)證集的平均相對(duì)誤差均在0.07以內(nèi),比未附加GAN的BP-ANN模型預(yù)測(cè)準(zhǔn)確度提升了0.047。結(jié)合SPCA法特征變量選擇的GAN-BP-ANN模型被確定為預(yù)測(cè)蘋(píng)果貨架期的有效方法。