蘋(píng)果貨架期GAN-BP-ANN預(yù)測(cè)模型研究

2021-12-07 05:36:52馬惠玲曹夢(mèng)柯邱凌雨任小林

農(nóng)業(yè)機(jī)械學(xué)報(bào) 2021年11期

關(guān)鍵詞：排序模型

馬惠玲曹夢(mèng)柯王棟邱凌雨任小林

(1.西北農(nóng)林科技大學(xué)生命科學(xué)學(xué)院，陜西楊凌 712100; 2.西北農(nóng)林科技大學(xué)園藝學(xué)院，陜西楊凌 712100)

0 引言

我國(guó)蘋(píng)果年產(chǎn)量約占世界總產(chǎn)量的50%[1]。準(zhǔn)確預(yù)測(cè)貨架期能有效減少貯藏?fù)p失，保障上市果實(shí)品質(zhì)。在蘋(píng)果保鮮技術(shù)的研究中，通常測(cè)定失重率、可溶性固形物含量、可滴定酸含量、硬度、色值、抗壞血酸含量等品質(zhì)指標(biāo)來(lái)衡量保鮮效果[2-5]。因此，有望從中篩選特征指標(biāo)或組合來(lái)用于采后蘋(píng)果的貨架期預(yù)測(cè)。目前在一些果蔬上已成功運(yùn)用品質(zhì)指標(biāo)來(lái)構(gòu)建貨架期預(yù)測(cè)模型[6-8]。

廣泛應(yīng)用于貨架期預(yù)測(cè)的模型主要包括傳統(tǒng)的動(dòng)力學(xué)模型以及機(jī)器學(xué)習(xí)模型等。前人對(duì)蘋(píng)果采后品質(zhì)指標(biāo)變化也進(jìn)行了探究，以及建立了Arrhenius貨架期預(yù)測(cè)方程，但預(yù)測(cè)準(zhǔn)確率較低[9]，說(shuō)明常用的動(dòng)力學(xué)模型難以表征蘋(píng)果采后品質(zhì)綜合變化的復(fù)雜性，從而使其預(yù)測(cè)誤差率較高。機(jī)器學(xué)習(xí)模型如反向傳播人工神經(jīng)網(wǎng)絡(luò)(Back propagation-artificial neural networks, BP-ANN)已經(jīng)廣泛應(yīng)用于農(nóng)產(chǎn)品[10-12]的貨架期預(yù)測(cè)問(wèn)題上。然而，由于機(jī)器學(xué)習(xí)模型的復(fù)雜性，小樣本數(shù)據(jù)集容易造成過(guò)擬合、欠擬合現(xiàn)象。擴(kuò)充數(shù)據(jù)集，可以在一定程度上降低過(guò)擬合現(xiàn)象，提高模型預(yù)測(cè)的準(zhǔn)確率。SMOTE(Synthetic minority over-sampling technique)及其改進(jìn)算法的數(shù)據(jù)合成方法屬于線性插值法，其合成的數(shù)據(jù)和實(shí)際數(shù)據(jù)相關(guān)性不強(qiáng)[13]。生成式對(duì)抗網(wǎng)絡(luò)(GAN)模型是一種基于深度學(xué)習(xí)的數(shù)據(jù)生成方法，其基于博弈理論的數(shù)據(jù)生成原理，并采用無(wú)監(jiān)督的學(xué)習(xí)方法，能自動(dòng)對(duì)數(shù)據(jù)集進(jìn)行學(xué)習(xí)，生成高質(zhì)量的數(shù)據(jù)[14]。目前GAN已經(jīng)應(yīng)用于在一些小規(guī)模樣本生成問(wèn)題上[13,15-17]，暫未發(fā)現(xiàn)其用于果蔬理化指標(biāo)數(shù)據(jù)的生成。

“富士”作為蘋(píng)果中的優(yōu)良品種，在我國(guó)和日本的種植比例都高達(dá)50%以上[18]。本文使用GAN提升BP-ANN模型的預(yù)測(cè)性能，基于蘋(píng)果貯藏期間的真實(shí)數(shù)據(jù)來(lái)生成采后“富士”蘋(píng)果的理化品質(zhì)指標(biāo)、貯藏溫度及貨架期數(shù)據(jù)，擴(kuò)大BP-ANN的訓(xùn)練樣本集數(shù)量，結(jié)合不同的變量排序方式對(duì)品質(zhì)指標(biāo)進(jìn)行排序，分別建立品質(zhì)指標(biāo)和貯藏溫度作為輸入變量的貨架期預(yù)測(cè)模型。

1 材料與方法

1.1 材料與處理

分別于2016—2018年10月10—11日在陜西省渭南市白水縣某果園采收達(dá)到商品成熟期的套袋栽培的“富士”蘋(píng)果(采收前7 d脫去最后一層半透明果袋)，選取果形規(guī)整、表面光潔、大小均勻的套袋果，去果袋，單果套發(fā)泡網(wǎng)，運(yùn)回西北農(nóng)林科技大學(xué)(3 h)。于0℃冷庫(kù)預(yù)冷24 h，散去田間熱量，再分別在溫度0、5、15、25℃和相對(duì)濕度 85%～90%的條件下貯藏，所有果實(shí)均裝于加有厚度11 μm塑料內(nèi)襯袋的果框內(nèi)，袋口松散折疊以保濕。0℃貯藏果前72 d每12 d取樣一次，后198 d每24 d取樣一次；5℃貯藏果前63 d每9 d取樣一次，后108 d每18 d取樣一次；15℃果每6 d取樣一次，25℃果每3 d一次。每次取樣隨機(jī)抽取12個(gè)果實(shí)，以4個(gè)為一組建立3個(gè)生物學(xué)重復(fù)，用于在貯藏期間的各品質(zhì)指標(biāo)測(cè)定。

1.2 貨架期蘋(píng)果理化品質(zhì)測(cè)定

1.2.1顏色參數(shù)

使用白板校準(zhǔn)后的CR-400型色差計(jì) (日本Konica Minolta公司)，分別用果實(shí)赤道線均勻的5個(gè)點(diǎn)來(lái)測(cè)定果實(shí)的顏色參數(shù)(亮度L、紅綠度a、黃藍(lán)度b)。總色差ΔE和飽和度C計(jì)算公式為

(1)

(2)

式中L0、a0、b0——顏色參數(shù)初始值

1.2.2硬度

沿蘋(píng)果果實(shí)赤道線的陰陽(yáng)兩面各取兩點(diǎn)削去1 cm×1 cm果皮，然后采用GY-3型果蔬硬度計(jì)(意大利Aldo Brue公司)測(cè)定硬度，單位為N/cm2。

1.2.3可溶性固形物含量、可滴定酸含量和固酸比

沿果實(shí)的赤道面，隨機(jī)選取3個(gè)點(diǎn)，每個(gè)點(diǎn)去皮后各取10 g果肉，用榨汁機(jī)榨出汁，用吸管吸取3滴果汁，使用SW-LB32T型折光儀測(cè)定蘋(píng)果的可溶性固形物含量，用質(zhì)量分?jǐn)?shù)表示。取剩余的果汁，采用酸堿滴定法測(cè)定可滴定酸含量[19]，用質(zhì)量分?jǐn)?shù)表示。固酸比為可溶性固形物與可滴定酸質(zhì)量分?jǐn)?shù)的比值。

1.2.4抗壞血酸含量

隨機(jī)稱取蘋(píng)果鮮樣5 g,采用鉬藍(lán)比色法[20]測(cè)定果實(shí)中還原型抗壞血酸的質(zhì)量比，單位為mg/kg。

1.2.5淀粉含量

隨機(jī)稱取蘋(píng)果鮮樣1.5 g,采用硫酸蒽酮法[21]測(cè)定果實(shí)中淀粉質(zhì)量比,單位為g/kg。

1.2.6質(zhì)量損失率

每次取樣時(shí)稱取蘋(píng)果的鮮質(zhì)量，以質(zhì)量隨時(shí)間下降的百分比計(jì)算質(zhì)量損失率。

1.3 貨架期蘋(píng)果感官品質(zhì)的觀測(cè)與評(píng)定

請(qǐng)10名經(jīng)過(guò)專業(yè)培訓(xùn)的人員，對(duì)每次取樣的12個(gè)果實(shí)進(jìn)行品嘗和感官品質(zhì)評(píng)分，參照文獻(xiàn)[22]的評(píng)定項(xiàng)目和權(quán)重，每批果實(shí)的得分值為10個(gè)品嘗員評(píng)分的平均值。

1.4 數(shù)據(jù)處理

1.4.1理化品質(zhì)指標(biāo)排序

(1)稀疏主成分分析

稀疏主成分分析是在主成分分析的基礎(chǔ)上引入帶有稀疏度的懲罰系數(shù)或者不同的系數(shù)約束條件，使得到的部分載荷向量為零，從而得到稀疏的主成分[23]。

(2)ReliefF算法

ReliefF算法最早由文獻(xiàn)[24]提出,最早用于解決二分類問(wèn)題，ReliefF算法是公認(rèn)的效果較好的Filter式特征評(píng)估算法。其關(guān)鍵思想是根據(jù)屬性的值對(duì)實(shí)例的區(qū)分程度去估計(jì)這個(gè)特征區(qū)分鄰近樣本的能力，特征選擇的思路是選取一個(gè)特征子集，使得特征子集上的分類錯(cuò)誤率最小[25-26]。預(yù)測(cè)的品質(zhì)指標(biāo)權(quán)重通常取決于最近鄰的數(shù)量，在本研究中，一共有12個(gè)品質(zhì)指標(biāo)，將最近鄰分別設(shè)置為從2到11的數(shù)，計(jì)算預(yù)測(cè)權(quán)重平均值來(lái)作為最終結(jié)果，其權(quán)重即代表品質(zhì)屬性的重要程度，權(quán)重越大，則該品質(zhì)屬性越重要。

1.4.2附加GAN的BP-ANN貨架期預(yù)測(cè)模型

生成式對(duì)抗網(wǎng)絡(luò)(GAN)是由文獻(xiàn)[27]提出的基于博弈論的生成式深度學(xué)習(xí)算法。GAN的一般結(jié)構(gòu)如圖1所示，主要由生成器和判別器兩部分組成。由生成器接收隨機(jī)噪聲數(shù)據(jù)，真實(shí)數(shù)據(jù)的標(biāo)簽為0，生成數(shù)據(jù)的標(biāo)簽為1，由判別器判別是真實(shí)數(shù)據(jù)還是生成器生成的數(shù)據(jù)，判別器的損失函數(shù)為一個(gè)二分類模型，可通過(guò)交叉熵計(jì)算目標(biāo)函數(shù)，其損失函數(shù)為

(3)

式中G、D——生成器和判別器的可微函數(shù)

E——目標(biāo)函數(shù)的期望值

x——真實(shí)樣本數(shù)據(jù)

z——隨機(jī)噪聲

G(z)——判別器的生成數(shù)據(jù)

下角標(biāo)x～Pdata(x)表示x采樣于真實(shí)數(shù)據(jù)分布Pdata(x)，z～Pz(z)表示z采樣于真實(shí)數(shù)據(jù)分布Pz(z)。

第1項(xiàng)代表D判斷出x是真實(shí)數(shù)據(jù)的情況，第2項(xiàng)代表D判斷數(shù)據(jù)是否是由生成器G將噪聲矢量z映射而成的生成數(shù)據(jù)。G和D進(jìn)行二元零和博弈，GAN算法的流程為先固定生成器優(yōu)化判別器，使得判別器的判別準(zhǔn)確率最大化，然后固定判別器，優(yōu)化生成器使得判別器的判別準(zhǔn)確率最小。當(dāng)且僅當(dāng)Pdata(判別真實(shí)數(shù)據(jù)的準(zhǔn)確率)等于Pg(判別生成數(shù)據(jù)的準(zhǔn)確率)時(shí)達(dá)到全局最優(yōu)解。

生成器和判別器均采用全連接網(wǎng)絡(luò)結(jié)構(gòu)。生成器是由兩層感知機(jī)組成，其輸入為隨機(jī)噪聲，第1層其激活函數(shù)為ReLU，由 25個(gè)隱藏層神經(jīng)元組成，第2層其激活函數(shù)為L(zhǎng)inear，輸出維度為14的數(shù)據(jù)。判別器也是由兩層感知機(jī)組成，其輸入為真實(shí)數(shù)據(jù)和生成器生成的假數(shù)據(jù)，第1層由25個(gè)神經(jīng)元組成，其激活函數(shù)為ReLU，第2層由1個(gè)神經(jīng)元組成，其激活函數(shù)為Sigmoid。每訓(xùn)練3 000次，保存一次模型。文獻(xiàn)[15]通過(guò)直接觀察生成的菌菇表型圖像數(shù)據(jù)來(lái)選擇GAN生成的圖像；文獻(xiàn)[13]根據(jù)鴨蛋的蛋形指數(shù)來(lái)選擇GAN生成的數(shù)據(jù)；文獻(xiàn)[17]根據(jù)模型預(yù)測(cè)的準(zhǔn)確率來(lái)判斷GAN模型對(duì)于長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)的改進(jìn)作用，從而選擇GAN生成的數(shù)據(jù)。在本研究中，蘋(píng)果的品質(zhì)指標(biāo)取值均隨著貯藏時(shí)間的變化而變化，而且品質(zhì)指標(biāo)無(wú)法像圖像一樣可以直接觀察，因此通過(guò)GAN的判別器判別真實(shí)數(shù)據(jù)和生成數(shù)據(jù)的準(zhǔn)確率對(duì)生成數(shù)據(jù)進(jìn)行初次選擇，并通過(guò)繪圖的形式，將生成數(shù)據(jù)和真實(shí)數(shù)據(jù)的取值范圍進(jìn)行比較，再通過(guò) GAN-BP-ANN模型預(yù)測(cè)貨架期的準(zhǔn)確性來(lái)再次判斷GAN生成數(shù)據(jù)的質(zhì)量。試驗(yàn)平臺(tái)為Windows 10系統(tǒng)，8 GB內(nèi)存，500GB SSD，1TB HD，Intel Core i5-5200U，2.20 GHz，Nvidia GeForce 930M,2 GB。算法采用Tensorflow V1.1GPU框架和Python 3.7實(shí)現(xiàn)。

BP-ANN模型是一種誤差反向傳播的模型，其通常由輸入層、隱藏層和輸出層3層組成。在此研究中，將品質(zhì)屬性和貯藏溫度作為輸入層，貨架期作為輸出層。將得到的品質(zhì)指標(biāo)，按照其排序結(jié)果，從1到12逐一疊加，再組合貯藏溫度，作為輸入變量分別建立擴(kuò)充數(shù)據(jù)集的GAN-BP-ANN和未擴(kuò)充數(shù)據(jù)集的BP-ANN貨架期預(yù)測(cè)模型。從圖2可以看出，基于GAN改進(jìn)的BP-ANN模型結(jié)構(gòu)將GAN生成的最優(yōu)解和真實(shí)測(cè)定的數(shù)據(jù)同時(shí)作為BP-ANN的輸入層，BP-ANN模型第1層的激活函數(shù)為T(mén)ansig，第2層的激活函數(shù)為Purelin，若在最大迭代次數(shù)內(nèi)未達(dá)到訓(xùn)練目標(biāo)，則根據(jù)相應(yīng)規(guī)則對(duì)參數(shù)進(jìn)行優(yōu)化，如果達(dá)到訓(xùn)練目標(biāo)，則保存模型，并根據(jù)保存的模型對(duì)驗(yàn)證集進(jìn)行預(yù)測(cè)。訓(xùn)練目標(biāo)為0.000 1，學(xué)習(xí)率為0.01，最大迭代次數(shù)為1 000。由于其初始化的權(quán)值和閾值對(duì)網(wǎng)絡(luò)的性能具有較大的影響，在此研究中通過(guò)多次建模來(lái)選擇最優(yōu)的權(quán)值和閾值。

采用平均相對(duì)誤差和決定系數(shù)(R2)作為模型準(zhǔn)確性的評(píng)價(jià)標(biāo)準(zhǔn)，建模過(guò)程通過(guò)Matlab 2019a軟件實(shí)現(xiàn)，在進(jìn)行建模前，將所有數(shù)據(jù)進(jìn)行歸一化處理。

2 結(jié)果與分析

2.1 不同溫度下蘋(píng)果品質(zhì)指標(biāo)的變化趨勢(shì)

考慮到生產(chǎn)上采用冷藏、氣調(diào)貯藏蘋(píng)果的溫度通常在0℃，采用自然低溫貯藏時(shí)在5～15℃，消費(fèi)者在室溫存放又常為20～25℃，因此，蘋(píng)果采后可能存在的環(huán)境溫度為0～25℃范圍內(nèi)的任意溫度，本研究選定其中的4種特征溫度進(jìn)行仿真試驗(yàn)。

從圖3可看出，0℃下貯藏的蘋(píng)果12種品質(zhì)指標(biāo)變化速率最慢，隨著溫度的升高，變化速率加快。各指標(biāo)在不同溫度下的變化總趨勢(shì)一致，表現(xiàn)為3種類型：①漸降型。首先是可溶性固形物含量，各組可溶性固形物含量在第2個(gè)觀測(cè)點(diǎn)均出現(xiàn)短暫上升，這是果實(shí)采后初期淀粉等多糖降解量較大，可溶性糖的積累大于消耗，使其總量增加所致。而采后可溶性糖主要是作為呼吸底物而被消耗[28]，因此，貯藏(貨架)全程呈現(xiàn)總體下降趨勢(shì)。其次，可滴定酸和還原型抗壞血酸含量也全程下降。抗壞血酸作為一種抗氧化劑，能清除機(jī)體內(nèi)活性氧，延緩衰老[29-30]，其在中性和堿性環(huán)境下極易被氧化，它和可滴定酸總量的含量逐漸減少意味著蘋(píng)果果實(shí)貯藏過(guò)程中除了酸味會(huì)變淡外，果實(shí)營(yíng)養(yǎng)品質(zhì)也在下降；淀粉作為果實(shí)細(xì)胞重要的貯藏性物質(zhì)，其降解與果實(shí)的軟化有關(guān)[31]。②上升型。質(zhì)量損失率呈現(xiàn)上升趨勢(shì)，導(dǎo)致果實(shí)質(zhì)量損失的原因主要是水分的喪失和呼吸消耗[32]。隨著貯藏溫度的升高和貯藏時(shí)間的延長(zhǎng)，黃藍(lán)度b、總色差ΔE、色彩飽和度C總體呈現(xiàn)上升狀態(tài)，主要是由于在貯藏期間葉綠素逐漸被降解[33]，反映了蘋(píng)果的底色逐漸黃化，光澤變暗。③起伏+漸變型。硬度在前7個(gè)觀測(cè)點(diǎn)和a、L在前3～5個(gè)觀測(cè)點(diǎn)取值均呈起伏式變化，以后緩慢下降，雖然隨著貯藏時(shí)間的延長(zhǎng)，果膠物質(zhì)逐漸被細(xì)胞壁酶降解，細(xì)胞壁結(jié)構(gòu)逐漸發(fā)生變化，果實(shí)的硬度總體下降[32]，但是，不同蘋(píng)果采后硬度下降快慢不同，“富士”蘋(píng)果以其“寧爛不綿”而著稱，此文結(jié)果從數(shù)據(jù)上展示了該品種硬度在貯藏全程下降慢的屬性；5～25℃組的前3個(gè)觀測(cè)點(diǎn)均表現(xiàn)a先上升再下降，對(duì)應(yīng)地，L先下降再上升，可見(jiàn)，蘋(píng)果采后在貨架期紅度短暫增大，亮度短暫下降，這與果實(shí)采后后熟有關(guān)[33]。“富士”蘋(píng)果果實(shí)的這種變化特性在其它研究中也有所報(bào)道[29，34]。0℃組可溶性固形物含量和a的初期變化幅度小，L卻也先急降后上升，表明除了與紅度有關(guān)外，L還受到果面其它屬性，如果粉厚度等影響，是與糖分、紅綠度不完全相關(guān)的獨(dú)立屬性。

2.2 品質(zhì)指標(biāo)重要性排序結(jié)果

在建立貨架期預(yù)測(cè)模型時(shí)，用簡(jiǎn)化的數(shù)據(jù)集作為模型的輸入變量可以節(jié)省運(yùn)算時(shí)間和預(yù)算。稀疏主成分分析(SPCA)和ReliefF算法對(duì)品質(zhì)指標(biāo)進(jìn)行排序的標(biāo)準(zhǔn)不同，SPCA算法是將高維數(shù)據(jù)向低維子空間映射降維，ReliefF算法側(cè)重于自變量對(duì)因變量的區(qū)分程度。表1列出這2種分析方法對(duì)品質(zhì)屬性的排序結(jié)果，可以看出，兩種排序結(jié)果有很大區(qū)別，SPCA中，當(dāng)k=1時(shí)，得到的排序第一的品質(zhì)指標(biāo)為質(zhì)量損失率。ReliefF算法中，與貨架期關(guān)聯(lián)度最大的為L(zhǎng)。

表1 2種特征提取方法得到的品質(zhì)指標(biāo)排序結(jié)果Tab.1 Ranking of quality attributes obtained by three feature extraction methods

2.3 附加GAN的BP-ANN貨架期預(yù)測(cè)模型構(gòu)建

2.3.1GAN生成的有效數(shù)據(jù)

在構(gòu)建預(yù)測(cè)模型時(shí)，數(shù)據(jù)集越大，預(yù)測(cè)模型能學(xué)習(xí)到的特征越多并且越準(zhǔn)確，從而越能避免模型的過(guò)擬合和欠擬合現(xiàn)象，使得模型的預(yù)測(cè)準(zhǔn)確性越高。而實(shí)際上，經(jīng)常由于試驗(yàn)材料、經(jīng)費(fèi)等眾多問(wèn)題使試驗(yàn)獲得的數(shù)據(jù)集較小。生成式對(duì)抗網(wǎng)絡(luò)(GAN)是一種深度學(xué)習(xí)算法，其通過(guò)生成器和判別器互相博弈來(lái)提高生成數(shù)據(jù)的準(zhǔn)確性。隨著迭代次數(shù)的增加，GAN的生成器會(huì)生成不同的數(shù)據(jù)。在此研究中，為了使品質(zhì)屬性的取值更加可靠，將年份之間作為重復(fù)，獲得的理化指標(biāo)和對(duì)應(yīng)貨架期的平均值數(shù)據(jù)為51組，判別器對(duì)此真實(shí)數(shù)據(jù)和生成數(shù)據(jù)判別準(zhǔn)確率如圖4所示。可以看出，隨著迭代次數(shù)的增加，判別準(zhǔn)確率逐漸接近于0.50，當(dāng)?shù)螖?shù)為33 000次時(shí)，判別真實(shí)數(shù)據(jù)的準(zhǔn)確率為0.51，判別生成數(shù)據(jù)的準(zhǔn)確率也為0.51，均最接近于0.50，繼續(xù)增大迭代次數(shù)至2.0×105，判別器對(duì)兩組數(shù)據(jù)判別準(zhǔn)確率偏差增大，說(shuō)明迭代次數(shù)為33 000時(shí)的生成器和判別器之間已經(jīng)接近納什均衡，即生成數(shù)據(jù)與真實(shí)數(shù)據(jù)已經(jīng)非常相似。由圖5(圖中參數(shù)序號(hào)1～14分別表示硬度(N/cm2)、可溶性固形物質(zhì)量分?jǐn)?shù)(%)、可滴定酸質(zhì)量分?jǐn)?shù)(%)、固酸比、還原型抗壞血酸質(zhì)量比(mg/kg)、淀粉質(zhì)量比(g/kg)、質(zhì)量損失率(%)、L、a、b、ΔE、C、貯藏溫度、貨架期)顯示，生成數(shù)據(jù)各指標(biāo)取值均在真實(shí)數(shù)據(jù)取值范圍之內(nèi)，直觀表現(xiàn)了二者的相似性。由于前人的研究均沒(méi)有對(duì)GAN生成數(shù)據(jù)的合理量有具體約定[13-15]，故選擇迭代次數(shù)33 000次時(shí)生成的38組數(shù)據(jù)作為通過(guò)GAN進(jìn)行數(shù)據(jù)生成的結(jié)果，用于后續(xù)的模型構(gòu)建。

按訓(xùn)練集和驗(yàn)證集為3∶1的比例進(jìn)行建模和驗(yàn)證，訓(xùn)練集經(jīng)生成式對(duì)抗網(wǎng)絡(luò)(GAN)擴(kuò)充得到的38組生成數(shù)據(jù)不用于驗(yàn)證集驗(yàn)證，即分別采用真實(shí)數(shù)據(jù)的3/4(38組)、真實(shí)數(shù)據(jù)+生成數(shù)據(jù)(76組)作為訓(xùn)練集，選取每個(gè)貯藏溫度下的剩余的1/4組數(shù)據(jù)(其中25℃共4組數(shù)據(jù)，其它3個(gè)溫度各3組)，共13組真實(shí)數(shù)據(jù)作為驗(yàn)證集來(lái)構(gòu)建BP-ANN和GAN-BP-ANN貨架期預(yù)測(cè)模型。

2.3.2GAN對(duì)ReliefF-BP-ANN預(yù)測(cè)貨架期準(zhǔn)確性的影響

為了評(píng)估GAN對(duì)于 BP-ANN貨架期預(yù)測(cè)模型的改進(jìn)作用，分別按照ReliefF排序方法的結(jié)果，將1～12個(gè)品質(zhì)指標(biāo)依次累加，再加上貯藏溫度作為輸入層變量，分別建立經(jīng)過(guò)訓(xùn)練集擴(kuò)充的ReliefF-GAN-BP-ANN模型和未經(jīng)訓(xùn)練集擴(kuò)充的ReliefF-BP-ANN模型。為了有效評(píng)估GAN的作用，均將各個(gè)模型重復(fù)訓(xùn)練100次，取其平均值作為最后的結(jié)果，模型的最大訓(xùn)練次數(shù)、學(xué)習(xí)率和激活函數(shù)均相同。由表2可知，ReliefF-GAN-BP-ANN模型其訓(xùn)練集平均相對(duì)誤差在0～0.095之間，ReliefF-BP-ANN模型其訓(xùn)練集平均相對(duì)誤差在0～0.112之間，ReliefF-GAN-BP-ANN相比ReliefF-BP-ANN模型，其建模效率沒(méi)有明顯的改善。由圖6可直觀地看出，采用ReliefF-GAN-BP-ANN模型其驗(yàn)證集的平均相對(duì)誤差均低于ReliefF-BP-ANN模型，決定系數(shù)均高于ReliefF-BP-ANN模型，表明附加GAN的BP-ANN模型(ReliefF-GAN-BP-ANN)對(duì)本研究中建模較單獨(dú)采用ReliefF-BP-ANN的準(zhǔn)確度有明顯提高，有效地增加了模型的預(yù)測(cè)準(zhǔn)確率，說(shuō)明GAN生成數(shù)據(jù)的有效性及增大數(shù)據(jù)集改進(jìn)BP-ANN預(yù)測(cè)貨架期的準(zhǔn)確性。由圖6可知，用ReliefF對(duì)品質(zhì)指標(biāo)進(jìn)行排序后，分別構(gòu)建ReliefF-BP-ANN和ReliefF-GAN-BP-ANN模型，當(dāng)采用排序前8的8個(gè)品質(zhì)指標(biāo)即L、還原型抗壞血酸含量、a、C、ΔE、可滴定酸含量、硬度、b和貯藏溫度作為ReliefF-GAN-BP-ANN的輸入變量時(shí)，驗(yàn)證集中13組數(shù)據(jù)的預(yù)測(cè)值與真實(shí)值的平均相對(duì)誤差最小，為0.154，決定系數(shù)為0.957。

表2 采用ReliefF排序方法構(gòu)建GAN-BP-ANN和BP-ANN模型訓(xùn)練集的平均相對(duì)誤差Tab.2 Mean relative error of GAN-BP-ANN and BP-ANN model training set based on ReliefF

2.3.3GAN對(duì)SPCA-BP-ANN預(yù)測(cè)貨架期準(zhǔn)確性的影響

按照SPCA排序方法的結(jié)果，將1～12個(gè)品質(zhì)指標(biāo)依次累加，再加上貯藏溫度作為輸入層變量，分別建立經(jīng)過(guò)訓(xùn)練集擴(kuò)充的SPCA-GAN-BP-ANN模型和未經(jīng)訓(xùn)練集擴(kuò)充的SPCA-BP-ANN模型。均將各個(gè)模型重復(fù)訓(xùn)練100次，取其平均值作為最后的結(jié)果，模型的最大訓(xùn)練次數(shù)、學(xué)習(xí)率和激活函數(shù)均相同。由表3可知，SPCA-GAN-BP-ANN模型其訓(xùn)練集平均相對(duì)誤差在0～0.018之間，SPCA-BP-ANN模型其訓(xùn)練集平均相對(duì)誤差在0～0.019之間，均小于ReliefF-GAN-BP-ANN和ReliefF-BP-ANN模型，SPCA-GAN-BP-ANN相比SPCA-BP-ANN模型，其建模效率沒(méi)有明顯的改善。由圖7可見(jiàn)，采用SPCA-GAN-BP-ANN模型其驗(yàn)證集的平均相對(duì)誤差也均低于SPCA-BP-ANN模型，決定系數(shù)也均高于BP-ANN模型。當(dāng)采用排序第1的品質(zhì)指標(biāo)即質(zhì)量損失率和貯藏溫度(D1組)一起作為GAN-BP-ANN的輸入變量時(shí)，驗(yàn)證集中13組數(shù)據(jù)的預(yù)測(cè)值與真實(shí)值的平均相對(duì)誤差最小，為0.052，決定系數(shù)為0.989。當(dāng)采用排序前2的兩個(gè)品質(zhì)指標(biāo)和貯藏溫度作為輸入層時(shí)，即質(zhì)量損失率、b和貯藏溫度(D2組)作為GAN-BP-ANN的輸入變量時(shí)，驗(yàn)證集中13組數(shù)據(jù)的預(yù)測(cè)值與真實(shí)值的平均相對(duì)誤差為0.064，決定系數(shù)為0.990。當(dāng)采用排序前6的6個(gè)品質(zhì)指標(biāo)即質(zhì)量損失率、b、淀粉含量、可滴定酸含量、還原型抗壞血酸含量、ΔE和貯藏溫度(D3組)作為GAN-BP-ANN的輸入變量時(shí)，驗(yàn)證集中13組數(shù)據(jù)的預(yù)測(cè)值與真實(shí)值的平均相對(duì)誤差為0.070，決定系數(shù)為0.992。綜合可知，2種特征選擇方法中，SPCA通過(guò)特征累加所構(gòu)建的模型其驗(yàn)證集平均相對(duì)誤差最小，通過(guò)SPCA挑選出3組GAN-BP-ANN建模的特征品質(zhì)指標(biāo)，即：質(zhì)量損失率和貯藏溫度(D1組)；質(zhì)量損失率、b和貯藏溫度(D2組)；質(zhì)量損失率、b、淀粉含量、可滴定酸含量、還原型抗壞血酸含量、ΔE和貯藏溫度(D3組)，其驗(yàn)證集中13組數(shù)據(jù)的相對(duì)誤差分別為0.052、0.064和0.070，低于BP-ANN的0.109、0.104和0.115，即附加GAN的模型把預(yù)測(cè)準(zhǔn)確度從平均0.891提高到0.938，提高了0.047；驗(yàn)證集中預(yù)測(cè)值和真實(shí)值決定系數(shù)R2分別為0.989、0.990和0.992，大于等于未附加GAN模型的0.989、0.963和0.991。這說(shuō)明輸入層為D1、D2和D3組所構(gòu)建的GAN-BP-ANN模型可以較為準(zhǔn)確地預(yù)測(cè)采后蘋(píng)果的貨架期。

表3 SPCA排序方法構(gòu)建GAN-BP-ANN和BP-ANN模型訓(xùn)練集的平均相對(duì)誤差Tab.3 Mean relative error of GAN-BP-ANN and BP-ANN model training set based on SPCA

2.3.4GAN-BP-ANN模型與其它貨架期預(yù)測(cè)模型的比較

常用的貨架期預(yù)測(cè)模型還包括多元線性回歸(MLR)、決策樹(shù)(DT)和支持向量機(jī)(SVM)等。分別建立品質(zhì)屬性與貨架期之間的多元線性回歸(MLR)、決策樹(shù)(DT)模型和支持向量機(jī)(SVM)等，使用上述通過(guò)SPCA得到的最優(yōu)模型的輸入變量作為輸入變量，即分別使用質(zhì)量損失率和貯藏溫度(D1組)；質(zhì)量損失率、b和貯藏溫度(D2組)；質(zhì)量損失率、b、淀粉含量、可滴定酸含量、還原型抗壞血酸含量、ΔE和貯藏溫度(D3組)作為輸入變量，其訓(xùn)練集和驗(yàn)證集平均相對(duì)誤差和決定系數(shù)如表4所示,可以看出其訓(xùn)練集和驗(yàn)證集的平均相對(duì)誤差均比較高，決定系數(shù)均比較低。上述選出的最優(yōu)模型其性能均優(yōu)于MLR、DT和SVM。

表4 多元線性回歸(MLR)、決策樹(shù)(DT)和支持向量機(jī)(SVM)貨架期預(yù)測(cè)模型訓(xùn)練集和驗(yàn)證集的平均相對(duì)誤差和決定系數(shù)Tab.4 Mean relative error and determination coefficient of training set and validation set of multiple linear regression (MLR), decision tree (DT) and support vector machine (SVM) shelf-life prediction models

3 結(jié)論

(1)采用GAN法對(duì)觀測(cè)數(shù)據(jù)集進(jìn)行擴(kuò)充，迭代次數(shù)33 000次時(shí)生成器和判別器之間接近納什均衡，生成數(shù)據(jù)均在真實(shí)數(shù)據(jù)的分布范圍之內(nèi)。

(2) 2種變量排序法下，均以附加GAN的BP-ANN所建模型對(duì)貨架期的預(yù)測(cè)準(zhǔn)確度高。且以SPCA法排序結(jié)果構(gòu)建GAN-BP-ANN模型的平均相對(duì)誤差較ReliefF更低，部分驗(yàn)證集的平均相對(duì)誤差均在0.07以內(nèi)，比未附加GAN的BP-ANN模型預(yù)測(cè)準(zhǔn)確度提升了0.047。結(jié)合SPCA法特征變量選擇的GAN-BP-ANN模型被確定為預(yù)測(cè)蘋(píng)果貨架期的有效方法。