鄒小波,張俊俊,黃曉瑋,鄭開逸,吳勝斌,石吉勇
(江蘇大學食品與生物工程學院,農(nóng)產(chǎn)品加工及貯藏工程實驗室,鎮(zhèn)江 212013)
從古至今西瓜一直是廣受人民群眾喜愛的夏季清涼解渴消暑盛品,尤其在如今溫室效應嚴重的現(xiàn)代生活中,更受到人們的歡迎。據(jù)聯(lián)合國糧農(nóng)組織的不完全統(tǒng)計,西瓜位居世界十大果品中的第五位。中國是西瓜種植和銷售的大國,占領(lǐng)著主要市場地位[1]。但隨著西瓜產(chǎn)業(yè)的規(guī)模化、趨勢化,未來西瓜銷售市場的競爭趨勢不斷加劇,高品質(zhì)的西瓜必將在未來市場上脫穎而出。因此,快速準確的判別西瓜成熟度一直是瓜農(nóng)、消費者以及國內(nèi)外學者廣泛關(guān)注的問題。
消費者挑選西瓜時主要以傳統(tǒng)人工檢測手段為主,用手敲擊西瓜,通過聲音特性做出判斷;或是通過西瓜重量來感知西瓜的成熟度,一般來說西瓜在成熟過程中,因瓜肉細脆組織松弛,其質(zhì)量會下降[2]。然而這些主觀評定只能依賴于個人經(jīng)驗,且容易受到個人視力、經(jīng)驗等因素的影響,很難對西瓜進行精確判斷。近年來,國內(nèi)外許多學者利用無損檢測技術(shù)來評判西瓜的新鮮度。常用來檢測西瓜新鮮度的無損檢測技術(shù)主要包括近紅外光譜技術(shù)、振動頻率響應法、高光譜檢測技術(shù)、聲學特性檢驗法[3]。
20世紀90年代以來近紅外光譜分析技術(shù)作為一種準確、快速、無損、便捷的分析技術(shù)備受人們的關(guān)注,它在產(chǎn)地鑒別和農(nóng)產(chǎn)品品質(zhì)檢測方面得到了大量應用[4-6]。韓東海等[7]利用CCD型近紅外光譜儀以透射光譜檢測方式對西瓜赤道部位的可溶性固形物含量(soluble solid content,SSC)進行檢測,并結(jié)合主成分分析(principal component analysis,PCR)和偏最小二乘法(partial least squares,PLS)建立西瓜含量的預測模型,結(jié)果顯示預測集相關(guān)系數(shù)為0.929,均方差誤差(root mean squared error of the prediction set,RMSEP)為0.732%。介鄧飛等[8]以麒麟瓜為研究對象,采用連續(xù)投影算法(successive projections algorithm,SPA)進行特征變量篩選后進一步提高了模型精度,其預測模型相關(guān)系數(shù)為0.828,預測集均方根誤差為0.611,實現(xiàn)了對西瓜可溶性固形物含量的快速預測。由于果皮對光的反射和散射非常大,光譜信息大都為果皮信息,因此試驗結(jié)果精度較低。
聲學信號檢測相對于近紅外光譜和核磁共振等無損方法,具有穿透性強、設備簡單、價格低廉等優(yōu)點,是檢測西瓜新鮮度的常用方法。張玉新等[9]提出音頻的4個特征參數(shù)與西瓜成熟度之間存在很好的相關(guān)性,為聲音檢測西瓜成熟度提供可能。肖珂等[10-11]利用 2個特征參數(shù)對西瓜敲擊聲音信號中的峰值頻率進行提取,并對西瓜的成熟度進行分類,試驗證明,該方法的準確率高達90%;危艷君等[12]研究了西瓜糖度檢測系統(tǒng),通過獲取西瓜的聲波信號,建立多元線性回歸預測模型,結(jié)果顯示模型的相關(guān)系數(shù)為0.807,其校正集的均方差根誤差(root mean squared error of the calibration set,RMSECV),預測集的均方差誤差(root mean squared error of the prediction set,RMSEP)分別為0.646和0.655。Xuan等[13]提出了一個小波多頻率變換技術(shù)對西瓜的音頻信號進行處理,提出了一種不等式假設對西瓜成熟度檢測的結(jié)果校正集和預測集的精度均為91.67%。上述研究均表明聲學檢測技術(shù)可以實現(xiàn)成熟度的檢測,但受檢測部位及個體差異的影響,且易受到外界噪音影響,準確性不高。
因此,為了提高西瓜成熟度檢測的魯棒性,本研究同時探討 2種技術(shù),利用智能手機的自帶音頻系統(tǒng)和便攜式近紅外光譜儀相結(jié)合。同時采集西瓜的音頻和光譜信息。通過數(shù)據(jù)處理加工分離背景噪音并提取音頻和光譜特征信號,并將其融合后以獲取最佳信息組合,提高模型的穩(wěn)健性。
本研究選用的西瓜樣本采摘于鎮(zhèn)江市丹陽某種植園,在相同生長環(huán)境的同一塊瓜田中60個“早佳8424”樣本中分三批次摘得。按照計日成熟法將樣本分為三類[14]。西瓜坐果時開始算起,在4月12日采摘未成熟西瓜20個,接著分別于4月27日、5月14日采摘適熟與過熟西瓜各20個[15]。從外表上看,未熟的生西瓜體積較小、外表皮不光滑、紋理清晰但條紋更細,且呈現(xiàn)淺綠色;適熟西瓜的體積適中、外表皮光滑、紋理清晰,呈現(xiàn)深綠色;過熟西瓜體積較大、外表皮光滑、紋理清晰,呈現(xiàn)墨綠色。運回試驗室后對60個樣品進行編號后用于后續(xù)的試驗測定。
如圖1所示,信號采集的主要過程如下:1)在一個密閉且安靜的試驗室中,把待檢測的西瓜樣本放在工作臺上;2)放置手機于西瓜的赤道位置上(即以蒂為極點,西瓜中部為赤道),距離為3 cm[16];3)設置音頻采樣率為44.1 kHz,采樣位數(shù)32 bit,并在采集環(huán)境下進行信號校準。通過音頻軟件(Audacity)采集程序,點擊運行,每次將小球舉到與鐵架臺平行的位置后放下后對西瓜的赤道位置撞擊;4)最后,收集到的聲波信號以*.wav格式存儲在手機上。選取每個西瓜赤道上不同的點,分別采集3個音頻,所有西瓜共180個音頻信號。在西瓜音頻信號的采集過程中,敲擊一次西瓜后即刻收集信號并保存,每一段音頻時長都不超過3 s。
如圖1所示,采用便攜式近紅外光譜儀(USB2000+,美國Ocean Optics公司),以漫透射方式對西瓜樣品進行光譜采集,光纖采用“Y”型檢測探頭[17]。光譜儀參數(shù)設置為:積分時間100 ms、積分次數(shù)10、平滑度20,光譜范圍為489~1 156 nm,并對光譜進行明暗校正[18]。如圖1所示,采集光譜時,將光纖探頭放置于西瓜的赤道部位,對準后并貼緊西瓜表面,保證探測器全部覆蓋。在相同的測量條件下,每個西瓜樣品分別采集 3次,共計 180條光譜[19]。

圖1 西瓜信號采集裝置Fig.1 Watermelon signal acquisition device
光譜掃描后采用數(shù)字阿貝折光儀(ARIAS 500,Reichert Technologies,New York,USA)對60個西瓜樣本的可溶性固形物含量(soluble solid content,SSC)進行測定,保持測試環(huán)境恒溫。取西瓜果肉中心位置榨汁,然后用潔凈紗布過濾,將果汁滴于折光儀的鏡面中心處,閉合棱鏡使其鋪滿整個鏡面測定[17]。
聲學振動信號反映的是西瓜聲音傳播的頻率信息,而近紅外光譜反映的是分子振動的倍頻信息,利用單一信息評判樣本的品質(zhì)指標,較為片面。因此,如果可將2種技術(shù)數(shù)據(jù)融合為一體,使信息來源更豐富,全面。分別進行主成分分析(principal component analysis,PCA)特征提取音頻信號和遺傳算法(genetic algorithm,GA)波長變量篩選近紅外光譜信號進行融合。采用極值歸一化的方法把所有的數(shù)據(jù)向量除以最大值和最小值的差,使得到的所有數(shù)據(jù)范圍都落在[0,1]之間[20]。本研究使用公式(1)將西瓜的光譜信號與音頻信號的數(shù)據(jù)變量進行融合。

使得音頻處理數(shù)據(jù)和光譜數(shù)據(jù)處于同一個范圍內(nèi)后,將兩種數(shù)據(jù)進行融合,作為新的變量對西瓜成熟度相關(guān)的品質(zhì)信息進一步判別分析。首先對融合信號構(gòu)建三種定性判別模型,然后再通過Si-PLS算法建立與西瓜可溶性固形物含量的預測模型。
采用MATLAB 2010軟件對數(shù)據(jù)進行處理與分析,在定性分析中校正集預測集識別率越高越好;定量分析中以相關(guān)系數(shù)和模型的均方根誤差為主,其中相關(guān)系數(shù)越大,均方根誤差越小,模型越好。
試驗按照2:1的比例將3類不同成熟度的西瓜樣本隨機分為校正集和預測集,其中校正集共 120個被用來建立識別模型,預測集共60個用來驗證模型的穩(wěn)定性,分別采用線性和非線性的判別分析法建立不同成熟度西瓜的定性模型。如表 1所示為不同成熟度西瓜的定性模型樣本的可溶性固形物范圍。

表1 西瓜樣本的可溶性固形物分類Table 1 Measured statistics of soluble solid content of watermelon
K最近鄰法[21](k-nearest neighbor,KNN)、線性判別分析(linear discriminant analysis,LDA)和反向傳播人工神經(jīng)網(wǎng)絡[22](back propagation artificial neural network,BP-ANN)3種化學計量學方法,分別建立西瓜成熟度的定性判別模型。同時采用聯(lián)合區(qū)間偏最小二乘篩選法(synergy interval partial least squares,Si-PLS)分別建立聲學技術(shù)、近紅外光譜技術(shù)、融合技術(shù)的西瓜可溶性固形物預測模型。
2.1.1 音頻信號的預處理及特征提取
利用西瓜的音頻特性對西瓜成熟度信號采集過程中,由于其存在噪聲、相同成熟度西瓜的音頻特征相似、西瓜樣本數(shù)量過少而維數(shù)過高等問題,給機器學習算法增加了難度而又降低了泛化能力。于是,西瓜的音頻信號的預處理步驟就顯得極為重要[23]。本研究主要通過將數(shù)據(jù)進行卷積平滑結(jié)合數(shù)據(jù)歸一化的處理方法,對音頻信號進行預處理[24]。如圖2a和圖2c所示,預處理結(jié)果降低了音頻信號中的隨機誤差。同時為了將音頻響應值更加明顯,可通過將音頻信號經(jīng)過傅里葉變換得到頻譜信號來分析。但所獲得的頻率信號的結(jié)果數(shù)據(jù)量龐大,若用所有的頻率變量建立西瓜判別預測模型,會嚴重降低模型的穩(wěn)定性。因此首先通過主成分分析(principal component analysis, PCA)提取數(shù)據(jù)特征值[25]。PCA處理得到的新變量是互不相關(guān)的,少數(shù)的變量可替代所有變量信息,且在不丟失有用信息的前提下最大限度的表示原光譜的數(shù)據(jù)特征[26]。如圖2b和圖2d所示,為特征提取前后的處理圖。可以看出預處理后的信號有效信息響應值更加明顯。
2.1.2 聲學特征值對西瓜成熟度的定性判別
西瓜音頻信號通過PCA特征提取得到新變量后,通過3種定性判別模型對其進一步的分析。LDA、BP-ANN、KNN判別模型的最佳識別率如表2所示,結(jié)果顯示LDA的預測效果優(yōu)于BP-ANN和KNN,其校正集和預測集的識別率分別為100%和83.33%。音頻處理后發(fā)現(xiàn)不同成熟度西瓜的聲音信號有明顯差別,而同一成熟度西瓜的音頻信號差別較小。BP-ANN作為一種非線性模型,處理信號過程中是通過將所有數(shù)據(jù)建立成一種復雜的網(wǎng)狀結(jié)構(gòu)。而這種復雜數(shù)據(jù)結(jié)構(gòu)帶來的相互影響反而降低了音頻信號自身類間差別明顯的數(shù)據(jù)結(jié)構(gòu),不利于模型的區(qū)分。LDA模型主要以映射后類間與類內(nèi)離散度的比值方式選擇代表原始變量的線性組合,最終實現(xiàn)同一成熟度西瓜信號聚集、不同成熟度西瓜樣本更加分散,從而更容易被區(qū)分開。因此LDA預測集的模型精度較高。

圖2 預處理前后西瓜的音頻信號Fig.2 Acoustic signal of watermelon before and after pretreatment
2.1.3 聲學特征值對西瓜可溶性固形物預測模型的建立
為了進一步預測音頻信號與西瓜的可溶性固形物的定量關(guān)系,本研究選取預處理后音頻信號的校正集與預測集的比為2:1建立聯(lián)合區(qū)間偏最小二乘篩選法(synergy interval partial least squares,Si-PLS)模型。通過將西瓜的可溶性固形物測定結(jié)果作為化學真值代入模型。聯(lián)合3個子區(qū)間對音頻信號進行建模分析。如圖3a、3b所示,當音頻信號被劃分成12個子區(qū)間,聯(lián)合區(qū)間1、3、7,主成分數(shù)為 10時,校正集的 RMSECV取得最小值0.682%,此時模型效果最好。其校正集與預測集的散點分布圖如圖3c和3d所示。
從圖3中可發(fā)現(xiàn)校正集的相關(guān)系數(shù)rc和RMSECV,以及預測集的rp和RMSEP結(jié)果分別為0.846 9和0.682%,0.723 3和0.793%。因此,音頻信號大致可以實現(xiàn)對西瓜的可溶性固形物含量進行預測,但預測集模型的精度較低,誤差較高。
2.2.1 光譜的預處理及特征波長篩選
由于便攜式光譜儀存在一定程度的系統(tǒng)誤差,首尾兩端的噪聲比較大,且全波段建模過程中某些近紅外光譜變量之間存在大量的冗余信息,會降低模型的準確性。因此選擇650~950 nm波段內(nèi)的共945個波長點進行相應的建模分析。所以首先采用標準正態(tài)變換(standard normal variate,SNV)對光譜進行預處理[27]。如圖4所示,為預處理前后西瓜的近紅外光譜圖,預處理后的光譜有效濾除了噪聲和背景帶來的干擾,提高了信燥比。將預處理后的光譜通過GA篩波,篩選后得到126個變量值,代替原有的變量進行建模[28]。

圖3 基于音頻信號西瓜的Si-PLS模型結(jié)果圖Fig.3 Si-PLS model result diagram of watermelon based on acoustic signal

圖4 預處理前后西瓜的光譜信號Fig.4 Spectra signal of watermelon before and after pretreatment
2.2.2 近紅外光譜對西瓜成熟度的定性判別
同節(jié)2.1.2所述,對光譜信號進行3種模型的定性判別分析。結(jié)果如表2所示,結(jié)果顯示BP-ANN的模型識別效果最好,當主成分數(shù)為 8時,校正集的識別率為100.00%,預測集識別率為87.33%。不同西瓜的近紅外光譜信號影響因素眾多,對類間和類內(nèi)樣品的區(qū)別能力差,線性關(guān)系不明顯,因此在建模過程中的使用線性模型建立的結(jié)果預測集精度較差。而BP-ANN屬于非線性識別算法,非線性識別算法較線性識別算法有更佳的學習性、自適應及魯棒性[29]。BP-ANN是由大量的數(shù)據(jù)互相連接而形成的復雜網(wǎng)絡結(jié)構(gòu),不易受類間類內(nèi)樣品差別的影響,因此其模型預測集的識別率得到提高。
2.2.3 近紅外光譜對西瓜可溶性固形物預測模型的建立
光譜經(jīng)過預處理后對變量進行 Si-PLS建模。利用Si-PLS算法結(jié)合近紅外光譜建立西瓜可溶性固形物的預測模型。因此將預處理后的光譜信號結(jié)合可溶性固形物作為化學真值,校正集與預測集的比為 2:1建立 Si-PLS模型。并通過聯(lián)合 3個子區(qū)間在不同的主成分數(shù)下進行建模。當光譜被劃分為24個子區(qū)間,進行區(qū)間12、18、24聯(lián)合,主成分數(shù)為10時,校正集的RMSECV為最小值為 0.616%,在此條件下的模型效果最好。結(jié)果如圖 5所示,其校正集的相關(guān)系數(shù)rc和RMSECV,以及預測集的rp和 RMSEP結(jié)果分別是 0.855 9和0.616%,0.834 8和0.735%。因此,可以認為便攜式近紅外光譜可以實現(xiàn)對西瓜的可溶性固形物含量進行準確預測,但模型的精度仍然較低,因此可以考慮融合音頻信號和近紅外光譜信號,以進一步提高模型的準確度。

圖5 基于近紅外光譜西瓜的Si-PLS模型結(jié)果圖Fig.5 Si-PLS model result diagram of watermelon based on near infrared spectroscopy
利用單一信息評判樣本的品質(zhì)指標,較為片面,于是可將2種技術(shù)信號融合,進行最大最小歸一化處理[30]。因此,本研究將音頻信號融合光譜信號,作為新的變量對西瓜成熟度相關(guān)的品質(zhì)信息進一步的判別分析。首先對融合信號構(gòu)建3種定性判別模型,然后再通過Si-PLS算法建立與西瓜可溶性固形物含量的預測模型。
2.3.1 融合信號對西瓜品質(zhì)的判別分析
如表2所示,經(jīng)過融合后的KNN模型魯棒性得到提高。從表中可以看出當取主成分數(shù)5時,融合信號的KNN模型校正集和預測集識別率分別為 95.83%和 86.67%;BP-ANN模型的主成分因子數(shù)達到 8時校正集和預測集識別率基本達到較高水平,分別為100.00%和85.33%,LDA模型的主成分因子數(shù)為7時,校正集和預測集的識別率均達到最大,分別為100.00%和91.67%;表明融合信號較單獨的聲學信號和光譜信號建立定性模型信息更全面,且模型在信號融合過程中主要將兩類數(shù)據(jù)進行歸一化處理。歸一化處理會在一定的程度上減少因近紅外信號造成的類內(nèi)樣本差別。從而導致類間與類內(nèi)離散度的比值增大。由LDA模型的定義可知因此,該比值的增加可以提高模型的預測集精度。另外該研究主要為了將融合模型用于便攜式智能裝備的開發(fā),預測集精度識別率為91.67%,可滿足智能裝備開發(fā)需求。

表2 3種技術(shù)不同識別模型的判別結(jié)果Table 2 Discriminating results of three technology in different models
2.3.2 融合技術(shù)對西瓜可溶性固形物含量預測模型的建立
同2.1.3節(jié),通過對融合信號建立西瓜可溶性固形物含量的Si-PLS模型。當模型被劃分為15個子區(qū)間,選取聯(lián)合區(qū)間6、9、10,主成分數(shù)為10時,校正集的RMSECV為最小值,為0.601%。如圖6所示,融合信號與可溶性固形物含量的預測模型校正集的rc和RMSECV以及預測集的rp和RMSEP分別為0.901 5和0.601%,0.850 6和0.725%,模型精度和穩(wěn)健型得到提高。2種信號進行特征融合后,可以相互彌補其單一信號中的干擾信號,同時特征信號選取保留了兩種信號的有效信息,從而可以更好的將模型關(guān)系得以呈現(xiàn)。因此,模型精度得到提高。該研究主要是為開發(fā)一種基于手機式的便攜式近紅外光譜儀提供理論基礎(chǔ)。定量模型的精度可滿足裝置開發(fā)的需要。通過同時采集西瓜的音頻及光譜信息,調(diào)用本研究建立的最佳融合模型后,可獲取西瓜的可溶性固形物。

圖6 融合信號的Si-PLS模型結(jié)果圖Fig.6 Si-PLS model result diagram of fused signal
綜上研究表明:本研究主要利用聲學音頻信號、便攜式近紅外光譜信號結(jié)合 K最近鄰法(k-Nearest Neighbor,KNN)、線性判別分析(linear discriminant analysis,LDA)和反向傳播人工神經(jīng)網(wǎng)絡(back propagation artificial neural network,BP-ANN)化學計量學方法對不同成熟度的西瓜定性判別,同時聯(lián)合區(qū)間偏最小二乘篩選法(synergy interval partial least squares,Si-PLS)對西瓜的可溶性固形物建立定量預測模型。
其中基于西瓜音頻信號定性判別結(jié)果顯示LDA的預測效果優(yōu)于BP-ANN和KNN,其校正集和預測集的識別率分別為100%和83.33%;定量判別結(jié)果顯示校正集的相關(guān)系數(shù) rc和 RMSECV,以及預測集的相關(guān)系數(shù) rp和RMSEP結(jié)果分別為0.846 9和0.682%,0.723 3和0.793%。基于近紅外光譜建立的定性判別模型BP-ANN的識別效果最好,當主成分數(shù)為8時,校正集的識別率為100.00%,預測集識別率為87.33%;定量判別結(jié)果顯示校正集的相關(guān)系數(shù) rc和 RMSECV,以及預測集的相關(guān)系數(shù) rp和RMSEP結(jié)果分別是0.855 9和0.616%,0.834 8和0.735%。融合技術(shù)的定性判別模型,以LDA模型效果最佳,其校正集識別率為100.00%,預測集識別率為91.67%。且融合信號建立的Si-PLS定量分析模型的效果最優(yōu):其校正集rc和RMSECV以及預測集的rp和RMSEP結(jié)果分別為0.901 5和0.601%,0.850 6和0.725%,相比的單獨音頻信號其均方根誤差分別降低了0.081、0.068個百分點。
綜上所述,研究可以實現(xiàn)西瓜成熟度的判別及西瓜可溶性固形物含量的快速預測,可為高精度的西瓜品質(zhì)快速鑒別智能設備的開發(fā)提供理論參考。