湯旭翔,余 智
(1.浙江工商大學實驗室與設備管理處,杭州 310018;2.浙江工商大學網絡信息中心,杭州 310018)
龍井綠茶,又稱龍井茶,是中國傳統名茶,著名綠茶之一[1]。產于浙江杭州西湖龍井村一帶,已有一千二百余年歷史。龍井茶色澤翠綠,香氣濃郁,甘醇爽口,形如雀舌,即有“色綠、香郁、味甘、形美”四絕的特點。西湖龍井茶扁平光滑挺直,色澤嫩綠光潤,香氣鮮嫩清高,滋味鮮爽甘醇,葉底細嫩呈朵[2]。綠茶保留了鮮葉的天然物質,含有的茶多酚,兒茶素,葉綠素,咖啡堿,氨基酸,維生素等營養成分也較多,以其獨特的口感和風味而深受中國消費者的喜愛[3]。茶葉的香氣對消費者的選購有較大影響,直接影響產品銷售情況。因此,綠茶加工過程中風味的品評是不可忽視的重要環節。
傳統的茶葉品質分析方法主要包括感官分析法、理化檢驗方法、儀器分析法等[1]。感官評價依靠具有評審經驗的品評員從外觀、氣味、質地等方面給出綜合評價,該方法雖然被普遍使用,但首先需要具有評審經驗的人員,并且不同個體對于同樣的樣品給出的結果往往不一致,相互間評審數據可參考性較差,評審結果也易受個體健康、習慣等因素影響,此外評審人員對于有毒有害的樣品也難以開展工作[4-5]。理化檢驗的方法優點在于有較為全面的標準可以依托,但是一般情況下這一類方法普遍存在耗時長、檢驗成本高等缺點[6]。儀器分析的方法的優勢在于可以高精度定量檢測食品中某些物質的含量,也有一系列國家標準作為品質判斷依據,但是該類方法一般需要大型昂貴的分析儀器,并且通常需要在實驗室環境下工作,無法滿足現場快速檢測的需求,同時該類方法檢測成本高、耗時長、需專業培訓的操作人員,這些也都限制了該類方法在現場快速檢測的應用。
多傳感器分析技術近年來發展迅速,由于該檢測方法是吸取被測樣品所揮發出來的氣體進行分析,因此可以實現無損檢測的目標。相對于傳統檢測技術,該方法具有響應速度快、易于操作和準確性好等優勢。可以結合使用的模式識別方法有主成分分析(PCA)、聚類分析(CA)、偏最小二乘回歸(PLS)等。Yin等[7]提出了一種基于多傳感器陣列優化的食醋區分方法,采用主成分分析法成功區分食醋的種類和風味。Tian等[8]采用PEN2系統進行豬肉摻雜快速實驗,結果表明結合線性判別分析方法顯示出最優的區分效果。Huo等[9]探索了一種基于電子鼻的中國綠茶種類和分級區分方法,并采用主成分分析方法和等級聚類分析方法對信號進行分析,實現區分目標。Wei等[10]采用電子鼻技術結合物理化學檢驗方法預測儲存花生品質,偏最小二乘回歸方法對于去殼和未去殼花生均具有較好的預報精度。然而,以上模式識別模型只是提供了定性區分的方法,無法達成定量檢測的目標[11-13]。
基于以上分析,本文研究了多傳感器陣列在龍井茶監測上應用的可行性。在測量了傳感器陣列的響應數據后,采用載荷分析(Loadings)、歸一化處理進行數據的預處理。最后,采用模糊C均值聚類(FCM)、K近鄰函數(KNN)和概率神經網絡(PNN)分析了多傳感器陣列對龍井茶品質的識別效果,為中藥材品質的實時監測提供參考。
龍井茶樣品購于杭州某超市,挑選葉片色澤明亮、清潔、無病蟲害、無異味的龍井茶作為試驗樣品。根據試驗設計需要,將新鮮龍井茶樣品經過干制后形成40個平行樣本,每個樣品稱取15 g置于樣品瓶中,并用封口膜密封,在室溫和標準大氣壓的環境條件下進行保藏。通常條件下龍井茶樣品的質變過程較為緩慢,在每次實驗測量結束后在每個樣品中噴霧5 mL超純水以加速樣品的質變。
將龍井茶置于適宜的條件下,利用龍井茶自身帶有的真菌進行發霉培養。首先將實驗的龍井茶樣品進行除雜,測量出龍井茶樣品的原始水分,然后將龍井茶樣品的水分調節至17%,將調節好水分的龍井茶樣品放置在4 ℃的冰箱內48 h,以確保龍井茶樣品的水分分布均勻。待樣品平衡水分后,稱取龍井茶樣品,每25 g龍井茶樣品放在100 mL的頂空瓶內用封口膜進行封口,將頂空瓶放在恒溫培養箱內進行培養,恒溫培養箱的溫度設置為28 ℃,濕度設置為95%。分別在0 d、1 d、2 d、3 d、4 d和5 d對龍井茶樣品進行檢測和揮發性物質的收集。

圖1 檢測系統結構示意圖
干燥箱;恒溫培養箱;高精度電子天平。圖1顯示了檢測系統結構圖,主要包括機械控制、傳感器氣室、數據采集單元等。首先開啟清洗泵和氣閥2,通入潔凈空氣清洗各傳感器,待各傳感器的響應穩定至基線時,關閉清洗泵和氣閥2。將樣品置入潔凈樣品瓶中并以封口膜密封,靜置30 min后將系統采樣探頭和氣壓平衡器同時插進樣品瓶的封口膜,啟動系統采集樣品響應數據,采集時間45 s。氣壓平衡器采用活性炭去除空氣中的干擾氣體,將清潔空氣導入樣品瓶,實現氣壓平衡。
檢測系統采用8個半導體型氣敏傳感器:x1(TGS-825,含硫類氣體敏感),x2(TGS-821,烷烴類氣體敏感),x3(TGS-826,氨類氣體敏感),x4(TGS-822,乙醇類敏感),x5(TGS-842,碳氫組分類氣體敏感),x6(TGS-813,烷烴類氣體敏感),x7(TGS-2610,丙烷、丁烷類氣體敏感),x8(TGS-2201,氮氧化物類氣體敏感)。氣室采用耐高溫材料,每個傳感器都具有獨立的氣室,以提高檢測準確度。
設置檢測系統工作參數:清洗時間為600 s,氣體流量為320 mL/min,采樣時間為40 s。實驗具體操作首先取出被測樣品,將每一個樣品放置在250 mL的樣品瓶內,在25 ℃下水浴保溫60 min。每個樣品重復上述操作5次以保證實驗的平行性。
1.4.1 載荷因子分析
載荷是主成分與相應的原始變量之間的相關系數,用于反映因子和變量間的密切程度。因子載荷a(ij)的統計意義就是第i個變量與第j個公共因子的相關系數即表示X(i)依賴F(j)的份量(比重)。統計學術語稱作權,心理學家將它叫做載荷,即表示第i個變量在第j個公共因子上的負荷,它反映了第i個變量在第j個公共因子上的相對重要性。位點坐標表示分別在主成分上的比例大小,相關系數越大,位點坐標在主成分上的比例也就越大,位點坐標對應變量的代表意義越明顯[14]。
1.4.2 檢測數據歸一化
在多指標評價體系中,由于各評價指標的性質不同,通常具有不同的量綱和數量級。當各指標間的水平相差很大時,如果直接用原始指標值進行分析,就會突出數值較高的指標在綜合分析中的作用,相對削弱數值水平較低指標的作用。因此,為了保證結果的可靠性,需要對原始指標數據進行標準化處理。
數據歸一化的目的是使數據集中各數據向量具有相同的長度,一般為單位長度。該方法能夠有效地去除噪聲干擾導致的傳感器陣列獲取數據集的方差。實驗對傳感器優化后的被測樣品響應數據進行歸一化處理,計算公式為:
(1)

1.4.3 模糊C均值聚類
在眾多模糊聚類算法中,模糊C-均值聚類算法FCM(FuzzyC-Means Algorithm)應用最廣泛且較成功,它通過優化目標函數得到每個樣本點對所有類中心的隸屬度,達到自動對樣本數據進行分類的目的,其算法主要通過目標函數極小化的必要條件之間的Pickard迭代來實現,根據樣本之間的相似度進行自然的分類[15]。
1.4.4 KNN
KNN(k-Nearest Neighbor的縮寫)又叫最近鄰算法。是1968年由Cover和Hart提出的一種用于分類和回歸的無母數統計方法。該方法的特點在于盡量減少或不修改其建立之模型,比較適合處理樣本不大的數據[16]。
1.4.5 PNN
概率神經網絡由輸入層、隱含層、求和層和輸出層組成[17]。輸入層,作用函數是線性函數,用于接收來自訓練樣本的賦值,將數據轉化為輸入信號傳遞到隱含層,神經元數量與輸入長度要等同。隱含層與輸入層之間通過權值Wij相連,其傳遞函數為g(zi)=exp[(zi-1)/σ2],其中zi為該層第i個神經元的輸入,σ為均方差。求和層神經元數目與欲分的模式數目相同,具有線性求和功能。輸出層有決策能力,其神經元輸出值1、0、-1代表輸入模式。
1.4.6 茶葉品質計算模型
由非周期輸入信號引起的隨機共振稱為非周期隨機共振,該模型通常采用互相關系數指標來表征[18-19]。當輸入信號為非周期激勵時,此時輸入信號具有極大的不確定性,因此首先定義功率范數C0是互相關函數的極大值:
(2)
C0為時間τ的函數,定義為信號幅度放大及相互之間匹配的情況。
歸一化功率范數
C1反映了歸一化系統輸入-輸出波形的匹配程度。互相關信息可以定量描述信息關聯程度,互信息定義為信息熵H(x)與條件熵H(x|y)之間的差值,可以表示為:
I(x,y)=H(x)-H(x|y)=H(y)-H(y|x)
(3)
互信息也可以解釋為在響應y已知的條件下,激勵信號x不確定性由H(x)轉換為H(x|y),其過程中減少的熵就是互信息I(x,y)。
傳感器陣列對龍井茶樣品的原始響應如圖2所示,傳感器x4響應最大,而傳感器x7和x8的響應較小。隨著測量時間的增加,傳感器響應均逐漸增加,傳感器x4、x6、x5在達到其響應最大值后開始緩慢下降。而傳感器x1、x3、x2的響應則持續增加。氣體傳感器陣列是由具有不同特異敏感性傳感器構成的,因此傳感器陣列對檢測樣品的響應則可以表示該樣品所揮發出氣體的指紋圖譜特性,可以用于該樣品理化性質的表征。

圖2 傳感器陣列對樣品的原始響應
對傳感器陣列進行優化選擇以減少檢測信息中的冗余信息,并且并不是所有的傳感器都對被測樣品的揮發物敏感,部分傳感器在識別目標氣體揮發物時發揮作用較小,可優先考慮去除該部分傳感器。圖3為傳感器陣列Loadings優化結果,傳感器x1、x2、x3、x4、x5和x6的識別貢獻度較大,傳感器x7和x8的Loadings分析數據點距離較近,說明這2個傳感器在識別時發揮的作用類似。為去除傳感器陣列中的冗余信息,我們去掉x8的響應信息以開展進一步的分析工作。

圖3 因子載荷分析
實驗對傳感器優化后的被測樣品檢測數據進行歸一化處理,計算公式為:
(4)

以FCM探索傳感器陣列區分龍井茶樣品品質的方法,FCM是一種無監督學習的模式識別方法,進行識別時,加權值m對識別結果影響較大,需要選擇最佳m值。經反復訓練,加權指數m取5時得到的FCM分類識別效果最佳,分類結果如表1所示。FCM對樣品品質的識別正確率為90.83%。其中儲存時間1 d與2 d在分類識別過程中區分效果較差,實際應用中易被混淆。FCM分類識別結果初步證明了傳感器陣列是可以用于龍井茶品質檢測的。

表1 傳感器陣列對樣品儲存時間的FCM識別結果
我們采用KNN對被測樣品品質情況進行分類識別。實驗包含6類儲存時間節點,每類儲存時間節點有16個被測樣品。從各儲存時間節點中隨機選擇10個樣品檢測信息作為訓練集,其余6個樣品作為測試集。因此,實驗得到訓練集樣本數為60個,測試集樣本數為36個。在KNN分析中,近鄰樣本數k的取值對分類識別準確度有較大影響。經過反復訓練測試,設置k的個數為5。建立KNN分類識別模型后,模型對訓練集樣本的回判正確率為100%,對測試集識別的正確率為90%,識別準確度較高。

表2 KNN識別結果
在PNN分類識別龍井茶樣品品質實驗過程中,總共有6個儲存時間節點過程,每個節點過程采樣16個樣本,從其中隨機選擇10個樣品檢測信息作為訓練集,其余6個樣品信息作為測試集。得到訓練集樣品數量為60個,測試集樣品數量為36個。在PNN模型建立過程中,Spread代表PNN的擴散速度,如果其值趨近于0,則網絡相當一種最鄰分類器,其默認取值是0.1,Spread的取值對模型的判別結果有決定性影響,取值越大就越接近線性函數。為了對PNN模型進行優化,Spread的優化區間取值是[1×10-2、2×10-2、3×10-2、4×10-2、5×10-2、6×10-2、7×10-2、8×10-2、9×10-2、1×10-2]。我們選擇訓練集識別率和測試集識別率一并為最高時的PNN參數作為最優模型。經過訓練測試實驗,結果表明Spread=1×10-2時PNN模型為最優配置。在最優模型中,訓練集樣本分類識別正確率為100%,測試集分類識別正確率為93.3%,具有較好的分類識別效果。

表2 PNN分類識別結果
實驗采用FCM、KNN和PNN 3種方法對龍井茶傳感器陣列檢測信息進行了模式識別,識別正確率分別為90.83%,90%和93.3%。FCM仍屬于一種線性分類識別方法,并不適用于龍井茶品質分類預測的場合。KNN和PNN都是非線性分類識別模型,在龍井茶樣品品質分類識別中均取得了較為準確的結果。因此,KNN和PNN兩類非線性模型均呈現了更好的模式識別結果,可以應用到龍井茶品質分類識別場合中去。

圖4 非周期隨機共振輸出結果
傳感器陣列檢測數據的非周期隨機共振輸出互相關系數曲線如圖4所示,隨著激勵噪聲強度數值的增加,各樣品的互相關系數首先增加并在噪聲強度10左右形成一個特征峰,之后互相關系數逐漸下降,在噪聲強度14左右范圍內形成谷底。我們選取特征峰作為被測樣品的品質表征指標。采用特征峰值線性擬合的方法,構建儲存時間對于樣品檢測數據互相關系數特征峰值的函數,其結果如式(5)所示。
y=0.528+0.013x(R=0.977)
(5)
而在實際檢測過程中,我們首先將茶葉樣品進行檢測,然后得到系統輸出互相關系數特征峰值,因此我們將式(5)經過變換,得到茶葉品質對于檢測數據互相關系數特征峰值的函數,如式(6)所示。這樣,我們直接將樣品檢測數據互相關系數特征峰值代入式(6),就可以得到品質的預測值。我們另外選取了50個不同儲存時間的樣品,進行檢測,得到輸出互相關系數特征峰值后,代入式(6)得到品質預測值,并與這些樣品的實際品質進行比較,準確預報的樣品數量為48個,預測準確度達到96%,證明該模型確實能夠較好的預測樣品的品質。
品質=(互相關系數特征峰值-0.528)/0.013
(6)
本文研究了一種基于氣體傳感器陣列和非線性信號分析的龍井茶品質檢測技術,采用8個具有不同特異性的氣體傳感器構建一體化檢測實驗平臺,檢測不同品質狀況的龍井茶樣品。采用Loadings方法優化傳感器陣列,去除冗余信息以提高龍井茶品質檢測的效率和準確性,得到優化之后的陣列x1、x2、x3、x4、x5、x6、x7。對優化后的傳感器陣列檢測信息進行歸一化處理,并采用FCM、KNN和PNN 3種方法對龍井茶傳感器陣列檢測信息開展分類識別對比實驗研究,分析結果表明上述3種方法的分類識別正確率分別為90.83%,90%和93.3%。結果證明所構建的氣體傳感器陣列對于龍井茶品質檢測呈現了較好的檢測精度,非周期隨機共振模型輸出互相關系數曲線可以區分所有的被測樣品,基于該系統和非線性信號分析特征值構建茶葉品質快速模型品質=(互相關系數特征峰值-0.528)/0.013,驗證實驗結果表明該模型預測準確率達96%。相比較傳統檢測方法,該方法具有響應快、準確率高、成本低等優勢。