干佳儷,譚勵,王蓓,艾娜絲,寧曉輝
(1.北京工商大學計算機與信息工程學院食品安全大數據技術北京市重點實驗室北京100048;2.北京工商大學食品學院北京市食品風味化學重點實驗室北京100048;3.北京工商大學北京食品營養與人類健康高精尖創新中心北京市食品添加工程技術研究中心,北京100048;4.火箭軍總醫院,北京100088)
切達奶酪是世界上消費量最大的奶酪品種,也是目前我國進口最多的奶酪品種之一[1-3],它是一種用酶凝乳奶制品的酸性硬質成熟奶酪,在凝乳過程中奶酪內部結構發生變化,隨著成熟時間的增加,切達奶酪呈現出不同的風味特征[4-7]。美國農業部根據成熟期的風味、質地、外觀將切達奶酪分為淡味(mild)、中味(medium)、濃味(mature)三個級別[8],其中揮發性風味物質對奶酪感官品質起著決定性因素[9-11]。
根據目前國內外對切達奶酪的研究,一般采用香氣提取物稀釋分析[12](Aroma extract dilution analysis,AEDA)結合相色譜-嗅聞法[13-14](Gas Chromatography Olfactometry,GC-O)、香氣活性值分析法(Odour activity values,OAV)、風味重組和缺失實驗等方法鑒定評估揮發性特征風味物質的重要性[15-16]。香氣提取物稀釋分析(Aroma extract dilution analysis,AEDA)是對不同香味組分進行系列稀釋,確定其最大稀釋次數(FD因子),FD因子越大的風味組分說明其對樣品整體風味的貢獻越大,越可能是重要的特征風味化合物。香氣活性值分析法(Odour activity values,OAV)主要通過某一風味化合物的濃度與該化合物閾值的比值判斷特征風味物質對整體風味貢獻大小,其比值越大,說明這種風味化合物對樣品整體風味的貢獻就越大。但上述兩種方法存在一定的局限性,忽略了實際樣品中風味物質與其它樣品組份之間相互作用的化學效應,且評價結果易受評價員個人主觀因素的影響,此外GC-O分析特征風味物質的香氣很可能受之前流出組分香氣的影響而未被覺察,因此,以上這兩種方法不能高質量快速的判斷出特征風味物質對于不同奶酪級別的重要性以及貢獻程度。
典型相關分析(Canonical Correlation Analysis,CCA)[17-18]是一種分析兩個多元變量之間相關性的方法,此算法及其推廣在圖像識別、大數據等方面有廣泛應用[19-21],Sun等人[22]提出一種判別式典型相關分析(Discriminative Canonical Correlation Analysis,DCCA),優化了單模態和多模態識別,在傳統CCA算法基礎上使得類別間相關性最小。侯書東等[23]提出一種稀疏保持典型相關分析(Sparsity preserving canonical correlation analysis,SPCCA),對特征提取的稀疏重構進行約束,優化提升了特征識別能力。Mehrkanoon等[24]提出半核正則化典型相關分析方法(Regularized Semi-Paired Kernel Canonical Correlation Analysis,RSP-KCCA)用于學習域自適應,通過正則化項解決線性方程組對偶問題及廣義特征值問題,優化了分類準確率。為了改進FD因子和OAV方法的局限性,本文引入一種多CCA融合(Fusion of Multiple Canonical Correlation Analysis)方法,識別不同級別切達奶酪中的身份標識性風味物質,為未知切達奶酪級別的快速判定,進出口切達奶酪的品質管控提供科學依據。
本實驗采用來自全球不同國家的不同種類切達奶酪樣本共21個,其產地分布如圖1所示,圖1中數字標記均為樣本編號。經北京工商大學奶酪風味研究室萃取、分離、定量及定性等分析手段獲得奶酪樣本庫的揮發性風味物質信息,揮發性特征風味物質有28種,分脂肪酸類、脂類、內脂類、酮類、醛類、呋喃類以及萜類7個大類如表1所示,根據不同成熟期樣本感官品質級別分3類:淡味(mild)、中味(medium)、濃味(mature),即類別標簽。

圖1 切達奶酪樣本產地分布

表1 切達奶酪揮發性特征風味物質類別分布
綜合FD因子和OAV法,淡味、中味、濃味奶酪樣品中分別對其整體香氣貢獻由大到小排序的特征風味化合物如表2所示。

表2 基于FD因子、OAV的切達奶酪特征風味物質貢獻排序
1.3.1 典型相關分析的基本思想
典型相關分析由HOTELLING于1936年提出[25],旨在研究n維隨機變量X和m維隨機變量Y之間的相關性,尋找一個使兩組隨機變量相關性最大的方向,即構造兩組均值為零的隨機變量X∈Rn、Y∈Rm,找到一組向量a和b,使得u=aTX與V=bTY的相關系數ρuv最大,如式(1)所示,即為典型相關。但是如果兩組隨機變量線性組合效果不夠好或者是非線性關系的時候,則可以引入核函數,將兩組隨機變量轉換到高維空間進行計算。

式(1)中,∑XX、∑YY分別為X、Y的協方差矩陣,∑XY為X與Y的協方差矩陣。u、v的方差和協方差如式(2)所示:


因此需要通過調整a和b使得u、v的相關系數ρuv越大越好,這是個優化問題,條件如式(3)所示:

需要構造朗格朗日等式求解,如式(4):

式(4)分別對a,b求導且令導數等于零,如式(5)所示:


式(6)可寫作如式(7)所示:

因此求B-1A的最大特征值MAX(λ),即可求出ρuv及a和b,最大特征值MAX(λ)對應的a和b成為典型變量,此時的λ為u和v的相關系數,如果遇到協方差矩陣不可逆,則可以在ρuv的分母上加入正則化項。
1.3.2 多CCA融合模型的建立
切達奶酪中含量最多的是脂肪酸類化合物,然后是脂類、內脂類、酮類,醛類、醇類等化合物含量相對較少,并不是每一種特征風味組分都對奶酪整體感官風味級別有貢獻。不同成熟期的切達奶酪,有著對其感官品質級別起決定性作用的揮發性風味組分,即相關性最強,具有重要貢獻的特征風味物質組分。根據表1,每種類別的特征風味組分分別與感官品質級別建立一個CCA模型,其中呋喃類和萜類的3種特征風味組分(呋喃酮、醬油酮、檸檬烯)為一組與感官品質級別建立CCA模型。再將以上多個CCA模型線性融合,加權計算各個特征風味組分的特征向量到各個感官品質級別向量的歐式距離,根據距離排序,得到最終的相關性結果,切達奶酪揮發性特征風味物質的多典型相關融合分析框架如圖2所示。

圖2 切達奶酪揮發性特征風味物質的多典型相關融合分析框架
1.4.1 實驗設置
本實驗關于切達奶酪揮發性特征風味物質與感官品質級別的相關性研究,分四組進行:第①組原始28種特征風味組分與3種感官品質級別即類別標簽進行傳統的CCA分析;第②組原始28種風味物質與3種感官風味級別進行主成分分析(Principal Component Analysis,PCA);第③組原始28種風味物質與3種感官風味級別進行偏最小二乘法分析(Partial Least Square,PLS);第④組依照表1中特征風味組分的類別分布,進行多CCA融合分析(Fusion of Multiple Canonical Correlation Analysis)。
1.4.2 評價指標
4組實驗結果將與表2中的基于FD因子、OAV的切達奶酪特征風味物質貢獻排序進行比較,評價指標為打分法,且只統計前15種特征風味組分化合物的排序得分,評價規則如表3所示,若化合物排序位置落入相應的名次范圍與專家評價結果相符則進行相應加分,若不相符且名次差小于等于5,則相對少加分,若不相符且名次差大于5,則相應減分或是不做操作,總分值范圍是-7.5~20分。得分越接近20分,說明排序越接近專家評價結果,更符合特征風味組分對不同成熟時期的切達奶酪的貢獻分析,得分越接近-7.5分,說明無法為切達奶酪的特征風味物質識別提供依據,無法找出對成熟度起關鍵作用的特征風味物質組分。

表3 特征風味物質貢獻程度排序評價規則
切達奶酪的原始28種化合物與3個感官風味級別進行CCA分析,保留貢獻最大的前兩組化合物特征向量,即可形成二維坐標系的點表示每一種特征化合物,計算每個化合物坐標點分別到各個類表標簽點的距離,用于判別特征風味物質對切達奶酪整體感官風味級別的貢獻大小,距離越小說明貢獻越大,距離越大則貢獻越小,特征風味物質和感官風味級別的分布如圖3所,特征風味物質分別對三種感官風味級別的貢獻從大到小排序如表4所示。根據典型相關分析,與成熟度為淡味相關性較大的前8種特征風味組分是:月桂酸乙酯、2-十一烷酮、δ-十二內酯、庚酸、呋喃酮、戊酸、醬油酮、丁酸,脂肪酸類、脂類、酮類、內脂類、呋喃類等均有涉及,是對淡味起到重要作用的揮發性特征風味物質組分;與成熟度為中味相關性較大的前8種特征風味組分是:2-庚酮、2,3-丁二酮、辛酸乙酯、己酸、檸檬烯、丁酸、壬酸、醬油酮,主要涉及酮類、脂類、脂肪酸類化合物,對中味切達奶酪的整體感官風味級別貢獻較大;與成熟度為濃味相關性較大的前8種特征風味組分是:2-甲基-丙酸、己酸乙酯、3-甲基-丁酸、2-壬酮、苯甲醛、月桂醛、乙酸、癸酸乙酯,可見脂肪酸類、脂類、酮類、醛類對濃味的切達奶酪的整體感官風味級別貢獻較大。

表4 基于CCA算法的切達奶酪特征風味物質貢獻排序

圖3 基于CCA算法的切達奶酪揮發性特征風味物質識別
切達奶酪的原始28種化合物與3個感官風味級別進行主成分分析,保留貢獻率最大的第一、第二主成分,計算特征風味物質分別到3個感官風味級別的距離,距離越小說明貢獻越大,距離越大則貢獻越小,從而判別化合物與感官風味級別的相關性,特征風味物質和感官風味級別的分布如圖4所示,特征風味物質分別對3種感官風味級別的貢獻從大到小排序如表5所示。根據主成分分析法,對淡味切達奶酪貢獻較大的前8種特征風味物質是:呋喃酮、月桂酸乙酯、δ-己內酯、δ-壬內酯、δ-十二內酯、δ-癸內酯、癸醛、檸檬烯,即呋喃類、脂類、內脂類3大類的特征風味物質對淡味切達奶酪整體風味貢獻較大;對中味切達奶酪貢獻較大的前8種特征風味物質是:δ-十二內酯、月桂酸乙酯、癸醛、δ-己內酯、δ-壬內酯、δ-癸內酯、癸酸乙酯、戊酸,內脂類、脂類對中味的整體風味起到關鍵作用;對濃味切達奶酪貢獻較大的前8種特征風味物質是:3-甲基-丁酸、2-甲基-丙酸、2-壬酮、己酸乙酯、苯甲醛、辛酸乙酯、月桂醛、乙酸,脂肪酸類、酮類、脂類以及醛類均有較大的貢獻。

表5 基于主成分分析算法的切達奶酪特征風味物質貢獻排序

圖4 基于主成分分析算法的揮發性特征風味物質識別
切達奶酪的原始28種化合物與3個感官風味級別進行偏最小二乘法分析,保留貢獻率最大的第一、第二載荷量,用于判別特征風味物質對切達奶酪整體風味的貢獻大小,特征風味物質和感官風味級別的分布如圖5所示,特征風味物質分別對三種感官風味級別的貢獻從大到小排序如表6所示。根據偏最小二乘法,與淡味切達奶酪整體風味相關性較強的前8種特征風味物質是:呋喃酮、月桂酸乙酯、丁酸乙酯、2-十一烷酮、δ-十二內酯、癸醛、δ-壬內酯、月桂醛,呋喃類、脂類、酮類、內脂類、醛類均有涉及,但是整體含量較多的脂肪酸類沒有起到關鍵作用;與中味切達奶酪整體風味相關性較強的前8種特征風味物質是:2-庚酮、檸檬烯、己酸、丁酸、2,3-丁二酮、δ-己內酯、壬酸、δ-癸內酯,酮類、萜類、脂肪酸類、內脂類均對淡味切達奶酪的整體感官風味級別有貢獻;與濃味切達奶酪整體風味相關性較強的前8種特征風味物質是:3-甲基-丁酸、己酸乙酯、2-甲基-丙酸、苯甲醛、2-壬酮、癸酸乙酯、月桂醛、辛酸乙酯,可見脂肪酸類、脂類、醛類、酮類也是對濃味切達奶酪起到了貢獻。

圖5 基于偏最小二乘法的揮發性特征風味物質識別

表6 基于偏最小二乘法的切達奶酪特征風味物質貢獻排序
多CCA融合分析的切達奶酪特征風味物質識別,6類(其中呋喃類和萜類合并)化合物分別與3種樣本感官風味級別進行CCA分析,保留貢獻率最大的二維加權載荷量,加權計算每種化合物到感官風味級別的點距離以判別特征風味物質與樣本類別的相關性,特征風味物質和樣本感官風味級別的分布如圖6所示,特征風味物質分別對三種感官風味級別的貢獻從大到小排序如表7所示。根據多CCA融合算法分析,與淡味切達奶酪相關性較強的前8個特征風味物質是:月桂醛、2-十一烷酮、丁酸、苯甲醛、δ-己內酯、月桂酸乙酯、戊酸、呋喃酮,除了萜類的檸檬酸,其他六種類別的揮發性特征風味物質均有涉及;與中味切達奶酪相關性較強的前8個特征風味物質是:醬油酮、癸醛、丁酸乙酯、2-庚酮、2,3-丁二酮、3-甲基-丁酸、己酸乙酯、乙酸,可見除了萜類和內脂類化合物,其他類別的化合物均有對中味切達奶酪的整體風味發揮作用;與濃味切達奶酪相關性較強的前8個特征風味物質是:2-壬酮、苯甲醛、月桂醛、2-庚酮、2,3-丁二酮、丁酸、己酸乙酯、δ-十二內酯,相對于脂肪酸類、脂類和內脂類,酮類、醛類與濃味切達奶酪的整體風味相關性更強,貢獻較大。

圖6 多CCA融合的切達奶酪揮發性特征風味物質識別

表7 多CCA融合的切達奶酪特征風味物質貢獻排序
根據表3對以上不同算法的到的貢獻值大小排序進行打分,評價指標得分如表8所示,由此可得,本章中提出的基于多CCA融合算法分析更能有效識別不同成熟期的切達奶酪特征風味物質,在淡味、中味、濃味切達奶酪中均表現良好,排序得分均高達9.0分至9.5分,接近FD因子和OAV法的分析結果,而單一的CCA模型相關性分析在淡味、中味、濃味切達奶酪中表現穩定,但是排序得分不佳,均在4.0分至4.5分,主成分分析法在淡味及中味切達奶酪中得分為負數,不能識別相關性較高的特征風味物質,偏最小二乘法的得分與單一的CCA模型相似,均不能很好地識別與不同成熟期相關性較強的特征風味物質。

表8 不同算法的切達奶酪揮發性特征風味物質識別評價得分
綜合以上實驗,結合不同相關性算法的比較分析,本文提出的多CCA融合的切達奶酪揮發性特征風味物質識別方法,在淡味、中味、濃味切達奶酪中表現均優于CCA典型相關分析、PCA主成分分析以及PLS偏最小二乘法,能夠很好地識別出與3種感官風味級別相關性較強的風味物質。與傳統鑒定評估揮發性特征風味物質的重要性的方法相比,不用依賴分析儀器,且不受感官評價人員主觀因素的影響,沒有特征風味物質之間的協同作用,能夠很好地客觀地鑒別出對于不同感官級別起到重要作用和主要貢獻的特征風味組分,為切達奶酪感官品質級別的身份鑒定提供支撐。