毛園園
(東北石油大學 數學與統計學院,黑龍江 大慶 163318)
隨著經濟全球化的高速發展以及人們對葡萄酒營養價值的需求,使得越來越多的國外葡萄酒進軍國內市場。面對琳瑯滿目、參差不齊的進口葡萄酒品種,迫切需要采用便捷的評判葡萄酒品質的方法為廣大消費者選擇優質的葡萄酒。目前世界上有各種《葡萄酒評分體系》專題[1-3],為大家詳述各大葡萄酒權威雜志、葡萄酒界泰斗怎樣為葡萄酒打分,以便于廣大投資者和消費者在投資和購買葡萄酒時可以方便快捷地用直觀的數字來了解葡萄酒的品質。
為確保葡萄酒質量[4-5],需要“篩選團”和“評酒團”共同合作完成。首先經過由葡萄酒專業人士組成的“篩選團”挑選出眾的葡萄酒,再交由“評酒團”進行評分。為保障這一過程的公平公正性,整個選拔過程必須在適宜的環境下,采用統一的酒具,對所有商品進行盲評。一般來說,釀酒葡萄的質量會直接影響所釀葡萄酒的質量[6-10],基于此,本研究旨在建立綜合統計評價模型研究釀酒葡萄與葡萄酒之間的問題。
本實驗給定釀酒葡萄一級指標共30個,二級指標共33個。對理化指標的3次測量值求均值作為最終該指標測量值。但指標較多,一級指標包含著二級指標,并且有些指標進行了多次測量,求解過程過于復雜,且各指標均是對釀酒葡萄成分的反映,其中的一些理化指標可能存在相關性、信息重疊。基于上述問題,本實驗采用主成分分析,在損失很少信息的前提下,將原始的30個一級指標轉化成幾個綜合指標,即主要因子。其次,采用聚類分析對葡萄樣品進行分級。
1.1.1 主成分分析的思想
主成分分析方法是于1933年首先提出的[11],其利用降維的思想,在損失很少信息的前提下,把多個指標轉化為幾個互不相關的綜合指標的多元統計方法。
設涉及某事物的評價共有P個指標,即P個隨機變量,分別記為x1,x2,…,xp,構成P維隨機向量x=(x1,x2,…,xp)′。對x進行多種線性變換,形成新的綜合變量(可由原來的指標線性表示),用f表示。即滿足下式[11]:

滿足以下條件[4]:
(2)主成分之前互不相關即cov(fi,fi)=0
(3)主成分方差依次遞減,即Var(f1)≥Var(f2)≥…Va(rfp)
設x=(x1,x2,…,xp)′,協方差陣cov(x)=Σ,假設Σ的特征值λ1≥λ2≥…λp,對應特征向量a1,a2,…ap,則x的全部主成分為:f1=a1′×x,f2=a2′×x,…,fp=ap′×x,Va(rf)i=λi。若累加貢獻率即f1,f2,…fk足以反映x的絕大部分信息,從而達到簡化系統結構和降維目的。
1.1.2 聚類分析基本思想
聚類分析是將隨機現象歸類的一種統計學方法[11],主要是根據樣本(變量)間的親疏關系或相似程度將樣本(變量)分類。其目的是使類別內的變量盡可能的相似以及類別與類別之間呈現最大的差異化。將分類不明確的指標按其性質的相似程度分成若干組,能夠在盡量不損失信息的情況下,用一組少量的指標來代替原來的多個指標,減少計算量。系統聚類不僅可以分類樣品(Q型聚類分析)還可以分類變量(R型聚類分析)。
1.2.1 以釀酒葡萄為例進行主成分分析
對理化指標數據分析。設Zi為釀酒葡萄組第i個理化指標,i=1,2,…,30,運行SPSS軟件的factor過程尋找Zi的主要因子,輸出的要結果見表1。

表1 釀酒葡萄的主要因子Table 1 Main factors of wine grape
由表1可知,前8個因子的貢獻率為89.043%,即保留原來指標信息的絕大部分。這樣從30個紅葡萄理化一級指標中提取出8個主要因子,記為新指標f1,f2,…f8,起到了降維的作用。
主成分分析后雖找出主要因子,但需要知道每一個主要因子的意義,以便對實際問題進行分析[5]。對荷載矩陣施行旋轉,使因子系數的平方按列向0或1兩極分化,達到使結構簡化的目的。本試驗采用方差最大正交旋轉方法[12],探討釀酒葡萄主要因子與原變量的關系,結果見表2。由表2可知,旋轉后的荷載矩陣可得到原始30個一級指標和8個主要因子之間的關系,從而看出因子所代表的實際含義。

表2 釀酒葡萄主要因子與原變量的關系Table 2 Relationship between the main factors of wine grape and the original variables
從因子得分系數陣得到因子的回歸方程如下:f1=-0.013×Z1+0.073×Z2+…+0.059×Z30
f2=0.131×Z1-0.057×Z2+…+0.045×Z30
……
f8=0.036×Z1-0.165×Z2+…+0.071×Z30
根據上述方程,得到因子的得分樣本矩陣,以后所有的分析都是在因子得分的樣本矩陣的基礎上進行。
1.2.2 27個釀酒葡萄樣品聚類分析
以8個主成分因子得分樣本矩陣和釀酒葡萄質量的數據作為最終的樣本陣。選用Q型聚類方法,運用SPSS軟件,對27個釀酒葡萄樣品進行聚類分析,聚類分析樹型圖結果見圖1。理化指標分類結果見表3,芳香物質分類結果見表4。
由圖1及表3可知,3#、9#、23#樣品在理化指標氨基酸、蛋白質、花色苷、總酸、單寧、葡萄總黃酮取值較大,因此認為是一等品。2#、4#、5#、6#、7#、8#、10#、13#、14#、16#、17#、19#、20#、21#、22#、24#、25#、26#、27#樣品在大多數理化指標中的取值為中等,認為是二等品。1#、11#、12#、15#、18#樣品的褐變度較高,酒質量的值最低,認為是三等品。

圖1 釀酒葡萄聚類分析樹型圖Fig.1 Cluster analysis tree diagram of wine grape

表3 釀酒葡萄理化指標分類情況Table 3 Classification of physicochemical indexes of wine grape
由圖1及表4可知,雖然衡量指標大不相同,但是釀酒葡萄樣品的類別劃分沒有發生很大的變化,只有3#樣品在芳香物質劃分為第二類。理化指標優等的葡萄酒相應的芳香物質含量很好,可見,理化指標與芳香物質雖衡量的是葡萄酒不同方面的屬性,但對葡萄酒的類別劃分幾乎是相同的。

表4 釀酒葡萄芳香物質分類情況Table 4 Classification of aromatic substances of wine grape
對釀酒葡萄提取8個主要因子作為衡量指標,由于關于葡萄酒的指標<10個,故不再對葡萄酒的指標提取主要因子,對葡萄酒指標中多次測量值取其平均數來處理,采用的統計方法中的典型相關分析研究釀酒葡萄的理化指標和葡萄酒的理化指標之間的相關性。
典型相關分析是用來描述兩組隨機變量(兩個隨機向量)間關系的統計分析方法[13]。為了研究兩組變量f11,f12,…f18和h1,h2,…h9之間的相關關系,設隨機向量釀酒葡萄的因子得分F=(f11,…f18)與釀酒葡萄的理化指標H=(h1,…h9)的方差∑fh,∑hh存在,協方差為Cov(F,H)=∑fh。a,c為常數向量,則:
Corr(a′F,c′H)=a′∑ffc/a′∑ffac′∑hhc1/2
為了計算確定性[14],限制:
D(a′F)=a′∑ffa=1,D(c′H)=c′∑hhc=1。
若常數向量a=a1,c=c1在條件:D(a′F)=a′∑ffa=1,D(c′H)=c′∑hhc=1下使Cov(a′F,c′H)最大,則稱v1=a1′F,w1=c1′H為第1對典型相關變量,Cov(a′F,c′H)稱為第1典型相關系數。
第1對典型相關變量往往不能完全反映隨機變量間的關系,需要建立其他典型相關變量,其應當最能反映隨機向量間的關系,但是其與第1對典型相關變量不相關(不包括第1對典型相關變量的信息)。
若常數向量a=a2,c=c2在條件:D(a′F)=a′∑ffa=1,D(c′H)=c′∑hhc=1;Cov(v1,a′F),Cov(w1,c′H)下使Cov(a′F,c′H)最大,則稱v2=a2′F,w2=c2′H為第2典型相關變量,Cov(a2′F,c2′H)稱為第2典型相關系數。
若常數向量a=a3,c=c3在條件:D(a′F)=a′∑ffa=1,D(c′H)=c′∑hhc=1;Cov(v1,a′F)=0,Cov(w1,c′H)=0;Cov(v2,a′F)=0,Cov(w2,c′H)=0下使Cov(a2′F,c2′H)最大,則稱v2=a3′F,w3=c3′H為第3典型相關變量,Cov(a3′F,c3′H)稱為第3典型相關系數。
2.2.1 釀酒葡萄和葡萄酒理化指標關系
以釀酒葡萄與葡萄酒為例,運行SAS軟件中用CANCORR過程[15],輸出的主要結果見表5。

表5 釀酒葡萄與葡萄酒理化指標的相關性Table 5 Correlation coefficient between physicochemical indexes of wine grape and wine
由表5可知,指標h2與h3、h2與h6、h3與h4、h3與h6、h4與h6的線性相關性較強且都為正相關,相關系數分別為0.921 0、0.915 1、0.908 9、0.952 8、0.926 2;h1與h9、h2與h9、h3與h9、h4與h9、h8與h9的線性相關性很弱,相關系數分別為-0.3019、0.0172、0.0155、-0.0204、0.3118。

表6 典型變量的相關系數及檢驗結果Table 6 Correlation coefficients and test results of typical variables
由表6可知,樣本典型相關系數分別為0.953 140、0.944570、0.910962、0.845567、0.720557、0.510529、0.339733、0.170191;樣本典型相關系數平方分別為0.908476,0.8922183,0.829851,0.714983,0.519202,0.260640,0.115463,0.028965。第1對典型相關系數0.953140大于兩組變量間單個相關系數。
表6的似然比檢驗可知,由于0.004 9<0.01故第1、2、3對高度顯著;概率0.091 4、0.460 0、0.809 3、0.859 2、0.778 9都>0.05,第4、5、6、7、8對不顯著。綜上分析,釀酒葡萄與葡萄酒理化指標兩兩之間的線性關系有強也有弱,但兩組指標整體間的線性相關性比較強。
由典型變量的系數陣得到前3對典型變量的表達式,分別為:
第1對典型變量:
V1=0.0020806574×h1+0.2608863048×h2+…+0.0366398208×h9
W1=0.6186742468×f1+0.3439086775×f2+…+0.0801518467×f8
第2對典型變量:
V2=-0.009220671×h1+0.4076036721×h2+…+0.07156312×h9
W2=0.4694738894×f1+0.1219934232×f2+…+0.129248012×f8
第3對典型變量:
V3=0.0055808127×h1+0.4852915875×h2+…+0.1405867247×h9
W3=-0.521740327×f1+0.7091692395×f2+…+0.2499544208×f8
表7給出原始變量典型相關變量的系數,分別為:
第1對典型變量:
V1=0.0020806574×h1+0.2608863048×h2+…+0.0366398208×h9
W1=0.6186742468×f1+0.3439086775×f2+…+0.0801518467×f8
第2對典型變量:
V2=-0.009220671×h1+0.4076036721×h2+…-0.07156312×h9
W2=0.4694738894×f1+0.1219934232×f2+…-0.129248012×f8
第3對典型變量:
V3=0.0055808127×h1+0.4852915875×h2+…+0.1405867247×h9
W3=-0.521740327×f1+0.7091692395×f2+…+0.2499544208×f8
2.2.2 釀酒葡萄和葡萄酒芳香物質關系
用SAS對釀酒葡萄的芳香物質和葡萄酒的芳香物質進行相關關系分析,結果見表7。
由表7可以得出紅葡萄酒的芳香物質bi和紅葡萄的芳香物質Pi間,b3與P1、b3與P5的線性相關關系較強,相關系數分別為0.8963、0.6735;b4與P4、P6與b2、b4與P6、b7與P6的線性相關關系較弱,相關系數分別為0.004 9、-0.005 0、0.003 9、0.002 3。
樣本的典型相關系數分別是0.986 793、0.919 078、0.740 536、0.594 376、0.422 899、0.189 795;樣本典型相關系數的平方是0.973 760、0.844 704、0.548 393、0.353 283、0.178 843、0.036 022。第1對典型相關系數大于兩組間相關系數的最大值0.896 3。
似然比檢驗表明,第1、2對典型相關是高度顯著的概率(0.030 7≤0.05);而第3、4、5、6對典型相關不顯著(最小概率0.574 8>0.05)。
根據原始變量典型相關變量的系數,得出第1對典型變量:
V1=0.064 94×b1+0.143 68×b2+0.88380×b3+…-0.03551×b9
W1=0.865 79×P1+0.160 07×P2+…+0.05265×P6
第2對典型變量:
V2=0.32326×b1+0.01230×b2+0.39271×b3+…+0.19202×b9
W2=0.45279×P1+0.04440×P2+…+0.02381×P6
第3對典型變量:
V3=-0.35278×b1+0.16018×b2+0.15245×b3+…-0.36459×b9W3=-0.178 65×P1+0.263 90×P2+…+0.178 13×P6
在主成分分析方法的基礎上對釀酒葡萄采用聚類方法進行分級,有效地避免了主觀感受對兩指標間影響程度進行賦值的人為因素。基于理化指標和芳香物質研究釀酒葡萄與葡萄酒的之間的關聯,采用能反映出兩組變量的指標之間多對多聯系的典型相關分析方法。
以多元統計分析為模型理論基礎,建立綜合多元統計評價體系,適用于大量實驗單元、多個指標的海量、復雜數據方便,是很有實用價值的方法。基于真實數據的多種評價模型準確地研究了葡萄酒評價問題,當然本研究方法在使用中還需進行修正和完善,進一步更加合理量化數據,優化評價模型將是本文未來的研究工作。
參考文獻:
[1]吳 浩,靳保輝,陳 波,等.葡萄酒產地溯源技術研究進展[J].食品科學,2014,35(21):306-314.
[2]王 華,趙現華,劉 晶,等.葡萄與葡萄酒生產可持續發展研究進展[J].中國農業科學,2010,43(15):3204-3213.
[3]孫亮亮.葡萄酒感官評價結果的統計分析方法研究(上)[N].華夏酒報,2015-08-18(48).
[4]高學峰,楊繼紅,王 華.葡萄及葡萄酒生產過程中副產物的綜合利用研究進展[J].食品科學,2015,36(7):289-295.
[5]張苗苗,曹國珍,繆建順,等.物理方法在釀造酒催陳中的研究進展[J].食品工業科技,2015,36(12):395-399.
[6]汪建國,汪 崎.水與黃酒釀造酒質的關系和要求[J].中國釀造,2006,25(4):60-63.
[7]房玉林,王 華,張 莉,等.不同釀造工藝對毛葡萄酒香氣的影響[J].農業工程學報,2007(9):246-250.
[8]顧甘泉,孫寶恒,李淑芳,等.應用多菌種釀造酒醋工藝的研究[J].中國釀造,1988,7(3):35-37,44.
[9]汪建國.科學飲酒有益健康預防治病 [J].中國釀造,2010,29(1):180-185.
[10]王 華,趙現華,劉 晶,等.葡萄與葡萄酒生產可持續發展研究進展[J].中國農業科學,2010,43(15):3204-3213.
[11]何曉群.多元統計分析[M].北京:中國人民大學出版社,2012:12-21.
[12]張 釗,趙曉靜.山東省城鎮居民生活水平指標體系的實證分析[J].科協論壇,2011(4):189-190.
[13]江開忠,古 晞,許伯生,等.多元統計分析在數學建模中的應用[J].上海工程技術大學學報,2012,26(1):84-89.
[14]韓 明.應用多元統計分析[M].上海:同濟大學出版社,2013:17-24.
[15]沈其君.SAS 統計分析[M].南京:東南大學出版社,2001:47-53.
《中國釀造》雜志廣告征訂啟事
《中國釀造》創刊于1982年,是由中國商業聯合會主管,中國調味品協會及北京食品科學研究院主辦的綜合性科技月刊(國內統一刊號CN 11-1818/TS,國際標準刊號ISSN 0254-5071,廣告許可證號:京宣工商廣字第0033號)。全國各地郵局均可訂閱,郵發代號:2-124;國外總發行:中國國際圖書貿易總公司,國外發行代號:BM1437。《中國釀造》歷次被評為全國中文核心期刊、中國科技核心期刊、《中國知網》重點收錄期刊、《萬方數據庫》全文收錄期刊、《中文科技期刊數據庫》來源期刊、中國學術期刊網絡出版總庫收錄期刊、美國《烏利希期刊指南》(UPD)收錄期刊、英國《食品科學文摘》(FSTA)收錄期刊、英國《國際農業與生物科學研究中心》(CABI)收錄期刊、美國《化學文摘》(CA)收錄期刊、俄羅斯《文摘雜志》(AJ)收錄期刊、中國科學評價研究中心(RCCSE)數據庫收錄期刊,也是學位與研究生教育的中文重要期刊。
《中國釀造》重點報道調味品、釀酒、食品微生物、食品添加劑、發酵乳制品、生物工程技術、生物化工、生物質能源的開發利用等研究方向的新工藝、新技術、新設備、分析檢測、安全法律法規及標準、保鮮與貯運技術、綜合利用、質量保障體系等方面的基礎理論、應用研究及綜述文章。設有“研究報告”、“專論綜述”、“創新借鑒”、“經驗交流”、“分析檢測”、“產品開發”、“釀造文化”、“海外文摘”等欄目。
《中國釀造》發行歷史長、范圍廣、行業知名度高,廣告影響面大,效果甚佳,而且價格合理,是一個理想的宣傳媒體。歡迎新老廣告客戶來函、來電、來人聯系辦理廣告業務,我們將提供一切方便,竭誠為您服務。
《中國釀造》是您企業品牌推廣、品質提升、技術交流、產品推介的最佳平臺。
郵箱:zgnzzz@163.com 網站:www.chinabrewing.net.cn 電話:010-83152738/83152308