冀德剛+陳亞婷+陳俊英
摘要:通過對兩組專業品酒師(共計20名)對27種不同紅葡萄酒的品評結果進行方差分析,確定其中第二組的品評結果更可信。然后對27個樣品中16個指標進行主成分分析,確定影響紅葡萄酒品質的13個主要理化指標,最后建立了品酒師品評得分與13個主要指標的二次回歸方程。經過檢驗,其中回歸相關系數為0.994 8,F為15.908 6 ,P= 0.049 1。結果表明,回歸效果顯著,能夠用回歸方程對紅葡萄酒的品質進行評定。
關鍵詞:方差分析;主成分分析;回歸分析;紅葡萄酒
中圖分類號:O213文獻標識碼:A文章編號:0439-8114(2014)08-1867-03
Application of Multivariate Statistical Analysis in Assessing Red Wine Qualities
JI De-gang,CHEN Ya-ting,CHEN Jun-ying
(School of Science, Hebei Agricultural University, Baoding 071001, Hebei, China)
Abstract: 27 different red wine samples were evaluated by two groups of professional tasters (total of 20). The anova results showed that the second group was more credible. 13 main physicochemical indexes were defined as main factors affecting red wine qualities by principal components analysis of 16 indexes. A regression equation of the scores given by tasters was established. The test results showed that the equation had significant regression effects with squared correlation coefficient of 0.994 8, F-test of 15.908 6 and P value of 0.049 1.
Key words: anova; principal component analysis; regression analysis; red wine
隨著經濟的快速發展,人們生活質量的提高,紅酒不再是少數人的奢侈品,它已經作為普通的消費品走進千家萬戶的餐桌。
隨著紅酒的普及,紅酒的品質越來越引起大眾的關注。那如何來鑒定葡萄酒的品質呢,一般情況下葡萄酒的品評都是借鑒美國著名的葡萄酒評論家羅伯特·帕克的100分制評分體系[1],聘請專業的品酒師來完成,這里完全憑借品酒師的經驗,具有很強的主觀性,而且對于一般人很難做到。本研究試圖通過多元統計分析[2-4],給出葡萄酒品評的量化方法。一方面,可以為葡萄酒的生產及相關企業提供品評葡萄酒的可靠、穩定的量化評價方法;另一方面,為消費者在選擇葡萄酒時提供簡單易行的方法。
1數據來源
本研究中的數據均來自2012年全國大學生數學建模大賽A題的附件,其中包含兩組評酒員(其中每組10人)分別從外觀分析、香氣分析、口感分析、平衡/整體評價4個方面10個子指標對27個樣本的評分結果,以及27個樣本葡萄酒中16個理化指標[5,6],包括花色苷、單寧、總酚、酒總黃酮、白藜蘆醇、反式白藜蘆醇苷、順式白藜蘆醇苷、反式白藜蘆醇、順式白藜蘆醇、DPPH半抑制體積、L*(D65)、a*(D65)、b*(D65)、H(D65)、C(D65)、C(D65)等的測量數據。
為了方便地描述問題,引進以下符號:
1)xij為第i個紅葡萄酒樣本的第j個指標的數值(i=1,2,…,27;j=1,2,…,16)。
2)Xj,j=1,2,…,16分別表示葡萄酒中花色苷、單寧、總酚、酒總黃酮、白藜蘆醇、反式白藜蘆醇苷、順式白藜蘆醇苷、反式白藜蘆醇、順式白藜蘆醇、DPPH半抑制體積、L*(D65)、a*(D65)、b*(D65)、H(D65)、C(D65)、C(D65)的含量。
2兩組評酒員評價結果的可靠性分析
為了評價兩組評酒員評價結果的可靠性,采用方差分析的辦法,即分別計算每組評酒員對每個樣品打分的均值和方差。如果每個評酒員在對樣品作出評價時是客觀公正的,那么每個人的評價結果與均值的偏離程度應該不大,也就是方差應該很小;反之,方差會很大。因此分別計算出每組評價結果的標準差數據如下:
第一組27個樣品的結果:σ1=[0.93,1.30,0.88, 1.13,1.73,0.93…0.87,1.50,19.84]1×27
第二組27個樣品的結果:σ2=[0.86,1.24, 0.97,1.08,1.69,0.94…0.88,1.41,0.63]1×27
由圖1可知,第一組的評價結果的方差在很多點處很大,顯然評價結果不可信。而第二組的評價結果的方差幾乎分布在0的附近,說明第二組評酒員中每個評酒員的評價結果較客觀公正,能夠真實反映出27個葡萄酒樣品的實際品質。
3影響葡萄酒品質的主成分分析
3.1主成分分析的原理
主成分分析是研究如何把存在相關關系的多個指標通過線性變換為少數幾個相互獨立的綜合指標的統計分析方法,綜合后的新指標稱為原來指標的主成分或主分量[7-9]。
設有n個樣品,每個樣品觀測m個指標,得到原始數據資料矩陣:
(X■1,X■,…,X■)=x■x■…x■x■x■…x■………x■x■…x■
式中,xji是第j個樣品的第i個指標的觀測值。
X■=x■x■…x■ x■x■…x■
式中,xni為第i個指標(變量)n個樣品的觀測向量。
用數據矩陣的個觀測向量,作線性組合:
F■=a■X■+a■X■+…+a■X■
F■=a■X■+a■X■+…+a■X■
……
F■=a■X■+a■X■+…a■X■
要求滿足:
1)a21i+a22i+…+a2mi,i=1,2,…,k;k≤m;
2)當i≠j時,Fi與Fj不相關,即Fi與Fj的協方差是0;
3)F1是X1,X2,…,Xm的一切線性組合中方差最大的,F2是與F1不相關的X1,X2,…,Xm的一切線性組合中方差最大的,…,Fi是與F1、F2、…、Fi-1不相關的X1,X2,…,Xm的一切線性組合中方差最大的,…,Fk是與F1、F2、…、Fk-1不相關的X1,X2,…,Xm的一切線性組合中方差最大的。
3.2主成分分析結果
由于16個指標的數據的量級和量綱據差異很大,因此首先對數據進行標準化處理。在這里數據標準化可采用將原始數據的各列除以各列的標準差,然后進行主成分分析。由圖2可知,5個主成分的累積貢獻率達到 88.98%,因此,重點分析前5個主成分。
從表1可以看出,在第一個主成分中X1、X2、X3、X4、X10的權重比較大,在第二主成分中X12、X15、X16的權重比較大,而在第三主成分中X13、X14的權重比較大,在第四主成分中X7、X11的權重比較大,在第五主成分中X8的權重比較大。綜合分析影響葡萄酒的品質的主要因素有X1、X2、X3、X4、X7、X8、X10、X11、X12、X13、X14、X15、X16,將其作為評鑒葡萄酒的主要指標。
3.3二次回歸分析
回歸分析是能夠通過數據處理建立變量之間的量化數學模型,可對問題的分析、判斷、預測提供很好的幫助。
在本研究中,令y為葡萄酒的品質得分,以下建立y與Xj的二次回歸方程。
y=b0+b1X1+b2X2+b3X3+b4X4+b5X7+b6X8+
b7X10+b8X11+b9X12+b10X13+b11X14+b12X15+b13X16
+b14X21+b15X22+b16X23+b17X24+b18X27+b19X28
+b20X210+b21X211+b22X212+b23X213+b24X214+b25X215+
b26X216+e
若令X=[1,X1,X2,X3,X4,X7,X8,X10,X11,X12,X13,X14,X15,X16,X21,X22,X23,X24,X27,X28,X210,X211,X212,X213,X214,X215,X216]
b=[b0,b1,b2,b3,b4,b5,b6,b7,b8,b10,b12,b13,b14,b15,b16,b17,b18,b19,b20,b21,b22,b23,b24,b25,b26]T
則回歸方程可表示為
y=Xb+e
式中,e為隨機誤差。
以下為回歸方程參數的估計:
采用Matlab 7.5 軟件,可以得出
b=[213.05,0.07,1.94,5.18,3.86,1.17,44.20,108.00,
0.90,8.19,8.41,42.66,0.00,7.32,0.00,0.22,0.39,
0.24,0.70,26.47,168.40,0.01,39.02,38.85,2.70,
39.02,0.00]T
回歸效果的顯著性檢驗(α=0.05):
其中回歸相關系數為0.994 8,回歸方程的F=15.908 6,P=0.049。表明變量之間99.48%的信息能夠由該方程來反映。
為了進一步討論回歸方程的回歸效果,以下做了原始數據與回歸預測數據的對比,由圖3可以看出回歸效果很好,可以用來評定葡萄酒的品質。
4小結
帕克的團隊通過顏色和外觀、香氣、風味和收結、總體素質及潛力幾個方面給葡萄酒打分。本研究通過分析帕克評分體系下葡萄酒的得分與各種有效成分的相關性,最終建立了由葡萄酒的16個主要理化指標與葡萄酒品質的回歸方程,并檢驗了方程回歸效果的顯著性。通過給定回歸方程能夠簡單、快捷地給出一種葡萄酒的品質得分,方便了葡萄酒的評定。惟一不足的地方是,葡萄酒的主要理化指標[10]還要一些特定的方法去測量,以后可以考慮各指標的簡單測量方法。
參考文獻:
[1]王麟,陳輝.葡萄酒投資價值與策略分析[D].上海:上海交通大學,2012.
[2]姜起源,謝金星,葉俊.數學模型[M].第四版.北京:高等教育出版社,2011.
[3]蘇金明,張蓮花.劉波.Matlab工具箱應用[M].北京:電子工業出版社,2004.
[4]于秀林,任雪松.多元統計分析[M].北京:中國統計出版社,2006.
[5]藺紅蘋,邱翠嬋,劉嘉玲.自釀葡萄酒的衛生指標和理化指標的檢測[J].湛江師范學院學報,2010(3):98-102.
[6]張琳.傅立葉變換紅外光譜法快速測定葡萄酒理化指標[D].廣州:暨南大學,2012.
[7]何少芳,李夢祝.SPSS軟件在葡萄與葡萄酒理化指標的相關性分析中的應用[J].長沙大學學報,2012(5):11-14.
[8]彭德華.影響葡萄酒質量的主要因素分析[J].中外葡萄與葡萄酒,2004(5):40-44.
[9]李華,劉曙東,王華,等.葡萄酒感官評價結果的統計分析方法研究[A].中國食品科學技術學會第五屆年會暨第四屆東西方食品業高層論壇論文集[C].北京:中國食品科學技術學會,2007.
[10]丁春暉.多頻脈沖電子舌對昌黎原產地干紅葡萄酒的檢測[D].陜西楊凌:西北農林科技大學,2008.
(責任編輯程碧軍)
3.3二次回歸分析
回歸分析是能夠通過數據處理建立變量之間的量化數學模型,可對問題的分析、判斷、預測提供很好的幫助。
在本研究中,令y為葡萄酒的品質得分,以下建立y與Xj的二次回歸方程。
y=b0+b1X1+b2X2+b3X3+b4X4+b5X7+b6X8+
b7X10+b8X11+b9X12+b10X13+b11X14+b12X15+b13X16
+b14X21+b15X22+b16X23+b17X24+b18X27+b19X28
+b20X210+b21X211+b22X212+b23X213+b24X214+b25X215+
b26X216+e
若令X=[1,X1,X2,X3,X4,X7,X8,X10,X11,X12,X13,X14,X15,X16,X21,X22,X23,X24,X27,X28,X210,X211,X212,X213,X214,X215,X216]
b=[b0,b1,b2,b3,b4,b5,b6,b7,b8,b10,b12,b13,b14,b15,b16,b17,b18,b19,b20,b21,b22,b23,b24,b25,b26]T
則回歸方程可表示為
y=Xb+e
式中,e為隨機誤差。
以下為回歸方程參數的估計:
采用Matlab 7.5 軟件,可以得出
b=[213.05,0.07,1.94,5.18,3.86,1.17,44.20,108.00,
0.90,8.19,8.41,42.66,0.00,7.32,0.00,0.22,0.39,
0.24,0.70,26.47,168.40,0.01,39.02,38.85,2.70,
39.02,0.00]T
回歸效果的顯著性檢驗(α=0.05):
其中回歸相關系數為0.994 8,回歸方程的F=15.908 6,P=0.049。表明變量之間99.48%的信息能夠由該方程來反映。
為了進一步討論回歸方程的回歸效果,以下做了原始數據與回歸預測數據的對比,由圖3可以看出回歸效果很好,可以用來評定葡萄酒的品質。
4小結
帕克的團隊通過顏色和外觀、香氣、風味和收結、總體素質及潛力幾個方面給葡萄酒打分。本研究通過分析帕克評分體系下葡萄酒的得分與各種有效成分的相關性,最終建立了由葡萄酒的16個主要理化指標與葡萄酒品質的回歸方程,并檢驗了方程回歸效果的顯著性。通過給定回歸方程能夠簡單、快捷地給出一種葡萄酒的品質得分,方便了葡萄酒的評定。惟一不足的地方是,葡萄酒的主要理化指標[10]還要一些特定的方法去測量,以后可以考慮各指標的簡單測量方法。
參考文獻:
[1]王麟,陳輝.葡萄酒投資價值與策略分析[D].上海:上海交通大學,2012.
[2]姜起源,謝金星,葉俊.數學模型[M].第四版.北京:高等教育出版社,2011.
[3]蘇金明,張蓮花.劉波.Matlab工具箱應用[M].北京:電子工業出版社,2004.
[4]于秀林,任雪松.多元統計分析[M].北京:中國統計出版社,2006.
[5]藺紅蘋,邱翠嬋,劉嘉玲.自釀葡萄酒的衛生指標和理化指標的檢測[J].湛江師范學院學報,2010(3):98-102.
[6]張琳.傅立葉變換紅外光譜法快速測定葡萄酒理化指標[D].廣州:暨南大學,2012.
[7]何少芳,李夢祝.SPSS軟件在葡萄與葡萄酒理化指標的相關性分析中的應用[J].長沙大學學報,2012(5):11-14.
[8]彭德華.影響葡萄酒質量的主要因素分析[J].中外葡萄與葡萄酒,2004(5):40-44.
[9]李華,劉曙東,王華,等.葡萄酒感官評價結果的統計分析方法研究[A].中國食品科學技術學會第五屆年會暨第四屆東西方食品業高層論壇論文集[C].北京:中國食品科學技術學會,2007.
[10]丁春暉.多頻脈沖電子舌對昌黎原產地干紅葡萄酒的檢測[D].陜西楊凌:西北農林科技大學,2008.
(責任編輯程碧軍)
3.3二次回歸分析
回歸分析是能夠通過數據處理建立變量之間的量化數學模型,可對問題的分析、判斷、預測提供很好的幫助。
在本研究中,令y為葡萄酒的品質得分,以下建立y與Xj的二次回歸方程。
y=b0+b1X1+b2X2+b3X3+b4X4+b5X7+b6X8+
b7X10+b8X11+b9X12+b10X13+b11X14+b12X15+b13X16
+b14X21+b15X22+b16X23+b17X24+b18X27+b19X28
+b20X210+b21X211+b22X212+b23X213+b24X214+b25X215+
b26X216+e
若令X=[1,X1,X2,X3,X4,X7,X8,X10,X11,X12,X13,X14,X15,X16,X21,X22,X23,X24,X27,X28,X210,X211,X212,X213,X214,X215,X216]
b=[b0,b1,b2,b3,b4,b5,b6,b7,b8,b10,b12,b13,b14,b15,b16,b17,b18,b19,b20,b21,b22,b23,b24,b25,b26]T
則回歸方程可表示為
y=Xb+e
式中,e為隨機誤差。
以下為回歸方程參數的估計:
采用Matlab 7.5 軟件,可以得出
b=[213.05,0.07,1.94,5.18,3.86,1.17,44.20,108.00,
0.90,8.19,8.41,42.66,0.00,7.32,0.00,0.22,0.39,
0.24,0.70,26.47,168.40,0.01,39.02,38.85,2.70,
39.02,0.00]T
回歸效果的顯著性檢驗(α=0.05):
其中回歸相關系數為0.994 8,回歸方程的F=15.908 6,P=0.049。表明變量之間99.48%的信息能夠由該方程來反映。
為了進一步討論回歸方程的回歸效果,以下做了原始數據與回歸預測數據的對比,由圖3可以看出回歸效果很好,可以用來評定葡萄酒的品質。
4小結
帕克的團隊通過顏色和外觀、香氣、風味和收結、總體素質及潛力幾個方面給葡萄酒打分。本研究通過分析帕克評分體系下葡萄酒的得分與各種有效成分的相關性,最終建立了由葡萄酒的16個主要理化指標與葡萄酒品質的回歸方程,并檢驗了方程回歸效果的顯著性。通過給定回歸方程能夠簡單、快捷地給出一種葡萄酒的品質得分,方便了葡萄酒的評定。惟一不足的地方是,葡萄酒的主要理化指標[10]還要一些特定的方法去測量,以后可以考慮各指標的簡單測量方法。
參考文獻:
[1]王麟,陳輝.葡萄酒投資價值與策略分析[D].上海:上海交通大學,2012.
[2]姜起源,謝金星,葉?。當祵W模型[M].第四版.北京:高等教育出版社,2011.
[3]蘇金明,張蓮花.劉波.Matlab工具箱應用[M].北京:電子工業出版社,2004.
[4]于秀林,任雪松.多元統計分析[M].北京:中國統計出版社,2006.
[5]藺紅蘋,邱翠嬋,劉嘉玲.自釀葡萄酒的衛生指標和理化指標的檢測[J].湛江師范學院學報,2010(3):98-102.
[6]張琳.傅立葉變換紅外光譜法快速測定葡萄酒理化指標[D].廣州:暨南大學,2012.
[7]何少芳,李夢祝.SPSS軟件在葡萄與葡萄酒理化指標的相關性分析中的應用[J].長沙大學學報,2012(5):11-14.
[8]彭德華.影響葡萄酒質量的主要因素分析[J].中外葡萄與葡萄酒,2004(5):40-44.
[9]李華,劉曙東,王華,等.葡萄酒感官評價結果的統計分析方法研究[A].中國食品科學技術學會第五屆年會暨第四屆東西方食品業高層論壇論文集[C].北京:中國食品科學技術學會,2007.
[10]丁春暉.多頻脈沖電子舌對昌黎原產地干紅葡萄酒的檢測[D].陜西楊凌:西北農林科技大學,2008.
(責任編輯程碧軍)