劉亞清,馬藝翔
(北方工業大學 經濟管理學院,北京 100144)
白酒是一種以糧谷為主要原料,由淀粉或糖質原料制成酒醅或發酵后經蒸餾而得的飲品,在我國具有悠久的歷史。不同品質白酒的市場需求存在較大差異,因此各白酒生產商都力求生產出高品質白酒以獲取更高利潤。但是由于釀造過程的不確定性較多,同一批次釀造的白酒品質也能存在較大差異?;诎拙瞥煞种械南嚓P因素進行分析,量化各因子對于白酒品質的影響作用,從而達到對白酒品質進行初步分類的目的;另一方面,隨著統計方法的迅速發展以及計算機運算能力的提升,基于樣本信息的數據挖掘模型,能夠有效降低人為主觀意識帶來的偏誤。因此,基于數據挖掘方法對白酒品質進行分類研究,具有很好的研究價值和現實指導意義。
在企業生產中,對于白酒分類問題的研究多應用感官評定和氣相色譜法進行分類,但感官評定法容易受到主觀和客觀的條件影響,結果不夠理想[1]。因此,最近幾年的相關研究多基于不同的白酒實驗數據,通過構建不同的模型對白酒分類問題進行客觀分析。李建等[2]基于純糧白酒在堿性加熱條件下在波長363 nm處存在吸光度值差異的原理,指出可以通過純糧白酒標準曲線來確定該酒樣中純糧白酒的比例;楊建磊等[3]基于最小二乘支持向量機方法,對近百種白酒的熒光光譜進行分析,指出光譜中波峰個數、主波峰位置和最佳激發波長貢獻率最高,利用其進行分類能達到較為理想的效果;徐瑞煜等[4]則進一步利用主成分分析的方法對三維熒光光譜數據進行降維,進而利用支持向量機的方法對幾種濃香型白酒進行鑒別;呂海棠等[5]利用紅外光譜法,指出白酒分類可以基于白酒干燥物的指紋特征,不同種類下存在較大差異;王海燕等[6]利用壓縮感知理論對白酒香型進行分類,指出該理論相比最小冗余誤差方法能夠提高識別率;彭祖成等[7]則選擇白酒中的酯類、醇類等成分含量作為特征變量,構建聚類算法進行白酒分類,而王旭亮[8]則基于理化指標對中國名特白酒系統聚類分析;徐增偉等[9]通過構造神經網絡模型研究大曲理化指標與白酒品質之間的聯系;陳秀麗等[10]結合主成分分析法,用所建立的電子鼻系統對白酒進行了分類識別,發現準確率較高,田婷等[11]也指出主成分分析在處理電子鼻傳感器響應信號時,對不同輪次醬香型白酒的區分效果要優于判別因子分析。趙金松等[12]則基于原子力顯微鏡技術,指出真假酒之間在微觀形態上存在較大差異,可以由此進行真假鑒別。
從現有文獻可以看出,對于白酒分類問題的研究,多集中于借助定量分析模型進行劃分,能夠客觀給出白酒分類的指導方法。但是,當前的研究大多基于不同的實驗指標數據,對白酒類型進行劃分,但并未對相關指標對于白酒類型的具體影響力大小以及作用機理進行綜合分析,且選取變量較多時容易產生信息冗余及多重共線性問題。因此,本研究通過選取相關特征變量,進而提取公共因子并結合現有研究對主因子進行分析定義,進行利用多分類Logistics模型對白酒品質進行分類回歸,計算模型預測準確率,并確定各主因子對于白酒品質的影響力大小。
作為一種常用的降維方法,因子分析通過研究眾多變量之間的內部依賴關系,提取公共因子,用以表示原有數據的基本結構,并且利用這些公共因子表示變量的主要信息,由于這些假想變量是不可觀測的潛在變量,故稱為因子。
在進行因子分析時,首先對數據進行標準化處理,然后估計因子載荷矩陣,具體公式:

式中:Z1、Z2、…Zm為原始變量;F1、F2、…Fp為公共因子;a11、a12、…amp為不同因子在原始變量中所在的權重;U1、U2、…Um為各原始變量中除公共因子外自身所特有的特殊因子;C1、C2、…Cm為特殊因子在原始變量中所占的權重;表示為矩陣形式:

式中:A為因子載荷矩陣,一般采用主成分法進行估計,隨后對A進行正交變換,從而對因子的意義進行解釋。最后,通過因子得分函數,可以計算原有的每個解釋變量在每個公共因子上的得分,從而對公共因子進行衡量。
多元logistics回歸模型首先定義因變量某一水平作為基底,然后構建與其他水平的比值,建立“水平數-1”個廣義logistics模型。以3水平因變量為例,其取值水平分別為1、2、3,回歸模型構建如下:

顯然,同時應當有p1+p2+p3=1,根據樣本觀測值進行參數估計后,計算出

通過對樣本數據進行代入,可以分別計算該樣本點被劃分到這三類中的概率大小,通過數字比較,可以判斷出該樣本被劃分到的類別,從而利用模型進行分類預測。
考慮到研究的問題以及數據的易得性,本實驗選取加州大學歐文分校(University of California,UCI)數據庫中的白酒品質數據集進行數據挖掘,該數據集的解釋變量為通過物理化學測試得到的一些特征指標,具體指標包括非揮發性酸、揮發性酸、檸檬酸、殘糖、氯化物、游離二氧化硫、總二氧化硫、密度、酸性、硫酸鹽、酒精度,分別定義為X1~X11;被解釋變量為白酒的品質分類,通過專家打分法得到,從最低的1到最高10共分為10類??紤]到樣本集中各個品類白酒的樣本量,本實驗選擇包含5、6、7這3個品級的白酒數據,其中等級5的白酒樣本數有1 407個,占32.1%;等級6的樣本數為2 148個,占49%;等級7的樣本數為830,占18.9%。
由于該數據集中解釋變量較多,并且其中部分變量明顯具有相關關系,故構建相關系數矩陣,分析各變量之間的相關關系,具體結果如表1所示。

表1 相關系數矩陣Table 1 Matrix of correlation coefficients
由表1可知,X1與X3的相關性達到0.28,與X9的相關性達到-0.42,這是因為檸檬酸屬于非揮發性酸中的一種,故兩者關聯度較高;X6與X7相關性達到0.61,因為游離二氧化硫是由總二氧化硫電解得到,因此具有較強的相關性;而X11酒精度與其他變量的相關性程度更高,這與其計算公式有關。
通過相關系數矩陣可以看出,各變量相關程度較高,直接進行回歸容易受到多重共線性的影響,影響系數的準確程度,因此借助因子分析方法對原始數據集進行處理。使用該方法可以在變量中找出隱藏的具有代表性的因子,達到降維的目的,同時消除多重共線性問題。利用SPSS軟件進行因子分析,最終得到4個公共因子,其中因子解釋度結果如表2所示。

表2 因子解釋度結果Table 2 Results of factor interpretation
由表2可知,模型從11個特征變量中提取出來4個主要的公共因子,其中因子1的方差貢獻度為29.447%,前4個公共因子的解釋度達到63.649%,說明這4個公共因子對于樣本數據的提取程度較高,能夠較好的代替相關特征變量進行解釋說明。
根據成分得分系數矩陣可以得到每個公共因子的計算公式,根據分析結果,具體表達式如表3所示。

表3 成分得分系數矩陣Table 3 Coefficient matrix of component score
由表3可知,因子1中X4、X6、X7、X8的系數絕對值較大,均>0.25,因此該因子的主要成分是殘糖、游離二氧化硫、總二氧化硫、密度,有學者的研究表明[13],在酒類的釀造過程中,酒精度越高,乙醛和葡萄糖越多,被結合的二氧化硫就越多,則游離的二氧化硫就越少,結合殘糖因素,故因子1可以命名為甜味因子;因子2中X1、X3、X9的系數絕對值>0.28,因此該因子中非揮發性酸、酸性、檸檬酸所占權重較大,有學者研究發現,白酒中的非揮發性酸包含乳酸、檸檬酸等,具有斧正口味,提高白酒質量的作用[14],因此因子2可以命名為口味因子;因子3中X2的系數絕對值達0.552,因此該因子中揮發性酸的權重較大,由于白酒中揮發性酸是白酒中主要的呈味物質,故將因子3命名為香味因子;因子4中X5的系數達0.830,氯化物權重最大,有學者的研究表明[15],白酒中的氯化物濃度較高,說明酒中的雜質較多,容易影響產品質量,故命名因子4為雜質因子;分別用I1~I4表示這4個公共因子。
基于樣本數據集,首先進行因子分析處理,保存處理后的各因子成分數據。并在3種品類白酒數據中各預留50個樣本用于模型最后的預測檢驗,對于剩余的樣本數據進行logistics回歸,得到如下分析結果:

根據檢驗結果,各系數均通過1%顯著性檢驗水平,參數估計準確度較高,利用該參數對預留的150個樣本數據進行計算處理,得到不同因子水平下,該樣本點被分類到這3種品類白酒的概率大小,具體結果如表4所示。

表4 白酒分類結果Table 4 Classification results of B aijiu
由表4可知,預留樣本中,對于品類6的白酒預測準確度最高,準確率達90%;其次是品類5的白酒,準確率為48%;而對于品類7的白酒預測準確度最低,為8%。綜合來看,樣本點總體預測準確率為48.7%,而對于品類5與品類6白酒的綜合預測準確率為69%。分析其原因,可能是由于樣本數量的原因,在樣本集中,品類5的數據占32.1%,品類6占48.5%,品類7白酒占19.4%。
為了分析各分類變量樣本點數量的不同是否影響預測結果,同時考慮進行回歸時樣本量的充足性,在進一步的研究中,本實驗選取各自選取了1 408個品類5和品類6的白酒樣本集,對數據首先進行因子分析,進而采取二元Logistics回歸分類,其模型回歸結果準確率如表5所示。

表5 回歸準確率結果Table 5 Results of regression accuracy
由表5可知,在樣本數量相同時,對于品類5和品類6的白酒分類預測正確率,均維持在65%左右,整體預測正確率達到65.5%,相比較三分類模型,前兩種品類白酒的綜合預測準確率并未發生明顯變化,但是對于單項預測的準確度有較大改變。因此,可以看出各分類變量樣本集數據數目的大小,能夠影響單個類別的預測準確度,但是對于綜合準確度影響不大。
由Logistics回歸模型公式可以看出,隨著白酒品類的提高,因子1、因子2和因子4的系數均在不斷下降,而因子3的系數相應提高,說明因子1、2、4的提高對于白酒品質起負向作用,而因子3的減少能夠提高白酒品質。分別針對各因子所含內容進行分析,在因子1的權重中,除酒精度的權數為負外,殘糖、總二氧化硫、游離二氧化硫、密度的系數均為正,說明除酒精度對白酒品質的提升起正向作用外,其余因素起負向作用。而二氧化硫的含量偏低,說明白酒中的醛類含量較高,這是因為二氧化硫主要與乙醛結合的緣故,被結合就越多,則游離的二氧化硫就越少,乙醛在白酒貯存老熟過程中含量不斷增加,能夠賦予白酒的清香以及柔和感[16],故其含量的提高能夠促進白酒品質的提升;因子2中除酸性的權重為正外,非揮發性酸和檸檬酸權重均為負,又由于因子2的降低能夠提高白酒的品質,說明非揮發性酸和檸檬酸能夠提升白酒香氣,而這與白酒中的不揮發酸具有斧正和穩定香氣,提高酒體的總酸度等因素有關,能夠豐富白酒香味。因子3中主要是揮發性酸的影響因素較大,且其權重為負,說明揮發性酸含量的提高能夠提升白酒的品質,白酒中酸類組分是比較重要的呈味物質,也是形成白酒口味的主要香味成分和生成酯類的前驅物質,故品質較高的白酒中揮發性酸的含量也較高。
針對因子4,其主要影響因素時氯化物的含量,而氯化物的來源,主要是白酒釀造過程中的用水。同時,水的硬度體現在水中存在鈣、鎂等金屬鹽雜質的緣故,水的硬度過高將會導致成品白酒產生渾濁、失光的重要原因,影響白酒的品質。從Logistics回歸結果也可以看出,隨著白酒分類概率的提升,因子4的參數逐漸降低,因此氯化物含量的提高將會降低白酒品質。
本實驗通過收集關于白酒品質的相關數據,在對11個樣本指標進行相關性分析時,發現變量間存在較為嚴重的多重共線性,故采用因子分析的方法,提取出4個主要公共因子,進而通過構造三分類變量的Logistics分類模型,進行參數估計,得到樣本參數方程,并對預留的150個樣本數據進行預測,發現對品類6白酒的預測準確度最高,而對品類7白酒的預測準確度較低。在對影響白酒品類的因素分析時,發現揮發性酸類物質對于白酒口感的提高具有促進作用,而釀造用水中氯化物成分會降低白酒口感。因此廠家在釀造白酒時,應當改進生產工藝,使得白酒中相關促進性因素能夠得到提升,同時注重釀酒用水的來源,避免水中含有過多雜質,影響白酒品質。
參考文獻:
[1]陳 飛,張 良,霍丹群,等.濃香型白酒基酒的現狀和發展趨勢[J].中國釀造,2017,36(10):5-8.
[2]李 建,姜 雪.濃香型純糧白酒鑒別方法的研究[J].中國釀造,2015,34(1):118-121.
[3]楊建磊,朱 拓,徐 巖,等.基于最小二乘支持向量機算法的三維熒光光譜技術在中國白酒分類中的應用[J].光譜學與光譜分析,2010,30(1):243-246.
[4]徐瑞煜,朱焯煒,胡揚俊,等.三維熒光光譜結合PAC-SVM對幾種濃香型白酒的鑒別[J].光譜學與光譜分析,2016,36(4):1021-1026.
[5]呂海棠,任彥蓉,李春花.紅外光譜技術對濃香型和清香型白酒的品質分析[J].中國釀造,2010,29(10):175-177.
[6]王海燕,王 虎,王國祥,等.基于壓縮感知的白酒香型分類[J].計算機工程,2015,41(3):172-176.
[7]彭祖成,潘春躍.聚類分析在白酒質量和風味辨識的應用[J].食品工業,2015,36(6):250-252.
[8]王旭亮.基于理化指標對中國名特白酒系統聚類分析[J].釀酒科技,2013(7):5-8.
[9]徐增偉,曾黃麟,陶雪容.基于粗神經網絡的大曲理化指標對白酒質量和產量影響分析[J].中國釀造,2011,30(11):101-103.
[10]陳秀麗,高海榮,黃振旭,等.電子鼻分析方法在白酒分類識別中的應用[J].信陽師范學院學報,2014,26(7):386-393.
[11]田 婷,邱樹毅,文聆吉,等.電子鼻技術對不同輪次醬香型白酒的區分與識別[J].中國釀造,2017,36(10):71-75.
[12]趙金松,張敬雨,許 愿,等.原子力顯微鏡在中國白酒品質鑒別中的應用[J].釀酒科技,2014(10):55-56.
[13]朱夢旭.白酒中易揮發的有毒有害小分子醛及其結合態化合物研究[D].無錫:江南大學,2016.
[14]劉明明.兼香型白酒工藝研究[D].濟南:齊魯工業大學,2013.
[15]楊德武,劉兵兵.去除低度白酒雜質的過濾實驗研究[J].過濾與分離,2013,23(1):30-32.