祝海江, 唐 昊, 孫靜嫻, 杜振霞
1. 北京化工大學信息科學與技術學院, 北京 100029 2. 北京化工大學化學學院, 北京 100029
白酒是中國特產的一種酒類, 因其獨特的生產原料和工藝, 頗受世界各地消費者的喜愛。 然而, 由于生產工藝、 產地、 原料等各種因素影響, 同一品牌的白酒質量存在不一致的情況, 甚至同一酒廠不同生產班次所生產的酒的品質也不一致。 因此, 白酒品質的分析檢測是白酒行業科技發展的一個重要組成部分。
在白酒釀造企業中, 鑒別白酒品質常用的方法有: 感官品嘗法、 電子鼻或色譜儀等儀器檢測方法。 但是, 由于生產工藝不斷發展, 生產原料變得多樣化, 同時也衍生了不同的制酒工藝, 導致現有的鑒定方法存在一定的缺陷。 感官評定法雖然便捷, 但由于其鑒定模式多基于人為評定, 且伴隨著白酒種類的多樣化, 白酒的品鑒結果會受到人為主觀因素的影響; 電子鼻的價格昂貴, 成本較高, 同時受到傳感器材料和數據處理的限制, 檢測效果不佳。 相對而言, 儀器檢測的結果會更客觀, 檢測裝置的廣泛應用為評價白酒提供了標準。
在白酒的頻譜分析方面, Yu[1]用近紅外光譜和化學計量方法測定了黃酒的酒齡, 實驗采集了86 瓶紹興黃酒的近紅外光譜, 對原始光譜、 平滑處理的光譜以及二階微分處理的光譜分別使用判別分析法建立酒齡鑒定模型。 實驗結果表明近紅外透射原始光譜結合判別分析法最佳, 可作為檢驗黃酒年齡的一種有效方式。 呂海棠等[2]對清香型和濃香型這2種不同的白酒去除白酒中的水分, 進行干燥萃取, 然后通過紅外光譜對剩余的干燥物酒類進行定量分析, 結果顯示, 濃香型和清香型白酒干燥物紅外光譜差異明顯, 酯化物在濃香型白酒干燥物中含量較高, 而羧酸鹽和醇類物質在清香型白酒干燥物中含量較高。 這種方法可以用于直接分析圖譜中的物質含量, 并可以有效地分析和確定酒的品質和真假。 有研究強調, 相對于原始質譜的峰強度, 原始質譜的數學轉換產生了一個與質譜和分子結構密切相關的新質譜特性。
目前, 國內外針對酒的品質鑒別方法有越來越多的學者深入研究。 近年來, 許多相關的研究都是基于不同的實驗數據和分類模式。 李建[3]等在堿性加熱前提下, 根據純糧白酒的吸光度值在363 nm波長處不同的原理, 構建白酒標準曲線圖來鑒別樣品中純糧白酒的百分比。 結果顯示4個樣品的精度在90%以上, 相對標準差在1%以下; 有報道則在三維熒光光譜中, 采用主成分分析(principal component analysis,PCA)進行降維處理, 使用支持向量機(support vector machine,SVM)算法, 通過k-fold交叉驗證方法發現SVM的最佳參數c和γ, 建立了高準確率的不同酒品牌的分類模型; 姜安[4]等使用多項式插值擬合等方法, 將采集的白酒紅外光譜數據進行預處理, 依據年份、 味道等特征構建SVM支持向量機分類模型, 結果表明該方法較為快速準確。
國外就酒品質的頻譜分析多針對葡萄酒或啤酒數據展開研究。 Cozzolino等[5]在白葡萄酒的可見近紅外光譜實驗中, 使用PCA主成分分析等方法實現了葡萄酒品種的分類。 但是, 參與實驗的紅酒品種數量相對有限, 所以在實際應用上必須慎重。 Pontes[6]等采用主成分分析法提取白蘭地、 朗姆酒、 其他酒精飲料與其摻假樣本的近紅外光譜特征, 進行酒的分類和驗證, 現已應用于鑒別假酒, 預測準確率可達100%(95%置信區間)。
近些年, 離子遷移譜也被用于分析白酒的風味與品質。 朱玲[7]等采用氣相-離子遷移譜分析了白酒揮發性風味物質, 并通過構建白酒香型風味指紋圖譜, 實現了三種不同香型白酒分類。 李娟[8]等將氣相色譜和離子遷移譜相結合, 分析了白酒譜圖中風味物質的出峰信號, 并對11種不同香型白酒進行了分類。 張志剛[9]等研究了利用離子遷移譜快速檢測白酒和紅酒中的塑化劑含量。
針對白酒品質鑒定問題, 本研究使用真酒和添加不同乙醇濃度的假酒, 從中得到樣本的離子遷移譜數據, 通過頻譜分析的方式, 結合常用的一維信號特征提取方法, 從多角度提取白酒信號特征并作篩選。 根據不同的需求, 構建二分類和多分類白酒品質分類模型[SVM、 K最鄰近(K-nearest neighbor,KNN)分類、 LR邏輯回歸(logistic regression analysis,LRM)分類、 模糊C均值(fuzzy C-means,FCM)算法等], 通過計算多個評價指標給出白酒分類最佳模型。
使用樣本離子遷移譜信號由美國Excellims公司GA2100型電噴霧-離子遷移譜儀(ESI-IMS)采集獲得。 Excellims離子遷移譜,具有快速、 準確、 高分辨率和高靈敏度的特點。 GA2100離子遷移譜儀具有高分辨率, 可以達到70~120 s, 分析時間僅為幾秒。
文中白酒樣本數據來自于國內某一白酒廠, 共6類樣本, 每一類含有若干份樣本, 其中一類樣本為真酒, 其余五類分別是添加10%, 20%, 30%, 40%和50%酒精濃度的白酒。 這六類樣本的離子遷移譜如圖1所示, 圖中僅顯示了部分時間段內離子遷移譜。 離子遷移譜中橫坐標表示離子的遷移時間, 縱坐標表示峰的強度。 因為不同品質白酒的離子成分不同, 故不同種類的樣本含有不同的特征譜峰。 由圖1所示樣本的離子遷移譜可知, 不同品質白酒譜的形狀相似, 主要區別在于峰強度有略微的差別, 難于直接判斷出其白酒品質。 因此, 可以利用特征提取和機器學習的方法將不同離子遷移譜進行識別和分類。

圖1 真酒和添加不同比例酒精的白酒離子遷移譜Fig.1 The ion mobility spectra of real liquor andliquor with different proportion of alcohol
通過對白酒離子遷移譜的時域譜峰、 頻域譜峰、 譜熵和過零率等特征進行提取, 構建特征向量; 分別使用主成分分析(PCA)和線性判別分析(linear discriminate analysis,LDA)進行特征選擇。
時域譜峰即離子遷移譜的時域信號不同時刻的峰值。 而頻域譜峰是根據傅里葉變換對原始離子遷移譜進行處理后, 計算出其在不同頻率點上的峰值。 假設采樣頻率為Fs, 采樣點數為N, 傅里葉變換處理后的結果就是點數為N的復數, 每一個點就對應著一個頻率, 而每個點的模值, 就是該頻率值下的幅度特性, 即就是頻域譜峰。 某一點n表示的頻率為

在信息論中, 熵是信息無序程度的一種度量, 也是信息有用程度的一種表現形式。 熵越小, 不確定性越小, 而概率的差別越大, 熵就越小。 因此, 熵可以描述各類別信號的可區分性。 譜熵度量了信號的頻率分布均勻程度, 體現了信號能量分布的頻域復雜性。 對于一個信號x(n), 功率譜S(m)為
S(m)=|x(m)|2
(3)
式(3)中, x(m)是x(n)的離散傅里葉變換。 概率分布P(m)為
則譜熵H為
正則化后
其中N是總頻率點。log2N表示白噪聲的最大譜熵, 在頻域內均勻分布。 若已知時頻功率譜圖S(t,f), 則概率分布為
為計算給定時頻功率譜圖S(t,f)的瞬時譜熵, t時刻的概率分布為
則t時刻的譜熵為
過零率 (zero-crossingrate,ZCR)是單位時間內波形通過零點的次數, 通常指一個信號的符號變化的比率, 例如信號從正數變成負數或反向。 在離散時間信號情況下, 如果相鄰的采樣具有不同的代數符號就稱為發生了過零, 因此可以計算過零的次數。 過零率在一定程度上可以反映信號的頻率信息。 其計算方法如下: 首先計算信號絕對值|x|, 求取信號均值后使其均值變為0, 每偏移1個單位計算該狀態下信號是否過零點, 最后輸出過零率F0。
綜上所述, 將要提取的時域峰值特征記為U, 頻域峰值特征記為O、 譜熵特征記為P, 過零率特征記為Q, 則所有的特征合在一起記為C={U,O,P,Q}, 將矩陣C作為白酒品質分類的特征矩陣。
提取完特征向量之后, 由于特征的維數較大, 部分特征是冗余特征, 對分類沒有幫助。 因此, 需要對提取的特征進行降維。 采用主成分分析法(PCA)和線性判別分析法(LDA)分別對獲得的特征進行降維。PCA是為了去除原始數據集中冗余的維度, 讓投影子空間的各個維度的方差盡可能大, 也就是熵盡可能大。LDA通過數據降維找到那些具有差異性的維度, 使得原始數據在這些維度上的投影, 不同類別盡可能區分開來。
支持向量機(SVM)是一種在分類與回歸分析中常用的監督式學習分類算法。 最初用于二分類, 也可以通過組合多個二分類器來實現多分類。 分類任務為二分類(真酒和添加酒精的白酒分類)和六分類(真酒和添加不同酒精成分的白酒分類)。 因此, 選擇支持向量機作為分類器實現多個類別分類。
選擇核函數為徑向基函數(radialbasisfunction,RBF)的SVM分類器, 在SVM中gamma和C(懲罰系數)是需要人為給定的兩個超參數, 參數gamma表明單個訓練樣本的影響大小, 值越小影響越大, 值越大影響越小; 而參數C的值低時使得分界面平滑, 而高的C值通過增加模型自由度以選擇更多支持向量來確保所有樣本都被正確分類。 為了確定這兩個超參數的最優值, 使用網格搜索方法尋找使得模型分類效果最優時兩個參數的值。
工作中比較了SVM分類器和邏輯回歸分類器(LRM)、 模糊C均值分類器(FCM)、K最鄰近分類器(KNN)等多種分類算法對樣本數據分類的準確率。
由于樣本數據在采樣點1 050到采樣點2 500峰值有明顯的變化, 故保留此時間段的數據。 在時域譜峰特征提取中, 選擇每類樣本數據的7個峰值點TDP1(timedomainpeak),TDP2,TDP3,TDP4,TDP5,TDP6和TDP7, 作為時域譜峰的峰值, 如圖2所示。

圖2 時域特征峰值示意圖Fig.2 The time domain characteristic peak
由圖2可以看到在某些峰上不同類別的數據差別很小, 這些峰值不是很好的特征, 需要將其剔除。 同時在一個類別樣本數據內部, 希望不同的峰值數據能夠集中, 以體現樣本內數據的穩定性。 因此, 計算同一峰值下同一類別的樣本內方差和不同類別之間同一峰的樣本間方差, 經過計算發現第1和3峰的各類樣本內的方差較大, 說明處于第1和3峰的樣本內數據不集中; 而在第1和2峰值下, 各類樣本的方差過小, 區別不明顯。 故剔除了第1, 2和3峰值, 保留TDP4, TDP5, TDP6和TDP7這4個時域譜峰值, 即N×4個特征點, 形成時域譜峰特征集合U。
同理, 在提取樣本離子遷移譜的頻域譜峰值時, 先對時域的離子遷移譜數據進行快速傅里葉變換, 得到其頻域響應曲線, 如圖3所示。 根據各個樣本的頻域響應信號, 剔除樣本間方差較小和樣本內方差較大的峰值點, 最后每個樣本信號保留FDP1(frequency domain peak),FDP2,FDP3這3個頻域峰值, 即N×3個特征點, 形成頻域譜峰特征集合O。

圖3 離子遷移譜的頻域響應曲線圖Fig.3 The frequency domain response curveof ion mobility spectrum
所有樣本離子遷移譜的譜熵計算得到后, 形成了該類樣本的譜熵序列向量, 其譜熵-時間關系如圖4所示。 由圖4可看出, 真酒在第17 ms左右的譜熵[圖4(a)中黑色虛線橢圓標記]區別于其他添加不同濃度酒精的白酒。 真酒在此時的譜熵范圍為[0.532 97,0.536 25], 添加酒精后的白酒樣本譜熵范圍在[0.476 059 584,0.464 387 249], 見圖4(b—f), 且隨著添加酒精濃度的提升, 譜熵在15 ms左右時, 區間范圍從高逐漸降低。 該譜熵特征較為明顯, 記第17 ms的數據為特征矩陣P。 同理, 六類樣本的過零率特征計算后記為特征矩陣Q。

圖4 白酒樣本的譜熵-時間圖
綜上所述, 已提取的時域峰值特征、 頻域峰值特征、 譜熵特征和過零率特征, 可以記為C={U,O,P,Q}, 將矩陣C作為白酒品質分類的特征矩陣。
在特征選擇實驗中, 利用PCA和LDA對特征矩陣C進行了降維實驗。 在使用PCA對特征矩陣C進行降維時, 將特征矩陣降為5維的特征矩陣, 并統計其每個維度的特征對整體特征的貢獻率, 如圖5所示。 由圖5可以看出, 前三維的特征對整體特征的累計貢獻率達到了95%。 因此取前三維特征作為特征矩陣。

圖5 使用PCA降維后特征的貢獻率示意圖Fig.5 The contribution rate of features afterdimension reduction using PCA
同理, 使用LDA對特征矩陣C進行降維, 并統計每個維度的特征對總體特征的貢獻率, 如圖6所示。 由圖6可以看出, 前兩維特征向量對整體特征的累計貢獻率達到了95%。 因此, 取前兩維特征向量作為特征矩陣。 相比PCA而言, 使用LDA降維后, 各類樣本的特征較為明顯, 同時特征維度更低。 因此, 選用LDA作為特征降維方法。

圖6 使用LDA降維后特征的貢獻率示意圖Fig.6 The contribution rate of features afterdimension reduction using LDA
首先, 利用SVM進行了二分類和六分類實驗。 在SVM二分類實驗中, 兩個參數C和gamma的尋優結果如圖7, 圖8所示。 可以看出, 當C為0.435 28, gamma為1時, SVM的二分類準確率最高, 達到了100%。

圖7 SVM二分類實驗中參數C尋優結果示意圖Fig.7 The optimization results of parameter C inSVM binary classification experiment

圖8 SVM二分類實驗中參數gamma尋優結果示意圖Fig.8 The optimization results of parameter gamma in SVM binary classification experiment
而在SVM六分類實驗中, 兩個參數C和gamma的尋優結果如圖9, 圖10所示。 可以看出, 六分類時最優參數C和gamma分別為4和11.313 7。 此時, SVM的分類準確率最高, 達到了99.7%。

圖9 SVM六分類實驗中參數C尋優結果示意圖Fig.9 The optimization results of parameter Cin SVM six classification experiment

圖10 SVM六分類實驗中參數gamma尋優結果示意圖Fig.10 The optimization results of parameter gamma in SVM six classification experiment
然后, 選擇邏輯回歸(LRM)分類、 模糊C均值分類(FCM)和K近鄰分類(KNN)對樣本數據進行了二分類和六分類實驗, 分類準確率如表1所示。

表1 分類方法實驗結果比較Table 1 The comparison of experimental resultsof classification methods
由表1可以看出, 這四種分類方法在對樣本數據進行二分類時, 分類準確率都可以到達100%; 在進行六分類時, LRM的分類準確率僅有33.33%。 利用FCM進行六分類時, 總體每個類別的聚類中心都比較分散, 但是類別4和類別5的聚類中心非常接近, 這就會導致在分類上的錯誤, 在六分類任務上表現欠佳, 準確率為80.66%。 與FCM相似, KNN也是聚類算法, 在實驗中K取2時, 分類準確率最高: 二分類準確率達100%, 六分類準確率為91.7%。 而SVM的六分類準確率最高, 達到了99.7%。
為了進一步評價分類器的性能, 實驗中對多分類的分類器性能進行了評價。 引入Macro-F1和Micro-F1作為評價指標。 指標Macro F1由F1-score描述得來, 首先計算出所有類別總體的準確率P和召回率R, 然后計算F1-score, 其計算式為

四種分類器兩個指標Macro-F1和Micro-F1的計算結果如表2所示, 綜合考慮這兩個性能指標結果, 可以看出SVM具有最佳的分類性能。

表2 四種分類器性能指標比較結果Table 2 The performance comparison of four classifiers
研究中對不同分類器運行時間進行了計算, 結果如表3所示, 由表中可以看出, 運行時間上SVM耗時最長。 雖然其他分類器運算速度快, 但是六分類準確率確遠不如SVM。 因此, 在二分類和多分類任務上, SVM的表現是最出色, 同時也說明了本研究對白酒樣本提取的特征具有代表性。

表3 四種分類器運行時間比較結果Table 3 The comparison of running timeof four classifiers
利用美國Excellims公司GA2100型電噴霧-離子遷移譜儀(ESI-IMS)獲得白酒樣本的離子遷移譜數據, 并將離子遷移譜數據的時域特征譜峰, 頻域特征譜峰, 譜熵和過零率作為白酒樣本的特征數據。 采用主成分分析法(PCA)和線性判別法(LDA)分別對特征數據進行降維研究, 通過比較特征貢獻率, 發現線性判別法有更好的特征提取能力(通過LDA降維的前兩維特征數據的特征累計貢獻率達到了95%)。 通過SVM分類器對降維后特征數據分別進行二分類和六分類訓練, 準確率分別達到了100%和99.7%。 因此, 白酒離子遷移譜數據的時頻譜特征結合線性判別法和支持向量機可以作為白酒品質鑒別的一種新的檢測方法。