王海燕,王 虎,王國祥,劉 軍
(1.南京財經大學管理科學與工程學院,南京210046;2.江蘇省質量安全工程研究院,南京210046)
基于壓縮感知的白酒香型分類
王海燕1,2,王 虎1,王國祥1,劉 軍1,2
(1.南京財經大學管理科學與工程學院,南京210046;2.江蘇省質量安全工程研究院,南京210046)
目前多數白酒分類方法需要進行特征選取,但特征選取算法會增加計算復雜度,限制特征數量,而且選取結果的好壞直接影響識別效果。為此,提出應用壓縮感知理論對白酒香型進行分類的方法。通過壓縮感知對白酒飛行時間質譜進行整體分析,運用訓練數據構造冗余字典作為稀疏基,選擇高斯隨機矩陣作為測量矩陣,通過求解最小l1范數得到反映白酒香型特征的稀疏表示,進而根據K近鄰法(KNN)實現對白酒香型的分類識別。將4種不同重構算法分別結合最小冗余誤差和KNN進行香型分類,實驗結果表明,將壓縮感知用于白酒香型分類是可行的,能避免特征選取的問題,其中采用稀疏度自適應匹配追蹤算法求解l1范數,并根據KNN進行分類的穩定性較好,準確率達到91.45%。
壓縮感知;飛行時間質譜;稀疏表示;白酒香型;K近鄰法;最小冗余誤差
白酒是一個復雜的體系,其中98%~99%的成分都是乙醇和水,它們構成了白酒的主體,而約占1%~2%的溶于其中的酸、酯、醇、醛等種類眾多的微量有機化合物是決定白酒香氣、口感和風格的關鍵[1-2]。目前對白酒的鑒別,除了理化分析外,主要是通過品酒師的感官品嘗,但由于人類感覺器官的靈敏度和工作狀態受環境、時間、心理活動等諸多因素的影響,其分析結果往往帶有一定的主觀性[3]。
近年來,模式識別技術與儀器檢測手段相結合在白酒分析中的應用日益廣泛。其中,常用的分析方法有主成分分析(Principal Component Analysis, PCA)[4]、線性判別分析(LinearDiscriminant Analysis,LDA)[5]、聚類分析[6]、支持向量機(Support Vector Machine,SVM)[7]等方法。此外,一些新方法和技術也被運用到白酒分析中:文獻[8]通過構建反傳人工神經網實現對未知白酒樣品進行預報;文獻[9]將可視化陣列傳感器技術對代表酒樣進行檢測,在可視化區分基礎上采用統計分析方法對結果進行分析。這些方法在一定程度上建立了比較客觀的分類標準,但目前大量的識別算法都集中在提取特征信息上,特征選取的數量和好壞直接影響到識別效果。
壓縮感知(Compressive Sensing,CS)是由文獻[10-11]在相關研究基礎上提出的一種信號采樣和重建的新理論,使用一定數量的非相關測量值能夠高效地采集可壓縮信號的信息,這種特性決定了壓縮感知應用的廣泛性。目前,關于CS理論的應用研究已經涉及諸多領域,例如人臉識別[12-13]、醫療成像[14]、生物傳感[15]、語音信號處理[16]。CS理論的出現和發展,給高維的譜圖數據處理也帶來了新的啟發:如果可以在某個空間基下對譜圖數據進行稀疏表示,那么特征選取就不再是難點,大量的特征將成為算法中可利用的優點。應用CS理論進行識別分類,可以分為稀疏表示、稀疏重建和樣本歸類3步,最小冗余誤差[17]是常用的一種樣本歸類準則,它通過計算測試樣本的冗余誤差最小值確定目標歸屬類。考慮到不同香型白酒譜圖間差異性較小的特點,本文提出一種基于壓縮感知和K近鄰準則的白酒香型分類方法(CS-KNN),以期為白酒產品的分類鑒別提供新的方法和參考價值。
壓縮感知問題可以化為最小l0范數問題:

其中,Ψ為正交稀疏基矩陣;Φ為觀測矩陣;x為稀疏向量。解決l0范數的優化問題是一個NP難題,算法復雜度隨著問題規模的增長而成指數增長。目前解決方案主要有:將最小l0范數問題轉化為最小l1范數問題求解[18],或者轉求最小l0范數問題的次最優解[19-20]。本文分別選擇正交匹配追蹤算法(Orthogonal Matching Pursuit,OMP)、稀疏度自適應匹配追蹤算法(Sparsity Adaptive Matching Pursuit, SAMP)、迭代加權最小二乘算法(Iteratively Reweighted Least Squares,IRLS)以及基追蹤算法(Basis Pursuit,BP)來求解式(1)。
CS理論表明,滿足約束等距條件(Restricted Isometry Property,RIP)的感知矩陣Θ可以對稀疏向量進行映射并保留信號特性。用超完備的冗余函數庫可以代替基函數,這個超完備的冗余函數庫稱為冗余字典[21]。本文選擇白酒訓練樣本集構造冗余字典矩陣Ψ,這樣白酒譜圖信號y在冗余字典下的稀疏表示為x(y=Ψx),只要設計滿足RTP約束條件的觀測矩陣Φ便可對稀疏向量x進行映射處理。已經證明當觀測矩陣Φ為高斯隨機矩陣時,感知矩陣Θ有較大概率滿足RIP條件,因此,本文選擇高斯隨機矩陣作為觀測矩陣Φ。
3.1 白酒譜圖CS稀疏求解
給定M類白酒目標訓練樣本集,記第i類訓練集Ei共ni個樣本,表示為:

其中,vij∈?m×1表示第j個訓練樣本,j=1,2,…,ni,i=1,2,…,M;m為樣本維數;?表示實數集。記M類目標訓練集所有訓練樣本為矩陣Ψ,表示為:

其中,Ψ∈?m×n,n=n1+n2+…+ni+…+nM。
設高斯隨機測量矩陣為Φ∈?d×m(d?m),對白酒測試樣本y和訓練樣本集Ψ進行映射處理,獲取擾動特征量=Φy和感知矩陣Θ=ΦΨ。分別利用OMP,SAMP,IRLS,BP等算法尋找式(2)的最稀疏解。

上式為白酒信號特征量在變換域Θ=[θ11,θ12,…,θ1n1,…,θn]下的稀疏表示x。
設式(2)的最小l0范數解為x表示為:

則測試樣本在冗余字典上的稀疏表示為:

如果測試樣本y屬于第i類,則在理想情況下,x中只有與第i類訓練樣本數據對應的元素不等于0,其他都為0,但是噪聲、模型誤差以及不同類別樣本間高度相似的影響會導致x中其他處也會出現較小的非零值。本文應用KNN準則判別測試樣本的歸屬類別。
3.2 CS-KNN分類
首先利用CS理論對白酒TOFMS譜圖進行稀疏求解,即對每一張譜圖求稀疏解得到訓練集和測


(x)表示對f(x)的估計,當a=b時,δ(a,b)= 1;否則δ(a,b)=0。
(3)(x)即是待測樣本y的類別。
4.1 儀器設備
實驗使用江蘇省質量安全工程研究院與中科院大連化學物理研究所聯合設計制造的單光子電離-飛行時間質譜儀(SPI-TOFMS),電離源采用的是10.6 eV光子能量的真空紫外燈(VUV),可將電離能小于10.6 eV的樣品電離生成分子離子,譜圖中僅有分子離子峰,碎片峰很少。
4.2 白酒香型識別
實驗采集3種香型5個品牌白酒的550張TOFMS譜圖,3種香型白酒譜圖構成如下:清香型樣本由50張汾酒譜圖樣本組成,醬香型樣本由不同生產批次的150張茅臺和50張郎酒譜圖樣本組成,濃香型樣本由不同生產批次的150張瀘州老窖、50張劍南國寶以及100張不同生產批次的五糧液譜圖樣本組成。白酒樣品的TOFMS譜圖如圖1所示,每張譜圖包含6 250個數據點。

圖1 白酒TOFMS譜圖
由于低頻基線、高頻化學噪聲、質譜儀自身系統誤差以及人為因素導致的樣本間測量差異等影響,實驗采集得到的白酒譜圖混合了真實信號和噪聲,因此需要對譜圖數據進行預處理。本文利用小波軟閾值法去噪,運用數據約簡減少譜圖中顯著性譜峰的數量,將譜圖數據標準化以增強不同譜圖間的可比性。通過優化選擇合適的小波基函數和閾值選擇方法能有效地提高算法的識別效果。圖2顯示的是茅臺酒TOFMS譜圖去噪前后信號對比。

圖2 茅臺酒去噪前后TOFMS
選擇其中80%的譜圖(共440張)組成訓練樣本集,20%組成測試樣本集,采用交叉驗證的方法估計CS-KNN算法的分類性能。分別運用OMP, SAMP,IRLS以及BP算法解最小l0范數。圖3顯示的是運用SAMP算法求得的濃香型白酒樣本在冗余字典下的稀疏表示。冗余字典由440張訓練樣本組成,圖中橫軸樣本序列第1列~第40列為清香型白酒,第41列~第200列為醬香型白酒,第201列~第440列為濃香型白酒。可以看出,濃香型測試樣本在冗余字典第201列~第440列上具有明顯的稀疏表示系數。

圖3 測試樣本(濃香型)稀疏解
在理想情況下,圖3訓練樣本序列第1列~第200列的稀疏解為0,但由于噪聲、誤差以及不同香型間譜圖的相似性影響使得這些序列也存在非零值。本文分別運用OMP,SAMP,IRLS以及BP算法解最小l0范數,然后分別根據最小冗余誤差方法和KNN算法對測試樣本的稀疏表示按香型進行識別分類,實驗中d取32,K取3。

誤差最小的i對應的類別即為測試樣本y的類別標簽。實驗結果如表1所示。

表1 根據最小冗余誤差和KNN的分類結果比較
最小冗余誤差方法通過比較不同類別間誤差的大小進行分類,KNN方法則利用了不同樣本間的關系,這對于高度相似的白酒TOFMS譜圖而言,減少了類別特征選擇不當對分類結果的影響,表1顯示, 4種算法結合KNN進行分類的準確率要優于根據最小冗余誤差分類的結果,其中,SAMP算法結合KNN進行分類的準確率能達到91.21%。
IRLS和BP算法屬于2種凸優化算法,其特點是需要較少的測量值就能以很高的概率恢復原信號,但缺點是計算復雜度較高O(N3);OMP和SAMP算法屬于2種貪婪算法,OMP算法繼承了匹配追蹤算法中的原子尋優原則,但在殘差更新中對已選原子集合進行施密特正交化以保證迭代的最最優性,其復雜度約為O(Kdm)。當步長為1時, SAMP算法可視為一個帶有支撐集更新功能的OMP算法,SAMP算法計算復雜度要高于OMP算法,隨固定步長的不同而不同。表1中2種凸優化算法的運算時間均高于2種貪婪算法的運算時間,并且因為KNN分類需要計算測試樣本與每一個訓練樣本的距離,而最小冗余誤差分類只需計算類別間的誤差即可,所以從表1中也可以看出,每種算法按照KNN準則分類的時間都比按最小冗余誤差準則分類的時間長。
由于測量矩陣Φ是隨機生成的,因此識別率和測量矩陣有關,從而需要進一步對算法的穩定性進行實驗。圖4為4種重構算法分別進行100次重復實驗得到的結果,表2為重復實驗分類準確率均值(mean)及方差(var)的比較。

圖4 重復實驗結果

表2 重復實驗分類準確率均值及方差比較
從識別率均值以及波動情況來看,運用SAMP算法得到的稀疏解對白酒譜圖進行香型識別分類的準確率以及穩定性要優于其他3種重構算法。
表3為不同高斯隨機矩陣維數d對CS-KNN (SAMP)分類的準確率和運行時間等指標的統計結果,表中維數d取值為2j(j=1,2,…,8)。

表3 高斯隨機矩陣維數d對分類結果的影響
由實驗結果可知,在不同的映射維數下,除了256維的情況外,KNN分類時間均要大于最小冗余誤差分類時間,且映射維數d取值越大,分類時間(主要是l1范數優化求解)也越長。2種判別準則在高斯隨機矩陣32維左右時均能獲得對白酒香型識別的最佳效果。當d=2時,CS-KNN分類準確率為69.82%,隨著維數d的增大分類準確率逐漸增高,當d=32(25)時,CS-KNN分類準確率約為91.45%,而當維數大于32維,算法準確率開始降低。
目前對白酒香型研究采用的方法有主成分分析、判別函數、KNN、決策樹模型、AdaBoost算法等。LDF和QDF為以高斯分布為假設的參數分類器, CART方法是以實例為基礎的歸納學習方法,KNN是一種將盲樣決策到其K近鄰中出現頻率最高的模式類別的非參數方法。通過這些方法對儀器檢出白酒譜圖進行分析,一定程度上克服了傳統的白酒香型鑒定方法不夠科學規范、難適應于綜合宏觀的整體評價等缺陷。為了對比本文提出的CS-KNN方法,這里選擇線性判別函數(LDF)、二次判別函數(QDF)、決策樹ID3(CART)、K近鄰分類(KNN)等4種分類器對白酒TOFMS譜圖進行香型分類,結果比較如表4所示。

表4 識別結果比較
可以看出,CART(ID3)使用信息增益方法作為屬性選擇標準,能獲得89.73%的識別率,但由于該方法需要頻繁地將白酒TOFMS訓練數據在主存和高速緩存中換進換出,從而使得算法的時間開銷大。利用PCA降維然后使用判別函數進行處理,雖然獲取分類結果較快,但識別率有待提高。KNN屬于一種懶惰的非參數方法,直接利用KNN算法進行分類,精度較低。應用本文方法,選擇恰當的最小l0范數解法以及合適的維數d能獲得優于其他方法的分類效果。
本文提出利用CS方法對白酒TOFMS譜圖進行整體分析,運用訓練數據構造冗余字典作為稀疏基,高斯隨機矩陣為測量矩陣,以此獲得反映白酒香型特征的稀疏表示,進而根據K近鄰法進行分類識別。本文首先對白酒香型運用4種不同重構算法結合最小冗余誤差和K近鄰法分別進行分類,其次考察高斯隨機矩陣維數d對分類結果的影響。實驗結果表明,與最小冗余誤差方法相比,基于壓縮感知的白酒香型識別方法能得到較高的識別率,但計算時間較長。相較于OMP,SAMP,IRLS算法,SAMP算法能獲得更高的識別效果。
本文研究是對現有白酒香型分類方法的有益補充,也是這種方法在白酒分類領域的新應用,實驗結果表明,該方法對白酒香型進行分類是可行的,能避免特征選取的問題。但如何設計最佳的測量矩陣,并提高求解最優化問題的計算效率還有待進一步研究。
[1]徐成勇,郭 波,周 蓮,等.白酒香味成分研究進展[J].釀酒科技,2002,(3):38-40.
[2]張永生,魏新軍,韓偉元,等.白酒中微量成分的氣相色譜-質譜分析與鑒定[J].釀酒科技,2011,(3):101-103.
[3]陳 華,郁志勇.中國白酒香型的化學模式識別(Ⅰ):主成分分析和因子分析[J].食品科學,2000,21(7): 42-47.
[4]霍丹群,張苗苗,侯長軍,等.基于主成分分析和判別分析的白酒品牌鑒別方法[J].農業工程學報,2011, 27(14):297-301.
[5]姜 安,彭江濤,彭思龍,等.酒香型光譜分析和模式識別計算分析[J].光譜學與光譜分析,2010,30(4): 920-923.
[6]陳 華,郁志勇.中國白酒香型的化學模式識別(Ⅱ):聚類分析[J].食品科學,2000,21(8):37-41.
[7]姜 安,彭江濤,彭思龍,等.基于SVM的白酒紅外光譜分析方法研究[J].計算機與應用化學,2010, 27(2):233-236.
[8]萬益群,潘鳳琴,譚 婷.化學計量學用于解析江西白酒的高效液相色譜指紋圖譜[J].食品科學,2009, (4):239-242.
[9]霍丹群,尹猛猛,侯長軍,等.可視化陣列傳感器技術鑒別不同香型白酒[J].分析化學,2011,39(4): 516-520.[10]Donoho D L.Compressed Sensing[J].IEEE Transactions on Information Theory,2006,52(4):1289-1306.
[11]Candès E J.Compressive Sampling[C]//Proceedings of ICM’06.[S.l.]:American Mathematical Society, 2006:1433-1452.
[12]Zhu Ningbo,LiShengtao.AKernel-basedSparse Representation Method for Face Recognition[J].Neural Computing and Applications,2012,24(3/4):845-852.
[13]魏冬梅,周衛東.采用壓縮感知的人臉識別算法[J].計算機工程,2011,37(18):10-11,15.
[14]Abdulghani A M,Casson A J,Rodriguez-Villegas E.Compressive Sensing Scalp EEG Signals:Implementations and Practical Performance[J].Medical&Biological Engineering&Computing,2012,50(11):1137-1145.
[15]Mohtashemi M,Walburger D K,Peterson M W,et al.Open-target Sparse Sensing of Biological Agents Using DNA Microarray[J].BMCBioinformatics,2011, 12(1):314.
[16]Griffin A,Hirvonen T,Tzagkarakis C,et al.Singlechannel and Multi-channel Sinusoidal Audio Coding Using Compressed Sensing[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(5): 1382-1395.
[17]沈 躍,劉國海,劉 慧.隨機降維映射稀疏表示的電能質量擾動多分類研究[J].儀器儀表學報,2011, 32(6):1371-1376.
[18]Chen S S,DonohoDL,SaundersMA.Atomic Decomposition by Basis Pursuit[J].SIAM Journal on Scientific Computing,1998,20(1):33-61.
[19]Tropp J A,Gilbert A C.Signal Recovery from Random Measurements via Orthogonal Matching Pursuit[J].IEEE Transactions on Information Theory,2007,53(12): 4655-4666.
[20]Needell D,TroppJA.CoSaMP:IterativeSignal Recovery from Incomplete and Inaccurate Samples[J].Applied and Computational Harmonic Analysis,2009, 26(3):301-321.
[21]Du Xiaojiang,Xiao Yang,Dai Fei.Increasing Network Lifetime by Balancing Node Energy Consumption in Heterogeneous SensorNetworks[J].WirelessCommunications and Mobile Computing,2008,8(1):125-136.
編輯 金胡考
Liquor Aroma Classification Based on Compressive Sensing
WANG Haiyan1,2,WANG Hu1,WANG Guoxiang1,LIU Jun1,2
(1.School of Management Science and Engineering,Nanjing University of Finance and Economices,Nanjing 210046,China;
2.Jiangsu Province Institute of Quality and Safety Engineering,Nangjing 210046,China)
Most present liquor classification methods need feature selection,but the feature selection algorithm will increase the computational complexity and limit the number of the characteristics.The selection result directly affects the recognition results.Therefore,this paper applies the Compressive Sensing(CS)theory into holistic analysis for Time-offlight Mass Spectrometry(TOFMS)of liquor.Using the training data to form the over complete dictionary and taking it as a sparse matrix,the Gaussian random matrix builds the measurement matrix.By calculating the minimuml1norm solution,it obtains the sparse representation of the liquor aroma,then realizes liquor aroma recognition based on the KNearest Neighbor(KNN)algorithm.Combining four reconstruction algorithms with minimum residual error and KNN classify liquor aroma,experimental results show that it is feasible to use CS for classification of liquor aroma,and it can avoid the problem of feature selection.Using Sparsity Adaptive Matching Pursuit(SAMP)to solvel1norm and recognition with KNN has a accuracy rate about 91.45%and better stability.
Compressive Sensing(CS);Time-of-flight Mass Spectrometry(TOFMS);sparse representation;liquor aroma;K-Nearest Neighbor(KNN)algorithm;minimum residual error
王海燕,王 虎,王國祥,等.基于壓縮感知的白酒香型分類[J].計算機工程,2015,41(3):172-176,181.
英文引用格式:Wang Haiyan,Wang Hu,Wang Guoxiang,et al.Liquor Aroma Classification Based on Compressive Sensing[J].Computer Engineering,2015,41(3):172-176,181.
1000-3428(2015)03-0172-05
:A
:TP18
10.3969/j.issn.1000-3428.2015.03.033
國家自然科學基金資助項目(61373058);國家自然科學基金資助面上項目(71373117);國家重大科學儀器設備開發專項基金資助項目(2013YQ090703);國家質量監督檢驗檢疫總局應急基金資助項目(2012104009);質檢公益專項基金資助項目(201410173)。
王海燕(1968-),女,教授、博士,主研方向:模式識別,食品安全工程;王 虎、王國祥,碩士研究生;劉 軍,副教授。
2014-03-20
:2014-04-26E-mail:njue2010@163.com