伍世元,駱德漢,鄧炳榮,趙慶輝
(廣東工業大學信息工程學院,廣州 510006)
中藥材存在產地、批次、品種、采收季節等因素的影響[1],致使中藥材很難達到質量標準化,中藥材質量可控性成為中醫藥界關注的熱門話題。基于感官的鑒別方法不可避免地要受生理、經驗、情緒、環境等因素的影響,其主觀性強、重復性差,難以形成標準。高效液相色譜、氣相色譜等理化方法需要較長的前處理時間,很難將獲得的數據和樣本的氣味直接聯系起來[1-2],而且是典型的有損檢測。
電子鼻是由具有交叉敏感特性的傳感器陣列和適當的模式識別算法組成的儀器,能識別簡單和復雜的氣味或氣體[3]。它不但具有客觀性強、重現性好、操作簡單等特點,更重要的是對樣品的測定可以做到不失原本性、無損性,能像人類鼻子一樣獲得樣品氣味的整體信息[5],即“氣味指紋圖譜”。目前電子鼻在食品品質評價、環境檢測、疾病診斷等方面獲得廣泛應用[4-7]。
文獻[2]采用電子鼻識別不同種類的中藥材,而不同種類的中藥材外在特性有很大的差異,用電子鼻來鑒別沒有充分發揮其在中藥材鑒別中的優勢。本文提出在自然態下利用電子鼻對不同產地和采收期的同種中藥材進行分類鑒別,為中藥材質量控制提供一種新的有效方法。
采用德國 AIRSENSE公司制造的 PEN3便攜式電子鼻,PEN3電子鼻是一種用來檢測氣體和蒸汽的小巧、快捷、高效的檢測系統,經過訓練后可以很快辨別單一化合物或者混合氣體,其測量氣室內置10個金屬氧化物氣體傳感器組成傳感器陣列,分別以 “S1”到“S10”命名。
確定檢測參數如下,工作環境溫度:25℃;頂空生成時間:60 min(靜態頂空);進氣流量:200m L/min;采樣時間:80 s;相對濕度:58%~62%;清洗時間:100 s;采樣間隔時間:1.0 s;零點漂移時間:10.0 s;預抽樣時間:6.0 s;頂空空間:250 mL。
實驗樣品由廣東藥學院提供,測量數據一半用做訓練樣本,一半用做測試樣本。
(1)不同采收期中藥材對象和檢測方法
選擇 2個批次不同采收期的陽春砂為研究對象(批次 1為成熟的陽春砂,批次 2為成熟前 1個月采收的)。由于要求在自然態下對樣品進行測量并分類,對中藥材無需經過研磨粉碎,而陽春砂顆粒有大有小,致使兩批次陽春砂樣本占住的體積、外觀狀態、散發氣味濃度不一致,在其他檢測參數基本確定的情況下,質量因素將是影響測量結果的主要因素。所以對 2個不同采收期的陽春砂各取 5個質量水平(5 g、10 g、15 g、20 g、25 g),分別以 “陽春砂 01”到“陽春砂 10”命名,其中“陽春砂 01”到 “陽春砂 05”代表批次 1各樣本,“陽春砂 06”到“陽春砂 10”代表批次 2各樣本,每個水平重復測量 12次,共得到120個樣本。
(2)不同產地中藥材對象和檢測方法
選擇安徽太和、廣東揭陽、江蘇太倉產的薄荷為研究對象,根據不同采收期的陽春砂分析結果,樣本質量水平統一取 15 g,每個水平重復測量 16次,共得到 48個樣本。
電子鼻面臨的一個問題是對差別微小,濃度甚微的氣體進行檢測,類別之間的測量空間間隔很近。僅選擇一個特征只能代表傳感器響應數據的某一方面的信息,所獲信息有限[6];采用多個具有代表性的特征增加了信息量,但是會增加特征陣列的維數,特征之間也會出現相互抵消的現象[7],使得分類判別處理數據量大而且分類鑒別結果不一定理想。鑒于上述討論,選擇代表傳感器響應曲線不同方面的各個特征組成原始特征集合,通過鑒別結果的反饋對特征組合進行優化,得到一個使判別分類最優的特征子集,并用于對待測樣本進行鑒別。
特征集合包括以下特征:各傳感器第 15秒數據、各傳感器第 30秒數據、各傳感器第 40秒數據、各傳感器第 50秒數據、各傳感器第 60秒數據、各傳感器第 70秒數據、各傳感器第 80秒數據、各傳感器的均值、各傳感器的峰值、各傳感器的方差、各傳感器的標準差、各曲線的微分值、各曲線的積分值、各傳感器四階擬合系數(5個擬合參數)、各傳感器方差最大時候的響應值。
主成分分析(PCA)雖能最大限度地保持原有測量數據集的信息,但經過降維后保存下來的信息卻不一定對分類最有用,這是因為被 PCA算法拋棄的那些分布方向有可能正是能夠把不同類別區分開來的方向。線性判別分析(LDA)由原始數據經線性組合構造判別函數,將多維空間分成一些子空間,能夠最大限度地區分不同的樣品集,分類效果好且易實現,但是,當樣本總數較少或選取的特征數較多時,直接采用 LDA算法會出現小樣本問題,即導致樣本類內散布矩陣奇異,LDA算法將無法進行下去,而解決小樣本問題可通過降維的方法使類內散布矩陣非奇異或者避免對其求逆[8-9]。所以,本文綜合 PCA和 LDA的優缺點,采用由 PCA算法得到的特征矩陣作為 LDA算法的輸入矩陣,即 PCA+LDA分析法[10]。
在特征集合里選擇特征子集,通過 PCA對特征子集進行降維,減少數據計算量,進而優化特征向量,得到能夠代表原始特征主要方面的少量特征作為 LDA的輸入,即得到足夠的信息,又減少數據的處理量,使類內散布最小化、類間散布最大化。
在選擇某一個特征或特征集合全部特征的情況下,分類結果都不理想。如圖 1所示,在特征集合里選取單一特征的情況下,得到區分度最好的特征是“各傳感器的方差”,但區分效果還是不太理想,在相同質量水平的“陽春砂 04”和“陽春砂 09”之間決策邊界靠的很近;不同質量水平的同一批次樣本聚合度不理想,質量因素對分類影響很大。圖 2是選擇特征集合的全部特征,對其進行 PCA+LDA分析,結果各個樣本數據混雜在一起,分類效果反而更差。可見,單一的特征不能代表樣本的整體信息,對樣本的反映不全面,而太多的特征往往使得特征之間相互抵消,分類反而不理想。

圖1 單一特征下的不同采收期陽春砂分類結果

圖2 特征集合下的不同采收期陽春砂分類結果
通過選擇特征集合里的特征反復試驗,當選擇“各傳感器的方差”、“各傳感器的標準差”、“各曲線的微分值”這一特征子集時,能夠將兩個不同采收期的陽春砂很好的區分開來,如圖 3所示。通過一條直線可以清楚地把 2個批次不同采收期的陽春砂區別開來,決策邊界清晰。盡管在不同質量的情況下,兩個批次的陽春砂數據不重合,說明質量會影響分類的結果,但是質量引起的差別比單一特征和特征集合下的要緊湊得多。“陽春砂 06”到“陽春砂10”靠得比較緊湊,說明質量對這一批次的影響較小,是采收時間較早的批次,散發的氣味比較淡;“陽春砂 02”、“陽春砂 03”、“陽春砂 04”重疊在一起,質量因素對這一區段的樣本影響較小;總體上講,“陽春砂 01”到“陽春砂 05”質量因素對它的影響很大,尤其是在“陽春砂 05”有強烈離群現象,說明在 20 g、25 g質量之間,質量因素對測量影響很大,所以應該避免選擇位于此區間的質量的樣本作為檢測對象。通過選擇一個特征子集,收到了很好的分類結果,說明“各傳感器的方差”、“各傳感器的標準差”、“各曲線的微分值”這一特征子集能夠充分代表不同采收期陽春砂的特點。

圖3 特征子集下的不同采收期陽春砂分類結果
通過采用與不同采收期陽春砂分類類似的方法反復驗證,在特征集合里面選擇適當的特征子集,對不同產地的薄荷進行分類。
通過試驗,最終選擇“各傳感器的均值”、“各傳感器的峰值”、“各曲線的標準差”、“各曲線的微分值”、“四階擬合系數”這一特征子集,獲得較好的分類結果,說明這一特征子集能夠充分代表不同產地薄荷的特點,如圖 4(a)、4(b)所示。但是,在相同的特征子集情況下,PCA分析方法中廣東薄荷和安徽薄荷的分類界面靠得很近,PCA+LDA分析方法類內更加緊湊、類間分界面更加明顯,證實 PCA+LDA分析方法的優越性。

圖4 不同產地中藥材分類結果
選擇和訓練樣本相一致的特征子集,把待測樣本數據通過 PCA+LDA映射到特征空間,分別采用歐式距離、馬氏距離分析法,計算未知樣本和各個訓練類別之間的距離,把未知樣本歸類到距離最小的訓練類別,得出未知樣本的類別屬性。由于采用反饋方法獲得最能區別樣本的特征子集,通過分別采用歐式距離、馬氏距離分析法,都能得到正確的識別結果,正確率為 100%。
事先確定特征,通過模式識別技術做分類判別的方法有很大的劣勢,因為無法確定事先選擇的特征就能確切的代表樣本類別之間的最大差別。況且選擇某一個特征得到的信息有限,而選擇過多的特征使得特征相互抵消,并不一定能獲得較好的分類判別結果。應該采取逆向思維的方法,通過一個反饋的過程,根據測量結果不斷優化特征子集,最終達到較好的分類判別結果。同時,采用 PCA+LDA分析方法,能夠解決 PCA算法對不同的訓練樣本數據不敏感的問題和 LDA算法可能出現的小樣本問題,又能夠實現 PCA算法的特征壓縮,使得處理變得簡單有效。
通過此種方法,對不同產地的薄荷以及不同采收期的陽春砂進行分類鑒別,獲得較理想的結果。通過電子鼻構建中藥材氣味指紋圖譜的方法具有可觀的前景,將為中藥材質量控制以及中藥材的質量標準化提供一種行之有效的方法。
[1]孟巖,鄭旭光,鄭燕,等.色譜指紋圖譜在中藥與天然產物研究中的應用[J].河北醫藥,2009,31(18):2473-2474.
[2]劉紅秀,姬生國,莊家俊,等.基于仿生嗅覺的中藥材鑒別的實現[J].廣東藥學院學報,2009,25(4):356-359.
[3]Gardner JW,Bartlett N.A Brief History of Electronic Nose[J].Sensors and Actuators B,1994,18-19:211-220.
[4]Huichun Yu,Jun Wang.Discrimination of LongJing Green-Tea Grade by Electronic Nose[J].Sensors and Actuators B:Chemical,2007,122(1):134-140.
[5]Ghasemi-Varnamkhasti M,Mohtasebi S S,Siadat M,et al.Meat Quality Assessment by Electronic Nose(Machine Olfaction Technology)[J].Sensors,2009,9(8):6058-6083.
[6]周海濤,殷勇,于慧春.勁酒電子鼻鑒別分析中傳感器陣列優化方法研究[J].傳感技術學報,2009,22(2):175-177.
[7]海錚,王俊.電子鼻信號特征提取與傳感器優化的研究[J].傳感技術學報,2006,19(3):606-609.
[8]宋楓溪,程科,楊靜宇.最大散度差和大間距線性投影與支持向量機[J].自動化學報,2004,30(6):890-896.
[9]陳伏兵,張生亮,高秀梅.小樣本情況下 Fisher線性鑒別分析的理論及其驗證[J].中國圖象圖形學報,2005,10(8):984-991.
[10]鄒宇華.嶺南中草藥分類鑒別的機器嗅覺實現方法研究[D]:[碩士學位論文].廣州:廣東工業大學,2009.