999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于近紅外光譜技術的六大茶類快速識別

2024-02-27 15:08:42張靈枝于英杰孫威江
食品與生物技術學報 2024年1期
關鍵詞:特征提取特征模型

張靈枝, 黃 艷, 于英杰, 林 剛, 孫威江

(1. 福建農林大學園藝學院,福建 福州 350002;2. 福建農林大學安溪茶學院,福建 泉州 362400;3. 中國茶葉流通協會,北京 100801;4. 福建融韻通生態科技有限公司,福建 福州 350025;5. 福建農林大學福建省茶產業工程技術研究中心,福建 福州 350002;6. 福建農林大學海峽兩岸特色作物安全生產省部共建協同創新中心,福建 福州 350002)

茶葉富含茶多酚、氨基酸、生物堿等多種對人體健康有益的成分,是世界上最受歡迎的三大無酒精飲料之一。 根據加工工藝及發酵程度不同,茶葉可分為綠茶(未發酵)、白茶(微發酵)、黃茶(輕發酵)、烏龍茶(半發酵)、紅茶(全發酵)以及黑茶(后發酵)[1-3]六大類。 六大茶類識別主要通過專業人士對茶葉外形、風味進行感官審評,結果易受審評人員的身體、精神狀況等影響,審評主觀性和經驗性強。 國際層面,茶葉評價術語尚未實現規范化、統一化和標準化, 化學分析的國際標準制定嚴重滯后,使得國外非專業人士對六大茶類的分辨更加困難[4-6],嚴重制約著茶葉國際貿易和流通。 因此,不少學者在化學分析技術、計算機視覺技術、光譜技術等領域開展了多茶類判別研究。 Ning 等以兒茶素、咖啡堿等生化成分含量結合Fisher 判別分析對六大茶類進行逐步判別, 其最佳模型的識別正確率達到88.30%以上[7];Wu 等以茶多酚、咖啡堿等生化成分含量結合逐步線性回歸判別分析,建立綠茶、白茶、烏龍茶以及紅茶的判別函數,識別正確率達97.80%[8];Jiang 等基于氨基酸、兒茶素等生化成分含量結合線性判別分析, 對六大茶類可實現100.00%準確鑒別[9];Zhang 等基于非靶向代謝組學識別綠茶、 白茶以及黃茶,找出了關鍵分類指標,分類識別正確率可達100.00%[10]。上述研究雖然建立了優異的判別函數和模型,但存在特征成分檢測耗時長、成本高、分析復雜等問題,不易進行快速無損鑒別,難以在國際上實現產業化應用。 Wu 等通過采集紅茶、綠茶、烏龍茶的外形圖片, 利用機器學習和計算機視覺技術,結合K 近鄰(K-nearest neighbor,KNN)分類器構建判別模型,識別正確率可達94.7%[11]。Ning 等將高光譜成像技術結合化學計量學建立的Lib-SVM 模型對綠茶、黃茶、白茶、黑茶、烏龍茶的識別正確率可達98.39%[12]。 由于茶葉的年份差異導致的波動性較大、高光譜儀普及率低等問題,上述兩項技術并未實現產業化應用。

近紅外光譜作為綠色分析技術[13],具有高效、便捷、準確性高等優點,已在食品[14-16]、煉油[17-18]、藥物[19-20]等領域廣泛應用。本研究中以NIRS 結合機器學習算法,探索六大茶類鑒定的可行性,包括以下4個步驟:1)獲取六大茶類在3 600~12 500 cm-1波段的近紅外光譜;2) 應用最小最大歸一化(minmax scaler,Minmax)、連續小波變換(continuous wavelet transform,CWT)、 標準正態變換 (standard normal variate,SNV)及多元散射校正(multiplicative scatter correction,MSC)4 種預處理算法, 建模分析他們對OS 的去噪和散射校正性能;3) 比較主成分分析(principal component analysis,PCA)、線性判別分析(linear discriminant analysis,LDA) 和連續投影算法(successive projections algorithm,SPA)3 種方法提取茶葉光譜特征的能力;4)建立基于RF 和SVM 分類器的茶類鑒別模型,實現對六大茶類的快速、無損識別,為近紅外光譜技術在茶類識別的產業應用上奠定理論基礎和科學依據。

1 材料與方法

1.1 材料與儀器

共收集370 份六大茶類樣品,包括122 種烏龍茶、110 種綠茶、55 種紅茶、34 種黑茶、29 種白茶、20 種黃茶,來自中國福建、廣東、臺灣等地區,以及日本、斯里蘭卡等國家。 所有茶葉樣品均具有該茶類正常的商品外形及特有的色、香、味,無異味、無劣變、無污染、無非茶類夾雜物、無任何添加劑,滿足實驗材料要求,具體信息詳見表1。

表1 各茶類樣品信息Table 1 Sample information of each tea category

MPA 型傅里葉變換近紅外光譜儀:德國布魯克光譜儀器公司;高速粉碎機:上海鼎廣機械設備有限公司;CFJ-II 茶葉篩分機: 杭州大吉光電儀器有限公司。

1.2 實驗方法

1.2.1 樣品制備茶葉粉碎后,置于茶葉篩分機中過80 目篩,取篩下茶粉5 g,密封編號,放于4 ℃冰箱中備用。

1.2.2 光譜采集使用MPA 型傅里葉變換近紅外光譜儀采集樣品光譜信息。 儀器工作時溫度控制在25 ℃,相對濕度<70%。 光譜采集工作流參數:波數為3 600~12 500 cm-1,光譜掃描次數為64 次,分辨率為8.0 cm-1。 為確保近紅外光譜檢測數據的可靠性,每個樣品掃描3 次,取平均光譜作為原始光譜數據進行后續分析。

1.2.3 光譜預處理采用Minmax 算法增強數據;選用CWT 算法校正基線漂移并消除高頻噪聲;使用SNV 及MSC 算法校正散射, 消除因茶粉粒徑的不均勻、光程不恒定等因素所帶來的影響。

1.2.4 特征提取為提升模型性能、 運算效率,選用PCA、LDA 及SPA 方法進行光譜數據的特征提取,降低數據維數。

1.2.5 模型構建與評價數據挖掘分類器廣泛應用于NIRS 數據的分析與利用, 不存在始終保持最優效果的分類器,因此使用多種分類器建模更利于優質模型的構建[21]。 本文中基于RF、SVM 兩種分類器,結合不同預處理、特征提取方法,優化模型參數,探究六大茶類最佳識別模型構建流程。

為確保所建模型的適用性, 將數據按照3∶1 的比例劃分為訓練集和驗證集兩個子集,樣本數分別為277 和93 個,其中訓練集用于模型訓練,驗證集用于測試模型穩健性。使用RA、AUC 以及混淆矩陣作為模型精度及性能的評價指標。

1.2.6 數據處理軟件數據處理軟件包括MATLAB 2016a、Origin 2019b、Excel 及Python。

2 結果與分析

2.1 光譜分析

370 份茶葉樣品在3 600~12 500 cm-1波段的近紅外光譜如圖1(a)所示,各波段吸光度變化趨勢趨于一致。 隨著波數的增加,吸光度總體呈現下降趨勢,變化范圍處于0.249~2.196。

圖1 370 份茶葉樣品近紅外光譜和六大茶類平均光譜圖Fig. 1 Near-infrared spectra of 370 tea samples and average spectra of six major tea types

六大茶類的平均光譜在大多波段范圍內趨勢一致(見圖1(b)),吸收光譜趨于平行,各茶類對應譜圖于3 750 cm-1處初步分開,于3 750~9 000 cm-1處波動最為明顯。受C—H+C—H 組合頻伸縮、變形振動影響,4 000 cm-1處出現明顯波峰;參照相關文獻[22-25],4 500~4 950 cm-1的譜帶變化可歸因于N—H+O—H 的組合頻;5 000~5 300 cm-1的譜帶變化主要受O—H+O—H 的組合頻振動影響;5 600~6 300 cm-1的譜帶變化受C—H 和S—H 的一級倍頻振動影響;6 700~7 400 cm-1的譜帶變化主要受N —H 的一級倍頻振動影響;8000~9000cm-1中出現的波峰可能與CHCH及C—H的二級倍頻振動有關。

3 750~9 000 cm-1中各平均光譜能基本分開,說明六大茶類樣品吸光度在該波段增減性不同,即光譜信息與茶類間具有相關性。 首段譜帶中各平均光譜間交叉重疊現象頻發,說明該波段體現的與產地相關的有效信息較少,信噪比低;末端譜帶波動同原始光譜一致,趨于平緩,無明顯波峰波谷,特征信息不顯,因此結合Meng 等結論[23],本文中的模型構建使用3 750~9 000 cm-1波段的光譜數據。

2.2 光譜預處理

為校正光譜采集過程中因環境、光程不恒定及樣品粒徑差異等因素所帶來的誤差, 從數據增強、基線校正、 散射校正等角度, 使用Minmax、CWT、SNV 及MSC 算法對OS 進行預處理。 CWT 中小波參數(小波基、分解尺度)的選擇至關重要,直接決定了后續模型的優劣,經比對分析后,本研究中選擇應用最為廣泛的db(daubechies)族中的db4 小波基,分解尺度定為100[26]。

從光譜變化情況(見圖2)可知,4 種處理方式都使光譜形態發生了較大改變。Minmax(見圖2(a))將光譜吸光度凝練到-1.0~1.0,增強了數據,消除了數據量綱及取值范圍的影響,后續可使所建模型收斂速度加快,提高模型性能。 應用CWT 進行光譜預處理如圖2(b)所示,其形態變換程度為4 種預處理方式中最大,基線漂移、背景干擾、噪音現象等得到明顯消除,譜峰更清晰,差異信息段更明顯。 受茶粉顆粒大小不均、產生的散射影響,采用SNV 與MSC進行預處理(見圖2(c)和圖2(d)),處理后光譜中的散射干擾得到明顯消除,特征信息更加突出。 相較于OS,預處理可有效消除光譜中因光散射、基線漂移等造成的信號干擾,但處理后的光譜圖仍無法直觀分辨茶類間的差異,這可能是由于不同茶類在內含物的組成與含量上具有較多的相似性。 為了進一步評估各處理對建模結果的影響,將各處理所得的光譜吸光度分別作為模型的輸入變量,后續基于模型評價指標判斷預處理效果。

圖2 光譜預處理效果Fig. 2 Effect of spectral pretreatment

2.3 光譜數據降維

近紅外光譜的連續波數中存在大量的冗余信息,其與特征信息之間存在很強的相關性[27]。 通過選取特征向量或波數降低數據維數,可保留原始數據中的主要特征信息, 減少后續處理的計算任務。本研究中采用PCA、LDA 和SPA 方法進行數據降維。

2.3.1 PCAPCA 是一種常用于降低大數據集維數的無監督特征提取方式,能從大量數據中提取出特征,轉換為仍包含絕大部分有效信息卻擁有較小維數的數據集, 最大程度保留原始數據信息, 因而PCA 是一種最優、最為常用的方法[28]。 使用PCA 方法對3 750~9 000 cm-1中OS 及經Minmax、CWT、SNV 和MSC 預處理后的4 種光譜進行降維, 截取前15 個主成分特征值與累積貢獻度。 結果如表2所示, 以特征值大于1、 累積貢獻度大于80%為原則, 篩選模型輸入主成分個數。 OS 以及Minmax、CWT、SNV 和MSC 預處理后光譜分別篩出6、11、13、12、12 個主成分,累積貢獻度分別達到99.89%、99.71%、99.67%、99.82%、99.82%,符合原則。基于篩選的主成分構建模型。

表2 PCA 特征值及累積貢獻度Table 2 PCA feature values and cumulative contribution

2.3.2 LDALDA 是一種有監督的特征提取方法[29],在茶葉領域常作為分類器使用。而利用LDA 進行光譜特征提取、降低數據維數,并結合分類器建立茶類識別模型的研究,目前尚未見相關報道。 LDA 最多可使數據矩陣降至類別數減1 的維數,降低維數的同時不過多丟失原始信息,LDA 降維后所得維數將被用于后續建模。

2.3.3 SPASPA 是一種前向循環特征提取方法,其可以通過連續投影的方式從原始光譜矩陣中提取有效預測響應變量的信息,最大限度減少光譜變量之間的共線性效應,達到所選響應變量預測能力的最大化。 其主要通過將波數投影于其他波數,比較投影向量大小, 波數間投影向量大者為待選波數,最終投影向量最大且與特征集內波數共線性最小的波數選入特征集合[30]。 特征波數的數目由校準集內部完全交叉驗證的均方根誤差 (root mean square error,RMSE)確定,與最小RMSE 對應的特征波數數目和特征波數為最佳值[31-32]。

由SPA 方法提取的特征向量如圖3 所示。 SPA中4 種預處理后的光譜信息的RMSE 迭代下降曲線分別如圖3(a)、圖3(c)、圖3(e)、圖3(g)和圖3(i)所示。 從圖中可以看出,當選擇特定數量的波數時,RMSE 達到最小值; 而后RMSE 雖仍波動下降,但降幅很小且導致所選波數增加,沒有必要為了追求微小的RMSE 而增加維數。因此,最終從OS 及經Minmax、CWT、SNV 和MSC 預處理光譜中獲得的特征波數數目分別為15、16、19、15、7 個 (如圖3 所示,特征波數具體信息如表3)。

圖3 連續投影算法(SPA)提取特征波數Fig. 3 Extraction of feature wavenumbers by successive projections algorithm (SPA)

表3 通過SPA 篩選出的特征波數Table 3 Feature wavenumbers selected by SPA

2.4 模型參數優化

SVM 是近年來茶葉中應用最廣、效果最好的機器學習方法之一。 它是一種利用核函數將n 維輸入向量映射到K 維特征空間(K>n),從而通過高維特征空間進行分類的算法[33]。為提高模型質量,本文中所有SVM 模型皆基于高斯 (radial basis function,RBF)核函數,該核函數可降低訓練過程的計算復雜度,在一般平滑假設下具有良好性能;與此同時,懲罰參數及gamma 參數最優值的確定也至關重要,SVM 模型精度取決于這兩個參數的組合。根據初步試算結果,將懲罰參數取值定為1×103、1×104、1×105、1×106,gamma 參數取1×100、1×10-1、1×10-2、1×10-3。將3 750~9 000 cm-1的OS 數據作為輸入量,結合模型的識別正確率進行參數優化。 結果如表4 所示,當懲罰參數為1×106、gamma 參數為1×10-2時模型具最佳識別正確率,后續模型皆基于此參數構建。

表4 SVM 模型參數優化Table 4 Parameter optimization of SVM model

RF 是一種有監督的集成分類算法, 主要是為解決單一決策樹可能出現的很大誤差和過擬合的問題,在分類問題中表現優異,具有成為各情況下效果最優分類器的巨大潛力[34]。 該模型由許多的決策樹組成,但每一棵決策樹之間沒有關聯,得到森林之后對新樣本進行判斷或預測時,將由森林中的每一棵決策樹分別進行判斷, 分辨該樣本屬于哪類,比對出選擇數最多的類別,從而對樣本類別做出判斷, 因此該模型中樹木數量的選擇極為重要。OS 數據試算后, 選定樹木數量為1~100 進行參數優化,結果如圖4 所示,樹木數量為70 時,RF 模型具最佳識別正確率,后續模型皆基于此參數構建。

圖4 RF 模型參數優化Fig. 4 Parameter optimization of RF model

2.5 模型性能評價

RA 常被用于模型預測能力的評估,AUC 則常被用于模型泛化能力的評價, 取值區間為0.5~1.0,值的大小與模型質量呈正相關。 因此, 采用RA、AUC 聯合評估模型性能。 此外,為直觀呈現所建模型對各茶類識別性能的優劣,引入混淆矩陣對模型預測結果進行評價。

由表5 可知, 各茶類NIRS 數據結合不同預處理、 特征提取方法及數據挖掘分類器最終獲得40個茶類識別模型, 識別正確率介于59.14%~100.00%,AUC 處于0.70~1.00, 大多數模型識別正確率高于70%,模型性能良好。 OS 結合RF、SVM 所得模型識別正確率分別為69.89%及92.47%,光譜經預處理、特征提取后,建立的RF 模型絕大多數識別正確率、AUC 顯著提升,模型精度、泛化能力均得到改善, 最佳模型OS-LDA-RF 的識別正確率可達94.62%,AUC 可達0.96;SVM 結合預處理后光譜建模效果欠佳,多出現識別準度下降的問題,不同特征提取方法中效果最佳的為LDA,結合不同預處理后的光譜數據皆優化了模型性能, 基于SVM 建立的茶類識別模型中最佳的是OS-LDA-SVM,識別正確率為100.00%,AUC 為1.00。 總體而言,不同分類器結合不同預處理、特征提取方法所取得的效果也不盡相同,在茶類識別模型構建中,RF 適合與不同化學計量學方法結合,多數預處理、特征提取方法對RF 模型性能優化效果顯著;SVM 適合基于去除頭尾信息匱乏波段的原始光譜結合特征提取方法進行建模,所得模型特征數可得到簡化,提升運算速度及模型質量。

觀察最佳模型混淆矩陣可知 (見圖5),OSLDA-RF 對烏龍茶、 黑茶、 白茶的識別正確率為100.00%,誤判發生于綠茶、紅茶及黃茶的識別中,三者識別正確率分別為89.28%、92.86%以及80.00%;OS-LDA-SVM 對各茶類的識別正確率皆為100.00%,混淆矩陣中數值皆處于對角線,表明識別效果優異,模型質量好。

圖5 最佳模型混淆矩陣Fig. 5 Optimal model confusion matrix

對性能最優模型OS-LDA-SVM 進行三維空間可視化(見圖6)。 可發現,識別正確率達100.00%的茶類識別模型中,綠茶與黃茶的光譜特征于三維空間上的分布極為接近,可能與其加工工藝的高度相似有關,黃茶僅比綠茶多了悶黃工藝;還可能受黃茶樣本數量較少導致特征信息不顯的影響,黃茶在六大茶類中占比最小,僅在我國四川、湖南等少數省份小規模生產,后期將通過逐年增加黃茶樣本數量的方式,強化黃茶光譜特征,提高模型性能。 其他茶類的光譜特征在三維空間分布差異大,可能與加工工藝、茶樹品種不同有關。

圖6 OS-LDA-SVM 模型三維空間效果Fig. 6 Three-dimensional space effect of OS-LDA-SVM model

3 結 語

基于茶類的370 個近紅外光譜數據,剔除認為不含茶類相關信息的波段后, 使用Minmax、CWT、SNV 及MSC 進行預處理,PCA、LDA 及SPA 進行特征提取,最后基于RF、SVM 構建茶類識別模型。 主要結論如下:

1)茶類識別模型構建中,不同預處理對不同分類器的效果不盡相同。對RF 模型而言,預處理對模型性能提升效果顯著, 而相同處理于SVM 模型中效果欠佳,模型質量多不如原始光譜模型。

2)通過特征提取優化模型,效果顯著。 PCA、LDA、SPA 方法皆大幅度降低了數據維數,提高了模型運算效率。 其中LDA 效果最佳,與不同預處理方法、分類器結合所得模型皆質量優異。

3)RF、SVM 皆適用于茶類識別模型構建, 相較RF 模型,SVM 模型總體效果略勝一籌。 RF 模型中最佳模型為OS-LDA-RF,RA 為94.62%, 對烏龍茶、 黑茶及白茶的RA 可達100.00%,AUC 為0.96,模型性能優異、穩定;OS-LDA-SVM 為SVM 模型中的最優模型,不同茶類的RA 皆達100.00%,AUC 為1.00,模型質量高、泛化能力好。

不同茶類的近紅外光譜數據, 經適當預處理、特征提取方法的選擇后,結合RF、SVM 分類器可挖掘出近紅外光譜中茶類識別相關的關鍵信息,構建出高識別正確率的茶類識別模型。 基于此,針對光譜特征接近的茶類,可逐年擴大樣本量,優化與驗證茶類識別模型性能,提高模型適用性。 除此之外,本研究后續將利用互聯網技術構建六大茶類的近紅外光譜數據庫,搭建在線茶類識別平臺,開展遠程茶類識別,以期早日在國際市場上實現產業化應用,促進我國茶產業的高質量發展。

猜你喜歡
特征提取特征模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
3D打印中的模型分割與打包
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 92精品国产自产在线观看| 国产日韩欧美在线视频免费观看| 免费啪啪网址| 欧美高清国产| 一本无码在线观看| 亚洲第一色视频| 一本大道香蕉久中文在线播放| 精品国产成人高清在线| 精品福利网| 九九热在线视频| 久久免费视频6| 中文成人在线| 午夜精品影院| 国产精品人人做人人爽人人添| 久久精品免费看一| 亚洲精品国产首次亮相| 伊人久久大香线蕉影院| 亚洲精品波多野结衣| 国产无码精品在线| 国产免费看久久久| 亚洲日韩日本中文在线| 亚洲精品中文字幕无乱码| 天堂网国产| 国产一区二区人大臿蕉香蕉| 亚洲综合专区| 欧美日韩国产高清一区二区三区| 99久久国产综合精品2020| 亚洲av无码久久无遮挡| 亚洲高清国产拍精品26u| 国产精品一区二区在线播放| 日韩A∨精品日韩精品无码| 国产va免费精品观看| 亚洲美女一区二区三区| 国产在线啪| 久久国产精品波多野结衣| 亚洲成人福利网站| 国产成人喷潮在线观看| 久久无码av三级| 国产成人1024精品| 黄色福利在线| 日本久久网站| V一区无码内射国产| 欧美精品成人一区二区视频一| 四虎影视永久在线精品| 国产一级一级毛片永久| 亚洲欧美人成人让影院| 香蕉久久国产精品免| 欧美日本在线一区二区三区| 久久久波多野结衣av一区二区| 久久青草热| 国产一区二区三区日韩精品| 啊嗯不日本网站| 久久人搡人人玩人妻精品| 久久77777| 日韩中文欧美| 麻豆国产原创视频在线播放 | 狠狠ⅴ日韩v欧美v天堂| 欧美精品在线看| 狠狠色婷婷丁香综合久久韩国| 成人免费网站在线观看| 中国丰满人妻无码束缚啪啪| 黄色三级网站免费| 一本大道香蕉高清久久| jizz在线免费播放| 91精品啪在线观看国产60岁| 久久国产亚洲偷自| 中文字幕在线播放不卡| 免费人成又黄又爽的视频网站| 日本高清免费不卡视频| 欧美日韩国产精品综合| 国产69精品久久久久妇女| 9丨情侣偷在线精品国产| 在线欧美a| 热99精品视频| 亚洲精品无码日韩国产不卡| 国产真实乱人视频| 99热免费在线| 国产亚洲欧美日韩在线一区二区三区 | 国产乱肥老妇精品视频| 欧美啪啪精品| 日韩免费视频播播| 国产成人无码综合亚洲日韩不卡|