999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost的摻偽茶油光譜鑒別模型

2023-10-18 00:23:38龔中良李大鵬管金偉易宗霈
中國糧油學報 2023年8期
關鍵詞:特征模型

龔中良, 劉 強, 李大鵬, 文 韜, 管金偉, 易宗霈, 申 飄

(中南林業科技大學機電工程學院,長沙 410004)

茶油是世界四大木本油脂之一,在食品保健、醫療、美妝、化工等領域極具發展潛力[1,2]。由于茶油所具備的優越理化指標導致其售賣價格為普通植物油的5~10倍[3],面對市場誘惑,不良商販通過在高價茶油中摻入低價油非法牟利,從而損害消費者利益。

用于食用油鑒偽的方法主要有色譜法[4]、核磁共振法[5]、電子鼻[6]、光譜法[7]等,但色譜法、核磁共振法、電子鼻檢測分別存在試劑污染油樣、設備操作復雜、儀器數據穩定性低等問題,因此無法滿足無損、便捷、穩定的茶油快速鑒偽需求。近年來,各類光譜檢測技術依靠其直接、無損的特點被廣泛應用于食用油鑒偽中,Zhang等[8]通過12 000~4 000cm-1(833~2 500 nm)光譜波段對5種油摻偽玉米油制作多元樣本,通過偏最小二乘(PLS)模型的建立得到預測集決定系數(R2)均在0.93以上。Wu等[9]利用紫外可見光譜(350~800 nm)和加權多尺度支持向量機(EMD-SVR)建立大豆油、花生油、芝麻油組成的二元、三元定量模型,其相關系數(R)分別為0.953 3和0.986 6,證明低頻波段也可以作為食用油有效鑒偽的依據。郭文川等[3]以833~2 500 nm的近紅外光譜完成對茶油摻偽4種低價油的光譜采集,并通過對比多種方法得出在連續投影法(SPA)波長選擇后的隨機森林(RF)模型的效果最佳,其識別準確率為99.34%,但其光譜采集是使用傅里葉光譜儀的近紅外波段,鑒別成本較高。韓建勛等[10]通過4 000~650cm-1(2 500~15 385 nm)的光譜波段結合主成分分析法(PCA)實現山茶油摻偽大豆油、菜籽油、玉米油的定性判別,同時以偏最小二乘回歸算法(PLSR)建立山茶油摻偽大豆油的定量模型,其校正集和驗證集的決定系數(R2)均能達到0.99。榮菡等[11]利用10 000~4 200 cm-1(1 000~2 381 nm)的光譜波段以馬氏距離聚類分析法和反向傳播神經網絡分別建立茶油摻偽菜籽油、棕櫚油定性模型(摻偽質量分數10%~40%),其準確率均為100%,但未能實現摻偽質量分數10%以下的快速鑒偽?;诠庾V法的茶油鑒偽研究通常采用近紅外光譜(1 000~2 500 nm),盡管可以較準確的鑒別出摻偽茶油,但是其采用的光譜設備成本顯著高于紫外-可見-近紅外光譜(200~1 100 nm)[12],因此限制了摻偽茶油光譜鑒別儀器的開發和推廣。

研究采用紫外-可見-近紅外光譜(200~1 100 nm)進行摻偽茶油的鑒別,通過對比多種預處理方法、特征波長選擇方法和建模算法,建立了準確率、靈敏度和特異性較高的摻偽茶油鑒別模型,從而為開發低成本的摻偽茶油光譜檢測裝置奠定了基礎。

1 材料與方法

1.1 材料

市售不同品牌植物油,包括3種成品茶油、2種成品花生油、2種成品葵花籽油、2種成品玉米胚芽油。實驗用植物油均為壓榨工藝生產,這些成品茶油均符合GB/T 11765—2018,實驗期間所用油品均在保質期內。

在制備摻偽茶油樣品時,以10 mL液體容量為標準,將2種花生油、葵花籽油、玉米胚芽油分別混入3種茶油中,并按照摻偽比例分別為1%、3%、5%、7%、9%、12%、15%、20%、35%制備162個摻偽茶油樣品。制備時,將油樣放入磁力攪拌機中,在35 ℃下攪拌1 h,隨后靜置24 h。另外,為增加純茶油的區分性,按照茶油品牌各制備20個樣品,共得到60個純茶油樣品。

1.2 實驗裝置

搭建了用于油樣透射光譜采集的實驗平臺(圖1),該平臺主要由暗箱、比色皿固定支架、2個探頭固定支架、2根光纖、OceanView Maya2000 pro光譜儀、HL1000鹵鎢燈光源、OceanView光譜采集軟件、石英比色皿組成。

圖1 透射光譜采集實驗平臺

光譜采樣范圍為200~1 100 nm,設置光譜積分時間為32 ms,掃描次數為100次。實驗前,將光譜儀與燈源設備提前開啟40 min,以達到預熱效果。

同一樣品采集3次光譜后計算平均值,并通過式(1)得到樣品吸光度數據。

(1)

式中:Aλ為吸光度;Sλ為采集樣本光譜強度;Dλ為暗光譜背景強度;Rλ為空比色皿參考光譜強度。

1.3 分析方法

1.3.1 光譜預處理與樣本劃分

在采集油樣光譜過程中會出現雜散光、基線偏移、電噪聲等問題,從而使光譜有效信息混亂、丟失。為提高模型準確性,選用標準正態變量變換(SNV)、多元散射矯正(MSC)、Savitzky-Golay(S-G)平滑處理、移動平均平滑法(MA)、一階導數(1stDeriv)、二階導數(2ndDerive)、SG-1stDeriv、SG-2ndDerive、SG-連續小波變換(CWT)等方法進行光譜預處理。

樣品訓練集與測試集的劃分合理性影響模型的預測能力,以Kennard-Stone(K-S)方法對數據集進行有效劃分。

1.3.2 特征波長選擇

為實現茶油快速鑒偽,以競爭性自適應重加權算法(CARS)、連續投影算法(SPA)、Boruta算法對全光譜進行特征波長篩選。

CARS以權重較大波長點建立PLS模型,經過多次循環篩選出特征波長[13]。CARS運行時設置蒙特卡洛運行次數為1 000次,每次抽取80%樣品作為校正集,通過10折交叉驗證循環篩選。

SPA利用向量投影來優選出冗余度低、共線性小、反應樣品光譜關鍵信息的有效特征波長[14]。設置SPA降維后的波長數量范圍為1~30。

Boruta算法是基于隨機森林(RF)[15]構建出的特征篩選方法,它通過加入與真實光譜變量相同數目的亂序影子變量構建新特征集,并基于RF計算影子變量和真實光譜變量之間的重要性得分(Z-scores),將得分大于影子變量的光譜變量認定為特征變量[16]。Boruta以全光譜2 068個波長變量和對應產生的2 068個亂序影子變量組成4 136個全新子集,運行過程中將影子變量中重要性得分最大值標記為Max_Shadow,得分大于Max_Shadow的波長變量被認定為特征變量。

1.3.3 模型的建立與評價

擬采用XGBoost算法建立摻偽茶油鑒別模型。XGBoost[17]是基于梯度提升決策樹的改進,利用不斷新增樹的形式來學習新函數,通過新函數去擬合前次產生的殘差,從而不斷降低誤差。XGBoost通過權重縮減參數(η)調節每棵樹的影響,為后續迭代余留更大的學習空間[18]。由于XGBoost算法具有高效可擴展、魯棒性強等優勢,研究以gbtree作為弱學習器類型建立XGBoost茶油鑒偽模型。

另外,還將XGBoost算法與常用的支持向量機(SVM)和極限學習機(ELM)的建模效果進行對比。SVM常被用來處理非線性、高維模式識別方面的問題[19],選取徑向基函數作為核函數建立SVM鑒別模型。 ELM屬于單隱層神經網絡,其具備計算快、泛用性強等優勢[20],將Sigmoidal函數作為激活函數建立ELM鑒偽模型。

研究以準確率(ACC)、靈敏度(TPR)、特異性(FPR)作為各模型分類能力的評價指標。其中,ACC代表所有正確分類樣本數與總樣本數的比例。TPR代表被正確分類為純茶油的樣本數與總純茶油樣本數的比例,檢驗了模型對純茶油的鑒別能力;FPR代表被正確分類為摻偽茶油的樣本數與總摻偽茶油樣本數的比例,檢驗了模型對摻偽茶油的鑒別能力。具體見式(2)~式(4)。

(2)

(3)

(4)

式中:TP為正確分類為純茶油的樣本數量;TN為正確分類為摻偽茶油的樣本數量;FP為錯誤分類為純茶油的樣本數量;FN為錯誤分類為摻偽茶油的樣本數量。

2 結果與討論

2.1 光譜分析

樣品吸光度曲線如圖2所示。在200~1 100 nm范圍內出現了5個吸收峰,其中紫外光部分在250 nm左右處出現吸收峰,可見光部分在430 nm左右處、660 nm左右處出現吸收峰,近紅外光部分在930 nm左右處、1 050 nm左右處出現吸收峰。250 nm左右處吸收峰由二元共軛結構產物和三元共軛結構產物產生,430 nm左右處為索雷特特征峰,660 nm左右處吸收峰為—C—H伸縮振動的五級倍頻,940 nm左右的吸收峰為—C—H三級倍頻,1 050 nm左右的吸收峰為—O—H伸縮振動的二級倍頻[21-23]。樣品光譜曲線之間重疊嚴重難以直接進行區分,因此本研究借助化學計量學和機器學習方法對全光譜進行進一步分析。

圖2 樣品原始光譜

2.2 光譜預處理及樣本劃分

全光譜數據分別以MSC、SNV、MA、SG、1stDeriv、2ndDerive、SG-1stDeriv、SG-2ndDerive、SG-CWT等方法進行預處理,其中SG-CWT預處理中分解尺度(n)按照2n應小于全光譜波長數目(2 068)的原則,將其分為10個尺度。光譜預處理后將光譜矩陣帶入SVM茶油鑒偽模型中,通過對比各光譜矩陣交叉驗證率與驗證集準確率來選取最優預處理方式。

通過圖3綜合分析多種預處理后的SVM茶油鑒偽模型的交叉驗證率和驗證集準確率,得出SG-CWT(L5)在各指標的綜合性能上優于其他預處理方法,原因在于 SG-CWT預處理中起初將光譜曲線中不顯著的特征峰谷逐步放大(L1~L5),但后續隨著分解尺度的增大光譜曲線變得更加平滑(L6~L10),從而使一些不明顯的特征峰谷被逐步去除,增大了光譜特征信息的捕捉難度。因此后續模型建立中只針對SG-CWT(L5)預處理方法進行分析。

圖3 不同光譜預處理方法對應的驗證集準確率與交叉驗證準確率

通過K-S劃分法按照3∶1的比例將預處理后的222個樣品光譜數據分為訓練集與測試集。訓練集共167個數據,其中純茶油樣品47個摻假油樣品120個;測試集共55個數據,其中純茶油樣品13個摻假油樣品42個。

2.3 特征波長選擇和分布特性

2.3.1 特征波長選擇

CARS算法在1~60次篩選過程中RMSECV值在不斷減少,在60次后RMSECV值不斷增大。由于第60次篩選時RMSECV值為最小值為0.208 4,因此60次篩選后剩余的33個波長變量即為所選擇的最優特征波長。

SPA算法在選擇21個波長數目時RMSE值最小為0.259 68,之后雖然選擇波長數目增加但RMSE降幅很小,因此RMSE最低處所選擇的21個波長即為所篩選的特征波長。

Boruta特征選擇算法中通過網格搜索法,得到RF模型優化后的最佳決策樹數量為61棵。Boruta通過100次迭代對比各光譜變量與Max_Shadow之間的重要性得分,將47個波長認定為重要性特征波長,1 954個波長認定為不重要性波長,67個波長認定為可能重要的波長,其中67個可能重要的波長經后續判斷被全部認定為不重要的波長。

2.3.2 特征波長分布特性研究

通過CARS、SPA、Boruta方法對光譜數據進行特征波長篩選,分別將波長數目降至全光譜的1.59%、1.01%、2.27%。對比紫外、可見、近紅外光光譜波段占比特征波長數量(表1),發現CARS提取的特征波長主要集中在近紅外波段,SPA提取的特征波長在3個波段的比重較為均勻,Boruta提取的特征波長主要集中在紫外波段,同時對3種方法所篩選的波長分布特性進行研究(圖4),可見CARS相較于SPA、Boruta其所篩選波長在可見光波段主要分布于一端處,忽略了400~900 nm主要波段內峰谷周圍的重要信息,SPA相較于CARS、Boruta其所篩選波長分布相對疏散,Boruta相較于CARS、SPA其所篩選波長分布集中且更加趨向于陡峭位置。

表1 各光譜波段占比特征波長數量

圖4 基于CARS、SPA、Boruta波長分布特性

2.4 模型預測與評估

2.4.1 XGBoost模型的建模結果

XGBoost模型利用參數η調節學習過程中的權重縮減進而提高模型的魯棒性,研究通過十折交叉驗證以0.05為步長對參數η進行循環優選,將最高準確率下的η作為XGBoost模型建立的依據。表2給出了不同特征波長選擇算法對應的最優η值。在此基礎上,采用最優模型參數建立的XGBoost模型評價指標如表3所示。

表2 SVM、ELM、XGBoost模型參數選擇

表3 XGBoost茶油快速鑒偽模型評價指標

Boruta-XGBoost模型的預測性能最佳,其鑒偽準確率、靈敏度和特異性均高于CARS-XGBoost和SPA-XGBoost模型,而采用全光譜建立的XGBoost模型對應的各項評價指標均為最低(表3)。以測試集評價結果為例進行詳細說明。首先,Boruta-XGBoost模型的鑒偽準確率達到了98.18%,而CARS-XGBoost和SPA-XGBoost模型均為96.36%,全光譜XGBoost模型的準確率(89.09%)最低。Boruta-XGBoost可以將鑒偽靈敏度從CARS-XGBoost和SPA-XGBoost的92.31%提升到100%,并顯著高于全光譜XGBoost模型(84.62%)。最后,在鑒偽特異性上Boruta-XGBoost、CARS-XGBoost和SPA-XGBoost模型表現相當,三者的特異性均為97.62%,但與全光譜XGBoost模型(90.48%)相比得到了明顯提升。結果表明,Boruta算法與CARS和SPA相比可以有效提升XGBoost模型對摻偽茶油的鑒別能力,體現了Boruta使用特征波長與隨機影子變量在多次迭代下相互競爭的優勢。

進一步探討了不同摻偽比例下各個XGBoost模型的鑒別性能,結果見表4。由于表4僅考慮了摻偽茶油的樣品,因此以特異性指標說明鑒別精度??梢姰敁絺伪壤?%及以上時,CARS-XGBoost、SPA-XGBoost、Boruta-XGBoost的特異性均達到了100%;但當摻偽比例1%時這3種模型的特異性下降至83.33%,而全光譜XGBoost模型的特異性僅為50%。

表4 不同摻偽比例下XGBoost茶油快速鑒偽模型測試集特異性

2.4.2 模型對比

為進一步闡明XGBoost模型的鑒別能力,對比了2種傳統的模型,即SVM和ELM。SVM模型通過十折交叉驗證和網格搜索法確定最優的懲罰因子c與核函數γ,將最高準確率下c和γ作為SVM模型建立的依據。ELM模型中由于隱含層神經元個數要小于訓練集樣本數[24],因此在小于訓練集樣本數范圍內以2為步長尋優隱含層神經元數量n,將最高準確率下的n作為ELM模型建立的依據。SVM和ELM在不同特征波長選擇算法下對應的最優模型參數如表2所示。在此基礎上,以最優模型參數分別建立的SVM和ELM模型評價指標如表5所示,可見通過Boruta算法篩選特征波長建立的SVM和ELM模型的各評價指標均優于CARS、SPA以及全波長建立的模型,這也再次顯示了Boruta算法的優勢。因此將僅以Boruta算法為例對比XGBoost、SVM和ELM模型的鑒別能力。

表5 SVM、ELM茶油快速鑒偽模型評價指標

對比表3和表5得到,XGBoost模型的準確率和特異性最高、ELM模型次之、SVM模型最差,而3種模型的靈敏度均達到了100%。其中,XGBoost模型的準確率與ELM和SVM模型相比分別提高了1.82%和3.63%,特異性分別提高了2.38%和4.76%。結果表明,相比于SVM和ELM模型,基于梯度提升原理的XGBoost模型通過不斷擬合前一棵樹的殘差來彌補真值與預測值的誤差范圍,從而有效提升了摻偽茶油的鑒別精度。

3 結論

采用紫外-可見-近紅外光譜建立摻偽茶油鑒別模型的方法。首先,對比了MSC、SNV、MA、SG、1stDeriv、2ndDerive、SG-1stDeriv、SG-2ndDerive、SG-CWT(L1-L10)等方法對全光譜的預處理結果,得到SG-CWT(L5)算法的預處理效果最佳。然后,通過CARS、SPA、Boruta算法對預處理后的全光譜進行特征波長篩選,得到了不同波段中特征波長的分布特性;進一步對比得到,Boruta-XGBoost模型表現出最佳的鑒別能力,鑒偽準確率、特異性和靈敏度分別達到了98.18%、97.62%和100.00%。最后,通過將XGBoost模型與常用的SVM和ELM模型進行對比,進一步驗證了XGBoost可以有效提高摻偽茶油的鑒別能力;XGBoost模型的準確率與SVM和ELM模型相比分別提高了3.63%和1.82%,而特異性分別提高了4.76%和2.38%。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产综合无码一区二区色蜜蜜| 亚洲日韩AV无码一区二区三区人| 高清无码一本到东京热| 国产精品内射视频| 高清大学生毛片一级| 精品国产aⅴ一区二区三区| 免费一级毛片在线播放傲雪网| 伊人久久综在合线亚洲2019| 在线免费看片a| 波多野结衣一区二区三区四区视频| 亚洲一区网站| 久久国产拍爱| 亚洲欧洲一区二区三区| 黄色网站在线观看无码| 天天色天天操综合网| 一级毛片在线播放免费| 久久黄色一级视频| 欧美性久久久久| 亚洲精品手机在线| 国产美女主播一级成人毛片| 国产成人1024精品| 福利国产在线| 青青青视频蜜桃一区二区| 好吊妞欧美视频免费| 久久超级碰| 亚洲无码免费黄色网址| 高清色本在线www| 欧美一区二区啪啪| 欧美精品二区| 亚洲日韩AV无码精品| 久青草免费在线视频| 亚洲国产日韩在线观看| 国产综合在线观看视频| 欧美三級片黃色三級片黃色1| 在线观看91香蕉国产免费| 亚洲无码91视频| 亚洲美女一区二区三区| 久久这里只精品国产99热8| 亚洲国产成人麻豆精品| 久久鸭综合久久国产| 亚洲天堂精品视频| 久草网视频在线| 国产美女在线观看| 久久久久青草线综合超碰| 四虎在线观看视频高清无码| 国产视频一区二区在线观看 | 亚洲国产成人在线| 亚洲天堂在线免费| 狠狠v日韩v欧美v| 人妻丰满熟妇AV无码区| 国产91精品最新在线播放| 四虎永久在线精品国产免费| 国产高清在线观看91精品| 亚洲天堂网在线观看视频| 欧美精品伊人久久| a天堂视频| 狼友视频国产精品首页| 天天综合色天天综合网| 亚洲天堂网站在线| 天堂网亚洲系列亚洲系列| 伦伦影院精品一区| 永久免费av网站可以直接看的 | 中文字幕亚洲专区第19页| 国产精品hd在线播放| 中文字幕日韩欧美| 欧美日本在线播放| 无码丝袜人妻| 国产精品白浆在线播放| 国产91精选在线观看| 国产草草影院18成年视频| 爆乳熟妇一区二区三区| 日韩精品久久无码中文字幕色欲| 亚洲中文字幕无码mv| 不卡午夜视频| 亚洲无码在线午夜电影| 中文字幕无码电影| 91蜜芽尤物福利在线观看| 国产麻豆aⅴ精品无码| 成人综合网址| 国产成人夜色91| 欧美一级一级做性视频| 不卡无码h在线观看|