999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

模型診斷用于近紅外光譜建模校正集中奇異樣本的識別

2016-11-01 07:11:17李正風徐廣晉王家俊杜國榮蔡文生邵學廣云南中煙工業有限責任公司技術中心昆明650南開大學化學學院分析科學研究中心天津0007喀什大學化學與環境科學學院喀什844000
分析化學 2016年2期
關鍵詞:方法模型

李正風徐廣晉王家俊杜國榮蔡文生邵學廣*,(云南中煙工業有限責任公司技術中心,昆明 650)(南開大學化學學院,分析科學研究中心,天津 0007)(喀什大學化學與環境科學學院,喀什 844000)

研究簡報

模型診斷用于近紅外光譜建模校正集中奇異樣本的識別

李正風1徐廣晉1王家俊1杜國榮2蔡文生2邵學廣*2,31
(云南中煙工業有限責任公司技術中心,昆明 650231)2(南開大學化學學院,分析科學研究中心,天津 300071)3(喀什大學化學與環境科學學院,喀什 844000)

由于校正集樣本的質量決定校正模型的質量,校正集中奇異樣本的檢測在多元校正建模中具有非常重要的意義。本研究建立了一種用于近紅外光譜多元校正建模時校正集中奇異樣本的檢測方法。本方法基于奇異樣本的定義和偏最小二乘方法的原理,通過考察每個校正集樣本在模型的每個因子(或主成分)中對模型的貢獻,將與多數樣本表現不同的樣本識別為奇異樣本。采用218個橘汁樣本構成的近紅外光譜數據進行了分析,結果表明,校正集中存在6個奇異樣本,扣除奇異樣本后,校正集的交叉驗證均方根誤差由16.870減小為4.809,預測集的均方根誤差從3.688減小為3.332。

多元校正;奇異樣本檢測;偏最小二乘;近紅外光譜;定量分析

1 引言

近紅外光譜已在許多科研領域和行業得到廣泛應用,多元校正是近紅外光譜分析的的關鍵技術。已報道的多元校正方法有多元線性回歸(MLR)、主成分回歸(PCR)、偏最小二乘回歸(PLSR)[1,2]、支持向量機(SVM)[3~5]等。為了提高建模方法的適用性,非線性建模、局部回歸、多模型共識建模等方法與技術得到了發展與應用[6]。同時,為了提高模型的質量,改善模型的預測能力,建立精簡模型,發展了一系列光譜預處理及變量選擇技術,如多元散射校正(MSC)、正交信號校正(OSC)[7]、小波變換(WT)[8]、區間偏最小二乘回歸(iPLSr)[9]、無信息變量消除(UVE)[10,11]、競爭性自適應權重取樣(CARS)[12]、連續投影算法(SPA)[13]、隨機檢驗(RT)[14]等。

校正集同樣是決定模型質量的重要因素。多元校正的校正集一般由大量的樣本構成,奇異樣本的識別是多元校正分析中的難點問題之一[15],因此,已建立了一系列方法,并在近紅外光譜分析中得到應用[16~19]。當奇異樣本之間無相互影響時,這些方法可以有效識別奇異樣本。但是當奇異樣本之間相互影響,如存在掩蔽(Masking)和淹沒(Swamping)現象時,這些方法的識別能力受到限制[18,19]。穩健建模是一種可以自動識別奇異樣本的方法,也可以用于處理奇異樣本之間有相互作用的數據,例如穩健偏最小二乘回歸(Robust simple partial least squares,RSIMPLS)[20]是一種簡便、快速的常用方法。該方法通過診斷圖識別建模樣品中的好的杠桿點(Good leverage)、壞的杠桿點(Bad leverage)及殘差方向放入奇異樣本(Vertical outlier)。杠桿點是與大多數樣本不一樣的樣本,好的杠桿點對校正模型起積極作用,壞的杠桿點降低校正模型的預測精度。殘差方向的奇異樣本是有較大濃度預測殘差的樣本。

本研究建立了一種新的奇異樣本識別方法。基于奇異樣本與其它樣本在偏最小二乘回歸模型中的作用不同,通過考察每個校正集樣本在模型的每個因子(或主成分)中對模型的貢獻,將與其它(多數)樣本表現不同的樣本識別為奇異樣本。由于樣本對偏最小二乘回歸模型的貢獻可以用其權重進行衡量,通過考察樣本在每個因子中的權重分布即可實現奇異樣本的識別。本方法的實質是對模型的每個因子進行分析,因此被稱為“模型診斷”方法。

2 原理

奇異樣本是指數據集中與其它(大量)樣本不同的樣本。在多元校正分析中,奇異樣本是指在模型中與其它(大量)樣本規律不同的樣本,通常被認為是對模型具有破壞作用的樣品。奇異樣本分為“好的”和“壞的”奇異樣本,前者對模型有好的影響,而后者對模型具有破壞作用,所以也稱為強影響點[17,21]。本研究中,奇異樣本是指在數據集中與其它(大量)樣本在模型中的表現不同的樣本。

偏最小二乘模型由多個因子(或主成分,又稱為潛變量)構成,樣本對模型的貢獻取決于樣本在每個因子中的權重。對于大部分(正常)樣本,權重值在每個因子的分布在一個正常的區間里,而對于奇異樣本,在某些因子中的權重將與其它(正常)樣本不同。因此,通過對每個因子的權重分布考察就可以找到與其它(大量)樣本有較大差異的樣本,即奇異樣本。

為了詳細描述本方法的原理,用高斯函數模擬了6種物質的光譜圖,并添加了1.0%的隨機噪聲。用第4個組分建立偏最小二乘回歸模型,得到的每個樣本在每個因子中的權重如圖1a所示。所謂權重是指偏最小二乘在預測時對預測結果的貢獻。由于建模時光譜和濃度進行了中心化,這些權重值在0上下分布。從圖1a可見,前6個因子對預測結果有顯著的貢獻,通過分析對模型有顯著貢獻的因子可以用于因子數的判定[22]。由于沒有奇異樣本,圖1a所有樣本權重的分布比較均勻,說明正常樣品在每個因子下的權重分布具有較高的相似性。

為了考察奇異樣本對模型的影響,在10,20和30號樣品的濃度值中添加了3倍標準偏差的變動,在40和50號樣品的光譜中添加了與濃度無關的光譜信息。圖1b為添加奇異樣本后每個樣本在不同因子中的權重分布。與圖1a相比,添加奇異樣本后因子數增加,需要更多的因子對模型進行描述。同時,奇異樣本(圖中標示的10,20,30,40和50)的權重在第6和7個因子中與其它樣本具有明顯差異。

圖1 模擬光譜數據偏最小二乘模型的權重分布Fig.1 Weights of each sample in each factor in PLS model of simulated spectra

為了對奇異樣本進行識別,本研究引入LOF (Local outlier factor)[23]方法。LOF方法通過每個數據點附近的數據點數(密度)判斷此數據點是否與其它數據點一致。圖2是圖1b中各樣本的LOF值,5個奇異樣本都可以很明顯的識別出來。圖 2的虛線為閾值,用正常樣本LOF值平均值加3倍標準偏差計算得到。

圖2 具有奇異樣本的模擬光譜數據中每個樣本的LOF值Fig.2 Local outlier factor(LOF)values for samples in simulated spectra with artificial outliers

3 結果與討論

3.1 數據來源與處理

本研究使用了一組包括218個橘汁樣品的近紅外光譜數據,建模的目標值為蔗糖含量[24]。數據可從http://www.ucl.ac.be/mlg下載。光譜采用透射模式,波長范圍為1100~2500 nm,間隔為2 nm。為了便于比較,校正集和預測集采用了數據提供者對光譜數據進行的分組,即校正集包括150個樣品,預測集包括68個樣品。為了消除噪聲、背景對結果的影響,在計算前采用了Haar連續小波變換方法進行了預處理[8,17,21,22],尺度參數為20。

3.2 奇異樣本的識別

圖3是利用校正集的數據建立的偏最小二乘模型中每個樣本在每個因子中的權重分布。首先,此圖顯示對模型貢獻較大的因子是第1,3,4,5,6和7,說明此模型的最佳因子數為8或9。第二個因子對模型的貢獻很小,可能是由于該主成分與蔗糖的含量關系不大。比較每個樣本在不同因子時的權重可知,第133和150個樣本在第1主成分時、第130個樣本在第2和3主成分時、第78個樣本在9主成分時分別與其它樣本有很大差異。因此,這些樣本可能是校正集中的奇異樣本。

為了更加明確地確定奇異樣本,根據圖3的數據可以計算每個樣本的LOF值,如圖4。圖4中的紅色虛線為閾值,由LOF值的平均值和標準偏差確定。從圖4中可清楚地看出,共有6個奇異樣本,分別是第36,78,130,133,140及150個校正集樣本。

圖3 校正集樣本偏最小二乘模型的權重分布Fig.3 Weights of calibration samples in each factor of PLS model

圖4 校正集中每個樣本的LOF值Fig.4 LOF values for samples in calibration set

3.3 模型診斷方法的性能比較

為了考察模型診斷方法奇異樣本識別結果的正確性,分別與常用的留一交叉驗證-3倍標準偏差法和穩健回歸診斷(RSIMPLS)方法進行了比較。留一交叉驗證方法只識別出一個(第130個)奇異樣本,即只有一個樣本在交叉驗證中預測誤差超出了其它樣本預測誤差的3倍。采用RSIMPLS方法的回歸診斷圖(Regression diagnostic plot)[20]找到了23個奇異樣本,其中第130個樣本與其它樣本有顯著的差異。

比較模型診斷、留一交叉驗證和穩健回歸診斷3種方法可知,留一交叉驗證方法過于“寬松”,原因可能是奇異樣本較多時留一交叉驗證預測誤差的標準偏差較大。穩健回歸診斷方法過于“嚴格”,原因可能是閾值過小,Χ2分布在樣本量較大時相關參數需要調整。相比之下,模型診斷方法得到結果相對較為合理。值得注意的是模型診斷方法識別的6個奇異樣本中有5個被該方法識別,只有第36個樣本未被識別,而留一交叉驗證方法所識別的第130個樣本同時被3種方法識別。此結果說明不同識別方法均具有一定的科學性,只是在識別“靈敏度”上具有差異。

3.4 奇異樣本對模型的影響

為了進一步考察奇異樣本識別結果的正確性,分別考察了所識別的奇異樣本對模型及預測結果的影響。表1列出了移除一個或幾個奇異樣本后交叉驗證均方根誤差(RMSECV)和樣本預測誤差的均方根誤差(RMSEP)的變化情況,其中RMSEP1為全體預測集樣本的預測結果,RMSEP2為扣除4個預測誤差較大的樣本(疑為預測集中的奇異樣本)后的預測結果。第一行為參考值,未扣除奇異樣本;第二行中第130個樣本對RMSECV的影響很大,扣除該樣本后RMSECV的數值有大幅度的降低,但是對預測集的預測結果并沒有產生大的影響。這種現象可以通過PLS的原理進行解釋。從圖3可見,第130個樣本對模型的影響主要體現在第二個因子,比其它樣本偏低,在第3個因子中則有些偏高,第4個因子以后不再偏離。PLS的預測結果是多個因子預測結果的加和,當采用較大的因子數時,第130個樣本對模型的整體影響被抵消。為了驗證這一推測,比較了扣除第130個樣本前后因子數為2和7時的模型系數,結果表明,因子數為2時,有明顯差異而因子數為7時差異并不大。因此,第130個樣本對于因子數較大的模型并沒有產生較大影響。

從表1第3行的結果可知,第78個樣本對RMSECV的也有一定程度的影響,RMSEP1的數值有所上升,但RMSEP2的結果有較大幅度下降。前者說明預測集中具有奇異樣本,后者說明第78個樣本確實對模型具有一定影響。通過表1中第4~7行的結果可知,第133和150個樣本使RMSECV降低,第36和140個樣本使RMSECV升高,但RMSEP2的結果均沒有下降。為了考察奇異樣本之間的“掩蔽”或“淹沒”效應,表1中第8~12行分別列出了多個奇異樣本同時扣除時多模型的影響。從RMSECV的結果可知,奇異樣本之間的協同作用,但從RMSEP2的結果第78個樣本具有較大的影響。因此,本組數據中對模型影響最大的奇異樣本應該只有第78個樣本。從奇異樣本對模型及預測能力的影響可以看出,奇異樣本的檢測是一項非常困難的任務,僅從模型自身的評價(RMSECV)難以對模型的預測能力進行估計。當預測集(檢驗集)中存在奇異樣本時,也難以得到正確的評價。

表1 奇異樣本對模型及預測結果的影響Table 1 Effect of detected outliers on model and prediction result

4 結論

建立了一種基于模型診斷的奇異樣本識別方法,通過建模樣本在每個因子中對模型的貢獻,將模型中權重分布不同的樣本識別為奇異樣本。與常用的留一交叉驗證和穩健回歸診斷方法進行比較,表明本方法具有一定的合理性和實用性。但是,奇異樣本對模型及預測能力的影響具有較高的復雜性,單獨使用模型的檢驗無法表明模型預測能力,采用驗證集進行評價時必須保證驗證集的質量。因此,奇異樣本的檢測與識別仍然是一項非常艱巨的任務,有待進一步的深入研究,提出更加科學、可靠的更多方法。

1 Wold S,Ruhe A,Wold H,Dunn W J.SIAM J.Sci.Stat.Comput.,1984,5(3):735-743

2 LIANG Miao,CAI Jia-Yue,YANG Kai,SHU Ru-Xin,ZHAO Long-Lian,ZHANG Lu-Da,LI Jun-Hui.Chinese J.Anal. Chem.,2014,42(11):1687-1691

梁淼,蔡嘉月,楊凱,束茹欣,趙龍蓮,張錄達,李軍會.分析化學,2014,42(11):1687-1691

3 ZHANG Lu-Da,SU Shi-Guang,WANG Lai-Sheng,LI Jun-Hui,YANG Li-Ming.Spectroscopy and Spectral Analysis,2005,25(1):33-35

張錄達,蘇時光,王來生,李軍會,楊麗明.光譜學與光譜分析,2005,25(1):33-35

4 Li Y K,Shao X G,Cai W S.Talanta,2007,72(1):217-222

5 LIN Hao,ZHAO Jie-Wen,CHEN Quan-Sheng,CAI Jian-Rong,ZHOU Ping.Spectroscopy and Spectral Analysis,2010,30(4):929-932

林顥,趙杰文,陳全勝,蔡健榮,周平.光譜學與光譜分析,2010,30(4):929-932

6 Shao X G,Bian X H,Liu J J,Zhang M,Cai W S.Anal.Methods,2010,2(11):1662-1666

7 Wold S,Antti H,Lindgren F,Ohman J.Chemom.Intell.Lab.Syst.,1998,44(1-2):175-185

8 Shao X G,Leung A K M,Chau F T.Acc.Chem.Res.,2003,36(4):276-283

9 Norgaard L,Saudland A,Wagner J,Wagner J,Nielsen J P,Munk L,Engelsen S B.Appl.Spectrosc.,2000,54(3):413-419

10 CentnerV,Massart D L,de Noord O E,de Jong S,Vandeginste M B,Sterna C.Anal.Chem.,1996,68(21):3851-3858

11 Cai W S,Li Y K,Shao X G.Chemom.Intell.Lab.Syst.,2008,90(2):188-194

12 Li H D,Liang Y Z,Xu Q S,Cao D S.Anal.Chim.Acta,2009,648(1):77-84

13 Araujo M C U,Saldanha T C B,Galvao R K H,Yoneyama T,Chame H C,VisaniV.Chemom.Intell.Lab.Syst.,2001,57(2):65-73

14 Xu H,Liu Z C,Cai W S,Shao X G.Chemom.Intell.Lab.Syst.,2009,97(1):189-193

15 Liang Y Z,Kvalheim O M.Chemom.Intell.Lab.Syst.,1996,32(1):1-10

16 Pierna J A F,Jin L,Daszykowski M,Wahl F,Massart D L.Chemom.Intell.Lab.Syst.,2003,68(1-2):17-28

17 Bian X H,Cai W S,Shao X G,Chen D,Grant E R.Analyst,2010,135(11):2841-2847

18 Pierna J A F,Wahl F,de Noord O E,Massart D L.Chemom.Intell.Lab.Syst.,2002,63(1):27-39

19 Walczak B,Massart D L.Chemom.Intell.Lab.Syst.,1998,41(1):1-15

20 Hubert M,Vanden Branden K.J.Chemom.,2003,17(10):537-549

21 Liu Z C,Cai W S,Shao X G.Sci.China Ser B-Chem.,2008,51(8):751-759

22 Liu Z C,Ma X,Wen Y D,Wang Y,Cai W S,Shao X G.Sci.China Ser B-Chem.,2009,52(7):1021-1027

23 Breunig M M,Kriegel H P,Ng R T,Sander J.Sigmod.Rec.,2000,29(2):93-104

24 Li W,Goovaerts P,Meurens M.J.Arg.Food Chem.,1996,44(8):2252-2259

This work was supported by the National Natural Science Foundation of China(No.21475068)and the Major Project of China National Tobacco Corporation(No.Ts-03-20110020).

Outlier Detection for Multivariate Calibration in Near Infrared Spectroscopic Analysis by Model Diagnostics

LI Zheng-Feng1,XU Guang-Jin1,WANG Jia-Jun1,DU Guo-Rong2,CAI Wen-Sheng2,SHAO Xue-Guang*2,31(R&D Center,China Tobacco Yunnan Industrial Co.Ltd.,Kunming 650231,China)
2(Research Center for Analytical Sciences,College of Chemistry,Nankai University,Tianjin 300071,China)
3(College of Chemistry and Environmental Science,Kashgar University,Kashgar 844000,China)

Outlier detection is an important task in multivariate calibration because the quality of a calibration model is determined by that of the calibration data.An outlier detection method is proposed for near infrared (NIR)spectral analysis.The method is based on the definition of outlier and the principle of partial least squares(PLS)regression,i.e.,an outlier in a dataset behaves differently from the rest,and the prediction result of a PLS model is an accumulation of several independent latent variables.Therefore,the proposed method builds a PLS model with a calibration dataset,and then the contribution of each latent variable is investigated.Outliers can be detected by comparing these contributions.An NIR spectral dataset of orange juice samples is adopted for testing the method.Six outliers are detected in the calibration set.The root mean squared error of cross validation(RMSECV)becomes to 4.809 from 16.870 and the root mean squared error of prediction(RMSEP)becomes to 3.332 from 3.688 after the removal of the outliers.Compared with a robust regression method,the result of the proposed method seems more reasonable.

Multivariate calibration;Outlier detection;Partial least squares;Near infrared spectroscopy;Quantitative analysis

11 October 2015;accepted 28 October 2015)

10.11895/j.issn.0253-3820.150793

2015-10-11收稿;2015-10-28接受

本文系國家自然科學基金項目(No.21475068)和中國煙草總公司重大專項課題(No.Ts-03-20110020)資助

*E-mail:xshao@nankai.edu.cn.

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 91视频区| 欧美午夜在线视频| 又猛又黄又爽无遮挡的视频网站| 国产h视频在线观看视频| 中文精品久久久久国产网址| 久久久久无码精品| 亚洲视频无码| 久久99国产精品成人欧美| 国产免费精彩视频| 性色一区| 亚洲人成网18禁| 欧洲极品无码一区二区三区| 人妻丰满熟妇αv无码| 无码人中文字幕| 国产精品99久久久| 国产日韩AV高潮在线| 丁香婷婷激情综合激情| 久久精品国产精品青草app| 最新国产麻豆aⅴ精品无| 国产69囗曝护士吞精在线视频 | 无码专区第一页| 人妻一本久道久久综合久久鬼色| 日韩毛片视频| 青草精品视频| 无套av在线| 国产精品第页| 色视频国产| 日本一本正道综合久久dvd | 亚洲天堂视频在线免费观看| 五月天婷婷网亚洲综合在线| 福利在线免费视频| 在线免费观看a视频| 色婷婷丁香| 亚洲丝袜第一页| 国产又粗又爽视频| 日韩av在线直播| 狠狠干欧美| 乱人伦中文视频在线观看免费| 国产精品欧美在线观看| 国产激情无码一区二区免费| 91精品国产自产91精品资源| 日本欧美中文字幕精品亚洲| 免费A级毛片无码无遮挡| 久久美女精品国产精品亚洲| 在线观看国产小视频| 色综合久久久久8天国| 一级不卡毛片| 久青草国产高清在线视频| 欧美一区福利| AV老司机AV天堂| 18禁高潮出水呻吟娇喘蜜芽| 91精品专区国产盗摄| 中文字幕亚洲另类天堂| 亚洲视频一区| 亚洲第一视频免费在线| 精品国产三级在线观看| 国产综合精品一区二区| 又粗又大又爽又紧免费视频| 国产精品专区第1页| 久996视频精品免费观看| 青青网在线国产| 国产精品无码一区二区桃花视频| 55夜色66夜色国产精品视频| 亚洲国产亚洲综合在线尤物| 亚洲无限乱码一二三四区| 国内自拍久第一页| 思思热精品在线8| 国产农村精品一级毛片视频| 永久免费AⅤ无码网站在线观看| 成人噜噜噜视频在线观看| 女人18一级毛片免费观看| 亚洲av无码牛牛影视在线二区| 丰满人妻被猛烈进入无码| 国产免费一级精品视频| 91视频区| 成人综合在线观看| 亚洲美女高潮久久久久久久| 2021国产精品自产拍在线观看| 国产成人无码播放| 91原创视频在线| 精品视频一区在线观看| 国产丝袜无码一区二区视频|