999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多區(qū)塊偏最小二乘回歸及在環(huán)境-食品重金屬遷移中的應(yīng)用*

2015-03-09 06:52:10蔣紅衛(wèi)張磊尹
中國衛(wèi)生統(tǒng)計(jì) 2015年1期
關(guān)鍵詞:水平模型

蔣紅衛(wèi)張 磊尹 平

多區(qū)塊偏最小二乘回歸及在環(huán)境-食品重金屬遷移中的應(yīng)用*

蔣紅衛(wèi)1△張 磊2尹 平1

目的探討處理復(fù)雜數(shù)據(jù)存在多個變量區(qū)塊情形的一種統(tǒng)計(jì)分析方法:多區(qū)塊偏最小二乘回歸(MBPLSR),并將其用于環(huán)境-食品重金屬遷移研究之中。方法將重金屬鎘從環(huán)境向大米遷移的影響因素,劃分為土壤理化特性與各態(tài)鎘含量兩類,運(yùn)用MB-PLSR建立環(huán)境-大米鎘轉(zhuǎn)移模型,并且與傳統(tǒng)偏最小二乘回歸(PLSR)進(jìn)行性能比較。結(jié)果MB-PLSR較好地利用變量區(qū)塊的先驗(yàn)信息,使得其無論是在數(shù)據(jù)擬合、預(yù)測性能方面,還是在維度壓縮方面,均優(yōu)于PLSR。結(jié)論MB-PLSR適用于具有變量區(qū)塊的復(fù)雜數(shù)據(jù)建模,具有較好的信息綜合和解釋能力。

變量區(qū)塊 成分 重金屬 偏最小二乘回歸

在許多大型研究中,所需要處理的變量數(shù)目達(dá)到幾十個,甚至成百上千個,通常可以按照某種內(nèi)涵的相似性,將其劃分為多個變量類屬(變量區(qū)塊,variable block)。一般而言,與不同類屬的變量相比,相同類屬的變量之間往往具有更強(qiáng)的相關(guān)性與特定的專業(yè)意義,便于信息提取與模型解釋[1]。例如,大型流行病學(xué)調(diào)查中,常將危險(xiǎn)因素劃分為多個類屬(區(qū)塊),如,人口學(xué)指標(biāo)類、心理行為指標(biāo)類、生理生化指標(biāo)類、社會經(jīng)濟(jì)指標(biāo)類等,以期在分析各因素對健康影響的強(qiáng)度基礎(chǔ)上,進(jìn)一步分析各變量類屬對健康影響的重要程度。又如,食品重金屬污染研究中,常將影響因素劃分為土壤重金屬指標(biāo)類、土壤理化指標(biāo)類、污染排放指標(biāo)類等,需要明確各因素對重金屬從環(huán)境向食品遷移的作用。若直接運(yùn)用傳統(tǒng)的統(tǒng)計(jì)分析方法,就會導(dǎo)致模型極為龐雜,參數(shù)估計(jì)不穩(wěn)定,結(jié)果難以分析與解釋等問題。目前常用的處理方法主要有兩類,一是變量篩選,二是降維。研究表明[2-3],通過變量篩選,大量解釋變量無法按照其在所屬區(qū)塊中的重要性予以納入或剔除,容易形成錯誤的統(tǒng)計(jì)模型,也無法確定各變量區(qū)塊的作用,導(dǎo)致對結(jié)果虛假的分析與解釋。因而,針對具有多變量區(qū)塊的復(fù)雜數(shù)據(jù),更偏向于使用降維方法,如多區(qū)塊主成分分析,多區(qū)塊偏最小二乘回歸(multi-block partial least squares regression,MB-PLSR)等。

作為一種相當(dāng)高效的第二代統(tǒng)計(jì)分析方法,偏最小二乘回歸(partial least squares regression,PLSR)集多元線性回歸、主成份分析和典則相關(guān)分析于一體,同時實(shí)現(xiàn)了回歸建模、降維與兩組變量相關(guān)性分析[4]。它采用非線性迭代偏最小二乘算法(nonlinear iterative partial least squares,NIPALS),建立解釋潛變量與反應(yīng)潛變量的回歸關(guān)系。研究表明[4],PLS可以有效地降低模型的復(fù)雜度,克服了回歸分析中多重共線性、高維低樣本量等問題,適用于弱理論領(lǐng)域和數(shù)據(jù)的軟建模。由于不同區(qū)塊的影響因素有著本質(zhì)差別,因而,必須在一個統(tǒng)一的統(tǒng)計(jì)框架下,予以分開處理[5]。針對復(fù)雜數(shù)據(jù)的變量區(qū)塊特性,Wangen與Kowalski[3,6]提出了多區(qū)塊偏最小二乘回歸。該方法不僅繼承了PLSR的優(yōu)良性質(zhì),而且適用于處理變量區(qū)塊問題,可以更好地解釋來自不同區(qū)塊間變量的作用。因此,本文將在引入變量區(qū)塊概念的基礎(chǔ)上,較系統(tǒng)地研究多區(qū)塊偏最小二乘回歸模型,并用于食品重金屬污染實(shí)例分析。

基本理論與算法

1.基本思想

假定存在著B+1個變量區(qū)塊,包含反應(yīng)變量區(qū)塊Y,與B個解釋變量區(qū)塊Xb,b=1,2,…,B。其中,反應(yīng)變量區(qū)塊Y包含一或多個反應(yīng)變量,解釋變量區(qū)塊Xb包含mb個解釋變量,合并解釋變量X=[X1|X2|…|XB],共含有m=m1+m2+…+mB個解釋變量。所有變量均來自于n個研究個體的觀測。MB-PLSR從每個解釋變量區(qū)塊中提取區(qū)塊成分,再次從區(qū)塊成分中提取解釋變量全局成分,并與反應(yīng)變量空間成分建立直接的回歸關(guān)系,從而,間接建立全部解釋變量與反應(yīng)變量的回歸關(guān)系,其基本思想如圖1所示。

圖1 多區(qū)塊數(shù)據(jù)結(jié)構(gòu)與MB-PLSR思想示意圖

2.基本原理

多區(qū)塊偏最小二乘回歸的優(yōu)化準(zhǔn)則如下:

可以證明,反應(yīng)變量成分u的解為矩陣Y最大特征值所對應(yīng)的特征向量,區(qū)塊成分tb(X)是反應(yīng)變量成分u在解釋變量區(qū)塊Xb的投影。由此可見,MB-PLSR可滿足以下兩個條件:①盡量提取各變量區(qū)塊變異信息;②所提取的解釋變量區(qū)塊信息能最大限度地解釋反應(yīng)量的變異信息。

3.基本算法

MB-PLSR在每一步中采用NIPALS,提取各變量區(qū)塊成分,并獲得解釋變量全局成分與反應(yīng)變量成分回歸模型的估計(jì)。以下是MB-PLSR算法之一:

第一步,將解釋變量空間X和反應(yīng)變量空間Y進(jìn)行標(biāo)準(zhǔn)化變換,令X0=X,Y0=Y(jié)。

第二步,指定任意隨機(jī)數(shù)列,作為反應(yīng)變量Y的成分u0。

第三步,計(jì)算解釋變量區(qū)塊Xb第a個成分tab(X)及其權(quán)重向量wab(X)。

第四步,計(jì)算第a個解釋變量全局成分及其權(quán)重wa(T),以及反應(yīng)變量Y的成分ua與權(quán)重向量qa。

第五步,重復(fù)第三、四步,直至第a個全局成分ta(T)收斂。

第六步,計(jì)算解釋變量X的區(qū)塊載荷Pb(X)與回歸系數(shù)B。

第七步,計(jì)算解釋變量殘差空間Xa+1與反應(yīng)變量殘差空間Ya+1。

為了衡量解釋變量對反應(yīng)變量的作用,使用變量投影重要性指標(biāo)(variable importance of the projection,VIP)來衡量,相關(guān)定義見文獻(xiàn)[7]。類似于VIP定義,區(qū)塊投影重要性指標(biāo)(block importance of the projection,BIP)使用全局成分與反應(yīng)變量的相關(guān)系數(shù)平方和來定義[3],反映各變量區(qū)塊對反應(yīng)變量的影響程度與重要性。

本文采用SAS9.3完成多區(qū)塊偏最小二乘回歸模型的統(tǒng)計(jì)分析。

圖2 多區(qū)塊偏最小二乘回歸算法圖示

實(shí)例分析

重金屬通過不同形態(tài)由環(huán)境向食品逐步遷移累積,直接威脅食品安全,造成人群健康水平風(fēng)險(xiǎn)[8]。只有構(gòu)建合理的環(huán)境-食品重金屬遷移模型,才能較全面認(rèn)識重金屬遷移的統(tǒng)計(jì)規(guī)律[9-10]。本實(shí)例的食品重金屬污染數(shù)據(jù)來自于2008年湖北省天門市環(huán)境與食品污染調(diào)查的一部分。具體調(diào)查方案是,于晚稻成熟期間,在水稻主產(chǎn)區(qū)的崗狀平原,采用系統(tǒng)抽樣采集52塊稻田,獲取土壤52份,及其相應(yīng)的晚稻樣品52份。本次調(diào)查變量劃分三個區(qū)塊。一是,土壤理化變量區(qū)塊,含土壤的酸堿度(pH值)、容重(g/cm3)、有機(jī)質(zhì)(%)、交換性酸度(cmol/kg),分別記為x11,x12,x13,x14;二是,各態(tài)鎘變量區(qū)塊,包含土壤中總鎘(mg/kg)、有效態(tài)鎘(mg/kg)、碳酸鹽態(tài)鎘(mg/kg)、有機(jī)結(jié)合態(tài)鎘(mg/kg),分別記為x21,x22,x23,x24;三是,反應(yīng)變量大米中鎘含量(mg/kg),記為y。其中,各鎘含量均取自然對數(shù)。現(xiàn)運(yùn)用MB-PLSR探討土壤理化特性、各態(tài)鎘對大米鎘含量的影響關(guān)系。

對原始數(shù)據(jù)作標(biāo)準(zhǔn)化變換,采用交叉核實(shí)法,確定提取2個全局成分(記為t1(T),t2(T)),同時,在土壤理化變量區(qū)塊中提取2個區(qū)塊成分(記為t11(X),t12(X)),在各態(tài)鎘變量區(qū)塊中提取2個區(qū)塊成分(記為t21(X),t22(X)),構(gòu)建MB-PLSR模型。

各區(qū)塊成分與其相應(yīng)的解釋變量的關(guān)系如下:

其中,t11(X)和t12(X)對土壤理化的解釋程度達(dá)到70.2%,成分t11(X)主要反映了酸堿度x11與交換性酸度x14的信息,成分t12(X)突出反映了有機(jī)質(zhì)x13的信息;t21(X)和t22(X)對各態(tài)鎘含量的解釋程度達(dá)到77.1%,成分t21(X)綜合反映了土壤各態(tài)鎘的信息,成分t22(X)重點(diǎn)反映了有效態(tài)鎘x22的信息。由此可見,這四個成分分別反映了土壤中酸度水平、有機(jī)質(zhì)水平、總鎘水平與易吸收鎘水平四類信息。

區(qū)塊成分與全局成分的關(guān)系如下:

其中,t1(T)和t2(T)對反應(yīng)變量大米鎘的解釋程度達(dá)到65.7%,全局成分t1(T)反映了土壤中酸度水平t11(X)、有機(jī)質(zhì)水平t12(X)、總鎘水平t21(X)與易吸收鎘水平t22(X)的綜合信息,且酸度信息與鎘水平呈反向關(guān)系,間接表明了原始變量區(qū)塊分為土壤理化與各態(tài)鎘水平兩區(qū)塊的合理性;結(jié)合全局成分t1(T)和t2(T)可見,土壤中不同態(tài)鎘水平對大米鎘含量影響存在差異,其中,有效態(tài)鎘呈正向關(guān)系,其他形態(tài)鎘的影響尚需進(jìn)一步明確。

各變量投影重要性指標(biāo)與載荷,見圖3。

圖3 各解釋變量及所屬區(qū)塊與反應(yīng)變量關(guān)系圖

結(jié)合圖3a與圖3c可見,大米鎘水平與有效態(tài)鎘水平關(guān)系最為密切,且呈正向關(guān)聯(lián),與酸堿度、交換性酸度關(guān)系密切程度次之,且呈負(fù)向關(guān)聯(lián),與碳酸鹽態(tài)鎘和總鎘水平稍呈負(fù)向關(guān)聯(lián),其關(guān)系密切程度較弱;而容重、有機(jī)質(zhì)、有機(jī)結(jié)合態(tài)鎘與大米鎘水平關(guān)系不甚密切。由圖3b可見,相對于土壤理化特性而言,土壤中的各態(tài)鎘水平對大米鎘水平影響稍強(qiáng)。

為了便于MB-PLSR與傳統(tǒng)PLSR比較,擬從成分?jǐn)?shù)nt、回歸決定系數(shù)與預(yù)測決定系數(shù)三方面來評價(jià)兩種方法的優(yōu)劣。從原始樣本中,按照20%的比例隨機(jī)抽取樣本,作為訓(xùn)練樣本,余下的樣本作為驗(yàn)證樣本,分別用MB-PLSR和PLSR進(jìn)行數(shù)據(jù)擬合與預(yù)測,重復(fù)100次,取的平均數(shù)。之后,與此類似,每次將訓(xùn)練樣本的比例提高5%,而驗(yàn)證樣本比例相應(yīng)降低5%,直至訓(xùn)練樣本比例達(dá)到80%為止。在不同訓(xùn)練樣本比例下,兩種方法所提取的成分?jǐn)?shù)nt、回歸決定系數(shù)與預(yù)測決定系數(shù)見圖4。

圖4 不同訓(xùn)練樣本比例下MB-PLSR與PLSR的成分?jǐn)?shù)與模型決定系數(shù)

由圖4a可見,MB-PLSR提取的成分?jǐn)?shù)一致地少于PLSR。這表明MB-PLSR可以更有效地壓縮解釋變量空間維度,具有更強(qiáng)的信息綜合能力。由圖4b可見,隨著訓(xùn)練樣本比例的上升,兩種方法的回歸決定系數(shù)呈下降趨勢,預(yù)測決定系數(shù)則呈上升趨勢,并且回歸決定系數(shù)一致地高于預(yù)測決定系數(shù)。兩種方法相較而言,無論在回歸決定系數(shù)方面,或是在預(yù)測決定系數(shù)方面,MB-PLSR均要優(yōu)于PLSR。這提示MB-PLSR通過區(qū)塊成分的提取,可以更為有效地剔除原始數(shù)據(jù)中的部分噪聲干擾,具有更好的模型解釋與預(yù)測能力。

結(jié) 論

本文通過采用多區(qū)塊偏最小二乘回歸對食品重金屬污染進(jìn)行分析,可以發(fā)現(xiàn),MB-PLSR可以在分析各類因素作用的基礎(chǔ)上,較好地確定各變量區(qū)塊影響大米重金屬含量的重要性。與傳統(tǒng)的偏最小二乘回歸相比較,MB-PLSR具有更強(qiáng)的信息綜合能力,模型擬合與預(yù)測精度也有所提高,并且,可以從變量、區(qū)塊、成分三個層面,對結(jié)果給予更為清晰、簡便與合理的解釋。

對復(fù)雜數(shù)據(jù)而言,MB-PLSR無需對解釋變量進(jìn)行篩選,僅需按照相近內(nèi)涵,事先對解釋變量加以分類,劃分為多個變量區(qū)塊。一方面,通過各區(qū)塊變量信息的綜合提取,反映相應(yīng)區(qū)塊的內(nèi)涵意義與潛在結(jié)構(gòu),以便分析各解釋變量在區(qū)塊中的影響程度與重要性;另一方面,通過構(gòu)建全局成分與反應(yīng)變量之間的回歸模型,反映各區(qū)塊對反應(yīng)變量的影響程度與重要性,從而,間接地反映各解釋變量對反應(yīng)變量的影響與作用。可見,MB-PLSR通過利用變量區(qū)塊的先驗(yàn)知識,可以大幅度地降低模型建構(gòu)的復(fù)雜性,更好地符合與利用數(shù)據(jù)來源的自然結(jié)構(gòu),進(jìn)而,達(dá)到簡化模型,整體分析的目的。

需要注意的是,MB-PLSR尚存在三個方面的不足。一是,良好的變量區(qū)塊必須依賴于堅(jiān)實(shí)的專業(yè)理論知識,變量的不良區(qū)塊會直接影響到MB-PLSR的分析效果;二是,全局成分的權(quán)重向量正交,而各解釋變量區(qū)塊成分的權(quán)重向量并不正交,這將導(dǎo)致解釋變量區(qū)塊的信息提取,存在著部分信息交叉,給在變量層面的解釋帶來一定困難;三是,該方法只能用于構(gòu)建較簡單的潛結(jié)構(gòu)關(guān)系,不適于分析具有更復(fù)雜路徑關(guān)系的高維數(shù)據(jù),此時,需借助結(jié)構(gòu)方程模型、偏最小二乘路徑模型等其他統(tǒng)計(jì)分析方法來予以處理。

1.Roover KD,Ceulemans E,Timmerman ME.Modeling differences in the dimensionality of multiblock data by means of clusterwise simultaneous component analysis.Psychometricka,2013,78(4):648-668.

2.Vivien M,Verron T,Sabatier R.Comparing and predicting sensory profiles by NIRS:use of the GOMCIA and GOMCIA-PLS multi-block methods.Journal of Chemometrics,2005,19,162-170.

3.Bougeard S,Qannari E,Lupo C,et al.From multiblock partial least squares to multiblock redundancy analysis,a continuum approach.Informatica,2011,22(1):11-26.

4.Kramer N,Sugiyama M.The Degrees of Freedom of Partial Least Squares Regression.Journal of American Statistics Association,2011,106(1):697-705.

5.Alloway BJ.Heavy Metals in Soils.Glasgow,Chapman&Hall,1995.

6.Wangen LE,Kowalski BR.A multiblock partial least squares algorithm for investigating complex chemical systems.Journal of Chemometrics,1988,3:3-20.

7.蔣紅衛(wèi),夏結(jié)來,李園,等.偏最小二乘回歸的離群點(diǎn)檢測方法.中國衛(wèi)生統(tǒng)計(jì),2007,24(8):372-374.

8.蔣定國,李寧,楊杰.2010年我國食品化學(xué)污染物風(fēng)險(xiǎn)監(jiān)測概況、存在問題及建議.中國食品衛(wèi)生雜志,2012,24(3):259-264.

9.WHO.Food Safety Risk Analysis,Rome.Italy,F(xiàn)AO,2009.

10.劉劍鋒,谷寧,張可慧.土壤重金屬空間分異及遷移研究進(jìn)展與展望.地理與地理信息科學(xué),2012,28(2):99-103.

(責(zé)任編輯:郭海強(qiáng))

Multiblock Partial Least Squares Regression Model for Environment-Food Heavy Metal Transfer

Jiang Hongwei,Zhang Lei,Yin Ping(Department of Epidemiology and Health Statistics,Tongji College,Huazhong University of Science and Technology(430030),Wuhan)

ObjectiveTo explore multiblock partial least squares regression(MB-PLSR)that deal with multiple variable blocks in complex data,and apply this statistical method to modeling environment-food heavy metal transfer.MethodsThe influence factors of cadmium(Cd)transfer from environment to rice were divided into two blocks:soil physical-chemical variable block and multi-state Cd variable block.MB-PLSR was used for modeling environment-food Cd transfer,and was compared with classical partial least squares regression(PLSR)in their performance.ResultsIn terms of the dimensional reduction,model prediction and interpretation,MB-PLSR is superior to PLSR.ConclusionAs a practical statistical method of soft modeling for handling complex data with multiple variable block structure,MB-PLSR has several technical advantages in information extraction and model interpretability.

Variable block;Component;Heavy metal;Partial least squares regression

*國家自然科學(xué)基金項(xiàng)目(81373104);中央高校基本科研業(yè)務(wù)資助(2012QN241)

1.華中科技大學(xué)同濟(jì)醫(yī)學(xué)院公共衛(wèi)生學(xué)院流行病學(xué)與衛(wèi)生統(tǒng)計(jì)學(xué)系(430030)

2.國家食品安全風(fēng)險(xiǎn)評估中心

△通信作者:蔣紅衛(wèi),E-mail:jhwccc@sina.com

猜你喜歡
水平模型
一半模型
張水平作品
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
作家葛水平
火花(2019年12期)2019-12-26 01:00:28
加強(qiáng)上下聯(lián)動 提升人大履職水平
3D打印中的模型分割與打包
老虎獻(xiàn)臀
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
做到三到位 提升新水平
中國火炬(2010年8期)2010-07-25 11:34:30
主站蜘蛛池模板: 国产精品密蕾丝视频| 国产不卡一级毛片视频| 国产玖玖视频| 亚洲成人播放| yy6080理论大片一级久久| 亚洲视频免费播放| 婷婷色婷婷| 2020国产精品视频| 97人人模人人爽人人喊小说| 国产99免费视频| 日韩国产亚洲一区二区在线观看| 亚洲第一黄色网| 婷婷六月综合网| 亚洲有无码中文网| 国产三级毛片| 欧美日韩专区| 亚洲伊人电影| jizz国产视频| 精品一区二区三区水蜜桃| 亚洲香蕉久久| 美女无遮挡被啪啪到高潮免费| 午夜福利无码一区二区| 免费av一区二区三区在线| Jizz国产色系免费| 久久精品日日躁夜夜躁欧美| 高清不卡一区二区三区香蕉| 亚洲熟女中文字幕男人总站| 亚洲制服丝袜第一页| 一本大道香蕉中文日本不卡高清二区| 欧美日韩北条麻妃一区二区| 国产精品美女在线| 国产精品视频3p| 久久久国产精品无码专区| 中文字幕亚洲乱码熟女1区2区| 国产免费a级片| 性色生活片在线观看| 综合人妻久久一区二区精品 | av色爱 天堂网| 青青草综合网| 丁香五月激情图片| 99青青青精品视频在线| 亚洲精品麻豆| 茄子视频毛片免费观看| 国产一级在线播放| 日本伊人色综合网| 国产免费久久精品44| 国产美女自慰在线观看| 在线观看亚洲精品福利片| 成人va亚洲va欧美天堂| 第九色区aⅴ天堂久久香| 亚洲精品自在线拍| 久久国产乱子伦视频无卡顿| 免费观看男人免费桶女人视频| 伊人色婷婷| 99国产精品免费观看视频| 日本影院一区| 国产成人凹凸视频在线| 亚洲黄色片免费看| 高清国产在线| 99久久亚洲精品影院| 中文字幕在线观| 久久精品一品道久久精品| 国产精品无码一二三视频| 亚洲丝袜中文字幕| 女人爽到高潮免费视频大全| 国模沟沟一区二区三区| 91精品国产一区自在线拍| 欧美日韩国产系列在线观看| 久久无码av三级| 国产尤物在线播放| 精品久久777| 亚洲无码91视频| 久久亚洲国产一区二区| 亚洲 欧美 日韩综合一区| 欧美日一级片| 无码乱人伦一区二区亚洲一| 欧美一区精品| 国产欧美日韩在线一区| 亚洲欧洲日韩国产综合在线二区| 伊人网址在线| 亚洲天堂视频在线播放| 亚洲国产日韩视频观看|