999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

迭代的穩(wěn)健超高維變量篩選

2018-03-21 09:20:35何曉群馬學(xué)俊
統(tǒng)計與決策 2018年1期
關(guān)鍵詞:利用方法模型

何曉群,馬學(xué)俊

(1.安康學(xué)院 數(shù)學(xué)與統(tǒng)計學(xué)院,西安 725000;2.中國人民大學(xué) 應(yīng)用統(tǒng)計科學(xué)研究中心,北京100872;3.北京工業(yè)大學(xué) 應(yīng)用數(shù)理學(xué)院,北京 100124)

0 引言

隨著科學(xué)技術(shù)的發(fā)展,超高維數(shù)據(jù)越來越多出現(xiàn)在遺傳、基因芯片、磁共振成像、信用評分等領(lǐng)域。由于計算成本、統(tǒng)計精度和算法穩(wěn)定性等原因,傳統(tǒng)的處理高維的方法表現(xiàn)并不理想。為此,F(xiàn)an和Lv(2008)[1]基于Pearson相關(guān)系數(shù)提出SIS(Sure Independent Screening)。但SIS也存在明顯的缺點(diǎn):(1)不能刻畫自變量和因變量非線性的關(guān)系;(2)對異常值比較敏感。這個問題最早由Garher和Guddat在討論Fan和Lv(2008)[1]的SIS文章討論中提出,即SIS對于模型假設(shè)和異常值(Outliers)不穩(wěn)健。SIS自2008年提出,目前已從線性模型推廣到廣義線性模型、可加模型、變系數(shù)模型和模型釋放(Model-free)等(Fan等2009,2010,2011,2014;Liu等2014)[2-6]。本文主要研究模型釋放的超高維變量篩選。

模型釋放不需要假設(shè)具體模型。Zhu等(2011)[7]提出SIRS研究了模型假設(shè)的釋放,其通過離散化Y實(shí)現(xiàn)釋放模型假設(shè)的效果。Li和Wei等(2012)[8]基于距離相關(guān)系數(shù)提出DC-SIS,該方法釋放了模型的假設(shè),并且也適合組變量的變量篩選。Li等(2012)[9]基于Kendall相關(guān)系數(shù)提出RRCS(Robust Rank Correlation Screening),該方法對于厚尾分布、離群點(diǎn)和強(qiáng)影響點(diǎn)具有一定的抵抗力。Shao和Zhang(2014)[10]基于鞅差距離(Martingle Difference Correlation)提出MDC-SIS方法。Ma和Zhang(2016)[11]基于分位數(shù)相關(guān)系數(shù)(Quantile Correlation)提出一種新的方法(QC-SIS)。如果不重要的自變量和重要的自變量高度相關(guān),而其他重要變量和因變量的關(guān)系比較弱時,或者存在某一些自變量單獨(dú)對因變量的影響不大,而他們聯(lián)合起來對因變量影響比較顯著;那么前面提到方法將不能勝任。Fan和Lv(2008)[1]提出迭代的SIS方法,即ISIS,但它不能解決自變量和因變量之間的非線性,且對異常值比較敏感。Zhu等(2012)[4]提出迭代的SIRS,即ISIRS。該方法可以解決非線性問題和異常值問題,但利用對數(shù)據(jù)的信息利用不充分。Zhong和Zhu(2014)[12]提出迭代(Iterative)的DC-SIS,即DC-ISIS。該方法對于異常值比較敏感。如何更加有效的利用數(shù)據(jù),實(shí)施迭代穩(wěn)健的超維高模型釋放變量篩選方法是目前研究的熱點(diǎn)和難點(diǎn)。

本文在Ma和Zhang(2016)[11]的研究基礎(chǔ)上提出迭代(Iterative)的QC-SIS,即QC-ISIS。相比ISIS,提出的方法更穩(wěn)健,并且可以刻畫自變量和因變量的非線性關(guān)系。相比ISIRS和DC-ISIS,提出的方法更加有效。因?yàn)镼C-ISIS充分利用了數(shù)據(jù)的信息,即不僅利用了因變量的離散信息和自變量信息,也利用了因變量的分位數(shù)信息。而DC-ISIS利用距離相關(guān)系數(shù),對異常值不穩(wěn)健。

1 方法

1.1 基于分位數(shù)相關(guān)系數(shù)的變量篩選

假設(shè)Y是因變量,X=(X1,X2,…,Xp)T是p維自變量。F(y|x)=P(Y|X=x)表示給定x下X1的條件分布。為了方便,作下記號:

A={k,F(y|x)依賴于Xk}

I={k,F(y|x)不依賴于Xk}

Ma和Zhang(2016)[11]利用分位數(shù)相關(guān)系數(shù)提出的QC-SIS是求下面集合:

={1≤k≤p,排在最靠前面的d個}

其中d=[n/log(n)]或n-1等([a]表示是a的整數(shù)部分),wk的定義是:

其中假設(shè)Xk已經(jīng)標(biāo)準(zhǔn)化,即均值為0,方差為1。0<τ1≤τ2≤…≤τn<1是分位點(diǎn),一般設(shè)

1.2 迭代的QC-SIS

與Zhu等(2011)[7]和Zhong和Zhu(2014)[12]類似,本文采用下面迭代算法:給定d。

第一步:利用QC-SIS得到選擇前p1<d個自變量集合,記為1;對應(yīng)的自變量集合記為XA1。第二步:使用下面方法得到新的自變量:

第三步:重復(fù)第二步可以得到3、4等,直到d=||1||+||2||+ … +||||。其中 ||H||表示H的條件數(shù)。或者說d=p1+p2+…+pL。

需要注意的是:

(1)d一般是事前給定的,如[n/log(n)]。

(2)QC-ISIS之所以可以解決重要變量和因變量的關(guān)系比較弱或者聯(lián)合自變量變量篩選問題,因?yàn)榈诙街袑ψ宰兞窟M(jìn)行了變換使得信息不會重復(fù),即與是正交的,因?yàn)椋?/p>

(3)L的選擇具有一定的主觀性。Zhu等(2011)[7]認(rèn)為L=2且p1=d/2;Zhong和Zhu(2014)[12]建議L=2且p1=5。本文在模擬試驗(yàn)和實(shí)例分析中采用前一個準(zhǔn)則。

2 Monte Carlo模擬

本文將通過數(shù)值模擬評價QC-ISIS的效果。設(shè)置d=[n/log(n)],n=200,p=2000,重復(fù)模擬1000次。為了評價QC-ISIS與ISIS、ISIRS、DC-ISIS以及它們的非迭代方法,使用如下指標(biāo):

(1)Bj表示給定d包含Xj被選中的比例。

(2)B表示給定d所有顯著自變量全部被選中的比例。

例1:與Fan和Li(2008)[1],以及Zhu等(2011)[7]類似,考慮如下的線性模型:

其中β=2-U且U是來自于(0,1)區(qū)間的均勻分布。σ=0.5 ,X~N(0,Σ),Σ=(σij)。其中(1)σii=1,i=1,2,i≠j。ε來自于如下兩種分布:標(biāo)準(zhǔn)正態(tài)分布和自由度為3的t分布。為了比較8種方法對于異常值的敏感程度,本文在自變量X1上隨機(jī)添加r百分比例的異常值

從表 1和表 2,可以看出:(1)QC-SIS、SIS、SIRS和DC-SIS對于X1、X2和X3的效果很好,但對于X4均失效。而QC-ISIS、ISIS、ISIRS和DC-ISIS對X1、X2、X3和X4效果都很好。(2)對于自變量X1、X2和X3的識別,迭代的方法仍優(yōu)于非迭代的方法。其主要原因是第一步?jīng)]有選出的,往往第二步可能被選出。(3)SIS、DC-SIS、ISIS和DC-ISIS對異常值比較敏感,而QC-SIS、SIRS以及它們的迭代方法對于異常值有一定的穩(wěn)健性。(4)無論是否存在異常值時,QC-SIS表現(xiàn)都很好,均優(yōu)于其他方法。綜合來看,QC-ISIS表現(xiàn)優(yōu)于ISIS、ISIRS和DC-ISIS。

表1 例1正態(tài)分布下的模擬結(jié)果

表2 例1 t(3)分布下的模擬結(jié)果

例2:與Zhu等(2011)[7]類似,考慮如下的轉(zhuǎn)換模型:

為了在自變量X1上隨機(jī)添加r百分比例的異常值其設(shè)置與例1一樣。

從表3和表4(見下頁)可以看出:(1)SIS、DC-SIS以及它們的迭代算法不適合轉(zhuǎn)換模型,對異常值比較敏感。(2)對于單個自變量的判斷,QC-SIS優(yōu)于SIRS。(3)對于迭代的算法,QC-ISIS顯著優(yōu)于ISIRS。而非迭代時,它們的差距不會超過5%,而迭代方法幾乎超過10%。綜合來看,對于轉(zhuǎn)換模型,QC-ISIS最好,ISIRS其次,ISIS最差。

3 結(jié)論

本文研究了迭代的QC-SIS。它可以解決不重要的自變量和重要的自變量高度相關(guān),而其他重要變量和因變量的關(guān)系比較弱;或存在某一些自變量單獨(dú)對因變量的影響不大,而他們聯(lián)合起來對因變量影響比較顯著等問題。從模擬的線性模型和轉(zhuǎn)換模型結(jié)果來看,QC-ISIS優(yōu)于ISIS、ISIRS和DC-ISIS。

表3 例2正態(tài)分布下的模擬結(jié)果

表4 例2 t(3)下的模擬結(jié)果

[1]Fan J,Lv J.Sure Independence Screening for Ultrahigh Dimensional Feature Space[J].Journal of the Royal Statistical Society,Ser.B,2008,70(5).

[2]Fan J,Samworth R,Wu Y.Ultrahigh Dimensional Feature Selection:Beyond the Linear Model[J].Journal of Machine Learning Research,2009,(10).

[3]Fan J,Song R.Sure Independence Screening in Generalized Linear Models With NP-dimensionality[J].The Annals of Statistics,2010,38(6).

[4]Fan J,Feng Y,Song R.Nonparametric Independence Screening in Sparse Ultra-high-dimensional Additive Models[J].Journal of the American Statistical Association,2011,106(494).

[5]Fan J,Ma Y,Dai W.Nonparametric Independence Screening in Sparse Ultra-high-dimensional Varying Coefficient Models[J].Journal of the American Statistical Association,2014,109(507).

[6]Liu J,Li R,Wu S.Feature Selection for Varying Coefficient Models With Ultrahigh-dimensional Covariates[J].Journal of the American Statistical Association,2014,109(505).

[7]Zhu L,Li L,Li R,et al.Model-free Feature Screening for Ultrahigh Dimensional Data[J].Journal of the American Statistical Association,2011,106(496).

[8]Li R,Wei Z,Zhu L.Feature Screening via Distance Correlation Learning[J].Journal of the American Statistical Association,2012,107(499).

[9]Li G,Peng H,Zhang J,et al.Robust Rank Correlation Based Screening[J].The Annals of Statistics,2012,40(3).

[10]Shao X,Zhang J.Martingale Difference Correlation and Its Use in High Dimensional Variable Screening[J].Journal of the American Statistical Association,2014,109(507).

[11]Ma X,Zhang J.Robust Model-free Feature Screening via Quantile Correlation[J].Journal of Multivariate Analysis,2016,(143).

[12]Zhong W,Zhu L.An Iterative Approach to Distance Correlation-based Sure Independence Screening[J].Journal of Statistical Computation and Simulation,2015,85(11).

猜你喜歡
利用方法模型
一半模型
利用min{a,b}的積分表示解決一類絕對值不等式
重要模型『一線三等角』
利用一半進(jìn)行移多補(bǔ)少
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
利用數(shù)的分解來思考
Roommate is necessary when far away from home
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 伊人久久久久久久| 在线观看视频99| 在线欧美a| 欧美成人精品欧美一级乱黄| 亚洲国内精品自在自线官| 国产精品三级专区| 亚洲视屏在线观看| 欧美成人免费一区在线播放| 全午夜免费一级毛片| 午夜毛片免费看| 国产无码网站在线观看| 国产美女在线免费观看| 在线观看国产黄色| 国产成人8x视频一区二区| 国产区人妖精品人妖精品视频| 亚洲妓女综合网995久久| 国产精品成人一区二区不卡| 日本影院一区| 98超碰在线观看| 91偷拍一区| 亚洲国产成人精品无码区性色| 久久综合九九亚洲一区| 亚洲国产中文精品va在线播放| 亚洲男人天堂久久| 香蕉久人久人青草青草| 久久9966精品国产免费| 天天综合网亚洲网站| 婷婷丁香色| 日本午夜三级| 国产永久在线视频| 欧美a在线看| 亚洲系列无码专区偷窥无码| 久久鸭综合久久国产| 亚洲五月激情网| 精品福利国产| 久久毛片网| 国产又粗又猛又爽视频| 亚洲国产成人精品青青草原| 波多野结衣的av一区二区三区| 国产亚洲视频在线观看| 99久久人妻精品免费二区| 国模视频一区二区| 国产在线自在拍91精品黑人| 露脸一二三区国语对白| 日韩欧美国产中文| 美女视频黄又黄又免费高清| 激情综合婷婷丁香五月尤物| 高潮毛片免费观看| 欧美精品黑人粗大| 色噜噜狠狠狠综合曰曰曰| 亚洲成a人片| 青青草91视频| 国产精品一区二区不卡的视频| 98精品全国免费观看视频| 久久青草精品一区二区三区| 国产青榴视频在线观看网站| 婷婷六月综合网| 2020国产在线视精品在| 亚洲啪啪网| 久青草国产高清在线视频| 一区二区午夜| 国产打屁股免费区网站| 97超级碰碰碰碰精品| 国产欧美视频在线观看| 色综合天天娱乐综合网| 国产成人免费观看在线视频| 2021最新国产精品网站| 亚洲日本韩在线观看| 国产亚洲精久久久久久久91| 日韩在线永久免费播放| 亚洲天堂日本| 亚洲欧美不卡中文字幕| 国产成人无码Av在线播放无广告| 午夜在线不卡| 婷婷六月色| 国产精品自在在线午夜| 国产精品污污在线观看网站| 在线播放国产99re| 欧美日韩国产综合视频在线观看| 亚洲欧洲日韩综合色天使| 亚洲日本一本dvd高清| 亚洲欧美自拍中文|