999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于條件信息熵的超高維分類數據特征篩選

2018-05-11 07:37:09程國勝孫超男宋鳳麗
統計與決策 2018年8期
關鍵詞:特征方法模型

程國勝,孫超男,宋鳳麗,來 鵬

(南京信息工程大學 數學與統計學院,南京 210044)

0 引言

隨著現代技術的迅猛發展,大量的高維數據出現在各類領域中,比如生物影像、高頻時間序列數據、腫瘤分類和經濟預測等。在這些高維分類數據中,變量的個數p遠大于樣本量n,這種情形被稱作“大p小n”。在高維數據分析中,經常引用稀疏性假設,即假設只有少量的協變量與響應變量相關,基于這樣的假設,研究者們提出了一系列正則化的方法用于解決一般的高維回歸分析,例如lasso[1]、SCAD[2]、elastic net[3]等方法。但這些方法均是處理當 p適中的情形,當處理超高維數據時,在計算花費、統計準確性和算法穩定性方面都面臨很大的問題。受到這些挑戰的啟發,研究者們嘗試把邊緣特征篩選應用在超高維數據中,通過簡便快速的方法進行超高維數據的初步降維,然后再利用一般的高維降維方法進行分析處理。Fan和Lv[4]提出用Pearson相關系數來進行特征篩選,并且證明了在線性模型假設下該方法具有確定篩選性質。Li等[5]提出根據距離相關系數將協變量排序,并證明出該方法(DC-SIS)在自由模型下同樣具有確定篩選性質。Mai等[6]針對兩類判別分析問題,提出基于Kolmogorov距離進行超高維變量特征篩選的方法,并且在模型假設很弱的情況下仍然具有確定篩選性質。Huang等[7]針對協變量與響應變量均為多類別變量的問題,提出一種基于自由模型用Pearson卡方檢驗進行特征篩選的方法,該方法具有確定篩選性質。

目前,大多數超高維變量篩選的文獻都是基于協變量與響應變量之間的相關性構造相應的統計量來度量變量間是否獨立,是否存在關聯。Shannon[8]將信息熵和交互信息應用到信息論中,信息熵值越高意味著系統具有越高的不確定性或者可變性。2011年,Reshef等[9]在《Science》上發表了基于互信息進行相關性分析的文章,可有效地刻畫了變量之間的非線性關系。于是,Ni等[10]提出一種基于互信息的超高維多類別變量的特征篩選方法,體現出互信息作為度量變量之間的非線性的有效性。

本文提出一種基于條件信息熵進行重要變量的篩選方法,從信息量的角度來構造相應的統計量進行相關性分析,證明了在自由模型下該方法具有確定篩選性質,且具有計算簡單快速的優點。從模擬的結果來看,針對響應變量與協變量均為離散型類別數據,篩選結果相對于其他一些方法有更好的效果。

1 條件信息熵(CIES)

眾所周知,在信息系統中,信息熵是描述信息內容的有效方法。德國物理學家Clausius在1850年首次提出用熵來測量空間中能量分布的均勻程度,能量分布越均勻,那么對應的熵值越大[11]。根據該原理,信息熵之父Shanon提出用信息熵來描述平均信息量[8],同時也用數學語言對信息熵進行了描述,即離散型隨機變量X的信息熵為,其中 pk為隨機變量 X=xk的概率pk=P(X=xk)。本文提出用條件信息熵來衡量給定響應變量條件下,協變量所包含的信息量,進一步篩選出與響應變量相關性較強的協變量。

設響應變量Y 為二元變量,即Y=0,1,且 X=(X1,X2,…,Xp)T為 p維協變量,由于變量維數 p關于樣本量n成指數型增長要從這p維協變量中篩選出與響應變量Y相關性比較強的變量。通常會有稀疏性假設,即假設只有少量協變量與響應變量相關。設重要變量子集和不重要變量子集分別為D和Dc為重要變量集合的大小,其中 D={j:對某些Y=y,Xj與 F(Y|y)相關},

本文利用信息熵從信息量的角度出發來討論協變量Xj與響應變量Y之間的相關性。協變量Xj的信息熵為其中pj,l=P(Xj=l),j=1,…,p;l=1,…,L為協變量Xj的概率分布。相應地,給定Y條件下Xj的條件信息熵H(Xj|Y)為:

其中 pj,ly=P(Xj=l|Y=y)表示給定Y=y條件下 Xj=l的條件概率分布。

據此,定義如下的篩選指標來衡量Xj與Y之間的獨立性:

從信息熵角度考慮,如果協變量Xj與響應變量Y獨立,則有給定Y=0條件下Xj的條件信息熵與給定Y=1條件下Xj的條件信息熵相等,即ωj=0;如果不獨立,則有ωj>0。因此可以根據ωj的大小來篩選與響應變量相關性較強的協變量。為了計算ωj,需要給出其樣本估計量。假設給定n組觀測值,有:

其中dn為預設的模型大小,滿足dn≤n。在一些特征篩選文章中,閾值dn一般設為[n/logn],其中[a]表示a的整數部分。

為了驗證簡化模型D是否包含所有真實的重要協變量,下面研究條件信息熵篩選(CIES)的確定篩選性質。首先,建立確定篩選性質需滿足以下三個正則化條件:

(C1)協變量 X的維數 p和樣本量n滿足logp=na,其中

(C2)存在兩個正常數0<c1<c2<1使得

注:Cui,H.等[12]在所寫的超高維自由模型判別分析文章中也做出了(C2)同樣的假設,該條件確保響應變量Y和協變量X每個類別的比例不會太小也不會太大。(C3)這類型的假設條件在特征篩選文獻中非常典型,例如文獻[12]中的(C2)都是這類的假設。

定理 1(確定篩選性):在(C1)、(C2)條件下。對0≤τ<1/2,存在正常數c有:

其中p為協變量X的維數,n為樣本量,L為變量Xj的類別數。

2 數值模擬

協變量X為離散型變量,響應變量Y為服從均勻分布的兩類別離散型變量,真實模型D={1 ,2,3} ,設定預測模型大小。在給定 yi=r的條件下,定義相關的類別變量概率為r=1,2,1≤k≤d0,表1給出了 θrk的取值。對于任意的r=1,2,d0<k≤p,設 θrk=0.5。分別考慮 n=100;150;200,p=1000;2000幾種情形。

表1 模擬的參數設定

本文通過以下準則將CIES的模擬效果與PC-SIS、IG-SIS進行比較:MMS,即包含所有重要變量的最小模型大小;P,當估計模型大小為12時,其包含所有重要變量的概率。

表2(見下頁)給出了三種方法模擬500次,5%,25%,50%,75%,95%分位點的MMS值,以及所選模型包含所有真實重要變量的覆蓋比。從模擬結果來看,CIES方法的模擬效果比較好,隨著樣本量n的增加,MMS值更加接近真實模型大小,并且覆蓋比P趨近于1。對于兩類別的離散型協變量,CIES方法的效果相對于PC-SIS、IG-SIS方法好一些,尤其是當樣本量較少時,CIES方法更加適合用來進行超高維特征篩選。

3 定理證明

為了證明定理1,首先介紹下面的引理。

引理1(Hoeffding’s不等式):設 X1,X2,…,Xn為獨立隨機變量。假設,其中ai,bi為常數。設,則對于正常數t有下面的等式成立:

表2 模擬結果

引理2:假設a和b為兩個有界隨機變量,也就是說,存在常數M1>0,M2>0使得。給定樣本大小分別為a和b的估計值。假設對于,存在正常數 c1,c2和 s,使得:

此外,假設 b有界且不為0,即存在 M3>0使得,那么有:

c5和M4均為正常數,且在證明中有所定義。

對定理1的證明:根據ωj和的定義,有:

那么有:

下面來證明如下不等式:

利用每類樣本的頻率來估計概率,這樣有:

此外,有:

結合式(4)和式(5),進一步有:

根據引理2,證明將進一步轉化為證明Sn,Tn為sn,tn的估計值。由引理1,可得:

因此對于概率函數 p*及其估計值 p*,有 p*依概率收斂到 p*。同樣可以證明logp*依概率收斂到logp*:

同樣地,可以簡單地證明Ej2部分,有:

因此:

對0≤τ<1/2,存在正常數 c,當0<a<1-2τ時隨著n→+∞有

4 結論

本文提出了一種基于條件信息熵進行超高維自由模型特征篩選的方法,證明其具有確定篩選性質。從模擬的結果來看,當協變量X和響應變量Y均為兩類別時,此方法相對于其他篩選方法有更好的篩選效果。在后續的工作中,將考慮協變量X和響應變量Y均為多類別離散型隨機變量或者連續型隨機變量的情形,嘗試用區間分割將變量離散化,基于條件信息熵進行超高維特征篩選。

參考文獻:

[1]Tibshirani R.Regression Shrinkage and Selection via the Lasso[J].Joumal of the Royal Statistical Society,1996,58(1).

[2]Fan J Q,Li R Z.Variable Selection via Nonconcave Penalized Likelihood and Its Oracle Properties[J].Journal of the American Statistical Association,2001,(96).

[3]Zou H.Hastie T.Regularization and Variable Selection Via the Elastic Net[J].Journal of the Royal Statistical Society,2005,67(2).

[4]Fan J Q,Lü J C.Sure Independence Screening for Ultrahigh Dimensional Feature Space[J].Journal of the Royal Statistical Society,2008,70(5).

[5]Li R,Zhong W,Zhu L.Feature Screening via Distance Correlation Learning[J]Journal of the American Statistical Association,2012,107(499).

[6]Mai Q,Zou H.The Kolmogorov Filter for Variable Screening in High-dimensional Binary Classification[J].Biometrika,2013,(1).

[7]Huang D,Li R,Wang H.Feature Screening for Ultrahigh Dimensional Categorical Data With Applications[J].Journal of Business&Economic Statistics,2014,32(2).

[8]Shannon C E.A Mathematical Theory of Communication[M].New York:McGraw-Hill,1974.

[9]Reshef D N,Reshef Y A,Finucane H K,et al.Detecting Novel Associations in Large Data Sets[J].Science,2011,(344).

[10]Ni L,Fang F.Entropy-based Model-free Feature Screening for Ultrahigh-dimensional Multiclass Classification[J].Journal of Nonparametric Statistics,2016.

[11]Clausius R.Ueberverschiedene Fur Die an Wendungbequenme formen der Hauptgleichungen der Mechanischenwarmetheorie[J].Annalen Der Physik,2006,201(7).

[12]Cui H,Li R,Zhong W.Model-Free Feature Screening for Ultrahigh Dimensional Discriminant Analysis[J].Journal of the American Statistical Association,2015,110(510).

猜你喜歡
特征方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
可能是方法不對
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 欧美激情首页| 国产精品对白刺激| 成年A级毛片| 亚洲Av激情网五月天| 国产乱码精品一区二区三区中文| 亚洲综合精品香蕉久久网| 欧美日韩亚洲国产| jizz在线免费播放| 午夜成人在线视频| 亚洲综合色区在线播放2019| 怡春院欧美一区二区三区免费| 久久人人97超碰人人澡爱香蕉| 玖玖精品在线| 亚洲国产欧洲精品路线久久| 人人91人人澡人人妻人人爽| 自偷自拍三级全三级视频| 一本久道热中字伊人| 在线观看国产精美视频| 欧美成人手机在线视频| 成人综合在线观看| 91青青草视频| 毛片免费在线视频| 久久久久夜色精品波多野结衣| 亚洲欧洲天堂色AV| 国产日韩精品一区在线不卡| 91福利片| 日韩第一页在线| 国产小视频a在线观看| 激情综合网址| 动漫精品中文字幕无码| 成人另类稀缺在线观看| 一区二区偷拍美女撒尿视频| 国产一区二区免费播放| 91av国产在线| 中国国产一级毛片| 在线观看国产精品第一区免费 | 尤物亚洲最大AV无码网站| 国产精品成人免费视频99| 免费在线视频a| 97无码免费人妻超级碰碰碰| 成人一级黄色毛片| 国产在线精品网址你懂的| 欧美在线中文字幕| 亚洲无线视频| 国产迷奸在线看| 成人韩免费网站| 中国一级毛片免费观看| 国产精品无码AV片在线观看播放| 她的性爱视频| 亚洲一区二区约美女探花| 狠狠色成人综合首页| 精品国产香蕉伊思人在线| 人妻中文久热无码丝袜| 99热这里只有精品5| 久久免费成人| 一区二区三区四区日韩| 亚洲国产AV无码综合原创| 国产又色又爽又黄| 免费在线成人网| 风韵丰满熟妇啪啪区老熟熟女| 在线免费观看AV| 国产欧美又粗又猛又爽老| 亚洲综合九九| 欧美在线导航| 中国成人在线视频| 亚洲AⅤ波多系列中文字幕| 国产福利免费视频| 午夜影院a级片| 精品人妻AV区| 亚洲中文久久精品无玛| 国产精品性| 久久综合结合久久狠狠狠97色| 亚洲天堂日韩av电影| 国内精品伊人久久久久7777人| 日韩激情成人| 国产精品久久自在自线观看| 欧美中文字幕在线视频| 欧美v在线| 欧美一级夜夜爽| 国产自在线播放| 亚洲aaa视频| 亚洲人在线|