999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談高維數(shù)據(jù)變量選擇現(xiàn)狀與方法

2016-03-27 09:44:44張凌潔寶雞文理學(xué)院
數(shù)碼世界 2016年7期
關(guān)鍵詞:懲罰方法模型

張凌潔寶雞文理學(xué)院

?

淺談高維數(shù)據(jù)變量選擇現(xiàn)狀與方法

張凌潔
寶雞文理學(xué)院

變量選擇是統(tǒng)計(jì)分析理論中的重要內(nèi)容,也是目前學(xué)者們研究的重點(diǎn)。本文在傳統(tǒng)數(shù)據(jù)變量選擇的基礎(chǔ)上,介紹高維數(shù)據(jù)變量選擇方法的研究歷史和研究現(xiàn)狀,總結(jié)已有變量選擇的研究成果,并在此基礎(chǔ)上進(jìn)行了總結(jié)和展望。

高維 變量選擇 穩(wěn)健方法

1 變量選擇方法簡(jiǎn)介

從20世紀(jì)60年代至今,變量選擇的研究已有不少文獻(xiàn)與資料。以Akaike 在1974年提出的AIC準(zhǔn)則為標(biāo)志,近幾十年來(lái),變量選擇是統(tǒng)計(jì)學(xué)者們研究的重點(diǎn),研究的方法和理論結(jié)果已經(jīng)有了相對(duì)成熟的進(jìn)展。

經(jīng)典的變量選擇包括前進(jìn)法、后退法、逐步回歸法、最優(yōu)回歸子集法等,通過(guò)AIC,BIC,Cp等從候選模型中選出一個(gè)最優(yōu)子集來(lái)擬合回歸模型。建立回歸模型初期,引入很多相關(guān)的變量以減小模型的誤差;選擇對(duì)因變量有明顯影響的重要變量以提高模型預(yù)測(cè)的精度和可解釋性。

實(shí)際中,經(jīng)典的變量選擇方法,適合模型中變量個(gè)數(shù)比較少的模型。但是當(dāng)變量個(gè)數(shù)增多時(shí),需要解決的問(wèn)題也隨之增多。如由于要求解一個(gè)多項(xiàng)式復(fù)雜程度的非確定性問(wèn)題,從而處理高維和海量問(wèn)題時(shí)失效;對(duì)于成百上千的變量,如果我們選擇過(guò)多的變量,則會(huì)使計(jì)算成本過(guò)大、變量選擇估計(jì)的速度減慢以及模型選擇的精準(zhǔn)度降低,也會(huì)出現(xiàn)過(guò)度擬合現(xiàn)象;如果我們選擇較少的變量,則會(huì)遺漏重要變量或選擇變量不當(dāng),使結(jié)果誤差較大,也失去了分析研究的意義。只有選取適合的變量選擇方法,才能選擇出有用變量,去除冗余變量,化簡(jiǎn)模型。這樣既節(jié)省了計(jì)算量,也便于分析數(shù)據(jù)使結(jié)果更加精確,所以選擇適合的變量選擇方法是研究高維數(shù)據(jù)時(shí)的重要的步驟。

近年來(lái),統(tǒng)計(jì)學(xué)者們提出用懲罰函數(shù)同時(shí)進(jìn)行變量選擇和系數(shù)估計(jì),其基本思想就是在進(jìn)行參數(shù)估計(jì)的同時(shí),把較小的系數(shù)估計(jì)壓縮,而將較大的系數(shù)估計(jì)保留,從而選擇出重要變量達(dá)到變量選擇的目的──正則化方法。正則化估計(jì)能大大減少計(jì)算量、克服經(jīng)典變量選擇方法的不穩(wěn)定性。目前的懲罰方法有:Tishirani等提出的Lasso、Fan等提出的SCAD、Zou等提出的自適應(yīng)Lasso、Zou等提出的Elast ic Net、Wang等提出的組Lasso、Zhao等提出的分級(jí)Lasso、Candes等提出的Dantzig Selector 以及Xu等提出L1/2正則化、Zhang等提出處理NP維下的非凸懲罰估計(jì)MCP懲罰、Fan等研究超高維非凸懲罰函數(shù)變量選擇問(wèn)題。

2 高維變量選擇穩(wěn)健方法簡(jiǎn)介

隨著科學(xué)技術(shù)的發(fā)展,人們可以搜集到物理化學(xué)、個(gè)性化醫(yī)療、霧霾分析及其它領(lǐng)域的高維海量數(shù)據(jù)。這些數(shù)據(jù)計(jì)算的復(fù)雜性和高成本使得經(jīng)典地變量選擇方法不再適用,為此,統(tǒng)計(jì)學(xué)者們開(kāi)始尋找研究高維數(shù)據(jù)的變量選擇方法,即以lasso為代表的懲罰似然方法(通過(guò)系數(shù)壓縮來(lái)實(shí)現(xiàn)變量選擇)。然而實(shí)際中的高維數(shù)據(jù)卻含有異常值點(diǎn),使得數(shù)據(jù)呈現(xiàn)尖峰或厚尾分布,此時(shí)的變量選擇方法將不再具有優(yōu)良性和穩(wěn)健性,統(tǒng)計(jì)學(xué)者們提出穩(wěn)健估計(jì)方法,即用具有穩(wěn)健性的損失函數(shù)來(lái)替代最小二乘損失函數(shù),如M-估計(jì)、最小平方中位數(shù)估計(jì)和最小平方修整估計(jì)、分位數(shù)回歸模型、秩回歸、CQR估計(jì)等。

2.1方法的提出和性質(zhì)的研究

1996年Tibshirani提出一般線(xiàn)性模型下的lasso方法,開(kāi)啟了高維數(shù)據(jù)變量選擇的研究,具有劃時(shí)代的意義。Lasso可以使無(wú)明顯影響變量的系數(shù)壓縮為零,同時(shí)進(jìn)行變量選擇和參數(shù)估計(jì)。Lasso在估計(jì)值較大的變量可將重要變量的系數(shù)壓縮較小,而保證參數(shù)估計(jì)的準(zhǔn)確性。但是lasso方法不具有oracle性。2004年Fan得出SCAD具有oracle性質(zhì)且降低了計(jì)算的復(fù)雜度。2007年Zhao提出lasso不具有相合性也不具有oracle性,Zou對(duì)lasso做相同系數(shù)壓縮提出ALasso方法,證明其在固定維數(shù)時(shí)具有oracle性。2010年Shojaie提出ALasso中調(diào)整系數(shù)A值的ALasso是一種凸優(yōu)化問(wèn)題,可快速有效地得到其全局最優(yōu)解。2005年Zou提出了處理基因微陣列數(shù)據(jù)的Elastic net方法,對(duì)系數(shù)二次懲罰,使得具有組效應(yīng)的數(shù)據(jù)可以進(jìn)行有效的變量選擇,且能解決高維小樣本問(wèn)題。2009年Zou提出的adaptive Elastic Net具有oracle性質(zhì)。為解決Lasso方法過(guò)擬合問(wèn)題,2007年Meinshausen引入壓縮參數(shù)提出Relaxed Lasso,2013張凌潔等分析研究LS+LAD組合損失函數(shù)的高維穩(wěn)健統(tǒng)計(jì)性質(zhì)。這些方法一定程度上可以處理高維統(tǒng)計(jì)問(wèn)題。

2.2方法在各類(lèi)模型中的研究

一般線(xiàn)性模型中有變量選擇,同樣其他模型中也有變量選擇。1996年Tibshirani推出COX模型下的lasso,2001年P(guān)aek提出廣義線(xiàn)性模型下的lasso,2007年Meinshausen提出高斯圖模型中的Graphical lasso,2014年張凌潔等分析研究了分層懲罰鏈接單個(gè)圖模型的估計(jì)的多圖模型,2011年盧穎提出poisson對(duì)數(shù)線(xiàn)性模型下和logist ic回歸模型下的ElasticNet變量選擇方法,同年Nardi提出時(shí)間序列模型下的lasso,Kai等提出的變系數(shù)半?yún)?shù)模型下的SCAD及其理論性質(zhì),崔靜等提出Poisson對(duì)數(shù)回歸模型下ALasso的定義和性質(zhì),2012年Li提出半?yún)?shù)模型的lasso,2015年蘇美紅等[4]分析研究了LADElastic Net模型選擇的一致性。

2.3方法研究注意的事項(xiàng)

正則化方法研究的模式通常是“損失函數(shù)+懲罰函數(shù)”,一個(gè)較優(yōu)的懲罰估計(jì)需注意以下幾個(gè)問(wèn)題:

(1)選擇損失函數(shù)。損失函數(shù)的好壞決定著模型的穩(wěn)健性,數(shù)據(jù)模型呈正態(tài)分布時(shí),其結(jié)果最佳;

(2)選擇懲罰函數(shù)。懲罰估計(jì)的理論性質(zhì)(稀疏性、連續(xù)性和無(wú)偏性)取決于懲罰函數(shù)的選擇;

(3)采用的算法。算法的可行性,運(yùn)算時(shí)間直接影響著估計(jì)結(jié)果的準(zhǔn)確性;

(4)選擇調(diào)試參數(shù)。調(diào)試參數(shù)對(duì)模型稀疏性和相合性影響較大。

3 總結(jié)與展望

隨著大數(shù)據(jù)應(yīng)用的深廣,人們對(duì)高維數(shù)據(jù)的研究和運(yùn)用也日益普遍。高維數(shù)據(jù)變量選擇是大數(shù)據(jù)研究領(lǐng)域的熱點(diǎn),也是大數(shù)據(jù)領(lǐng)域不得不關(guān)注的重要問(wèn)題。本文介紹了高維數(shù)據(jù)變量選擇方法的研究歷史和研究現(xiàn)狀,總結(jié)了一些已有的研究成果。高維數(shù)據(jù)變量選擇模型多種多樣,從中選擇與實(shí)際情況相結(jié)合并不斷地修改模型使其具有實(shí)際應(yīng)用價(jià)值。如果采用最優(yōu)的函數(shù)和有效的算法,用于模型的建立與算法的實(shí)現(xiàn),可為高維數(shù)據(jù)變量選擇的應(yīng)用提供研究基礎(chǔ),有利于推進(jìn)研究工作的進(jìn)一步深化,也有利于體現(xiàn)現(xiàn)實(shí)價(jià)值。

[1] Tibshi rani, R. Regression shrinkage and selectionvia the Lasso[J]. Journal of the Royal Statistical Society Series B. 1996, 58: 267-288.

[2]張凌潔,蘇美紅,張海。LS,LAD組合損失的高維統(tǒng)計(jì)性質(zhì)分析[J].純粹數(shù)學(xué)與應(yīng)用數(shù)學(xué)期刊(自然科學(xué)版),2013,29(5):536-546.

[3]張凌潔,張海。多圖模型的聯(lián)合估計(jì)的群橋方法[J].高校應(yīng)用數(shù)學(xué)學(xué)報(bào)(自然科學(xué)版).2014,29(2):127-137.

[4]蘇美紅,張海,張凌潔.基于LAD-Elast ic Net的模型選擇[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,51(4):894-900.

寶雞文理學(xué)院校級(jí)重點(diǎn)科研項(xiàng)目,項(xiàng)目名稱(chēng):高維數(shù)據(jù)統(tǒng)計(jì)性質(zhì)分析。編號(hào):(ZK16118)。

0212.1

張凌潔(1986-),女,陜西鳳翔人,碩士學(xué)位,主要研究方向:機(jī)器學(xué)習(xí)。

猜你喜歡
懲罰方法模型
一半模型
重要模型『一線(xiàn)三等角』
重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
神的懲罰
小讀者(2020年2期)2020-03-12 10:34:06
懲罰
3D打印中的模型分割與打包
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
真正的懲罰等
捕魚(yú)
主站蜘蛛池模板: 中文字幕第4页| 毛片基地美国正在播放亚洲 | 91九色最新地址| 丁香亚洲综合五月天婷婷| 免费日韩在线视频| 五月婷婷精品| 国产欧美日韩在线一区| 夜夜爽免费视频| 国产一级精品毛片基地| 亚洲中文久久精品无玛| 少妇极品熟妇人妻专区视频| 五月婷婷综合网| 波多野结衣无码中文字幕在线观看一区二区| 成人在线观看一区| 国产日产欧美精品| 国产又黄又硬又粗| 精品综合久久久久久97超人| 免费人成在线观看视频色| 亚洲av片在线免费观看| 91在线激情在线观看| 女人18毛片水真多国产| 男人天堂亚洲天堂| 亚洲天堂网在线播放| 欧美三級片黃色三級片黃色1| 国产精品美女免费视频大全| 亚洲天天更新| 免费又黄又爽又猛大片午夜| 夜夜高潮夜夜爽国产伦精品| 精品乱码久久久久久久| 一本久道热中字伊人| 日本午夜精品一本在线观看 | 亚洲国产AV无码综合原创| 亚洲动漫h| 99精品一区二区免费视频| 国产免费好大好硬视频| 久久婷婷国产综合尤物精品| 91免费国产在线观看尤物| 国产原创演绎剧情有字幕的| 99热国产这里只有精品无卡顿"| 成人毛片免费在线观看| 狠狠干欧美| 四虎影视库国产精品一区| 亚洲成综合人影院在院播放| 午夜精品久久久久久久99热下载 | 亚洲最新网址| 麻豆精选在线| 亚洲国产精品日韩av专区| 欧美成人h精品网站| 精品国产美女福到在线不卡f| 美女无遮挡拍拍拍免费视频| 四虎永久免费在线| 毛片三级在线观看| 88国产经典欧美一区二区三区| 亚洲国产欧洲精品路线久久| 美女免费黄网站| 91精品国产综合久久香蕉922 | AV天堂资源福利在线观看| 免费看久久精品99| 亚洲天堂久久| 亚洲欧美人成人让影院| 亚洲日韩欧美在线观看| 456亚洲人成高清在线| 人妻丰满熟妇啪啪| 一级成人a毛片免费播放| 日韩av电影一区二区三区四区| 在线观看亚洲人成网站| 亚洲成人精品在线| 亚洲六月丁香六月婷婷蜜芽| 成人国产精品一级毛片天堂| 国产自视频| 成人国内精品久久久久影院| 久无码久无码av无码| 四虎在线高清无码| av在线无码浏览| 国产白丝av| 亚洲精选高清无码| 国产福利2021最新在线观看| 就去吻亚洲精品国产欧美| 四虎亚洲精品| 2020极品精品国产| 最新国产精品鲁鲁免费视频| 丁香五月激情图片|