999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

CVX軟件包在統計實驗教學中的應用

2017-07-09 21:02:05丁先文陳雪平陳建東唐安民
江蘇理工學院學報 2017年2期
關鍵詞:教學

丁先文 陳雪平 陳建東 唐安民

摘 要:回歸分析是高校統計學的專業必修課,關于模型的變量選擇又是該門課程的重點內容。傳統的變量選擇方法具有很大的局限性。文章基于CVX凸優化包,給出了線性回歸模型、分位數回歸模型和復合分位數回歸模型中變量選擇的算法。通過模擬計算說明了該算法的可行性和有效性。

關鍵詞:CVX; 變量選擇; 教學

中圖分類號:O212.2 文獻標識碼:A 文章編號:2095-7394(2017)02-0093-05

目前,許多開設統計學專業的高校都將模型的回歸分析設為專業必修課,體現了該門課程在統計學中的重要地位。在該門課程的教學中,關于模型的變量選擇問題是重點內容。現有的大部分教材都是介紹傳統的變量選擇方法,如向前法、向后法和逐步回歸等。這些方法在回歸分析中扮演著重要角色,然而,隨著大數據時代的來臨,在海量數據下,如何快速高效地進行變量選擇面臨著巨大挑戰。筆者結合自身的教學實踐,探索將目前流行的一些方法應用于具體的教學過程中。

近年來,關于模型的變量選擇問題成為了統計學的熱點研究課題。特別是隨著大數據時代的來臨,如何高效地處理和分析大數據對現有的統計方法提出了巨大的挑戰。在一些實際問題中,雖然在一段時間內可以收集到海量數據,但并不是每一個變量都對興趣變量都有顯著影響,這就需要在建立模型時剔除一些與興趣變量無關的變量,然后再進行統計分析,這正是統計學中的變量選擇問題。采用傳統的變量選擇方法,需要分兩步進行,首先要選擇有顯著影響的變量,其次再對模型進行統計分析。這類方法在大數據背景下很難實現,計算的效率也將受

到很大損失。Tibshirani[1]提出了一種壓縮估計方法(LASSO),該方法的的一個顯著優點就是可以將變量選擇和參數估計同時進行,從而提高了計算效率。Fan and Li[2]針對懲罰函數提出了SCAD懲罰方法,并給出了估計量的Oracle性質。同時Fan and Li[2]指出,一個好的估計量應該具備Oracle性質,并說明了LASSO方法不具有Oracle性質。Zou[3]提出了自適應LASSO的變量選擇方法,并證明了自適應LASSO方法具有Oracle性質。關于變量選擇的詳細介紹和研究進展,請參見王大榮和張忠占[4]。

在實施變量選擇的過程中,由于目標函數或懲罰項的非光滑性,這給統計優化帶來了極大的挑戰。Fan and Li[2]提出了局部二次近似方法來優化目標函數,該方法依賴于初始值的選取且與閥值的選取較為敏感。Efron[5]針對線性回歸模型提出了最小角回歸算法,該方法的優點是收斂速度快且效果很好,該算法可以通過調用R中程序包來實現。但是該方法需要有一定的編程基礎才能實現,這給教師的教學帶來了一定的難度。目前,還沒有一種通用的算法可以實現不同模型的變量選擇問題,本文利用Matlab中的CVX軟件包給出常見模型的變量選擇的一般算法。

CVX(凸優化)是由Grant and Boyd[6] 基于Matlab軟件編寫的求解凸優化問題的軟件包。該軟件包采用的是一種規則化的編程語言來描述數學優化問題,與以往的優化軟件包相比,它具有可讀性和易用性等特點,教師在教學過程中可通過演示法讓學生掌握該軟件包的代碼編寫規則。牛佳[7]研究了基于CVX和非負矩陣分解的圖像融合的問題;王芳, 陳勇, 葉志清等[8]研究了基于CVX工具箱的自適應波束形成實驗。然而,基于CVX對模型的變量選擇算法很少有學者研究。本文對線性回歸模型、分位數回歸模型和復合分位數回歸模型給出基于CVX的變量選擇算法。對其它的常見模型的變量選擇可以作類似的推廣應用。本文的方法可供統計學專業的教師在回歸分析教學中借鑒使用。

1 線性回歸模型的變量選擇算法

考慮下面的線性回歸模型

[Yi=XTiβ+εi,i=1,…,n,] (1)

其中[Yi]與[Xi]分別表示響應變量及[p]維協變量,[β]是[p]維的回歸系數,[εi]為獨立同分布的隨機誤差項。假設模型(1)具有稀疏性,即參數[β]中的某些分量為0。參數[β]的最小二乘估計可以通過優化式(2)得到:

[β=argminβi=1n(Yi-XTiβ)2。] (2)

由(2)式得到的參數[β]的估計具有很多優良的性質[9]。然而,當模型中存在稀疏性時,由(2)式得到的參數估計結果往往不能將[β]中的不顯著的分量估計為0,從而降低了估計的有效性。一個常用的辦法是采用壓縮估計法,即參數[β]的估計可通過優化式(3)得到:

[β=argminβi=1n(Yi-XTiβ)2+nj=1ppλ(βj),] (3)其中[nj=1ppλ(βj)]稱為懲罰項,[pλ(.)]是懲罰函數,參數[λ]是調諧參數。通過選取不同的[λ]來調整懲罰程度的大小,從而達到壓縮估計的目的。當[pλ(βj)=λβj]時,式(3)即為LASSO估計;當[pλ(βj)=λωjβj]時,式(3)即為自適應LASSO估計,特別地,若[ωj=1,j=1,…,p],則自適應LASSO估計即為LASSO估計;當懲罰函數的導數滿足

[p'λ(θ)=λ(I(θλ)+(αλ-θ)+(α-1)λI(θ>λ))]

時,其中[α>0,θ>0],式(3)即為SCAD估計。

注意到,式(3)的第二項在原點不可導,普通的通過梯度法尋求(3)式的最優值不可行。然而利用關系式[βj=β+j+β-j],[βj=β+j-β-j],其中[β+j=βI(β>0)]和[β-j=βI(β<0)],可以將式(3)轉化為凸線性規劃問題來解決。以下以懲罰項為自適應LASSO為例,給出基于CVX的優化式(3)的代碼。

cvx_begin quiet

variable s(p)

variable t(p)

minimize((y-x?(s-t))?(y-x?(s-t))+ n?lambda?weight?(s+t))

subject to

s>=0;

t>=0;

cvx_end

在以上代碼中,y為n維的響應變量,[X]為[n×p]的設計矩陣,weight表示自適應權重[ω=(ω1,…,ωp)T],在計算時可令[ωj=(β0j-2],s表示[β+j],t表示[β-j],lambda表示調諧參數[λ]。對于懲罰函數為SCAD情形,也可類似運用以上代碼進行變量選擇,這時需要對SCAD懲罰函數采用一步近似方法。

2 分位數回歸模型的變量選擇算法

作為對普通最小二乘方法的一種替代方法,Koenker and Bassett (1978) 提出了分位數回歸模型。通過估計不同的條件分位數函數,分位數回歸可以系統地刻畫協變量對響應分布的影響。此外,分位數回歸模型對誤差分布不作任何假設,這使得分位數回歸模型得到了許多研究者的深入研究并在各領域得到了廣泛應用。關于分位數回歸模型的研究進展和詳細介紹,請參見 Koenker[10]。

考慮下面的線性回歸模型

[Yi=XTiβ+εi,i=1,…,n,] (4)

其中[Yi]與[Xi]分別表示響應變量及[p]維協變量,[β]是[p]維的回歸系數,[εi]為具有未知分布函數的隨機誤差項。在給定[Xi]的條件下,令[Yi]的[τ]條件分位數為[Qτ(Yi][Xi)=XTiβτ]且滿足[P(YiXTiβτXi)=τ,]其中[0<τ<1]。當模型(4)中存在稀疏性時,可通過優化(5)式得到參數的估計

[βτ=argminβ{i=1nρτ(Yi-XTiβ)+nj=1ppλ(βj)},] (5)

其中[ρτ(t)=(τ-I(t0))]為檢查函數,[I(.)]為示性函數。由于式(5)中的兩項在原點均不可導,因此無法通過普通的梯度方法來優化。注意到檢查函數[pτ(t)]滿足[pτ(t)=τt++(1-τ)t-],其中[t+=tI(t>0)],[t-=tI(t<0)],t=[t++t-]。可以將式(5)轉化為凸線性規劃問題來解決。具體地,以懲罰項為自適應LASSO為例,優化式(5)等價于

[mint+i,t+i,η+i,η+i{i=1nτt+i+(1-τ)t-i+nλj=1pωj(η+i+η-i)},]

滿足的約束條件為:

[t+i-t-i=Yi-XTi(η+-η-);t+i0;t-i0;η+j0;η-j0;i=1,…,n;j=1,…,p,]

其中[η+=(η+1,…,η+p)T,η-=(η-1,…,η-p)T,]。由此可以得到參數[β]的估計[βr=η+-η-]。下面給出基于CVX的優化式(5)的執行代碼。

cvx_begin quiet

variable t1(n)

variable t2(n)

variable eta1(p)

variable eta2(p)

minimize(sum(tau?s+(1-tau)?t)+n?lamb da?weight?(eta1+eta2))

subject to

t1-t2==y-x?(eta1-eta2);

t1>=0;t2>=0;eta1>=0;eta2>=0;

cvx_end

3 復合分位數回歸模型的變量選擇算法

分位數估計只考慮了在某個給定的分位點上的估計,這可能對許多可能感興趣的分布無效。Zou and Yuan[11]提出了復合分位數回歸模型,其思想是通過極小化來自不同分位數回歸模型中的目標函數的一個混合結構,是一種穩健的統計方法。基于復合分位數回歸模型進行變量選擇會產生穩健的結果。

考慮下面的線性回歸模型

[Yi=XTiβ+εi,i=1,…,n,] (6)

其中[Yi]與[Xi]分別表示響應變量及[p]維協變量,[β]是[p]維的回歸系數,[εi]為具有未知分布函數的隨機誤差項。假設有K個分位點[τk,k=1,…,K],則模型(6)中的參數估計可以通過優化下面的復合分位數目標函數得到

[βargminβ{k=1Ki=1npτk(Yi-XTiβ-bτk)},]

其中[0<τk<1]是給定的K個分位點。若模型(6)中存在稀疏性,可通過優化(7)式得到參數[β]的估計 [ β=argminβ{k=1Ki=1npτk(Yi-XTiβ-bτk)+nj=1ppλ(βj)},](7)

其中[pr(t)=t(τ-I(t0))]為檢查函數,[I(.)]為示性函數。利用類似于式(5)的方法,可以將(7)式轉化為線性規劃問題

[mint+ik,t+ik,η+i,η+i{k=1Ki=1nτkt+ik+(1-τk)t-ik+nλj=1pωj(η+i+η-i)},]

滿足的約束條件為:

[t+ik-t-ik=Yi-XTi(η+-η-)-bτk;t+ik0;t-ik0;η+j0;η-j0;i=1,…,n;j=1,…,p;k=1,…,K,]

其中[η+=(η+1,…,η+p)T,η-=(η-1,…,η-p)T,]。由此可以得到參數[β]的估計[βr=η+-η-]。下面給出基于CVX的優化式(7)的執行代碼。

cvx_begin quiet

variable t1(n,K)

variable t2(n,K)

variable eta1(p)

variable eta2(p)

variable btau(K)

minimize(sum(sum((repmat(tauseq,n,1)). ?t1+(repmat(1-tauseq,n,1)).?t2))+n?lamb da?weight'?(eta1+eta2))

subject to

t1-t2==repmat(y-x?(eta1-eta2),1,K)-rep mat(btau,n,1);

t1>=0;t2>=0;eta1>=0;eta2>=0;

cvx_end

在上述代碼中,tauseq表示事先給定的分位數序列,其他符號的含義可參見優化式(3)的代碼。

4 模擬計算

為實施模擬,本文從以下模型中產生數據

[Yi=XTiβ+εi,i=1,…,100,]

其中[β=(1,2,3,0,0,0,0,0)T]為待估參數向量,對應的[Xi]的每一個分量都獨立同分布于標準正態分布[N(0,1)],[Yi]根據模型產生,模型誤差服從以下分布:M1:標準正態分布[N(0,1)];M2:自由度為3的t分布[t(3)];M3:混合正態分布[0.1N(0,1)+0.9N(0,10)];M4:混合拉普拉斯分布[0.1Lap(0,1)+0.9Lap(0,10)]。為了便于比較,分位數回歸模型中取分位點為[τ=0.5]。復合分位數回歸中從區間[0.1,0.9]上均勻選取9點分位點。

在模擬計算中,調諧參數根據BIC準則選取。將模擬實驗重復進行1 000次,結果如表1所示。表1中LSE表示基于最小二乘方法得到的結果,QR表示基于分位數回歸得到的結果,CQR表示基于復合分位數得到的結果。“C”表示在1 000次模擬試驗中,回歸系數中5個為0的系數估計為0的平均個數,“I”表示在1 000次模擬試驗中,回歸系數中三個非零系數估計為0的平均個數。GMSE(廣義均方誤差)根據以下公式計算

[ GMSE(β)=(β-β)TE(XXT)(β-β)]。

通過比較GMSE的大小可以判斷參數估計的好壞。

從表1可以看出:三種方法的計算結果都較好,能夠很好地對模型進行變量選擇,這說明文中給出的基于CVX的變量選擇算法是有效的。

5 結語

本文基于CVX軟件包對線性回歸模型、分位數回歸模型和復合分位數回歸模型的變量選擇算法進行了探討,給出了Matlab代碼,解決了一類回歸模型中的變量選擇算法問題。此方法可以推廣到更多的統計模型,這需要在以后的教學中繼續完善和推廣,也可為回歸分析的教學提供參考。

參考文獻:

[1] TIBSHIRANI R. Regression Shrinkage and Selection via the Lasso:a retrospective[J]. Journal of the Royal Statistical Society, 1994, 58(1):267-288.

[2] FAN J, LI R. Variable selection via nonconvave penalized likelihood and its oracle properties[J].Journal of the American Statistical Association, 2001, 96(456):1 348-1 360.

[3] ZOU H. The Adaptive Lasso and Its Oracle Properties[J]. Journal of the American Statistical Association, 2006, 101(476):1 418-1 429.

[4] 王大榮, 張忠占. 線性回歸模型中變量選擇方法綜述[J]. 數理統計與管理, 2010, 29(4):615-627.

[5] EFRON B,HASTIE T. Least angle regression[J]. Mathematics, 2004, 32(2):407-451.

[6] GRANT M, BOYD S P. CVX: MATLAB software for disciplined convex programming[J]. Global Optimization, 2014:155-210.

[7] 牛佳. 基于CVX和非負矩陣分解的圖像融合研究[J]. 計算機工程與設計, 2008, 29(20):5 311-5 313.

[8] 王芳, 陳勇, 葉志清,等. 基于CVX工具箱的自適應波束形成實驗[J]. 電氣電子教學學報, 2016, 38(2):136-139.

[9] 唐年勝, 李會瓊. 應用回歸分析[M]. 北京:科學出版社, 2014.

[10] KOENKER R. Quantile regression[M]. Cambridge Massachusetts:Cambridge university press, 2005.

[11] ZOU H, YUAN M. Composite quantile regression and the Oracle model selection theory [J]. The Annals of Statistics, 2008,36(3):1 108-1 126.

Application of CVX Software Package in Statistical Experiment Teaching

DING Xian-wen1,CHEN Xue-ping1 , CHEN Jian-dong1, TANG An-min2

(1.School of Mathematics and Physics, Jiangsu University of Technology, Changzhou 213001, China;

2.Department of Statistics, Yunnan University, Kunming 65000, China)

Abstract: Regression analysis is a compulsory subject of statistics in college and the variable selection of model is the key content of this course. The traditional variable selection method has a lot of limitations. Based on the software package of CVX in Matlab, we propose an optimization algorithm of variable selection in linear regression model, quantile regression model and composite quantile regression model. The simulation study presents the feasibility and validity of the proposed algorithm.

Key words: CVX; variable selection; teaching

責任編輯 祁秀春

猜你喜歡
教學
微課讓高中數學教學更高效
甘肅教育(2020年14期)2020-09-11 07:57:50
「微寫作」教學實踐的思考
“以讀促寫”在初中寫作教學中的應用
如何讓高中生物教學變得生動有趣
甘肅教育(2020年12期)2020-04-13 06:25:34
談高中音樂欣賞教學中的“聽、看、想、說、動”
“自我診斷表”在高中數學教學中的應用
東方教育(2017年19期)2017-12-05 15:14:48
對外漢語教學中“想”和“要”的比較
唐山文學(2016年2期)2017-01-15 14:03:59
對識譜教學的認識與思考
《可以預約的雪》教學探索與思考
中學語文(2015年6期)2015-03-01 03:51:42
對高等數學教學的一些思考
主站蜘蛛池模板: 亚洲综合天堂网| 亚洲福利片无码最新在线播放| 97精品伊人久久大香线蕉| 国产另类视频| 伊人久久综在合线亚洲2019| 日韩精品资源| 亚洲色图在线观看| 国产亚洲视频在线观看| 亚洲另类国产欧美一区二区| 国产精品亚欧美一区二区三区 | av在线手机播放| 被公侵犯人妻少妇一区二区三区| 亚洲自偷自拍另类小说| 亚洲国产综合精品一区| 亚洲成AV人手机在线观看网站| 91精品伊人久久大香线蕉| 国产h视频在线观看视频| 女人18毛片一级毛片在线 | 青青草一区| 人妻丝袜无码视频| 亚洲国产日韩在线观看| 四虎成人免费毛片| 色视频久久| 一级片免费网站| julia中文字幕久久亚洲| 在线播放精品一区二区啪视频| 国产高清无码麻豆精品| 在线亚洲小视频| 中文字幕亚洲精品2页| 国产一级裸网站| 国产精品毛片一区| 日韩精品高清自在线| 欧美黄色a| 视频一区视频二区日韩专区| 大香网伊人久久综合网2020| 天天综合色网| 91破解版在线亚洲| 久夜色精品国产噜噜| 久久亚洲国产一区二区| 亚洲精品高清视频| 国产乱子伦无码精品小说| 国产91蝌蚪窝| 国产亚洲精品自在久久不卡 | 秋霞国产在线| 久久国产V一级毛多内射| 91视频区| 国产成熟女人性满足视频| 97久久免费视频| 国产一区二区福利| 国产成人精品亚洲77美色| 91精选国产大片| 国产免费羞羞视频| 一边摸一边做爽的视频17国产 | 亚洲日本韩在线观看| av一区二区三区在线观看 | 韩日免费小视频| 亚洲AⅤ永久无码精品毛片| 2021精品国产自在现线看| 激情五月婷婷综合网| 亚洲精品日产AⅤ| 久久国产亚洲偷自| 国产精品污污在线观看网站| 国产美女一级毛片| 国产一区二区三区在线观看视频 | 亚洲区视频在线观看| 亚洲无码视频图片| 久久久久亚洲AV成人网站软件| 国产又粗又爽视频| 国产又爽又黄无遮挡免费观看 | 国产高清毛片| 波多野结衣无码AV在线| 国产男人的天堂| 亚洲一区二区三区中文字幕5566| 日本精品视频| 亚洲一区二区无码视频| 国内精品久久九九国产精品| h视频在线观看网站| 国产人免费人成免费视频| 国产高清国内精品福利| 久久精品亚洲热综合一区二区| 好吊色国产欧美日韩免费观看| 波多野结衣无码视频在线观看|