999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

線性回歸分析的幾種統計軟件實現

2017-12-01 08:39:23韋新星盧玉桂
河池學院學報 2017年5期
關鍵詞:分析模型

韋新星 盧玉桂

(河池學院 數學與統計學院,廣西 宜州 546300)

線性回歸分析的幾種統計軟件實現

韋新星 盧玉桂

(河池學院數學與統計學院,廣西宜州546300)

線性回歸分析是一種應用極為廣泛的數據分析方法,如何更好地對其進行軟件實現一直是人們關心的問題。針對線性回歸分析的軟件實現問題,將幾種常見的統計軟件進行對比分析,得出Excel,SPSS和R等統計軟件在處理線性回歸分析時的優劣,進而為實際案例的正確建模和檢驗提供可能性。

線性回歸分析;Excel;SPSS;R;建模

0 引言

“回歸”一詞是英國統計學家F.Galton在研究父親身高及其成年兒子身高的關系時提出的[1]226-236。回歸分析一經提出,便被廣泛應用于各個領域。運用該方法,人們可以分析事物之間的統計關系,考察變量之間的數量變化規律。此外,通過回歸方程的建立,人們還可以確定一個或多個變量對某個特定變量的影響程度,進而為預測提供科學依據。

然而,在回歸方程的建立過程中,諸如回歸系數的估計和回歸方程的檢驗等問題,涉及到的計算量和計算難度都較大,按照公式進行傳統的計算實屬下策。為此,不少學者就回歸分析的實現問題進行了研究。易芳[2]在研究透視電壓與透視件厚度的關系時,通過MATLAB語言編程,實現了這一實例的線性回歸分析。董鳳鳴等[3],通過研究餐飲連鎖店銷售額與店鋪附近地區大學生人數之間的關系,介紹了Excel在一元線性回歸中的應用。皇甫偉[4]通過建立英語成績分析模型,介紹了SPSS在多元線性回歸中的應用。張宇山[5]從考慮共線性的角度出發,通過研究產品密度的影響因素,介紹了SAS編程在多元線性回歸中的應用。綜合分析前人的研究,不難發現在線性回歸分析時,大多數文獻都只是進行了單一的軟件實現研究,且不同的實例所使用的統計軟件還不盡相同。那么,在實現線性回歸分析時,不同統計軟件之間有何差別?又如何進行統計軟件的選擇呢?

本文在前人研究的基礎上,針對線性回歸分析的軟件實現問題,將幾種常見的統計軟件進行對比分析,以便得出不同軟件在處理線性回歸分析時的優劣,為實際案例的正確建模和檢驗提供可能性。

1 線性回歸分析概述

線性回歸模型的一般形式為:

y=β0+β1x1+β2x2+…+βpxp+ε

(1)

其中,y為因變量,x1,x2,…,xp為p個自變量,ε為隨機因素,ε~N(0,σ2),而β0,β1,β2,…,βp為待估參數。當p=1時,式(1)為一元線性回歸模型,而當pgt;1時,式(1)則為多元線性回歸模型,因此可以說,一元線性回歸是多元線性回歸的特例。

對式(1)兩邊取期望,則有:

E(y)=β0+β1x1+β2x2+…+βpxp

(2)

回歸方程建立后,需要進行各種統計檢驗,常見的有回歸方程的擬合優度檢驗、回歸方程的顯著性檢驗、回歸系數的顯著性檢驗[1]226-236。

回歸方程的擬合優度檢驗采用R2統計量。R2越接近1,表明回歸方程的擬合優度越高;R2越接近0,則表示回歸方程的擬合優度越低。

回歸方程的顯著性檢驗采用F統計量。在給定的顯著性水平下,若F統計量大于臨界值,或檢驗統計量的P值小于顯著性水平,則拒絕原假設,表明回歸方程的整體效果是顯著的;反之回歸方程的整體效果不顯著。

回歸系數的顯著性檢驗采用t統計量。在給定的顯著性水平下,若t統計量大于臨界值,或檢驗統計量的P值小于顯著性水平,則拒絕原假設,表明回歸系數對因變量有顯著影響;反之回歸系數對因變量無顯著影響。

2 線性回歸分析的幾種統計軟件實現比較

本節將從一元和多元的情形出發,分別運用統計軟件Excel,SPSS,R對不同情形下的同一案例進行軟件實現,通過對比分析,找出各軟件在處理線性回歸分析時的優劣,以便為實際問題的正確建模和檢驗預測提供條件。

2.1 一元線性回歸情形

該案例采用美國60個商學院的數據,數據來源于文獻[6]108-114,包括4個變量,分別是拿到MBA后的工資y、讀MBA前的工資x1、學費x2及GMAT分數x3。現運用一元線性回歸分析進行數據處理,以探究拿到MBA后的工資y與讀MBA前的工資x1之間的關系。

2.1.1 Excel的一元線性回歸分析

運用Excel2010進行一元線性回歸分析的操作步驟為:

選擇“數據”→“數據分析”(若沒有該選項,則通過“文件”→“選項”→“加載項”進行加載),在彈出的“數據分析”對話框中,選擇“回歸”,然后確定。

接下來,在彈出的“回歸”選項框中進行選擇。其中輸入選項:在“Y值輸入區域”選擇A1∶ A61,“X值輸入區域”選擇B1∶ B61,在“標志”和“置信度”復選框中均打鉤,而“常數為零”復選框不打鉤(也可在“Y值輸入區域”選擇A2∶ A61,“X值輸入區域”選擇B2∶ B61,但此時只需在“置信度”復選框中打鉤即可,同樣的,“常數為零”復選框不打鉤)。輸出選項:可在“輸出區域”“新工作表組”和“新工作簿”單選框中任選其一。而剩余的殘差選項和正態分布選項,則根據實際需要進行選擇即可。最后選擇“確定”。

得到的結果如下:首先在模型建立方面,回歸方程為y=-11.403+20 829x1,表明讀MBA前的工資x1與拿到MBA后的工資y是呈正相關的,且x1每變動一個單位所引起的因變量y的平均變動為2.829千美元。其次在模型檢驗方面,所得模型的判定系數R2為0.854,表明回歸方程的擬合優度較高;此外,若給定的顯著性水平α取0.05,則由回歸分析的Sig.值為0lt;0.05有:拒絕原假設,即回歸方程的整體效果是顯著的;另一方面,x1的Sig.值小于0.05,拒絕原假設,認為系數x1對因變量的影響是顯著的。

2.1.2 SPSS的一元線性回歸分析

運用SPSS22.0進行一元線性回歸分析的操作步驟為:

先將Excel文件導入SPSS中(選擇“文件”→“打開”→“數據”,在“文件類型”下拉列中選擇Excel,再在“查找范圍”中找到所需導入的數據的位置,最后點擊“打開”和“確定”即可),然后選擇“分析”→“回歸”→“線性”。

接下來,在彈出的“線性回歸”窗口中進行選擇。將拿到MBA后的工資y選入“因變量”框中,將讀MBA前的工資x1選入“自變量”框中,在“方法”框中可根據實際需要選擇不同的變量篩選策略,最后確定。具體結果如下:

表1 模型匯總

模型RR2調整R2標準估計的誤差109240854085210097

表2 顯著性檢驗結果

模型平方和df均方FSig.1回歸346483241346483243398270000殘差591360958101959總計4056193359

表3 模型系數

模型非標準化系數標準系數B標準誤差試用版tSig.1常數-114036839-16670101282901530924184340000

可以看到,回歸方程仍為y=-11.403+2.829x1,R2仍為0.854,表明運用SPSS進行一元線性回歸時輸出的結果不僅在重要指標參數上和Excel相同,而且比Excel更詳細些;另外,值得一提的是,采用SPSS,可通過“保存”選項,得到因變量的預測值,而Excel卻不能。

2.1.3 R的一元線性回歸分析

運用R進行一元線性回歸分析的操作步驟為[7]:

先將Excel文件另存為逗號分隔符文件(csv格式)或文本文件(txt格式),然后分別用read.csv()或read.table()方法進行讀取。在這里,我們以另存為到桌面的txt格式為例。注意:在R語句的編寫中,所有代碼中的標點符號都用半角格式書寫,且區分大小寫。

接下來,輸入以下R語句:

a=read.table(“C:/Users/Administrator/Desktop/線性回歸分析的幾種統計軟件實現.txt”,header=T)

b=lm(拿到MBA后的工資~讀MBA前的工資,a)

summary(b)

輸出結果如下:

Call:

lm(formula = 拿到MBA后的工資 ~ 讀MBA前的工資,data = a)

Residuals:

Min 1Q Median 3Q Max

-32.877 -5.952 -0.087 6.802 23.636

Coefficients:

Estimate Std.Error t value Pr(gt;|t|)

(Intercept) -11.402 6 6.839 4 -1.667 0.101

讀MBA前的工資 2.829 0 0.153 5 18.434 lt;2e-16 ***

——

Signif. codes:0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Multiple R-squared:0.854 2,Adjusted R-squared:0.851 7

F-statistic:339.8 on 1 and 58 DF,p-value:lt; 2.2e-16

可以看到,回歸方程仍為y=-11.403+2.829x1,R2仍為0.854,表明運用R進行一元線性回歸時輸出的結果在重要指標參數上跟Excel和SPSS相同,R不僅保留了SPSS更詳細的優點,而且操作比Excel和SPSS都更簡便。

2.2 多元線性回歸情形

本節采用相同的案例進行統計軟件的對比。現探究拿到MBA后的工資y與讀MBA前的工資x1、學費x2及GMAT分數x3之間的關系。

其中,運用Excel2010進行多元線性回歸分析的操作步驟和一元的情況相似,只是在選擇“X值輸入區域”時,把x1,x2及x3的數據都選入。但輸出結果中,學費x2和GMAT分數x3的Sig.值均大于0.05,表明這兩個自變量對因變量的影響是不顯著的,此輸出結果有待進一步改進,可Excel無法解決此問題。

運用SPSS進行多元線性回歸分析的操作步驟和一元的情況也相似,在“自變量”框的選擇中,將變量x1,x2及x3都選入。而與Excel相比,SPSS可在得知某些系數不顯著時進行改進,只需在“方法”框中根據實際需要從下拉列中選擇即可。以逐步回歸為例,SPSS將影響很不顯著的GMAT分數x3和不是很顯著的學費x2都剔除掉了,自變量由3個變成了1個,而且此時的輸出結果和一元回歸時的表1、表2以及表3一模一樣。這說明SPSS的改進結果仍有較大缺陷。

運用R進行多元線性回歸分析,只需在R軟件里輸入以下語句:

a=read.table(“C:/Users/Administrator/Desktop/線性回歸分析的幾種統計軟件實現.txt”,header=T)

b=lm(拿到MBA后的工資~讀MBA前的工資+學費+GMAT分數,a)

summary(b)

輸出結果為:

Call:

lm(formula = 拿到MBA后的工資 ~ 讀MBA前的工資 + 學費 + GMAT分數,data = a)

Residuals:

Min 1Q Median 3Q Max

-32.758 -6.345 -0.324 7.155 22.450

Coefficients:

Estimate Std. Error t value Pr(gt;|t|)

(Intercept) -25.374 9 32.911 4 -0.771 0.443 9

讀MBA前的工資 2.381 2 0.323 5 7.362 8.73e-10 ***

學費 0.257 6 0.140 9 1.828 0.072 8.

GMAT分數 0.028 2 0.063 5 0.444 0.658 6

——

Signif. codes:0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Multiple R-squared:0.863 1,Adjusted R-squared:0.855 7

F-statistic:117.6 on 3 and 56 DF,p-value:lt; 2.2e-16

可以看到,沒改進前R所得的回歸方程為y=-25.374 9+2.381 2x1+0.257 6x2+0.028 2x3,但學費x2的Sig.值為0.072 8,比0.05稍大,而GMAT分數x3的Sig.值為0.658 6,明顯大于0.05,這表明學費x2不是很顯著,并且GMAT分數x3很不顯著。為此,上述所得的回歸方程是與實際不符的,應進行模型改進。

而相比前兩種軟件,運用R軟件進行模型改進,不僅改進結果較好且操作簡便,只需在R軟件里輸入以下語句:

a=read.table(“C:/Users/Administrator/Desktop/線性回歸分析的幾種統計軟件實現.txt”,header=T)

b=lm(拿到MBA后的工資~讀MBA前的工資+學費+GMAT分數,a)

c=step(b)

summary(c)

改進的輸出結果為:

Call:

lm(formula = 拿到MBA后的工資 ~ 讀MBA前的工資 + 學費,data = a)

Residuals:

Min 1Q Median 3Q Max

-32.902 -6.406 -0.230 6.754 22.848

Coefficients:

Estimate Std. Error t value Pr(gt;|t|)

(Intercept) -11.065 7 6.700 6 -1.651 0.104 1

讀MBA前的工資 2.475 7 0.241 9 10.233 1.61e-14 ***

學費 0.260 4 0.139 7 1.863 0.067 6.

——

Signif. codes:0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Multiple R-squared:0.862 6,Adjusted R-squared:0.857 8

F-statistic:178.9 on 2 and 57 DF,p-value:lt; 2.2e-16

可以看到在上述改進的輸出結果中,學費x2的Sig.值為0.067 6,相比之前的0.072 8已有較大改進,故雖然仍比0.05稍大,但可選入模型;另一方面,在改進輸出中并沒有GMAT分數x3的信息,表明GMAT分數x3沒有被選入模型,即對于有爭議的x2和x3,R只剔除了很不顯著的GMAT分數x3,而保留了讀MBA前的工資x1和學費x2,改進的回歸方程為:

y=-11.065 7+2.475 7x1+0.260 4x2

綜上,與SPSS的改進結果相比,R的改進結果與實際更相符。

3 結論

本文采用相同的案例對線性回歸的軟件實現進行對比分析。從一元和多元的情形出發,分別運用統計軟件Excel,SPSS,R對不同情形下的同一案例進行處理,通過對比分析,得出在準確度方面:處理一元回歸時,三種軟件的結果相同,但SPSS和R的輸出較詳細些,還可通過簡單操作進行預測;處理多元回歸時,R可進行模型改進,準確度最高。在操作方面:3種軟件的操作都較簡便,其中Excel和SPSS直觀易用,而R的操作雖然更簡便,但需要有一定的R語句編寫基礎。

[1]薛薇.統計分析與SPSS的應用[M].北京:中國人民大學出版社,2014.

[2]易芳.采用MATLAB的線性回歸分析[J].兵工自動化,2004(1):68-69.

[3]董鳳鳴,周萍.EXCEL在一元線性回歸分析中的應用[J].科技信息(科學教研),2007(12):144-146.

[4]皇甫偉.SPSS相關分析與線性回歸分析在英語考試成績分析中的應用[J].中國電力教育,2007(10):52-53.

[5]張宇山.多元線性回歸分析的實例研究[J].科技信息,2009(9):54-56.

[6]吳喜之.統計學:從數據到結論[M].北京:中國統計出版社,2013.

[7]楊姍姍,王松會,宋東東.基于回歸分析的研究及R語言實現[J].電子科技,2015,28(10):186-188.

2017-09-01

[責任編輯姚勝勛]

SeveralStatisticalSoftwareImplementationoftheLinearRegressionAnalysis

WEIXinxing,LUYugui

(SchoolofMathematicsandStatistics,HechiUniversity,Yizhou,Guangxi546300,China)

The linear regression analysis is a widely used method of data analysis,and how to carry out the software implementation better has been the concern of people. This article analyses the several statistical software according to the software implementation problem of the linear regression analysis,then the advantages and disadvantages of Excel,SPSS and R statistical software in dealing with the linear regression analysis are obtained;furthermore,it provides the possibility for the correct modeling and testing of actual cases.

linear regression analysis;Excel;SPSS;R;modeling

O212.4

A

1672-9021(2017)05-00064-06

韋新星(1990-),女,廣西柳州人,河池學院數學與統計學院助教,碩士,主要研究方向:應用統計。

廣西高校中青年教師基礎能力提升項目(KY2016LX279);河池學院碩士專業學位建設基金課題(2016YT004);廣西大學生創新創業訓練計劃項目(201610605054)。

猜你喜歡
分析模型
一半模型
隱蔽失效適航要求符合性驗證分析
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
中西醫結合治療抑郁癥100例分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 99久久精品无码专区免费| 日韩专区欧美| 亚洲香蕉在线| 日本久久久久久免费网络| 小说区 亚洲 自拍 另类| 欧美自慰一级看片免费| 片在线无码观看| 亚洲国产在一区二区三区| 手机精品福利在线观看| 香蕉国产精品视频| 国产成人免费视频精品一区二区| 亚洲国产系列| 亚洲成a人片| 高清欧美性猛交XXXX黑人猛交 | 国产精品成人不卡在线观看 | 97超级碰碰碰碰精品| 成人一级黄色毛片| 久热精品免费| 久久9966精品国产免费| 国产精品欧美亚洲韩国日本不卡| 99久久精品国产精品亚洲 | 国产欧美视频在线| 国产啪在线| 精品欧美一区二区三区久久久| 久热中文字幕在线观看| 99久久精品免费看国产免费软件| 日韩黄色大片免费看| 欧美亚洲日韩中文| 国产精品极品美女自在线看免费一区二区| 欧美日韩国产精品va| 免费久久一级欧美特大黄| 国产精品尹人在线观看| 91精品国产自产在线观看| 伊人大杳蕉中文无码| 夜夜操狠狠操| 91色爱欧美精品www| 丁香五月亚洲综合在线 | 在线观看欧美国产| 亚洲精品卡2卡3卡4卡5卡区| 亚洲人成日本在线观看| www.99在线观看| 九九免费观看全部免费视频| 日本亚洲最大的色成网站www| 一边摸一边做爽的视频17国产| 四虎永久免费网站| 亚洲天堂.com| 美臀人妻中出中文字幕在线| jizz在线免费播放| 免费精品一区二区h| 亚洲全网成人资源在线观看| 在线播放精品一区二区啪视频| 免费一级成人毛片| jizz国产视频| 2021天堂在线亚洲精品专区| 成人国产精品网站在线看| 亚洲国产高清精品线久久| 亚洲成人www| 无码日韩精品91超碰| 婷婷五月在线视频| 国产福利大秀91| 欧美日韩午夜视频在线观看| 日韩中文精品亚洲第三区| 国产精品人成在线播放| 99久久无色码中文字幕| 亚洲熟女中文字幕男人总站| 欧美高清国产| 国产福利小视频在线播放观看| 国产乱子伦无码精品小说| 最新日本中文字幕| 国产在线观看一区二区三区| 成人无码一区二区三区视频在线观看| 欧洲高清无码在线| 19国产精品麻豆免费观看| 日本在线视频免费| 国产小视频a在线观看| 人妻21p大胆| 国产理论一区| 国产成人精品一区二区三在线观看| 国产精品视频导航| 六月婷婷激情综合| 亚洲精品午夜无码电影网| 久久久久久久97|