999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

線性回歸模型中非正態數據的處理

2017-07-18 11:52:49丘甜華偉平李寶銀江希鈿
武夷學院學報 2017年6期
關鍵詞:模型

丘甜,華偉平,李寶銀,江希鈿

(1.武夷學院商學院,福建武夷山354300;2.武夷學院生態與資源工程學院,福建武夷山354300;3.福建江夏學院,福建福州350108;4.福建農林大學林學院,福建福州350002)

線性回歸模型中非正態數據的處理

丘甜1,華偉平2,李寶銀3,江希鈿4

(1.武夷學院商學院,福建武夷山354300;2.武夷學院生態與資源工程學院,福建武夷山354300;3.福建江夏學院,福建福州350108;4.福建農林大學林學院,福建福州350002)

為了對非正態數據進行線性回歸分析,需要對非正態數據的處理方法進行研究。在Box-Cox變換的基礎上改進的雙冪變換是一種有效的處理方法。結合Matlab軟件給出了雙冪變換下線性回歸模型中參數的極大似然估計與最小二乘估計方法,并通過實例研究顯示:雙冪變換使非正態數據服從正態分布,對于異常數據的處理有一定的效果,是數據正態變換的理想工具。

非正態數據;雙冪變換;線性回歸模型;極大似然估計;最小二乘估計

線性回歸模型的因變量假定來源于正態分布的總體。在這一假定前提下,通常的做法是采用極大似然法或最小二乘法給出參數的估計。如果通過隨機抽樣的數據非正態分布,則會使顯著性檢驗程序是無效的,實際上估計出來的參數沒有意義,直接影響回歸分析結果。這意味著,當數據不滿足正態性假定時,可能拒絕實際上好的模型,大大地增加了統計推斷中所犯第一類錯誤的概率。因此,非正態數據的處理是應用線性回歸模型時需要解決的問題。

1 處理非正態數據的常用方法

1.1 Box-Cox變換

在考察可觀測隨機因變量Y和自變量X之間的關系時,經常采用如下正態線性回歸模型[1-2]:

其中β∈Rp為回歸系數,ε為不可觀測隨機誤差向量。易知,模型(1)實際上需要滿足Gauss-Markov條件:Y~Nn(Xβ,σ2In)。針對所獲得的數據,對其進行回歸診斷,若不滿足Gauss-Markov條件,研究者在統計推斷時有可能會增加犯錯誤的概率。常用的處理方式是對數據采取某種“治療”措施,其中,數據變換就是一種常用的處理非正態數據的辦法。至于采取何種變換更為有效,這取決于數據本身的特點,也成為了如今國內外統計學界研究的熱點問題之一。迄今為止,如下由觀測值Y到Y(λ)的Box-Cox變換[3](依賴于未知參數λ):

式(2)是研究得最為透徹的變換。通過參數的選擇,達到對非正態數據的綜合治理。雖然Box-Cox變換具有許多優點,但注意到

這表明Box-Cox變換存在截斷問題,即當λ<0時,Y(λ)在-1/λ處右截斷,而λ>0時,Y(λ)是在-1/λ處左截斷的,只有在λ=0時,Y(λ)取值范圍是(-∞,+∞),從而認為Y經過變換(2)得到的f(Y,λ)是一組正態樣本是不正確的(除了λ=0這種情況)。

1.2 雙冪變換

為了克服Box-Cox變換中的截斷問題,諸多學者進行了研究。目前,Yang[4-5]引入了如下變換。

變換(3)是在Box-Cox變換的基礎上進行修正而得到的一種新變換,被稱為雙冪變換。非正態數據通過雙冪變換后服從以下正態線性回歸模型:

式中:X是已知n×p列滿秩設計陣;ε是不可觀測的n維隨機誤差向量;λ∈(-∞,+∞),β,σ2是未知參數。

對于參數λ∈(-∞,+∞)均有g(Y,-λ)=g(Y,λ)成立,這意味著根據樣本Y=(Y1,…,Yn)T不能唯一確定模型(4)中的參數λ。因此,為了消除這種不確定性,將參數λ限制在區間[0,+∞)內。

2 非正態數據處理下參數的估計

2.1 極大似然估計

由模型(4)可得未知參數λ,β,σ2基于Y=(Y1,…,Yn)T的對數似然函數為:

其中J(Y,λ)表示變量Y(λ)=(Y1(λ),…,Yn(λ))T和Y=(Y1,…,Yn)T之間的變換Jacob行列式,其表達式為:

當λ≥0已知時,由(5)利用熟知的正態線性回歸模型極大似然估計的結果可得知(β,σ2)的極大似然估計分別為:

其中PX=(XTX)-1XT為一正交投影陣。將(7)式代入(5)中可得:

這說明了參數λ∈[0,+∞)的極大似然估計是以下極值問題的解∈[0,+∞),而參數β∈Rp,σ2>0的極大似然估計分別為用Matlab中內嵌的函數fminbnd可方便地算出[6-7]。

2.2 最小二乘估計

最小二乘估計作為另一種參數估計方法,也經常被人們所運用。作為比較,本文同時考慮模型(4)中參數λ,β,σ2的最小二乘估計法。此時,相應的誤差平方和為:

由此及熟知的線性回歸模型最小二乘估計的結果可得已知λ≥0時,β的最小二乘估計為:

3 數值實驗

在實際分析時,常常考慮多個變量,并且這些變量中有一個變量是特別關心的,稱為因變量Y,其他變量作為影響因變量的自變量(考慮三個自變量X1、X2和X3)。為了分析自變量對因變量的影響,按照隨機原則抽取了36個樣本數據,如表1所示。

表1 樣本數據Table 1 Sample data

3.1 非正態數據診斷

數據非正態性診斷[8-10]的常用方法是K-S檢驗。該檢驗的原假設認為總體符合正態分布。在顯著性水平取0.05時,若檢驗的P值小于0.05,則否定原假設,認為總體呈現非正態分布。

通過對因變量Y進行基本統計分析,統計結果(表2)顯示K-S檢驗的P值為0.031,小于0.05,說明數據總體不符合正態分布,并且偏態系數為0.912,表現出一定程度的右偏,這在圖1有更直觀的表現。通過統計軟件SPSS操作,并輸出結果。可以判斷該因變量是非正態數據。因此,在進行回歸分析前必須進行數據正態性處理。

表2 因變量Y的基本統計量Table 2 Basic statistics of dependent variable Y

3.2 數據變換及正態性檢驗

采用雙冪變換對因變量Y進行修正得到Y(λ),用極大似然法估計出變換參數λ^ML為1.128 6,用最小二乘法估計λ^LS為0.883 4。對變換的效果進行正態性檢驗。通過軟件SPSS進行基本統計分析,得到變換后的偏度系數及K-S檢驗結果(表3),發現右偏程度有所減少,且變換值能順利通過K-S檢驗。

表3 原數據的雙冪變換及正態分布檢驗結果Table 3 The results of the dual power transformation and normal distribution of the original data

為更直觀的反映雙冪變換下兩種估計的正態效果,給出變換后的與的正態Q-Q圖,同變換前進行比較,見圖2。

3.3 雙冪變換后線性回歸分析

由于線性回歸分析[11]的思路是一致的,目的在于考察變量之間的數量關系,并通過一定的數學表達式即回歸方程將關系描述出來,進而確定自變量對因變量的影響程度。以通過極大似然估計下雙冪變換后線性回歸分析為例。以Y()為因變量,X1、X2和X3為自變量進行多元線性回歸分析,具體結果見表4、表5。

圖2 原數據與雙冪變換后數據Q-Q圖比較Figure 2 Comparison of the original data and the dual power transformation data Q-Q

表4 方差分析Table 4 Variance analysis

從表4中得到,模型復相關系數達到0.998,而決定系數為0.996,取得了較好的擬合優度。檢驗回歸方程的P值為0,小于顯著性水平0.05,通過了回歸方程的顯著性檢驗,即所得到的回歸方程有統計學意義。

標準回歸系數的絕對值反映了影響因變量的程度,絕對值越大,則有越大的控制。由表5可看出影響程度從大到小依次為X3、X2、X1。回歸方程為:

表5 參數估計Table 5 Parameter estimation

回歸系數的顯著性檢驗是要檢驗自變量對因變量的影響是否顯著。由表5可知,在顯著性水平為0.05時,三個自變量X1、X2、X3的回歸系數顯著性水平t檢驗的P值都小于0.05,所以拒絕原假設,即認為這些回歸系數和0有顯著差異。

4 小結

當搜集回來的樣本數據不滿足正態分布時,用線性回歸模型分析所得到的結論是不準確的。因此,需要進行非正態數據的正態變換。目前,Box-Cox變換是一種研究的最為透徹的方法之一,但存在截斷問題。而雙冪變換能夠克服截斷問題。結合Matlab軟件給出了雙冪變換下線性回歸模型中參數的極大似然估計與最小二乘估計的求法。在實例分析中,采用統計軟件SPSS對數據診斷其正態性后,用雙冪變換對該數據進行正態變換,結果表明雙冪變換具有較強的正態變換能力,是非正態數據正態變換的理想工具。

[1]王桂松,史建紅.線性模型引論[M].北京:科學出版社,2004:175-178.

[2]王松桂.線性統計模型:線性回歸與方差分析[M].北京:高等教育出版社,1999:1-20.

[3]BOX G E P,COX D R.An analysis of transformation[J].Journal of the Royal Statistical Society B,2012(26):211-252.

[4]YANG Z L.A modified family of power transformations[J].Economics Letters,2006,92(1):14-19.

[5]YANG Z L,Anthony F.Inference for general parametric functions in Box-Cox-type transformation models[J].Canadian Journal of Statistics,2008,36(2):301-319.

[6]張學敏.Matlab基礎及應用[M].北京:中國電力出版社,2009:201-205.

[7]趙芳芳,賈翔宇,許作良.CIR模型參數校準的極大似然法[J].統計與信息論壇,2015(9):3-7.

[8]李曉暉,袁峰,白曉宇,等.典型礦區非正態分布土壤元素數據的正態變換方法對比研究[J].地理與地理信息科學,2010(6):102-105.

[9]莊泓剛.基于非正態分布的動態金融波動性模型研究[D].天津:天津大學,2009.

[10]焦璨,張敏強,黃慶均,等.非正態分布測量數據對克隆巴赫信度α系數的影響[J].應用心理學,2008(3):276-281.

[11]劉兆君.伴隨置信度的線性回歸模型[J].統計與信息論壇,2015(7):3-7.

(責任編輯:葉麗娜)

Processing of Non-normal Data in Linear Regression M odel

QIU Tian1,HUAWeiping2,LIBaoyin3,JIANG Xidian4
(1.School of Business,Wuyi University,Wuyishan,Fujian 354300;2.School of Ecology Resource Engineering,Wuyi University,Wuyishan,Fujian 354300;3.Fujian Jiangxia University,Fuzhou,Fujian 350108;4.School of Forestry,Fujian Agriculture and Forestry University,Fuzhou,Fujian 350002)

In order tomake a linear regression analysis on the non-normal data,it is necessary to study the non-normal data processingmethod.Based on the Box-Cox transform,the improved dual power transformation is an effectivemethod.Themaximum likelihood estimation and least square estimation of the parameters in the linear regression model are given by the Matlab software.The case studies show that the non-normal data is subject to normal distribution with the dual power transformation,which has a certain effect on the processing of abnormal data and is an ideal tool for the normal transformation of data.

non-normal data;dual power transformation;linear regressionmodel;maximum likelihood estimate;least squares estimation

O212

A

:1674-2109(2017)06-0053-05

2017-02-16

南平市科技計劃項目(N2014Z01);校科研項目(XLZ201401,XL201512S);福建省生態產業綠色技術重點實驗資助項目(WYKF2017-8)。

丘甜(1988-),女,漢族,助教,主要從事空間計量模型的統計推斷研究。

江希鈿(1958-),男,漢族,教授,主要從事生物數學建模研究。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产噜噜噜| 99国产精品国产高清一区二区| 99激情网| 亚洲国产中文精品va在线播放| 亚洲无码视频一区二区三区| 久久亚洲中文字幕精品一区| 亚洲最黄视频| 99热线精品大全在线观看| 极品尤物av美乳在线观看| 亚洲一区二区约美女探花| 一级毛片免费观看不卡视频| 成人国产免费| 免费在线国产一区二区三区精品| 久久久久久高潮白浆| 欧美精品xx| 黄色福利在线| 精品久久久久无码| 国产美女主播一级成人毛片| 1级黄色毛片| 美女高潮全身流白浆福利区| 热热久久狠狠偷偷色男同| 国产91高清视频| 国产国拍精品视频免费看| 少妇精品久久久一区二区三区| www.91在线播放| 国产女人在线视频| 国产精品人人做人人爽人人添| 99久久国产精品无码| 亚洲床戏一区| 亚洲日本韩在线观看| 国产91麻豆视频| 一本久道久久综合多人| 18禁不卡免费网站| 午夜精品福利影院| 精品国产一区91在线| 91蝌蚪视频在线观看| 日本人又色又爽的视频| 欧美精品成人| 久久人搡人人玩人妻精品一| 国产精品任我爽爆在线播放6080| 欧美成在线视频| 久久久久国产精品嫩草影院| 国产欧美精品专区一区二区| 亚洲国产亚综合在线区| 97亚洲色综久久精品| 香蕉久久国产精品免| 一级成人a毛片免费播放| 亚洲中文字幕无码爆乳| 亚洲综合在线网| 国产精品第一区在线观看| 激情无码视频在线看| 久久永久视频| 亚洲精品图区| 国产69囗曝护士吞精在线视频| 午夜视频免费一区二区在线看| 日韩高清中文字幕| 欧美日本一区二区三区免费| 日韩不卡免费视频| 国产精品成人一区二区| 又黄又爽视频好爽视频| 免费人成又黄又爽的视频网站| 九九热免费在线视频| 热99精品视频| 国产精品夜夜嗨视频免费视频| 欧美一区二区精品久久久| 人人妻人人澡人人爽欧美一区| 97se亚洲综合在线天天| 国产精品视频久| 国产一级α片| 青青久视频| 国产精品v欧美| 91精品啪在线观看国产| 国产亚洲精品va在线| 精品福利视频导航| 国产福利免费在线观看| 久久人搡人人玩人妻精品| 中文字幕无码电影| 91视频日本| 高h视频在线| 亚洲AV无码一区二区三区牲色| 亚洲欧美日韩动漫| 亚洲人网站|