潘麗靜
(1.渭南師范學院 數學系;2.渭南師范學院 統計科學與社會計算研究所,陜西 渭南 714000)
基于Matlab語言的統計數據異常值檢驗
潘麗靜
(1.渭南師范學院 數學系;2.渭南師范學院 統計科學與社會計算研究所,陜西 渭南 714000)
從回歸模型診斷的角度對統計數據中的異常值進行探測與分析,并基于Matlab語言,結合具體實例,給出回歸診斷在統計數據異常值探測中的應用.
回歸診斷;異常值;Matlab
評估統計數據的準確性是統計學研究的一個重要課題,在實際統計工作中遇到的數據常會出現下面的兩種情況:一是單個變量的值過大或過小,明顯偏離該變量大多數觀測值;二是單個變量值雖未表現出異常,但卻不符合變量間的結構和相關性,明顯擾亂這種相關關系,我們稱這種觀測值為異常值[1].異常值是影響統計數據質量的一個非常重要的因素,因此如何發現和處理這些異常數據十分重要,文獻[1-5]對統計數據質量的概念及統計數據質量評估的方法進行了討論,本文利用Matlab軟件采用殘差分析的方法對統計數據中的異常值進行了檢驗.
設線性回歸模型為:Y=Xβ+ε,其中Y是由響應變量構成的n維向量,n×(p+1)階設計矩陣,β是p+1維向量,ε是n維誤差向量.

通過對殘差和殘差的置信區間進行分析,可以看出原始數據中是否存在異常點,若殘差的置信區間不包括0點,可認為該組觀測為異常點.
(1)調用regress函數作一元線性回歸[b,bint,r,rint,s]=regeess(y,xdsta);返回系數的估計值、殘差的估計值及估計值的95%置信區間、判定系數、F統計量的觀測值和檢驗的p值.
(2)調用rcoplpt(r,rint)按順序畫出各組觀測數據對應的殘差和殘差的置信區間.
分析2010年全國31個主要城市的年平均氣溫與全年日照時數的關系,并分析異常值點.數據來源于中華人民共和國國家統計局網站2010年資源和環境統計數據.
經初步分析,可以建立以年平均氣溫為自變量,全年日照時數為因變量的一元線性回歸模型,且該模型通過F檢驗,由程序輸出結果知,常數項和回歸系數項的估計值分別為3.138×103和-72.5957,從而得線性回歸方程為Y贊=3031.8-72.5957x,回歸系數的估計區間為[-102.1742,-43.0173].
其原始數據散點與回歸直線圖,原始數據殘差及置信區間圖和剔除異常值后的回歸直線圖如下:

圖1

圖2

圖3
圖1是原始散點及回歸直線圖,從圖形上看,第22、23、24和26號樣本點明顯偏離其他樣本點;圖2是原始數據殘差及置信區間圖,從圖形上看,有三個樣本點的殘差置信區間不包含0點,它們對應得觀測序號分別23、24和26,可認為這三組觀測數據為異常數據,這和從散點圖上直接觀察的結果基本吻合.它們分別是成都(17.0,689.0),貴陽(14.6,1021.5)和拉薩(10.0,3134.2),這可能是受到它們所處地理位置的影響;圖3是原始數據散點、原始數據對應的回歸直線和剔除異常數據后的回歸直線,由于受異常數據影響,兩次回歸結果并不相同.
〔1〕趙慧,甘仲惟,肖明.多變量統計數據中異常值檢驗方法的探討[J].華中師范大學學報,2003,37(2):133-137.
〔2〕王懷亮.回歸診斷在統計數據異常值探測中的應用[J].黑龍江對外經貿,2011(2):118-119.
〔3〕盧二坡,黃炳藝.基于穩健MM估計的統計數據質量評估方法[J].統計研究,2010,27(12):16-22.
〔4〕劉洪,黃燕.我國統計數據質量的評估方法研究-趨勢模擬評估法及其應用 [J].統計研究,2007,24(8).
〔5〕許永洪.統計數據質量的基本概念與數據質量評估的基本模型[J].商業經濟與管理,2010(12).
〔6〕李海濤,鄧櫻.MATLAB 程序設計教程[M].北京:高等教育出版社,2007.9.
O212.3
A
1673-260X(2012)11-0005-02
國家統計局項目(2011LY030),渭南市科技計劃項目(2011YKJ-2)