【摘 要】采用最小二乘法配置回歸直線,把非線性擬合參數問題加以線性化,進行參數估算,得到回歸直線實際應用的數學模型,進行了誤差分析,并給出了應用的實例。
【關鍵詞】直線回歸;回歸方程;方差分析
0.引言
“回歸”是個借用已久因而相沿成習的名稱。若某一變量Y隨另一變量X的變動而變動,則稱X為自變量,Y為因變量。這種關系在數學上被稱為Y是X的函數,但在其他領域里,自變量與因變量的關系和數學上的函數關系有所不同。例如成年人年齡和血壓的關系,通過大量調查,看出平均收縮壓隨年齡的增長而增高,并且呈直線趨勢,但各點并非恰好都在直線上。為強調這一區別,統計上稱這是血壓在年齡上的回歸。
直線回歸(linear regression)是用直線回歸方程表示兩個數量變量間依存關系的統計分析方法,屬雙變量分析的范疇。如果某一個變量隨著另一個變量的變化而變化,并且它們的變化在直角坐標系中呈直線趨勢,就可以用一個直線方程來定量地描述它們之間的數量依存關系,這就是直線回歸分析。回歸分析的方法在園藝植物、醫學領域等的生產和科學研究中有著廣泛的應用,如利用溫度或雨量的變化,預測某種園藝植物的主要物侯期 ( 萌芽、開花 ) 、產量、品質以及病蟲害發生;應用實生苗的某些性狀,預測成年樹的某些性狀等。
直線回歸分析中兩個變量的地位不同,其中一個變量是依賴另一個變量而變化的,因此分別稱為因變量(dependent variable)和自變量(independent variable),習慣上分別用y和x來表示。其中x可以是規律變化的或人為選定的一些數值(非隨機變量),也可以是隨機變量,前者稱為I型回歸,后者稱為II型回歸。
1.直線回歸方程式
將x與y兩個變數的n對觀察值(x,y),(x,y)...(x,y)分別以坐標點的形式標記于同一直角坐標平面上,作成散點圖,如果這兩個變數的 n 對觀察值在散點圖上呈線性,則說明兩變數間的數量關系可用直線回歸方程來表示。在解析幾何上,表示一個平面上的任何直線方程的一般形式為:
=a+bx (1)
上式稱為“y依x的直線回歸方程”,x是自變量;a是x=0時y的值,也是回歸直線在y軸上的截距,叫做回歸截距(intercept);b 是回歸系數(coefficient of regression),表示x每增加一個單位,y平均將要增加 (b>0)或減少(b<0)的單位數。
要使(1)式成為實際資料的最佳線性配合,并滿足預測要求,必須使觀測值yi與回歸值偏離達到最小。當變量x取x(i=1,2,···,n)時,可以得到=bx+a(i=1,2,···,n)。它與實際收集到的yi之間的偏差是y-=y-(bx+a)(i=1,2,···,n)。
這樣,用這n個偏差的和來刻畫“各點與此直線的整體偏差”是比較合適的。由于(y-)可正可負,為了避免相互抵消,可以考慮用
y
-代替,但由于它含有絕對值,運算不太方便,所以改用Q=(y-a-bx)···(2)來刻畫n個點與回歸直線在整體上的偏差。
這樣問題就歸結為:當a,b取什么值時Q最小,即總體偏差最小。為此分別求Q關于a,b的偏導數,并令他們等于零:
Q(a,b)=
(y-a-bxi)(-2)=0
Q(a,b)=
(y
-a-bxi)(-2x)=0
解得
=
=
-b,其中=x,=y.
此時回歸直線為=+x。
通過求(2)式的最小值而得回歸直線的方法,即求回歸直線,使得樣本數據的點到它的距離的平方和最小,這一方法叫做最小二乘法。該方程是實際資料的線性最佳配合。
2.直線回歸方程式的計算
例1、測得某地10對父子身高(單位:英寸)如下:
表1
如果x與y之間具有線性相關關系,求回歸直線方程;如果父親的身高為78英寸,試估計兒子的身高。
分析:對于兩個變量,在確定具有線性相關關系后,可以利用“最小二乘法”來求回歸方程。用“最小二乘法”求回歸直線方程的關鍵在于正確地利用回歸方程中系數公式求出系數,這樣回歸方程也就建立起來了。
首先根據實際觀測值計算出下列數據:
=∑x/n=668/10=66.8,=∑y/n=670.1/10=67.01
L=∑x-(∑x)/n=44794-(668)/10=171.6
L=∑xy-=44842.4-=79.72
L=∑y-(∑y)/n=44941.93-(670.1)/10=38.529
b===0.465
a=-b=67.01-0.465×66.8=35.948
=35.948+0.465x
所以當父親的身高為78英寸時,估計兒子的身高約為72.2138英寸。
評注:“最小二乘法”是求回歸直線方程常用的方法,在回歸直線方程中,a,b是回歸直線方程中的系數,其中b是回歸直線的斜率,表示自變量變化1個單位時因變量的平均變化值。
例2、某醫生研究兒童體重與心臟橫徑的關系,測得13名8歲正常男童的體重與心臟橫徑,數據見表。試作回歸分析。
(1)以體重作為自變量,心臟橫徑作為因變量,作散點圖,發現呈直線趨勢,可擬合直線回歸方程。在作回歸直線圖時,以x變數為橫坐標,y變數為縱坐標,并標明名稱和單位。若不是以零起始的,要在近原點處劃一折斷號。劃出直線圖后,應將實際觀察各點標明在圖上,且將回歸方程以及相關系數(或決定系數)分別標于直線的上方或下方。同時應注意,繪制的回歸直線兩端不要超出x變數的取值范圍。
表2 13名8歲健康男童體重與心臟橫徑的關系
(2)求回歸方程:本例n=13, (下轉第92頁)
(上接第58頁)∑x=301.5,∑x=7072.75,∑y=116.3,
∑y=1044.63,=23.19,=8.95,∑xy=2713.65,
L=∑x-(∑x)/n=7072.75-301.5/13=80.2692,
L=∑y-(∑y)/n=1044.63-116.3/13=4.1923,
L=∑xy-(∑x)(∑y)/n=2713.65-301.5*116.3/13=16.3846,
∴b===0.2041,a=-b=8.95-0.2041*23.19=4.2121,
∵回歸方程式為=4.2121+0.2041x。
根據直線回歸方程可作出回歸直線,并不是所有的散點都恰好落在回歸直線上,這說明用去估計y是有偏差的。
3.應用直線回歸的注意事項
(1)作回歸分析要有實際意義,不能把毫無關聯的兩種現象,隨意進行回歸分析,忽視事物現象間的內在聯系和規律;如對兒童身高與小樹的生長數據進行回歸分析既無道理也無用途。
(2)直線回歸分析的資料,一般要求應變量Y是來自正態總體的隨機變量,自變量X可以是正態隨機變量,也可以是精確測量和嚴密控制的值。若稍偏離要求時,一般對回歸方程中參數的估計影響不大,但可能影響到標準差的估計,也會影響假設檢驗時P值的真實性。
(3)進行回歸分析時,應先繪制散點圖(scatter plot)。若提示有直線趨勢存在時,可作直線回歸分析;若提示無明顯線性趨勢,則應根據散點分布類型,選擇合適的曲線模型(curvilinear modal),經數據變換后,化為線性回歸來解決。
(4)繪制散點圖后,若出現一些特大特小的離群值(異常點),則應及時復核檢查,對由于測定、記錄或計算機錄入的錯誤數據,應予以修正和剔除。
特別要指出的是:利用直線回歸方程進行預測或控制時,一般只適用于原來研究的范圍,不能隨意把范圍擴大。若需要擴大預測和控制范圍,則要有充分的理論依據或進一步的實驗依據。
【參考文獻】
[1]丁勇.直線回歸的最小面積法[J].工程數學學報,2003(03).
[2]李平.非等精度測量條件下的一元線性回歸[J].大學物理實驗,2003(03).
[3]孫彥清.最小二乘法線性擬合應注意的兩個問題[J].漢中師范學院學報,2002(03).
[4]吳傳生.概率論與數理統計.高等教育出版社,2004,7.