高文武,張 俠,2*
(1.安徽大學經濟學院,安徽合肥230411;2.阜陽師范學院信息工程學院,安徽阜陽236037)
在統計學中,經常會遇到相關關系、因果關系和函數關系[1],當兩個對象有相關關系時,需進一步判斷造成這種相關關系的原因,并探索它們之間是否存在因果關系;在研究函數關系時,關鍵也是判斷兩個變量之間是否具有因果關系,判斷方法主要包括參數統計法(如t-檢驗、方差分析等)和非參數統計法(如Kruskal-Wallis分析、Friedman分析等)[2]。在實際問題中因變量往往有多個水平,若利用t-檢驗則需要做多次檢驗,導致整個過程非常復雜,還會增加出現錯誤的概率。而方差分析法正是解決這一問題的有效方法。
方差分析又稱“變異數分析”,是英國著名的統計與遺傳學家菲希爾提出的一種用于判斷變量之間是否存在因果關系的統計方法[3]。它可以有效處理多個水平的因變量問題。從涉及的影響因素個數將方差分析分為單因素方差分析和多因素方差分析[4],文章主要討論單因素情形。
假設自變量為X,因變量為Y。方差分析的主要目標是檢驗X在不同水平(Xi,i=1,2,…,M)上的變動是否對Y有顯著影響。其準則為Y的變動主要是由X的變動而造成的,這就需要計算Y的總變動。而真實的Y是未知的,只能利用采樣手段獲得觀測數據,通過樣本來計算Y的變動。樣本有以下假設:Y服從正態分布,樣本之間相互獨立且同分布,若假設不成立,則選擇非參數檢驗[5]。方差分析整個過程主要由4個部分構成[6]。
首先,計算Y的總變動SST。總變動是目標變量Y的觀測值與平均值之間的波動,它包含由于X在不同水平上的變動所導致的波動、隨機噪聲導致的波動。令Yˉ為所有觀測值的平均值,即Yˉ=根據方差的定義,總變動可表示為其次,計算組間均方和SSY。依據定義,計算Y在對應于水平Xi的觀測值的平均值在此基礎上可得組間均方和SSY=再次,計算組內均方和SSe。組內均方和是由隨機噪聲導致的波動,其計算公式為SSe=顯然SST=SSY+SSe恒成立。最后,檢驗Y的總變動SST是否主要由組間均方和SSY構成。這是方差分析的關鍵一步,它不僅展示了方差分析與假設檢驗之間的關系,同時也是假設檢驗的一個具體應用。這里需要比較SSY與SSe的大小關系,而SSY與SSe都是總量指標,無法比較大小。因此,需要把他們標準化后,再比較組間均方和MSY、組內均方和MSe之間的大小,其中MSY=SSY/dfY,MSe=SSe/dfe,這里,dfY=M-1,dfe=∑Ni-M,分別稱為組間平方和的自由度和組內平方和的自由度。依據方差分析的基本思想,構建統計量,即F=MSY/MSe。
進一步,組間平方和、組內平方和各自除以總體方差分別服從卡方分布,兩個卡方分布分別除以各自自由度再相比構建F-統計量,可知統計量F服從自由度為(dfY,dfe)的F-分布,從而利用假設檢驗判斷X對Y是否有顯著性影響。
為進一步加深對方差分析的認識和應用,明晰其中的分析過程,下面通過兩個案例展示方差分析的具體應用。
案例1 根據某高校經濟學、財務管理、金融工程、國際商務和中韓財管等5個專業的學生統計學考試分數,探討專業對于統計學成績有無顯著影響。
用相應公式計算出其各專業統計學分數均值和方差,如表1所示[7]。根據以上方差分析的基本步驟,分析過程如下。

表1 5個專業統計學分數的描述統計
依據假設檢驗,原假設H0:專業對于統計學成績沒有顯著影響;備擇假設H1:專業對于統計學成績有顯著影響。由統計量F=6.34,又F0.05(4,15)=2.45,F>F0.05(4,15),故拒絕原假設H0,表明專業對于統計學成績有顯著性影響,這和實際是相符的,究其原因可能與統計學的學習需要扎實的數學基礎有關。
方差分析不僅可以用于處理分類型變量,而且還可以處理數值型變量的問題,是一種有效的檢驗變量之間是否存在因果關系的統計方法。下面通過一個例子展示方差分析法在回歸分析的應用。
案例2 K.pearson收集了大量有關父親身高和兒子身高的數據(表2),試求兒子身高y關于父親身高x的回歸方程[8-9]。

表2 父親身高和兒子身高列表(單位:cm)
解在求解回歸方程之前,首先需要檢驗父親的身高是否對兒子身高有顯著影響,這正是方差分析要解決的問題。然而,不同于上一個例子,這個例子的自變量是數值型變量。按照方差分析步驟,首先計算總變動:其次,計算組間平方和、組內平方和分別為SSY=進而可得組間均方和、組內均方和分別為MSY=SSY/dfY=1152766.92/9=128085.21,MSe=SSe/dfe=11331.40/20=566.57。最后,構造F-檢驗統計量F=MSY/MSe=128085.21/566.57=226.07。在置信水平α=0.05下,查表可得F0.05(9,20)=2.39。顯然F>F0.05(9,20),表明父親身高與兒子身高存在因果關系。
方差分析僅僅表明父親的身高對兒子的身高有較強的因果關系,但不能給出具體的數量關系式。為了進一步量化這種因果關系,需要利用回歸分析計算相應的函數關系。由于在每個觀測點處有多個觀測值,因此選取這些觀測值的平均值yi作為對應觀測點處的回歸值,通過取平均值的手段還可以在一定程度上過濾數據中的噪聲。
假設這種函數關系是線性函數,即f(x)=ax+b,a,b∈R。由普通最小二乘估計式則有:

這里,xi,yi為樣本觀測值,xˉ為樣本觀測值的均值,yˉ為所有樣本觀測值的均值。最后,可得回歸方程為f(x)=35.98x+1.17。
文章探討了如何在教學過程中采用啟發式教學方法向學生講授方差分析,從而使學生理解、掌握和應用方差分析。通過本次教學探討,學生明確了方差分析的概念、基本思想和計算步驟,為以后熟練應用方差分析打下了堅實的基礎。文章最后通過案例2講解方差分析在回歸分析中的應用,這將更有助于學生理解方差分析與回歸分析的關系,為以后學習回歸分析作了鋪墊。