余紅盈
高教版《體育統計》中單因素方差分析模型實際意義解析
余紅盈
運用文獻資料法與邏輯分析法詳細地闡述了方差分析的思想,并以高等教育出版社1998年7月出版的《體育統計》第三章中的方差模型及第七章中的單因素方差分析統計模型為例,解析其實際意義,旨在幫助體育統計學習者及使用者在學習和應用單因素方差分析時所遇到的困惑。
方差;方差分析;單因素方差分析;統計模型;實際意義
參閱了許多統計學方面的教材方差分析部分,發現教材上均給出了方差分析的統計模型計算公式,但為什么要這樣或那樣計算,教材中并沒有給出詳細地說明,不注重統計思想的培養,因此給讀者留下了許多疑點。讀者都知道有方差分析這么一個統計模型計算公式,到要用的時候就按照這個公式套就是了,甚至有些讀者連公式都不想套,直接用一些統計軟件輕輕一點,數據分析結果就出來了,至于分析結果是怎么樣出來的就一無所知了,結果是否可信或存在什么缺陷就更不知道了。
假設檢驗是以小概率事件為基礎的,而以小概率事件為基礎的假設檢驗統計模型在實際應用過程中容易犯統計學中的兩類錯誤,即第一類為納偽,第二類為棄真。在進行多重比較的時候如果采用兩兩配對假設檢驗得出結論就很容易犯統計學中的兩類錯誤。如在顯著性水平為α=0.05時比較隨機抽取的K組樣本數據的均值(mean)是否存在差異顯著性,如果進行兩兩配對的獨立樣本t檢驗,共要檢驗C2K次,每一次檢驗都會得到一個α值,這是每一次犯第一類錯誤的概率,只有綜合了C2K次α值才能得出結論。規定不犯第一類錯誤的概率為95%,因此每一次不犯第一類錯誤的概率為95%。根據邦弗隆尼(Bonferroni)不等式原理可知進行C2K次檢驗后,不犯第一類錯誤的概率則為95%的C2K次方,而95%的C2K次方必然小于0.95%,這時的 α必然大于0.05。隨著比較次數的增多,α會變得越來越大。規定顯著性水平(significance level)為0.05時才為小概率事件,而經過C2K次檢驗后α值大于0.05時也認為是小概率事件。因此在進行多重比較的情況下,用兩兩配對t檢驗,不僅麻煩,而且容易拒絕原假設。若原假設是真,則犯第二類錯誤。[1]
隨機抽取的K組樣本數據的均值本身在數值上就存在差別,但我們并不知道這種數值上的差別是由隨機抽樣造成的還是由樣本所來自的總體本身存在的差異所造成的,因此如果能設計一種檢驗模型,把所有樣本之間的差異分解為由于隨機分組造成的差異和隨機抽樣造成的差異兩部分,并能檢驗出由于隨機分組造成的差異遠遠大于由于隨機抽樣造成的差異,那么就有充分的理由說明這K組樣本數據的均值存在差異顯著性。為了解決這個問題,英國統計學家費歇爾(Ronald A.Fisher)于1924年在加拿大多倫多舉行的國際統計學會大會上,作了題為《關于一個引出若干周知統計量的誤差函數的分析》的報告,正式提出了方差分析(analysis of variance;ANOVA)的概念及思想,最初主要應用于生物和農業田間試驗,而后推廣到各領域應用。[2]
方差分析思想的核心就是將組間方差(sum of squares for factor A,SSA)與組內方差(sum of squares for error,SSE)進行對比,分析二者是否存在差異顯著性。組內方差是反映本組內各變量值相對于本組均值的分布離散程度的統計量,實際上代表的是樣本總方差中不能用分組因素解釋的部分,反映的是樣本個體觀測指標之間的差異,即隨機抽樣所造成的差異,這是抽樣本身不可避免的。組間方差是反映各組均值相對于總體均值的分布離散程度的統計量,實際上代表的是樣本總方差中可以用分組因素解釋的部分,反映的樣本組觀測指標均值之間的差異,即隨機分組所造成的差異,這與抽樣無關。如果組間方差遠遠大于組內方差,就有充分的理由說明上述K組樣本數據存在差異顯著性。
方差分析在體育科研工作中是一種非常實用且應用廣泛的統計分析技術,但它的思想和方法的確有難以理解的地方。要解析方差分析模型的實際意義就必須先解析方差(variance)模型的實際意義。
我們首先來看高等教育出版社1998年7月出版的《體育統計》第三章中的方差模型:

方差是用來描述各變量值(variable)與均值離散程度的統計量,方差越小表明觀測值越向均值集中,方差越大表明觀測值與均值越分散。在理想狀態,當n→∝時,我們對方差的數學期望為0,但在一次抽樣中實難辦到,這是小概率事件。因此在一次抽樣中只能力求方差越小越好,而當n一定,n-1也一定,只有將希望寄托在∑(x-珋x)的身上了。又由于在一次抽樣中x-珋x可正可負,所以在x與珋x左右偏差較大時,也可能使∑(x-珋x)最小或者為0,此時不能排除珋x左右兩邊異常值對∑(x-珋x)的影響,因此根據最小二乘法原理,考慮將∑(x-珋x)平方,使∑(x-珋x)2最小,即總離差平方和(sum of squares for total,SST)最小,可保證在一次抽樣過程中方差最小,又可排除珋x左右兩邊異常值對∑(x-珋x)的影響。
為什么要用總離差平方和∑(x-珋x)2除以n-1呢?n-1在這里稱為自由度(degree of freedom,df),是指當利用樣本統計量來估計總體參數時,樣本中能自由變化的變量值的個數。[2,4]例如;有一組獨立樣本觀測變量x1,x2,x3……xn,則樣本觀測變量x有n種自由變化的可能,如果從這組樣本觀測變量中任意取出一個x來時,則樣本觀測變量x還有n-1種自由變化的可能,以此類推,當取出n-1個x來時,則樣本觀測變量只有1種自由變化的可能。之所以用n-1作除數,是由于抽樣會產生誤差,數理統計已經證明,除以n-1更接近真值。[5]因此用總離差平方和∑(x-珋x)2除以自由度n-1得到的是均離差平方和,即方差。
單因素方差分析是方差分析中最簡單的一種統計方法,它是學習和理解多因素方差分析和多元統計的基礎。因此下面我們就從單因素方差分析模型入手來進行逐步解析。
以下是高等教育出版社1998年7月出版的《體育統計》第七章中的單因素方差分析統計模型:
我們不防用逆向思維來理解和分析這個統計模型。上面方差分析思想中已經提到方差分析思想的核心就是將組間方差與組內方差進行對比,得出結論。由于組間方差與組內方差不服從統一的分布,如果將組間方差與組內方差進行比較,將沒有統計意義,故而需要利用組間方差組內方差構造一個統計量,再對這個統計量進行評估,這樣就能得出結論了。而利用組間方差與組內方差的比值構造一個統計量剛好服從一定的分布,由于這種分布是英國統計學家費歇爾(Ronald A.Fisher)發現的,因此用姓氏的首字母F將這種分布稱之為F分布,這種統計量稱之為F統計量。為了使用方便,他將這種分布制成表稱之為F分布表。將求得的F統計量與從F分布表中查得的 Fα(n'1,n'2)進行比較,最后得出結論。由方差模型知道,要求組間方差與組內方差就要利用它們各自的離差平方和及自由度,而數理統計學已經證明了總離差平方和可以分解為組間離差平方和與組內平方和,且服從各自的自由度,[6]只要抽樣與分組結束,模型中的k-1和N-k就一定,觀測變量x可測,因此總方差可以分解為組間方差和組內方差兩部分,這樣問題就迎刃而解了。
體育統計在體育科研工作中應用非常廣泛,而每一種統計方法及模型都是根據具體問題而建立的,必然有其適用的范圍,如果超范圍應用則屬張冠李戴,會貽笑大方。由于種種原因造成了基層體育工作者文化科研理論相對溥弱,有一部分體育科研工作者在從事體育科研時不愿意去碰統計學這條高壓線,不能對數據進行深層的分析,使辛辛苦苦得來的有價值的數據白白浪費。因此基層體育科研工作者很有必要加強自身的統計學修養,在運用統計學進行數據分析時不但要知其然還要知其所以然,才能讓統計學為我們的體育科研工作更好地服務。
[1]周皓.統計基礎和 SPSS11.0入門與提高[M].北京:清華大學出版社,2004.
[2]管于華.統計學[M].北京:高等教育出版社,2005.
[3]叢湖平.體育統計[M].北京:高等教育出版社,1998.
[4]百度百科.自由度[EQ/OL].http://baike.baidu.com/view/327514.htm2009-9-11.
[5]姜達維.實用統計學[M].北京:機械工業出版社,2005.
[6]盛驟,謝式千,潘承毅.概率論與數理統計[M].北京:高等教育出版社,2001.
[7]張文彤.世界優秀統計軟件工具SPSS 11.0統計分析教程[M].北京:北京希望電子出版社,2002.
The Implication of the One-way Analysis of Variance Model Provided by Sports Statistics
Yu Hongying
With the literature and logic analysis approach,the paper tries to explain in detail the analysis of variance and One-way Analysis of Variance prescribed in Chapter 3 and Chapter 7 of the textbook"Sports Statistics"published by Higher Education Press in July 1998.The aim is to help the learners solve the problems in their study and application of the One-way Analysis of Variance.
variance;analysis of variance;one-way analysis of variance;statistical model;practical meaning
G80-05
A
1672-6758(2012)04-0139-2
余紅盈,碩士,荊楚理工學院公共體育部,湖北·荊門。郵政編碼:448000
Class No.:G80 -05Document Mark:A
(責任編輯:鄭英玲)