黃海燕
摘 要:方差分析是一種重要的用于假設檢驗的統計方法,常用于分析和判斷某一因素的不同水平對事物的影響是否有顯著差異。雖然方差分析有非常廣泛的應用,但不少統計方法應用者對方差分析中采用F檢驗的原因并不清楚。而且,也很難發現有中外文獻或資料對此原因做出解釋。長期以來,F檢驗統計量似乎已成為方差分析約定俗成的既定工具。文章從較為直觀的視角,結合統計常識和基礎知識,對方差分析中的F檢驗統計量進行了較為充分的推導和證明。這種包含直覺成分的推導思路和過程很有可能與原有的推導有很大不同,但其一樣有效地詮釋了方差分析F檢驗的機理和實質。
關鍵詞:方差分析 F檢驗 假設檢驗 理論推導 合并總體
中圖分類號:F222文獻標識碼:A
文章編號:1004-4914(2012)09-038-03
一、引言
方差分析是檢驗多個總體均值是否相等的統計方法。當要判斷分類型自變量是否對數值型因變量有顯著影響時,可以采用方差分析的方法。例如,要判斷不同種化肥對農作物的產量是否有顯著影響、不同生產工藝對產品的質量是否有顯著影響、不同的培訓項目對員工技能提高是否有顯著影響等,都可以考慮通過方差分析對問題進行研究。
作為一種非常重要的檢驗方法,方差分析采用F檢驗統計量進行顯著性檢驗。雖然方差分析有非常廣泛的應用,但不少的使用者并不十分清楚為什么采用F檢驗進行方差分析。所見到的文獻幾乎都把方差分析中的F檢驗僅作為一種統計工具予以介紹,而并不對方差分析中之所以采用F檢驗的原因進行解釋。筆者目前還沒見到關于方差分析F檢驗推導過程的中外相關文獻或資料。
作為一種科學的統計檢驗方法,方差分析中采用F檢驗統計量肯定有其非常嚴謹的推導過程,這是勿容置疑的。但或許正是由于其推導過程過于嚴格和復雜,從而鮮有文獻資料對其給以說明和推證,只是把F檢驗作為一種約定俗成的做法施加于方差分析過程。
本文筆者通過思考,嘗試找到一種關于方差分析F檢驗的推導方法。在整個推導過程中,所采用的都是一些基礎性的統計知識,并摻插著對統計學問題的直覺認識。所以,筆者所采用的推導方法并不復雜,很容易讓方差分析方法的使用者明白使用F檢驗統計量的個中緣由。本文第二部分再現了這種推導過程。但有別于原本的方差分析推導過程所應具有的規范性和嚴謹性,本推導過程中的個別環節可能還值得進一步推敲。希望能與讀者進行相關交流和探討。本文的第三部分提供了一個用方差分析進行產品改良的商業案例,用以展現方差分析的具體過程和應用價值。
二、對方差分析F檢驗統計量的直覺推導
(一)方差分析基本內容
方差分析是要判斷分類型自變量是否對數值型因變量有顯著影響。分類型自變量代表著某種影響因素或稱為因子。影響因素以某一水平作用于若干個體對象上。所有可能被因素施以某一(水平)影響的個體構成一個相應的總體,而所觀察到的受到因素某一(水平)具體影響的所有個體構成一個觀測樣本。這樣,如果某一影響因素具有k個水平,意味著分類型自變量可以取k個不同的數值,因素k個水平下的觀測值共構成k個對應樣本。
若考察單一因素不同水平的影響,樣本觀測值的數據結構如下表1所示。影響因素第i水平下有ni個觀測值,即第i個樣本包含ni個個體。個體總數n=n1+n2+…nk。來自第i個總體(水平)的第j個觀測值為xij。
根據以上數據結構,可以計算出如下統計量:因素各水平下觀測值的均值xˉi、全部觀測值的總均值x=、總誤差平方和SST、組間誤差平方和SSA、組內誤差平方和SSE。在此基礎上,還可以通過SSA和SSE分別除以各自的自由度,進一步計算出組間均方MSA以及組內均方MSE。
方差分析要根據k個樣本提供的信息判斷k個總體的均值是否相等。若k個因素水平所對應總體的均值分別為μ1,μ2,…,μk,則方差分析的原假設和備擇假設可陳述為:
H0∶μ1=μ2…=μkH1∶μ1,μ2…,μk不全相等
對假設進行檢驗的統計量為:
F=■~F(k-1,n-k)
此為F統計量。其中,k-1和n-k分別為F分布的第一和第二自由度,并分別與SSA和SSE(或者說,與組間均方MSA、組內均方MSE的計算)相對應。
(二)F檢驗統計量推導過程
方差分析有三個基本假定:(1)每個總體都服從正態分布;(2)各個總體的方差相同;(3)觀測值獨立。在這些假定下,k個總體的分布如圖1所示。
如果原假設“H0∶μ1=μ2…=μk”成立,則k個總體的分布完全相同,如圖2所示。由k個總體合并一起構成的“合并總體”的分布等同于任一水平所對應總體的分布。用σ2E表示任一水平所對應總體的方差,σ2P表示k個總體構成的“合并總體”的方差,μP表示“合并總體”的均值,則由“μ1=μ2…=μk”可知:μP=μk,σ2P=σ2E。所以,“μ1=μ2…=μk”等價于“σ2P=σ2E”。
如果原假設不成立,即備擇假設“H1∶μ1,μ2…,μk不全相等”成立,則由k個總體合并一起構成的“合并總體”的分布將不同于任一水平所對應的總體的分布。“合并總體”相對于與每一水平所對應總體來說,其個體之間的差異將變大,分布將更離散,從而其概率密度曲線將更扁平,如圖3所示。類似方差分析中給出的“每個總體都服從正態分布”的基本假定,這里同樣假定“合并總體”服從正態分布。
依然用σ2E表示任一水平所對應總體的方差,σ2P表示k個總體構成的“合并總體”的方差,則由“μ1,μ2…,μk不全相等”可知:σ2P>σ2E。所以,“μ1,μ2…,μk不全相等”等價于“σ2P>σ2E”。
從以上的分析能夠看出,方差分析中原假設和備擇假設關于均值的陳述
H0∶μ1=μ2…=μkH1∶μ1,μ2,…,μk不全相等
可以轉換成關于方差的陳述
H0∶σ2P=σ2EH1∶σ2P>σ2E
在上述的假設陳述轉換的基礎上,下面分析檢驗統計量的構建。對于k個總體中的第i個總體,根據χ2分布的定義等知識或者直接根據樣本方差的抽樣分布,可得
■~χ2(ni-1)
再根據χ2分布的可加性,將k個總體的上述統計量相加,得
■~χ2(n-k)
即■~χ2(n-k)(式子1)
從k個總體構成的“合并總體”的角度,原本對應于第i個水平的ni個觀測值構成一個容量為ni的隨機樣本。還用σ2P表示“合并總體”的方差,μp表示“合并總體”的均值。在前述的“合并總體服從正態分布”的假定下,有
x-i~N(μp,■)(式子2)
需要說明的是,如果第i個水平的ni個觀測值足夠多,亦即隨機樣本的容量ni足夠大,完全可以放松前述的“合并總體服從正態分布”的假定。
根據χ2分布的定義,由式子2得
■~χ2(1)
即■~χ2(1)
對于k個隨機樣本,根據χ2分布的可加性,得
■■~χ2(k)
上式中μp未知,用總均值x=來估計和替換。由于x=是k個x-i的加權平均數,意味著對上式中所涉及到的k個x-i施加了一個約束條件,所以x-i,從而χ2分布的自由度下降1,即
■■~χ2(k-1)
于是■~χ2(k-1)(式子3)
根據F分布的定義(兩個χ2分布除以各自的自由度,服從F分布),將式子1和式子3左側除以各自對應的自由度,然后再進行對比,得
■■~F(k-1,n-k)
因為MSA=■,MSE=■,所以
■~F(k-1,n-k)(式子4)
對于原假設和備擇假設
H0∶σ2P=σ2EH1∶σ2P>σ2E
檢驗統計量為式子4當原假設成立時的情形,所以檢驗統計量為
F=■~F(k-1,n-k)(式子5)
此假設檢驗為右側檢驗。對于給定的顯著性水平α,根據式子5中F檢驗統計量的值是否大于臨界值Fα(k-1,n-k)判斷是否拒絕H0∶σ2P=σ2E,亦即據此判斷是否拒絕H0∶μ1=μ2…=μk。
三、方差分析方法的一個具體運用案例
一家飲料生產廠商某種飲料的銷售情況一直不好,其準備從口感和營養概念方面對此種飲料進行改良。針對口感方面,飲料廠商設計了三種不同的口味配方(配方A、B和C),并分別在三個大型商場同時對消費者進行調查。消費者品嘗飲料某一口味配方樣品后,對口感情況進行評分。評分分值介于0到100分之間。接受三種口味配方A、B和C品嘗調查的消費者分別為50人、60人和55人。調查數據在這里省略。此飲料廠商希望通過調查和分析,判斷飲料的三種口味配方是否顯著影響消費者的口感評價,并確定是否從中選擇一種較優的配方方案。
要判斷飲料的三種口味配方是否顯著影響消費者的口感評價,等同于判斷消費者對飲料的三種口味配方的口感評價是否有顯著差異,因此要判斷消費者(包括現實的和潛在的消費者)對三種口味配方的口感評價的均值是否相等。針對此問題,可以采用方差分析(單因素方差分析)等統計分析方法。
方差分析作為一種假設檢驗方法,首先要提(下轉第41頁)(上接第39頁)出原假設和備擇假設。
H0∶μA=μB=μCH1∶μA,μB,μC不全相等
而進行方差分析,數據應滿足前述的方差分析的三個假設條件。在此問題中,正態性檢驗從略。由于消費者調查是分開進行,可認為數據的獨立性不存在問題。對于方差相等性,使用Minitab軟件進行檢驗。檢驗結果如圖4所示。
由圖4的結果容易看出,Bartlett檢驗的P值為0.861,Levene檢驗的P值為0.752,可以認為飲料不同口味配方所對應的3個消費者總體的方差是相等的。
繼續使用Minitab軟件對數據進行單因素方差分析,分析的主要結果如表2所示。
從表2所示的分析結果可以看出,F檢驗的P值為0,檢驗結果顯著,說明飲料的三種不同口味配方顯著影響消費者的口感評價,其效果有很大差異。另外,從口感評價的95%置信區間估計來看,口味配方B應該是三者之中較優的配方方案。
四、結論
方差分析是一種非常重要的假設檢驗方法,常用于判斷某一因素的不同水平對事物的影響是否有顯著差異。方差分析在各個領域都有非?,F實的應用,廣泛用于產品改良和流程設計。本文運用統計學的基礎知識,結合對相關問題的直覺認識,對方差分析檢驗統計量進行了推導和解釋。除了對方差分析的推導,本文還給出了一個企業通過方差分析進行產品改良的商業案例。此案例雖然只是方差分析的一個具體應用,但其真實再現了方差分析的應用過程和現實意義。本文所進行的關于方差分析的理論推導和案例演示,將有助于廣大方差分析使用者充分理解方差分析的機理和實質,而不僅僅局限于把方差分析中的檢驗作為一種慣常做法或者約定俗成的工具。
參考文獻:
1.馬逢時等.六西格瑪管理統計指南:MINITAB使用指南.北京:中國人民大學出版社,2007
2.袁衛等.統計學(第三版).北京:高等教育出版社,2009
3.Anderson.D.R.,et al. Statistics for Business and Economics.
Mason,OH:South-Western Cengage Learning,2011
(作者單位:鄭州大學西亞斯國際學院 河南新鄭 451150)
(責編:賈偉)