宋 爽 曹一鳴
(首都師范大學(xué) 100048) (北京師范大學(xué) 100875)
隨著教育研究的不斷深入和教育研究國(guó)際化交流的推進(jìn),近年來(lái)國(guó)內(nèi)也掀起了實(shí)證研究的熱潮.2017年1月全國(guó)教育實(shí)證研究聯(lián)席會(huì)議召開(kāi),號(hào)召加強(qiáng)教育實(shí)證研究、促進(jìn)研究范式轉(zhuǎn)型.實(shí)證研究越來(lái)越受到教育研究者的重視,實(shí)證研究中關(guān)于量化研究的統(tǒng)計(jì)方法和統(tǒng)計(jì)模型也備受青睞.相較于其他學(xué)科,數(shù)學(xué)教育研究者因?yàn)榫邆漭^好的數(shù)學(xué)與統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí),所以也更擅長(zhǎng)且更愿意使用量化研究方法,如《數(shù)學(xué)通報(bào)》刊載喻平教授多篇文章指導(dǎo)量化研究方法的使用[1,2],數(shù)學(xué)教育研究領(lǐng)域中量化研究的發(fā)展也更為快速.但迅猛增長(zhǎng)的數(shù)學(xué)教育量化研究和統(tǒng)計(jì)方法使用的過(guò)程中仍暴露了一些問(wèn)題,其中以假設(shè)檢驗(yàn)的誤用及p值的錯(cuò)誤解讀最為常見(jiàn).一方面,數(shù)學(xué)教育研究者相較于其他學(xué)科的教育研究者嘗試使用了更為復(fù)雜的統(tǒng)計(jì)模型和統(tǒng)計(jì)方法,增加了犯錯(cuò)的風(fēng)險(xiǎn);另一方面,數(shù)學(xué)教育研究者過(guò)往的數(shù)學(xué)經(jīng)驗(yàn)也在一定程度上影響了對(duì)統(tǒng)計(jì)推斷的理解,將統(tǒng)計(jì)推斷和演繹推理或概率推導(dǎo)產(chǎn)生了混淆.事實(shí)上,統(tǒng)計(jì)推斷和概率推導(dǎo)看似名稱(chēng)接近,但實(shí)則兩者邏輯基礎(chǔ)差異極大[3].
近年來(lái),不斷有國(guó)際知名期刊及學(xué)術(shù)機(jī)構(gòu)發(fā)表了對(duì)學(xué)術(shù)研究中p值報(bào)告的新要求[4,5],甚至有權(quán)威期刊申明拒絕報(bào)告p值[6].這使得部分不明真相的研究者誤以為p值甚至假設(shè)檢驗(yàn)已經(jīng)被廢,“p值已死”成為熱議話題,當(dāng)然也不乏一些網(wǎng)絡(luò)媒體為博人眼球刻意進(jìn)行片面宣傳.一些研究者對(duì)統(tǒng)計(jì)假設(shè)檢驗(yàn)的基本含義、概念及科學(xué)規(guī)范的使用方法了解有限,很容易將這些期刊和機(jī)構(gòu)的無(wú)奈之舉誤解為p值本身是錯(cuò)誤的、無(wú)用的.因此,為了促進(jìn)數(shù)學(xué)教育實(shí)證研究的規(guī)范化和科學(xué)性,對(duì)量化教育研究起到引領(lǐng)作用,有必要對(duì)權(quán)威學(xué)術(shù)期刊“拒絕”p值的原意進(jìn)行解讀,并說(shuō)明做假設(shè)檢驗(yàn)時(shí)應(yīng)該注意的事項(xiàng).
本文將在數(shù)學(xué)教育量化研究背景下探討假設(shè)檢驗(yàn)的內(nèi)涵,為假設(shè)檢驗(yàn)和p值的科學(xué)使用進(jìn)行結(jié)合示例的講解和直觀的說(shuō)明,解讀權(quán)威機(jī)構(gòu)和學(xué)術(shù)期刊拒絕報(bào)告p值背后的原因,揭示原始文獻(xiàn)中p值提出者的本意和初衷,以及他們對(duì)后來(lái)研究者的告誡.通過(guò)有針對(duì)性的說(shuō)明,本文力圖引導(dǎo)數(shù)學(xué)教育研究工作者科學(xué)規(guī)范地使用假設(shè)檢驗(yàn)、關(guān)注研究問(wèn)題本身,而不要被統(tǒng)計(jì)顯著性束縛住科研的腳步.
統(tǒng)計(jì)假設(shè)指的是對(duì)總體的某統(tǒng)計(jì)指標(biāo)的假定性說(shuō)明,通常將總體的統(tǒng)計(jì)指標(biāo)稱(chēng)為參數(shù)(parameter),而對(duì)應(yīng)于總體參數(shù)的樣本特征可以稱(chēng)之為統(tǒng)計(jì)量(statistic).在教育研究中,研究者希望了解的當(dāng)然是事物總體的特征,或者說(shuō)希望得到一個(gè)普遍適用的模型,例如某種教育方法的效果、不同個(gè)體特征學(xué)生的數(shù)學(xué)學(xué)業(yè)成就差異等.然而多數(shù)情況下,獲得總體特征的愿望是個(gè)“不可能的任務(wù)”,因此用樣本特征對(duì)總體特征進(jìn)行估計(jì)、推斷、猜測(cè)的“假設(shè)檢驗(yàn)”方法應(yīng)運(yùn)而生.假設(shè)研究的問(wèn)題是7年級(jí)學(xué)生在某個(gè)數(shù)學(xué)測(cè)試中的成績(jī)是否存在性別差異,理論上應(yīng)當(dāng)讓全世界所有7年級(jí)學(xué)生參加測(cè)試,再進(jìn)行不同性別的比較,但這種操作費(fèi)時(shí)費(fèi)力且難以達(dá)成.多數(shù)研究者的做法是利用隨機(jī)抽樣的樣本特征來(lái)對(duì)總體進(jìn)行估計(jì),常見(jiàn)的方式就是對(duì)樣本數(shù)據(jù)進(jìn)行t檢驗(yàn),而這種利用統(tǒng)計(jì)量對(duì)統(tǒng)計(jì)假設(shè)進(jìn)行檢驗(yàn)的過(guò)程,就是通常所說(shuō)的假設(shè)檢驗(yàn),也可以將其稱(chēng)之為統(tǒng)計(jì)推斷.


至此,應(yīng)當(dāng)進(jìn)一步明確拒絕域的確定,以及拒絕域和p值的關(guān)系.拒絕域的范圍取決于用于假設(shè)檢驗(yàn)的統(tǒng)計(jì)量的分布和研究者所定義的顯著性水平.以比較男女生數(shù)學(xué)測(cè)試成績(jī)差異為例,為了對(duì)總體均值差異進(jìn)行推斷,通常對(duì)樣本數(shù)據(jù)進(jìn)行t檢驗(yàn),此時(shí)用于檢驗(yàn)的統(tǒng)計(jì)量t值服從t分布,其自由度由樣本個(gè)數(shù)決定.t分布是以0為中心左右對(duì)稱(chēng)的單峰分布,是t值與概率密度相對(duì)應(yīng)的圖像,其圖像下方、橫坐標(biāo)上方所夾區(qū)域就是整體的累積分布頻率,其值為1.如圖1所示,在t分布概率密度函數(shù)圖像中兩條實(shí)線(同樣關(guān)于縱坐標(biāo)對(duì)稱(chēng))所夾區(qū)域面積為0.95,而兩側(cè)對(duì)稱(chēng)的灰色區(qū)域面積之和占總面積的5%,因此兩側(cè)的區(qū)域就是雙側(cè)檢驗(yàn)中顯著性水平為0.05的拒絕域.與之類(lèi)似,虛線右側(cè)斜線陰影區(qū)域面積也為總面積的5%,因此該斜線陰影區(qū)域即為單側(cè)檢驗(yàn)中顯著性水平為0.05的拒絕域.對(duì)于確定的自由度和顯著性水平,拒絕域及其相應(yīng)的臨界t值是完全確定的,將假設(shè)檢驗(yàn)中計(jì)算所得的t值與該臨界值做比較就可以確定是否統(tǒng)計(jì)意義上“拒絕”或“接受”原假設(shè).同理,研究結(jié)果中報(bào)告的p值就是根據(jù)計(jì)算所得t值和對(duì)應(yīng)自由度的概率密度函數(shù),對(duì)應(yīng)出t值以外圖像下的面積,該面積(單側(cè)檢驗(yàn)時(shí))或該面積的兩倍(雙側(cè)檢驗(yàn)時(shí))即為所報(bào)告的p值.將該報(bào)告的p值與顯著性水平做比較,也同樣可以確定是否統(tǒng)計(jì)意義上“拒絕”或“接受”原假設(shè).以上兩種邏輯都是常見(jiàn)的檢驗(yàn)方式,除此之外還可以通過(guò)判斷置信區(qū)間是否包含0值的方式來(lái)進(jìn)行檢驗(yàn),而置信區(qū)間的確定也同樣取決于樣本統(tǒng)計(jì)量(和t值能夠互相轉(zhuǎn)化)、自由度、及所定義的顯著性水平.

圖1 假設(shè)檢驗(yàn)原理示意圖
針對(duì)前文所列的原假設(shè)和備擇假設(shè),假設(shè)對(duì)所有7年級(jí)學(xué)生進(jìn)行了五次抽樣,為具體說(shuō)明假設(shè)檢驗(yàn)的過(guò)程,在此利用MATLAB的normrnd命令模擬隨機(jī)抽樣,從三個(gè)不同分布的總體中分別各“抽樣”5輪,每輪各獲得“隨機(jī)抽樣”的數(shù)值5個(gè)作為樣本數(shù)據(jù)(以下數(shù)據(jù)保留2位小數(shù)).三個(gè)總體分別為:總體男,均值為80,標(biāo)準(zhǔn)差為5的正態(tài)分布;總體女甲,均值為80,標(biāo)準(zhǔn)差為5的正態(tài)分布;總體女乙,均值為90,標(biāo)準(zhǔn)差為5的正態(tài)分布.顯然,總體中μ男-μ女甲=0,μ男-μ女乙≠0.那么,當(dāng)我們利用樣本對(duì)總體進(jìn)行估計(jì)時(shí),是否一定能得到和真實(shí)情況一致的推斷呢?

接下來(lái)可以構(gòu)造出另一個(gè)樣本的數(shù)據(jù),即樣本A,該樣本中的所有數(shù)據(jù)都來(lái)源于樣本1至樣本5中的數(shù)據(jù),但有意選擇了男生成績(jī)中較大的數(shù)據(jù)和女生(甲)成績(jī)中較小的數(shù)據(jù).由于所有模擬數(shù)據(jù)都是隨機(jī)生成的,我們當(dāng)然有可能在兩正態(tài)分布總體中通過(guò)隨機(jī)抽樣中獲得類(lèi)似樣本A這樣的樣本.在該樣本中可以發(fā)現(xiàn),t值為8.500,p值達(dá)到了0.000028.按照假設(shè)檢驗(yàn)的邏輯和做法,此處應(yīng)該“拒絕”原假設(shè)H0,因?yàn)榭傮w原假設(shè)成立的情況下樣本數(shù)據(jù)出現(xiàn)該結(jié)果的概率非常小(但仍存在可能性).我們的總體中明明原假設(shè)是正確的,說(shuō)明此時(shí)的推測(cè)出錯(cuò)了,而統(tǒng)計(jì)上將這種錯(cuò)誤拒絕了原假設(shè)H0的情況稱(chēng)之為一類(lèi)錯(cuò)誤,而犯一類(lèi)錯(cuò)誤的概率實(shí)際上就是所設(shè)定拒絕域的對(duì)應(yīng)概率,也被稱(chēng)為顯著性水平.例如常見(jiàn)的α=0.05水平,就說(shuō)明犯一類(lèi)錯(cuò)誤的概率為5%,所以一類(lèi)錯(cuò)誤又名α型錯(cuò)誤.需要特別強(qiáng)調(diào)的是,即使將顯著性水平定義的非常小,也終究有犯錯(cuò)的可能.

表1 男女生測(cè)試成績(jī)模擬數(shù)據(jù)

續(xù)表

通過(guò)這樣的示例可以直觀地感受到,無(wú)論如何總是有犯錯(cuò)的可能性,要么是總體沒(méi)有差異卻推測(cè)為有差異(一類(lèi)錯(cuò)誤),要么是總體有差異卻沒(méi)有檢測(cè)并推測(cè)到這種差異(二類(lèi)錯(cuò)誤).這兩種錯(cuò)誤在統(tǒng)計(jì)學(xué)的相關(guān)論述中均做了認(rèn)真詳細(xì)的闡明[7],但由于部分研究者錯(cuò)誤理解了假設(shè)檢驗(yàn)的含義,致使在解讀統(tǒng)計(jì)結(jié)果時(shí)往往過(guò)度依賴(lài)假設(shè)檢驗(yàn)的結(jié)果,將統(tǒng)計(jì)意義上的“推斷”當(dāng)作真理性的“結(jié)論”.
p值的提出者Ronald Fisher教授在20世紀(jì)初就強(qiáng)調(diào),其目的是為了有一種客觀的方式來(lái)描述數(shù)據(jù)和原假設(shè)的相符程度,而不是僅能夠粗糙地表示“數(shù)據(jù)看起來(lái)和原假設(shè)不一樣”.p值是在總體原假設(shè)成立的情況下某樣本特征出現(xiàn)的條件概率,并不是原假設(shè)錯(cuò)誤的概率或備擇假設(shè)正確的概率,最初設(shè)定的0.05、0.01等顯著性水平也只是一種習(xí)慣性的表述.但隨著越來(lái)越多的研究者盲目追求小p值、錯(cuò)誤解讀p值含義、將統(tǒng)計(jì)顯著性和實(shí)際效應(yīng)等價(jià),部分權(quán)威機(jī)構(gòu)被迫做出反應(yīng),例如美國(guó)心理協(xié)會(huì)(APA)于1999年開(kāi)始強(qiáng)制要求研究者報(bào)告主要結(jié)果的效應(yīng)量.2016年,美國(guó)統(tǒng)計(jì)協(xié)會(huì)(ASA)首次以官方身份對(duì)統(tǒng)計(jì)顯著性和p值的爭(zhēng)論作出回應(yīng),在這份集合了20多個(gè)專(zhuān)家意見(jiàn)的報(bào)告,認(rèn)為p值經(jīng)常被錯(cuò)誤地使用和理解,這才導(dǎo)致了一些學(xué)術(shù)期刊勸阻甚至放棄使用p值[8].Daniel J.Benjamin等人在權(quán)威期刊Nature Human Behaviour中發(fā)表聲明,為了提高研究的可重復(fù)性,主張將顯著性水平從0.05調(diào)整至0.005,他們強(qiáng)調(diào),其實(shí)有很多比重新定義顯著性水平更好的方式(例如貝葉斯因子),但調(diào)整p值閾限的方式和多數(shù)研究者受到的訓(xùn)練習(xí)慣相符,是最簡(jiǎn)單、最容易被快速?gòu)V泛接受的方式.2018年初,Political analysis的主編Jeff Gill表示,禁止使用p值的主要原因是“p值本身不足以提供支持給定模型或假設(shè)的證據(jù)”,他同時(shí)表示,從一個(gè)學(xué)術(shù)期刊的角度來(lái)說(shuō),p值常被用來(lái)當(dāng)做稿件是否接受的標(biāo)準(zhǔn),而這無(wú)疑會(huì)導(dǎo)致“發(fā)表偏倚(publication bias)”并無(wú)形中“鼓勵(lì)了研究者對(duì)模型無(wú)意義的挖掘”,同時(shí)也有證據(jù)證明“眾多社會(huì)科學(xué)研究者對(duì)p值存在誤解,還錯(cuò)把它當(dāng)成科學(xué)推理的關(guān)鍵”,在此背景下,該期刊才決定禁止報(bào)告p值.
總結(jié)各科研團(tuán)體、學(xué)術(shù)期刊和專(zhuān)家學(xué)者的觀點(diǎn)可以發(fā)現(xiàn),“廢除”p值其實(shí)是無(wú)法制止諸多研究者錯(cuò)誤使用假設(shè)檢驗(yàn)時(shí)做出的無(wú)奈之舉.那么在數(shù)學(xué)教育研究中,應(yīng)當(dāng)怎樣正確使用假設(shè)檢驗(yàn)這一工具幫助我們進(jìn)行科學(xué)的思考呢?以下將從假設(shè)檢驗(yàn)的使用情境、前期說(shuō)明、結(jié)果解讀三方面提出常見(jiàn)的注意事項(xiàng).結(jié)果解讀方面,重點(diǎn)關(guān)注了三種常見(jiàn)誤用——誤解p值含義、忽略樣本量影響、將統(tǒng)計(jì)意義上的顯著與實(shí)際顯著性對(duì)等.
第一,需要明確何時(shí)進(jìn)行假設(shè)檢驗(yàn):只有當(dāng)研究者試圖做推斷時(shí)才需要做假設(shè)檢驗(yàn),如果只是了解樣本情況,例如研究?jī)蓚€(gè)班級(jí)某次考試的數(shù)學(xué)成績(jī),所使用的數(shù)據(jù)已經(jīng)是總體,就不再需要做假設(shè)檢驗(yàn)或統(tǒng)計(jì)推斷.在數(shù)學(xué)教育研究領(lǐng)域中,很多以描述為目的的研究,或一線教師對(duì)學(xué)生表現(xiàn)的分析,并不需要進(jìn)行假設(shè)檢驗(yàn).此時(shí)需要注意樣本及總體都不一定指的是被試,例如當(dāng)研究者試圖推斷兩個(gè)班級(jí)學(xué)生的數(shù)學(xué)能力時(shí),某次數(shù)學(xué)考試成績(jī)成為了學(xué)生數(shù)學(xué)能力這一總體的樣本時(shí),才需要進(jìn)行假設(shè)檢驗(yàn).
第二,需要提前論述樣本的代表性:如果確定需要做假設(shè)檢驗(yàn),就是在用樣本推斷總體或模型,因此必須對(duì)樣本的代表性進(jìn)行說(shuō)明.樣本的代表性,或樣本屬于總體的隨機(jī)抽樣,往往是抽樣過(guò)程中的基本要求.另一方面,利用F檢驗(yàn)中的F分布、t檢驗(yàn)中的t分布等進(jìn)行檢驗(yàn),也應(yīng)當(dāng)符合該檢驗(yàn)對(duì)樣本隨機(jī)性的假設(shè).
第三,需要正確理解p值的含義:p值只描述總體滿(mǎn)足原假設(shè)時(shí)樣本數(shù)據(jù)出現(xiàn)該統(tǒng)計(jì)量的可能性,屬于條件概率,既不是原假設(shè)正確的概率,也不是備擇假設(shè)錯(cuò)誤的概率,p值的大小也不能代表效應(yīng)的強(qiáng)弱.因此,類(lèi)似“由于p值為0.001,因此我們的結(jié)論99.9%是正確的”,“A變量p值為0.06,B變量p值為0.10,A比B更顯著”這樣的表述都是不科學(xué)的.需要特別強(qiáng)調(diào)的是,p值未達(dá)到顯著性水平不代表總體中不存在效應(yīng),二類(lèi)錯(cuò)誤仍可能發(fā)生.例如在一些量化研究中經(jīng)過(guò)假設(shè)檢驗(yàn)后,p值未達(dá)到顯著性水平,并不代表總體的原假設(shè)一定成立,如果該研究問(wèn)題有重要的理論意義,反而應(yīng)當(dāng)在后續(xù)的研究中進(jìn)行重復(fù)性的考察,避免二類(lèi)錯(cuò)誤發(fā)生對(duì)有意義研究的終結(jié).
第四,在大樣本中發(fā)現(xiàn)顯著結(jié)果應(yīng)謹(jǐn)慎對(duì)待:數(shù)學(xué)教育研究領(lǐng)域的量化分析經(jīng)常容易出現(xiàn)大樣本的情況,由于包括t值、F值在內(nèi)的眾多用于假設(shè)檢驗(yàn)的統(tǒng)計(jì)量的計(jì)算公式都和樣本量有關(guān),均值標(biāo)準(zhǔn)差等保持穩(wěn)定的情況下,樣本量越大統(tǒng)計(jì)值也會(huì)越大;而且樣本量增大會(huì)導(dǎo)致自由度的增加,統(tǒng)計(jì)值的密度函數(shù)圖像也會(huì)發(fā)生變化,例如t分布的圖像就會(huì)變窄,微弱的效應(yīng)也會(huì)非常容易達(dá)到統(tǒng)計(jì)意義上的顯著.因此大樣本導(dǎo)致的統(tǒng)計(jì)顯著需要關(guān)注實(shí)際效應(yīng)到底如何.
第五,數(shù)學(xué)教育研究者應(yīng)更加關(guān)注實(shí)際顯著性:目前公開(kāi)禁止報(bào)告p值的兩個(gè)期刊在其聲明或?qū)ψx者問(wèn)題的回復(fù)中都強(qiáng)調(diào),研究中需要的是“科學(xué)推理或創(chuàng)造性思維”.事實(shí)上假設(shè)檢驗(yàn)只是總結(jié)數(shù)據(jù)結(jié)果的一種手段,作為教育研究工作者更應(yīng)該重視實(shí)際顯著性.比如在進(jìn)行兩個(gè)班級(jí)平均分差異比較的時(shí)候,如果兩個(gè)平均分差異很明顯,在解讀數(shù)據(jù)時(shí)說(shuō)到“顯著”指的是實(shí)際顯著性而非統(tǒng)計(jì)顯著性;再比如在一些大樣本中發(fā)現(xiàn)男女生平均成績(jī)差異非常微弱但統(tǒng)計(jì)意義顯著時(shí),這種差異通常并沒(méi)有實(shí)際意義,此時(shí)統(tǒng)計(jì)意義顯著的同時(shí),實(shí)際的“不顯著”或稱(chēng)之為不客觀才更應(yīng)當(dāng)是研究者所關(guān)注的.
依據(jù)APA在其2010年發(fā)布的出版手冊(cè)中的表述,“假設(shè)檢驗(yàn)是起點(diǎn)(starting point),在這之后增加報(bào)告效應(yīng)量、置信區(qū)間和全面的描述才能表達(dá)出結(jié)果的完整含義”,而“完整地報(bào)告所有檢驗(yàn)的假設(shè)和合適的效應(yīng)量及置信區(qū)間的估計(jì)是在APA期刊中發(fā)表的基本要求”,因此APA并未否定假設(shè)檢驗(yàn)和p值的作用.同樣的,即使面對(duì)越來(lái)越多針對(duì)假設(shè)檢驗(yàn)和p值的批評(píng),ASA也從未對(duì)取消p值表示贊同.當(dāng)然ASA也指出p值或假設(shè)檢驗(yàn)確實(shí)不能測(cè)量或代表一個(gè)效應(yīng)的大小或一個(gè)結(jié)果的重要性,這是p值的局限性,但自始至終p值就從未承擔(dān)過(guò)這一作用.效應(yīng)量等在研究結(jié)果中被要求報(bào)告的量化結(jié)果是對(duì)p值局限性的彌補(bǔ),但效應(yīng)量反過(guò)來(lái)也不能提供p值所能提供的信息.
如前文所列舉的示例,如果試圖了解某種教學(xué)干預(yù)是否有效果,這時(shí)候就需要使用假設(shè)檢驗(yàn)并報(bào)告p值來(lái)進(jìn)行推斷,但教學(xué)干預(yù)效果的重要性,既不能通過(guò)p值有多小,也不能通過(guò)效應(yīng)量有多大來(lái)進(jìn)行判定.這種實(shí)際顯著性需要理論的說(shuō)明、科學(xué)性的思辨和實(shí)踐的證據(jù)來(lái)證實(shí),而實(shí)際顯著性才是包括數(shù)學(xué)教育研究在內(nèi)的所有社會(huì)科學(xué)研究的關(guān)注點(diǎn).