摘 要:本文主要從理論基礎(chǔ)、題目分析和誤差估計三方面對經(jīng)典測驗理論與項目反應(yīng)理論的異同作一比較,并提出現(xiàn)階段這兩大測量理論仍將互補(bǔ)長短,共存發(fā)展。
關(guān)鍵詞:經(jīng)典測驗理論 項目反應(yīng)理論
自比納編制測量理論以來,經(jīng)典測驗理論歷經(jīng)百年發(fā)展,圍繞著實得分?jǐn)?shù)與真分?jǐn)?shù)和誤差分?jǐn)?shù)的關(guān)系已經(jīng)建立起一套完整的測量理論與統(tǒng)計分析方法,是當(dāng)前占據(jù)統(tǒng)治地位的測量理論。項目反應(yīng)理論作為一種重要的現(xiàn)代測量理論,提出項目特征曲線,反映每道題目上被試某種反應(yīng)的概率與被試的心理特質(zhì)水平的關(guān)系,突破了若干經(jīng)典測驗理論一直以來無法解決的問題,具有廣闊的發(fā)展前景。本文擬主要從理論基礎(chǔ)、題目分析和誤差估計三個方面對這兩大測量理論的異同作一比較。
1 理論基礎(chǔ)的異同
1.1理論基礎(chǔ)的相同點
人的心理特質(zhì)具有內(nèi)在且無法直接測量的特點,所以在心理與教育測量中只能使用間接測量的方法。經(jīng)典測驗理論與項目反應(yīng)理論使用的都是間接測量方法,透過被試外在可觀察的行為反應(yīng)估計被試內(nèi)在的心理特質(zhì)水平。
1.2理論基礎(chǔ)的不同點
經(jīng)典測驗理論以真分?jǐn)?shù)理論為基礎(chǔ),建立在實得分?jǐn)?shù)X與真分?jǐn)?shù)T和誤差分?jǐn)?shù)E的關(guān)系上。真分?jǐn)?shù)理論的數(shù)學(xué)模型為:X=T+E。在此基礎(chǔ)上推導(dǎo)出來的一系列假設(shè)都容易得到滿足,所以屬于弱假設(shè)。項目反應(yīng)理論的理論基礎(chǔ)為潛在特質(zhì)理論,并需要滿足一維性假設(shè)、局部獨立性假設(shè),實際上,這些假設(shè)都很難實現(xiàn),因此是強(qiáng)假設(shè)。
由于經(jīng)典測驗理論的弱假設(shè)能被大多數(shù)測驗滿足,所以應(yīng)用廣泛,但同時存在的問題是,經(jīng)典測驗理論認(rèn)為實得分?jǐn)?shù)X與真分?jǐn)?shù)T存在線性關(guān)系且真分?jǐn)?shù)T與誤差分?jǐn)?shù)E不相關(guān),這兩個假設(shè)都不符合事實,必然導(dǎo)致經(jīng)典測驗理論測量誤差增大。而項目反應(yīng)理論的一維性假設(shè)對測驗要求較嚴(yán)格,一方面限制了項目反應(yīng)理論的應(yīng)用范圍,另一方面也提高了測量的準(zhǔn)確程度。
此外,經(jīng)典測驗理論采用的是線性確定性模型,忽略了在某次測驗中可能存在的猜測和遺忘等其它因素的影響。項目反應(yīng)理論使用的是非線性概率模型,只是對被試在某次測驗中作出某種反應(yīng)的概率作出估計,與實際更為接近。
雖然理論模型不同,但經(jīng)典測驗理論與項目反應(yīng)理論都能有效測量到被試的心理特質(zhì)。相對來說,經(jīng)典測驗理論是用被試測驗的實得分?jǐn)?shù)X直接估計被試的特質(zhì)水平,項目反應(yīng)理論則是用項目特征曲線為中介對潛在特質(zhì)θ作間接估計。
2 題目分析的異同
2.1題目分析的相同點
經(jīng)典測驗理論與項目反應(yīng)理論各有一套對題目進(jìn)行分析和篩選的方法。兩者大相徑庭,但都采用了難度和區(qū)分度作為題目分析的指標(biāo),并且都能有效地對客觀題作題目分析。
2.2題目分析的不同點
經(jīng)典測驗理論與項目反應(yīng)理論作題目分析時,兩者各有所長,主要有以下幾點不同:
(1)項目反應(yīng)理論的題目參數(shù)具有樣本獨立性,經(jīng)典測驗理論的題目分析對樣本依賴性大。
因為經(jīng)典測驗理論屬于隨機(jī)抽樣理論,所以在其基礎(chǔ)上編制的測驗強(qiáng)調(diào)所抽取樣本的代表性。題目統(tǒng)計量難度以通過率P來表示。如果抽取的被試的水平高,則通過率高,題目難度低;反之題目難度則高。另一題目統(tǒng)計量區(qū)分度通常以鑒別力指數(shù)D作為指標(biāo)。當(dāng)樣本同質(zhì)性高時,高分組和低分組的得分差異不大,D較小,則區(qū)分度低;當(dāng)樣本異質(zhì)性高時,高分組和低分組得分差異較大,D也會較大,此時區(qū)分度則高。可見,經(jīng)典測量理論下進(jìn)行題目分析,題目統(tǒng)計量的估計隨樣本變化而變化。
除了難度與區(qū)分度,項目反應(yīng)理論還加入了猜測度這一新概念作為題目參數(shù)。另外,項目反應(yīng)理論采用項目特征曲線作為刻畫題目特征的核心。只要樣本容量足夠大和選用了適當(dāng)?shù)臄?shù)學(xué)模型,并通過了擬合度檢驗,項目特征曲線就能與所得數(shù)據(jù)很好地擬合,這時,題目參數(shù)固定不變,不受取樣變化的影響。題目參數(shù)的這一性質(zhì)為實現(xiàn)測驗等值與建立大規(guī)模的題庫提供了條件。
(2)項目反應(yīng)理論將難度參數(shù)與能力參數(shù)置于同一度量系統(tǒng),而經(jīng)典測驗理論的難度統(tǒng)計量與被試特質(zhì)水平的估計脫節(jié)。
經(jīng)典測驗理論的統(tǒng)計量難度的指標(biāo)為通過率,以全體被試作為參照系;而對被試特質(zhì)水平則以實得分?jǐn)?shù)來評價,參照系是測驗的所有題目。由于對難度和特質(zhì)水平的估計采用了不同的參照系,所以即使計算出題目的難度,對評價特定被試的特質(zhì)水平指導(dǎo)意義不大,也無法針對特定被試的水平選擇最適當(dāng)?shù)臏y驗題目來施測。項目反應(yīng)理論把難度參數(shù)與能力參數(shù)置于同一量綱,一方面使在不同測驗或不同樣本條件下對被試潛在特質(zhì)水平的估計不變和可進(jìn)行比較,另一方面還為自適應(yīng)測驗的實施奠定了基礎(chǔ),大大有利于提高測量的精度,減少測量誤差。
(3)與經(jīng)典測驗理論相比,項目反應(yīng)理論對樣本容量要求高得多。
項目反應(yīng)理論作為一種具有蓬勃生命力的現(xiàn)代測驗理論,毫無疑問擁有一些經(jīng)典測驗理論無法比擬的優(yōu)越性,但這些優(yōu)點都必須在樣本容量足夠大的條件下才能夠體現(xiàn)出來。一般來說,項目反應(yīng)理論要求樣本容量在1000人以上,項目特征曲線都能較好地擬合。相對而言,經(jīng)典測驗理論對樣本大小的要求就低得多。
(4)經(jīng)典測驗理論能有效分析主觀題,項目反應(yīng)理論只限用于二級計分模型。
對主觀題作題目分析時,項目反應(yīng)理論束手無策,而經(jīng)典測驗理論仍可以提供難度、區(qū)分度等統(tǒng)計量。盡管經(jīng)典測驗理論對主觀題分析的精確度不太高,但仍不失為一種有效的分析方法。目前,項目反應(yīng)理論還只適用于二級計分模型,對多級計分模型,也都是將其轉(zhuǎn)化為二級計分模型才能處理。這使項目反應(yīng)理論的應(yīng)用囿于客觀題的范疇,極大地限制了項目反應(yīng)理論應(yīng)用的空間。
(5)項目反應(yīng)理論對運算的要求遠(yuǎn)遠(yuǎn)高于經(jīng)典測驗理論。
因為項目反應(yīng)理論需要對題目參數(shù)與被試能力參數(shù)不斷地進(jìn)行擬合,其中包含了大量繁雜的運算,所以項目反應(yīng)理論必須借助于計算機(jī)軟件才能應(yīng)用于實際。而經(jīng)典測驗理論將心理特質(zhì)看成一個連續(xù)變量,通常使用的統(tǒng)計量是平均數(shù)與方差,相比之下,運算簡單得多,即使在過去完全依靠手工計算的時期,也沒有妨礙經(jīng)典測驗理論得到廣泛應(yīng)用。
3誤差估計的異同
3.1誤差估計的相同點
所有的測驗都希望能盡可能準(zhǔn)確地測量所測特質(zhì),減少測量的誤差。經(jīng)典測驗理論與項目反應(yīng)理論都能對全體被試的測量誤差作出估計。
3.2誤差估計的不同點
經(jīng)典測驗理論與項目反應(yīng)理論采用不同的指標(biāo)來衡量測量誤差的大小。經(jīng)典測驗理論通過信度的概念來評價測驗誤差。平行測驗理論是測驗信度建立的基石,但嚴(yán)格的平行測驗并不存在,實際計算得到的信度其實是低限估計,因此作為評價測量誤差指標(biāo)的信度其本身的準(zhǔn)確性就受到質(zhì)疑。此外,經(jīng)典測驗理論假設(shè)測驗對所有被試的測量誤差相同,只能計算出被試的平均測量誤差,忽視了同一測驗對不同水平被試測量誤差不同的客觀事實,導(dǎo)致信度代表的測量誤差意義不明確。
項目反應(yīng)理論提出了題目信息函數(shù)和測驗信息函數(shù)兩個新概念,兩者反映的分別是特定題目與整個測驗所提供的信息量。這兩個信息函數(shù)與被試潛在特質(zhì)的水平直接有關(guān),所以不但能求出全體被試的測量誤差,更有意義的是,還可以對不同水平的被試也求出測量誤差,大大提高了測量的精度。因此,項目反應(yīng)理論以題目信息函數(shù)與測驗信息函數(shù)替代了經(jīng)典測驗理論中反映測驗誤差的信度。此外,這兩個函數(shù)還可用于篩選題目,選用信息量大的題目構(gòu)成測驗,縮短測驗長度,提高效率。
此外,經(jīng)典測驗理論使用效度對測量的系統(tǒng)誤差也作出了估計,而在項目反應(yīng)理論中沒有提出相應(yīng)的概念。
小結(jié)
誠然,經(jīng)典測驗理論發(fā)展至今,其自身無法克服的缺陷日益突出,而項目反應(yīng)理論在題目參數(shù)穩(wěn)定性、對測量誤差的評估等多個方面都彌補(bǔ)了經(jīng)典測驗理論的不足。但是,項目反應(yīng)理論對一維性假設(shè)的條件實際應(yīng)用時常常不能得到滿足,要求采用很大的樣本和適當(dāng)?shù)哪P停荒苡糜诜治鲋饔^題和多級計分模型,沒有論及測驗的系統(tǒng)誤差,這些缺點也大大地限制了項目反應(yīng)理論的應(yīng)用。
現(xiàn)階段,經(jīng)典測驗理論與項目反應(yīng)理論這兩大理論仍將互補(bǔ)長短,共同發(fā)展。只有在項目反應(yīng)理論的研究取得以上不足的突破性進(jìn)展后,項目反應(yīng)理論才有可能取代經(jīng)典測驗理論一直以來在測量領(lǐng)域的統(tǒng)治地位。
參考文獻(xiàn):
[1]張敏強(qiáng).教育測量學(xué).北京:人民教育出版社,1998:135-143.
[2]戴海崎,張鋒,陳雪楓主編.心理與教育測量學(xué).廣州:暨南大學(xué)出版社,1999:423-441.
[3]唐玉寧.三種心理測量理論的信度觀.心理學(xué)報,1994,17(1):33-38.
[4]赫云鵬,王俊秀.關(guān)于心理測驗理論模式的比較.內(nèi)蒙古師大學(xué)報(哲學(xué)社會科學(xué)版),1997,(4):32-36.
[5]郭慶科,房潔.經(jīng)典測驗理論與項目反應(yīng)理論的對比研究.山東師大學(xué)報(自然科學(xué)版),2000,15(3):264-266.
[6]俞曉琳.項目反應(yīng)理論與經(jīng)典測驗理論之比較.南京師大學(xué)報(社會科學(xué)版),1998,(4):74-77.
[7]李黎.項目反應(yīng)理論在心理測量學(xué)中的地位.紹興文理學(xué)院學(xué)報,1999,19(3):114-117.