經(jīng)典測驗理論與項目反應(yīng)理論之異同比較

2007-12-31 00:00:00黃丹媚

考試周刊 2007年33期

摘要：本文主要從理論基礎(chǔ)、題目分析和誤差估計三方面對經(jīng)典測驗理論與項目反應(yīng)理論的異同作一比較，并提出現(xiàn)階段這兩大測量理論仍將互補(bǔ)長短，共存發(fā)展。

關(guān)鍵詞：經(jīng)典測驗理論項目反應(yīng)理論

自比納編制測量理論以來，經(jīng)典測驗理論歷經(jīng)百年發(fā)展，圍繞著實得分?jǐn)?shù)與真分?jǐn)?shù)和誤差分?jǐn)?shù)的關(guān)系已經(jīng)建立起一套完整的測量理論與統(tǒng)計分析方法，是當(dāng)前占據(jù)統(tǒng)治地位的測量理論。項目反應(yīng)理論作為一種重要的現(xiàn)代測量理論，提出項目特征曲線，反映每道題目上被試某種反應(yīng)的概率與被試的心理特質(zhì)水平的關(guān)系，突破了若干經(jīng)典測驗理論一直以來無法解決的問題，具有廣闊的發(fā)展前景。本文擬主要從理論基礎(chǔ)、題目分析和誤差估計三個方面對這兩大測量理論的異同作一比較。

1 理論基礎(chǔ)的異同

1.1理論基礎(chǔ)的相同點

人的心理特質(zhì)具有內(nèi)在且無法直接測量的特點，所以在心理與教育測量中只能使用間接測量的方法。經(jīng)典測驗理論與項目反應(yīng)理論使用的都是間接測量方法，透過被試外在可觀察的行為反應(yīng)估計被試內(nèi)在的心理特質(zhì)水平。

1.2理論基礎(chǔ)的不同點

經(jīng)典測驗理論以真分?jǐn)?shù)理論為基礎(chǔ)，建立在實得分?jǐn)?shù)X與真分?jǐn)?shù)T和誤差分?jǐn)?shù)E的關(guān)系上。真分?jǐn)?shù)理論的數(shù)學(xué)模型為：X＝T＋E。在此基礎(chǔ)上推導(dǎo)出來的一系列假設(shè)都容易得到滿足，所以屬于弱假設(shè)。項目反應(yīng)理論的理論基礎(chǔ)為潛在特質(zhì)理論，并需要滿足一維性假設(shè)、局部獨立性假設(shè)，實際上，這些假設(shè)都很難實現(xiàn)，因此是強(qiáng)假設(shè)。

由于經(jīng)典測驗理論的弱假設(shè)能被大多數(shù)測驗滿足，所以應(yīng)用廣泛，但同時存在的問題是，經(jīng)典測驗理論認(rèn)為實得分?jǐn)?shù)X與真分?jǐn)?shù)T存在線性關(guān)系且真分?jǐn)?shù)T與誤差分?jǐn)?shù)E不相關(guān)，這兩個假設(shè)都不符合事實，必然導(dǎo)致經(jīng)典測驗理論測量誤差增大。而項目反應(yīng)理論的一維性假設(shè)對測驗要求較嚴(yán)格，一方面限制了項目反應(yīng)理論的應(yīng)用范圍，另一方面也提高了測量的準(zhǔn)確程度。

此外，經(jīng)典測驗理論采用的是線性確定性模型，忽略了在某次測驗中可能存在的猜測和遺忘等其它因素的影響。項目反應(yīng)理論使用的是非線性概率模型，只是對被試在某次測驗中作出某種反應(yīng)的概率作出估計，與實際更為接近。

雖然理論模型不同，但經(jīng)典測驗理論與項目反應(yīng)理論都能有效測量到被試的心理特質(zhì)。相對來說，經(jīng)典測驗理論是用被試測驗的實得分?jǐn)?shù)X直接估計被試的特質(zhì)水平，項目反應(yīng)理論則是用項目特征曲線為中介對潛在特質(zhì)θ作間接估計。

2 題目分析的異同

2.1題目分析的相同點

經(jīng)典測驗理論與項目反應(yīng)理論各有一套對題目進(jìn)行分析和篩選的方法。兩者大相徑庭，但都采用了難度和區(qū)分度作為題目分析的指標(biāo)，并且都能有效地對客觀題作題目分析。

2.2題目分析的不同點

經(jīng)典測驗理論與項目反應(yīng)理論作題目分析時，兩者各有所長，主要有以下幾點不同：

（1）項目反應(yīng)理論的題目參數(shù)具有樣本獨立性，經(jīng)典測驗理論的題目分析對樣本依賴性大。

因為經(jīng)典測驗理論屬于隨機(jī)抽樣理論，所以在其基礎(chǔ)上編制的測驗強(qiáng)調(diào)所抽取樣本的代表性。題目統(tǒng)計量難度以通過率P來表示。如果抽取的被試的水平高，則通過率高，題目難度低；反之題目難度則高。另一題目統(tǒng)計量區(qū)分度通常以鑒別力指數(shù)D作為指標(biāo)。當(dāng)樣本同質(zhì)性高時，高分組和低分組的得分差異不大，D較小，則區(qū)分度低；當(dāng)樣本異質(zhì)性高時，高分組和低分組得分差異較大，D也會較大，此時區(qū)分度則高。可見，經(jīng)典測量理論下進(jìn)行題目分析，題目統(tǒng)計量的估計隨樣本變化而變化。

除了難度與區(qū)分度，項目反應(yīng)理論還加入了猜測度這一新概念作為題目參數(shù)。另外，項目反應(yīng)理論采用項目特征曲線作為刻畫題目特征的核心。只要樣本容量足夠大和選用了適當(dāng)?shù)臄?shù)學(xué)模型，并通過了擬合度檢驗，項目特征曲線就能與所得數(shù)據(jù)很好地擬合，這時，題目參數(shù)固定不變，不受取樣變化的影響。題目參數(shù)的這一性質(zhì)為實現(xiàn)測驗等值與建立大規(guī)模的題庫提供了條件。

（2）項目反應(yīng)理論將難度參數(shù)與能力參數(shù)置于同一度量系統(tǒng)，而經(jīng)典測驗理論的難度統(tǒng)計量與被試特質(zhì)水平的估計脫節(jié)。

經(jīng)典測驗理論的統(tǒng)計量難度的指標(biāo)為通過率，以全體被試作為參照系；而對被試特質(zhì)水平則以實得分?jǐn)?shù)來評價，參照系是測驗的所有題目。由于對難度和特質(zhì)水平的估計采用了不同的參照系，所以即使計算出題目的難度，對評價特定被試的特質(zhì)水平指導(dǎo)意義不大，也無法針對特定被試的水平選擇最適當(dāng)?shù)臏y驗題目來施測。項目反應(yīng)理論把難度參數(shù)與能力參數(shù)置于同一量綱，一方面使在不同測驗或不同樣本條件下對被試潛在特質(zhì)水平的估計不變和可進(jìn)行比較，另一方面還為自適應(yīng)測驗的實施奠定了基礎(chǔ)，大大有利于提高測量的精度，減少測量誤差。

（3）與經(jīng)典測驗理論相比，項目反應(yīng)理論對樣本容量要求高得多。

項目反應(yīng)理論作為一種具有蓬勃生命力的現(xiàn)代測驗理論，毫無疑問擁有一些經(jīng)典測驗理論無法比擬的優(yōu)越性，但這些優(yōu)點都必須在樣本容量足夠大的條件下才能夠體現(xiàn)出來。一般來說，項目反應(yīng)理論要求樣本容量在1000人以上，項目特征曲線都能較好地擬合。相對而言，經(jīng)典測驗理論對樣本大小的要求就低得多。

（4）經(jīng)典測驗理論能有效分析主觀題，項目反應(yīng)理論只限用于二級計分模型。

對主觀題作題目分析時，項目反應(yīng)理論束手無策，而經(jīng)典測驗理論仍可以提供難度、區(qū)分度等統(tǒng)計量。盡管經(jīng)典測驗理論對主觀題分析的精確度不太高，但仍不失為一種有效的分析方法。目前，項目反應(yīng)理論還只適用于二級計分模型，對多級計分模型，也都是將其轉(zhuǎn)化為二級計分模型才能處理。這使項目反應(yīng)理論的應(yīng)用囿于客觀題的范疇，極大地限制了項目反應(yīng)理論應(yīng)用的空間。

（5）項目反應(yīng)理論對運算的要求遠(yuǎn)遠(yuǎn)高于經(jīng)典測驗理論。

因為項目反應(yīng)理論需要對題目參數(shù)與被試能力參數(shù)不斷地進(jìn)行擬合，其中包含了大量繁雜的運算，所以項目反應(yīng)理論必須借助于計算機(jī)軟件才能應(yīng)用于實際。而經(jīng)典測驗理論將心理特質(zhì)看成一個連續(xù)變量，通常使用的統(tǒng)計量是平均數(shù)與方差，相比之下，運算簡單得多，即使在過去完全依靠手工計算的時期，也沒有妨礙經(jīng)典測驗理論得到廣泛應(yīng)用。

3誤差估計的異同

3.1誤差估計的相同點

所有的測驗都希望能盡可能準(zhǔn)確地測量所測特質(zhì)，減少測量的誤差。經(jīng)典測驗理論與項目反應(yīng)理論都能對全體被試的測量誤差作出估計。

3.2誤差估計的不同點

經(jīng)典測驗理論與項目反應(yīng)理論采用不同的指標(biāo)來衡量測量誤差的大小。經(jīng)典測驗理論通過信度的概念來評價測驗誤差。平行測驗理論是測驗信度建立的基石，但嚴(yán)格的平行測驗并不存在，實際計算得到的信度其實是低限估計，因此作為評價測量誤差指標(biāo)的信度其本身的準(zhǔn)確性就受到質(zhì)疑。此外，經(jīng)典測驗理論假設(shè)測驗對所有被試的測量誤差相同，只能計算出被試的平均測量誤差，忽視了同一測驗對不同水平被試測量誤差不同的客觀事實，導(dǎo)致信度代表的測量誤差意義不明確。

項目反應(yīng)理論提出了題目信息函數(shù)和測驗信息函數(shù)兩個新概念，兩者反映的分別是特定題目與整個測驗所提供的信息量。這兩個信息函數(shù)與被試潛在特質(zhì)的水平直接有關(guān)，所以不但能求出全體被試的測量誤差，更有意義的是，還可以對不同水平的被試也求出測量誤差，大大提高了測量的精度。因此，項目反應(yīng)理論以題目信息函數(shù)與測驗信息函數(shù)替代了經(jīng)典測驗理論中反映測驗誤差的信度。此外，這兩個函數(shù)還可用于篩選題目，選用信息量大的題目構(gòu)成測驗，縮短測驗長度，提高效率。

此外，經(jīng)典測驗理論使用效度對測量的系統(tǒng)誤差也作出了估計，而在項目反應(yīng)理論中沒有提出相應(yīng)的概念。

小結(jié)

誠然，經(jīng)典測驗理論發(fā)展至今，其自身無法克服的缺陷日益突出，而項目反應(yīng)理論在題目參數(shù)穩(wěn)定性、對測量誤差的評估等多個方面都彌補(bǔ)了經(jīng)典測驗理論的不足。但是，項目反應(yīng)理論對一維性假設(shè)的條件實際應(yīng)用時常常不能得到滿足，要求采用很大的樣本和適當(dāng)?shù)哪Ｐ停荒苡糜诜治鲋饔^題和多級計分模型，沒有論及測驗的系統(tǒng)誤差，這些缺點也大大地限制了項目反應(yīng)理論的應(yīng)用。

現(xiàn)階段，經(jīng)典測驗理論與項目反應(yīng)理論這兩大理論仍將互補(bǔ)長短，共同發(fā)展。只有在項目反應(yīng)理論的研究取得以上不足的突破性進(jìn)展后，項目反應(yīng)理論才有可能取代經(jīng)典測驗理論一直以來在測量領(lǐng)域的統(tǒng)治地位。

參考文獻(xiàn)：

[1]張敏強(qiáng).教育測量學(xué).北京：人民教育出版社，1998：135-143.

[2]戴海崎，張鋒，陳雪楓主編.心理與教育測量學(xué).廣州：暨南大學(xué)出版社，1999：423-441.

[3]唐玉寧.三種心理測量理論的信度觀.心理學(xué)報，1994，17(1)：33-38.

[4]赫云鵬，王俊秀.關(guān)于心理測驗理論模式的比較.內(nèi)蒙古師大學(xué)報(哲學(xué)社會科學(xué)版)，1997，(4)：32-36.

[5]郭慶科，房潔.經(jīng)典測驗理論與項目反應(yīng)理論的對比研究.山東師大學(xué)報(自然科學(xué)版)，2000，15(3)：264-266.

[6]俞曉琳.項目反應(yīng)理論與經(jīng)典測驗理論之比較.南京師大學(xué)報(社會科學(xué)版)，1998，(4):74-77.

[7]李黎.項目反應(yīng)理論在心理測量學(xué)中的地位.紹興文理學(xué)院學(xué)報，1999，19(3):114-117.

考試周刊2007年33期

考試周刊的其它文章: 運用新理念精彩英語課堂; 提高非英語專業(yè)大學(xué)生的語用能力; 跨文化交際中語用失誤模式對外語教學(xué)的啟示; 高校課堂教學(xué)全面質(zhì)量管理探析; 促進(jìn)班級整體和諧全面提高學(xué)生素質(zhì); 大學(xué)英語口語教學(xué)的思考