多維數(shù)據(jù)IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值研究

2015-12-27 06:25:26劉紅云

心理學(xué)探新 2015年1期

關(guān)鍵詞：差異方法

劉玥，劉紅云

(1.四川省教育科學(xué)研究所，成都610225;2.北京師范大學(xué)心理學(xué)院，北京100875)

1 問(wèn)題提出

在教育測(cè)量中，常常會(huì)出現(xiàn)考核同一個(gè)內(nèi)容的多個(gè)測(cè)驗(yàn)形式，為了實(shí)現(xiàn)這些測(cè)驗(yàn)分?jǐn)?shù)之間的比較，會(huì)用到測(cè)驗(yàn)等值的方法。針對(duì)測(cè)驗(yàn)分?jǐn)?shù)的等值，一般可以分為經(jīng)典測(cè)驗(yàn)理論(CTT)下的等值方法和項(xiàng)目反應(yīng)理論(IRT)下的等值方法(Kolen ＆ Brennan，2004)。其中，IRT 真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值就是兩種經(jīng)典的實(shí)現(xiàn)測(cè)驗(yàn)分?jǐn)?shù)等值的方法。它們既能與傳統(tǒng)觀察分?jǐn)?shù)等值方法的目的一致，實(shí)現(xiàn)測(cè)驗(yàn)分?jǐn)?shù)之間的轉(zhuǎn)換，又能結(jié)合IRT 等值的優(yōu)勢(shì)，使等值后的項(xiàng)目參數(shù)在同一量尺上，為題庫(kù)建設(shè)中鉚定新加入題目的參數(shù)提供了便利。IRT 真分?jǐn)?shù)等值是當(dāng)項(xiàng)目參數(shù)都被置于同一量度上之后，將兩個(gè)測(cè)驗(yàn)的真分?jǐn)?shù)通過(guò)被試的能力值θ 進(jìn)行鏈接(Kolen ＆ Brennan，2004)。IRT 觀察分?jǐn)?shù)等值是產(chǎn)生兩個(gè)測(cè)驗(yàn)的觀察分?jǐn)?shù)分布。然后，使用傳統(tǒng)的等百分位等值方法來(lái)進(jìn)行等值(Kolen ＆ Brennan，2004)。但是，基于IRT 的等值方法往往需要測(cè)驗(yàn)結(jié)構(gòu)滿足單維性的前提假設(shè)。

然而，在現(xiàn)實(shí)情境里，測(cè)驗(yàn)通常包含多維的結(jié)構(gòu)。如英語(yǔ)測(cè)驗(yàn)，就能根據(jù)內(nèi)容分為閱讀，聽(tīng)力，寫(xiě)作等維度。這時(shí)，傳統(tǒng)IRT 理論的單維性假設(shè)很容易遭到違背。因此，基于單維IRT 假設(shè)的參數(shù)估計(jì)和IRT 等值結(jié)果會(huì)出現(xiàn)一定的偏差(Reckase，2009)。有很多研究者已經(jīng)致力于開(kāi)發(fā)適用于多維IRT 的等值方法。這些方法主要有多維IRT 相等函數(shù)方法，測(cè)驗(yàn)特征函數(shù)方法，項(xiàng)目特征函數(shù)方法，直接方法(Oshima，Davey，＆ Lee，2000)，LL 方法(Li ＆Lissitz，2000)，Min 的方法(Min，2003)，NOP 方法(Reckase ＆ Martineau，2004)和同時(shí)等值的方法(Simon ＆ Davison，2008)等。這些方法和單維IRT 等值方法的主要區(qū)別是，多維IRT 等值不僅需要調(diào)整不同測(cè)驗(yàn)量尺原點(diǎn)和單位大小的差異，還要進(jìn)行量尺旋轉(zhuǎn)和維度相關(guān)調(diào)整等一系列過(guò)程(Reckase，2009)。

在單維IRT 等值中，一些研究比較了IRT 真分?jǐn)?shù)等值與IRT 觀察分?jǐn)?shù)等值(Harris ＆ Crouse，1993;Han，Kolen，＆ Pohlmann，1997;Lord ＆ Wingersky，1984;劉玥，駱?lè)剑瑒⒓t云，2010)。盡管關(guān)于兩種等值方法是否有區(qū)別存在不一致的結(jié)論，但是大多數(shù)研究證明，IRT 真分?jǐn)?shù)等值與IRT 觀察分?jǐn)?shù)等值的結(jié)果有極高的相似性。在多維IRT 等值中，大多研究關(guān)注于項(xiàng)目參數(shù)的等值，很少有研究應(yīng)用針對(duì)測(cè)驗(yàn)分?jǐn)?shù)等值。Brossman(2010)首次將單維IRT 真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值推廣到多維，并對(duì)這些方法進(jìn)行比較。結(jié)果證明，對(duì)于存在中等程度多維的數(shù)據(jù)，幾種多維IRT 等值方法優(yōu)于單維IRT 等值。

在Brossman(2010)的研究中，參數(shù)估計(jì)使用的是邊緣極大似然估計(jì)方法。隨著統(tǒng)計(jì)方法和計(jì)算機(jī)技術(shù)的發(fā)展，貝葉斯估計(jì)的MCMC 算法以其估計(jì)結(jié)果的準(zhǔn)確性得到了越來(lái)越多的應(yīng)用(Yao，Lewis，＆Zhang，2008)。因此，基于貝葉斯估計(jì)得到的項(xiàng)目參數(shù)，進(jìn)行單維和多維IRT 分?jǐn)?shù)等值，其結(jié)果是否存在差異，是研究主要關(guān)心的問(wèn)題。多維近似單維IRT真分?jǐn)?shù)等值(unidimensional approximation of MIRT true score equating)和多維近似單維IRT 觀察分?jǐn)?shù)等值(unidimensional approximation of MIRT observed score equating)，因計(jì)算過(guò)程相對(duì)簡(jiǎn)單，等值效果較好，并且等值的項(xiàng)目參數(shù)與單維IRT 的結(jié)果具有可比性，而具有較大的優(yōu)勢(shì)(Brossman，2010)。因此，選用這兩種方法作為多維IRT 等值方法。等百分位等值不包含多維性假設(shè)，并且在相等組設(shè)計(jì)中具有良好穩(wěn)定的結(jié)果，所以等百分位等值將作為其他幾種方法的比較標(biāo)準(zhǔn)(Brossman，2010)。綜上，研究以實(shí)際數(shù)據(jù)為背景，基于貝葉斯估計(jì)的MCMC 方法實(shí)現(xiàn)參數(shù)估計(jì)，比較了四種等值方法:單維IRT 真分?jǐn)?shù)等值，單維IRT 觀察分?jǐn)?shù)等值，多維近似單維IRT 真分?jǐn)?shù)等值，多維近似單維IRT 觀察分?jǐn)?shù)等值。研究豐富了多維IRT 的等值方法，為實(shí)際中針對(duì)測(cè)驗(yàn)分?jǐn)?shù)的等值方法的選擇提供了參考。

2 研究方法

2.1 實(shí)驗(yàn)數(shù)據(jù)

研究采用2007 年國(guó)家教育質(zhì)量分析評(píng)估大型初中英語(yǔ)抽樣測(cè)試的數(shù)據(jù)。該英語(yǔ)測(cè)驗(yàn)分為A，B卷。測(cè)試采用相等組等值設(shè)計(jì)，即同一所參加測(cè)試的學(xué)生隨機(jī)分為兩組，一組測(cè)試A 卷，一組測(cè)試B卷。因此估計(jì)出的兩套測(cè)驗(yàn)的項(xiàng)目參數(shù)在同一量尺上，項(xiàng)目參數(shù)不需要進(jìn)行量尺轉(zhuǎn)換。每套測(cè)驗(yàn)均由聽(tīng)力和閱讀兩個(gè)部分組成，共40 題。根據(jù)測(cè)驗(yàn)內(nèi)容，可以假設(shè)題目分別屬于兩個(gè)維度。所有題目均為0/1 計(jì)分，測(cè)驗(yàn)總分為原始分。

完成測(cè)驗(yàn)A 的有3242 名考生，完成測(cè)驗(yàn)B 的有3308 名考生。研究要進(jìn)行測(cè)驗(yàn)B 到測(cè)驗(yàn)A 的分?jǐn)?shù)等值。

2.2 等值方法

2.2.1 多維IRT 真分?jǐn)?shù)等值

多維IRT 真分?jǐn)?shù)等值主要是通過(guò)將多維IRT 的參數(shù)估計(jì)結(jié)果合成單維參數(shù)，從而采用與單維IRT真分?jǐn)?shù)等值類似的過(guò)程完成，因此又稱為多維近似單維IRT 等值方法(Brossman，2010)。

首先，進(jìn)行多維兩參數(shù)Logistic 模型的參數(shù)估計(jì)。然后，計(jì)算每個(gè)維度的權(quán)重。

利用權(quán)重合成多維近似單維項(xiàng)目參數(shù)。

然后根據(jù)下面的公式將正態(tài)肩形模型系統(tǒng)中的上述參數(shù)轉(zhuǎn)換到Logistic 模型中(Lord，1980)。

這時(shí)，多維近似單維能力也可以表示為各個(gè)維度能力參數(shù)的線性組合。

最后，利用多維近似單維IRT 題目參數(shù)，就能實(shí)現(xiàn)多維近似單維IRT 真分?jǐn)?shù)等值。

2.2.2 多維IRT 觀察分?jǐn)?shù)等值

多維IRT 觀測(cè)分?jǐn)?shù)等值通過(guò)將多維測(cè)驗(yàn)中每個(gè)維度能力的結(jié)點(diǎn)值轉(zhuǎn)換到單維能力結(jié)點(diǎn)值，然后采用與單維IRT 觀測(cè)分?jǐn)?shù)等值類似的過(guò)程完成，又稱為多維近似單維IRT 觀察分?jǐn)?shù)等值，該方法需要得到被試能力的邊緣分布(Brossman，2010)。可以按照下面的方法求出被試能力分布的結(jié)點(diǎn)與權(quán)重** 結(jié)點(diǎn)與權(quán)重:將連續(xù)的能力分布看做基于有限數(shù)量的能力值的離散分布，其中能力值稱為結(jié)點(diǎn)，與之相對(duì)應(yīng)的密度稱為權(quán)重。結(jié)點(diǎn)與權(quán)重可以表示能力的后驗(yàn)分布。這是進(jìn)行IRT 觀察分?jǐn)?shù)等值需要用到的條件。。

第一步，根據(jù)標(biāo)準(zhǔn)多元正態(tài)分布求出每個(gè)維度的結(jié)點(diǎn)和整體的權(quán)重。這個(gè)過(guò)程可以通過(guò)R 語(yǔ)句編程實(shí)現(xiàn)。例如，多維IRT 能力的結(jié)點(diǎn)與權(quán)重可以表示為:

第二步，將每個(gè)維度的結(jié)點(diǎn)值乘以線性轉(zhuǎn)換系數(shù)α 并求和，得到近似單維結(jié)點(diǎn)值。

第三步，將上一步得到的結(jié)果按照結(jié)點(diǎn)從小到大進(jìn)行排序，得到下面的矩陣:

然后，按順序合成結(jié)點(diǎn)與權(quán)重，結(jié)點(diǎn)數(shù)與單維IRT 觀察分?jǐn)?shù)中保持一致。其中，每個(gè)區(qū)間結(jié)點(diǎn)之和作為區(qū)間的結(jié)點(diǎn)，每個(gè)區(qū)間的權(quán)重之平均數(shù)作為區(qū)間的權(quán)重。這一步驟是為了使得到的結(jié)點(diǎn)和權(quán)重更加穩(wěn)定。

最后，使用上面得到的參數(shù)、結(jié)點(diǎn)和權(quán)重進(jìn)行多維近似單維IRT 觀察分?jǐn)?shù)等值。

2.3 研究步驟

2.3.1 維度分析

使用DETECT 軟件(Stout，Habing，＆ Douglas，1996)對(duì)測(cè)驗(yàn)的維度進(jìn)行非參數(shù)方法的分析，檢驗(yàn)測(cè)驗(yàn)是否存在多維結(jié)構(gòu)。

2.3.2 參數(shù)估計(jì)

采用BMIRT 程序(Yao，Lewis，＆ Zhang，2008)，分別完成單維兩參數(shù)Logistic 模型和多維兩參數(shù)Logistic 模型對(duì)數(shù)據(jù)的擬合。

2.3.3 分?jǐn)?shù)等值

研究采用的分?jǐn)?shù)等值方法主要有三類，分別是:單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值、多維近似單維IRT 真分?jǐn)?shù)等值IRT 觀察分?jǐn)?shù)等值，以及等百分位等值。

(1)單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值

根據(jù)標(biāo)準(zhǔn)正態(tài)分布，使用R 語(yǔ)句求出兩組被試能力的結(jié)點(diǎn)與權(quán)重。最后，使用PIE 程序(Hanson ＆Zeng，1995)，完成IRT 真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值。

(2)多維近似單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值

先求出多維近似單維各題目參數(shù)，以及能力分布的結(jié)點(diǎn)和權(quán)重。然后使用PIE 程序(Hanson ＆Zeng，1995)，完成多維近似單維IRT 真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值。

(3)等百分位等值

使用RAGE - RGEQUATE(Zeng，Kolen，Hanson，Cui，＆ Chien，2004)完成等百分位等值和平滑。選擇S=0.01 后平滑的結(jié)果作為最終的等百分位等值結(jié)果。

2.3.4 評(píng)價(jià)標(biāo)準(zhǔn)

(1)DETECT 結(jié)果

根據(jù)DETECT 探索性分析結(jié)果，能夠大致估計(jì)多維IRT 等值是否能有較好的表現(xiàn)。如果DETECT的分類與測(cè)驗(yàn)本身的結(jié)構(gòu)較一致，說(shuō)明每個(gè)維度內(nèi)的題目幾乎指向同一個(gè)方向，這就為多維IRT 等值提供了很好的基礎(chǔ)。

(2)等值標(biāo)準(zhǔn)誤

等值標(biāo)準(zhǔn)誤表示了等百分位等值中的隨機(jī)誤差。Equating Error 程序(Kolen ＆ Brennan，2004)使用Bootstrap 方法計(jì)算等值標(biāo)準(zhǔn)誤。用等百分位等值的分?jǐn)?shù)加減等值標(biāo)準(zhǔn)誤，能得到等百分位等值68%的置信區(qū)間。如果某種等值方法的結(jié)果大部分落在了等百分位等值標(biāo)準(zhǔn)誤置信區(qū)間之外，說(shuō)明這種方法的結(jié)果與等百分位等值顯著不同。

(3)重要的差異(Differences That Matter)

Dorans 等(2003)提出了一種重要的差異(Differences That Matter)評(píng)價(jià)標(biāo)準(zhǔn)。他們認(rèn)為，在特定分?jǐn)?shù)點(diǎn)上，等值結(jié)果之間的差異大于0.5 倍原始分?jǐn)?shù)，則為重要的差異。在研究中，用這個(gè)標(biāo)準(zhǔn)衡量某等值方法與等百分位等值的差異。

3 結(jié)果

3.1 兩測(cè)驗(yàn)描述性統(tǒng)計(jì)匯總

表1 是測(cè)驗(yàn)A，B 的描述統(tǒng)計(jì)。

從表中可以看出，兩套試卷上的分?jǐn)?shù)分布略呈負(fù)偏態(tài)，說(shuō)明這兩套測(cè)驗(yàn)較為容易。參加測(cè)驗(yàn)的人數(shù)都達(dá)到了3000 以上，保證了單維和多維IRT 參數(shù)估計(jì)都能得到較準(zhǔn)確的結(jié)果。

3.2 維度分析結(jié)果

DETECT 維度分析在探索性分析和驗(yàn)證性分析兩種模式下，分別提供三種指標(biāo)。DETECT 值說(shuō)明測(cè)驗(yàn)在多大程度上符合多維結(jié)構(gòu)。小于0.2 表示單維結(jié)構(gòu)，0.2 到0.4 表示弱至中等程度的多維，0.4到1.0 表示中至強(qiáng)程度的多維。IDN 指數(shù)表示測(cè)驗(yàn)在多大程度上符合簡(jiǎn)單結(jié)構(gòu)。接近1 表示數(shù)據(jù)較好地?cái)M合了簡(jiǎn)單結(jié)構(gòu)模型。r 比值顯示了分析結(jié)果穩(wěn)定性的程度。接近1 表示得到的結(jié)果較為穩(wěn)定(Zhang ＆ Stout，1999)。表2 是對(duì)A，B 兩套測(cè)驗(yàn)進(jìn)行維度分析的結(jié)果。

表2 兩測(cè)驗(yàn)DETECT 結(jié)果

通過(guò)DETECT 指數(shù)可以看出，兩套測(cè)驗(yàn)存在著弱至中等強(qiáng)度的多維結(jié)構(gòu)。兩套測(cè)驗(yàn)的IDN 指數(shù)說(shuō)明數(shù)據(jù)基本符合簡(jiǎn)單結(jié)構(gòu)。r 比值證明得到的結(jié)果較為穩(wěn)定。

在DETECT 的探索性分析模式下，將得到的題目維度分類信息與測(cè)驗(yàn)的先驗(yàn)維度分類設(shè)定進(jìn)行比較，總的來(lái)說(shuō)兩種方法的分類是很一致的。可以推測(cè)，多維IRT 等值能夠得到較好的結(jié)果。

3.3 參數(shù)估計(jì)結(jié)果

表3 是兩套測(cè)驗(yàn)項(xiàng)目參數(shù)估計(jì)結(jié)果的描述統(tǒng)計(jì)。

表3 兩測(cè)驗(yàn)題目參數(shù)估計(jì)結(jié)果的描述統(tǒng)計(jì)

可以看出，對(duì)于區(qū)分度參數(shù)，多維方法得到的均值和標(biāo)準(zhǔn)差小于單維方法。而對(duì)于難度參數(shù)，兩種方法得到的均值和標(biāo)準(zhǔn)差是相近的。同時(shí)，兩種方法在各參數(shù)估計(jì)結(jié)果上的相關(guān)較高，在難度參數(shù)上兩種方法的估計(jì)結(jié)果更加接近。

3.4 等值標(biāo)準(zhǔn)誤

研究中，等百分位等值標(biāo)準(zhǔn)誤均值為0.285，說(shuō)明等百分位等值包含的隨機(jī)誤差較小。圖1 和圖2分別呈現(xiàn)了各等值方法與等百分位等值置信區(qū)間的關(guān)系。

圖1 兩種真分?jǐn)?shù)等值方法和等百分位等值比較

圖2 兩種觀察分?jǐn)?shù)等值方法和等百分位等值比較

從圖中可以看出，各等值方法與等百分位等值的趨勢(shì)較為一致(相關(guān)達(dá)到0.998 以上)。其中，多維IRT 等值方法與等百分位等值更加相似，而單維IRT 等值方法在很多分?jǐn)?shù)點(diǎn)上的結(jié)果遠(yuǎn)超過(guò)了等百分位等值的標(biāo)準(zhǔn)誤區(qū)間。

3.5 重要的差異

圖3 表示相同分?jǐn)?shù)點(diǎn)上單維IRT 真分?jǐn)?shù)等值、單維IRT 觀測(cè)分?jǐn)?shù)等值、多維近似單維IRT 真分?jǐn)?shù)等值、多維近似IRT 觀測(cè)分?jǐn)?shù)等值與等百分位等值結(jié)果的差異。

圖3 四種等值方法與等百分位等值結(jié)果的差異

根據(jù)定義，超過(guò)縱坐標(biāo)上［-0.5，0.5］這個(gè)區(qū)間的結(jié)果與等百分位等值存在重要的差異。從圖中可以看出，多維IRT 等值方法所包含的重要差異的分?jǐn)?shù)點(diǎn)較單維IRT 等值方法少。并且，兩種多維IRT 等值結(jié)果非常接近，僅在低分段和高分段出現(xiàn)了較大的差異。另外，多維近似單維IRT 觀察分?jǐn)?shù)等值與等百分位等值結(jié)果差異絕對(duì)值的均值和標(biāo)準(zhǔn)差最小，說(shuō)明針對(duì)這批實(shí)際數(shù)據(jù)，這種方法與等百分位等值的結(jié)果最為接近。

4 討論

4.1 關(guān)于單維IRT 和多維IRT 等值方法的比較

對(duì)單維和多維IRT 等值方法進(jìn)行比較，首先，這兩類方法得到的等值趨勢(shì)是一致的。這是因?yàn)閮深惙椒▽?duì)題目參數(shù)估計(jì)結(jié)果具有較高的相似性，而得到題目參數(shù)之后，單維和多維IRT 等值的過(guò)程也是類似的。

其次，對(duì)于真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值方法，單維和多維IRT 等值方法之間的差異較大。這主要是由于兩類方法的前提假設(shè)和模型定義不同，盡管在題目參數(shù)估計(jì)中，單維的方法和近似多維方法結(jié)果的相關(guān)很高，但參數(shù)估計(jì)的大小存在差異，這就可能導(dǎo)致兩類等值方法的差異。將兩類等值方法與等百分位等值的結(jié)果做比較，發(fā)現(xiàn)在隨機(jī)等組設(shè)計(jì)下，多維IRT 等值的結(jié)果與等百分位等值的結(jié)果更加接近。這是由于根據(jù)維度分析的結(jié)果，該英語(yǔ)測(cè)驗(yàn)存在著弱至中等強(qiáng)度的多維結(jié)構(gòu)，違背了傳統(tǒng)IRT 的單維性假設(shè)。而多維IRT 等值是建立在多維性的假設(shè)下，所以這類等值方法所包含的系統(tǒng)誤差較小，其結(jié)果也與等百分位等值更為相似。另外，在所比較的四種等值方法中，多維IRT 觀察分?jǐn)?shù)等值與等百分位等值的結(jié)果最為接近。一方面歸因于這種方法是建立在多維IRT 的結(jié)構(gòu)下;另一方面是由于觀察分?jǐn)?shù)等值的方法與等百分位等值都利用了被試分布的信息，所以，以等百分位等值作為比較標(biāo)準(zhǔn)，可以認(rèn)為在四種等值方法中，多維IRT 觀察分?jǐn)?shù)等值的方法所包含的誤差最小，得到的結(jié)果最準(zhǔn)確。

最后，在整個(gè)分?jǐn)?shù)的量尺上，單維IRT 等值與多維IRT 等值方法的差異并不一致，在一些分?jǐn)?shù)點(diǎn)上單維IRT 和多維IRT 等值方法的差異較小，而在一些分?jǐn)?shù)點(diǎn)上兩種方法的差異較大。產(chǎn)生這種現(xiàn)象的原因可能是，在不同的分?jǐn)?shù)點(diǎn)上，測(cè)驗(yàn)多維性結(jié)構(gòu)對(duì)分?jǐn)?shù)的影響是不同的，即，當(dāng)測(cè)驗(yàn)測(cè)量的結(jié)構(gòu)為多維時(shí)，在不同分?jǐn)?shù)點(diǎn)上，考生在兩個(gè)測(cè)驗(yàn)上分?jǐn)?shù)的差異，所代表的意義可能不同。例如，在這兩套英語(yǔ)試卷上，可能對(duì)于低分段的考生，他們分?jǐn)?shù)的差異更大程度上來(lái)自于聽(tīng)力，對(duì)于高分段的考生，他們分?jǐn)?shù)的差異更大程度上來(lái)自于閱讀，而中等分?jǐn)?shù)考生的差異同時(shí)來(lái)自于這兩個(gè)方面。也就是說(shuō)，在整個(gè)分?jǐn)?shù)段上，可能一些分?jǐn)?shù)體現(xiàn)了更多的多維性結(jié)構(gòu)，而一些分?jǐn)?shù)則顯得更接近單維性結(jié)構(gòu)。因此，在多維性結(jié)構(gòu)較強(qiáng)的分?jǐn)?shù)點(diǎn)上，單維IRT 和多維IRT 等值方法的差異就較大，而在單維性結(jié)構(gòu)較強(qiáng)的分?jǐn)?shù)點(diǎn)上，這兩種方法的結(jié)果就更接近。

4.2 關(guān)于IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值方法的比較

IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值的原理不同。真分?jǐn)?shù)等值是將兩個(gè)測(cè)驗(yàn)上的真分?jǐn)?shù)進(jìn)行鏈接，而觀察分?jǐn)?shù)等值旨在使用統(tǒng)計(jì)的方法對(duì)觀察分?jǐn)?shù)的分布進(jìn)行調(diào)整，從而使得兩個(gè)測(cè)驗(yàn)上觀察分?jǐn)?shù)的分布盡量相似。對(duì)四種等值方法比較可以看出，真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值的差異較小，而單維和多維等值方法的結(jié)果差異相對(duì)較大。這與Brossman(2010)的研究結(jié)果是相似的。Kolen 和Brennan(1995)曾經(jīng)指出，單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值的結(jié)果非常接近，它們最大的區(qū)別可能會(huì)出現(xiàn)在滿分附近，或者是C 參數(shù)估計(jì)之和的分?jǐn)?shù)之下。在劉玥等人(2010)的研究中，也對(duì)單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值進(jìn)行了比較，發(fā)現(xiàn)兩種方法得到的等值結(jié)果基本相等，差別較大的部分出現(xiàn)在被等值測(cè)驗(yàn)的低分?jǐn)?shù)段。

在研究中，真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值表現(xiàn)出很高的一致性，尤其在中高分?jǐn)?shù)段，兩種方法得到的等值結(jié)果幾乎相同。而在低分段和滿分附近，兩種等值方法表現(xiàn)出了一定的差異。這說(shuō)明單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值的規(guī)律，也能延伸到多維IRT 的體系中。另外，相對(duì)于真分?jǐn)?shù)等值的方法，觀察分?jǐn)?shù)等值的方法與等百分位等值的結(jié)果更加接近，這是因?yàn)榈劝俜治坏戎档倪^(guò)程從原理上說(shuō)就是觀察分?jǐn)?shù)等值。

4.3 實(shí)際數(shù)據(jù)中進(jìn)行真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值的建議

在實(shí)際數(shù)據(jù)中，要進(jìn)行IRT 真分?jǐn)?shù)等值和IRT觀察分?jǐn)?shù)等值，首先最好使用多維分析的軟件，對(duì)測(cè)驗(yàn)的多維性及其具體結(jié)構(gòu)進(jìn)行檢驗(yàn)。如果測(cè)驗(yàn)符合單維性結(jié)構(gòu)，則可以選用傳統(tǒng)的單維IRT 真分?jǐn)?shù)和觀察分?jǐn)?shù)等值的方法;如果測(cè)驗(yàn)符合多維性結(jié)構(gòu)，但是測(cè)驗(yàn)對(duì)維度的先驗(yàn)分類和軟件探索性分析的結(jié)果不一致，則可以考慮通過(guò)一些探索性的方法重新劃分維度，再進(jìn)行維度檢驗(yàn);如果測(cè)驗(yàn)符合多維性結(jié)構(gòu)，測(cè)驗(yàn)對(duì)維度的先驗(yàn)分類和軟件探索性分析的結(jié)果也一致，則選用多維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值的方法能得到較好的結(jié)果。

4.4 有待進(jìn)一步研究的問(wèn)題

由于研究采用了實(shí)際數(shù)據(jù)，所得到的等值結(jié)果只適用于該等值情境。因此研究得到的結(jié)論具有一定的局限性。并且研究中各等值方法的比較標(biāo)準(zhǔn)為等百分位等值的結(jié)果，但是這種等值方法本身也包含了等值誤差，也不能準(zhǔn)確地反映兩套測(cè)驗(yàn)之間真實(shí)關(guān)系，因此使用它的結(jié)果作為比較標(biāo)準(zhǔn)是帶有偏差的。

另外，目前針對(duì)IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值的研究大部分是針對(duì)實(shí)際數(shù)據(jù)的，模擬研究還較少，沒(méi)有得到廣泛認(rèn)可的等值評(píng)價(jià)標(biāo)準(zhǔn)，因此在今后的研究中可以探索如何對(duì)這兩種等值方法的比較進(jìn)行模擬研究。從而使得研究結(jié)論更具有推廣性，為方法的比較和選擇提供參考。

最后，研究使用的多維IRT 分?jǐn)?shù)等值方法，只能實(shí)現(xiàn)總分的等值，不能進(jìn)行維度分?jǐn)?shù)的轉(zhuǎn)換。今后可以出于實(shí)際應(yīng)用的考慮，對(duì)多維數(shù)據(jù)維度分?jǐn)?shù)等值進(jìn)一步探索。

5 結(jié)論

5.1 在研究設(shè)置的等值情境下，四種等值方法和等百分位等值具有相似的趨勢(shì)。

5.2 當(dāng)測(cè)驗(yàn)存在弱至中等程度的多維結(jié)構(gòu)時(shí)，基于多維測(cè)驗(yàn)的IRT 真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值方法優(yōu)于單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值方法;多維IRT 觀察分?jǐn)?shù)等值略優(yōu)于多維IRT 真分?jǐn)?shù)等值，但是兩者之間的差異較小。

5.3 在實(shí)際情況下，最好先對(duì)測(cè)驗(yàn)的維度結(jié)構(gòu)進(jìn)行分析，再根據(jù)分析結(jié)果選擇合適的等值方法。如果測(cè)驗(yàn)確實(shí)存在多維結(jié)構(gòu)，最好選用多維IRT 的等值方法以減小系統(tǒng)誤差。

劉玥，駱?lè)剑瑒⒓t云.(2010).IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值的對(duì)比研究.心理科學(xué)，33(3)，676 -680.

Brossman，B.G.(2010). Observed score and true score equating procedures for multidimensional item response theory.University of Iowa.

Dorans，N. J.，Holland，P. W.，Thayer，D. T.，＆ Tateneni，K.(2003).Invariance of score linking across gender groups for three Advanced Placement Program Examinations. In N. J.Dorans(Ed.)，Population invariance of score linking:Theory and applications to Advanced Placement Program examinations(pp.79 -118).Princeton，NJ:Educational Testing Service.

Han，T.，Kolen，M.，＆ Pohlmann，J. (1997). A comparison among IRT true-and observed-score equatings and traditional equipercentile equating.Applied Measurement in Education，10(2)，105 -121.

Hanson，B.，＆ Zeng，L. (1995). PIE:A computer program for IRT equating(Version 1.0).Iowa City，IA:ACT.

Harris，D.J.，＆ Crouse，J.D.(1993).A study of criteria used in equating. Applied Measurement in Education，6(3)，195 -240.

Kolen，M.J.，＆ Brennan，R. L. (2004). Test equating，scaling，and linking:Methods and practices.Springer Verlag.

Li，Y.H.，＆ Lissitz，R.W.(2000).An evaluation of the accuracy of multidimensional IRT linking. Applied Psychological Measurement，24(2)，115 -138.

Lord，F(xiàn).M.(1980).Applications of item response theory to practical testing problems. Lawrence Erlbaum Associates New Jersey.

Lord，F(xiàn). M.，＆ Wingersky，M. S. (1984). Comparison of IRT True - Score and Equipercentile Observed - Score“Equatings”.Applied Psychological Measurement，8(4)，453.

Min，K.S.(2003).The impact of scale dilation on the quality of the linking of multidimensional item response theory calibrations. Michigan State University，Department of Counseling，Educational Psychology，and Special Education.

Oshima，T.，Davey，T.，＆ Lee，K. (2000). Multidimensional linking:Four practical approaches. Journal of Educational Measurement，357 -373.

Reckase，M.D. (2009). Multidimensional item response theory.Springer Verlag.

Reckase，M.，＆ Martineau，J.A.(2004).The vertica lscaling of science achievement tests. Unpublished Report. Michigan State University.

Simon，M. K. (2008). Comparison of concurrent and separate multidimensional IRT linking of item parameters.University of Minnesota.

Stout，W.，Habing，B.，＆ Douglas，J.(1996).Conditional covariance-based nonparametric multidimensionality assessment.Applied Psychological Measurement，20(4)，331.

Yao，L.，Lewis，D.，＆ Zhang，L.(2008). An introduction to the application of BMIRT:Bayesian multivariate item response theory software. Training Secession Presented at the Annual Meeting of the National Council on Measurement in Educa -tion，Ny.

Zeng，L.，Kolen，M.，Hanson，B.，Cui，Z.，＆ Chien，Y.(2004).RAGE-RGEQUATE［Computer software］.Iowa City:University of Iowa.

Zhang，J.，＆ Stout，W. (1999). The theoretical DETECT index of dimensionality and its application to approximate simple structure.Psychometrika，64(2)，213 -249.