999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多維數(shù)據(jù)IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值研究

2015-12-27 06:25:26劉紅云
心理學(xué)探新 2015年1期
關(guān)鍵詞:差異方法

劉 玥,劉紅云

(1.四川省教育科學(xué)研究所,成都610225;2.北京師范大學(xué)心理學(xué)院,北京100875)

1 問(wèn)題提出

在教育測(cè)量中,常常會(huì)出現(xiàn)考核同一個(gè)內(nèi)容的多個(gè)測(cè)驗(yàn)形式,為了實(shí)現(xiàn)這些測(cè)驗(yàn)分?jǐn)?shù)之間的比較,會(huì)用到測(cè)驗(yàn)等值的方法。針對(duì)測(cè)驗(yàn)分?jǐn)?shù)的等值,一般可以分為經(jīng)典測(cè)驗(yàn)理論(CTT)下的等值方法和項(xiàng)目反應(yīng)理論(IRT)下的等值方法(Kolen & Brennan,2004)。其中,IRT 真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值就是兩種經(jīng)典的實(shí)現(xiàn)測(cè)驗(yàn)分?jǐn)?shù)等值的方法。它們既能與傳統(tǒng)觀察分?jǐn)?shù)等值方法的目的一致,實(shí)現(xiàn)測(cè)驗(yàn)分?jǐn)?shù)之間的轉(zhuǎn)換,又能結(jié)合IRT 等值的優(yōu)勢(shì),使等值后的項(xiàng)目參數(shù)在同一量尺上,為題庫(kù)建設(shè)中鉚定新加入題目的參數(shù)提供了便利。IRT 真分?jǐn)?shù)等值是當(dāng)項(xiàng)目參數(shù)都被置于同一量度上之后,將兩個(gè)測(cè)驗(yàn)的真分?jǐn)?shù)通過(guò)被試的能力值θ 進(jìn)行鏈接(Kolen & Brennan,2004)。IRT 觀察分?jǐn)?shù)等值是產(chǎn)生兩個(gè)測(cè)驗(yàn)的觀察分?jǐn)?shù)分布。然后,使用傳統(tǒng)的等百分位等值方法來(lái)進(jìn)行等值(Kolen & Brennan,2004)。但是,基于IRT 的等值方法往往需要測(cè)驗(yàn)結(jié)構(gòu)滿足單維性的前提假設(shè)。

然而,在現(xiàn)實(shí)情境里,測(cè)驗(yàn)通常包含多維的結(jié)構(gòu)。如英語(yǔ)測(cè)驗(yàn),就能根據(jù)內(nèi)容分為閱讀,聽(tīng)力,寫(xiě)作等維度。這時(shí),傳統(tǒng)IRT 理論的單維性假設(shè)很容易遭到違背。因此,基于單維IRT 假設(shè)的參數(shù)估計(jì)和IRT 等值結(jié)果會(huì)出現(xiàn)一定的偏差(Reckase,2009)。有很多研究者已經(jīng)致力于開(kāi)發(fā)適用于多維IRT 的等值方法。這些方法主要有多維IRT 相等函數(shù)方法,測(cè)驗(yàn)特征函數(shù)方法,項(xiàng)目特征函數(shù)方法,直接方法(Oshima,Davey,& Lee,2000),LL 方法(Li &Lissitz,2000),Min 的方法(Min,2003),NOP 方法(Reckase & Martineau,2004)和同時(shí)等值的方法(Simon & Davison,2008)等。這些方法和單維IRT 等值方法的主要區(qū)別是,多維IRT 等值不僅需要調(diào)整不同測(cè)驗(yàn)量尺原點(diǎn)和單位大小的差異,還要進(jìn)行量尺旋轉(zhuǎn)和維度相關(guān)調(diào)整等一系列過(guò)程(Reckase,2009)。

在單維IRT 等值中,一些研究比較了IRT 真分?jǐn)?shù)等值與IRT 觀察分?jǐn)?shù)等值(Harris & Crouse,1993;Han,Kolen,& Pohlmann,1997;Lord & Wingersky,1984;劉玥,駱?lè)剑瑒⒓t云,2010)。盡管關(guān)于兩種等值方法是否有區(qū)別存在不一致的結(jié)論,但是大多數(shù)研究證明,IRT 真分?jǐn)?shù)等值與IRT 觀察分?jǐn)?shù)等值的結(jié)果有極高的相似性。在多維IRT 等值中,大多研究關(guān)注于項(xiàng)目參數(shù)的等值,很少有研究應(yīng)用針對(duì)測(cè)驗(yàn)分?jǐn)?shù)等值。Brossman(2010)首次將單維IRT 真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值推廣到多維,并對(duì)這些方法進(jìn)行比較。結(jié)果證明,對(duì)于存在中等程度多維的數(shù)據(jù),幾種多維IRT 等值方法優(yōu)于單維IRT 等值。

在Brossman(2010)的研究中,參數(shù)估計(jì)使用的是邊緣極大似然估計(jì)方法。隨著統(tǒng)計(jì)方法和計(jì)算機(jī)技術(shù)的發(fā)展,貝葉斯估計(jì)的MCMC 算法以其估計(jì)結(jié)果的準(zhǔn)確性得到了越來(lái)越多的應(yīng)用(Yao,Lewis,&Zhang,2008)。因此,基于貝葉斯估計(jì)得到的項(xiàng)目參數(shù),進(jìn)行單維和多維IRT 分?jǐn)?shù)等值,其結(jié)果是否存在差異,是研究主要關(guān)心的問(wèn)題。多維近似單維IRT真分?jǐn)?shù)等值(unidimensional approximation of MIRT true score equating)和多維近似單維IRT 觀察分?jǐn)?shù)等值(unidimensional approximation of MIRT observed score equating),因計(jì)算過(guò)程相對(duì)簡(jiǎn)單,等值效果較好,并且等值的項(xiàng)目參數(shù)與單維IRT 的結(jié)果具有可比性,而具有較大的優(yōu)勢(shì)(Brossman,2010)。因此,選用這兩種方法作為多維IRT 等值方法。等百分位等值不包含多維性假設(shè),并且在相等組設(shè)計(jì)中具有良好穩(wěn)定的結(jié)果,所以等百分位等值將作為其他幾種方法的比較標(biāo)準(zhǔn)(Brossman,2010)。綜上,研究以實(shí)際數(shù)據(jù)為背景,基于貝葉斯估計(jì)的MCMC 方法實(shí)現(xiàn)參數(shù)估計(jì),比較了四種等值方法:單維IRT 真分?jǐn)?shù)等值,單維IRT 觀察分?jǐn)?shù)等值,多維近似單維IRT 真分?jǐn)?shù)等值,多維近似單維IRT 觀察分?jǐn)?shù)等值。研究豐富了多維IRT 的等值方法,為實(shí)際中針對(duì)測(cè)驗(yàn)分?jǐn)?shù)的等值方法的選擇提供了參考。

2 研究方法

2.1 實(shí)驗(yàn)數(shù)據(jù)

研究采用2007 年國(guó)家教育質(zhì)量分析評(píng)估大型初中英語(yǔ)抽樣測(cè)試的數(shù)據(jù)。該英語(yǔ)測(cè)驗(yàn)分為A,B卷。測(cè)試采用相等組等值設(shè)計(jì),即同一所參加測(cè)試的學(xué)生隨機(jī)分為兩組,一組測(cè)試A 卷,一組測(cè)試B卷。因此估計(jì)出的兩套測(cè)驗(yàn)的項(xiàng)目參數(shù)在同一量尺上,項(xiàng)目參數(shù)不需要進(jìn)行量尺轉(zhuǎn)換。每套測(cè)驗(yàn)均由聽(tīng)力和閱讀兩個(gè)部分組成,共40 題。根據(jù)測(cè)驗(yàn)內(nèi)容,可以假設(shè)題目分別屬于兩個(gè)維度。所有題目均為0/1 計(jì)分,測(cè)驗(yàn)總分為原始分。

完成測(cè)驗(yàn)A 的有3242 名考生,完成測(cè)驗(yàn)B 的有3308 名考生。研究要進(jìn)行測(cè)驗(yàn)B 到測(cè)驗(yàn)A 的分?jǐn)?shù)等值。

2.2 等值方法

2.2.1 多維IRT 真分?jǐn)?shù)等值

多維IRT 真分?jǐn)?shù)等值主要是通過(guò)將多維IRT 的參數(shù)估計(jì)結(jié)果合成單維參數(shù),從而采用與單維IRT真分?jǐn)?shù)等值類似的過(guò)程完成,因此又稱為多維近似單維IRT 等值方法(Brossman,2010)。

首先,進(jìn)行多維兩參數(shù)Logistic 模型的參數(shù)估計(jì)。然后,計(jì)算每個(gè)維度的權(quán)重。

利用權(quán)重合成多維近似單維項(xiàng)目參數(shù)。

然后根據(jù)下面的公式將正態(tài)肩形模型系統(tǒng)中的上述參數(shù)轉(zhuǎn)換到Logistic 模型中(Lord,1980)。

這時(shí),多維近似單維能力也可以表示為各個(gè)維度能力參數(shù)的線性組合。

最后,利用多維近似單維IRT 題目參數(shù),就能實(shí)現(xiàn)多維近似單維IRT 真分?jǐn)?shù)等值。

2.2.2 多維IRT 觀察分?jǐn)?shù)等值

多維IRT 觀測(cè)分?jǐn)?shù)等值通過(guò)將多維測(cè)驗(yàn)中每個(gè)維度能力的結(jié)點(diǎn)值轉(zhuǎn)換到單維能力結(jié)點(diǎn)值,然后采用與單維IRT 觀測(cè)分?jǐn)?shù)等值類似的過(guò)程完成,又稱為多維近似單維IRT 觀察分?jǐn)?shù)等值,該方法需要得到被試能力的邊緣分布(Brossman,2010)。可以按照下面的方法求出被試能力分布的結(jié)點(diǎn)與權(quán)重** 結(jié)點(diǎn)與權(quán)重:將連續(xù)的能力分布看做基于有限數(shù)量的能力值的離散分布,其中能力值稱為結(jié)點(diǎn),與之相對(duì)應(yīng)的密度稱為權(quán)重。結(jié)點(diǎn)與權(quán)重可以表示能力的后驗(yàn)分布。這是進(jìn)行IRT 觀察分?jǐn)?shù)等值需要用到的條件。。

第一步,根據(jù)標(biāo)準(zhǔn)多元正態(tài)分布求出每個(gè)維度的結(jié)點(diǎn)和整體的權(quán)重。這個(gè)過(guò)程可以通過(guò)R 語(yǔ)句編程實(shí)現(xiàn)。例如,多維IRT 能力的結(jié)點(diǎn)與權(quán)重可以表示為:

第二步,將每個(gè)維度的結(jié)點(diǎn)值乘以線性轉(zhuǎn)換系數(shù)α 并求和,得到近似單維結(jié)點(diǎn)值。

第三步,將上一步得到的結(jié)果按照結(jié)點(diǎn)從小到大進(jìn)行排序,得到下面的矩陣:

然后,按順序合成結(jié)點(diǎn)與權(quán)重,結(jié)點(diǎn)數(shù)與單維IRT 觀察分?jǐn)?shù)中保持一致。其中,每個(gè)區(qū)間結(jié)點(diǎn)之和作為區(qū)間的結(jié)點(diǎn),每個(gè)區(qū)間的權(quán)重之平均數(shù)作為區(qū)間的權(quán)重。這一步驟是為了使得到的結(jié)點(diǎn)和權(quán)重更加穩(wěn)定。

最后,使用上面得到的參數(shù)、結(jié)點(diǎn)和權(quán)重進(jìn)行多維近似單維IRT 觀察分?jǐn)?shù)等值。

2.3 研究步驟

2.3.1 維度分析

使用DETECT 軟件(Stout,Habing,& Douglas,1996)對(duì)測(cè)驗(yàn)的維度進(jìn)行非參數(shù)方法的分析,檢驗(yàn)測(cè)驗(yàn)是否存在多維結(jié)構(gòu)。

2.3.2 參數(shù)估計(jì)

采用BMIRT 程序(Yao,Lewis,& Zhang,2008),分別完成單維兩參數(shù)Logistic 模型和多維兩參數(shù)Logistic 模型對(duì)數(shù)據(jù)的擬合。

2.3.3 分?jǐn)?shù)等值

研究采用的分?jǐn)?shù)等值方法主要有三類,分別是:單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值、多維近似單維IRT 真分?jǐn)?shù)等值IRT 觀察分?jǐn)?shù)等值,以及等百分位等值。

(1)單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值

根據(jù)標(biāo)準(zhǔn)正態(tài)分布,使用R 語(yǔ)句求出兩組被試能力的結(jié)點(diǎn)與權(quán)重。最后,使用PIE 程序(Hanson &Zeng,1995),完成IRT 真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值。

(2)多維近似單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值

先求出多維近似單維各題目參數(shù),以及能力分布的結(jié)點(diǎn)和權(quán)重。然后使用PIE 程序(Hanson &Zeng,1995),完成多維近似單維IRT 真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值。

(3)等百分位等值

使用RAGE - RGEQUATE(Zeng,Kolen,Hanson,Cui,& Chien,2004)完成等百分位等值和平滑。選擇S=0.01 后平滑的結(jié)果作為最終的等百分位等值結(jié)果。

2.3.4 評(píng)價(jià)標(biāo)準(zhǔn)

(1)DETECT 結(jié)果

根據(jù)DETECT 探索性分析結(jié)果,能夠大致估計(jì)多維IRT 等值是否能有較好的表現(xiàn)。如果DETECT的分類與測(cè)驗(yàn)本身的結(jié)構(gòu)較一致,說(shuō)明每個(gè)維度內(nèi)的題目幾乎指向同一個(gè)方向,這就為多維IRT 等值提供了很好的基礎(chǔ)。

(2)等值標(biāo)準(zhǔn)誤

等值標(biāo)準(zhǔn)誤表示了等百分位等值中的隨機(jī)誤差。Equating Error 程序(Kolen & Brennan,2004)使用Bootstrap 方法計(jì)算等值標(biāo)準(zhǔn)誤。用等百分位等值的分?jǐn)?shù)加減等值標(biāo)準(zhǔn)誤,能得到等百分位等值68%的置信區(qū)間。如果某種等值方法的結(jié)果大部分落在了等百分位等值標(biāo)準(zhǔn)誤置信區(qū)間之外,說(shuō)明這種方法的結(jié)果與等百分位等值顯著不同。

(3)重要的差異(Differences That Matter)

Dorans 等(2003)提出了一種重要的差異(Differences That Matter)評(píng)價(jià)標(biāo)準(zhǔn)。他們認(rèn)為,在特定分?jǐn)?shù)點(diǎn)上,等值結(jié)果之間的差異大于0.5 倍原始分?jǐn)?shù),則為重要的差異。在研究中,用這個(gè)標(biāo)準(zhǔn)衡量某等值方法與等百分位等值的差異。

3 結(jié)果

3.1 兩測(cè)驗(yàn)描述性統(tǒng)計(jì)匯總

表1 是測(cè)驗(yàn)A,B 的描述統(tǒng)計(jì)。

從表中可以看出,兩套試卷上的分?jǐn)?shù)分布略呈負(fù)偏態(tài),說(shuō)明這兩套測(cè)驗(yàn)較為容易。參加測(cè)驗(yàn)的人數(shù)都達(dá)到了3000 以上,保證了單維和多維IRT 參數(shù)估計(jì)都能得到較準(zhǔn)確的結(jié)果。

3.2 維度分析結(jié)果

DETECT 維度分析在探索性分析和驗(yàn)證性分析兩種模式下,分別提供三種指標(biāo)。DETECT 值說(shuō)明測(cè)驗(yàn)在多大程度上符合多維結(jié)構(gòu)。小于0.2 表示單維結(jié)構(gòu),0.2 到0.4 表示弱至中等程度的多維,0.4到1.0 表示中至強(qiáng)程度的多維。IDN 指數(shù)表示測(cè)驗(yàn)在多大程度上符合簡(jiǎn)單結(jié)構(gòu)。接近1 表示數(shù)據(jù)較好地?cái)M合了簡(jiǎn)單結(jié)構(gòu)模型。r 比值顯示了分析結(jié)果穩(wěn)定性的程度。接近1 表示得到的結(jié)果較為穩(wěn)定(Zhang & Stout,1999)。表2 是對(duì)A,B 兩套測(cè)驗(yàn)進(jìn)行維度分析的結(jié)果。

表2 兩測(cè)驗(yàn)DETECT 結(jié)果

通過(guò)DETECT 指數(shù)可以看出,兩套測(cè)驗(yàn)存在著弱至中等強(qiáng)度的多維結(jié)構(gòu)。兩套測(cè)驗(yàn)的IDN 指數(shù)說(shuō)明數(shù)據(jù)基本符合簡(jiǎn)單結(jié)構(gòu)。r 比值證明得到的結(jié)果較為穩(wěn)定。

在DETECT 的探索性分析模式下,將得到的題目維度分類信息與測(cè)驗(yàn)的先驗(yàn)維度分類設(shè)定進(jìn)行比較,總的來(lái)說(shuō)兩種方法的分類是很一致的。可以推測(cè),多維IRT 等值能夠得到較好的結(jié)果。

3.3 參數(shù)估計(jì)結(jié)果

表3 是兩套測(cè)驗(yàn)項(xiàng)目參數(shù)估計(jì)結(jié)果的描述統(tǒng)計(jì)。

表3 兩測(cè)驗(yàn)題目參數(shù)估計(jì)結(jié)果的描述統(tǒng)計(jì)

可以看出,對(duì)于區(qū)分度參數(shù),多維方法得到的均值和標(biāo)準(zhǔn)差小于單維方法。而對(duì)于難度參數(shù),兩種方法得到的均值和標(biāo)準(zhǔn)差是相近的。同時(shí),兩種方法在各參數(shù)估計(jì)結(jié)果上的相關(guān)較高,在難度參數(shù)上兩種方法的估計(jì)結(jié)果更加接近。

3.4 等值標(biāo)準(zhǔn)誤

研究中,等百分位等值標(biāo)準(zhǔn)誤均值為0.285,說(shuō)明等百分位等值包含的隨機(jī)誤差較小。圖1 和圖2分別呈現(xiàn)了各等值方法與等百分位等值置信區(qū)間的關(guān)系。

圖1 兩種真分?jǐn)?shù)等值方法和等百分位等值比較

圖2 兩種觀察分?jǐn)?shù)等值方法和等百分位等值比較

從圖中可以看出,各等值方法與等百分位等值的趨勢(shì)較為一致(相關(guān)達(dá)到0.998 以上)。其中,多維IRT 等值方法與等百分位等值更加相似,而單維IRT 等值方法在很多分?jǐn)?shù)點(diǎn)上的結(jié)果遠(yuǎn)超過(guò)了等百分位等值的標(biāo)準(zhǔn)誤區(qū)間。

3.5 重要的差異

圖3 表示相同分?jǐn)?shù)點(diǎn)上單維IRT 真分?jǐn)?shù)等值、單維IRT 觀測(cè)分?jǐn)?shù)等值、多維近似單維IRT 真分?jǐn)?shù)等值、多維近似IRT 觀測(cè)分?jǐn)?shù)等值與等百分位等值結(jié)果的差異。

圖3 四種等值方法與等百分位等值結(jié)果的差異

根據(jù)定義,超過(guò)縱坐標(biāo)上[-0.5,0.5]這個(gè)區(qū)間的結(jié)果與等百分位等值存在重要的差異。從圖中可以看出,多維IRT 等值方法所包含的重要差異的分?jǐn)?shù)點(diǎn)較單維IRT 等值方法少。并且,兩種多維IRT 等值結(jié)果非常接近,僅在低分段和高分段出現(xiàn)了較大的差異。另外,多維近似單維IRT 觀察分?jǐn)?shù)等值與等百分位等值結(jié)果差異絕對(duì)值的均值和標(biāo)準(zhǔn)差最小,說(shuō)明針對(duì)這批實(shí)際數(shù)據(jù),這種方法與等百分位等值的結(jié)果最為接近。

4 討論

4.1 關(guān)于單維IRT 和多維IRT 等值方法的比較

對(duì)單維和多維IRT 等值方法進(jìn)行比較,首先,這兩類方法得到的等值趨勢(shì)是一致的。這是因?yàn)閮深惙椒▽?duì)題目參數(shù)估計(jì)結(jié)果具有較高的相似性,而得到題目參數(shù)之后,單維和多維IRT 等值的過(guò)程也是類似的。

其次,對(duì)于真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值方法,單維和多維IRT 等值方法之間的差異較大。這主要是由于兩類方法的前提假設(shè)和模型定義不同,盡管在題目參數(shù)估計(jì)中,單維的方法和近似多維方法結(jié)果的相關(guān)很高,但參數(shù)估計(jì)的大小存在差異,這就可能導(dǎo)致兩類等值方法的差異。將兩類等值方法與等百分位等值的結(jié)果做比較,發(fā)現(xiàn)在隨機(jī)等組設(shè)計(jì)下,多維IRT 等值的結(jié)果與等百分位等值的結(jié)果更加接近。這是由于根據(jù)維度分析的結(jié)果,該英語(yǔ)測(cè)驗(yàn)存在著弱至中等強(qiáng)度的多維結(jié)構(gòu),違背了傳統(tǒng)IRT 的單維性假設(shè)。而多維IRT 等值是建立在多維性的假設(shè)下,所以這類等值方法所包含的系統(tǒng)誤差較小,其結(jié)果也與等百分位等值更為相似。另外,在所比較的四種等值方法中,多維IRT 觀察分?jǐn)?shù)等值與等百分位等值的結(jié)果最為接近。一方面歸因于這種方法是建立在多維IRT 的結(jié)構(gòu)下;另一方面是由于觀察分?jǐn)?shù)等值的方法與等百分位等值都利用了被試分布的信息,所以,以等百分位等值作為比較標(biāo)準(zhǔn),可以認(rèn)為在四種等值方法中,多維IRT 觀察分?jǐn)?shù)等值的方法所包含的誤差最小,得到的結(jié)果最準(zhǔn)確。

最后,在整個(gè)分?jǐn)?shù)的量尺上,單維IRT 等值與多維IRT 等值方法的差異并不一致,在一些分?jǐn)?shù)點(diǎn)上單維IRT 和多維IRT 等值方法的差異較小,而在一些分?jǐn)?shù)點(diǎn)上兩種方法的差異較大。產(chǎn)生這種現(xiàn)象的原因可能是,在不同的分?jǐn)?shù)點(diǎn)上,測(cè)驗(yàn)多維性結(jié)構(gòu)對(duì)分?jǐn)?shù)的影響是不同的,即,當(dāng)測(cè)驗(yàn)測(cè)量的結(jié)構(gòu)為多維時(shí),在不同分?jǐn)?shù)點(diǎn)上,考生在兩個(gè)測(cè)驗(yàn)上分?jǐn)?shù)的差異,所代表的意義可能不同。例如,在這兩套英語(yǔ)試卷上,可能對(duì)于低分段的考生,他們分?jǐn)?shù)的差異更大程度上來(lái)自于聽(tīng)力,對(duì)于高分段的考生,他們分?jǐn)?shù)的差異更大程度上來(lái)自于閱讀,而中等分?jǐn)?shù)考生的差異同時(shí)來(lái)自于這兩個(gè)方面。也就是說(shuō),在整個(gè)分?jǐn)?shù)段上,可能一些分?jǐn)?shù)體現(xiàn)了更多的多維性結(jié)構(gòu),而一些分?jǐn)?shù)則顯得更接近單維性結(jié)構(gòu)。因此,在多維性結(jié)構(gòu)較強(qiáng)的分?jǐn)?shù)點(diǎn)上,單維IRT 和多維IRT 等值方法的差異就較大,而在單維性結(jié)構(gòu)較強(qiáng)的分?jǐn)?shù)點(diǎn)上,這兩種方法的結(jié)果就更接近。

4.2 關(guān)于IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值方法的比較

IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值的原理不同。真分?jǐn)?shù)等值是將兩個(gè)測(cè)驗(yàn)上的真分?jǐn)?shù)進(jìn)行鏈接,而觀察分?jǐn)?shù)等值旨在使用統(tǒng)計(jì)的方法對(duì)觀察分?jǐn)?shù)的分布進(jìn)行調(diào)整,從而使得兩個(gè)測(cè)驗(yàn)上觀察分?jǐn)?shù)的分布盡量相似。對(duì)四種等值方法比較可以看出,真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值的差異較小,而單維和多維等值方法的結(jié)果差異相對(duì)較大。這與Brossman(2010)的研究結(jié)果是相似的。Kolen 和Brennan(1995)曾經(jīng)指出,單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值的結(jié)果非常接近,它們最大的區(qū)別可能會(huì)出現(xiàn)在滿分附近,或者是C 參數(shù)估計(jì)之和的分?jǐn)?shù)之下。在劉玥等人(2010)的研究中,也對(duì)單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值進(jìn)行了比較,發(fā)現(xiàn)兩種方法得到的等值結(jié)果基本相等,差別較大的部分出現(xiàn)在被等值測(cè)驗(yàn)的低分?jǐn)?shù)段。

在研究中,真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值表現(xiàn)出很高的一致性,尤其在中高分?jǐn)?shù)段,兩種方法得到的等值結(jié)果幾乎相同。而在低分段和滿分附近,兩種等值方法表現(xiàn)出了一定的差異。這說(shuō)明單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值的規(guī)律,也能延伸到多維IRT 的體系中。另外,相對(duì)于真分?jǐn)?shù)等值的方法,觀察分?jǐn)?shù)等值的方法與等百分位等值的結(jié)果更加接近,這是因?yàn)榈劝俜治坏戎档倪^(guò)程從原理上說(shuō)就是觀察分?jǐn)?shù)等值。

4.3 實(shí)際數(shù)據(jù)中進(jìn)行真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值的建議

在實(shí)際數(shù)據(jù)中,要進(jìn)行IRT 真分?jǐn)?shù)等值和IRT觀察分?jǐn)?shù)等值,首先最好使用多維分析的軟件,對(duì)測(cè)驗(yàn)的多維性及其具體結(jié)構(gòu)進(jìn)行檢驗(yàn)。如果測(cè)驗(yàn)符合單維性結(jié)構(gòu),則可以選用傳統(tǒng)的單維IRT 真分?jǐn)?shù)和觀察分?jǐn)?shù)等值的方法;如果測(cè)驗(yàn)符合多維性結(jié)構(gòu),但是測(cè)驗(yàn)對(duì)維度的先驗(yàn)分類和軟件探索性分析的結(jié)果不一致,則可以考慮通過(guò)一些探索性的方法重新劃分維度,再進(jìn)行維度檢驗(yàn);如果測(cè)驗(yàn)符合多維性結(jié)構(gòu),測(cè)驗(yàn)對(duì)維度的先驗(yàn)分類和軟件探索性分析的結(jié)果也一致,則選用多維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值的方法能得到較好的結(jié)果。

4.4 有待進(jìn)一步研究的問(wèn)題

由于研究采用了實(shí)際數(shù)據(jù),所得到的等值結(jié)果只適用于該等值情境。因此研究得到的結(jié)論具有一定的局限性。并且研究中各等值方法的比較標(biāo)準(zhǔn)為等百分位等值的結(jié)果,但是這種等值方法本身也包含了等值誤差,也不能準(zhǔn)確地反映兩套測(cè)驗(yàn)之間真實(shí)關(guān)系,因此使用它的結(jié)果作為比較標(biāo)準(zhǔn)是帶有偏差的。

另外,目前針對(duì)IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值的研究大部分是針對(duì)實(shí)際數(shù)據(jù)的,模擬研究還較少,沒(méi)有得到廣泛認(rèn)可的等值評(píng)價(jià)標(biāo)準(zhǔn),因此在今后的研究中可以探索如何對(duì)這兩種等值方法的比較進(jìn)行模擬研究。從而使得研究結(jié)論更具有推廣性,為方法的比較和選擇提供參考。

最后,研究使用的多維IRT 分?jǐn)?shù)等值方法,只能實(shí)現(xiàn)總分的等值,不能進(jìn)行維度分?jǐn)?shù)的轉(zhuǎn)換。今后可以出于實(shí)際應(yīng)用的考慮,對(duì)多維數(shù)據(jù)維度分?jǐn)?shù)等值進(jìn)一步探索。

5 結(jié)論

5.1 在研究設(shè)置的等值情境下,四種等值方法和等百分位等值具有相似的趨勢(shì)。

5.2 當(dāng)測(cè)驗(yàn)存在弱至中等程度的多維結(jié)構(gòu)時(shí),基于多維測(cè)驗(yàn)的IRT 真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值方法優(yōu)于單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值方法;多維IRT 觀察分?jǐn)?shù)等值略優(yōu)于多維IRT 真分?jǐn)?shù)等值,但是兩者之間的差異較小。

5.3 在實(shí)際情況下,最好先對(duì)測(cè)驗(yàn)的維度結(jié)構(gòu)進(jìn)行分析,再根據(jù)分析結(jié)果選擇合適的等值方法。如果測(cè)驗(yàn)確實(shí)存在多維結(jié)構(gòu),最好選用多維IRT 的等值方法以減小系統(tǒng)誤差。

劉玥,駱?lè)剑瑒⒓t云.(2010).IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值的對(duì)比研究.心理科學(xué),33(3),676 -680.

Brossman,B.G.(2010). Observed score and true score equating procedures for multidimensional item response theory.University of Iowa.

Dorans,N. J.,Holland,P. W.,Thayer,D. T.,& Tateneni,K.(2003).Invariance of score linking across gender groups for three Advanced Placement Program Examinations. In N. J.Dorans(Ed.),Population invariance of score linking:Theory and applications to Advanced Placement Program examinations(pp.79 -118).Princeton,NJ:Educational Testing Service.

Han,T.,Kolen,M.,& Pohlmann,J. (1997). A comparison among IRT true-and observed-score equatings and traditional equipercentile equating.Applied Measurement in Education,10(2),105 -121.

Hanson,B.,& Zeng,L. (1995). PIE:A computer program for IRT equating(Version 1.0).Iowa City,IA:ACT.

Harris,D.J.,& Crouse,J.D.(1993).A study of criteria used in equating. Applied Measurement in Education,6(3),195 -240.

Kolen,M.J.,& Brennan,R. L. (2004). Test equating,scaling,and linking:Methods and practices.Springer Verlag.

Li,Y.H.,& Lissitz,R.W.(2000).An evaluation of the accuracy of multidimensional IRT linking. Applied Psychological Measurement,24(2),115 -138.

Lord,F(xiàn).M.(1980).Applications of item response theory to practical testing problems. Lawrence Erlbaum Associates New Jersey.

Lord,F(xiàn). M.,& Wingersky,M. S. (1984). Comparison of IRT True - Score and Equipercentile Observed - Score“Equatings”.Applied Psychological Measurement,8(4),453.

Min,K.S.(2003).The impact of scale dilation on the quality of the linking of multidimensional item response theory calibrations. Michigan State University,Department of Counseling,Educational Psychology,and Special Education.

Oshima,T.,Davey,T.,& Lee,K. (2000). Multidimensional linking:Four practical approaches. Journal of Educational Measurement,357 -373.

Reckase,M.D. (2009). Multidimensional item response theory.Springer Verlag.

Reckase,M.,& Martineau,J.A.(2004).The vertica lscaling of science achievement tests. Unpublished Report. Michigan State University.

Simon,M. K. (2008). Comparison of concurrent and separate multidimensional IRT linking of item parameters.University of Minnesota.

Stout,W.,Habing,B.,& Douglas,J.(1996).Conditional covariance-based nonparametric multidimensionality assessment.Applied Psychological Measurement,20(4),331.

Yao,L.,Lewis,D.,& Zhang,L.(2008). An introduction to the application of BMIRT:Bayesian multivariate item response theory software. Training Secession Presented at the Annual Meeting of the National Council on Measurement in Educa -tion,Ny.

Zeng,L.,Kolen,M.,Hanson,B.,Cui,Z.,& Chien,Y.(2004).RAGE-RGEQUATE[Computer software].Iowa City:University of Iowa.

Zhang,J.,& Stout,W. (1999). The theoretical DETECT index of dimensionality and its application to approximate simple structure.Psychometrika,64(2),213 -249.

猜你喜歡
差異方法
相似與差異
找句子差異
學(xué)習(xí)方法
DL/T 868—2014與NB/T 47014—2011主要差異比較與分析
生物為什么會(huì)有差異?
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢(qián)方法
捕魚(yú)
M1型、M2型巨噬細(xì)胞及腫瘤相關(guān)巨噬細(xì)胞中miR-146a表達(dá)的差異
主站蜘蛛池模板: 久久精品无码专区免费| 成人免费网站久久久| 强乱中文字幕在线播放不卡| 热这里只有精品国产热门精品| 国产91无毒不卡在线观看| 无码精油按摩潮喷在线播放 | 亚洲男人的天堂久久香蕉| 中文字幕色站| 91精品国产一区自在线拍| 久久国产亚洲偷自| 国产区免费精品视频| 一区二区自拍| 成人毛片免费观看| 国产69精品久久久久妇女| jizz亚洲高清在线观看| 成人日韩视频| 欧美亚洲日韩中文| 毛片免费网址| аⅴ资源中文在线天堂| 国产情精品嫩草影院88av| 国产精品久久久久鬼色| 欧美黄网站免费观看| 亚洲日本中文字幕乱码中文 | 日韩精品亚洲人旧成在线| 精品无码一区二区三区电影| 欧美激情二区三区| 久久婷婷六月| 日韩在线播放欧美字幕| 色香蕉影院| 国产精品久久久精品三级| 91在线精品麻豆欧美在线| 国产成人亚洲精品无码电影| 亚洲欧美在线精品一区二区| 无码AV高清毛片中国一级毛片| 成人精品午夜福利在线播放| 国产www网站| av一区二区三区在线观看| 国产在线精品人成导航| 国产在线精彩视频论坛| 国产免费看久久久| 久热中文字幕在线| 亚洲日韩精品欧美中文字幕| 久久国产精品国产自线拍| 另类欧美日韩| 热99精品视频| 中文字幕人妻av一区二区| 丁香婷婷综合激情| 午夜成人在线视频| 亚洲欧美日韩成人在线| 国产成人高清精品免费5388| 亚洲免费人成影院| 国产成人精品高清在线| 久久亚洲国产视频| 国产爽歪歪免费视频在线观看| 精品超清无码视频在线观看| 在线欧美日韩| 国产一级毛片高清完整视频版| 亚洲美女高潮久久久久久久| 欧日韩在线不卡视频| 亚洲成在人线av品善网好看| 亚洲 欧美 中文 AⅤ在线视频| 久操中文在线| 日本亚洲成高清一区二区三区| 99精品视频在线观看免费播放| 亚洲中文制服丝袜欧美精品| 性色生活片在线观看| 国产欧美另类| 国产白浆一区二区三区视频在线| 亚洲无码日韩一区| 婷婷伊人五月| 国产人免费人成免费视频| 免费一级成人毛片| 欧美19综合中文字幕| 国产精品制服| 国产精品视屏| 一级全免费视频播放| 在线亚洲小视频| 日本午夜三级| 亚洲精品第一页不卡| 九九九精品成人免费视频7| 人妻精品全国免费视频| 91久久国产综合精品女同我|