999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

IRT測驗等值模型的選擇——以廣東佛山市中考數學實測數據為例

2012-01-03 09:21:12黎光明張敏強
中國考試 2012年2期
關鍵詞:標準方法模型

黎光明 張敏強

IRT測驗等值模型的選擇
——以廣東佛山市中考數學實測數據為例

黎光明 張敏強

以廣東省佛山市中考數學實測數據為例,說明IRT測驗等值模型的選擇過程,其基本步驟包括等值設計、參數估計、量表化和測驗等值等。供選擇的四種IRT測驗等值模型分別為SL、SN、NR和GPCM模型。分析發現,等值誤差由小到大依次是SL、SN、NR和GPCM,SL與GPCM、NR存在顯著性差異(p<0.001),SN與GPCM、NR存在顯著性差異(p<0.001),GPCM與NR 存在顯著性差異(p<0.001),但SL與SN不存在顯著性差異(p>0.05)。結果表明:(1)從模型等值的效果看,SL和SN最優且相當,NR等值效果欠佳,GPCM等值變異最大,效果最差;(2)選擇IRT的SL或SN等級反應模型進行此類測驗等值較為合適。

中考數學實測數據;項目反應理論(IRT);測驗等值;心理與教育測量

1 引言

測驗等值是項目反應理論研究的重要內容,是題庫建設和進行自適應測驗的基礎。測驗等值的目的是為了將不同測驗形式的分數轉換到同一個分數量尺上,以便將不同的測驗結果進行比較[1]。不論是基于經典測量理論(Classic Test Theory,CTT)的測驗分數等值,還是基于項目反應理論(Item Response Theory,IRT)的測驗分數等值,由于存在各種模型、設計和方法,人們不得不對它們進行比較,以選擇出適合數據資料的模型、設計和方法。

近年來,國內一些學者[2][3][4]對等值設計及方法均有探討,但對等值模型的比較研究較少。實際上,在測量理論的實際應用中,如進行題庫建設或自適應測驗,需要選擇合適的反應模型來進行等值,不同的模型適合于不同的等值數據。與CTT等值模型相比,由于IRT等值模型能夠進行項目參數等值,IRT等值模型具有更多優點,所應用的范圍更為廣泛[5]。但是,IRT存在多種反應模型,既有二級反應模型,也有多級反應模型,所選擇的反應模型不同,可能會有不同的等值結果。國內以往的一些IRT等值研究[6][7],大多數是基于某一種模型之下,沒有考察多種反應模型等值比較問題。那么,這就存在以下問題:一是沒有給出所選等值模型的充分理由,雖然有些研究給出了一些模型資料檢驗的一些指標,但檢驗并不充分;二是所選模型可能存在多種,理論上應該一一檢驗并進行比較,僅考察一種模型,其做法顯得主觀化。因此,對IRT測驗分數等值,需要比較供等值的多種反應模型。

Kolen和Brennan(2004)[8]根據不同模型的等值要求,給出了經典測量理論下不同等值模型的觀察分數和真分數標準誤,并對它們進行了比較研究。Kim(2005)等人[9]根據所設定的一些等值標準,比較了IRT三參數Logistic模型與強真分數理論下的Be?tas 4模型的真分數及觀察分數的等值結果。Von Davier,Alina和 Wilson(2008)[10]對包含二值記分的數據資料進行了不同IRT模型下的測驗真分數等值比較。但是,這些學者并沒有在相同條件下對多種等級IRT等值模型進行過比較。

國內各種教育與心理測驗所得的數據資料,常常既包含二級記分的題目,也包含多級記分的題目。根據此種實際情況,應該選擇IRT的多級反應模型來進行數據等值,因為二級反應模型可看作是多級反應模型的特例。在等值的實際工作中,常常需要報告測驗的觀察分數,即使采用真分數等值,最后也要表達成相應的觀察分數。相應地,本研究采用測驗的觀察分數來進行等值。

研究可供選擇的IRT多級反應模型包括:Same?jima(1969)邏輯斯蒂克等級反應模型(SL)、Sameji?ma(1972)正態肩形等級反應模型(SN)、Muraki(1992)拓廣分部評分模型(GPCM)、Bock(1972)稱名反應模型(NR)。基于這四種IRT多級反應模型,用實測數據作測驗觀察分數等值,以比較這四種IRT多級反應模型的等值精確度,從而選出適合數據資料等值的IRT多級反應模型。

2 方法

2.1 數據來源

由廣東省佛山市教育局提供的2005年“中考數學”實測數據[2]。2005年佛山市普教進行課程改革,分為“課改實驗區”和“非課改實驗區”?!爸锌紨祵W”相應分為課改區的測驗X和非課改區的測驗Y。課改區有考生50 902人,非課改區有考生10 882人。測驗X、測驗Y各有24道題,其中客觀題15道,主觀題9道。測驗X和測驗Y有一個錨測驗V,測驗V的主客觀題共9道。

2.2 等值設計與方法

課改區與非課改區考生能力有所差異,且測驗X與Y中有一個共用錨測驗,本研究采用非等組錨測驗設計作為研究的等值設計。IRT等值方法主要有 MM(Mean/Mean)、MS(Mean/Sigma)、HA(Haeba?ra)和 SL(Stocking-Lord)方法。Stocking-Lord是基于項目特征曲線等值方法,具有較多優良特性,本研究統一選用此種方法來進行測驗等值。

2.3 等值步驟及工具

2.3.1 參數估計

依據各種等值模型分別對測驗X和測驗Y進行參數估計,得出各測驗的項目參數值。使用的軟件是 Parscale 3.5[11]和 Multilog 7.0[12],其中 Parscale用于估計SL、SN和GPCM的參數,Multilog軟件用于估計NR的參數。

2.3.2 量表化

將測驗X和測驗Y所得兩測驗的項目參數進行量表化(Scaling),即統一量綱,使用的是STUIRT軟件[13]。

2.3.3 測驗等值

將測驗X和測驗Y量表化結果,通過POLYE?QUATE軟件[14]進行等值轉換,就將得到四種IRT模型下的測驗觀察分數等值結果。

2.4 比較基準和標準

2.4.1 比較基準

選擇某種CTT等值方法作為四種IRT模型觀察分數等值的比較基準,供比較的CTT等值方法包括Tucker線性等值、Levine線性等值和未平滑的等百分位等值方法。

2.4.2 比較標準

四種IRT模型測驗觀察分數比較標準是計算四種IRT模型測驗觀察分數等值結果與作為比較基準的CTT觀察分數等值結果的兩種差異量:

一是標準加權均方差或總誤差的平方根,由下式定義:

其中m是測驗的題目數,j是原始分數,f是獲得j分的人數,n是總人數,dj=(X-X′),X′是作為比較基準的等值分,X是估計的等值分,是作為比較基準的等值分的方差。

二是誤差平均差,由下式定義:

3 結果

3.1 測驗觀察分數等值結果

四種IRT模型下的測驗觀察分數等值結果及作為比較基準的Tucker觀察分數等值結果列于表1。為節省篇幅,以10分為一分數段列出。

3.2 總誤差平方根

根據差異量定義公式,計算標準加權均方差或總誤差平方根,其結果如表2所示。

表1 四種IRT多級模型測驗觀察分數等值結果(舉例)

表2 四種IRT多級反應模型總誤差平方根及排名

3.3 誤差平均差的方差分析

根據誤差平均差的定義,分別計算四種多級模型的誤差平均差,并把所得的誤差平均差作為因變量,四種模型作為自變量,進行單因素方差分析,所得結果如表3所示。

表3 單因素方差分析

從表3可知四種IRT模型誤差平均差整體有差異。因此,需要進一步作事后檢驗,結果如表4所示。

也給出四種模型誤差平均差均數的事后檢驗圖示結果,如圖1所示。

表4 事后檢驗結果

圖1 誤差平均差均數比較

4 分析與討論

采用非等組錨測驗設計,對測驗X和測驗Y進行IRT多級反應模型測驗觀察分數等值,其目的是根據數據資料選擇合適的多級反應模型,以供等值使用。傳統的做法是進行模型數據資料擬合度檢驗。但是,檢驗多個多級反應模型時需要同時檢驗多個指標,包括模型單維性、參數不變性及殘差等,許多技術仍不成熟。模型資料擬合檢驗需要根據各種指標量對IRT模型進行一一檢驗,但有時所得結論會出現矛盾情形。Ostini[15]認為IRT多級反應模型比較可以用Monte-Carlo方法模擬數據,并選擇合適的指標進行模型間的比較,但由于Monte-Carlo數據模擬需要選定某種一般模型來產生參數及作答反應矩陣,而眾多多級反應模型選哪種合適?常常給等值比較造成了困難。

Wang,Lee,Brennan和 Kolen(2006)[16]采用某種CTT觀察分數等值結果作為IRT多級反應等值模型觀察分數等值結果的比較基準。CTT等值方法較多,較常見的有Tucker線性等值、Levine線性等值和未平滑的等百分位等值方法等。CTT眾多等值方法存在差異,需要比較它們的優劣。通過CIPE 1.0軟件[17]計算Tucker線性等值、Levine線性等值和未平滑的等百分位等值三種CTT方法的等值標準誤,并用等值標準誤作為衡量三種方法的優劣指標。從圖2不難看出Tucker線性等值方法的標準誤最小,Levine線性等值方法的標準誤次之,等百分位等值方法的標準誤較大。這說明在三種CTT等值方法中,Tucker線性等值方法的最好。因此,選擇Tucker線性等值方法的結果作為供IRT測驗觀察分數比較的標準。實際上,進一步分析發現Tucker線性等值的兩個前提假設得到了較大的滿足,因而比其他兩種CTT等值方法的結果更為精確。因此,在表1中選擇Tucker線性等值方法作為供比較的標準更為合適。

圖2 三種CTT等值方法的標準誤

標準加權均方差或總誤差平方根是供比較的量化指標,應該與大樣本標準、循環到自身、數據模擬等等值標準有所區分。這是因為標準加權均方差或總誤差平方根和等值標準誤一樣隸屬于某種統計量,是一種量化的比較標準指標。這個指標是為了說明以Tucker線性等值結果作為觀察分數等值基準,四種多級反應模型測驗X轉換為測驗Y的觀察分數后的等值變異。通過計算這個變異來,從總體上可以看出每種多級反應模型等值后與設定基準的離散程度。為了消除方向帶來的影響,常常用平方表示,這樣就形成了標準加權均方差或總誤差。此外,也可以構建誤差平均差,來表示出多級反應模型等值結果與設定基準之間的離散程度。為了證明兩者能否一致地反映變異程度,該研究同時采用了兩者作為比較的標準。

從表2的標準加權均方差或總誤差平方根結果看,IRT的SN模型最小為0.086,其次是SL模型為0.087,再次是NR模型為2.820,最大是GPCM模型為5.846。根據總標準加權均方差或總誤差平方根值越小測驗等值誤差越小的原則,發現SN和SL最佳(分別排名第一和第二),其次是NR模型(排名第三),最差是GPCM模型(排名第四)。

為了驗證兩種比較標準對結果的一致性,也采用了誤差平均差作為比較標準。把所得的誤差平均差作為因變量,IRT的SN、SL、NR和GPCM四種模型作為自變量,進行單因素方差分析(如表3所示)。從表3可以看出,方差分析的結果有顯著性差異,組間均方3578.339,組內均方19.036,兩者的比值F=187.975(p<0.001),需要做事后檢驗(如表4所示)。

根據表4的事后檢驗結果,發現SL與GPCM、NR存在顯著性差異(p<0.001),SN與GPCM、NR存在顯著性差異(p<0.001),GPCM與NR存在顯著性差異(p<0.001),但SL與SN不存在顯著性差異(p>0.05)。從圖1的四種模型誤差平均差均數結果可知,IRT模型的SL和SN誤差平均數均值最小,NR次大,GPCM最大。

從以上分析可知,IRT的SL與SN兩種模型等值誤差最小,而且兩者的差異量相當接近(差值僅為0.001)。那么,則表明SL與SN對數據資料的擬合優于其他兩種模型,等值效果最佳。SL和SN同屬于Samejima等級反應模型(GRM),兩者在形式上存在差異,但因為邏輯斯蒂克等級反應模型和正態肩形等級反應模型存在等量關系,因此兩種模型的等值效果幾乎一致。那么,可以認為SL和SN屬于同質模型,在模型選取中,只要擇其一則可。NR模型等值變異量較SL和SN模型大,說明等值效果欠佳,原因是NR是一種無序模型,用于有序數據等值效果自然不佳。GPCM模型的等值變異量在四種模型中最大,表明這種模型等值的效果最差,可能的原因是該年中考數學試題從總體上看并非每道試題都按部計分,某些試題存在反序現象,從而影響等值效果。因此,從結果看,選擇IRT的SL或SN兩種等級反應模型進行此類多級反應等值較為合適。

5 結論

(1)從模型等值的效果看,IRT的SL和SN最優且相當,NR等值效果欠佳,GPCM等值變異最大,效果最差。

(2)選擇IRT的SL或SN等級反應模型進行此類測驗觀察分數等值較為合適,SL和SN屬于等級反應模型的同質模型,在模型選取中,只要擇其一則可。

[1]戴海崎,張鋒,陳雪楓.心理與教育測量(第三版)[M].廣州:暨南大學出版社.2011.

[2]張敏強,黎光明,焦璨.普教“升中”考試中測驗等值的應用研究——以廣東省佛山市“升中”考試為例[J].心理與行為研究,2009,7(1):27-31.

[3]張敏強,黎光明,劉曉瑜,焦璨.教學管理與評價的測量技術:測驗等值的理論、方法及應用[J].教育研究與實驗,2009(2):54-57.

[4]黎光明,張敏強.全測驗與錨測驗題型分值比對等值誤差的影響[J].考試研究,2009,5(3):71-77.

[5]漆書青,戴海崎,丁樹良.現代教育與心理測量學原理[M].北京:高等教育出版社.2002.

[6]周駿,歐東明,徐淑媛,戴海崎,漆書青.等級反應模型下項目特征曲線等值法在大型考試中的應用[J].心理學報,2005(6):832-838.

[7]黎光明,劉曉瑜,張敏強.測驗等值技術在中小學教學管理與評價中的應用[J].教育測量與評價(理論版),2009,14(3):8-11.

[8]Kolen,M.J.,&Brennan,R.L.Test equating,linking,and scaling:Methods and practices(2nd ed.).New York:Springer-Verlag.2004.

[9]Kim,D.I.,Brennan,R.L.,&Kolen,M.J.A Comparison of IRT Equating and Beta 4 Equating.Journal of Educational Measure?ment,2005,42(1):77-99.

[10]Von Davier,Alina,A.L.,&Wilson,C.Investigating the popula?tion sensitivity assumption of item response theory true-score equating across two subgroups of examinees and two test formats.Applied Psychological Measurement,2008,32(1):11-26.

[11]Thissen,D.Multilog user’s guide:Multiple,categorical item analy?sisand test scoring using item response theory[Computer program].Chicago:Scientific Software International.1991.

[12]Muraki,E.,&Bock,R.D.PARSCALE(Version 3.5):IRT item analysis and test scoring for rating-scale data[Computer program].Lincolnwood,IL:Scientific Software.1998.

[13]Kim,S.,&Kolen,M.J.STUIRT(Version 1.0):A computer program.Iowa City,IA:Iowa Testing Programs,University of Iowa.(Avail?able from the web address:http://www.uiowa.edu/~casma).2004.

[14]Kolen,M.J.POLYEQUATE:A computer program.Iowa City,IA:The University of Iowa.(Available from the web address:http://www.uiowa.edu/~casma).2004.

[15]Ostini,R.,Identifying substantive measurement differences among a variety of polytomous IRT models.Ph.D.dissertation,University of Minnesota,United States.2001.

[16]Wang,T.,Lee,W.,Brennan,R.L.,&Kolen,M.J.A Comparison of the Frequency Estimation and Chained Equipercentile Methods Under the Common-Item Non-Equivalent Groups Design.Paper presented at theannual meeting of National Council of Measure?ment in Education,April,San Francisco.2006.

[17]Kolen,M.J.CIPE(Version 1.0):A computer program.Iowa City,IA:Iowa Testing Programs,University of Iowa.(Available from the web address:http://www.uiowa.edu/~casma).2004.

How to Select Equating Models for College Entrance Examination Based on Item Response Theory

LI Guangming and ZHANG Minqiang

This research exemplified college entrance examination of Foshan city in Guangdong province and explored how to select the decent mode from SL、SN、NR and GPCM by such as equating design,data collection,prameter estimation,scaling,test equating,which could fit data by comparing the result of observed-score equating for four IRT models Methods.Compared merits and demerits of IRT models in terms of value of difference,we find:Rank of total error squared root were SL,SN,NR and GPCM.There was significant difference(p<0.001)between SL and GPCM and NR and between SN and GPCM and NR and between GPCM and NR,but there wasn’t significant difference(p>0.05)between SL and SN.The research show:(1)SL and SN were the best from the equating effect,but NR wasn’t good and GPCM was the worse;(2)It was wisdom and decent to select SL or SN to do test equating like this.

College Entrance Examination;Item Response Theory(IRT);Test Equating;Psychological and Educational Measurement

G405

A

1005-8427(2012)02-0008-6

廣州大學
華南師范大學

猜你喜歡
標準方法模型
一半模型
2022 年3 月實施的工程建設標準
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
忠誠的標準
當代陜西(2019年8期)2019-05-09 02:22:48
美還是丑?
可能是方法不對
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
一家之言:新標準將解決快遞業“成長中的煩惱”
專用汽車(2016年4期)2016-03-01 04:13:43
主站蜘蛛池模板: 亚洲一区二区无码视频| 国产网站一区二区三区| 亚洲第一精品福利| 无码国产偷倩在线播放老年人| 中文字幕调教一区二区视频| 久久久久人妻一区精品| 制服丝袜亚洲| 欧美成人精品一级在线观看| 99久视频| 亚洲免费黄色网| 欧类av怡春院| 无码中字出轨中文人妻中文中| 亚洲欧美不卡中文字幕| 亚洲第一成网站| 色屁屁一区二区三区视频国产| 亚洲精品欧美日本中文字幕| 69国产精品视频免费| 综合天天色| 亚洲免费播放| 免费a在线观看播放| 九九热精品免费视频| 精品人妻无码区在线视频| 久久久久夜色精品波多野结衣| 99热亚洲精品6码| a级毛片毛片免费观看久潮| 久久久久久国产精品mv| 国产午夜精品鲁丝片| 人妻21p大胆| 手机成人午夜在线视频| 特级aaaaaaaaa毛片免费视频| 92午夜福利影院一区二区三区| 日韩精品成人在线| 亚洲欧洲日韩综合| 久久成人免费| 日本成人不卡视频| 最近最新中文字幕免费的一页| a亚洲视频| 日韩在线视频网| 午夜国产精品视频黄| 香蕉在线视频网站| 园内精品自拍视频在线播放| 亚洲系列无码专区偷窥无码| 亚洲精品视频免费看| 免费播放毛片| 亚洲VA中文字幕| 露脸真实国语乱在线观看| 99久久亚洲综合精品TS| 亚洲一区网站| 大香伊人久久| 国产精品第页| 欧美一级特黄aaaaaa在线看片| 免费毛片网站在线观看| 国产玖玖视频| 久久性视频| 国产美女一级毛片| 亚洲精品你懂的| 亚洲熟女偷拍| 国产成人1024精品| 日韩性网站| 福利在线不卡| 国产亚洲精品资源在线26u| 精品色综合| 亚洲中文字幕av无码区| 91精品国产自产在线老师啪l| 久久亚洲国产最新网站| 99精品视频在线观看免费播放| 1769国产精品免费视频| 国产啪在线91| 久久久久九九精品影院| 国产福利免费视频| 国产乱子伦手机在线| 亚洲精品国产精品乱码不卞| 狠狠色香婷婷久久亚洲精品| 国产黄视频网站| 亚洲精品动漫| 永久免费精品视频| 日韩 欧美 小说 综合网 另类| 国产成人精品一区二区三区| 最新国产高清在线| 992tv国产人成在线观看| 国产网友愉拍精品| 欧美视频在线不卡|