999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于3PLM和GRM混合模型的等值方法比較

2018-09-04 10:32:12黎光明
心理研究 2018年4期
關鍵詞:方法模型

黎光明

(華南師范大學心理學院、心理應用研究中心,廣州 510631)

1 引言

等值是心理與教育測量領域的一個重要組成部分,是測驗標準化過程中的一個必備程序(漆書青,戴海崎,丁樹良,2002)。具體而言,測驗等值是指將測量同一心理品質的多個測驗形式上的測驗分數或項目參數的單位系統進行轉換,以達到相互間對應指標可比的過程。進行等值處理后,同一考生在不同測驗版本上的得分相同。一般來說,進行等值必須滿足四個前提條件,即同質性、等價性、樣本一致性及對稱性(張敏強,1998)。

在題庫的建設中,項目參數估計和等值是兩個突出的技術問題。傳統的基于經典測量理論的等值方法只能實現不同試卷之間的等值,而隨著項目反應理論(Item Response Theory,IRT)在心理與教育測量領域越來越廣泛的應用 (黎光明,張敏強,2012),基于IRT的等值方法實現了將試題的難度、區分度、猜測水平等題目參數置于同一尺度上,從而滿足大規模題庫建設的需要。

按照項目反應理論,同一項目在不同的單位系統上雖然參數值的數字表現形式不同,但實質卻一樣。假設有兩個測驗X和Y,且兩測驗有M個錨題,同一項目的兩套參數間必然存在如下的線性轉換關系 (Sayaka & Shinichi,2011; Kolen & Brennan,2013):

在公式(1)~(4)中,A 和 B 為線性轉換參數(等值常數),θxi,axj,bxj,cxj表示在群體 x 上估計出的參數,θyi,ayj,byj,cyj為在群體 y 上估計出的參數。除非另外有申明,一般假設 i=1,2,…,N;j=1,2,…,M。

上述這些公式反映了在項目反應理論模型下,不同單位系統的各種參數之間的等值轉換模式,A和B為等值轉換系數。

在項目反應理論的指導下,研究者建立了眾多的計量模型,這些模型都有各自的特點和所適用的范圍。在實際的應用過程中,研究者往往會根據情況進行選擇以達到模型對數據的最佳擬合。在實際的研究工作中我們常常會遇到一份測驗材料既有0-1評分的多重選擇題 (Multiple-Choice items,MC)又有多級評分的簡答題或解答題(Construct-Response items,CR)的情況。傳統的做法通常是選用多級評分模型,因為0-1計分是多級評分的一個特例。但是,該做法忽略了0-1計分題目中的猜測行為,使得分析結果的準確性和科學性受到了影響 (張敏強,黎光明,王小婷,黃春汝,王幸君,2015)。事實上,在這種情況下應該考慮“混合模型”,即0-1計分的試題選用0-1計分模型,多級評分的試題選用多級評分模型,兩個模型結合共同完成對測試材料的分析(周世科,2008)。“混合模型”是指測驗分數中既包含有二級記分題型,又包含多級記分題型的混合題型,需要用不同的項目反應理論模型來區別對待的模型。“混合模型”在參數估計過程中,所有參數均是同時估計的。

目前關于“混合模型”各方面的研究并不多。國外對于混合題型測驗等值的研究大多僅采用MC作為錨題,主要是因為當MC和CR得分相關高、錨題得分和總分相關高、MC占得分值比例高及被試能力水平差異小時,得到的等值精度更高。也就是說,為了追求較高的等值精度,CR題型的數量和所占的分值要盡可能少。但是,Tate(2000)指出僅采用MC題型作為錨題會產生大的等值誤差。另外,Tate也認為,錨題僅包含MC題目也并不符合錨題為原測驗的 “縮影”這一原則,不具備代表性。

國外也有少量的研究將MC和CR共同作為錨題來進行混合題型測驗的等值。Tian(2011)對混合題型測驗的等值進行了模擬研究,比較了僅用MC項目作為錨題、僅用CR項目作為錨題以及用MC和CR項目共同作為錨題這三種不同的錨題題型設置情況,結果發現同時參數標定比SLcrit法的等值在三種不同的錨題題型設置情況下精確性都更高。Kim 和 Lee(2006)也進行了基于 3PLM(Three-Parameter Logistic Model)和 GPCM(Generalized Partial Credit Model)混合模型下的研究,結果得出特征曲線法要優于矩估計法,而Habera法又略優于SL法。實際上,基于3PLM和GPCM混合模型比較還受到其它因素影響,如題目數量、記分模型等。Saen-amnuaiphon, Tuksino 和 NIchanong (2012)認為,在3PLM和GPCM混合模型下CR項目數量比MC項目數量越多,測驗信息量越大,測驗越有效。Kim 和 Walker(2012)認為,在錨題為 MC 和 CR時對模型選擇進行比較,僅采用多級記分模型的等值誤差很大。

而對于混合題型的等值研究,國內僅有周世科(2008)對此進行了專門研究,采用的是測驗特征曲線法,比較了混合模型和GRM (Graded Response Model)模型對混合題型的等值精度。結果得出錨題為混合題型時,僅采用多級計分模型誤差會增大,采用混合模型會比僅用GRM更適合。特征曲線法是一種項目參數等值方法,而GRM是一種IRT數學模型。涂冬波、蔡艷、戴海琦和丁樹良(2011)也認同一個模型往往很難反映所有數據資料本身的特點,可考慮應用多個IRT模型(即混合模型)來分析,以達到對數據的最佳擬合,并對基于3PLM和GRM的混合模型的思想方法及原理、參數估計的實現以及模型性能進行了研究。

綜合前人在相關領域的研究結果,本研究著重討論基于3PLM和GRM的混合模型下的多種IRT等值方法,并比較它們的性能優劣,以期為相關理論研究和實際應用提供參考。

2 研究方法

2.1 數據來源

數據來源為廣東省佛山市 “升中”考試實測數據,分為“課改實驗區”和“非課改實驗區”。“升中”數學考試相應地分為課改區的測驗X和非課改區的測驗Y。從課改區和非課改區隨機各抽取10000人。測驗X和測驗Y各有24道題,其中客觀題15道,主觀題9道。測驗X和測驗Y有一個錨測驗V,測驗V的主客觀題共9道題。

2.2 等值設計與方法

由于課改區與非課改區考生的能力有所差異,且課改區和非課改區的測驗中有共用的錨題,因此本研究采用非等組錨測驗設計。等值方法選用平均數-平均數法(Mean/Mean Method,MM)、平均數-標準差法(Mean/Sigma Method,MS)、穩健的平均數-標準差法(Robust Mean and Sigma Method,RMS)、Haebara法(HA)以及 Stocking-Lord 法(SL)。

2.3 等值步驟

2.3.1 參數估計

依據3PLM和GRM的混合模型分別對混合題型的測驗X和測驗Y進行參數估計。其中,依據3PLM模型分別對兩測驗的客觀題進行參數估計,依據GRM模型分別對兩測驗的主觀題進行參數估計。所使用的參數估計軟件是Parscale4.1。

2.3.2 測驗等值

分別將混合題型、只有客觀題以及只有主觀題的測驗X和測驗Y通過IRTEQ進行等值轉換,得到以下三種結果:一是3PLM和GRM混合模型下五種等值方法的混合題型測驗觀察分數等值結果、二是3PLM模型下五種等值方法的客觀題測驗觀察分數等值結果、三是GRM模型下五種等值方法的主觀題測驗觀察分數等值結果。

2.3.3 數據分析

使用軟件SPSS19.0對等值的結果進行方差分析。

2.4 比較基準和標準

2.4.1 比較基準

模擬研究中可以設置測驗項目的指標,然而實證研究在現實中往往是無法設置測驗項目的真實指標。 在 Lord (1977)、Marco 等人 (1979)、謝小慶(2000)、焦麗亞和辛濤等人(2006)的研究中,經典測量理論(Classical Test Theory, CTT)中的 Tucker線性等值方法都是比較出色的。因此,本研究選用CTT等值方法中的Tucker線性等值結果作為五種IRT等值方法的分數等值的比較基準。

2.4.2 比較標準

五種IRT等值方法觀察分數的比較標準是計算這五種IRT等值方法測驗觀察分數等值結果與作為比較基準的Tucker等值觀察分數等值結果的兩種差異量 (謝小慶,2000;黎光明,張敏強,2012; Kang & Petersen, 2012):

一是誤差平均差,用于方差分析,觀察題型與等值方法之間是否存在交互作用。誤差平均差由下式定義:

在公式 (5)中,m為測驗的題目數,j是原始分數,t'm是作為評價標準,tm是估計的等值分是原始分數對應的五種IRT等值方法結果與作為評價標準的等值分相減后所得的平均誤差。

二是標準加權均方差或總誤差的平方根,用于對混合模型下五種IRT等值方法結果的精確性排名。總誤差平方根由下式定義:

3 結果與分析

3.1 測驗觀察分數等值結果

五種IRT等值方法下的混合題型、客觀題以及主觀題測驗觀察分數部分等值結果及作為評價標準的Tucker觀察分數部分等值結果列于表1~表3。

3.2 誤差平均差的方差分析

根據誤差平均差的定義,分別計算五種等值方法結果誤差平均差,并把所得的誤差平均差作為因變量,五種IRT等值法和題型作為自變量,進行兩因素方差分析,描述統計結果如表4所示。

表4是五種等值法與三種題型條件下的描述統計,其平均數M是根據公式(5)求取的,標準差是根據每個絕對離差值計算得到的,主要為了反映絕對離差值的離散趨勢。

表1 五種IRT等值方法下的混合題型測驗觀察分數等值結果

表2 五種IRT等值方法下的客觀題測驗觀察分數等值結果

對五種IRT等值方法測驗觀察分數等值進行方差分析,結果如表5所示。

表3 五種IRT等值方法下的主觀題測驗觀察分數等值結果

表4 五種等值法與3種題型條件下的描述統計

表5 五種等值法與三種題型條件下方差分析的主效應檢驗

從表5可知,五種IRT等值方法的主效應顯著,F(4,660)=21.837,p<0.001;題型的主效應顯著 F(2,660)=804.353,p<0.001;兩因素間的交互作用也顯著 F(8,660)=97.975,p<0.001。 因此,需要進一步作事后檢驗。

多重比較分析后發現,五種IRT等值方法中,HA法與MS、RMS這兩種方法差異顯著 (p<0.001;p<0.001),且HA法的誤差最小,而與 MM 法和 SL法的差異并不顯著(p=0.097;p=0.429);同時,HL 法與MS、RMS這兩種方法的差異也是顯著的(p<0.05;p<0.05),且SL法的誤差比較小,但SL法與MM法差異并不顯著(p=0.997);其他的情況包括,MM 法與MS法、MM法與RMS法、MS法與RMS法,結果顯示差異均不顯著(p=0.129;p=0.278;p=1.000)。

而在客觀題、主觀題、混合題型中,客觀題與主觀題的差異顯著(p<0.001),與混合題型的差異也顯著 (p<0.001),且客觀題的誤差要小于另外兩種題型;主觀題與混合題型間差異也顯著(p<0.05),且混合題型誤差小于主觀題。

從表5還能看出,IRT方法與題型的交互作用顯著,作進一步簡單效應檢驗后發現,在題型因素下,各種IRT方法在只有客觀題時的差異不顯著,而在主觀題和混合題型中都有顯著差異。具體地,客觀題時 F(4,699)=1.30,p=0.270;主觀題時 F(4,699)=3.39,p<0.05;混合題型時 F(4,699)=22.55,p<0.001。3.3 混合題型下總誤差平方根比較結果

混合題型下總誤差平方根比較結果如表6所示。表6是五種等值法的總誤差平方根,是根據公式(6)求取的,主要反映總誤差的相對大小。

表6 五種方法的等值結果比較

從表6可以看出,Haebara特征曲線法 (HA)最為精確,其次是穩健的MS方法(RMS),再次是MS法,MM 方法列第四,而 Stocking-Lord 法(SL)的等值誤差最大。?

4 討論

本研究采用非隨機錨測驗設計,選用3PLM和GRM的混合模型對數據進行測驗等值。本研究之所以選用非隨機錨測驗設計,是因為測驗X和測驗Y有共同錨題。錨題數量有9道,總題量共24道,占37.5%;錨題分值為39分,總分值為89分,錨題分值占總分值約為44%;錨題題型既有二級記分,也有多級記分,這表明錨測驗設計是科學的,符合錨測驗是原測驗的“縮影”這一要求,具備代表性。

測驗X與測驗Y都是混合題型測驗,即既有客觀題也有主觀題,其中客觀題數量是15題,占總題量62.5%,分值為25分,占總分28.1%;主觀題數量是9題,占總題量37.5%,分值為64分,占總分71.9%。由于不同的題型擬合不同的模型,所以本研究選取了3PLM和GRM混合模型,對于0-1評分項目用3PLM模型,多級評分項目用GRM模型。本研究選用3PLM和GRM的混合模型對數據進行測驗等值,是因為這樣做能夠使得模型達到對數據的最佳擬合。

從表5的結果可知,在三種題型中,客觀題的誤差平均差值最小,優于混合題型和主觀題,而混合題又優于主觀題。但是,由于客觀題本身的分值較小,等值后其分數誤差可浮動的范圍并不大,所以使得在只有客觀題的情況下,其等值后的誤差平均差值相對較小。因此,當測驗中只有客觀題時,采用IRT方法進行等值的結果要比含有主觀題時更加精確。但是,應該注意的是,這并不表示只有客觀題的測驗的等值結果才最能反映被試的真實水平。事實上,最能反映被試真實水平并具有現實意義的測驗是混合題型,這里所反映的僅僅只是等值結果的精確性。

從表5的方差分析結果來看,五種IRT方法的主效應是顯著的。從進一步的事后檢驗的可以看出,HA法與SL法的等值效果最優;其次是MM法;最后是RMS法與MS法。其中,HA法與RMS法、MS法之間存在著顯著性差異;SL法與RMS法和MS法之間也存在著顯著性差異;而其他方法間并未發現顯著的差異。

從表6的結果可以看出,以標準加權均方差為比較標準時,根據總標準加權均方差或總誤差平方根值越小測驗等值誤差越小的原則,可以發現HA法最佳(排名第一),其次是RMS法(排名第二),再次是MS法和MM法(分別排名第三和第四),最差是SL法(排名第五)。

評價指標的選取也是一個問題,選取不同的評價指標可能會得出不一樣的結果。為增加結果的可信度,本研究同時采用了兩種等值比較的評價指標。綜合各研究結果來看,因為等值結果的比較在標準加權均方差和誤差平均差兩種比較標準中并不太一致,即SL法在選用誤差平均差作為評價指標時表現較好,而選用標準加權均方差作為評價指標時表現是最差的。這很可能就說明了兩種比較標準結果可能是并不一致的。但是,HA法在兩種評價指標中都是誤差最小的。因此,可以認為五種IRT等值方法中,HA法是最優的,有著很大的等值優勢。

評價比較不同等值方法精確性的參照標準問題正是等值研究中一直沒有得以有效解決的一個重要問題。本研究選用Tucker等值方法作為檢驗標準是因為國內外許多等值方法的比較研究(Lord,1977;Marco, Petersen, & Stewart,1979; 焦麗亞, 辛濤,2006;謝小慶,2000)均顯示出Tucker方法相對于其他很多方法準確性是比較高的,另外也有很多研究以Tucker方法作為檢驗標準。但是,選用Tucker方法作為標準只能用等值分計算等值誤差作為評價的指標,這樣便會忽略了IRT理論采用各項目參數的優勢。有關等值研究的已有文獻(丁樹良,熊建華,戴海琦,2005;焦麗亞,辛濤,2009)表明,許多關于等值方法的比較研究并沒有達成一致的結果,最主要的一個原因為實踐中缺少一個評價等值方法精確性和有效的絕對標準。

在今后的研究中,為有效解決評價標準等方面的問題,可以開展進一步的模擬研究。原因在于,當使用真實數據時,沒有很好的評價構建共同尺度的方法。因為不存在評價結果精確性的標準,只有在兩套項目參數的關系已知時,才可以完成評價,這樣的標準只有在模擬數據的情況下存在。

5 結論

IRT五種等值方法中,Haebara特征曲線法(HA)最優。即便評價指標不一致,但無論是選取誤差平均差,還是選取標準加權均方差作為評價指標時,HA法都是誤差最小的方法。

客觀題等值結果最為精確,主觀題等值誤差最大,包括客觀題與主觀題的混合題的等值誤差介于兩者之間。

等值方法與題型具有交互作用,客觀題等值方法間差異不顯著,而主觀題或混合題等值方法間出現顯著差異。

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 成人91在线| 国产主播在线观看| 亚洲欧美在线精品一区二区| 日韩色图在线观看| 欧美精品二区| 国产成人AV综合久久| 欧美日韩亚洲国产| 欧美日韩成人在线观看| 国产精品成人免费视频99| 国产超碰在线观看| 日本不卡在线视频| 国产国语一级毛片| 国产精品久久久久久久久| 国产成人三级| 久久精品视频亚洲| 最新精品久久精品| 青青极品在线| 久久国产精品波多野结衣| 激情六月丁香婷婷四房播| 久夜色精品国产噜噜| 午夜福利视频一区| 超碰91免费人妻| 日日噜噜夜夜狠狠视频| 国产一区二区三区夜色 | 国产原创第一页在线观看| 一级毛片免费不卡在线视频| 中文无码精品A∨在线观看不卡 | 青青操视频免费观看| 婷婷色婷婷| 欧美啪啪网| 无码专区在线观看| 亚洲第一成年免费网站| 乱色熟女综合一区二区| 国产第一福利影院| 91视频精品| 国产69精品久久| 国产在线观看99| 在线日本国产成人免费的| 精品一区二区三区无码视频无码| 国产精品爆乳99久久| 婷婷丁香在线观看| 欧美亚洲国产精品第一页| 性网站在线观看| 亚洲人精品亚洲人成在线| 国产激情无码一区二区APP| 亚洲swag精品自拍一区| 欧美视频在线第一页| 日韩精品一区二区三区大桥未久| 狠狠色综合网| 99久久亚洲综合精品TS| 久久国产乱子| 色欲综合久久中文字幕网| 在线观看热码亚洲av每日更新| 国产精品女在线观看| 亚洲综合香蕉| 欧美国产日韩在线| 天天摸夜夜操| 欧美精品高清| 青青久视频| 婷婷激情亚洲| 日韩av资源在线| 精品一區二區久久久久久久網站 | 麻豆AV网站免费进入| 亚洲天堂免费| 久久综合丝袜日本网| 国产xxxxx免费视频| a毛片免费观看| 国产不卡在线看| 日本影院一区| 国产精品福利导航| 亚洲嫩模喷白浆| 91午夜福利在线观看| 国产精品区视频中文字幕| 国产精品三级av及在线观看| 国产精品3p视频| 欧美精品综合视频一区二区| 久久国产免费观看| 九九视频在线免费观看| 国产免费人成视频网| 波多野结衣在线se| 免费国产一级 片内射老| 欧美a在线|