劉 玥 劉紅云
(1四川省教育科學研究所,成都 610225) (2北京師范大學心理學院,北京 100875)
在大型的教育測驗中,常常會出現考核同一個內容的多個測驗形式,為了實現這些測驗分數之間的比較,會用到測驗等值的方法。根據等值所依據的原理,一般可以分為經典測驗理論(CTT)下的等值方法和項目反應理論(IRT)下的等值方法(Kolen&Brennan,2004)。其中,IRT等值方法又以其理論完善,等值關系簡潔,且題目參數具有跨群體不變性等優勢,而受到廣泛關注。在大多數的標準測驗中,考生的能力參數和題目參數是由單維IRT模型(UIRT)估計得到的,因此,基于單維IRT模型的等值方法已經得到了較為深入的研究(Kolen&Brennan,2004)。
然而,在現實情境里,測驗通常會包含多維結構(Ackerman,1994;DeMars,2006;Reckase,1985)。在很多大型的教育評價項目中,對于一個概括性的能力的測量,通常會包含關于多個子學科(子能力)的題目。例如在關于學生科學能力的測驗中,可能包含分別來自于物理,地理,生物等多個學科的題目。這時,傳統IRT理論的單維性假設很容易遭到違背。基于單維IRT假設的參數估計和IRT等值結果會出現一定的偏差(Reckase,2009;Brossman,2010)。因此,許多研究者已經逐漸開展了對基于多維項目反應理論(MIRT)下等值方法的研究和探索。
迄今,很多研究已經將單維IRT下的等值方法推廣到多維結構中。這些方法主要有多維均值/均值方法,均值/標準差方法(Yao,2011),IRT相等函數方法,Stoking-Lord(測驗特征函數)方法,Haebara(項目特征函數)方法,直接方法(Oshima,Davey&Lee,2000),LL方法(Li&Lissitz,2000),Min的方法(Min,2003),NOP方法(Reckase&Martineau,2004)和同時等值的方法(Simon,2008)等。這些方法和單維IRT等值方法的主要區別是,多維IRT等值不僅需要調整不同測驗量尺原點和單位大小的差異,還要進行量尺旋轉和維度相關調整等一系列過程(Reckase,2009)。……