辛 濤 樂美玲 張佳慧
教育測量理論新進展及發展趨勢
辛 濤 樂美玲 張佳慧
以多維項目反應理論和認知診斷理論為代表的現代教育測量理論的興起反映了人們不滿足于單一的測量分數、希望得到更加詳細的診斷信息的現實情況。將測量理論與教育評價和考試等實踐領域相結合產生了增值性評價、自適應測驗以及計算機化自適應多階段考試等應用研究。目前大多數前沿領域,如認知診斷和計算機化認知診斷測驗,還處于理論研究的階段,尚未在大規模測評項目中應用;但隨著研究的不斷深化以及實踐領域的迫切需求,新一代測量理論勢必在教育等領域發揮重要的作用。
多維項目反應理論;認知診斷理論;垂直標定;增值評價;計算機化自適應測驗
20世紀50年代至今,除了經典測量理論(Clas?sical Test Theory,CTT)外,項目反應理論(Item Re?sponse Theory,IRT)、概化理論(Generalizability The?ory,GT)以及認知診斷理論(Cognitive Diagnostic Theory,CDT)并存于心理與教育測量領域。現代測量理論大多是在經典測量理論的基礎上,針對其某方面的不足發展起來的,以解決實踐中的問題。目前,隨著教育以及各領域的發展,新的需求不斷涌現,對測量理論提出新的挑戰。因此,測量研究者繼續傳承這種理念,進一步完善、發展測量理論;同時,研究者將測量理論應用于教育等領域的考試實踐中,取得了豐富的成果。
目前,以IRT為核心的現代測量理論取代了CTT的核心地位,在現代測量實踐中發揮著重要的作用。然而,IRT的強假設(單維性、局部獨立性和單調性)在很大程度上限制了其在考試實踐中的應用。隨著認知科學、計算機科學及數理統計學等學科滲入到心理與教育測量學領域,教育測量與評價活動正經歷著深刻的變化。傳統的教育測驗只給出一個籠統的考生測驗分數,然而當今人們更希望通過教育測驗提供更為詳細的診斷信息從而更深入地了解學生的認知結構與水平。此外,教育決策者希望建立起教育監測系統,更好地了解學生學業成就的發展情況,并且對教師和學校的效能進行相對客觀的評估。同時,隨著科技的進步與發展,越來越多的考試不再采用紙筆測試,而是借助于計算機來實現,如此各種新題型得以引進到各類測試中。新題型的出現也給測量理論提出了新的要求,由于大多數模型都是針對0-1評分的項目建立的,因此需要進一步拓展到多級評分的條件下。
仔細梳理近年來有關現代測量理論的研究,可以看出,測量理論的研究進展主要體現在三個方面:一是多維項目反應理論的研究,二是認知診斷理論的發展,三是對垂直標定的探討。將測量理論應用于考試實踐的研究包括增值評價,計算機自適應測驗以及計算機自適應序列考試。
多維項目反應理論(Multidimensional Item Re?sponse Theory,MIRT)將知識解構成多個維度,通過估計每個維度的能力值實現知識結構的診斷(余娜,辛濤,2009)。多維項目反應理論為測驗中所涉及的每個維度引入能力和項目區分度參數,相當于將測驗題目和考生之間的交互作用模型化(Reckase,1997)。它通過一個非線性的函數表征題目參數、考生的多維潛在能力以及其正確作答概率之間關系(康春花,辛濤,2010)。通過這個模型可以使我們對考生的多個特質進行分別的推斷,因此MIRT對心理測驗的分析比單維IRT能提供更為精確和細致的信息,對心理測驗的編制、開發及評價具有重要的指導和參考價值。
目前,MIRT已經被成功地應用于檢測測驗項目所需屬性/技能的詳細結構(Ackerman,Gierl,&Walker,2003;Embretson,2007;Gorin&Embret?son,2006;Walker&Beretvas,2003)。維度增加給MIRT的參數估計造成了較大的困難,在一定程度上限制了MIRT的發展和應用,因此MIRT的參數估計仍然是當前研究的重心(Cai,2010a,2010b;De?mars,2006;de la Torre,2008,2009;Jiang,2005;Zhang&Stone,2004;涂冬波,蔡艷,戴海崎,丁樹良,2011)。蔡力等(Cai,Yang,&Hansen,2011)提出了一個靈活的多組項目雙因子分析框架,支持多種多維項目反應模型。擴展的雙因子模型允許估計來自不同組的數據的潛變量均值和方差。此外,還有研究者探索MIRT的計算機自適應測驗研究(Finkelman,Nering,&Rossos,2009;Li&Schafer,2005)以及MIRT在心理測驗中的應用(Kacmar,Farmer, Zivnuska, &Witt, 2006; te Marveled,Glas,van Landeghem&van Dammek,2006)。還有研究者探索了多級評分的MIRT模型(Ferrando,2009;涂冬波等,2011),但是現有的多級評分數據的MIRT模型描述潛在結構的程度如何,還未見足夠多的研究(康春花,辛濤,2010)。此外,對于多維度測驗等值(如van der Linden,2000,2010)的方案也是值得研究者繼續深入的方向。
早期人們通過MIRT進行“認知診斷”的嘗試,但這種建立診斷模型的方法存在一定局限性:一方面,不同的能力維度用屬性進行概括時,屬性的定義無法深入到認知過程的細節;另一方面,模型中屬性的數量是有限的,否則會造成模型參數估計的困難(余娜,辛濤,2009)。為了克服這些問題,后續發展的診斷模型采用二分的屬性向量組表征知識結構。目前,認知診斷模型的研究在以下兩個方面有較多進展:一是對認知診斷模型(Cognitive Diagnostic Model,CDM)的整合以及模型—數據擬合的研究;二是從0-1評分到多級評分模型的拓展。
據統計,認知診斷模型發展至今已達100多種。由于CDM數量眾多,研究者們試圖提出一般的模型框架對模型進行整合,具體的模型可看作是一般模型的特例,例如von Davier(2008)的一般診斷模 型(General Diagnostic Model,GDM),Rupp,Templin和Henson(2010)的對數線性模型(Log-Linear CDM,LCDM)以及de la Torre(2011)的G-DINA模型框架。雖然一般認知診斷模型可以整合多個模型,但由于參數估計的復雜性,其使用很有限。在具體應用時,還是要涉及具體模型間的比較與選擇(Rupp,Templin&Henson,2010),其核心問題是對模型—數據擬合情況的評價。de la Torre和Douglas(2004)通過比較題目的邊際分布以及成對題目的聯合分布的期望特征和觀測特征,計算三個模型擬合指標,但沒有給出用以檢驗模型擬合的p值。Templin和Henson(2006)在de la Torre和Douglas(2004)的指標基礎上,結合Lange?heine,Pannekoek和van de Pol(1996)的Monte Car?lo擬合優度檢驗方法,提出Monte Carlo重新抽樣(Re-Sampling)技術。de la Torre(2011)的G-DINA模型框架還提供比較全模型與簡化模型擬合情況的Wald檢驗??梢?,目前在認知診斷中,模型—數據擬合評價方法的研究還處于探索階段,還沒有一個公認的方法,將來的研究須在計算繁瑣的方法和較簡單的啟發式方法之間尋找平衡(Templin&Henson,2006)。
當前絕大多數認知診斷計量模型僅適用于0-1評分數據資料,大大限制了認知診斷在實際中的應用。近年來,研究者已經開始將一些CDMs擴展到多級評分題目中。Bolt和Fu(2004)將融合模型(Fusion Model,FM)擴展到多級評分情形,但是FM中未知參數估計特別復雜且診斷準確率也不高。國內學者在CDM的擴展方面也做出許多貢獻:如祝玉芳和丁樹良(2009)對屬性層級方法(Attribute Hierarchy Methodology,AHM)進行多級評分的擴展,并提出多級評分的AHM。田偉和辛濤(2012)對規則空間方法(Rule Space Methodology,RSM)進行了基于多級評分項目的擴展,還開發了基于MAT?LAB的規則空間模型軟件。涂冬波等(2010)基于等級反應模型(Graded Response Model,GRM)的思想對DINA模型進行拓展,開發出適合多級評分(含0-1評分)數據的多級評分DINA模型(Polytomous DINA,P-DINA)。
此外,基于認知診斷模型的等值(de la Torre&Lee,2010;Roussos,Templin,&Henson,2005;Roussos&Xu,2003 in Roussos,Templin,&Hen?son,2007;Xu&von Davier,2008;李峰,2009)、Q矩陣的自動估計(Chen,Xin,Wang,&Chang,in press)、DINA模型的擴展(de la Torre,2009)、多級屬性的CDM(Templin,2004;von Davier,2008)、屬性不等權重的CDM(de la Torre,2011;羅歡等,2010)等都是新興的研究領域,還需要進一步研究。
對于很多的教育應用,評測學生成就或能力傾向從某一年到下一年(以及在學校教育課程的不同階段上)的發展程度是非常重要的。這種發展可以通過給各年級學生施測同一測驗來評測,然而這種做法的問題在于同一測驗不可能準確測量所有年級學生的學業成就水平。為了解決這個問題,一般通過使用多個測驗水平以構建教育成就和能力傾向成套測驗,其中每個測驗水平適合于某個特定年級或年齡的學生。這就需要使用垂直標定(vertical scaling)(也稱為垂直等值)方法,將多個測驗水平上的分數與發展的分數量尺(developmental score scale)聯系起來(Kolen,2006)。
垂直標定有三種基本的設計:共同題設計(com?mon item design)、等組設計(equivalent group design)和標定測驗設計(scaling test design)。其中標定測驗設計最難實施,因為它不僅要求針對各個年級編制一份單獨的測驗,還需進行標定測驗的測試。共同題設計最容易實施,但容易產生情境效應:共同題處于相鄰年級中低測驗的末尾和高年級測驗的開始位置,如果錨題在這兩個不同的位置發揮的作用不同,產生了項目漂移(item drift),可能會嚴重影響垂直等值的效果(Michael,2006;Michael&Brenner, 2004; Wells, Subkoviak, & Serlin,2002)。其他兩種方法沒有這個問題,因為等組設計中各年級的鏈接通過隨機組實現,標定測驗設計中各年級的鏈接通過由所有學生完成一份共同的標定測驗實現。
目前,垂直標定研究有一些新的進展,Patz和Yao(2007)提出了廣義分層IRT模型(general hier?archical IRT model,簡稱嵌套模型)用于構建發展性量尺。該研究將多維IRT引入到垂直等值中,希望通過解決不同年級水平的測驗構念的多維性問題,提高垂直等值結果的準確性。Martineau(2006,2007)的研究表明,不同年級水平的測驗在結構上的變化(cross-grade construct shift)顯著影響垂直標定結果的準確性,因此將MIRT引入到垂直標定中,是解決測驗結構變化的一個可能的方法(Lin,2006;Kim,2008)。垂直標定從理論基礎、方法到測驗領域中的應用都還需要大量的深入研究,將理論切實地運用到實踐當中也將成為研究者今后努力的一個重要方向。
在傳統教育評價領域,對學校和教師的評價多是一種終結性評價,即以學生測驗成績的均值為標準進行評價。這種單一的評價方法反映的信息并不準確,受到各方面的批評。增值評價(Value-add?ed Assessment)作為一種新的教育評價思路,近年來得到越來越廣泛的關注,并引發了大量的相關研究,它為傳統的教育測驗分數的分析提供了新的視角,能夠實現對學校和教師效能的客觀評價。對教師進行增值評價的基本做法是,考慮影響學生學業成績的種種因素,如學生的個人情況(性別、智力、起點學習水平等)、家庭背景信息(師資、辦學條件之類)等,借助適當的測量理論與模型,把教師對學生學業成績的影響從其他種種因素的影響中分離出來,準確計算其對學生年度學業成績退化的具體影響程度,由此而評估其給學生帶來的成績“增值”幅度(辛濤,張文靜,李雪燕,2009)。
增值評價的統計模型一般以多水平回歸模型為基礎,隨著研究的不斷深入,采用的模型表現出復雜化的趨勢。一般的增值模型假設某學?;蚪處煹男獙λ袑W生來說都是相同的,但最近有研究者(Dokumaci&Meyer,2010)認為,學?;蚪處煂Σ煌后w學生的增值影響可能是不同的,據此提出了增值效應差異模型(differential effect val?ue-added model)。有研究者探討了不同年級測驗間的垂直鏈接對增值模型中教師效應或學校效應估計結果的影響(Briggs&Weeks,2009)。此外還有一些研究者進行了教師效應增值估計的效度研究(Harris&Sass,2007;Jacob&Lefgren,2008;Kane&Staiger,2008)。
我國學校效能研究起步較晚,相關實證研究大概起源于20世紀90年代,已經進入了學校效能評價研究的末期,研究內容主要集中在對學校效能一致性的研究上,很少關注學校效能的穩定性。邊玉芳與林志紅(2007)以浙江省金華市39所高中學校2006年參加高考的15649名考生作為樣本,通過增值模型分析得出不同區域、類型的學校增值情況存在差異的結論。張文靜等(2010)以房山區42所小學的1238名四年級學生42名數學教師為研究對象,以四年級下學期的數學測驗成績為因變量,四年級上學期的數學測驗成績作為協變量加入兩水平線性模型中建立基礎增值模型,結果顯示,教師的特征變量中,教師的性別、年齡、教齡和學歷專業對學生學業成績的增長無顯著影響,而教師的職稱和最終受教育水平則對學生學業成績的增長有顯著影響;與教學相關的變量中,是否參加過新課程培訓這一變量對學生學業成績的增長有顯著影響。曹健等人(2010)運用增值排序法和協方差分析法通過對1237名學生進行分析,首次證實了學生學業成績增值差異特征:“U形曲線”的存在,即起點水平較低和起點水平較高的兩部分學生,其增值幅度高于中間水平學生。
隨著計算機技術和測量理論的飛速發展,計算機化自適應測驗(Computerized Adaptive Testing,CAT)自20世紀70年代早期被引入測驗領域,目前已經成為一種非常流行的測驗模式(Cheng,2008)。CAT的基本思路是讓計算機模仿聰明主考官的做法,每次都呈現難度與考生能力水平接近的題目。因此,較傳統紙筆測驗(Paper-and-Pencil,P&P),CAT使用較少的題目就能夠更準確地估計考生的潛在特質(心理測量學領域一般稱為能力θ)(Wainer,1990;Weiss,1982)。CAT還有很多優點:(1)當題庫得到良好維護時,它可以提供可靠的、連續的測驗;(2)整個測驗過程都是由計算機完成,因此測驗公平、公正和高效;(3)與多媒體技術結合可以提供包括音頻剪輯和視頻剪輯在內的新題目類型。這些優點使得CAT成為很多大規模教育評估項目的首選(陳平,辛濤,2011a)。
認知診斷計算機化自適應測驗(Cognitive Diag?nostic Computerized Adaptive Testing,CD-CAT)將CAT與認知診斷結合起來,勢必成為CAT發展的一個新方向。CD-CAT是對CAT的擴展,它不僅可以提供關于考生優缺點的診斷反饋,還可以提高診斷測量的準確性與效率。因此,CD-CAT近年來在教育測量領域得到廣泛關注(e.g.,Chen,Xin,Wang,&Chang,in press;Cheng,2009;McGlohen&Chang,2008;Xu,Chang,&Douglas,2003;陳平,辛濤,2011a,2011b;毛秀珍,辛濤,2011;林海菁,丁樹良,2007;汪文義,丁樹良,游曉鋒,2011)。目前相關研究還剛剛起步,研究者探討了CD-CAT選題策略的研發和比較(如Xu,Chang和Douglas,2003;McGlohen 和 Chang,2008;Cheng,2009;Wang,Chang,&Huebner,2011;陳平,李珍,辛濤,2011;毛秀珍,辛濤,2011),以及CD-CAT中新題校準和Q矩陣自動估計的問題(Liu,Xu,&Ying,2011;陳平,辛濤,2011a,2011b)。
雖然理想化的計算機化自適應測驗有眾多優點,但在實踐中其對題庫的高要求以及測驗安全的隱患迫使我們重新評估CAT的有效性。結構化的計算機化自適應多階段考試(Computer-Adaptive Multistage Testing,ca-MST)是使用題組(testlet)的自適應測驗(Drasgow,Luecht,&Bennett,2006)。ca-MST最初由Luecht和Nungester(1998)提出,當時稱為計算機自適應序列測驗(Computer-Adaptive Sequential Testing,CAST),而目前ca-MST的縮寫更為人熟知。近年來,ca-MST逐漸受到重視,被看作是介于線性測驗與自適應測驗之間的一種測驗形式(Armstrong&Little,2003;Hambleton&Xing,2002;Jodoin,Zenisky,&Hambleton,2002;Lu?echt, 2000; Luecht, Brumfield, & Breithaupt,2002;Luecht&Burgin,2003;Patsula&Hamble?ton,1999)。從ca-MST是一個事先構建的多階段自適應題組模型,該模型結合多階段自適應技術與自動組卷(Automated Test Assembly,ATA),允許測驗開發者在較大程度上控制題冊以及數據的質量。ca-MST具有自適應的性質,因此比紙筆測驗或計算機化的線性測驗更加有效;ca-MST在內容效度、題冊質量以及測驗材料曝光等的控制上比CAT更有優勢(Luecht,2000;Luecht&Burgin,2003)。正因為ca-MST在測驗實踐中表現出的許多優點,美國的一些大型測驗項目,例如注冊會計師統一考試(Uniform CPA Examination)和研究生入學考試(Graduate Record Examination,GRE)都 開 始 用ca-MST替代CAT。因此,ca-MST也成為了研究的熱點之一(e.g.Breithaupt&Hare,2007;Gierl et al.,2011;Sireci et al.,2008),在《教育測量》(第四版)中也有詳細的介紹,也可參見Luecht和Sireci(2011)向大學理事會提交的綜述報告。
隨著人們不斷對測量結果提出更高的要求,測量理論和測量模型表現出復雜化的趨勢,這在一定程度上反映出教育測量等領域的現實情況的復雜性。然而,研究者和實踐者們也逐漸開始反思開發復雜模型的必要性,如何整合不同的測量理論和模型等技術性問題;以及如何將測量的結果有效地應用于教育評價和教育問責,如何向不具有統計或測量學專業知識的相關利益群體報告和解釋測量的結果等實踐中的問題。
目前,無論是多維IRT、認知診斷還是垂直標定都還處于理論研究的階段,較少應用于實際的測評項目。如何在考試實踐中應用這些新的測量理論和模型,以及在實踐中會遇到什么問題,還有待進一步探索。但可以肯定的是,根據教育測評的發展趨勢,認知診斷和CD-CAT有很好的發展前景,例如,我國《國家中長期教育改革和發展規劃綱要(2010—2020年)》明確提出要改革教育質量評價制度,完善教育質量監測評估體系,定期發布測評結果,建立學生發展指導制度,加強對學生的理想、心理和學業等多方面指導;美國奧巴馬政府通過的新聯邦資助方案“卓越競爭”(Race to the Top,RTTT)強調評價的目的應該是了解學生的學習與進步,而不僅僅是對學生的學習情況進行監督和排名。
認知診斷和CAT的結合產生了具有較大發展前景的CD-CAT,可以預見如果將增值評價的思想與CTT以外的其他測量理論相結合,如多維IRT、認知診斷理論和垂直標定,將產生更大的價值。隨著我國加大對教育監測、教育評價的重視程度,增值評價和CD-CAT等將在未來的教育實踐中發揮重要的作用。
[1]Ackerman,T.A.,Gierl,M.J.,&Walker,C.M.Using multidimen?sional item response theory to evaluate educational and psychologi?cal Tests.MIRT Instructional Module/Educational Measurement:Issues and Practice,2003:37–53.
[2]Armstrong,R.D.,&Little,J.The assembly of multiple form struc?tures.Paper presented at the annual meeting of the National Coun?cil on Measurement in Education.2003,April.
[3]Breithaupt,K.,&Hare,D.R.Automated simultaneous assembly of multistage testlets for a high-stakes licensing exam.Educational and Psychological Measurement,2007:67,5-20.
[4]Briggs,D.C.,&Weeks,J.P.The sensitivity of value-added model?ing to the creation of a vertical score scale.Education Finance and Policy,2009,4(4),384-414.
[5]Cai,L.High-dimensional exploratory item factor analysis by a Me?tropolis–Hastings Robbins–Monro algorithm.Psychometrika,2010a,75(1),33-57.
[6]Cai,L.Metropolis-Hastings Robbins-Monro algorithm for confir?matory item factor analysis.Journal of Educational and Behavioral Statistics,2010b,35(3),307-335.
[7]Cai,L.,Yang,J.S.,&Hansen,M.Generalized full-information item bifactor analysis.Psychological Methodsm,2011,16(3),221-248.
[8]Cheng,Y.Computerized adaptive testing—new developments and applications.Unpublished doctoral thesis,University of Illinois at Urbana-Champaign.2008.
[9]Cheng,Y.When cognitive diagnosis meets computerized adaptive testing:CD-CAT.Psychometrika,2009,74,619-632.
[10]de la Torre,J.Multidimensional scoring of abilities:The ordered polytomous response case.Applied Psychological Measurement,2008,32(5),355-370.
[11]de la Torre,J.Improving the quality of ability estimates through multidimensional scoring and incorporation of ancillary variables.Applied Psychological Measurement,2009,33(6),465-485.
[12]de la Torre,J.The generalized DINA model framework.Psy?chometrika,2011,76,179-199.
[13]de la Torre,J.,&Douglas,J.A.Higher-order latent trait models for cognitive diagnosis.Psychometrika,2004,69,333-353.
[14]de la Torre,J.,&Lee,Y.S.A note on the invariance of the DINA model parameters.Journal of Educational Measurement,2010,47,115-127.
[15]DeMars,C.E.Application of the bi-factor multidimensional item response theory model to testlet-based tests.Journal of Education?al Measurement,2006,43(2),145–168.
[16]Drasgow,F.,Luecht,R.M.,&Bennett,R.Technology and Test?ing.In R.L.Brennan(Ed.),Educational measurement(4th ed.,pp.471–515).Washington,DC:American Council on Education/Praeger Publishers.2006.
[17]Embretson,S.E.Construct Validity:A Universal Validity System or Just Another Test Evaluation Procedure?Educational Research?er,2007,36(8),449–455.
[18]Ferrando,P.J.Difficulty,Discrimination,and Information Indices in the Linear Factor Analysis Model for Continuous Item Respons?es.Applied Psychological Measurement,2009,33(1):9–24.
[19]Finkelman,M.,Nering,M.L.,&Roussos,L.A.A conditional expo?sure control method for multidimensional adaptive testing.Journal of Educational Measurement,2009,46(1),84–103.
[20]Fu,J.,&Li,Y.Cognitively diagnostic psychometric models:An in?tegrative review.Paper presented at the Annual Meeting of the Na?tional Council on Measurement in Education,Chicago,IL.2007.
[21]Gierl,M.J.,Lai,H.,Li,J.,&Breithaupt,K.Evaluating the Perfor?mance of CATSIB in a Multi-Stage Adaptive Testing Environment.Manuscript submitted for publication.2011.
[22]Gorin,J.S.,&Embretson,S.E.Item Diffficulty Modeling of Para?graph Comprehension Items.Applied Psychological Measurement,2006,30(5),394.
[23]Hambleton,R.K.,&Xing,D.Comparative analysis of optimal and non-optimal computer-based test designs for makingpass-fail de?cisions(Center for Educational Assessment Research Report No.457).Amherst,MA:University of Massachusetts,School of Educa?tion.2002.
[24]Harris,D.N.,&Sass,T.R.Teacher training,teacher quality,and student achievement.National Center for the Analysis of Longitu?dinal Data in Education Research(CALDER).Working Paper,2007,3.
[25]Jacob,B.A.,&Lefgren,L.Can principals identify effective teach?ers?Evidence on subjective performance evaluation in education.Journal of Labor Economics,2008,26(1),101-136.
[26]Jiang,Y.L.Estimating parameters for multidimensional item re?sponse theory models by MCMC methods.Unpublished doctoral dissertation,Michigan State University.2005.
[27]Jodoin,M.,Zenisky,A.,&Hambleton,R.K.Comparison of the psychometric properties of several computerbased test designs for credentialing exams.Paper presented at the annual meeting of the National Council on Measurement in Education,New Orleans,LA.2002,April.
[28]Kacmar,K.M.,Farmer,W.L,Zivnuska,S.,&Witt,L.A.Apply?ing multidimensional item response theory analysis to a measure of meta-perspective performance.The Electronic Journal of Business Research Methods,2006,4(1),23–30.
[29]Kane,T.J.,&Staiger,D.O.Estimating teacher impacts on student achievement:An experimental evaluation:National Bureau of Eco?nomic Research.2008.
[30]Kim Y.Y.Effects of test linking methods on proficiency classifica?tion,UIRT versus MIRT liking.Unpublished doctorial dissertation.Michigan State University,East Lansing,U.S.2008.
[31]Kolen,M.J.Scaling and norming.In R.L.Brennan(Ed.),Educa?tional measurement(4th ed.,pp.156–186).Washington,DC:American Council on Education/Praeger Publishers.2006.
[32]Kolen.M.J.,&Brennan,R.L.Testing equating,scaling,and lingk?ing,methods and Practices.New York,Springer.2004.
[33]Langeheine,R.,Pannekoek,J.,&van de Pol,F.Bootstrapping goodness-of-fit measures in categorical data analysis.Sociological Methods and Research,1996,24,492–516.
[34]Li T.The effect of dimensionality on vertical scaling.Unpublished doctorial dissertation.Michigan State University,East Lansing,U.S.2006.
[35]Li,Y.H.,&Schafer,W.D.Trait parameter recovery using multi?dimensional computerized adaptive testing in reading and mathe?matics.Applied Psychological Measurement,2005,29(1),3–25.
[36]Liu,J.C.,Xu,G.J.,&Ying,Z.L.Statistical inference of the Q-matrix in diagnostic classification models.Paper presented at the 76th Meeting of the Psychometric Society,Hong Kong,China.2011,July.
[37]Luecht,R.M.Implementing the computer-adaptive sequential testing(CAST)framework to mass produce high-quality comput?er-adaptive and mastery tests.Paper presented at the Annual Meeting of the National Council on Measurement in Education,New Orleans,LA.2000,April.
[38]Luecht,R.M.,Brumfi eld,T.,&Breithaupt,K.A testlet assembly design for the uniform CPA examination.Paper presented at the annual meeting of the National Council on Measurement in Educa?tion,New Orleans,LA.2002,April.
[39]Luecht,R.M.,&Burgin,W.Matching test design to decisions:Test specifications and use of automated test assembly for adap?tive multi-stage testlets.Paper presented at the Annual Meeting of the National Council on Measurement in Education,Chicago,IL.Retrieved from http://www.psych.umn.edu/psylabs/catcentral.April,2003.
[40]Luecht,R.M.,&Nungester,R.J.Some practical examples of com?puter-adaptive sequential testing.Journal of Educational Measure?ment,1998,35,229–249.
[41]Luecht,R.M.,&Sireci,S.G.A Review of Models for Comput?er-Based Testing.Research Report for College Board.2011
[42]Martineau J A.The effects of construct shift on growth and ac?countability models.Unpublished doctorial dissertation disserta?tion.Michigan State University,East Lansing,U.S.2004.
[43]Martineau J A.A distorting value added,the use of longitudinal,vertically scaled student achievement data for growth-based,val?ue-added accountability.Journal of Educational and Behavioral Statistics,2006,31:35-62.
[44]Mcglohen,M.,&Chang,H.H.Combining computer adaptive test?ing technology with cognitive diagnostic assessment.Behavior Re?search Methods,2008,40,808-821.
[45]Patsula,L.N.,&Hambleton,R.K.A comparative study of ability estimates obtained from computer-adaptive and multi-stage test?ing.Paper presented at the annual meeting of the National Council on Measurement in Education,Montreal,Quebec,Canada.1999,April.
[46]Patz R J,Yao L.Vertical scaling:statistical models for measuring growth and achievement.In:Rao C R,Sinharay S.Eds.Handbook of statistics.Ameterdam,Netherlands:Elsevier,2007,955-975.
[47]Reckase,M.D.The past and future of multidimensional item re?sponse theory.Applied Psychological Measurement,1997,21,25-36.
[48]Robert H.Meyer&Emin Dokumaci.Value-Added Models and the Next Generation of Assessments.Exploratory Seminar:Measure?ment challenges within the race to the top agenda center for K-12 assessment&performance management.2010,3-43.
[49]Roussos,L.,Templin,J.,&Henson,R.Theoretically grounded linking and equating for mastery/non-mastery skills diagnosis models.Unpublished ETS Project Report,Princeton,NJ.2005.
[50]Roussos,L.A.,Templin,J.L.,&Henson,R.A.Skills diagnosis using IRT-Based latent class models.Journal of Educational Mea?surement,2007,44(4),293-311.
[51]Rupp,A.A.,Templin,J.,&Henson,R.A.Diagnostic measure?ment:Theory,methods,and applications.The Guilford Press.2010.
[52]Sireci,S.G,Baldwin,P.,Martone,A.,Zenisky,A.,Kaira,L.,Lam,W.,Shea,C.,Han,K.T.,Deng,N.,Delton,J.,&Hambleton,R.K.Massachusetts adult proficiency tests technical manual:Version 2.Amherst,MA:Center for Educational Assessment.April,2008.
[53]te Marveled,J.M.,Glas,C.A.W.,van Landeghem,G.,&van Damme,J.Application of multidimensional item response theory models to longitudinal data.Educational and Psychological Mea?surement,2006,66(1),5–34.
[54]Templin,J.Generalized linear mixed proficiency models for cogni?tive diagnosis.Unpublished doctoral dissertation,University of Illi?nois at Urbana-Champaign.2004.
[55]Templin,J.L.,&Henson,R.A.Measurement of psychological dis?orders using cognitive diagnosis models.Psychological methods,2006,11,287-305.
[56]van der Linden,W.J.A test-theoretic approach to observed-score equating.Psychometrika,2000,65,437-456.
[57]van der Linden,W.J.Local observed-score equating.In A.A.von Davier(Ed.),Statistical models for equating,scaling,and linking.New York:Springer.2010.
[58]von Davier,M.A general diagnostic model applied to language testing data.British Journal of Mathematical and Statistical Psy?chology,2008,61,287-307.
[59]Wainer,H.Computerized adaptive testing:A primer.Hillsdale,NJ:Erlbaum.1990.
[60]Walker,C.M.,Beretvas,S.N.Comparing Multidimensional and Unidimensional Proficiency Classifications:Multidimensional IRT as a Diagnostic Aid.Journal of Educational Measurement,2003,40(3),255–275.
[61]Wang,C.,Chang,H.,&Huebner,A.Restrictive stochastic item se?lection methods in cognitive diagnostic CAT.Journal of Education?al Measurement,2011,48,255-273.
[62]Weiss,D.J.Improving measurement quality and efficiency with adaptive testing.Applied PsychologicalMeasurement,1982,6,473-492.
[63]Wells,C.S.,Subkoviak,M.J.,&Serlin,R.C.The effect of item parameter drift on examinee ability estimates.Applied Psychologi?cal Measurement,2002,26(1),77-87.
[64]Xu,X.,Chang,H.,&Douglas,J.A simulation study to compare CAT strategies for cognitive diagnosis.Paper presented at the an?nual meeting of National Council on Measurement in Education,Montreal,Canada.2003.
[65]Xu,X.,&von Davier,M.Linking for the general diagnostic model.Issues and Methodologies in Large-Scale Assessments,IEA-ETS Research Institute,Hamburg,2008,1,99-113.
[66]Zhang,B.,&Stone,C.A.Direct and indirect estimation of three-parameter compensatory multidimensional item response models.Paper presented at the annual meeting of the American Educational Research Association,San Diego,CA.2004.
[67]邊玉芳,林志紅.增值評價:一種綠色升學率理念下的學校評價模式.北京師范大學學報(社會科學版),2007,204:11-17.
[68]曹健,惠善康,李慶龍.兩種增值評價方法在基礎教育評價中的應用.教育測量與評價,2010,4-7.
[69]陳平,李珍,辛濤.認知診斷計算機化自適應測驗的題庫使用均勻性初探.心理與行為研究,2011,9(2),125-132.
[70]陳平,辛濤.認知診斷計算機化自適應測驗中的項目增補.心理學報,2011a,43(7),836-850.
[71]陳平,辛濤.認知診斷計算機化自適應測驗中在線校準方法的開發.心理學報,2011b,43(6),710-724.
[72]康春花,辛濤.測驗理論的新發展:多維項目反應理論.心理科學進展,2010,18(3):530-536.
[73]李峰.無錨題測驗的鏈接——規則空間模型的途徑.博士畢業論文[D],北京師范大學.2009.
[74]羅歡,丁樹良,汪文義,喻曉鋒,曹慧媛.屬性不等權重的多級評分屬性層級方法.心理學報,2010,42(4),528-538.
[75]林海菁,丁樹良.具有認知診斷功能的計算機化自適應測驗的研究與實現.心理學報,2007,39(4),747-753.
[76]毛秀珍,辛濤.認知診斷CAT中選題策略的改進.北京師范大學學報(自然科學版),2011,47(3),326-330.
[77]田偉,辛濤.基于等級反應模型的規則空間方法.心理學報,2012,44(1),249-262.
[78]涂冬波,蔡艷,戴海琦,丁樹良.一個多級評分的認知診斷模型:P-DINA模型的加法.心理學報,2010,42(10),1011–1020.
[79]涂冬波,蔡艷,戴海琦,丁樹良.多維項目反應理論:參數估計及其在心理測驗中的應用.心理學報,2011,43(11),1329-1340.
[80]汪文義,丁樹良,游曉鋒.計算機化自適應診斷測驗中原始題的屬性標定.心理學報,2011,43(8),964-976.
[81]辛濤,張文靜,李雪燕.增值性評價的回顧與前瞻.中國教育學刊,2009(4):40-43.
[82]余娜,辛濤.認知診斷理論的新進展.考試研究,2009,5(3),22-34.
[83]祝玉芳,丁樹良.基于等級反應模型的屬性層級方法.心理學報,2009,41(3),267–275.
[84]張文靜,辛濤,康春花.教師變量對小學四年級數學成績的影響:一個增值性研究.教育學報,20106(2):69-76.
New Progress and Trends of Measurement Theory
XIN Tao,LE Meiling and ZHANG Jiahui
The rising of modern measurement theory,represented by multidimensional item response theory and cognitive diagnostic theory,reflects the fact that people are no longer content with a single test score,but demand more specific diagnostic information.The combination of measurement theory and education assessment sparks the research on value-added assessment,computerized adaptive testing and computer-adaptive multistage testing.Most of the advanced research including cognitive diagnosis models and cognitive diagnostic computerized adaptive testing,still remain in the stage of theoretic research;but it is unquestionable that with the progress in research as well as the ever increasing need in practice,this new generation of measurement theory would soon play a crucial role in education and other fields.
Multidimensional Item Response Theory;Cognitive Diagnostic Theory;Vertical Scaling;Value-added Assessment;Computerized Adaptive Testing
G405
A
1005-8427(2012)05-0003-9
北京師范大學