汪文義,宋麗紅,陳 平,丁樹(shù)良,程 艷
(1.江西師范大學(xué)計(jì)算機(jī)信息工程學(xué)院,南昌 330022;2.江西師范大學(xué)初等教育學(xué)院,南昌 330022;3.北京師范大學(xué)中國(guó)基礎(chǔ)教育質(zhì)量監(jiān)測(cè)協(xié)同創(chuàng)新中心,北京 100875)
?
認(rèn)知診斷測(cè)驗(yàn)的屬性分類(lèi)一致性和分類(lèi)準(zhǔn)確性指標(biāo)*
汪文義1,宋麗紅2,陳平3,丁樹(shù)良1,程艷1
(1.江西師范大學(xué)計(jì)算機(jī)信息工程學(xué)院,南昌 330022;2.江西師范大學(xué)初等教育學(xué)院,南昌 330022;3.北京師范大學(xué)中國(guó)基礎(chǔ)教育質(zhì)量監(jiān)測(cè)協(xié)同創(chuàng)新中心,北京 100875)
摘要:分類(lèi)一致性和分類(lèi)準(zhǔn)確性是衡量考試信效度的兩個(gè)重要評(píng)價(jià)指標(biāo)?;陧?xiàng)目反應(yīng)理論下分類(lèi)一致性和分類(lèi)準(zhǔn)確性指標(biāo),提出認(rèn)知診斷測(cè)驗(yàn)的屬性(模式)分類(lèi)一致性和分類(lèi)準(zhǔn)確性指標(biāo),討論分類(lèi)一致性指標(biāo)、分類(lèi)準(zhǔn)確性指標(biāo)與屬性估計(jì)誤差之間的關(guān)系,并由屬性掌握概率的估計(jì)標(biāo)準(zhǔn)誤推導(dǎo)出屬性分類(lèi)準(zhǔn)確性的上限。結(jié)果顯示:屬性(模式)分類(lèi)一致性可準(zhǔn)確估計(jì)重測(cè)一致性;分類(lèi)準(zhǔn)確性指標(biāo)計(jì)算簡(jiǎn)單,可準(zhǔn)確估計(jì)認(rèn)知診斷測(cè)驗(yàn)的判準(zhǔn)率。
關(guān)鍵詞:分類(lèi)一致性;分類(lèi)準(zhǔn)確性;屬性經(jīng)驗(yàn)信度;屬性α信度;確定性輸入噪聲與門(mén)模型
1引言
在認(rèn)知診斷評(píng)估領(lǐng)域中,診斷測(cè)驗(yàn)的信效度是一個(gè)較新的研究領(lǐng)域。認(rèn)知診斷主要是在離散潛在空間對(duì)被試分類(lèi),連續(xù)潛在空間下信度評(píng)估方法不能直接應(yīng)用于診斷測(cè)驗(yàn)(Henson,2005;Roussos et al.,2007)。因此,診斷分?jǐn)?shù)信度常常沒(méi)有報(bào)告,屬性分類(lèi)結(jié)果的可信度就無(wú)從得知(Templin & Bradshaw,2013)。

總之,已有診斷測(cè)驗(yàn)的信度和效度評(píng)價(jià)方法,主要基于模擬的方法、α系數(shù)、相關(guān)系數(shù)或僅給出模式分類(lèi)指標(biāo)等。筆者基于Rudner方法或Guo方法的思想(Guo,2006;Rudner,2001,2005;Wyse & Hao,2012),構(gòu)建單個(gè)測(cè)驗(yàn)的分類(lèi)一致性和分類(lèi)準(zhǔn)確性指標(biāo)。該研究與以前研究的區(qū)別在于:(1)無(wú)需模擬平行測(cè)驗(yàn),也不是基于α系數(shù),眾所周知,α系數(shù)僅在平行測(cè)驗(yàn)、τ等價(jià)測(cè)驗(yàn)或基本τ等價(jià)測(cè)驗(yàn)條件下適用;(2)給出計(jì)算簡(jiǎn)單的屬性(模式)分類(lèi)一致性和分類(lèi)準(zhǔn)確性指標(biāo);(3)研究分類(lèi)一致性和信度系數(shù)之間的關(guān)系;(4)研究分類(lèi)準(zhǔn)確性與模擬的判準(zhǔn)率之間的關(guān)系。
2分類(lèi)一致性和分類(lèi)準(zhǔn)確性指標(biāo)
2.1確定性輸入噪音與門(mén)模型及知識(shí)狀態(tài)估計(jì)
以最近研究較多的非補(bǔ)償?shù)恼J(rèn)知診斷模型確定性輸入噪音與門(mén)模型(DINA)為例,討論新指標(biāo)的構(gòu)建,該模型的項(xiàng)目反應(yīng)函數(shù)(de la Torre,2009):

被試在M個(gè)項(xiàng)目上的得分向量為Xi=(xi1,xi2,…,xiM),給定αi,在局部獨(dú)立性假設(shè)下,其似然函數(shù)為:
如通過(guò)EM算法估計(jì)項(xiàng)目參數(shù)后(de la Torre,2009),則可采用極大似然法(MLE)、最大后驗(yàn)估計(jì)法(MAPE)或?qū)傩缘倪呺H后驗(yàn)概率估計(jì)法(MPPE)估計(jì)知識(shí)狀態(tài)。MAPE估計(jì)如下:


然后,可通過(guò)確定各屬性的劃界分?jǐn)?shù),得出被試i在各個(gè)屬性上掌握或未掌握狀態(tài)。劃界分?jǐn)?shù)需要進(jìn)行設(shè)定,不同設(shè)定方法對(duì)分類(lèi)信度的影響值得研究(Rupp,Templin,& Henson,2010)。此處劃界分?jǐn)?shù)的設(shè)定不在研究范圍之內(nèi),僅將各屬性的劃界分?jǐn)?shù)均設(shè)為0.5。
2.2屬性(模式)分類(lèi)準(zhǔn)確性指標(biāo)
用于估計(jì)單個(gè)測(cè)驗(yàn)分類(lèi)準(zhǔn)確性的Rudner方法計(jì)算簡(jiǎn)單(陳平,李珍,辛濤,高慧健,2011;韓寧,2008)且有諸多應(yīng)用(Lathrop & Cheng,2013)。分類(lèi)準(zhǔn)確性即所有類(lèi)別上的被試觀察分類(lèi)與期望分類(lèi)一致的比率(Rudner,2001,2005)。Guo方法(Guo,2006)弱化了Rudner方法的假設(shè),計(jì)算僅依賴(lài)于似然函數(shù)(與采用均勻先驗(yàn)的后驗(yàn)分布對(duì)應(yīng)),計(jì)算相對(duì)簡(jiǎn)單,被視為是Rudner方法的改進(jìn)方法。




2.3屬性(模式)分類(lèi)一致性指標(biāo)
分類(lèi)一致性反映兩份平行測(cè)驗(yàn)或獨(dú)立重測(cè)下被試的分類(lèi)一致性。據(jù)Wyse和 Hao(2012)分類(lèi)一致性的計(jì)算或類(lèi)似于Templin和Bradshaw(2013)構(gòu)建的列聯(lián)表,可得屬性k的分類(lèi)一致性指標(biāo)為:
類(lèi)似地,可得模式分類(lèi)一致性指標(biāo)為:
2.4屬性分類(lèi)一致性指標(biāo)、分類(lèi)準(zhǔn)確性指標(biāo)與屬性概率的標(biāo)準(zhǔn)誤的關(guān)系
由定義知,屬性分類(lèi)一致性大于分類(lèi)準(zhǔn)確性(Wyse & Hao,2012)。Templin和Henson(2009)源于IRT中經(jīng)驗(yàn)信度指標(biāo)(可參見(jiàn)BILOG-MG手冊(cè)),提出了屬性經(jīng)驗(yàn)信度指標(biāo)如下:

3模擬研究
3.1研究目的
通過(guò)模擬研究,評(píng)價(jià)分類(lèi)一致性、屬性信度和模擬重測(cè)一致性的關(guān)系;評(píng)價(jià)分類(lèi)準(zhǔn)確性與模擬判準(zhǔn)率的關(guān)系;考察兩指標(biāo)的影響因素。
3.2研究設(shè)計(jì)
考慮6個(gè)相互獨(dú)立屬性,模擬10000被試,項(xiàng)目數(shù)固定為300,猜測(cè)與失誤參數(shù)分別服從U(0.05,0.25)和U(0.05,0.40),項(xiàng)目以0.2的概率考察屬性,得到兩個(gè)不同Q陣的題庫(kù)。采用隨機(jī)組卷(RD)和無(wú)約束的CDI組卷(Henson,2005),各得到一個(gè)含30個(gè)項(xiàng)目的測(cè)驗(yàn)Q陣及項(xiàng)目參數(shù),重復(fù)模擬30個(gè)得分陣。
3.3評(píng)價(jià)指標(biāo)
3.4研究結(jié)果

表1 屬性或模式的判準(zhǔn)率和分類(lèi)準(zhǔn)確性均值
表1從上至下4種條件下,MAP估計(jì)的模式分類(lèi)一致性 分別為:0.59,0.87,0.37,0.65,而重測(cè)一致性分別為:0.53,0.83,0.32,0.71。重測(cè)一致性根據(jù)Roussos等(2007)的方法,采用模擬方法計(jì)算得到。圖1至圖4給出了各模擬條件下屬性的信度指標(biāo)的均值,結(jié)果顯示:經(jīng)驗(yàn)信度和分類(lèi)一致性比α信度,更為接近重測(cè)一致性,尤其是在CDI組卷?xiàng)l件下。因CDI組卷基本上選擇考察單個(gè)屬性的項(xiàng)目,考察相同屬性的項(xiàng)目基本滿足基本τ等價(jià)條件,而隨機(jī)組卷有的項(xiàng)目考察多個(gè)屬性,易違背單維性條件。

圖1 U(0.05,0.25)、RD條件下各信度系數(shù)比較

圖2 U(0.05,0.25)、CDI條件下各信度系數(shù)比較

圖3 U(0.05,0.40)、RD條件下各信度系數(shù)比較

圖4 U(0.05,0.40)、CDI條件下各信度系數(shù)比較
4實(shí)證數(shù)據(jù)分析

5結(jié)論和討論
屬性(模式)分類(lèi)準(zhǔn)確性指標(biāo)可較好估計(jì)模擬的屬性(模式)判準(zhǔn)率;由屬性概率標(biāo)準(zhǔn)誤可得出分類(lèi)準(zhǔn)確性的上限;屬性α信度系數(shù)表現(xiàn)不如分類(lèi)一致性和經(jīng)驗(yàn)信度系數(shù);構(gòu)建的分類(lèi)一致性和分類(lèi)準(zhǔn)確性指標(biāo)比Cui等(2012)提出的指標(biāo)計(jì)算要簡(jiǎn)便。
新構(gòu)建的診斷測(cè)驗(yàn)分類(lèi)一致性和分類(lèi)準(zhǔn)確性指標(biāo),可較好反映屬性報(bào)告分?jǐn)?shù)的分類(lèi)信、效度,對(duì)測(cè)驗(yàn)信、效度評(píng)估具有重要應(yīng)用價(jià)值。分類(lèi)準(zhǔn)確性可較好估計(jì)判準(zhǔn)率,意義在于:(1)通常判準(zhǔn)率在真實(shí)測(cè)驗(yàn)中得不到,可使用分類(lèi)準(zhǔn)確性指標(biāo)評(píng)價(jià)真實(shí)測(cè)驗(yàn)的判準(zhǔn)率;(2)可為變長(zhǎng)計(jì)算機(jī)化自適應(yīng)診斷測(cè)驗(yàn)下特定的終止規(guī)則提供解釋?zhuān)鐑H以最大后驗(yàn)概率0.8的標(biāo)準(zhǔn)終止測(cè)驗(yàn),基本上可以認(rèn)為所有被試的判準(zhǔn)率接近0.8(汪文義,丁樹(shù)良,宋麗紅,2014)。測(cè)驗(yàn)信效度在測(cè)驗(yàn)編制、組卷和自適應(yīng)診斷測(cè)驗(yàn)中的應(yīng)用,有待研究。
該研究?jī)H基于DINA模型定義和討論新指標(biāo),但新指標(biāo)可應(yīng)用于其它有顯式表達(dá)式的認(rèn)知診斷模型,即可通過(guò)顯示函數(shù)給出知識(shí)狀態(tài)和項(xiàng)目參數(shù)下項(xiàng)目反應(yīng)答對(duì)概率的數(shù)學(xué)表達(dá)式,如融合模型和確定性輸入噪聲或門(mén)模型等。是否可稍加改變以適合屬性層級(jí)模型,值得研究。Q矩陣作為效度證據(jù)的重要來(lái)源之一,直接決定診斷反饋結(jié)果的準(zhǔn)確性和有效性。該研究在分類(lèi)準(zhǔn)確性估計(jì)中尚未考慮Q矩陣本身質(zhì)量好壞的影響,這些指標(biāo)是否對(duì)Q矩陣誤指(宋麗紅,汪文義,丁樹(shù)良,2015;汪文義,宋麗紅,丁樹(shù)良,2015)敏感,以及可否作為評(píng)價(jià)Q矩陣質(zhì)量的一項(xiàng)指標(biāo),值得思考。其他因素,如樣本量大小、屬性層級(jí)結(jié)構(gòu)、測(cè)驗(yàn)長(zhǎng)度對(duì)其影響如何也有待關(guān)注。
值得注意的是,IRT經(jīng)驗(yàn)信度是建立在潛變量方差和誤差方差相互獨(dú)立假設(shè)之上的。在認(rèn)知診斷模型中,潛變量為分類(lèi)變量,潛變量方差和誤差方差不相互獨(dú)立(Templin & Bradshaw,2013),因此使用Templin和Henson(2009)提出的屬性經(jīng)驗(yàn)信度應(yīng)慎重。
參考文獻(xiàn)
陳平,李珍,辛濤,高慧健.(2011).標(biāo)準(zhǔn)參照測(cè)驗(yàn)決策一致性指標(biāo)研究的總結(jié)與展望.心理發(fā)展與教育,2,210-215.
丁樹(shù)良,毛萌萌,汪文義,羅芬,Cui,Y.(2012).教育認(rèn)知診斷測(cè)驗(yàn)與認(rèn)知模型一致性的評(píng)估.心理學(xué)報(bào),44,1535-1546.
關(guān)守義.(2009).克龍巴赫α系數(shù)研究述評(píng).心理科學(xué),32,685-687.
韓寧.(2008).評(píng)價(jià)考試質(zhì)量的新指標(biāo):決策一致性和決策準(zhǔn)確性.中國(guó)考試,6,3-6.
孟慶茂,劉紅云.(2002).α系數(shù)在使用中存在的問(wèn)題.心理學(xué)探新,22(3),42-47.
宋麗紅,汪文義,丁樹(shù)良.(2015).測(cè)驗(yàn)Q矩陣的修正方法及其比較研究.江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),39,623-630.
汪文義,丁樹(shù)良,宋麗紅.(2014).兼顧測(cè)驗(yàn)效率和題庫(kù)使用率的CD-CAT選題策略.心理科學(xué),37,212-216.
汪文義,宋麗紅,丁樹(shù)良.(2015).基于探索性因素分析的Q矩陣標(biāo)定方法.江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),39,138-144,170.
Cui,Y.,Gierl,M.J.,& Chang,H.-H.(2012).Estimating classification consistency and accuracy for cognitive diagnostic assessment.JournalofEducationalMeasurement,49,19-38.
de la Torre,J.(2009).DINA model and parameter estimation:A didactic.JournalofEducationalandBehavioralStatistics,34,115-130.
Gierl,M.J.,Cui,Y.,& Zhou,J.(2009).Reliability and attribute-based scoring in cognitive diagnostic assessment.JournalofEducationalMeasurement,46,293-313.
Guo,F(xiàn).(2006).Expected classification accuracy using the latent distribution.PracticalAssessment,Research&Evaluation,11,1-6.
Henson,R.(2005).Test construction for cognitive diagnosis.AppliedPsychologicalMeasurement,29,262-277.
Lathrop,Q.N.,& Cheng,Y.(2013).Two approaches to estimation of classification accuracy rate under item response theory.AppliedPsychologicalMeasurement,37,226-241.
Lee,W.C.,Brennan,R.L.,& Wan,L.(2009).Classificationconsistency and accuracy for complex assessments under the compound multinomial model.AppliedPsychologicalMeasurement,33,374-390.
Liu,H.Y.,You,X.F.,Wang,W.Y.,Ding,S.L.,& Chang,H.H.(2013).The development of computerized adaptive testing with cognitive diagnosis for an english achievement test in China.JournalofClassification,30,152-172.
Roussos,L.A.,DiBello,L.V.,Stout,W.,Hartz,S.M.,Henson,R.A.,& Templin,J.L.(2007).The fusion model skills diagnosis system.In J.P.Leighton & M.J.Gierl(Eds.),Cognitivediagnosticassessmentforeducation:Theoryandapplications(pp.275-318).New York:Cambridge University Press.
Rudner,L.M.(2001).Computing the expected proportions of misclassified examinees.PracticalAssessment,Research&Evaluation,7,1-8.
Rudner,L.M.(2005).Expected classification accuracy.PracticalAssessmentResearch&Evaluation,10,1-4.
Rupp,A.A.,Templin,J.L.,& Henson,R.A.(2010).Diagnosticmeasurement:Theory,methods,andapplications.New York:The Guilford Press.
Sijtsma,K.(2009).On the use,the misuse,and the very limited usefulness of Cronbach’s alpha.Psychometrika,74,107-120.
Templin,J.,& Bradshaw,L.(2013).Measuring the reliability of diagnostic classification model examinee estimates.JournalofClassification,30,251-275.
Templin,J.,& Henson,R.(April,2009).Quantifyingreliabilityindiagnosticclassificationmodels.Paper presented at the annual meeting of the National Council on Measurement in Education,San Diego,CA.
Wyse,A.E.,& Hao,S.(2012).Anevaluation of item response theory classification accuracy and consistency indices.AppliedPsychologicalMeasurement,36,602-624.
An Evaluation of Attribute-level Classification Consistency and Accuracy Indices in Cognitive Diagnostic Assessment
Wang Wenyi1,Song Lihong2,Chen Ping3,Ding Shuliang1,Cheng Yan1
(1.College of Computer Information Engineering,Jiangxi Normal University,Nanchang 330022;2.Elementary Educational College,Jiangxi Normal University,Nanchang 330022;3.Collaborative Innovation Center of Assessment toward Basic Education Quality,Beijing Normal University,Beijing 100875)
Abstract:Classification consistency and accuracy indices can be used as important indicators of the reliability and validity of classification results.Cognitive diagnostic assessment focuses on make attribute classification-based decisions while reliability of classification is often not reported in diagnostic score reporting.Classification consistency and accuracy indices(Cui,et al.,2012)were used to evaluate the consistency and accuracy of classification results at the whole-pattern level,but it needs to develop attribute-level classification consistency and accuracy indices for CDA(Cui,et al.,2012).The study investigated attribute-level and pattern-level classification consistency and accuracy indices based on the Rudner method or the Guo method(Guo,2006)in item response theory.Procedures were developed for the computation of classification consistency and accuracy indices specifically designed for cognitive diagnostic assessments.We also used simulated data from the deterministic input noisy “and” gate model to evaluate their performances.According to the simulation results,the classification accuracy indices performed well with simulated diagnostic tests in that their values matched closely with the simulated correct classification rates across different simulation conditions.In addition,classification consistency indices matched with the results of the test-retest consistency indices.
Key words:classification consistency index;classification accuracy index;empirical reliability of attribute;Cronbach’s α reliability of attribute;the deterministic input noisy “and” gate model
*基金項(xiàng)目:全國(guó)教育科學(xué)規(guī)劃教育部重點(diǎn)課題(DHA150285),國(guó)家自然科學(xué)基金(31500909,30860084,31160203,31360237,31300862,61262080),教育部人文社會(huì)科學(xué)研究青年基金項(xiàng)目(13YJC880060),江西省社會(huì)科學(xué)研究“十二五”(2012年)規(guī)劃項(xiàng)目(12JY07),江西省教育科學(xué)2013年度一般課題(13YB032),江西省教育廳科技計(jì)劃項(xiàng)目(GJJ13207),東北師范大學(xué)應(yīng)用統(tǒng)計(jì)教育部重點(diǎn)實(shí)驗(yàn)室開(kāi)放課題(KLAS130028614),國(guó)家社會(huì)科學(xué)基金(12BYY055),國(guó)家教育科學(xué)規(guī)劃項(xiàng)目(CCA110109),江西師范大學(xué)青年成長(zhǎng)基金和博士啟動(dòng)基金。
通訊作者:宋麗紅,E-mail:viviansong1981@163.com。
中圖分類(lèi)號(hào):B841.2
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1003-5184(2016)03-0264-06