宋麗紅,汪文義,戴海琦,丁樹(shù)良
(1.江西師范大學(xué)初等教育學(xué)院,南昌 330022;2.江西師范大學(xué)計(jì)算機(jī)信息工程學(xué)院,南昌 330022;
3.江西師范大學(xué)心理學(xué)院,南昌 330022)
?
認(rèn)知診斷模型下整體和項(xiàng)目擬合指標(biāo)*
宋麗紅1,汪文義2,戴海琦3,丁樹(shù)良2
(1.江西師范大學(xué)初等教育學(xué)院,南昌 330022;2.江西師范大學(xué)計(jì)算機(jī)信息工程學(xué)院,南昌 330022;
3.江西師范大學(xué)心理學(xué)院,南昌 330022)
摘要:認(rèn)知診斷模型能否擬合測(cè)驗(yàn)數(shù)據(jù),直接決定診斷結(jié)果的準(zhǔn)確性。目前國(guó)內(nèi)鮮有研究涉及認(rèn)知診斷測(cè)驗(yàn)下的模型-資料擬合檢驗(yàn)。文章將模型整體擬合指標(biāo)及基于PPMC的項(xiàng)目擬合指標(biāo)應(yīng)用于認(rèn)知診斷模型-資料擬合檢驗(yàn)。模擬研究基于DINA,R-DINA和R-RUM三個(gè)診斷模型檢驗(yàn)各擬合指標(biāo)的表現(xiàn)。結(jié)果顯示整體和項(xiàng)目擬合指標(biāo)在識(shí)別數(shù)據(jù)產(chǎn)生模型時(shí)皆有較高準(zhǔn)確率。采用整體和項(xiàng)目擬合指標(biāo)比較了三個(gè)競(jìng)爭(zhēng)模型與Tatsuoka帶分?jǐn)?shù)減法數(shù)據(jù)的擬合情況,顯示R-RUM擬合最好。
關(guān)鍵詞:認(rèn)知診斷模型;DINA;R-DINA;R-RUM;后驗(yàn)預(yù)測(cè)模型檢查;帶分?jǐn)?shù)減法數(shù)據(jù)
1引言
認(rèn)知診斷評(píng)估是認(rèn)知心理學(xué)與心理計(jì)量學(xué)相結(jié)合的產(chǎn)物,是21世紀(jì)一種新的測(cè)量范式。認(rèn)知診斷模型是描述可觀察反應(yīng)與潛在認(rèn)知屬性之間關(guān)系的統(tǒng)計(jì)模型,對(duì)認(rèn)知診斷評(píng)估至關(guān)重要。為了滿足不同情境下實(shí)際應(yīng)用需求,研究者開(kāi)發(fā)出了眾多認(rèn)知診斷模型。相關(guān)文獻(xiàn)顯示,截止到2007年,已有診斷模型超過(guò)60個(gè)(Fu & Li,2007),而之后又涌現(xiàn)出了不少診斷模型(陳秋梅,張敏強(qiáng),2010;R-DINA,宋麗紅,戴海琦,汪文義,丁樹(shù)良,2012)。
在認(rèn)知診斷實(shí)踐中,選擇恰當(dāng)?shù)恼J(rèn)知診斷模型是對(duì)被試準(zhǔn)確診斷或分類(lèi)的重要前提(Rupp,Templin,& Henson,2010)。對(duì)于特定的診斷測(cè)驗(yàn),診斷模型的選擇要依據(jù)心理學(xué)或教育學(xué)的理論假設(shè),如模型假設(shè)與測(cè)驗(yàn)作答心理認(rèn)知過(guò)程的匹配性(楊向東,2010;Kunina-Habenicht,Rupp,& Wilhelm,2012),測(cè)驗(yàn)Q矩陣與測(cè)驗(yàn)作答所需屬性及屬性結(jié)構(gòu)的吻合性(丁樹(shù)良,毛萌萌,汪文義,羅芬,Cui,2012;涂冬波,蔡艷,戴海琦,2013;Chen,Torre,& Zhang,2013;Kunina-Habenicht et al.,2012)。根據(jù)理論假設(shè)確定一個(gè)或幾個(gè)競(jìng)爭(zhēng)模型后,需要對(duì)診斷模型的模型-資料擬合情況進(jìn)行考察與評(píng)估。
從現(xiàn)有資料來(lái)看,國(guó)內(nèi)外公開(kāi)發(fā)表的認(rèn)知診斷評(píng)估框架下模型-資料擬合研究仍不為多見(jiàn)。Chen等人提出采用-2LL,AIC,BIC和三個(gè)殘差指數(shù)識(shí)別診斷評(píng)估框架下的模型-資料擬合情況(Chen,Torre,& Zhang,2013)。涂冬波、張心、蔡艷和戴海琦(2014)討論了χ2和G2統(tǒng)計(jì)量在認(rèn)知診斷模型-資料擬合檢驗(yàn)中的可行性及效果。然而χ2和G2統(tǒng)計(jì)量及Chen等人提出的指標(biāo)都存在需要確定統(tǒng)計(jì)量理論分布的問(wèn)題。Sinharay等人構(gòu)建了基于后驗(yàn)預(yù)測(cè)模型檢查方法(PPMC,Rubin,1984)的檢驗(yàn)統(tǒng)計(jì)量PPP值(posterior predictive p-value,PPP-value)并用于考察貝葉斯網(wǎng)與測(cè)驗(yàn)資料的擬合情況(Sinharay,2006;Sinharay & Almond,2007)。由于基于PPMC方法計(jì)算的檢驗(yàn)統(tǒng)計(jì)量PPP值,無(wú)需確定統(tǒng)計(jì)量分布,因此具有較好的應(yīng)用前景。但Sinharay和Almond(2007)沒(méi)有進(jìn)一步對(duì)診斷測(cè)驗(yàn)下其指標(biāo)的性能與表現(xiàn)進(jìn)行模擬研究,仍無(wú)法確定PPP值統(tǒng)計(jì)量在認(rèn)知診斷測(cè)驗(yàn)中的檢驗(yàn)性能。

2模型資料擬合指標(biāo)

2.1整體相對(duì)擬合指標(biāo)
此處簡(jiǎn)要介紹基于缺失數(shù)據(jù)的整體相對(duì)擬合指標(biāo):偏差-2LL,AIC,BIC,DIC4。指標(biāo)越小,表示模型資料擬合越好。各指標(biāo)計(jì)算如下:
AIC=-2LL+2d
BIC=-2LL+dlogN
其中-2LL是對(duì)數(shù)似然函數(shù)的條件期望,AIC,BIC 和DIC4在考慮偏差的基礎(chǔ)上,還考慮模型參數(shù)多少以懲罰復(fù)雜模型,pD4表示模型的有效參數(shù)個(gè)數(shù)或有效維度(Celeux et al.,2006)。
2.2項(xiàng)目及測(cè)驗(yàn)絕對(duì)擬合指標(biāo)



其對(duì)應(yīng)的項(xiàng)目或測(cè)驗(yàn)PPP值可類(lèi)似計(jì)算得到,PPP值越大顯示模型-資料擬合越好。
2.2.2Yen統(tǒng)計(jì)量

3模擬研究
3.1實(shí)驗(yàn)設(shè)計(jì)
模擬研究目的是驗(yàn)證上述模型整體擬合統(tǒng)計(jì)量和項(xiàng)目擬合統(tǒng)計(jì)量的偵測(cè)性能。模擬采用的項(xiàng)目Q陣含5個(gè)相互獨(dú)立屬性、30個(gè)項(xiàng)目(其中考察1個(gè)、2個(gè)、3個(gè)屬性的項(xiàng)目數(shù)各為10個(gè))。知識(shí)狀態(tài)全集數(shù)為32,每種知識(shí)狀態(tài)模擬60人,共模擬1920個(gè)被試。由于模型存在差異,DINA模型和R-DINA模型的失誤和猜測(cè)參數(shù)為:1-s~4-Beta(0.4,1,2,1)和g~4-Beta(0,0.6,1,2),而R-RUM模型中參數(shù)分別為:π~U(0.8,0.98)和r~U(0.1,0.6)。固定Q陣和被試,分別采用DINA,R-DINA和R-RUM(產(chǎn)生數(shù)據(jù)模型,或稱(chēng)真實(shí)模型)模擬得分陣。然后對(duì)各批得分陣數(shù)據(jù),分別使用DINA,R-DINA和R-RUM進(jìn)行分析(分析數(shù)據(jù)模型,或稱(chēng)擬合模型),三個(gè)模型均采用MCMC估計(jì),各采用5條鏈,每條鏈長(zhǎng)設(shè)置為5000,保留后面4000。
3.2實(shí)驗(yàn)結(jié)果及結(jié)論
3.2.1MCMC收斂檢查

3.2.2整體擬合指標(biāo)表現(xiàn)
表1列出了各情形下相對(duì)擬合指標(biāo)DIC4及絕對(duì)擬合指標(biāo)G2的測(cè)驗(yàn)PPP值。在DIC4的計(jì)算結(jié)果中,對(duì)角線元素皆為其所在列最小值,可見(jiàn)DIC4指標(biāo)能正確識(shí)別數(shù)據(jù)產(chǎn)生模型。-2LL、AIC和BIC表現(xiàn)類(lèi)似(結(jié)果未列出)。觀察絕對(duì)擬合指標(biāo)G2的測(cè)驗(yàn)PPP值,發(fā)現(xiàn)對(duì)角線元素皆為其所在列最大值。由于PPP值越大模型擬合越好,表中數(shù)據(jù)表明基于PPMC的G2檢驗(yàn)法能較好地識(shí)別數(shù)據(jù)產(chǎn)生模型。

表1 模擬數(shù)據(jù)整體擬合指標(biāo)
注:左表頭第一列表示分析數(shù)據(jù)模型,上表頭第二行表示產(chǎn)生數(shù)據(jù)模型

表2 模擬數(shù)據(jù)項(xiàng)目擬合指標(biāo)表現(xiàn)
注:左表頭第二列表示分析數(shù)據(jù)模型,上表頭第二行表示產(chǎn)生數(shù)據(jù)模型
3.2.3項(xiàng)目擬合指標(biāo)表現(xiàn)
表2列出了項(xiàng)目擬合指標(biāo)的表現(xiàn)。在0.01顯著性水平上,基于PPMC的χ2檢驗(yàn)法拒真率為0;納偽率稍大。尤其R-DINA和R-RUM模型之間的納偽概率較大,這是可能因?yàn)镽-RUM假設(shè)比R-DINA弱,R-DINA模型產(chǎn)生的數(shù)據(jù),R-RUM可全部擬合。R-RUM模型產(chǎn)生的數(shù)據(jù)用R-DINA進(jìn)行分析時(shí),有10個(gè)項(xiàng)目發(fā)生錯(cuò)判。進(jìn)一步考察10個(gè)錯(cuò)判項(xiàng)目和10個(gè)判對(duì)的項(xiàng)目(排除10個(gè)單個(gè)屬性項(xiàng)目),該兩批項(xiàng)目R-RUM的rjk參數(shù)標(biāo)準(zhǔn)差的平均值分別為.09和.17。這一錯(cuò)判結(jié)果在情理之中,因?yàn)樵趯傩酝|(zhì)性較高的情況下,R-RUM模型與R-DINA模型區(qū)別不大,且R-DINA模型簡(jiǎn)單得多。G2檢驗(yàn)方法與χ2檢驗(yàn)方法表現(xiàn)十分接近(結(jié)果未列出)。Yen統(tǒng)計(jì)量總體表現(xiàn)較χ2檢驗(yàn)法稍差,這可能與Yen統(tǒng)計(jì)量需要假定統(tǒng)計(jì)量分布有關(guān),而基于PPMC的檢驗(yàn)方法無(wú)需理論分布假設(shè)。
4實(shí)測(cè)數(shù)據(jù)分析
模擬研究結(jié)果顯示模型整體和項(xiàng)目擬合指標(biāo)均表現(xiàn)不錯(cuò),但指標(biāo)能否有效應(yīng)用到實(shí)測(cè)數(shù)據(jù)分析有待考察。為此,研究采用經(jīng)典的Tatsuoka(2002)分?jǐn)?shù)減法測(cè)驗(yàn)數(shù)據(jù),運(yùn)用前述各項(xiàng)指標(biāo)評(píng)價(jià)三個(gè)診斷模型(DINA,R-DINA,R-RUM)與該測(cè)驗(yàn)數(shù)據(jù)資料的擬合情況。
Tatsuoka隨文公布的分?jǐn)?shù)減法測(cè)驗(yàn)數(shù)據(jù)含20個(gè)項(xiàng)目和536個(gè)被試。文章按題目?jī)?nèi)容從中抽取15個(gè)帶分?jǐn)?shù)減法項(xiàng)目進(jìn)行分析,項(xiàng)目所測(cè)屬性為5個(gè)(Sinharay & Almond,2007),被試屬性掌握模式為32種。根據(jù)前述模型整體擬合指標(biāo)和項(xiàng)目擬合指標(biāo),下文對(duì)三個(gè)競(jìng)爭(zhēng)模與該數(shù)據(jù)資料的擬合情況進(jìn)行比較與評(píng)價(jià)。參數(shù)估計(jì)采用MCMC方法,總鏈長(zhǎng)25000,保留后面15000。
4.1MCMC收斂檢查
4.2模型整體擬合
文章首先考察了三個(gè)模型的整體相對(duì)擬合指標(biāo)-2LL、AIC、BIC和DIC4,結(jié)果顯示,DINA擬合最差,R-DINA與R-RUM各有優(yōu)勢(shì)。從DIC4看,R-RUM下DIC4(9157)比R-DINA下DIC4(9211)稍好;但從BIC來(lái)看,R-DINA下BIC(9576)較R-RUM BIC(9827)小較多,原因是R-RUM是一個(gè)復(fù)雜模型,在BIC指標(biāo)計(jì)算中受到了更大的懲罰。Chen等人(2013)的研究結(jié)果也表明,較之DINA模型,R-RUM模型與該批實(shí)測(cè)數(shù)據(jù)擬合更好。文章接著考察了R-RUM與R-DINA模型的整體絕對(duì)擬合指標(biāo)G2的PPP值,R-RUM模型測(cè)驗(yàn)PPP值為0.07,在.05水平上未達(dá)到顯著,表明R-RUM模型擬合較好。R-DINA的整體絕對(duì)擬合指標(biāo)G2的PPP值為0.01,絕對(duì)擬合欠佳。
4.3模型項(xiàng)目擬合
表3列出了三個(gè)模型在各項(xiàng)目上的似然比統(tǒng)計(jì)量的后驗(yàn)預(yù)測(cè)P值(卡方統(tǒng)計(jì)量的PPP值與之類(lèi)似,故略)。在0.01顯著性水平上,DINA模型有3個(gè)項(xiàng)目不擬合,與Sinharay和Almond(2007)基于χ2值(相當(dāng)于文中Yen統(tǒng)計(jì)量)得出的結(jié)果基本類(lèi)似;R-RUM與R-DINA模型各有1個(gè)項(xiàng)目擬合不佳;相比之下,R-RUM的PPP值較大,擬合最好,這與上述模型整體擬合結(jié)果一致。

表3 帶分?jǐn)?shù)減法數(shù)據(jù)之項(xiàng)目似然比統(tǒng)計(jì)量的PPP值
5結(jié)論與討論

模型-資料擬合檢驗(yàn)是模型選擇的重要依據(jù)。然而,模型-資料擬合檢驗(yàn)雖可為認(rèn)知診斷模型選擇提供一定信息,但模型的選擇不能僅憑模型擬合數(shù)據(jù)的好壞來(lái)評(píng)判。認(rèn)知診斷模型的選擇需要綜合考慮多方面的因素,如需要充分結(jié)合文獻(xiàn)調(diào)查、學(xué)科專(zhuān)家和口語(yǔ)報(bào)告等方法的結(jié)果,評(píng)判所測(cè)量的領(lǐng)域涉及的認(rèn)知屬性及屬性間關(guān)系、分析被試作答的心理認(rèn)知過(guò)程。診斷模型選擇還要結(jié)合模型的復(fù)雜性與解釋性及診斷目的能否充分實(shí)現(xiàn)等因素,如單維項(xiàng)目反應(yīng)模型可能可以較好地?cái)M合數(shù)據(jù),但要求其提供豐富的診斷信息還比較困難;在能夠?qū)崿F(xiàn)診斷目的的前提下,簡(jiǎn)單模型較復(fù)雜模型參數(shù)估計(jì)更容易,解釋性更好。另外,由于認(rèn)知診斷模型不擬合原因的多樣性,仍需構(gòu)建檢查特定不擬合類(lèi)型的統(tǒng)計(jì)量,如對(duì)數(shù)機(jī)率比可用于模型局部獨(dú)立性檢驗(yàn)。文章僅考慮了模型整體擬合指標(biāo)和基于知識(shí)狀態(tài)等價(jià)類(lèi)的項(xiàng)目水平擬合指標(biāo),被試擬合指標(biāo)及基于原始分?jǐn)?shù)的項(xiàng)目擬合指標(biāo)有待進(jìn)一步探討和比較。最后,認(rèn)知診斷模型提供的診斷信息,是否能真正在教學(xué)中起到作用,有待更多的實(shí)證研究去探討。
參考文獻(xiàn)
陳秋梅,張敏強(qiáng).(2010).認(rèn)知診斷模型發(fā)展及其應(yīng)用方法述評(píng).心理科學(xué)進(jìn)展,3,522-529.
丁樹(shù)良,毛萌萌,汪文義,羅芬,Cui,Y.(2012).教育認(rèn)知診斷測(cè)驗(yàn)與認(rèn)知模型一致性的評(píng)估.心理學(xué)報(bào),44,1535-1546.
漆書(shū)青,戴海崎,丁樹(shù)良.(2002).現(xiàn)代教育與心理測(cè)量學(xué)原理.北京:高等教育出版社.
宋麗紅,戴海琦,汪文義,丁樹(shù)良.(2012).R-DINA模型參數(shù)估計(jì)EM算法準(zhǔn)確性檢驗(yàn).心理學(xué)探新,32,410-413.
涂冬波,蔡艷,戴海琦.(2013).幾種常用非補(bǔ)償型認(rèn)知診斷模型的比較與選用:基于屬性層級(jí)關(guān)系的考量.心理學(xué)報(bào),45,243-252.
涂冬波,張心,蔡艷,戴海琦.(2014).認(rèn)知診斷模型-資料擬合檢驗(yàn)統(tǒng)計(jì)量及其性能.心理科學(xué),37,205-211.
楊向東.(2010).測(cè)驗(yàn)項(xiàng)目反應(yīng)機(jī)制與心理測(cè)量模型假設(shè)的對(duì)應(yīng)性分析.心理科學(xué)進(jìn)展,18,1349-1358.
Brooks,S.P.,& Gelman,A.(1998).General methods for monitoring convergence of iterative simulations.JournalofComputationalandGraphicalStatistics,47(4),434-455.
Celeux,G.,F(xiàn)orbers,F(xiàn).,Robert,C.P.,& Titterington,D.M.(2006).Deviance information criteria for missing data models.BayesianAnalysis,1,651-674.
Chen,J.,Torre,J.D.L.,& Zhang,Z.(2013).Relative and absolute fit evaluation in cognitive diagnosis modeling.JournalofEducationalMeasurement,50,123-140.
Fu,J.B.,& Li,Y.M.(2007).Cognitivelydiagnosticpsychometricmodels:Anintegrativereview.Paper presented at the National Council on Measurement in Education,Chicago,IL.
Junker,B.W.,& Sijtsma,K.(2001).Cognitive assessment models with few assumptions,and connections with nonparametric item response theory.AppliedPsychologicalMeasurement,25,258-272.
Kunina-Habenicht,O.,Rupp,A.A.,& Wilhelm,O.(2012).The impact of model misspecification on parameter estimation and item-fit assessment in log-linear diagnostic classification models.JournalofEducationalMeasurement,49,59-81.
Rubin,D.B.(1984).Bayesianly justifiable and relevant frequency calculations for the applied statistician.AnnalsofStatistics,12,1151-1172.
Rupp,A.A.,Templin,J.L.,& Henson,R.A.(2010).Diagnosticmeasurement:Theory,methods,andapplications.New York:The Guilford Press.
Sinharay,S.(2006).Model diagnostics for bayesian networks.JournalofEducationalandBehavioralStatistics,31,1-33.
Sinharay,S.,& Almond,R.G.(2007).Assessing fit of cognitive diagnostic models:A case study.EducationalandPsychologicalMeasurement,67,239-257.
Tatsuoka,C.(2002).Data analytic methods for latent partially ordered classification models.JournaloftheRoyalStatisticalSociety:SeriesC(AppliedStatistics),51,337-350.
Global Fit Indices and Item-Fit Indices for Cognitive Diagnostic Models
Song Lihong1,Wang Wenyi2,Dai Haiqi3,Ding Shuliang2
(1.Elementary Educational College,Jiangxi Normal University,Nanchang 330022;2.College of Computer Information Engineering,Jiangxi Normal University,Nanchang 330022;3.College of Psychology,Jiangxi Normal University,Nanchang 330022)
Abstract:One key issue in cognitive diagnostic assessement(CDA)is to select a suitable diagnostic model for a specific test.Mismatch between diagnostic model and test data would lead to decreasing classification accuracy.At present,few studies have addressed model-data fit criterion for CDA.Based on posterior predictive model checking(PPMC),this study introduces several global fit indices and item-fit indices for model evaluations in CDA.The global fit indexes may provide information for answering the question as to the utility of the data for analysis by the model.The item-fit indexes are used to determine the interaction between the item responses and skills that each item is designed to measure.Simulation and real-data studies are conducted to examine the performance of these indices on three CDMs.The simulation results indicate that:(1)global fit indices are almost able to identify the simulation models and detect poor-fitting models;(2)the item fit indices were able to identify fitting items and detect poor-fitting items.The results from real-data analysis indicate that:(1)according to BIC and DIC4and global G2,the R-RUM performed best followed by R-DINA model,and DINA model worst;(2)for the number of item fit,the R-RUM and the R-DINA model also outperform the DINA model.
Key words:cognitive diagnostic model;DINA;R-DINA;R-RUM;posterior predictive model checking;fraction subtraction data
中圖分類(lèi)號(hào):B841.2
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1003-5184(2016)01-0079-05
通訊作者:宋麗紅,E-mail:viviansong1981@163.com。
*基金項(xiàng)目:全國(guó)教育科學(xué)規(guī)劃教育部重點(diǎn)課題(DHA150285)。