999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

認知診斷模型屬性層級關(guān)系和Q矩陣的聯(lián)合驗證方法:面向?qū)嵺`的視角

2025-07-19 00:00:00汪玲玲孫小堅
心理學(xué)報 2025年7期
關(guān)鍵詞:方法

分類號 B841

1引言

認知診斷理論(cognitive diagnostic theory, CDT.Leightonamp;Gierl,2007)作為新一代測量理論的核心,可以促進形成性評價和個性化學(xué)習(xí)。在認知診斷實踐中,通過認知心理學(xué)的分析,從個體的認知過程、加工技能或知識結(jié)構(gòu)中抽取出細粒度多維度的認知屬性,認知屬性也是刻畫測驗項目的最重要的特征,通過各種心理計量模型對被試在項目上的作答反應(yīng)進行分析,進而對被試的屬性掌握情況進行診斷分類。測驗項目與認知屬性之間的映射關(guān)系通過Q矩陣表征(Tatsuoka,1983,1985)。同時,一個認知診斷測驗中包含的認知屬性之間通常具有某種心理上或邏輯上的層級關(guān)系,屬性層級關(guān)系是認知模型構(gòu)建的核心(丁樹良等,2012),而認知模型正是認知診斷測驗所要回答的核心問題——受試者在測驗領(lǐng)域的認知加工過程是怎樣的(姜宇,2020)。Q矩陣和屬性層級關(guān)系的構(gòu)建正確與否都會影響認知診斷模型參數(shù)估計的準(zhǔn)確性以及被試的分類準(zhǔn)確率(Chiu,2013;dela Torre,2009;Liu et al.,2017;Ruppamp;Templin,2008)。通常情況下,屬性層級關(guān)系和Q矩陣主要都是依賴領(lǐng)域?qū)<业慕?jīng)驗判斷實現(xiàn),不同專家根據(jù)自身經(jīng)驗確定的Q矩陣和屬性層級關(guān)系可能存在著差異,與被試在作答過程中的真實認知過程也可能存在差異,即原始的Q矩陣和屬性層級關(guān)系都有較大可能包含錯誤的設(shè)定。鑒于二者對于模型參數(shù)估計非常重要,所以有必要對專家主觀判斷的Q矩陣和屬性層級關(guān)系進行檢驗修正。

在屬性層級關(guān)系檢驗方面,有研究者在規(guī)則空間模型(RSM)及屬性層級模型(AHM)的框架下提出層級一致性指標(biāo)(Hierarchy Consistency Index,HCI,Cui,2007;Cuiamp;Leighton,2009;Wangamp; Gierl,2011)對屬性層級關(guān)系進行檢驗。喻曉鋒等(2011)提出使用貝葉斯網(wǎng)方法進行結(jié)構(gòu)學(xué)習(xí),從被試的作答反應(yīng)所獲得的屬性掌握模式中挖掘?qū)傩詫蛹夑P(guān)系,研究顯示,通過該方法獲得的屬性層級關(guān)系可作為確定實際屬性層級關(guān)系的參考。但該方法所直接分析的數(shù)據(jù)是被試的屬性掌握模式,需要通過分析被試的作答反應(yīng)和Q矩陣去估計,而且其估計方法較為初級,“將被試正確作答的項目包含的屬性向量進行或運算,得到所有被試的屬性掌握模式\"在復(fù)雜情況下這種不依賴診斷模型估計屬性模式的方法不能完全保證估計的準(zhǔn)確性。還有研究者在參數(shù)化的對數(shù)線性認知診斷模型(LCDM,Henson,etal.,2009)基礎(chǔ)上開發(fā)了層級診斷分類模型(HDCM),創(chuàng)建了一個能夠?qū)傩詫哟谓Y(jié)構(gòu)參數(shù)化的心理測量模型和框架,用以證明或證偽某種屬性層次結(jié)構(gòu)(Templinamp;Bradshaw,2014b)。HDCM中,Templin和Bradshaw(2014b)提出采用似然比檢驗(likelihoodratiotest,LR,簡稱LR統(tǒng)計量)的方法對屬性層級關(guān)系進行檢驗。這種檢驗通常是針對某一事先設(shè)定的屬性層級結(jié)構(gòu)的整體進行檢驗,接受或者拒絕該結(jié)構(gòu),并不能直接提供對該屬性層級結(jié)構(gòu)進行修正的參考信息。

另一方面,對專家初步標(biāo)定的Q矩陣進行檢驗和修正的方法已經(jīng)有很多研究。例如,非參數(shù)方法包括歐氏距離法(Chiu,2013)、海明距離(汪大勛等,2018)等,這些方法具有樣本量要求小、易實現(xiàn)等優(yōu)點,但嚴(yán)格的前提條件限制了這些方法的拓展性及實用性(劉彥樓,吳瓊瓊,2023)。研究者開發(fā)的參數(shù)化修正方法主要有: δ 法(dela Torre,2008)、γ法(涂冬波等,2012)、S統(tǒng)計量方法(Liuetal.,2012)、迭代修正序列搜索(iterative modified sequential search;Terziamp;dela Torre,2018)RMSEA統(tǒng)計量(Kang etal.,2019)、加權(quán)殘差R法(Yuamp;Cheng,2020)、最優(yōu)反應(yīng)分布純度方法(李佳等,2022)等。以上方法主要是在特殊的CDM框架下(如DINA、DINO、R-RUM等)開發(fā)的方法。在飽和CDM框架下(如G-DINA,generalized deterministic input noisy output “and\"gate;delaTorre,2011)的參數(shù)化Q 矩陣修正方法主要包括:GDI (G-DINA discrimination index)方法(delaTorre amp; Chiu,2016)、TLP(truncated L1 penaltyfunction)方法(Xuamp;Shang,2018)、相對擬合統(tǒng)計量方法(Wang etal.,2020;汪大勛 等,2020)等。其中Ma和delaTorre(2020)提出的GDI和Wald檢驗相結(jié)合的Stepwise方法對多級計分模型中的Q矩陣進行修正,同時這種方法也適用于0-1計分的GDINA模型的Q矩陣修正。

在以上介紹的Q矩陣檢驗方法研究中,通常假定屬性是相互獨立的,沒有考慮屬性層級關(guān)系對方法的影響。同樣,已有的檢驗屬性層級關(guān)系的方法通常假設(shè)Q矩陣界定是準(zhǔn)確的,而沒有考慮包含失誤信息的Q矩陣界定情況。而在實踐中,這二者之間是密不可分相互影響的,并且由于專家經(jīng)驗界定的主觀性,二者都不可避免同時存在一些界定偏差信息。Wang和Lu(2021)提出兩種探索性方法直接從數(shù)據(jù)中學(xué)習(xí)屬性層級關(guān)系,并且這種對屬性層級的估計方法是在未知Q矩陣信息的情況下進行的。Ma 等(2022)提出一種懲罰似然法,從數(shù)據(jù)中首先確定屬性個數(shù),然后聯(lián)合估計屬性層級關(guān)系和Q矩陣,這種方法有很強的統(tǒng)計學(xué)理論意義,同時也非常復(fù)雜。綜上,以上兩種方法雖然都同時考慮了屬性層級關(guān)系和Q矩陣,但是其運行邏輯都是從帶有噪音的數(shù)據(jù)中直接估計Q矩陣和屬性層級關(guān)系,計算較為復(fù)雜,所以以上兩個研究其模擬實驗所采用的屬性個數(shù)都比較少:3\~4個。雖然兩種方法都是從無到有的更一般化的方法,但是當(dāng)屬性個數(shù)較多時,這兩種直接從噪音數(shù)據(jù)中聯(lián)合估計Q矩陣和屬性層級關(guān)系的方法其運行復(fù)雜度可想而知。而在具體的認知診斷評估實踐中通常是:在開發(fā)的認知診斷測驗中,專家根據(jù)經(jīng)驗?zāi)軌驅(qū)傩詫蛹夑P(guān)系和Q矩陣進行初步界定,提供相當(dāng)程度的有價值的先驗信息,只不過這種根據(jù)主觀經(jīng)驗確定的質(zhì)性方法難免包含錯誤,所對已經(jīng)界定的屬性層級關(guān)系和Q矩陣進行聯(lián)合檢驗和修正的方法同樣為實踐所急需。基于此,本研究提出了一種基于貝葉斯網(wǎng)視角的屬性層級關(guān)系和Q矩陣的聯(lián)合檢驗修正方法。本文接下來介紹基于貝葉斯網(wǎng)的聯(lián)合驗證方法的原理和具體算法實現(xiàn)流程。第三、四部分通過模擬和實證研究對該方法的檢驗修正效能和影響因素進行評估,最后討論總結(jié)。

2基于貝葉斯網(wǎng)的聯(lián)合驗證方法實現(xiàn)原理

貝葉斯網(wǎng)絡(luò)(Bayesian Networks,BN)是結(jié)合概率論與圖論的概率模型(張連文,郭海鵬,2006)。一個貝葉斯網(wǎng)絡(luò)由一個結(jié)構(gòu)模型和一組條件概率組成,其中結(jié)構(gòu)模型是有向無環(huán)圖,圖中的節(jié)點表示隨機變量,有向邊表示變量之間的相關(guān)或因果依賴關(guān)系,有向邊所聯(lián)結(jié)的兩個節(jié)點,發(fā)起的節(jié)點稱為父節(jié)點,指向的節(jié)點稱為子節(jié)點。這種依賴關(guān)系用網(wǎng)絡(luò)中每個節(jié)點在給定父節(jié)點前提下的條件概率來量化。認知診斷中的屬性層級關(guān)系和Q矩陣信息可以表征為貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)。例如圖1所示,在一個包含3個屬性和5個題目的認知診斷測驗中,屬性層級關(guān)系以及Q矩陣信息可以綜合的使用貝葉斯網(wǎng)的結(jié)構(gòu)來表征,其中橢圓表示認知屬性,而矩形則表示測驗題目,從該網(wǎng)絡(luò)結(jié)構(gòu)中可看到每個題目與所測量的屬性之間的連接關(guān)系,這是Q矩陣所包含的信息;另外,該網(wǎng)絡(luò)還呈現(xiàn)了各屬性之間的層級關(guān)系,如屬性A1是屬性A2的先決屬性,而這兩個屬性也是A3的先決屬性。貝葉斯網(wǎng)絡(luò)中,屬性和題目之間的單向箭頭(稱為“邊\"表示Q矩陣中元素“1”,即各測驗題目所考察的認知屬性,同理屬性之間的邊則表示屬性之間具有相關(guān)關(guān)系。貝葉斯網(wǎng)絡(luò)可以對網(wǎng)絡(luò)中的各條邊進行顯著性檢驗,以明確各條邊是否具有存在的意義,如此,對網(wǎng)絡(luò)結(jié)構(gòu)中每一條邊進行顯著性檢驗,等價于檢驗Q矩陣中每一個題目的屬性標(biāo)定是否正確,與此同時也能夠檢驗各屬性之間的邊的顯著性,即檢驗了屬性層級關(guān)系的合理性。

圖1綜合表征屬性層級關(guān)系和Q矩陣的貝葉斯網(wǎng)路結(jié)構(gòu)

在貝葉斯網(wǎng)中,可以通過檢驗兩個節(jié)點變量之間的條件獨立性來檢驗聯(lián)結(jié)它們之間的邊的存在的合理性。這種檢驗可以通過條件卡方檢驗(Pearson Chi-square)或條件對數(shù)似然比檢驗(LoglikelihoodRatio)實現(xiàn)(薛薇,陳歡歌,2012)。條件獨立性檢驗的虛無假設(shè)為兩個節(jié)點之間是條件獨立的,即不存在邊,如果檢驗得到的顯著性水平非常低,那么就可以拒絕虛無假設(shè),認為兩個節(jié)點之間存在邊的聯(lián)結(jié),說明該題目測量了這個屬性,或者這條邊連接的兩個屬性之間具有層級關(guān)系。在這兩種檢驗中,檢驗統(tǒng)計量都服從漸近卡方分布。這個條件卡方統(tǒng)計量定義為以下形式:

其中 N(xim,xjn,sk) 表示變量 Xi=xim,Xj=xjn,S=sh 時的實際觀測次數(shù),其他的符號標(biāo)記類同。在認知診斷評估情境下,所有變量都是0-1二值計分,所以這時卡方統(tǒng)計量的計算非常快捷。

綜上可知,使用貝葉斯網(wǎng)可以聯(lián)合的同時驗證Q矩陣和屬性層級關(guān)系的正確性,同時對于題目標(biāo)定錯誤的屬性,或者錯誤設(shè)定的屬性之間的關(guān)系,也能夠通過貝葉斯網(wǎng)中節(jié)點之間的獨立性檢驗進行修正。與條件獨立性檢驗針對網(wǎng)絡(luò)中每一條邊的合理性進行檢驗不同的是,網(wǎng)絡(luò)分?jǐn)?shù)(networkscore)能夠整體的評估一個貝葉斯網(wǎng)的網(wǎng)絡(luò)結(jié)構(gòu)與實際數(shù)據(jù)的擬合情況,網(wǎng)絡(luò)分?jǐn)?shù)通常包括AIC(Akaike,1974),BIC(Schwarz,1978),和對數(shù)似然值(loglikelihoodcriterion,Pinheiroamp;Bates,1995)。在bnlearnR軟件包中,除了常見的BIC指標(biāo),還有一個BDeu 指標(biāo)(Bayesian Dirichlet equivalent uniformscore,Heckermanetal.,1995),這兩個指標(biāo)都能夠直接實現(xiàn)。綜上,貝葉斯網(wǎng)的網(wǎng)絡(luò)結(jié)構(gòu)可以通過條件獨立性檢驗或者描述模型數(shù)據(jù)擬合總體情況的網(wǎng)絡(luò)分?jǐn)?shù)進行驗證。所以,根據(jù)貝葉斯網(wǎng)的這種性質(zhì)可以對綜合表征屬性層級關(guān)系和Q矩陣的貝葉斯網(wǎng)結(jié)構(gòu)進行檢驗修正。使用貝葉斯網(wǎng)絡(luò)進行屬性層級關(guān)系和Q矩陣檢驗和修正的具體實現(xiàn)步驟如下:

步驟1:根據(jù)初始構(gòu)建的Q矩陣和屬性層級關(guān)系估計被試的屬性掌握模式。

步驟2:初始Q矩陣可能存在屬性冗余,也可能存在屬性缺失,初始的屬性層級關(guān)系也可能存在冗余和缺失。如果初始的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)僅僅根據(jù)初始Q矩陣和初始屬性層級關(guān)系進行建構(gòu),那么根據(jù)條件獨立性檢驗只能檢驗出冗余的邊,而對于缺失的邊無法檢測到。所以我們初始構(gòu)建一個貝葉斯網(wǎng)的飽和模型,也就是假設(shè)每個題目測量了所有屬性,任意兩個屬性之間都有邊的聯(lián)結(jié),所有節(jié)點變量之間都存在邊的連接,這樣能夠?qū)γ恳粭l邊進行檢驗。

步驟3:將作答反應(yīng)數(shù)據(jù)和已經(jīng)估計的被試屬性掌握模式輸入這個貝葉斯網(wǎng)的飽和結(jié)構(gòu)模型,并檢驗其中每一條邊存在的強度,也就是屬性節(jié)點與題目節(jié)點之間或者兩個屬性節(jié)點之間條件獨立性關(guān)系的顯著性水平,保留檢驗顯著的邊,進而得到一個校正的Q矩陣和校正的屬性層級關(guān)系。根據(jù)預(yù)實驗研究,本研究所采用的顯著性水平為0.001。需要指出的是在BN中,對所有邊存在的顯著性檢驗是一次同時進行的,而不是每一條邊分別進行,這也保證了該算法的計算效率。

步驟4:由于依賴初始的Q矩陣和屬性層級關(guān)系估計的被試屬性掌握模式存在誤差,所以根據(jù)這批帶有噪聲的數(shù)據(jù)進行條件獨立性檢驗所修正的BN結(jié)構(gòu)并不完全準(zhǔn)確,需要繼續(xù)結(jié)合模型數(shù)據(jù)擬合指數(shù)(networkscore)進行校正。對于Q矩陣和屬性層級關(guān)系中每一個被修正的元素,計算修正之后的BN結(jié)構(gòu)的擬合指數(shù)(本研究采用BIC指標(biāo),經(jīng)預(yù)實驗,BIC和BDeu兩個指標(biāo)的修正效果沒有明顯差異),并與未修正之前的BN結(jié)構(gòu)的擬合指數(shù)進行比較,如果修正之后降低了擬合指標(biāo)BIC,則保留此次修正結(jié)果,反之則保留未修正之前的結(jié)果。根據(jù)總體模型數(shù)據(jù)擬合指標(biāo)再次對BN的結(jié)構(gòu),也就是Q矩陣和屬性層級關(guān)系進行優(yōu)化和校正。

步驟5:根據(jù)校正的Q矩陣和屬性層級關(guān)系重新估計被試的屬性掌握模式。

步驟6:將重新估計的被試屬性掌握模式和作答反應(yīng)數(shù)據(jù)再次輸入BN模型中,重復(fù)步驟3、4、5,可以預(yù)見第二次的迭代中,被試的屬性掌握模式估計更精確,所以這批輸入數(shù)據(jù)的噪聲降低,進而根據(jù)條件獨立性和模型數(shù)據(jù)擬合指標(biāo)綜合之后修正的BN結(jié)構(gòu)更加準(zhǔn)確,進而估計的被試的屬性掌握模式也更加準(zhǔn)確。根據(jù)預(yù)實驗研究,通常3次迭代之后,便可以達到穩(wěn)定的BN結(jié)構(gòu),也就是穩(wěn)定的Q矩陣和屬性層級關(guān)系,繼續(xù)迭代并不能顯著提高Q矩陣和屬性層級關(guān)系的修正準(zhǔn)確率。需要指出的是該算法的計算效率比較高,即使是3次迭代,仍然能夠保證比較高的計算效率。在模擬研究中,將最后求取的Q矩陣與真值比較,計算這種方法的修正準(zhǔn)確率,同樣的將最后確定的屬性層級關(guān)系與生成數(shù)據(jù)的真值比較,確認是否修正成功。檢驗貝葉斯網(wǎng)邊的存在強度以及計算模型整體擬合指標(biāo)的過程都可以通過R軟件包(bnlearn;Scutariamp;Denis,2021)實現(xiàn)。

3Q矩陣和屬性層級關(guān)系的聯(lián)合檢驗修正方法的影響因素分析

下面我們通過兩個模擬研究具體考察各種影響因素對貝葉斯網(wǎng)檢驗修正Q矩陣和屬性層級關(guān)系準(zhǔn)確性的影響。模擬研究可以控制一些額外變量,只考查抽象的測驗情景下該方法的表現(xiàn),它可以提供基于貝葉斯網(wǎng)的檢驗方法基本的數(shù)值穩(wěn)定性與精確性。另外,目前已經(jīng)開發(fā)很多Q矩陣修正方法,這些方法通常都不考慮屬性層級關(guān)系的影響。以往對屬性層級關(guān)系檢驗的研究中,并沒有嚴(yán)格的考察其修正準(zhǔn)確率,而且沒有考慮Q矩陣的界定正確與否。已有的兩項關(guān)于Q矩陣和屬性層級關(guān)系的研究是聯(lián)合估計,而非聯(lián)合檢驗,綜上,本研究并沒有基線方法作為對照。所以,作為一項初步探索研究,本文通過模擬研究探查該方法對屬性層級關(guān)系和Q矩陣的修正準(zhǔn)確率,以及具體的影響因素,以期為認知診斷評估的實踐應(yīng)用者提供有價值的參考信息。

3.1 模擬研究一

3.1.1 研究設(shè)計

本研究的Q矩陣測量5個屬性,測驗長度分別25,40兩種水平,25題的Q矩陣具體設(shè)計參照姜宇(2020)和Zhang等(2024)的研究,在25題基礎(chǔ)上,重復(fù)前15題并保證屬性測量次數(shù)的平衡設(shè)計40題的Q 矩陣。不失一般性,認知診斷模型選取飽和GDINA模型。被試樣本量設(shè)為兩個水平1000,2000。題目參數(shù)的設(shè)置參照已有同類研究(李佳等,2022):掌握項目i所測量的所有屬性的被試和項目i的屬性都沒有掌握的被試對項目i作答正確的概率分別記為Pi(1)和Pi(O),項目質(zhì)量分為高、低兩個水平,高質(zhì)量項目的參數(shù)為:Pi(O)~U(0.05,0.25)且Pi(1)~U(0.75,0.95),低質(zhì)量的項目參數(shù)為:Pi (0)~U (0.05,0.4)且 Pi(1)\~U(0.6,0.95)。然后模擬錯誤的Q矩陣,錯誤率設(shè)置為0(沒有錯誤), 10% 20% 30% 四個水平,在真實Q矩陣的基礎(chǔ)上按錯誤率隨機確定相應(yīng)比例的項目,錯誤設(shè)定參考已有研究(劉彥樓,吳瓊瓊,2023),在兩個約束條件下隨機引入:(1)所有項目必須至少測量一個屬性;(2)始終保留一個單位矩陣,以滿足模型可識別條件(Guetal.,2018)。該測驗的屬性層級關(guān)系設(shè)定為直線型、收斂型、發(fā)散型和無結(jié)構(gòu)型四種類型,具體設(shè)置如圖2所示。然后生成各種屬性層級關(guān)系下的被試屬性掌握模式真值,被試從所有可能的屬性掌握模式中隨機抽取產(chǎn)生。根據(jù)所采用的認知診斷模型和題目參數(shù)模擬被試在題目上的作答反應(yīng),生成被試作答反應(yīng)數(shù)據(jù)。

產(chǎn)生模擬數(shù)據(jù)之后,使用HDCM估計被試的屬性掌握模式(通過R軟件包GDINA實現(xiàn)),在估計之前設(shè)定認知屬性的層級關(guān)系,在原有的屬性層級關(guān)系真值的基礎(chǔ)上,分別產(chǎn)生有缺失邊,冗余邊的屬性層級關(guān)系,以隨機產(chǎn)生的這些模擬的屬性層級關(guān)系為初值,估計被試的屬性掌握模式。然后根據(jù)前面所述步驟使用貝葉斯網(wǎng)聯(lián)合修正屬性層級關(guān)系和Q矩陣。需要特別說明的是,在4種基本的屬性層級模型中,可以隨機生成具有缺失值的邊,具體如下:在每一種層級關(guān)系中,對于任意兩個屬性之間的連接關(guān)系,隨機選定一對屬性,將其連接關(guān)系置為缺失。在生成冗余邊時,對于發(fā)散型和無結(jié)構(gòu)型,仍存在5個屬性之間的冗余關(guān)系,例如在圖2所示的發(fā)散型結(jié)構(gòu)中,可能存在冗余邊的屬性對有(A2,A3), (A4,A5), (A3,A4),(A3,A5),在無結(jié)構(gòu)型中,可能存在冗余的屬性對有(A2,A3),(A3,A4),(A4,A5),(A2,A4),(A2,A5),(A3,A4),(A3,A5),(A4,A5)。而在直線型中,5個屬性之間已經(jīng)完全聯(lián)結(jié),在任意兩個屬性對之間即使沒有直接的邊聯(lián)結(jié),但是也會存在通過其他節(jié)點的聯(lián)結(jié),所以并不能生成有效的屬性冗余關(guān)系。同樣道理,在收斂型結(jié)構(gòu)中,只有一個有效冗余邊,即(A2,A3),但由于模擬研究需要多次模擬隨機生成冗余邊,故在生成冗余邊時,也不再考慮收斂型結(jié)構(gòu)。綜上,在缺失邊的情境下,4種屬性層級結(jié)構(gòu)都考慮,在冗余邊的情境下,僅使用發(fā)散型和無結(jié)構(gòu)型兩種結(jié)構(gòu)。綜上,本研究在屬性邊缺失情境下模擬數(shù)據(jù)的設(shè)置有:2 (測驗長度) ×2 (樣本量水平) ×2 (題目參數(shù)水平) ×4 (屬性層級類型) ×4 (Q矩陣錯誤率) Σ=Σ 128種情況,在屬性邊冗余情境下模擬數(shù)據(jù)的設(shè)置為:2 (測驗長度) ×2 (樣本量水平) ×2 (題目參數(shù)水平) ×2 (屬性層級類型) ×4 (Q矩陣錯誤率) =64 種情況。

圖2模擬研究設(shè)置的5個屬性的4種真實的屬性層級關(guān)系及7個屬性的發(fā)散結(jié)構(gòu)

3.1.2 評價指標(biāo)

在以上設(shè)計的每種實驗條件下,分別隨機產(chǎn)生100批模擬數(shù)據(jù),然后使用模擬的帶有錯誤信息的屬性層級初始值估計屬性掌握模式,通過貝葉斯網(wǎng)條件獨立性檢驗和模型數(shù)據(jù)擬合指標(biāo)的結(jié)合,最后得到修正的屬性層級關(guān)系和修正的Q矩陣,將最終的修正結(jié)果與屬性層級關(guān)系真值進行比較,如果完全相同,則代表修正正確一次,最后計算每種情境下100次修正屬性層級關(guān)系的正確次數(shù)作為評價指標(biāo)。Q矩陣的修正準(zhǔn)確率所采用的指標(biāo)為每次修正后的Q矩陣與真實Q矩陣題目測量模式的一致性作為模式判準(zhǔn)率(Patternclassificationrate,PCR)和每次修正后的Q矩陣與真實Q矩陣屬性的一致性作為平均屬性判準(zhǔn)率(Averageattributeclassificationrate.AACR),以及 TPR(True positive rate)和 TNR(Truenegativerate)。其中TPR指錯誤標(biāo)定的屬性正確修改的比率,TNR指正確界定的屬性未被修改的比率(由于篇幅限制,這部分評價指標(biāo)結(jié)果可以聯(lián)系作者提供)。所有實驗均重復(fù)100次,然后計算每個指標(biāo)100次的平均值。

3.1.3 研究結(jié)果

使用貝葉斯網(wǎng)條件獨立性檢驗方法修正屬性層級關(guān)系的結(jié)果如表1、表2所示,在Q矩陣設(shè)定完全正確的情況下,無論題目是高質(zhì)量還是低質(zhì)量無論屬性關(guān)系是缺失還是冗余,無論樣本量是較大還是較小,無論測驗長短,在各種屬性層級結(jié)構(gòu)中,該算法都能夠完全準(zhǔn)確的修正屬性層級關(guān)系,在100次的模擬中,完全修正正確次數(shù)達到 100% 。而當(dāng)Q矩陣存在界定錯誤時,隨著Q矩陣中錯誤元素的占比增大,在各種條件下,對屬性層級的修正準(zhǔn)確率逐漸降低。具體而言,在Q矩陣失誤概率為10% 的情況下,無論題目質(zhì)量高低,樣本量大小,測驗長短,在4種屬性層級結(jié)構(gòu)下,無論屬性關(guān)系缺失還是冗余,仍然能夠達到較高的完全正確的修正比例,除個別情況,大部分情況下,仍能達 90% 或以上的比例。隨著Q矩陣中錯誤率的提高,對屬性層級完全修正正確的比例逐漸降低,這時這種比例也受到測驗長度,題目質(zhì)量和樣本量的同時影響,例如在Q矩陣錯誤率為 20% 時,當(dāng)題目質(zhì)量較低時,測驗長度和樣本量能夠顯著提高這種完全修正正確的比例,除極個別情況,大多情況下的完全正確的比例仍達到 80% 以上。4種不同的屬性層級類型下,無結(jié)構(gòu)型的修正正確次數(shù)在樣本量較低時受題目質(zhì)量和Q矩陣錯誤率影響較大,其他幾種類型的屬性層級中,BN在各種情況下的表現(xiàn)并沒有明顯的差異,在其他條件設(shè)置相同的情況下,屬性缺失和屬性冗余不同的錯誤類型中,BN的表現(xiàn)沒有明顯的差異。

表1屬性缺失情境下4種層級結(jié)構(gòu)完全正確修正次數(shù)(100次)
表2屬性冗余情境下2種層級結(jié)構(gòu)完全正確修正次數(shù)(100次)

在屬性層級界定存在缺失或者冗余的情況下,使用貝葉斯網(wǎng)方法對界定失誤的Q矩陣進行修正的準(zhǔn)確率(包括PCR和AACR)如表3、表4所示。在Q矩陣錯誤率在 10% 時,4種屬性層級結(jié)構(gòu)存在缺失和冗余時,無論題目質(zhì)量高低,無論樣本量大小,無論測驗長短,貝葉斯網(wǎng)方法對Q矩陣的修正準(zhǔn)確率能夠達到較高水平,即使在題目質(zhì)量較低的情況下,除個別情況,模式判準(zhǔn)率都能夠達到 70% 以上,平均屬性判準(zhǔn)率除個別情況都能達到 95% 以上。在Q矩陣錯誤率為 20% 的情況下,題目質(zhì)量較高時,PCR仍然能夠達到 70% 以上,AACR能夠達到 92% 以上,而在題目質(zhì)量較低的情況下,PCR在較多情境下能夠達到 50% 以上,除極個別,AACR達到 90% 以上。

在Q矩陣錯誤率為 30% 時,PCR在短測驗題目質(zhì)量較高的情況下能夠達到 53% 以上,除極個別AACR達到 90% 以上,長測驗情境能夠一定程度上彌補題目質(zhì)量較低的影響,除無結(jié)構(gòu)型的屬性關(guān)系,其他情況下,PCR仍然能夠達到 50% 以上,在題目質(zhì)量較低并且短測驗情境下,PCR和AACR都比較低。從總體上看,樣本量對該方法的修正準(zhǔn)確率的影響也比較大,在樣本量從1000提高到2000時,每種情境下的修正準(zhǔn)確率都得到較大的提高。測驗長度對修正準(zhǔn)確率也有明顯的影響,尤其是在Q矩陣錯誤率較高或者題目質(zhì)量較低的情況下,相比短測驗情境,長測驗情境下BN的修正準(zhǔn)確率提高更多。

表3屬性缺失情境下Q矩陣的修正準(zhǔn)確率(PCR和AACR)
表4屬性冗余情境下Q矩陣的修正準(zhǔn)確率(PCR和AACR)

3.2 模擬研究二

3.2.1 研究設(shè)計

為了進一步探查貝葉斯網(wǎng)算法在屬性個數(shù)較多的情境下的表現(xiàn),本研究設(shè)定屬性個數(shù)為7個,根據(jù)模擬研究一的結(jié)果,各種類型的屬性層級結(jié)構(gòu)下,BN的修正準(zhǔn)確率相差不大,不失一般性,本研究隨機設(shè)定屬性層級結(jié)構(gòu)為發(fā)散結(jié)構(gòu),7個屬性的測驗長度固定為40個題目,樣本量同研究一的設(shè)置,為2000,1000。在模擬研究一中由于屬性個數(shù)有限,所設(shè)定的屬性關(guān)系缺失或冗余的水平僅限定為一個邊,在本研究中進一步設(shè)定更多的屬性缺失和冗余情況,在原有的如圖3所示的7個發(fā)散屬性結(jié)構(gòu)的基礎(chǔ)上共設(shè)定5種錯誤屬性層級結(jié)構(gòu):(1)隨機缺失一個邊;(2)隨機缺失兩個邊;(3)隨機冗余一個邊;(4)隨機冗余兩個邊;(5)既有隨機缺失邊又有隨機冗余邊。其他實驗條件的設(shè)定:題目質(zhì)量,Q矩陣錯誤率等完全與模擬一相同,模擬數(shù)據(jù)產(chǎn)生模型依然采用GDINA模型。

圖3模擬研究設(shè)置的7個屬性發(fā)散結(jié)構(gòu)的屬性層級關(guān)系

3.2.2 評價指標(biāo)

在本研究中,主要考察在屬性個數(shù)較多的情況下,不同屬性缺失情況(5個水平) × 不同題目質(zhì)量(2個水平) × 不同Q矩陣錯誤率水平(4個水平) × 不同樣本量水平(2個水平) =80 種情況下的檢驗修正準(zhǔn)確率,評價指標(biāo)同模擬研究一,依然采用PCR和AACR,以及100次模擬中屬性層級完全修正正確的次數(shù)。

3.2.3 研究結(jié)果

表5為7個屬性的發(fā)散型結(jié)構(gòu)的屬性層級下,在樣本量為2000時,5種不同屬性層級關(guān)系錯誤的情況下,各種實驗情境下,貝葉斯網(wǎng)對Q矩陣的修正準(zhǔn)確率(PCR,AACR)。由表可知,在各種類型的屬性層級錯誤類型,其他條件相同的情況下,貝葉斯網(wǎng)對Q矩陣的修正準(zhǔn)確率相差不大。在Q矩陣錯誤率為 10% 時,無論題目質(zhì)量高低,該方法對Q矩陣的修正準(zhǔn)確率都達到很高的水平,在錯誤率為20% 時,題目質(zhì)量較高的情況下,Q矩陣修正準(zhǔn)確率仍能夠保持較高的水平,隨著題目質(zhì)量降低,修正準(zhǔn)確率逐漸下降。當(dāng)Q矩陣錯誤率為 30% 時,修正準(zhǔn)確率隨著題目質(zhì)量降低而逐漸降低。在5種不同屬性錯誤類型下,貝葉斯網(wǎng)同時對屬性層級完全修正正確的次數(shù)(100次實驗)如圖4所示,當(dāng)Q矩陣完全正確時,無論題目質(zhì)量高低,貝葉斯網(wǎng)都能夠完全正確的修正屬性層級關(guān)系,之后隨著Q矩陣錯誤率提高,題目質(zhì)量降低,貝葉斯網(wǎng)對屬性層級關(guān)系完全修正正確的次數(shù)逐漸下降。可以發(fā)現(xiàn),即使在7個屬性的診斷測驗中,當(dāng)Q矩陣錯誤率控制在中等水平 (20% 以下)或者題目質(zhì)量較好時,貝葉斯網(wǎng)仍然能夠有效的識別屬性層級界定中的錯誤信息。表6為樣本量1000時,算法在各種實驗條件下的表現(xiàn),相比于樣本量2000的情況下,各情境下的判準(zhǔn)率稍有降低。圖5為樣本量1000時,貝葉斯網(wǎng)在100次實驗中,對屬性層級關(guān)系完全修正正確的次數(shù),可以看到相比于樣本量為2000時的各種情境下,算法的修正準(zhǔn)確率稍有下降,而且在樣本量為1000時幾種不同屬性錯誤類型下的修正準(zhǔn)確率之間的差異更大一些。

4聯(lián)合檢驗修正方法在實證數(shù)據(jù)中的應(yīng)用

本部分進一步驗證該方法在實證數(shù)據(jù)中的有效性,該數(shù)據(jù)來自于美國大學(xué)生英語測驗實際數(shù)據(jù)(ECPE),Templin和Bradshaw(2014a)使用ECPE的數(shù)據(jù)研究并開發(fā)了HDCM,并試圖采用HDCM發(fā)現(xiàn)并解釋真實的ECPE數(shù)據(jù)的屬性層級關(guān)系。ECPE數(shù)據(jù)共28道題目,測量三個屬性:詞匯規(guī)則(a),整合規(guī)則(b)語法規(guī)則(c)。根據(jù)Templin和Bradshaw(2014a)的研究,這3個屬性呈直線型關(guān)系,即a?b?c 。測驗的Q矩陣和被試數(shù)據(jù)可以公開從CDMR軟件包獲得。

表57個屬性的發(fā)散結(jié)構(gòu)下Q矩陣的修正準(zhǔn)確率(樣本量 τ=2000)
表67個屬性的發(fā)散結(jié)構(gòu)下Q矩陣的修正準(zhǔn)確率(樣本量 τ=1000)

使用貝葉斯網(wǎng)進行檢驗修正的具體分析過程如下:先構(gòu)建一個飽和的貝葉斯網(wǎng),即3個屬性之間都包含有向邊(邊的方向性依照初始建構(gòu)的理論關(guān)系,即共有三條邊, a?b bc , a?c ,每個題目與每個屬性之間也包含有向邊(不失一般性,方向性統(tǒng)一為屬性指向題目),注意這個飽和模型的構(gòu)建僅僅是為了完整的檢驗該測驗中每一個可能存在的題目與屬性以及屬性與屬性之間的聯(lián)系,同模擬研究設(shè)置。根據(jù)已有的實證數(shù)據(jù)估計被試對3個認知屬性的知識掌握狀態(tài),然后將被試作答反應(yīng)數(shù)據(jù)和估計的知識掌握狀態(tài)數(shù)據(jù)輸入網(wǎng)絡(luò),對這一網(wǎng)絡(luò)中的每一條邊進行條件獨立性檢驗。這個過程本質(zhì)上也是對通過理論建構(gòu)的模型(同時包含Q矩陣和屬性層級關(guān)系)和實證數(shù)據(jù)之間的擬合程度進行檢驗的一個過程。通過假設(shè)檢驗得到的信息可以為進一步修正原有的理論建構(gòu)的模型提供啟示。但是在實證數(shù)據(jù)中,模型修正的過程并非完全依靠統(tǒng)計檢驗的結(jié)果,也要結(jié)合領(lǐng)域?qū)<覍嶋H問題的判斷。

使用貝葉斯網(wǎng)對初始建構(gòu)的屬性層級關(guān)系和Q矩陣進行聯(lián)合檢驗后,發(fā)現(xiàn)原來設(shè)定的屬性層級關(guān)系以及屬性和題目之間的聯(lián)結(jié)關(guān)系一部分得到了統(tǒng)計上的驗證,但是也有一部分檢驗顯示這些邊的存在強度并不高,就是說兩個節(jié)點之間可能是條件獨立的,也有少量原來Q矩陣中沒有發(fā)現(xiàn)的題目與屬性之間的聯(lián)系在經(jīng)過貝葉斯網(wǎng)條件獨立檢驗之后發(fā)現(xiàn)兩個節(jié)點之間并非獨立,而是具有依賴關(guān)系的,初次經(jīng)過貝葉斯網(wǎng)條件獨立檢驗發(fā)現(xiàn)屬性之間的關(guān)系為: bc 。然后邀請專家再次對這些有爭議存在的邊進行討論判定,包括屬性層級的邊。這樣結(jié)合貝葉斯網(wǎng)條件獨立性檢驗的結(jié)果,該認知診斷測驗中所初始構(gòu)建的3個認知屬性之間的層級關(guān)系在經(jīng)過統(tǒng)計檢驗和專家再次判定之后仍然保持原來的關(guān)系,但是Q矩陣有一些修正(具體修正過程信息可以聯(lián)系作者提供)。接下來,根據(jù)貝葉斯網(wǎng)方法所驗證的屬性層級關(guān)系以及所修正的新的Q矩陣,重新估計被試的屬性掌握模式。最后對初始建構(gòu)的理論模型和經(jīng)過檢驗修正之后的模型進行比較,以模型數(shù)據(jù)擬合指數(shù)進行評估。通過BIC擬合指標(biāo)的數(shù)據(jù)顯示經(jīng)過統(tǒng)計檢驗和專家判定結(jié)合修正的新模型(屬性層級保持原有關(guān)系,Q矩陣有修正)與數(shù)據(jù)擬合是更好的(見表7。所以基于貝葉斯網(wǎng)的條件獨立性檢驗的方法能夠?qū)傩詫蛹夑P(guān)系和Q矩陣進行聯(lián)合驗證,并為最終優(yōu)化模型提供有價值的信息。

表7BN對實證數(shù)據(jù)的模型修正后的擬合指標(biāo)

5結(jié)論與討論

本研究提出了一種基于貝葉斯網(wǎng)條件獨立性檢驗的屬性層級關(guān)系和Q矩陣的聯(lián)合檢驗方法。通過兩個模擬研究系統(tǒng)的考察了樣本量、Q矩陣錯誤率、題自質(zhì)量高低、測驗長度、屬性層級關(guān)系類型、屬性標(biāo)定錯誤類型,認知屬性個數(shù)等因素對BN方法在檢驗Q矩陣和屬性層級關(guān)系方面的準(zhǔn)確性。結(jié)果表明,當(dāng)Q矩陣界定完全正確時,在各種實驗條件下,BN方法都能夠完全有效的修正屬性層級關(guān)系。當(dāng)Q矩陣中的錯誤率控制在中等水平或以下0 20% 以下)時,在各種屬性層級結(jié)構(gòu)類型,各種屬性層級錯誤類型下,BN方法都能夠較好的同時修正屬性層級關(guān)系和Q矩陣,隨著Q矩陣錯誤率的增加,二者的修正準(zhǔn)確率都逐漸下降,尤其當(dāng)題目質(zhì)量較低時,Q矩陣和屬性層級關(guān)系的修正準(zhǔn)確率都降到最低。除此之外,樣本量對屬性層級關(guān)系和Q矩陣的修正準(zhǔn)確率也有明顯的影響,在樣本量為2000時各種情況下的修正準(zhǔn)確率明顯高于樣本量為1000時的結(jié)果;測驗長度對修正準(zhǔn)確率的影響也非常明顯,這主要是由于,當(dāng)測驗長度增加后,能夠有更充分的題目證據(jù)估計初始的知識狀態(tài)。并且該方法在屬性個數(shù)較多的情況下,對Q矩陣和屬性層級的修正結(jié)果依然較好,尤其是Q矩陣錯誤率較低和題目質(zhì)量較高時。另一方面,不同的屬性層級錯誤類型或者錯誤嚴(yán)重程度在一定程度上對修正準(zhǔn)確率的影響較低。綜合以上分析結(jié)果,本研究建議,在對屬性層級關(guān)系和Q矩陣進行聯(lián)合修正時要注意題目質(zhì)量,并盡可能的保證樣本量的充足,在保證題目質(zhì)量的情況下盡量擴大測驗長度。此外,雖然本研究也考察了在Q矩陣錯誤率較高時該算法的表現(xiàn),但是通常情況下,在實際應(yīng)用情境中,如果Q矩陣錯誤率達到 30%~40% ,一般建議重新標(biāo)定Q矩陣。而在模擬實驗中,設(shè)置高錯誤率的Q矩陣是為了更能直接考察方法的效能。

進一步的,為了充分探查該算法在實踐應(yīng)用中的可擴展性,本研究將該算法用于實證數(shù)據(jù),結(jié)果表明BN算法能夠為專家初始建構(gòu)的屬性層級關(guān)系和Q矩陣的修正提供有價值的參考信息,結(jié)合專家的最終判斷,修正之后的新模型與實證數(shù)據(jù)的擬合指標(biāo)更優(yōu)。值得指出的是,與其他所有Q矩陣修正方法類似,即使在模擬研究中BN方法能夠保證對屬性層級關(guān)系和Q矩陣的修正準(zhǔn)確性,但是在實踐應(yīng)用中,仍然不能完全依靠數(shù)據(jù)驅(qū)動的算法確定最后的屬性層級關(guān)系和Q矩陣,這些修正算法能提供可靠的Q矩陣和屬性層級關(guān)系的修正信息,但是對于一些有爭議的題自或?qū)傩匀匀恍枰I(lǐng)域內(nèi)容專家的判斷才能最后確定。

需要特別指出的是,在本研究中使用BN方法進行聯(lián)合驗證之前需要對被試的屬性掌握模式做初始的估計,在本文的模擬研究部分采納傳統(tǒng)的認知診斷模型實現(xiàn)。在實踐中,還需要根據(jù)實證數(shù)據(jù)恰當(dāng)?shù)倪x擇診斷模型,如果不考慮數(shù)據(jù)的模型選擇也可以使用貝葉斯網(wǎng)直接實現(xiàn)估計(Wangamp;Lu2021)。并且由于該算法的實現(xiàn)依賴傳統(tǒng)認知診斷模型估計被試的屬性掌握模式,所以本研究的模擬實驗部分的樣本量采用1000,2000。而在Wang和Lu (2021)的聯(lián)合估計方法中所使用的最小樣本量也是1000。在最新的只有Q矩陣估計或修正的相關(guān)研究中,設(shè)置了樣本量較小情境下,例如N為500時算法的表現(xiàn),在更小樣本條件下檢驗方法的性能,能夠更好地貼合實際應(yīng)用場景。但是因為目前本研究的算法運行依賴傳統(tǒng)認知診斷模型估計被試屬性掌握模式,并且由于篇幅的限制,本研究作為一項初始的探索性研究,所考察的變量個數(shù)也有限,所采用的生成數(shù)據(jù)的模型只有GDINA模型,模型需要估計的參數(shù)較多,所以要達到較高精度的參數(shù)估計對樣本量的需求較大。未來研究應(yīng)繼續(xù)考察該方法在簡單模型(如DINA、DINO、ACDM等)中的效果,與此同時,可以考慮這些簡單模型在樣本量較小(如 N=500? 時算法的性能。

此外本研究采用迭代的方式進行聯(lián)合驗證,但是根據(jù)前期預(yù)實驗,這種迭代次數(shù)不是越多越好,迭代次數(shù)對修正準(zhǔn)確率優(yōu)化的效果邊際效益遞減,基本3次迭代后即可達到對屬性層級和Q矩陣的穩(wěn)定的修正結(jié)果,而在實證研究中,可以根據(jù)具體情況再設(shè)定具體的迭代次數(shù),如果一次聯(lián)合驗證即可以提供非常豐富的修正信息,那么也可以使用一次修正的結(jié)果,然后結(jié)合專家的經(jīng)驗判斷最后確定屬性層級和Q矩陣。雖然BN方法實現(xiàn)的是對屬性層級和Q矩陣的聯(lián)合驗證,但是該算法的計算效率仍然能夠得到一定程度的保證,根據(jù)本研究的結(jié)果,測驗長度為25,樣本量為2000迭代3次對Q矩陣和屬性層級進行一次聯(lián)合驗證的算法運行時間為123s 根據(jù)李佳等(2022)對Q矩陣修正方法的研究中的報告,在測驗長度為20,樣本量為300時,基尼系數(shù)方法的循環(huán)修正運行時間為147s,不考慮其他硬件條件等細微的差異,可以看到雖然本研究在Q矩陣修正基礎(chǔ)上聯(lián)合修正了屬性層級關(guān)系,但是在算法運行時間上與同類的單獨修正Q矩陣的算法仍然保持在一個同等的時間復(fù)雜度水平上。

最后,雖然已經(jīng)有研究(喻曉鋒等,2011)提出使用貝葉斯網(wǎng)結(jié)構(gòu)學(xué)習(xí)K2算法進行數(shù)據(jù)驅(qū)動的屬性層級關(guān)系探索,但是在其算法中,根據(jù)模擬得到的觀察反應(yīng)模式和測驗項目,將被試正確作答的項目包含的屬性向量進行“或\"運算,得到所有被試的屬性掌握模式,將它作為結(jié)構(gòu)學(xué)習(xí)的數(shù)據(jù)集。這實際就是在根據(jù)Q矩陣和作答反應(yīng)估計被試的屬性模式,但是這種估計方法比較初級,遇到復(fù)雜模型時不一定有效。而且這種方法估計的被試屬性掌握模式之前,已經(jīng)根據(jù)專家界定的屬性層級關(guān)系編制題目確定Q矩陣,所以初始對被試的估計過程依靠的就是專家預(yù)先確定的屬性層級關(guān)系。盡管已有少量研究提出了使用LR檢驗對屬性層級進行驗證的方法(Templinamp;Bradshaw,2014a),但是該方法更多的是對屬性層級進行整體的檢驗,通過模型比較的方式檢驗每一種假設(shè)屬性層級的合理性,并沒有對屬性層級的修正準(zhǔn)確率進行探查。而本研究可以對屬性層級中任意兩個認知屬性之間的關(guān)系進行數(shù)據(jù)驅(qū)動的檢驗修正,而且這種修正是同時進行的也就是說只要執(zhí)行一次BN的條件獨立性檢驗,能夠得到所有聯(lián)結(jié)邊的合理性檢驗結(jié)果。未來研究中可以考慮在Q矩陣設(shè)定完全正確的情況下,比較本研究的BN方法和LR 檢驗(Templinamp;Bradshaw,2014a)對屬性層級關(guān)系的修正效率。

目前,還沒有研究提出能夠?qū)傩詫蛹夑P(guān)系和Q矩陣進行聯(lián)合驗證的方法。有研究者提出不帶任何先驗信息的情況下從噪音數(shù)據(jù)中聯(lián)合估計屬性層級和Q矩陣(Wangamp;Lu,2021;Maetal.,2022),這兩個研究都有著非常強的統(tǒng)計學(xué)理論意義,同時算法的復(fù)雜性也顯而易見,所以其模擬研究都采用較少的屬性個數(shù)(3\~4個)。而在認知診斷評估實踐中,領(lǐng)域?qū)<一蛘邷y驗開發(fā)者通常對屬性層級關(guān)系以及Q矩陣會提供相當(dāng)?shù)南闰炛R,所以面對實踐需求,更需要一種能夠同時檢驗和修正已有的屬性層級關(guān)系和Q矩陣的方法,對已經(jīng)提出的認知屬性層級的理論模型和測驗Q矩陣進行數(shù)據(jù)驅(qū)動的驗證并根據(jù)實證的作答反應(yīng)數(shù)據(jù)提供修正信息。所以,本研究并沒有對BN方法的聯(lián)合驗證的準(zhǔn)確性進行基線比較,因為目前還沒有研究能夠同時對屬性層級關(guān)系和Q矩陣進行聯(lián)合驗證。但是本研究從另一個角度,在控制屬性獨立的情況下,對BN方法修正Q矩陣的準(zhǔn)確性進行對比評估,結(jié)果表明,在屬性獨立的情況下,與已有的Stepwise方法(Maamp;delaTorre,2020)相比,BN方法在Q矩陣錯誤率較高時更有優(yōu)勢(由于篇幅限制這部分的研究結(jié)果可以聯(lián)系作者提供)。

參考文獻

Akaike,H.(1974).A new look at the statistical model identification.IEEE Transactions on AutomaticControl, 19(6),716-723.http://dx.doi.org/10.1109/TAC.1974.1100705

Cui,Y.(2oo7).Thehierarchy consistency index:Development and analysis [Unpublished doctoral dissertation]. University ofAlberta.

Cui,Y.,amp; Leighton, J.P. (2009). The hierarchy consistency index: Evaluating person fit for cognitive diagnostic assessment. Journal of Educational Measurement, 46(4), 429-449.

Chiu,C.-Y. (2013). Statistical refinement of the Q-Matrix in cognitive diagnosis.Applied Psychological Measurement, 37(8),598-618. https://doi.0rg/10.1177/0146621613488436

de la Torre, J. (2008). An empirically based method of Q-matrix validation for the DINA model: Development and applications. Journal of Educational Measurement, 45(4), 346-362.

de la Torre, J. (2009). DINA model and parameter estimation: Adidactic.Journal of Educational and Behavioral Statistics, 34(1),115-130.

de la Torre, J. (2011). The generalized DINA model framework. Psychometrika,76(2),179-199.

dela Torre,J.,amp; Chiu,C.Y.(2016).A general method of empirical Q-matrix validation. Psychometrika,81(2),253- 273.

Ding,S.L.,Mao, M. M., Wang,W. Y., Luo, F.,amp; Cui, Y. (2012).Evaluating the consistency of test items relative to the cognitive model for educational cognitive diagnosis. Acta Psychologica Sinica, 44(11),1535-1546.

[丁樹良,毛萌萌,汪文義,羅芬,Cui,Y.(2012).教育認知 診斷測驗與認知模型一致性的評估,心理學(xué)報,44(11), 1535-1546.]

Gu,Y., Liu, J., Xu, G.,amp; Ying, Z. (2018). Hypothesis testing oftheQ-matrix.Psychometrika,83(3),515-537.

Heckerman,D.,Geiger,D.,amp; Chickering,D.M.(1995). Learning Bayesian networks: The combinationof knowledge and statistical data. Machine Learning, 20(3), 197-243.

Henson,R.,Templin,J.,amp; Wilse,J. (20o9).Defining a family of cognitive diagnosis models using log-linear models with latent variables.Psychometrika, 74(3),191-210.

Jiang,Y. (2020). Research on the test method of attribute hierarchy based on information matrix [Unpublished doctoral dissertation]. Beijing Normal University.

[姜宇.(2020).基于信息矩陣的屬性層級關(guān)系檢驗方法研究 (博士學(xué)位論文).北京師范大學(xué).]

Kang,C.H., Yang,Y.K.,amp; Zeng,P.H. (2019).Q-matrix refinement based on item fit statistic RMSEA. Applied Psychological Measurement, 43(7),527-542.

Leighton,J.P.,amp; Gierl,M.J.(Eds.).(2007).Cognitive diagnostic assessment for education: Theory and application. Cambridge: Cambridge University Press.

Li,J.,Mao,X.,amp; Wei, J. (2022).A simple and effective new method of Q-matrix validation. Acta Psychologica Sinica, 54(8),996-1008.

[李佳,毛秀珍,韋嘉.(2022).一種簡單有效的Q矩陣修正 新方法.心理學(xué)報,54(8),996-1008.]

Liu, J., Xu, G., amp; Ying, Z. (2012). Data-driven learning of QMatrix. Applied Psychological Measurement, 36(7), 548-564.

Liu,R., Huggins-Manley, A.C.,amp; Bradshaw,L. (2017). The impact of Q-matrix designs on diagnostic classification accuracyinthepresenceofattributehierarchies.Educational and Psychological Measurement,77(2),220-240

Liu,Y., amp; Wu, Q. (2023). An empirical Q-matrix validation method using complete information matrix in cognitive diagnostic models. Acta Psychologica Sinica, 55(1), 142-158.

[劉彥樓,吳瓊瓊.(2023).認知診斷模型Q矩陣修正:完整 信自鉅陣的作用心理學(xué)報55(1)142-1581

Ma,C.,Ouyang,J.,amp; Xu,G. (2022).Learning latent and hierarchical structures in cognitive diagnosis models. Psychometrika, 88(1),175-207.

Ma,W.,amp; de la Torre,J.(2020).An empirical Q-matrix validation method for the sequential generalized DINA model.British Journal of Mathematical and Statistical Psychology, 73(1), 142-163.

Pinheiro,J.C.,amp;Bates,D.M.(1995).Approximationsto the log-likelihood function in the nonlinear mixed-effects model. Journal of Computational and Graphical Statistics,4(1), 12-35.

Rupp,A.A.,Templin,J. (2008). The effects of Q-matrix misspecification on parameter estimates and classification accuracy intheDINA model.Educational andPsychological Measurement,68(1),78-96.

Schwarz, G. (1978). Estimating the dimension of a model. Annals of Statistics,6(2),461-464.

Scutari,M.,amp; Denis,J.B.(2021).Bayesian networkswith examples in R.New York: Chapman and Hall/CRC.

Tatsuoka, K. (l985). A probabilistic model for diagnosing misconceptions by the pattern classification approach. JournalofEducational Statistics,10(1),55-73.

Tatsuoka,K.K. (1983). Rule space: An approach for dealing with misconceptions based on item response theory. JournalofEducational Measurement,20(4),345-354.

Templin,J.,amp;Bradshaw,L.(2014a).Hierarchicaldiagnostic classification models: A family of models for estimating and testing attribute hierarchies. Psychometrika,79(2), 317-339.

Templin,J.,amp; Bradshaw,L.(2014b).The use and misuseof psychometric models.Psychometrika,79(2), 347-354.

Terzi,R.,amp;dela Torre,J.(2018).An iterative method for empirically-based Q-matrixvalidation.International Journal ofAssessment Tools in Education,5(2),248-262.

Tu,D.B., Cai, Y., amp; Dai, H. Q. (2012). A new method of Qmatrix validation based on DINA model. Acta Psychologica Sinica, 44(4),558-568.

[涂冬波,蔡艷,戴海琦.(2012).基于DINA模型的Q矩陣 修正方法.心理學(xué)報,44(4),558-568.]

Wang,C.,amp; Gierl,M.(2011).Using the attribute hierarchy method to make diagnostic inferences about examinees' cognitiveskillsincritical reading.Journal ofEducational Measurement,48(2),165-187

Wang,D.,Gao,X.,Cai,Y.,amp; Tu,D.(2020).Amethodof Q-matrix validation for polytomous response cognitive diagnosis model based on relative fit statistics.Acta Psychologica Sinica,52(1),93-106.

[汪大勛,高旭亮,蔡艷,涂冬波.(2020).基于類別水平的 多級計分認知診斷Q矩陣修正:相對擬合統(tǒng)計量視角. 心理學(xué)報,52(1),93-106.]

Wang,D. X., Cai, Y.,amp; Tu,D.B.(2020).Q-matrix estimation methods for cognitive diagnosis models:Based on partial knownQ-matrix.MultivariateBehavioralResearch.https:// doi.org/10.1080/00273171.2020.1746901

Wang,D.-X.,Gao,X.-L.,Han,Y.-T.,amp; Tu,D.-B.(2018).A simple and effective Q-matrix estimation method: From non-parametric perspective. Journal of Psychological Science,41(1),180-188.

[汪大勛,高旭亮,韓雨婷,涂冬波.(2018).一種簡單有效 的Q 矩陣估計方法開發(fā):基于非參數(shù)化方法視角.心理 科學(xué),41(1),180-188.]

Wang,C.,amp;Lu,J.(2o21).Learningattributehierarchies from data: Two exploratory approaches. Journal of Educational and Behavioral Statistics,46(1),1-27. https://doi.org/ 10.3102/1076998620931094

Xu,G.,amp; Shang,Z.(2018).Identifying latent structuresin restricted latent class models.Journal of the American Statistical Association, 113(523),1284-1295.

Xue,W.,amp; Chen,H.G.(2012).Data mining basedon Clementine.ChinaRenminUniversity Press.

[薛薇,陳歡歌.(2012).基于Clementine的數(shù)據(jù)挖掘.中國 人民大學(xué)出版社.]

Yu,X.F.,amp; Cheng,Y. (2020).Data- driven Q-matrix validation using a residual-based statistic in cognitive diagnostic assessment.British Journal ofMathematical and Statistical Psychology,73(Suppl1),145-179.

Yu,X.F.,Ding,S.L.,Qin,C.Y.,amp;Lu,Y.N.(2011). Application of Bayesian networks to identify hierarchical relation among attributes in cognitive diagnosis.Acta Psychologica Sinica, 43(3),338-346.

[喻曉鋒,丁樹良,秦春影,陸云娜. (2011).貝葉斯網(wǎng)在認 知診斷屬性層級結(jié)構(gòu)確定中的應(yīng)用.心理學(xué)報,43(3), 338-346.]

Zhang,L.W.,amp; Guo,H.P.(2006). Introduction to Bayesian networks.Beijing:Science Press.

[張連文,郭海鵬.(2006).貝葉斯網(wǎng)引論.北京:科學(xué)出版社.]

Zhang, X.Q., Jiang, Y., Xin, T.,amp; Liu, Y.L. (2024).Iterative attribute hierarchy exploration methods for cognitive diagnosismodels.JournalofEducationalandBehavioral Statistics,https://doi.0rg/10.3102/10769986241268906

An approach that can validate both Q-matrices and attribute hierarchies in cognitive diagnosis models: From the empirical application perspective

WANGLing-Ling1,SUN Xiao-Jian2 (School ofEducational Science,Shenyang Normal University,Shenyang11oo34,China) (CollegeofTeacher Education,Southwest University,Chongqing 40o715,China)

Abstract

Cognitive diagnostic models (CDMs) are developed to diagnostically evaluate subjects’cognitive strengths and weaknesses based on the Q-matrix mapping of the items and atributes.The traditional calibration of cognitive attributes in the Q-matrix mainly relies on the subjective judgment of experts.Due to the subjective process of Q-matrix construction,there inevitably are more or less misspecifications in the Q-matrix, which, if left unchecked,may result in a serious negative impact on cognitive diagnostic assssment.From another important perspective, in the empirical applications of CDMs,cognitive attributes generally do not operate independently but rather belong to an interrelated network, and a certain psychological order,logical order, or hierarchical relationship may be present among the cognitive atributes.The correctness of both the Q-matrix and the atribute hierarchy significantly impacts the parameter estimation ability ofa CDM and the accuracy of the examinee's classification result. Recently, considerable studies have developed approaches for validating Q-matrices or testing attribute hierarchies respectively. However, there is no method that can validate both he Q-matrix and the attribute hierarchy simultaneously. From the empirical application perspective, an approach that can simultaneously validate both a prespecified Q-matrix and an attribute hierarchy is more desirable.

An approach based on Bayesian networks (BN) for validating both Q-matrices and attribute hierarchies simultaneously is proposed in this research.To explore the performance of the BNmethod,this article conducted two simulation studies and one empirical data analysis to theoretically and practically evaluate the accuracy of the Q-matrix validation and attribute hierarchy correction processes.The correctness of each element in the Q matrix and the attributes hierarchy can be checked by testing the strength of edge existence in the network structure.

When validating the atribute hierarchy relationships and the Q-matrix jointly in the first simulation, we explore the effects of Q-matrix error rate,item quality,test length,sample size,and the atribute hierarchy type on the correction accuracy of both the Q-matrix and the attribute hierarchy.The results show that the BN method can effctively correct the Q-matrix and theatribute hierarchy simultaneously when the error rate of the Q-matrix is at a medium or low level, especially when the item quality is high or the sample size is sufficient or thetest length is long,the accuracy of the correction is generally high.As the Q-matrix error rate increases and the quality of the items decreases,the correction accuracy gradually decreases.The BN method can correct the attribute hierarchies exactly right when the Q matrix is correct. The results in the second simulation show that when the attribute number in te Q-matrix increases,the BN method is still performing well. Different types of atribute hierarchy errors have a small impact on the correction accuracy across different conditions.The effectiveness of the BN method in the empirical dataset was demonstrated by the beter model data fit index of BIC.

In conclusion, the initial specified Q-matrix and atribute hierarchy can be simultaneously validated via the BN method.Then the corrected Q-matrix and the refined attribute hierarchy obtained from the data-driven BN method can again be combined with the theoretical judgments of experts to obtain a more optimized model, finally achieving more accurate diagnostic outcomes in CDA practice.

Keywordscognitive diagnosis,attribute hierarchy relationships, Q-matrix,Bayesian network

猜你喜歡
方法
中醫(yī)特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數(shù)學(xué)教學(xué)改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學(xué)習(xí)方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 97久久精品人人做人人爽| 亚洲欧美另类中文字幕| 麻豆精品国产自产在线| 国产精品手机在线观看你懂的| 亚洲成人免费看| 国产91熟女高潮一区二区| 色天天综合久久久久综合片| 真实国产乱子伦高清| 欧美精品亚洲二区| 免费观看精品视频999| 无码高潮喷水专区久久| 99视频在线免费观看| 亚洲人成亚洲精品| 高清无码手机在线观看| 免费av一区二区三区在线| 日韩精品专区免费无码aⅴ| 一本久道热中字伊人| 精品在线免费播放| 国产精品中文免费福利| 麻豆国产在线不卡一区二区| 国产成人免费| 婷婷综合亚洲| 秋霞国产在线| 国产99视频在线| V一区无码内射国产| 国产精品亚洲αv天堂无码| 欧美色综合网站| 亚洲男人的天堂久久香蕉网| 不卡午夜视频| AV网站中文| 亚洲区第一页| 国产成人8x视频一区二区| 久久成人国产精品免费软件| 国产精品网拍在线| 国产精品漂亮美女在线观看| 直接黄91麻豆网站| 中文字幕亚洲第一| 色噜噜狠狠色综合网图区| 欧美区一区二区三| 国产特一级毛片| 久久久久久久97| 国产在线观看99| 在线免费看片a| 日韩区欧美区| 国产va在线| 成年片色大黄全免费网站久久| 久久天天躁狠狠躁夜夜2020一| 国产成人精品一区二区三区| 综合色区亚洲熟妇在线| 最新亚洲av女人的天堂| 一区二区三区四区在线| 免费人欧美成又黄又爽的视频 | 成年人视频一区二区| 亚洲狼网站狼狼鲁亚洲下载| 美女扒开下面流白浆在线试听| 伊人91视频| 国产成人在线无码免费视频| 国产真实乱人视频| 无遮挡国产高潮视频免费观看| 黄色在线不卡| 免费观看无遮挡www的小视频| 精品久久综合1区2区3区激情| 性视频久久| 专干老肥熟女视频网站| 毛片在线区| 麻豆AV网站免费进入| 日本精品视频| 日韩国产亚洲一区二区在线观看| 日本在线欧美在线| 最新国产你懂的在线网址| 在线播放真实国产乱子伦| 亚洲日韩精品无码专区97| 久久夜夜视频| 久久综合色视频| 国产欧美日韩va另类在线播放| 久久精品亚洲专区| 亚洲视频a| 中文字幕 91| 免费网站成人亚洲| 国产美女免费| 亚洲最新在线| 国产一级毛片网站|