秦海江 郭 磊,
(1 西南大學心理學部,重慶 400715)
(2 中國基礎教育質量監測協同創新中心西南大學分中心,重慶 400715)
認知診斷評估(CDA)作為新一代的心理測量理論,與經典測量理論采用單一分數評價個體不同,認知診斷評估能夠對個體的認知結構進行診斷分類,進而提供多維潛在特質(如技能、素養、人格特質等,統稱為屬性)的評價結果。認知診斷模型(CDM)是一類用于認知診斷評估的多維、離散潛變量模型,根據個體是否掌握某些屬性將其診斷為不同類別(Nájera et al.,2021),并已廣泛應用于心理、教育、醫療診斷等諸多領域(Sorrel et al.,2016)。Q矩陣是認知診斷的核心要素(de la Torre &Chiu,2016;Tatsuoka,1983),它描述了測驗中題目與屬性之間的關系(Tatsuoka,1990),對診斷分類的準確性至關重要(劉彥樓,吳瓊瓊,2023)。錯誤界定的Q矩陣會極大降低認知診斷模型參數估計的精度和被試診斷分類的準確性,得到較差的模型數據擬合結果(de la Torre,2008;Gao et al.,2017;Im &Corter,2011)。目前,Q矩陣通常是領域專家采用文獻查閱、理論分析和口語報告等經驗方法構建(Nájera et al.,2020),但這些方法較為主觀(Yu &Cheng,2019),并且在實證應用中,Q矩陣也常被指出包含一定的錯誤界定(Chiu,2013;Li &Suen,2013;Rupp &Templin,2008)。因此,如何界定準確的Q矩陣是認知診斷評估研究中面臨的現實難題。
為了獲取準確的Q矩陣,研究者嘗試使用被試的觀察作答數據估計Q矩陣,如Chung(2019)使用蒙特卡洛馬爾可夫(MCMC)算法可以較為準確地估計Q矩陣。但是該方法在屬性較多、人數較少時準確性會大幅下降,且程序的修訂時間較長,通常運行一次蒙特卡洛馬爾可夫算法需要耗費12小時,時間成本過大(Chung,2019)。實際上,更多的研究者對專家預先構建的Q矩陣進行了修正,并提出了許多Q矩陣修正方法(李佳等,2021)。根據適用性,這些修正方法可大致分為適用于簡化認知診斷模型和適用于飽和認知診斷模型兩類。適用于簡化認知診斷模型的修正方法,如δ法(de la Torre,2008)、殘差法(RSS;Chiu,2013)、迭代修正序列搜索算法(IMSSA;Terzi &de la Torre,2018)、極大似然估計與邊際極大似然估計(Wang et al.,2018)、RMSEA法(Kang et al.,2019)、殘差統計量法(Yu &Cheng.,2019)和ORDP法(李佳等,2022)等。這類方法往往是從某類簡化認知診斷模型的假設機制出發,因此也僅在符合該機制情況下才能表現出較好的修正效果。然而,簡化模型機制假設較強,限制了該類方法的應用場景(劉彥樓,吳瓊瓊,2023)。
相對地,飽和認知診斷模型(如G-DINA model,de la Torre,2011)沒有嚴格的屬性作用機制假設(Henson et al.,2009),且包含多類簡化模型,比簡化模型更加靈活,使用場景更廣。基于飽和認知診斷模型框架提出的修正方法具有靈活性高、不需要嚴格的機制假設等優勢。這類方法有殘差法(Chen,2017)、相對擬合統計量方法(汪大勛等,2020)、GDI法(de la Torre &Chiu,2016;Nájera et al.,2019;Nájera et al.,2020)、Hull法(Nájera et al.,2021)、基于不完全信息矩陣的Wald法(Wald-IC;Ma &de la Torre,2020)、基于完全信息矩陣的Wald法(劉彥樓,吳瓊瓊,2023;Wald-XPD)等。其中,殘差法在測驗較短時會出現統計檢驗力偏低的問題。相對擬合統計量法需要比較所有題目的所有屬性組合,在測驗較長或屬性較多時該方法的計算復雜度會大幅提升。GDI法對每道題目計算所有可能q向量的方差占比(PVAF),選擇PVAF大于切分點的q向量作為修正結果。然而,PVAF的切分點需要研究者提前預設,限制了該方法的靈活性。盡管后來Nájera等(2019)使用多元線性回歸模型預測切分點,但該方法的各項回歸系數局限于模擬數據時的條件,難以推廣到一般情境(Nájera et al.,2021)。Hull法解決了切分點的問題且在模擬研究中表現良好,但是無法修正出屬性全為1的q向量(即q=[11...1],記作q1∶K)。Ma等(2020)結合Wald檢驗與PVAF提出了Wald-IC法,通過逐一檢驗q向量中的屬性在統計意義上的必要性來修正q向量。劉彥樓與吳瓊瓊(2023)指出Wald-IC法中的Wald統計量采用的是不完整的信息矩陣,容易出現低估模型參數的標準誤以及一類錯誤控制率膨脹等問題,是Wald-IC法的修正表現較Hull法稍差的主要原因,并在Wald-IC的基礎上提出了采用完整信息矩陣(即經驗交叉相乘矩陣)的Wald-XPD方法,并與GDI、Hull、Wald-IC等方法進行了比較,結果表明Wald-XPD方法表現最好。因此,本研究將會與該方法進行比較。但采用完整信息矩陣會導致Wald-XPD方法比其他修正方法更復雜,計算量更大,耗時也更長。不難看出,隨著研究者們對Q矩陣修正方法的不斷探索,修正效果也在不斷提升。然而如上所述,這些方法也存在自身的一些不足和局限。
隨著人工智能的逐漸成熟,尤其是近十幾年的發展,直接從經驗數據中學習潛在規律的機器學習算法憑借自身極強的問題解決能力已被廣泛應用于各種領域。在教育領域,機器學習為那些在傳統方法下處理效率低下的問題提供了解決方案,如使用項目自動生成器(Gierl et al.,2012)生成多項選擇測驗的題目;使用語音識別技術對普通話發音自動評分(Liu et al.,2009);使用機器學習評分模型對學生作文進行評分(Zhai et al.,2022)。近年來,機器學習也越來越多地被應用到認知診斷評估領域中。如Chiu與Douglas(2009)利用K-means與層次聚類法對具有相同屬性模式的被試進行聚類分析以實現診斷分類,但該方法屬于無監督學習,無法得到類別標簽。Zhao等(2019)使用深度學習估計Q矩陣中的屬性,盡管只能處理較為簡單的Q矩陣(一道題目只測量一個屬性),但該研究訓練出的雙向長短期記憶網絡較為高效(準確率在80%以上)。Xue和Bradshaw(2020)訓練了三種不同類型的神經網絡用于診斷分類,并得到了比DINA、RUM、G-DINA等模型更好的分類表現。機器學習往往能夠通過自適應學習數據中的潛在規律,從而獲得更強的問題解決能力。因此,受到前人研究的啟示,本研究認為基于機器學習視角的Q矩陣修正方法也將會有更好的表現。
本研究的目的是基于機器學習提出適用于Q矩陣的修正方法,并與最新提出的Wald-XPD法分別從模擬與實證研究中比較性能。本文其他部分內容如下:第二部分介紹認知診斷飽和模型、Wald-XPD修正方法以及機器學習中的隨機森林算法,以使文章更易理解;第三部分介紹基于隨機森林進行Q矩陣修正的新方法及修正的具體步驟;第四部分為用于Q矩陣修正的隨機森林模型訓練研究,包括生成數據集、提取特征、訓練及評估;第五部分開展模擬研究以驗證新方法的有效性;第六部分進行實證數據分析,以驗證新方法在實際應用中的可行性;最后一部分對新方法進行討論與展望。
在含有J道題目、測量K個屬性的二級評分認知診斷測驗中,J×K維的Q矩陣描述了測驗題目與潛在屬性的關系。以J=3、K=2為例,根據題目與屬性的關系,可以構建如下Q矩陣(記Q1):
矩陣中的行表示題目的q向量,列表示屬性,元素為1表示題目考察了該屬性,為0則表示未考察。研究者可使用認知診斷模型分析被試在各題目上的觀測作答數據,實現被試的診斷分類,知曉被試在各個屬性上的掌握情況。然而,Q矩陣會包含不同程度的錯誤界定(Chiu,2013;Li &Suen,2013;Rupp &Templin,2008),因此對Q矩陣修正是進行CDA的重要前提。
相較簡化模型,飽和模型沒有嚴格的屬性作用機制假設,并在加以約束時可轉化為多種簡化模型(de la Torre,2011;Henson et al.,2009)。本研究以G-DINA為例進行Q矩陣修正。G-DINA模型的一般表達式為:
其中,Pj(αl)是屬性掌握模式為αl(l=1,2...L,L=2K*)的被試正確作答題目j的概率,K*為坍塌(collapse)q向量的屬性個數;δj0為題目j的截距項參數;δjk為αlk的主效應參數;是αlk與的交互效應參數;δj(12...K)是αl1...αlk的交互效應參數;為屬性掌握模式為αl的被試對于屬性k/k'的掌握情況,若掌握則取值1,否則為0。
Wald-XPD法是Wald檢驗與PVAF的結合,在題目水平上對Q矩陣進行修正,其基本邏輯為:修正題目j時,使PVAF值最大的單個屬性將被增加到屬性全為0的向量(即q=[00...0])中作為啟動,并在后續迭代中通過Wald檢驗不斷增減該向量中的屬性,過程中若出現PVAF大于切分點、或屬性不再增減時修正結束。
Wald統計量服從漸近χ2分布,自由度為2K*-1,計算方式為:
其中,R為限制性矩陣;Pj(α)為題目j的正確作答概率向量;Vj為題目j的正確作答概率的方差-協方差矩陣,可通過Mj矩陣(de la Torre,2011)與題目參數的方差-協方差矩陣∑j相乘得到,即Vj=Mj×∑j。∑j為∑中第j題的部分,為∑可通過對信息矩陣求逆所得。Wald-XPD采用完整信息矩陣,即經驗交叉相乘矩陣計算∑。令πl表示不同屬性掌握模式的被試分布狀況,l(X)為觀測作答數據的對數似然,δ為題目參數,于是有:
Mj是2K*×2K*的矩陣,用以表示題目j各參數與屬性掌握模式之間的關系,行代表不同的掌握模式,列代表不同的項目參數。以上例Q1中第3題(q向量為[11])為例,存在如下關系:
PVAF由廣義區分度指標2(GDI;de la Torre&Chiu,2016)計算得到。2用于衡量題目的區分度,本質為所有屬性掌握模式下的正確作答概率的方差:。正確界定q向量時計算所得的2較大,而當q向量被過度界定時2將增大,且被過度界定的屬性數量越多2越大,屬性全為1的q向量(即q1∶K)有最大的2(de la Torre,2016)。這是由于q向量中屬性增多導致題目參數增多,因此各屬性模式之間的正確作答概率差異增大,進而導致方差增大,但這種差異增長是虛假的。因此,de la Torre等人通過計算PVAF=以描述當前q向量的區分度對最大區分度的解釋程度,選擇合適的PVAF切分點以實現q向量擬合與簡約的平衡。根據以往研究,PVAF的切分點通常取0.95(劉彥樓,吳瓊瓊,2023;Ma &de la Torre,2020;Nájera et al.,2021)。
隨機森林(RF;Breiman,2001)結合隨機子空間方法與Bagging集成學習理論(Breiman,1996;Ho,1998)在分類與回歸樹(CART;Breiman et al.,1984)的基礎上建立,即使在樣本量小、特征維度高時也有良好表現(Ziegler &Knig,2013),是一種高效的有監督學習算法。隨機森林采用bootstrap重抽樣技術從原始樣本集中抽取等量的子樣本集來生成決策樹,并從所有的特征變量中隨機抽取一定數量(mtry參數)作為劃分樹節點的依據。“森林”即由這些隨機生成的決策樹構成(決策樹的數量為ntree參數),森林的輸出結果為所有決策樹結果的平均值,該做法的優勢在于不依賴單顆樹的結果,也不以全部特征建立決策樹,可以使森林有效防止過度擬合,同時也使最終輸出結果更精確。此外,森林完全基于樹模型,過程中不涉及距離矩陣,因此可以不考慮特征的歸一化問題。子樹可以并行運行,這使得森林模型可以被高效訓練及使用。圖1呈現了隨機森林的一般結構。

圖1 隨機森林的一般結構示意圖
隨機森林因其高效的性能和自身獨特優勢被應用于各個領域,如Goretzko等(2020)使用模擬的測驗數據訓練隨機森林模型以用于探索性因素分析的因子保留,準確率高于平行分析、比較數據法等傳統因素分析方法;駱方等(2021)同時采用隨機森林、多層感知機、支持向量機等機器學習算法訓練害羞特質預測模型,結果表明隨機森林的模型訓練最成功;還有研究者使用神經影像數據訓練隨機森林模型以預測阿爾茲海默癥(Sarica et al.,2017),為疾病的診斷與預防提供指導。整體而言,在以往研究中,隨機森林模型具有較優異的表現。
隨機森林可用于分類、回歸和預測等多類型的任務,而Q矩陣修正可被視作分類任務:以所有的q向量類型為可能的分類結果,對Q矩陣中每一題目的q向量進行分類。具體地,假設某個測量了K個屬性的Q矩陣需要被修正,所有的s向量類型共有2K-1種,那么該矩陣中的q向量都將會被分類為這2K-1種類型。傳統的Q矩陣修正采用不同方式和指標進行,如GDI法將PVAF達到切分點時的q向量作為分類結果;Wald-XPD法將PVAF達到切分點或者沒有其他必要屬性的q向量作為分類結果。本研究將使用隨機森林從數據中學習分類規則,以訓練可用于Q矩陣修正的隨機森林模型。具體的訓練過程及修正步驟見圖2。其中,訓練過程包括:生成數據集、從數據集中提取特征、訓練以及評估隨機森林模型,詳見本文第四部分。使用隨機森林模型進行Q矩陣修正,只需要從測驗數據中提取特征,并將其輸入到隨機森林模型中,模型將會以學習到的分類規則逐題進行分類,當所有題目均分類結束就輸出修正后的Q矩陣。以上文K=2,J=3的Q1矩陣為例,假設矩陣中包含錯誤界定的屬性,所有可能的q向量為類22-1=3類:[10]、[01]、[11],Q矩陣中三道題目的q向量可能是這三類中的任何一類,隨機森林模型的任務即是將這三道題正確地分類至這三類q向量中,并輸出修正后的Q矩陣。

圖2 隨機森林模型訓練及Q 矩陣修正過程示意圖
研究1的主要目的是訓練隨機森林模型以進行Q矩陣修正。Sessoms和Henson(2018)的文獻綜述指出,4屬性的Q矩陣是應用類文章最常使用的屬性數量,同時參考Nájera等(2021)與劉彥樓與吳瓊瓊(2023)在模擬研究中屬性數量的設置,本研究將Q矩陣的屬性數量設置為K=4,但方法適用于任意屬性數量情境。R代碼及隨機森林模型可從https://osf.io/ve2wn/網站下載。
一般而言,訓練機器學習模型的數據集規模越大,模型越精確。但當數據集規模大到一定程度后,其對模型精度的提升作用在衰減,且大數據集的模型訓練需要消耗更多的算力與時間成本。因此,研究者往往綜合成本與性能提升等因素后使用合適規模的數據集,如Goretzko與Bühner(2020)模擬產生500000樣本大小的隨機數據集來訓練隨機森林模型,用于探索性因子分析中的因子保留;駱方等(2021)用于羞怯特質預測的隨機森林模型,其訓練樣本在176~1089之間不等;Sarica等(2017)對過往使用隨機森林預測阿爾茲海默癥的12個研究進行綜述,各研究的訓練樣本大小從47~825之間不等。同樣地,本研究對樣本大小的設置也需要綜合考慮各方因素。盡管較大的數據集在理論上能夠獲得性能更優異的隨機森林模型,但過大的數據集需要更多的算力與訓練時間。因此,在綜合考慮了過往認知診斷研究中涉及到的樣本量、算力成本及實際應用價值等因素與模型精度的平衡后,本研究采用樣本大小為13030的數據集(來自隨機模擬的500份認知診斷測驗,共包含13030道題目的作答數據),以訓練用于Q矩陣修正的隨機森林模型。
500份診斷測驗數據中,每份數據均遵循以下規則:測驗的題目數量由題目數量與屬性數量之比(ratio of number of items to attribute,JK)決定,而題目數量與屬性數量之比從均勻分布U(3,10)中隨機生成,例如在K=4、JK=4時將模擬4×4=16道題目。測驗中每道題的題目質量服從P(1)~U[0.6,1]且P(0)~U[0,0.4],其中P(1)為掌握了所有需要的屬性時的正確作答概率,P(0)為未掌握任何所需屬性時的正確作答概率。作答數據由數量為N的被試在G-DINA模型下生成,N從均勻分布U[200,2500]中隨機生成。以上題目數量與屬性數量之比、被試數量、以及題目質量的設置涵蓋了以往Q矩陣修正研究中設置的大部分條件。被試的屬性分布采用多元正態分布θ~MVN(0K,∑)生成,該分布是被廣泛使用、貼合現實情景的分布(郭磊,周文杰,2021;Chiu,et al.,2009;Chiu,2013),且協方差常被設置為0.5。θi=[θi1,θi2...,θik]包含被試i在各屬性上的能力大小,用下式生成被試的屬性掌握模式:
特征往往從數據集中提取,經由機器學習算法學習其中的潛在規律,并生成可用于解決問題的模型,該過程即為模型訓練過程。使用不同特征訓練的模型彼此存在差異,本研究主要考慮三種類型特征:PVAF、對數似然值、R統計量(Yu &Cheng.,2019)。注意,為避免特征數量的劇增導致樣本量需求的劇增,本文不考慮同時使用三種特征來訓練一種模型,而是分別以這三種特征訓練三種模型。
PVAF應用于許多傳統的Q矩陣修正方法中,如GDI、Hull、Wald-XPD法等,這些方法都有不錯的修正能力。因此,有理由認為以PVAF為特征訓練的隨機森林模型也會有良好的Q矩陣修正能力。
此外,對數似然在認知診斷中應用廣泛,例如:在進行認知診斷模型的參數估計時,常使用基于對數似然的最大期望化算法;相對擬合指標(如AIC、BIC等,其本質即為對參數數量進行懲罰后的對數似然)等用于Q矩陣修正(汪大勛等,2020);Wang等(2018)通過最大化對數似然值對DINA模型下的Q矩陣進行修正,表現良好。因此,對數似然值理論上也是較好的特征,其計算方式為:
其中,LLj為題目j的對數似然值;Xij為被試i在題目j上的觀測作答數據(二級計分測驗中,1表示作答正確,0表示錯誤);ω(αl|Xi)為被試i的屬性掌握模式為αl的后驗概率。
最后,R統計量由Yu與Cheng等(2019)借鑒項目反應理論中的標準化殘差(Masters &Wright,1997)而提出,可以描述模型與數據的擬合程度,也可以用于Q矩陣修正。Yu與Cheng等在修正Q矩陣時總是選擇R統計量最小的q向量作為修正結果。盡管R統計量的原始定義并不局限于簡化模型,但Yu與Cheng等在研究中只將其應用到了簡化模型中,且基于簡化模型機制推導出的公式也只適用于簡化模型。實際上,R統計量還未在飽和模型下使用,而Nájera等(2021)認為R統計量具有在飽和模型下進行Q矩陣修正的良好前景,因此,本研究將使用R統計量作為特征以訓練隨機森林模型。R統計量的原始定義如下:
其中,E(Xij|αi)為被試i在第j題上的期望得分,在Yu與Cheng等人研究中R統計量僅被用于DINA模型,因此E(Xij|αi)即為簡化模型中的不失誤概率(1-s)或猜測概率(g)。由于飽和模型與簡化模型參數不同,本研究將R統計量進行改造,在考慮被試的后驗概率分布后,使用期望的正確作答概率來表示期望得分(Ma &de la Torre,2016),即有P(Xij|αi)為被試i在題目j中作答結果為Xij的概率,即
與廣義區分度指標2類似,正確界定的q向量的對數似然值或R統計量在理論上是最優的(對數似然值應最大,R統計量應最小)。但由于過度界定q向量有更多的參數(對數據有更好的擬合),因此過度界定的q向量在對數似然和R統計量上都將更優,然而這樣的優度提升是過擬合、虛假的。參考PVAF做法,本研究同樣計算對數似然值與R統計量對最優值的解釋程度,即對數似然值占比與R統計量占比抽取特征時,本研究將分別計算題目,取所有可能的q向量時的三類占比(每一類都有2K-1),訓練模型時分別以方差占比、對數似然值占比與R統計量占比作為訓練特征(特征數量為2K-1),訓練三種不同的隨機森林模型。
本研究數據集共包含13030道題目的測驗數據,其中的70%作為訓練集用于訓練隨機森林模型,另外30%作為測試集以評估模型精度。由于是分類任務的模型訓練,因此隨機森林的mtry參數取。由于隨機森林具有不易過擬合的性質,理論上森林中子樹的數量ntree可以盡量大,但過大的ntree會導致森林形成緩慢,且子樹的規模在達到一定規模型解釋性反而減弱(劉敏等,2015),故本研究取ntree=500。
評估指標采用機器學習領域多分類任務的常用指標(張開放等,2021;Sasikala et al.,2017;Shai &Shai,2014):準確率(Accuracy)、召回率(Recall)、精確率(Precision)、F1(F1-score)、Kappa一致性指標。這五類指標均基于混淆矩陣計算,取值越高代表模型訓練越成功。下面以三分類任務(三類為C1、C2、C3)為例介紹評估指標,假設該任務分類結果的混淆矩陣如下:

表1 三分類任務的混淆矩陣
可以看出,基于三類特征訓練得到的隨機森林模型的評估指標均在0.75以上,表現較好。模型之間存在細微差異,RF-L在各項指標上均低于RF-P與RF-R,但差異均在0.02以內。而RF-P與RF-R兩個模型雖然在不同指標上各有優劣,但彼此差異均未超過0.002,可忽略不計。基于以上結果,我們將訓練好的模型通過模擬研究,在更加充分的實驗條件下檢驗其效能。

表2 模型評估結果
本研究的主要目的是通過模擬研究驗證隨機森林模型修正Q矩陣的有效性,并與目前表現最佳的Wald-XPD方法進行比較。研究考慮六類自變量:被試屬性分布AD、Q矩陣中單位矩陣(identity matrix,IM)的數量、題目質量IQ、題目數量與屬性數量之比JK、被試數量N、Q矩陣錯誤界定的比例QM,具體情境見表3。

表3 各自變量水平匯總
參考以往Q矩陣修正研究(de la Torre &Chiu,2016;Ma &de la Torre,2020;Nájera et al.,2021;Yu &Cheng.,2019)的模擬條件,本研究各因素的具體設置如表3所示。
考慮三種被試屬性分布:多元正態分布、高階分布(de la Torre &Douglas,2004)與均勻分布。多元正態分布的設置與“3.1”部分中生成被試屬性掌握模式的分布相同。高階分布的條件設置與Nájera等(2021)相同,即被試的能力參數θ從標準正態分布中隨機產生,項目區分度參數服從λk1~U[1,2]、屬性難度參數λk0從[-1.5,1.5]中按照屬性數量等距產生。均勻分布條件時,每個被試的屬性掌握模式從所有可能的掌握模式中隨機生成。
本研究考慮在Q矩陣中包含不同數量的單位矩陣時,修正方法的性能變化。在過往的Q矩陣修正研究中,研究者往往限制Q矩陣中必須包含2個或2個以上的單位矩陣(劉彥樓,吳瓊瓊,2023;Nájera et al.,2021),以實現被試屬性掌握模式的可識別性(Fang,G.et al.,2019;Xu,G.,2017)。但在實際測驗中的Q矩陣卻并不一定包含如此理想,一些實證數據的Q矩陣甚至不含有單位矩陣,如分數減法數據(Chiu,2013;Tatsuoka,1984)、PISA2000的閱讀測驗數據(Chen &de la Torre,2014)。Q矩陣修正方法的模擬研究條件與現實情景不符可能導致實際應用價值的降低,甚至得到并不是非常準確的Q矩陣。因此,本研究考慮更加貼合現實的Q矩陣:Q矩陣中所有題目的真實q向量均從所有可能的q向量中隨機產生,并限制這些Q矩陣中單位矩陣的數量為0、1、2,以生成三種不同的Q矩陣。
參考Nájera等(2021)與劉彥樓與吳瓊瓊(2023)的模擬研究條件設置,本研究其他條件設置如下:以題目數量與屬性數量之比控制題目數量并設置4和8兩水平,由于Q矩陣的屬性數量為K=4,題目數量即為16和32題。題目質量采用P(0)~U[0,0.2]且P(1)~U[0.8,1]、P(0)~U[0.1,0.3]且P(1)~U[0.7,0.9]、以及P(0)~U[0.2,0.4]且P(1)~U[0.6,0.8]三個水平,分別代表高、中、低三種題目質量。Q矩陣錯誤界定的屬性比例設置為0.15和0.3。被試數量設置為500、1000和2000,分別代表小、中、大樣本,并在G-DINA模型下模擬被試的作答數據。
本研究設置以上六類自變量,共3×3×2×3×3×2=324個實驗條件,每個條件循環100次。
參考過往Q矩陣修正研究中,本研究采用五種常使用的指標評價各修正方法,分別為:QRR、TPR、TNR、OSR、USR,計算每一條件下100次循環的指標平均值。QRR為修正后的Q矩陣與正確的Q矩陣的一致程度,表示修正后的Q矩陣的準確率,是評價修正方法最重要的指標,計算方式如下:
TPR為Q矩陣中正確界定的屬性被保留的比例,而TNR為Q矩陣中錯誤界定的屬性被修正正確的比例,兩者分別從保留正確屬性和修正錯誤屬性兩方面更細致地評估修正方法,通過以下方式計算:
USR為修正后的Q矩陣吝嗇界定(低估,即將屬性由1判定為0)的比例,OSR為修正后的Q矩陣過度界定(高估,即將屬性由0判定為1)的比例,兩者分別評估修正方法的低估傾向與高估傾向,通過以下方式計算:
公式(8)至(12)中,I(·)為指示函數,當其中等式成立時取值為1,否則為0;為修正后Q矩陣中第j題的第k屬性;為原始Q矩陣中第j題的第k屬性;為正確Q矩陣中第j題的第k屬性。QRR、TPR與TNR取值越高表明修正方法越好,USR與OSR取值越小表明修正方法低估與高估傾向越不明顯。好的修正方法應當充分平衡USR與OSR,既不低估也不高估。
表4呈現了不同自變量水平下Wald-XPD、RF-P、RF-L以及RF-R方法的總體結果,表中加粗數據為QRR、TPR、TNR在同一條件下的最優結果,而斜體數據表明修正方法在該條件下高估或低估的傾向最明顯,即說明表現欠佳。
被試屬性分布、Q矩陣中單位矩陣的數量、Q矩陣錯誤界定的比例、題目質量、題目數量與屬性數量之比、被試數量等均對不同的修正方法有明顯影響:被試的屬性分布為均勻分布時修正效果最好,其次為多元正態或高階分布,且兩者差異不大。Q矩陣中的單位矩陣數量越多時各修正方法的修正效果越好,如不含單位矩陣時Wald-XPD、RF-P、RF-L、RF-R四個方法的QRR值分別為0.775、0.808、0.801、0.812,而當Q矩陣含有兩個單位矩陣時,各方法的QRR分別提升了0.072、0.037、0.038、0.036。原始Q矩陣中錯誤界定的比例越低則各方法的修正效果越好,當Q矩陣錯誤界定比例為0.15時各方法的QRR、TPR、TNR相比Q矩陣錯誤界定比例為0.3時至少提高了0.09、0.03、0.12,而最多則分別提高了0.129、0.045、0.0143。題目質量越高、被試數量越多時則修正效果越好,且所有指標均在題目質量高、被試數量為2000時最優。而對于題目數量與屬性數量之比而言,除TPR指標外的其余指標(尤其是TNR)均在題目數量與屬性數量之比為8時取得最優值,與劉彥樓與吳瓊瓊(2023)和Nájera等(2021)研究結果一致。
TNR表示修正方法將錯誤界定的屬性修正成功的能力,TPR表征修正方法將原本正確界定的屬性保留下來的能力,而QRR指標代表修正后Q矩陣準確率,是對修正錯誤屬性與保留正確屬性的綜合性指標,因此QRR指標的結果最為重要。從結果可以看出,盡管不同方法的修正結果存在差異,但總體而言,在各實驗條件下RF-R方法的修正效果最好,其QRR指標最高,其次為RF-P與RF-L方法,Wald-XPD方法的QRR值最低。Wald-XPD雖然在各自變量水平下都有最高的TNR,但其TPR指標均遠小于其他方法,因此導致了最低的QRR結果。同樣地,RF-L方法雖然在TPR指標上與RF-R極為接近,但是在TNR指標上較低,因此RF-L的綜合表現(QRR)低于RF-R與RF-P。四種方法(Wald-XPD、RF-P、RF-L與RF-R)的USR平均值分別為0.132、0.069、0.078、0.073,OSR平均值分別為0.056、0.108、0.106、0.104。同時,Wald-XPD方法在各個條件下均有最大的USR與最小的OSR值,表明在四個方法中Wald-XPD最傾向于低估Q矩陣中的屬性,即經Wald-XPD方法修正后的Q矩陣中元素為“1”的數量會少于正確Q矩陣中的數量。而RF-P方法在大多數條件下都有最大OSR與最小USR,表明RF-P最傾向于高估Q矩陣中的屬性,即經RF-P方法修正后的Q矩陣中元素為“1”的數量會多于正確矩陣中的數量。而RF-L與RF-R在平衡高估與低估上的表現較好,其中RF-R的表現最好。
TPR、TNR、USR以及OSR分別表示了不同方法在保留正確屬性、修正錯誤屬性、低估傾向、高估傾向等方面的性能,在模擬研究中可用于比較修正方法之間的細致差異與特性。然而單一指標的意義有限,例如Wald-XPD方法相對善于修正錯誤的屬性,而保留正確屬性的能力較弱,因此修正后的Q矩陣準確率不高。QRR指標能夠綜合的描述Q矩陣的準確率,而進行Q矩陣修正方法研究的根本目的為獲取準確率更高的Q矩陣,因此下面重點闡述不同試驗條件下不同方法的QRR指標。
圖3呈現了Q矩陣中未包含單位矩陣時不同方法的QRR結果,圖中“A”“B”“C”分別代表被試數量自變量的500、1000、2000水平,圖4與圖5意義相同。在多數條件下,RF-P、RF-L和RF-R方法的QRR值很接近。其中,RF-R表現最好,QRR平均值為0.812,RF-L與RF-P次之,QRR平均值分別為0.801和0.808,但相差不大,而Wald-XPD的QRR平均值僅為0.775,且該方法在題目質量低、Q矩陣錯誤率為0.15、題目數量與屬性數量之比等于4的條件下與其他方法的差異最大。

圖4 不同方法在包含1 個單位矩陣時的QRR 結果

圖5 不同方法在包含2 個單位矩陣時的QRR 結果
圖4呈現了Q矩陣中含有1個單位矩陣時不同方法的QRR結果。與不包含單位矩陣時類似,在大多數情況下RF-R有最優的QRR指標,平均值為0.825,RF-L與RF-R的QRR結果與RF-R接近,分別為0.815和0.821,而Wald-XPD的QRR結果為0.805。當Q矩陣錯誤界定比例0.15、題目質量低、題目數量與屬性數量之比等于4等時,三種新方法的QRR值明顯高于Wald-XPD方法。
圖5呈現了Q矩陣中含有2個單位矩陣時不同方法的QRR結果。此時盡管各方法之間的差異不明顯,但在總體上RF-R方法仍然具有最高的QRR指標,整體平均值為0.848,而RF-L、RF-P、以及Wald-XPD方法的結果分別為0.839、0.845、0.847。Wald-XPD方法在Q矩陣錯誤界定比例為0.15、題目質量低等條件下明顯不如其他三種新方法。而當Q矩陣錯誤界定比例為0.3時,Wald-XPD方法的平均QRR(0.802)稍高于其他三種方法(RF-P、RF-L以及RF-R的平均QRR分別為0.785、0.779、0.790),但彼此差異不大。當單位矩陣的數量從0增加到2時(即圖3至圖5),Wald-XPD方法的QRR指標與RF-P、RF-L以及RF-R方法逐漸接近,表明單位矩陣對Wald-XPD的影響較大,在單位矩陣數量較少時該方法的修正效果將會大幅下降,而三種新方法具有較強的穩健性。
綜上,不同自變量對所有修正方法均有明顯影響,而在四種修正方法中,三種基于RF模型的新方法表現較Wald-XPD方法更優秀,其中RF-R在各個條件下的表現最好,RF-P與RF-L次之。
為考察不同修正方法在實證數據中的表現,本研究與劉彥樓與吳瓊瓊等(2023)相同,采用德國圖賓根大學關于初級概率論的學習實驗數據,共包含504名被試在12道初級概率問題上作答反應,可從R軟件包pks(Heller &Wickelmaier,2013)中獲取。Philipp等(2018)編制了原始Q矩陣(見表5),共測量了四個屬性:(A1)計算事件發生的概率,(A2)計算對立事件發生的概率,(A3)計算兩個不相干事件發生的概率,(A4)計算兩個獨立事件發生的概率。本研究在G-DINA模型下,分別使用Wald-XPD、RF-P、RF-L以及RF-R方法對原始Q矩陣進行修正,得到了如表5的結果。

表5 原始Q 矩陣及其修正結果
四種方法中,Wald-XPD對16個屬性做出了調整,RF-P、RF-L和RF-R三個方法分別調整了10、8和8個屬性。經Wald-XPD修正后的Q矩陣中含有元素“1”的屬性最少,除了第八題(修訂后q向量為[0111])外的其余題目均只考察了一個屬性,而經RF-P修正后的Q矩陣中等于1的屬性最多,這與模擬研究中的結果一致(在四種方法中,Wald-XPD方法低估傾向最明顯,RF-P方法高估傾向最明顯)。
使用擬合指標對修正后的Q矩陣進行模型-數據擬合評估,相對擬合指標使用AIC與BIC,絕對擬合指標使用M2檢驗、RMSEA2(Liu et al.,2016)以及SRMSR(standardized root mean squared residual;Ravand &Robitzsch,2018),其中AIC、BIC、RMSEA2、以及SRMSR均是越小表明擬合情況越好,而M2檢驗在不顯著時(p>0.05)表明擬合情況良好。具體擬合結果見表6。

表6 實證數據擬合指標結果
對于絕對擬合指標:經RF-P與RF-R方法修正后的Q矩陣其M2統計量未達到顯著水平,p值分別為0.315與0.278,表明擬合良好;RMSEA2結果類似,經過RF-P與RF-R方法修正后的Q矩陣有較小的RMSEA2值,分別為0.019和0.023。對于SRMSR而言,Maydeu-Olivares(2013)認為該指標小于0.05時即可忽略擬合的不匹配,在五種Q矩陣中僅Wald-XPD修正后的Q矩陣存在擬合不理想的情況,經RF-R修正后的Q矩陣擬合最好,有最小的SRMSR值為0.035。對于相對擬合指標:經Wald-XPD與RF-R方法修正后的Q矩陣有比原始Q矩陣更低的AIC與BIC,其中RF-R修正的Q矩陣AIC最低(4935.57),Wald-XPD修正的Q矩陣BIC最低(5152.50)。綜合絕對擬合與相對擬合指標來看,經RF-R方法修正的Q矩陣有最好的模型-數據擬合結果。
根據表5的結果,我們以屬性A1為例討論新方法修正結果的合理性。同時根據表6中相對擬合與絕對擬合的結果可知,RF-R修正的Q矩陣具有最好的擬合,該方法將題目11的屬性A1進行了調整。題目11的描述為:“在一個車庫里,有50輛汽車。20輛是黑色的,10輛是柴油動力的。假設汽車的顏色與燃料的種類無關。那么,隨機選擇的汽車不是黑色的并且是柴油動力的概率是多少?”顯然,11題需要求兩個獨立事件(“不是黑色”與“是柴油動力”)同時發生的概率,需要用到屬性A4而不是屬性A1,而三種新方法都將A1調整為了0,這與劉彥樓等(2023)對題目11修正結果的解釋一致。因此,RF-R對Q矩陣的修正是合理和可解釋的。
在認知診斷評估中,Q矩陣是CDM實現被試的屬性掌握模式分類最重要的基礎。由于某些主觀判斷,領域專家開發的Q矩陣可能會存在錯誤界定的情況,這對被試的診斷分類、題目參數估計和模型-數據擬合等產生了嚴重的負面影響(Chiu,2013;de la Torre,2008;Gao et al.,2017;Im &Corter,2011;Li &Suen,2013;Rupp&Templin,2008)。為了獲取更準確的Q矩陣,研究者提出了多種Q矩陣修正方法。然而現有的這些Q矩陣修正方法(如GDI、Hull、Wald-XPD等)存在一定局限。區別于傳統的Q矩陣修正研究,本研究將Q矩陣修正視作機器學習中的分類任務,利用隨機森林算法直接從數據中學習修正(分類)規則,并以PVAF、對數似然值及改造后的R統計量等為特征訓練了三種不同的RF模型,通過在模擬研究與實證研究中與最近發表的Wald-XPD方法進行比較,證明了新方法具備更強的修正能力。
本研究設置的被試屬性分布、Q矩陣錯誤界定比例、題目質量、被試數量、題目數量與屬性數量之比五類自變量對修正方法的影響與以往研究一致,均勻分布下所有方法的修正效果最好,Q矩陣錯誤界定的比例越低、題目質量越高、被試數量越大、題目數量與屬性數量之比越大時所有方法的修正效果均越好。可能的原因是隨著這些條件變好后,題目參數與被試屬性掌握模式的估計都更加精確。由于目前的Q矩陣修正步驟均是先采用原始Q矩陣進行題目參數與被試屬性掌握模式的估計,再使用估計所得的題目參數與被試掌握模式計算如PVAF、R統計量等特征量,最后根據特征量對原始Q矩陣進行修正,因此保證題目參數與被試掌握模式的估計精度也很重要。上述五類自變量中任意變量的惡化都會降低精度,進而影響到Q矩陣的修正。
此外,本文還首次討論了Q矩陣中包含單位矩陣的數量對Q矩陣修正方法的影響。在以往研究中,通常會在Q矩陣中包含2個及以上的單位矩陣,然而這可能與真實測驗不符。在目前的認知診斷研究中,Q矩陣的編制仍然是理論嚴格、工作量大的困難任務,實際中使用的Q矩陣可能很難保證遵循包含2個以上單位矩陣的要求,如分數減法數據以及本文所使用的初級概率論數據。本研究表明,隨著單位矩陣數量的減少,所有修正方法的有效性均在降低,這同樣是因為單位矩陣數量的減少將會降低題目參數和被試掌握模式的估計精度,進而影響到Q矩陣修正,但是新方法更能適應單位矩陣數量不足的情況。
本研究比較的四種方法在修正表現上有所差異,綜合來看RF-R表現最好,RF-P與RF-L次之,但兩者均很接近RF-R,而Wald-XPD的表現最差。同時,模擬研究中表明新方法在各自變量條件惡化時有最強的適應能力,仍然保持著較高的準確率,然而Wald-XPD卻下降明顯,尤其在題目質量下降、人數減少、單位矩陣數量減少時。本研究認為這可能是由于Wald-XPD需要經過龐大且復雜的計算所致,當自變量條件惡化時會降低題目參數和被試掌握狀態的估計精度,而Wald-XPD在計算完整信息矩陣時需要使用這些參數進行大量的一階導數、乘法運算等,這不僅耗費大量時間,估計誤差也可能在這些運算中不斷累積。在劉彥樓與吳瓊瓊(2023)研究中,使用計算量較少的不完整信息矩陣的Wald-IC方法在題目質量較差時的表現略微優于Wald-XPD方法,正好支持了上述觀點。而在訓練完可用模型后,新方法只需要將提取的特征輸入模型并等待輸出分類結果,該過程非常迅速,也無需額外計算。
本研究所提出的RF-R方法在模擬與實證研究中均表現最好,未來仍有需要進一步研究的地方,如:(1)機器學習中還有許多高效算法,如支持向量機、前饋神經網絡等,而本研究只使用了隨機森林算法。因此,未來可考慮使用不同的機器學習算法。(2)本研究僅訓練了PVAF、對數似然值、改造后的R統計量等三類特征。然而還有其他的統計量,如R2(Nájera et al.,2021)。因此,未來可討論使用其他特征來訓練模型。(3)本研究用于訓練模型的數據集條件,是根據當前認知診斷領域中大部分的研究總結出來的范圍,較為寬泛,如被試人數服從U(200~2500)、題目質量服從P(1)~[0.6,1]且P(0)~U[0,0.4]。雖然這樣能夠增加隨機森林模型在不同條件的適用性,但可以考慮精細的訓練多個模型,以獲得在不同條件下更好的修正表現。(4)本研究訓練的模型只適用于修正二級計分情景下的Q矩陣,未來可考慮在多級計分情景下進行新方法開發。