吳瓊瓊,趙 悅,劉彥樓
(1.曲阜師范大學心理學院,濟寧 273165;2.曲阜師范大學教育大數據研究院,濟寧 273165)
經典心理測量理論和項目反應理論中通常采用單一的測驗分數來描述被試在某個階段的學習效果,作為新一代心理測量理論的認知診斷模型(cognitive diagnostic model,CDM)改變了這一傳統形式,這也是CDM近年來得到廣泛關注和飛速發展的重要原因。CDM采用現代統計方法和計算機技術,診斷被試的潛在屬性(例如認知結構、認知過程、知識、技能、策略、人格特質或心理障礙等),為教師提供及時的反饋,為個性化教學提供有效的干預和指導。目前,CDM已廣泛應用于心理、教育、精神病理學等領域(Sorrel et al.,2016)。
CDM的統計檢驗包括模型參數的標準誤(standard error,SE)估計、項目功能差異(differential item functioning,DIF)檢驗、項目水平模型比較、Q矩陣修正、屬性層級關系探索等5個重要的研究領域。信息矩陣的逆矩陣就是方差—協方差矩陣,方差—協方差矩陣在CDM的統計檢驗中具有基礎和核心的作用(von Davier &Haberman,2014)。方差—協方差矩陣能夠根據被試的作答反應數據估計模型參數,對方差—協方差矩陣對角元素取平方根可以獲得模型參數估計值的SE,用來描述模型參數估計值的不確定性(Philipp et al.,2018);方差—協方差矩陣可以構建Wald統計量進行項目功能差異檢驗(Liu et al.,2019;Ma et al.,2021)、項目水平模型比較(Liu et al.,2019;Ma &de la Torre,2019)、Q矩陣修正(汪大勛 等,2020;Ma &de la Torre,2020a)等。除此之外,研究者(姜宇,2020;Liu et al.,2021;Templin &Bradshaw,2014)指出方差—協方差矩陣可以探索屬性層級關系,進而指導教學過程,例如高一珠等(2017)基于屬性層級關系來探索學習進階過程。
十幾年來,針對信息矩陣(或方差—協方差矩陣)在CDM的統計檢驗中的作用,研究者開展了深入的研究,并提出了很多信息矩陣估計方法,主要包括:考慮全部項目參數的不完整信息矩陣(de la Torre,2009)、考慮單個項目參數的不完整信息矩陣(de la Torre,2011)、完整的經驗交叉相乘信息矩陣(empirical cross-product information matrix,XPD;劉彥樓 等,2016;Philipp et al.,2018)、完整的觀察信息矩陣(observed information matrix,Obs;劉彥樓 等,2016;Liu et al.,2021)、完整的三明治信息矩陣(sandwich-type information matrix,Sw;Liu,Xin et al.,2019;Liu et al.,2021)等。厘清這些方法的發展思路和脈絡、解析不同方法之間的聯系、優劣,評述不同方法在CDM統計檢驗中的表現,不僅能夠為研究者開發新的信息矩陣估計方法的提供思路,還能為實踐者探索信息矩陣的新應用提供依據。
基于此,文章從模型參數的SE估計、DIF檢驗、模型比較、Q矩陣修正以及屬性層級關系探索這5個CDM的主要研究領域出發,詳細評述了方差—協方差矩陣在統計檢驗中的作用,然后對現有的信息矩陣估計方法進行綜合分析,最后對已有研究存在的重要問題進行討論和展望。

(1)
以及
(2)

模型參數的SE估計的準確性影響著研究結果的準確性,研究者(Liu,Xin et al.,2019;Philipp et al.,2018)在不同模型設定條件下進行了研究,認為僅考慮項目參數的不完整信息矩陣會低估模型參數的SE,僅考慮單個項目參數的不完整信息矩陣會最大程度的低估模型參數的SE,完整信息矩陣計算的SE與不完整信息矩陣計算的SE相比,偏差較小。
DIF指的是來自不同組但具有相同屬性掌握模式的被試正確回答某個項目的概率不同(Hou et al.,2014)。例如,測驗中考察同一年級的男生和女生的閱讀能力,若呈現的是有關籃球的題目,男生可能會因為接觸籃球較多而表現出更高的水平,那么該項目對這兩個組來說是不公平的,即該項目存在DIF(魏丹 等,2020)。
采用方差—協方差矩陣構建 Wald 統計量用于DIF 檢驗的原理是:檢驗不同組被試對應的模型參數是否相同(王卓然 等,2014)。Hou等(2014)在DINA模型(the deterministic inputs,noisy “and” gate model)下,提出了使用Wald統計量來檢驗DIF:
(3)

采用Wald統計量進行DIF檢驗時,有較高的統計檢驗力,且能夠檢驗出一致性DIF和非一致性的DIF(王卓然 等,2014;Hou et al.,2020)。但是,在部分研究(王卓然等,2014;Hou et al.,2014;Hou et al.,2020)中,用于DIF檢驗的Wald統計量采用的是不完整信息矩陣,由于沒有考慮結構參數,存在一類錯誤控制率的膨脹。基于此,研究者(劉彥樓等,2016;Liu,Yin et al.,2019;Ma et al.,2021)采用模擬研究比較了基于完整和不完整信息矩陣構建的Wald統計量在檢驗DIF時的表現,發現完整信息矩陣構建的Wald統計量在檢驗DIF時,在一類錯誤控制率和統計檢驗力方面有更好的表現。
目前已經有100多種CDM,包括一般性的CDM和特殊的CDM,對一般性的CDM適當加以約束可以得到特殊CDM。雖然一般性的CDM能夠更好的擬合數據,但主要存在以下問題:首先,參數過多使模型難以解釋;其次,精確估計參數需要的樣本量大;最后,屬性分類準確性較低。而特殊模型在樣本量較小的時候能獲得較高的屬性分類準確性,所以在實踐中選擇模型—數據擬合良好的特殊模型是至關重要的。
De la Torre和Lee(2013)提出在G-DINA模型(the generalized DINA model)框架下,使用Wald統計量進行項目水平的模型選擇,原理是:可以在項目水平上檢驗所測量屬性數目大于1的項目,在對模型的整體擬合不造成顯著影響的前提下,將飽和CDM縮減為特殊CDM。其形式為:
(4)
其中,βj是項目j的項目參數極大似然估計向量。
Wald統計量不僅能夠識別出特殊模型,而且能提高分類準確性(Ma &de la Torre,2016)。但是,部分研究(de la Torre &Lee,2013;Ma &de la Torre,2016)構建的Wald統計量存在一類錯誤控制率的膨脹。采用完整信息矩陣構建Wald統計量用于項目水平模型比較時,Wald統計量表現出較為穩健的一類錯誤控制率和統計檢驗力(劉彥樓 等,2019;Liu,Andersson et al.,2019)。
Q矩陣反映了測驗的內部結構和內容設計,通常由領域專家根據經驗進行主觀界定,故原始Q矩陣中可能存在一些錯誤設定。Q矩陣錯誤設定會降低模型參數估計的準確性,產生較差的模型—數據擬合,并導致錯誤的屬性估計(Chiu,2013)。
Ma和de la Torre(2020a)在seq-GDINA模型(the sequentialGDINA model)中提出了Stepwise方法進行Q矩陣修正。Stepwise方法首先采用GDI方法(de la Torre &Chiu,2016)從單一屬性的q向量中確定第一個所需屬性,再逐步多次采用Wald統計量決定是否增加或刪除屬性來選擇正確的q向量。Wald統計量用于Q矩陣修正的原理是:假設項目j所對應的q向量定義了2個及以上的屬性,將某一屬性從q向量中移除而沒有導致模型—數據擬合變差,則這個屬性就不是必需的。Wald統計量的形式為:
Wald=[Rpj(αl)]′(RVjR′)-1[Rpj(αl)]
(5)
其中,pj(αl)表示擁有屬性掌握模式為αl的被試在項目j中正確作答概率的向量;Vj是項目正確作答概率的方差—協方差矩陣。
Ma和de la Torre(2019)認為,雖然基于完整信息矩陣的Wald統計量更加準確,但計算時難度較大,故Stepwise方法中構建的Wald統計量采用不完整信息矩陣求逆獲得的方差—協方差矩陣。但文章認為Stepwise方法在正確修正錯誤標定屬性方面表現較差可能是因為在Wald統計量的計算中采用了不完整的信息矩陣,故可以嘗試采用不同類型的完整信息矩陣構建Wald統計量用于Q矩陣修正,與Stepwise方法進行比較。
Stepwise方法用于Q矩陣修正一經提出,就引起了廣泛的關注。例如,汪大勛等(2020)將相對擬合指標引入seq-GDINA模型中,發現相對擬合指標和Stepwise方法在類別水平的多值計分模型中均有較好的Q矩陣修正效果。此外,研究者可以嘗試在更多情境下考察Wald統計量用于Q矩陣修正的表現,如屬性個數有誤時如何自動識別等,在多值計分認知診斷模型中開發更多新的Q矩陣修正方法與Stepwise方法進行比較也很有價值。
研究者(Leighton et al.,2004)認為,屬性可以以特定的形式形成層級結構,因為在心理與教育實踐中一些屬性需要建立在其他屬性的基礎上才能掌握。故準確識別CDM中屬性層級關系能夠使研究者深入地了解被試的心理過程,是成功進行認知診斷的關鍵。
在預先沒有確定屬性之間的層級關系的前提下,基于方差—協方差矩陣構建的z統計量可以用來探索屬性層級關系(姜宇,2020;Liu et al.,2021;Templin &Bradshaw,2014)。它的原理是:對每一個結構參數是否為0進行假設檢驗,確定哪些結構參數是不允許存在的,獲得可能的屬性掌握模式,達到對屬性掌握模式的內部結構進行判斷的目的。z統計量的形式為:
(6)
Liu等(2021)的研究表明z統計量與似然比檢驗(Templin &Bradshaw,2014)獲得的結果相似。即基于方差—協方差矩陣構建的z統計量在探索屬性層級關系中有較好的表現。但遺憾的是,目前關于z統計量探索屬性層級關系的研究較少,未來研究者可以嘗試在不同屬性層級下(例如,線型、金字塔型等),采用不同類型的信息矩陣考察z統計量在探索屬性層級關系中的表現。
CDM中,研究者(Liu et al.,2016;Philipp et al.,2018)指出CDM中同時存在兩種類型的參數:項目參數和結構參數。結構參數指的是被試總體的潛在屬性掌握模式分布狀況。例如,測驗中共有2個屬性K=2,那么所有可能的屬性掌握模式有4種,即:
(7)
在這個測驗中被試所有可能的屬性掌握模式(αl)有L=4種;p(αl)為被試總體中擁有第l種屬性掌握模式αl的分布比例,例如p(α1)是被試總體中具有第1種屬性掌握模式α1=(0,0)′的分布比例。
結構參數的表達形式有兩種:第一種是Liu等人(2016)將CDM中的結構模型(即用于描述被試所有可能的屬性掌握模式分布的模型)表達為:
(8)
上式中,p(αl|η)表示從總體中隨機抽取的一個被試擁有第l種屬性掌握模式的概率,η=(η1,…,ηL)′。因為全部的屬性掌握模式概率之和為1,將最后一個屬性掌握模式對應的參數約束為ηL=0。
第二種是Philipp等(2018)直接使用結構參數π表示被試在各個屬性掌握模式上的分布比例,并用向量π=(π1,…,πL)′表示:
πl=p(αl)
(9)
根據信息矩陣是否考慮結構參數、以及結構參數表達形式的不同,可以將其分為不同的類型。
De la Torre(2009)最先提出了CDM中關于全部項目參數估計值的信息矩陣估計方法ID09:
(10)

De la Torre(2011)提出僅考慮了單個項目參數的信息矩陣估計方法ID11:
(11)
其中,βj是第j個項目的項目參數向量。由于ID11僅考慮了單個項目參數,所以是ID09的子矩陣。
3.3.1 期望信息矩陣
以公式中結構參數η的表達式為基礎,Liu等人(2016)提出了CDM中最為基礎的信息矩陣——期望(費舍)信息矩陣IE:
(12)
需要指出的是,盡管期望信息矩陣是度量模型參數估計值準確性的“黃金法則”(Tian et al.,2013),但IE僅具有理論上的價值。首先,期望信息矩陣IE需要求出關于被試i作答反應的期望,即計算所有可能的作答反應模式,但它會隨著項目數量的增多而呈現指數增長,項目量較大條件下無法計算。其次,IE需要通過模型參數真值計算;然而,在實踐中模型參數的真值是未知的。故實踐中使用觀察到的全部被試的作答反應矩陣取代對單個被試的作答反應求期望;使用模型參數的極大似然估計值取代模型參數的真值。
3.3.2 經驗交叉相乘信息矩陣
劉彥樓等(2016)最早提出了同時考慮項目參數β和結構參數η的正確信息矩陣估計方法。他們在期望信息矩陣IE的基礎上提出基于全部模型參數估計值及被試作答反應矩陣的信息矩陣估計方法IXPD-η:
(13)
IXPD-η是通過觀察數據對數似然函數關于模型參數一階導向量交叉相乘而獲得,故稱作經驗交叉相乘信息矩陣。
Philipp等(2018)同樣認為應該將項目參數β和結構參數π均包含在信息矩陣中。為從理論上證明僅包含單個或全部項目參數的信息矩陣會低估模型參數的SE,他們將XPD信息矩陣IXPD-π表達為以下4個部分的組合:
(14)
其中,Iβ,β是僅包含全部項目參數的信息矩陣,等價于de la Torre(2009)提出的信息矩陣估計方法ID09。結合公式可以發現,結構參數π構建的XPD矩陣能夠以屬性掌握模式分布比例的形式直接給出結構參數SE的估計值,便于后續進行統計檢驗(Liu et al.,2021)。
3.3.3 觀察信息矩陣
劉彥樓等人(2016)也同時提出了觀察信息矩陣IObs-η:
(15)
IObs-η是通過負的觀察數據對數似然函數關于模型參數二階偏導數而計算的。
3.3.4 三明治信息矩陣
Liu,Xin等(2019)在Liu等(2016)提出期望信息矩陣IE以及劉彥樓等(2016)提出的經驗交叉相乘信息矩陣IXPD-η以及觀察信息矩陣IObs-η的基礎上,對于信息矩陣的估計理論及具體實現方法進行了研究,并且提出了新的信息矩陣估計方法,即三明治信息矩陣ISw-η:
(16)
ISw-η中間是IXPD-η,兩邊是IObs-η,其形狀類似三明治。
特別地,IXPD-η、IObs-η和ISw-η信息矩陣的主要不足在于采用了公式中結構參數η表達式,無法以屬性掌握模式分布比例的形式直接計算SE的估計值。因此,Liu等(2021)以結構參數π的表達替代了結構參數η的表達式,提出了改進的Obs和Sw矩陣,分別記作IObs-π和ISw-π:
(17)
以及
(18)
不完整信息矩陣僅考慮項目參數,是完整信息矩陣的子矩陣(Philipp et al.,2018),計算量較小,在后續研究中運算速度較快。但是,由于沒有考慮結構參數,求逆獲得方差—協方差矩陣時會造成較大的誤差,在模型參數的SE估計、DIF檢驗、模型比較、Q矩陣修正的研究中存在不夠準確的問題。故不推薦研究者使用不完整信息矩陣。
期望信息矩陣IE基于模型參數真值,在實踐中真值往往是未知的,計算量隨著項目數量呈指數增長,在項目數較大時難以計算,所以說,IE僅具有理論上的價值。XPD矩陣的優勢在于計算簡單、省時,僅需通過計算一階導數就可以獲得,但在模型錯誤設定時,可能會存在準確性較低的問題。與XPD矩陣相比,Obs及Sw矩陣(IObs-η、ISw-η)用于統計檢驗時在大多數情況下具有更好的表現,但是Obs矩陣以及Sw矩陣涉及觀察數據的對數似然函數關于所有模型參數的二階偏導,公式推導復雜繁瑣。需要指出的是,由于測驗情境較為復雜,這三種方法各有優勢。例如,劉彥樓等(2019)在Q矩陣錯誤設定的背景下研究模型選擇時,認為當模型擬合良好或錯誤設定較多時推薦使用ISw-η,當Q矩陣中可能存在錯誤設定且樣本量大于500時推薦使用IXPD-η。因此,實踐者在選擇不同的信息矩陣時要結合測驗情境以及可能面臨的現實問題。改進的Obs及Sw矩陣(IObs-π、ISw-π),可以同時獲得項目參數的SE和以屬性掌握模式分布為直接表達式的結構參數的SE,但它們的缺點也是計算量較大,用于后續統計檢驗時耗時較長。如何提高這兩種信息矩陣的計算速度,值得研究者們進一步探討。

表1 CDM中信息矩陣估計方法綜合比較
文章評述了方差—協方差矩陣在CDM的5種重要的統計檢驗中的作用,梳理了以往研究者提出的信息矩陣估計方法的發展思路和脈絡。縱觀國內外研究,方差—協方差矩陣的理論和實踐探索已經比較豐富,但仍有一些地方需要進一步完善,未來的研究方向主要集中在以下幾個方面。
DeCarlo(2019)認為信息矩陣的完整表達形式會受到邊界值問題的影響并提出采用PME(posterior mode estimation)算法解決這一問題。PME算法下的各種信息矩陣估計獲得的方差—協方差矩陣的表現值得研究者們進一步探討。Philipp等(2018)認為在logit鏈接下,極大似然估計值更加漸進模型真值。因此,今后可以嘗試基于不同模型、不同算法、不同鏈接函數探索影響信息矩陣估計方法準確性的因素。目前大多數研究中方差—協方差矩陣是通過對信息矩陣求逆獲得的,在一定程度上來說,計算較為復雜,不容易理解。故可以嘗試將其他潛在的方法應用到CDM的研究中,例如Oakes方法(Chalmers,2018)、數值微分法(Tian et al.,2013)、Jackknife方法(Wainer &Wright,1980)、補充的EM 算法(supplemented expectation maximization,SEM;Cai,2008)等。
方差—協方差矩陣在CDM統計檢驗方法開發中的潛力仍有待進一步開發。下面以三個簡單的具體例子進行說明:(1)研究者使用提出方差—協方差矩陣計算結構參數的SE,并以此構建z統計量用于探索屬性層級關系(Liu et al.,2021);同理,當獲得所有項目參數的SE后,也可以使用關于項目參數的z統計量對其顯著性進行檢驗,以此達到CDM的參數水平上模型選擇的目的。(2)Wald統計量用于DIF以及模型比較的表現還依賴于模型(王卓然等,2014),研究者們也開發了很多能用于多級計分的CDM,如P-DINA模型(涂冬波 等,2010)等,在多級計分模型中考察不同類型的信息矩陣構建的Wald 統計量在DIF 檢驗和項目水平模型比較中的表現也很有意義。(3)在Q矩陣估計或修正方法中,以往研究者在構建Wald統計量時使用的大多是不完整的信息矩陣(ID09或ID11)計算的方差—協方差矩陣;研究發現完整信息矩陣的表現優于不完整信息矩陣。基于此,可以使用IXPD-π、IObs-π及ISw-π矩陣構建Wald統計量用于Q矩陣估計或修正。基于這類新的Wald統計量用于Q矩陣估計或者修正的表現有很大可能會優于使用不完整信息矩陣構建的Wald統計量。
在心理統計與測量模型中,點估計值相同的兩個模型參數可能由于SE和CI的不同而具有不同的估計精度。但在CDM的研究中報告SE及CI的研究仍然較少。部分原因在于缺乏簡便易用的估計軟件。舉例而言,當前在R語言中有三個軟件包可以輸出SE:CDM軟件包(George et al.,2016;Robitzsch &George,2019)、GDINA軟件包(Ma &de la Torre,2020b)以及dcminfo軟件包(Liu &Xin,2017)。但在這三個軟件包中,CDM軟件包輸出的SE是用不完整信息矩陣估計的,是錯誤的;dcminfo軟件包可以輸出IXPD-η、IObs-η、ISw-η計算的SE,但是其結構參數采用的是公式的表達式,無法直接輸出屬性掌握模式分布的SE;GDINA軟件包可以輸出不完整信息矩陣的SE,也可以輸出使用IXPD-π計算且采用公式的結構參數,但是并沒有包含Obs及Sw矩陣。因此,就目前而言,推薦使用dcminfo軟件包中的IObs-η和ISw-η估計項目參數的SE,使用GDINA軟件包中的IXPD-π估計結構參數的SE。所以,結合R軟件更好的估計CDM模型參數的SE和CI具有重要的實踐意義。例如,劉彥樓(2022)開發出并行自助法用于估計CDM中模型參數的SE及CI。