付志慧,劉羅曼,孟祥斌
(1.沈陽師范大學數學與系統科學學院,遼寧 沈陽 110034;2.東北師范大學數學與統計學院,吉林 長春 130024;3.東北師范大學教育學部,吉林 長春 130024)
相依項目反應數據的Copula建模法
付志慧1,2,劉羅曼1,孟祥斌3
(1.沈陽師范大學數學與系統科學學院,遼寧 沈陽 110034;2.東北師范大學數學與統計學院,吉林 長春 130024;3.東北師范大學教育學部,吉林 長春 130024)
與經典教育測量方法相比,基于項目反應理論(IRT)的教育統計與心理測量技術呈現出愈來愈多的優勢.將Copula方法引入到IRT中來分析相依反應數據,對題目的邊際反應概率和題目反應間的相依結構分別建模,更好地解決了項目局部相依性問題.
項目反應模型;局部相依性;Copula函數
項目反應理論(Item Response Theory,IRT)的核心是根據被試能力與被試者對測驗項目正確回答概率之間的關系建模,最常見的二級評分模型為Logistic(2PL)模型和正態卵形模型.標準的IRT模型一般建立在局部獨立性假設之下,而局部獨立性是指給定被試能力,同一被試在不同項目間的作答相互獨立(被試在不同題上答對概率只與被試能力有關,而與其他因素無關).[1-2]以二參數Logistic模型為例,假設被試p對項目i的反應數據為ypi,取值為0或1,則二值變量Ypi取值為ypi的概率為
其中θp為被試的能力參數,αi與βi分別為題目的區分度參數和難度參數.將Ypi轉換為連續潛在變量Xpi,其中Xpi服從尺度參數為1、位置參數為αi(θp-βi)的Logistic分布,[7]即
Xpi=αi(θp-βi)+pi.
(1)
令Yp為被試p在I個題目上的反應向量,則由局部獨立性假設有

局部獨立性假設在實際中有時難以滿足.例如,當測驗中有些項目共用同一材料或刺激(閱讀短文、圖、表等)時,這些項目集稱為題組,顯然當測驗存在題組(多個項目共用同一刺激)時,同一題組內的項目間難以滿足局部獨立性假設.若此時仍用標準的IRT模型,會使參數的估計值有較大的誤差.[3-5]在我國的考試與測評中,許多測驗或量表中均有題組類型的項目,如漢語考試和外語考試中的閱讀理解題、完形填空題、聽力短文理解題,人才測評中的情景判斷測驗題以及數學試卷中的計算題等,同一題目中的不同子問題之間都是具有相關性的.因此在實際測驗問題中,如何合理的對題組項目反應數據建模成為關鍵問題.目前有一種解決方案是建立包含交互效應的模型(CCI方法)[6],簡單起見,取區分度參數αi=1,則有
反應變量Yp1和Yp2之間的相關性通過參數λ來表達.當λ=0時,上述模型退化為局部獨立性模型,利用聯合反應概率,可求得項目1的邊際反應概率為
易見當λ≠0,即題目1與2之間存在相關性時,題目1的邊際反應概率不再是2PL模型(1),邊際分布函數也不再是Logistic函數.因此CCI方法的局限性在于邊的不可復制性,此時β失去了原有模型中作為位置參數的解釋意義,題目1的邊際反應概率還要依賴于題目2的參數β2以及參數λ.其他的一些方法如題組反應模型法[8]和條件模型法[9]也會出現上述問題.
本文采用Copula方法.Copula理論要追溯到1959年,Sklar指出可以將一個K維聯合分布分解成K個邊緣分布和一個Copula函數,這個Copula函數描述了變量間的相關性.此方法對于邊際反應概率和相依結構進行分別建模,克服了邊際反應模型不可復制的問題.
定義[10]N元Copula函數是指具有如下性質的函數:
(1) 定義域為IN,即[0,1]N;
(2)C(·,…,·)有零基面且是N維遞增的;
(3)C的邊緣分布Cn(un),n=1,2,…,N,滿足Cn(un)=C(1,…,1,un,1,…,1)=un,其中un∈[0,1],n=1,2,…,N.
顯然,若F1(·),F2(·),…,FN(·)是連續的一元分布函數,令un=Fn(xn),n=1,2,…,N,則C(u1,u2,…,uN)是一個邊緣分布服從[0,1]均勻分布的多元分布函數.其具有以下性質:
(Ⅰ) ?un,vn∈[0,1],n=1,2,…,N,均有
(Ⅱ)
(Ⅲ) 若變量un∈[0,1](n=1,2,…,N)相互獨立,用C⊥表示獨立變量的Copula函數,則
(Ⅳ) ?a,b∈[0,1]N,?n=1,2,…,N,an B=[a,b]=[a1,b1]×[a2,b2]×…×[aN,bN], Skalar定理 設F(·,…,·)為具有邊緣分布F1(·),F2(·),…,FN(·)的聯合分布函數,且存在一個Copula函數C(·,…,·),滿足 F(x1,x2,…,xN)=C(F1(x1),F2(x2),…,FN(xN)). 若F1(·),F2(·),…,FN(·)連續,則C唯一確定;若F1(·),F2(·),…,FN(·)為一元分布,C為相應的Copula函數,則F(·,…,·)是具有邊緣分布F1(·),F2(·),…,FN(·)的聯合分布函數. 本文采用阿基米德Copula分布函數[11-12],其表達式為 C(u1,u2,…,uN)=φ-1(φ(u1)+φ(u2)+…+φ(uN)). 其中:函數φ(·)為阿基米德Copula函數C(·,…,·)的生成元,是一個凸的減函數;φ-1(·)是生成元φ(·)的逆函數,在[0,∞)區間完全單調.下面給出兩個比較重要的阿基米德Copula函數. Frank Copula函數: 當N=2時,δ≠0.若δ→-∞,則C→C-;若δ→0,則C→C⊥;若δ→+∞,則C→C+. Cook-Johnson Copula函數: 其中δ>0.若δ→0,則C→C⊥;若δ→+∞,則C→C+. 假定Ypi為被試p對題目i的取值為0或1的二值反應變量,假定被試能力為θp,題目區分度參數和難度參數為αi,βi.定義連續型潛在變量Xpi,且Xpi=αi(θp-βi)+pi,反應變量Ypi和潛變量Xpi滿足 Ypi=I(Xpi>0)=I(pi>-αi(θp-βi)). 根據不同的測驗背景,假定將{1,2,…,I}分割為S個不交的子集J1,…,JS,其中Js中有Is個題目.類似地誤差向量p也分為S塊其中pi,i∈Js),不同子集的殘差分量是相互獨立的,同一子集內部的殘差項假定是可交換的. 被試p的反應向量Yp的分布為 具體地,假定I=2,Js=1,2,則反應向量(Yp1,Yp2)取值為(0,0)的概率為 由最后一個等式可見,Copula函數將離散型反應向量(Yp1,Yp2)的聯合分布轉換為連續型向量(Xp1,Xp2)的分布.(Yp1,Yp2)取其他值的概率為: P(Yp1=1,Yp2=1|θp)=1-FXp1|θp(0|θp)-FXp2|θp(0|θp)+Cs(FXp1|θp(0|θp),FXp2|θp(0|θp)); P(Yp1=1,Yp2=0|θp)=FXp2|θp(0|θp)-Cs(FXp1|θp(0|θp),FXp2|θp(0|θp)); P(Yp1=0,Yp2=1|θp)=FXp1|θp(0|θp)-Cs(FXp1|θp(0|θp),FXp2|θp(0|θp)). 為展示Copula的引入對反應相依模型的擬合效果,給出計算題目1和題目2在給定能力θp下的條件優勢比(odds ratio)指標 其中C=C(FXp1|θp(0|θp),FXp2|θp(0|θp)).簡單起見,取項目參數α1=α2=1,β1=β2=0,從而對數優勢比可以看作關于δ和θ的函數,此時Frank Copula和Cook-Johnson Copula模型的對數優勢比見圖1.由圖1可見,優勢比隨著δ的增加而增加,即Copula相依參數δ可以度量題目反應的相依性.另外,固定δ時,OR值也依賴于θ的取值:Frank Copula模型反映出的兩個題目的相依性比較穩定,從圖形上看就是OR值趨于平穩,在δ取極端較大值或較小值時,OR關于θ取值對稱;相反,Cook-Johnson Copula模型的OR值隨著θ的增加而增加.兩種Copula函數體現的相依結構截然不同. (a) Frank Copula模型對數優勢比 (b) Cook-Johnson Copula模型對數優勢比> 采用邊際最大似然法(MML)來估計2PL Copula模型.[7,13]似然函數為 其中φ(θp|σ2)為參數θp的正態分布密度函數(θp~N(0,σ2)).一般將上式取對數,然后采用擬牛頓法求解,其中關于θp的積分需要Gauss-Hermite象限積分法近似. 假定1 000人參加共10個題目的英語閱讀理解測驗,反應值為0或1.那么針對短文同一部分的幾個問題的反應很有可能具有相關性.首先對數據進行探索性分析,運用Mantel-Haenszel(MH)統計量法[14]檢驗題目之間的相關性.MH計算兩題目反應間的優勢比是否關于θ是恒定的,MH值越大,題目間的相關性越強.基于MH統計量的相關矩陣見圖2,聚類圖見圖3.易見,題目{4,5}的相關值為8.63,題目{6,7},{6,8},{7,8}之間的相關值分別為10.15,8.40,7.45,再結合聚類圖,將{4,5}和{6,7,8}分別歸為一類.綜上,對反應數據分別采用兩種方法建模. 01.48472.41921.369701.809500.451890-0.21871-1.44580-0.2280800.577350001.18361.295700.955480.021093-1.99520-0.821210.306280-0.0455190000.941611.54790-1.125900-1.32040-2.32900-0.4330500.05447200008.62870-2.976300-3.41120-2.58670-0.0229430.18785000000-2.003400-2.98880-3.596901.967000-1.32080000000010.152708.40470-3.787900-3.26310000000007.44790-1.650900-2.70600000000000-0.408510-0.3298600000000002.1693000000000000?è????????????÷÷÷÷÷÷÷÷÷÷ 圖2 題目間基于MH的相關矩陣 圖3 題目聚類圖 第一種模型,假定局部獨立性仍然成立,即 其中條件反應概率為2PL模型 第二種模型,采用Copula函數建模,分別求出J1={4,5}和J2={6,7,8}的聯合反應概率,各個題目的邊際反應概率仍采用2PL模型.對于J1和J2分別采用Frank Copula和Cook-Johnson Copula,條件似然函數為 表1 2PL模型和2PL Copula模型的參數估計 [1] ALLEN M J,YEN W M.Introduction to measurement theory[M].LongGrove:Waveland Press,2002:25-150. [2] BAKER F B,KIM S H.Item response theory:parameter estimation techniques[M].New York:Marcel Dekker,2004:56-93. [3] IP E H.Adjusting for information inflation due to local dependence in moderately large item clusters[J].Psychometrika,2000,65:73-91. [4] IP E H.Testing for local dependence in dichotomous and polutomous item response models[J].Psychometrika,2001,66:109-132. [5] IP E H.Locally dependent latent trait model and the Dutch identity revisited[J].Psychometrika,2002,67:367-386. [6] HOSKENS M,DE BOECK P.A parametric model for local dependencies among test items[J].Psychological Methods,1997,2(3):261-277. [7] DE BOECK P,WILSON M.Explanatory item response models:a generalized linear and nonlinear approach[M].New York:Springer,2004:36-90. [8] BRADLOW E T,WAINER H,WANG X.A Bayesian random effects model for testlets[J].Psychometrika,1999,64:153-168. [9] VERHELST N D,GLAS C A W.A dynamic generalization of the Rasch model[J].Psychometrika,1993,58:395-415. [10] NELSEN R B.An introduction to Copulas[M].New York:Springer,1999:15-50. [11] JOE H.Parametric families of multivariate distributions with given margins[J].Journal of Multivariate Analysis,1993,46:262-282. [12] JOE H.Multivariate models and dependence concepts[M].London:Chapman & Hall,1997:54-98. [13] 徐俊彥,苗壯,劉慶懷.解多項式雙層規劃最優解的參數化方法 [J].東北師大學報(自然科學版),2015,47(3):9-11. [14] MANTEL N,HAENSZEL W.Statistical aspects of the analysis of data from retrospective studies of disease[J].Journal of National Cancer Institute,1959,22:719-748. [15] LITTLE R J A,RUBIN D B.Statistical analysis with missing data[M].2nd ed.New York:John Wiley & Sons,2004:22-44. (責任編輯:李亞軍) A Copula model for residual dependency in item response model FU Zhi-hui1,2,LIU Luo-man1,MENG Xiang-bin3 (1.School of Mathematics and System Science,Shenyang Normal University,Shenyang 110034,China;2.School of Mathematics and Statistics,Northeast Normal University,Changchun 130024,China;3.Faculty of Education,Northeast Normal University,Changchun 130024,China) In educational and psychological measurement,most item response theory models are not robust to violations of local independence.A new class of models that makes use of Copulas to deal with local item dependencies is introduced.These models belong to the bigger class of marginal models in which marginal and association structure are modeled separately.It is shown how this approach overcomes some of the problems associated with other local item dependency models. item response model;local item dependency;Copula function 1000-1832(2017)02-0041-06 10.16163/j.cnki.22-1123/n.2017.02.009 2015-12-07 國家自然科學基金資助項目(11201313,11571069,11501094,31400897). 付志慧(1979—),女,博士,副教授,主要從事數理統計研究. O 212.1 [學科代碼] 110·6735 A
2 相依反應數據的Copula模型





3 算例




4 討論