曹 尚 曹榮祥 孫昕鍴 郭海建 李小寧 徐 勤△
項目反應理論在居民健康素養標準參照測驗中的應用研究*
曹 尚1曹榮祥1孫昕鍴2郭海建3李小寧3徐 勤1△
目的 運用項目反應理論(IRT)對居民健康素養調查問卷的條目進行測評,探討基于信息函數建立居民健康素養標準參照測驗并評價項目性能。方法 以1000例健康素養調查樣本為例,利用單維三參數logistic模型(3PLM)擬合樣本,估計項目參數與信息函數,以掌握水平比例的能力水平作為決策點(測驗劃界分數)。結果 問卷73個項目的三參數logistic模型擬合優度98.6%,難度在-4.27~4.23,區分度在0.32~1.58,猜測度在0.009~0.5,測驗在能力水平為-0.13時獲得最大信息量與最小測量誤差,對應的掌握比例為0.62(劃界分數)。結論 IRT在問卷的測評編制中能深刻而合邏輯地分析每個測驗項目與整個測驗間的定量關系,2013版《江蘇省居民健康素養調查問卷》在中低能力水平的被試中具有較高測量精度。
項目反應理論 健康素養 信息函數 標準參照測驗
項目反應理論(IRT)是在克服經典測量理論的局限上發展起來的一種現代心理與教育測量理論,IRT以被試在項目上的作答概率為依據,應用概率模型分析被試潛在特質(能力水平)與其測驗項目反應之間的關系,優勢在于將被試的能力參數與項目難度參數定義在同一等距量尺上,估算出不依賴于項目樣本與被試樣本的能力值和項目參數[1-2],使得在測驗編制中可以有針對性地選擇適合被試能力水平的項目,同時用信息量代替了信度的概念,實現了對被試特質水平估計誤差的主動控制。IRT在指導測驗編制中的優異性使得其已成為發達國家的主流測量理論。
健康素養是公共衛生的重要組成部分,如何建立合理全面的居民健康素養評估體系是全球共同關注的熱點課題[3-4]。我國的健康素養實踐正處于起步階段,本研究運用IRT對2013版《江蘇省居民健康素養調查問卷》[5-6]進行測評,為今后中國居民健康素養評價量表的構建提供實踐依據。
1.項目反應理論的基本假設
IRT有3個基本假設:潛在特質的單維性,指測驗僅測試被試的一項特質(知識、技能、人格等)。事實上該假設不可能完全實現,因為總有一些認知的、人格的影響測驗表現,只要有一個主導因素即可;局部獨立性假設,指同一被試(或同一水平被試)在任一項目上的作答反應不會受到同一測試上其他項目的影響,同一項目上的不同被試(或不同水平被試)的作答反應不會相互影響;項目特征曲線假設,被試對項目的正確反應概率與其項目所對應的特質或能力水平之間的關系可以用一個關于能力單調上升的函數來表示。
2.項目反應理論模型
現假定為第j個個體(j=1,2,…,n)的作答情況,答題結果在兩分類(正確與錯誤)的情形下,根據參數個數設定的不同,分為單參數模型、雙參數模型、三參數模型三種IRT概率模型[7-9]。

式中bi為項目的難度參數,θj是被試潛在特質(能力)參數,代表個體能力,范圍[-∞,+∞]。P(yij=1|θj)表示能力θj的個體對項目正確作答的條件概率,取值在[0,1]。

(2)(3)式中D=1.702,ai與bi分別為項目的區分度參數與難度參數,ci為猜測概率參數。區分度參數ai越大,表示項目對不同潛在特質水平θ的被試有越高的區分能力;難度參數bi越大,表示被試選擇這個選項需要的能力就越大;猜測參數越大,表明被試通過猜測答對的概率越大,反之亦然。
3.項目反應理論參數估計
在假定局部獨立性的條件下,對于第j個個體,項目聯合密度函數為:

似然比函數為:

現在常用的參數估計方法包括條件極大似然估計、聯合極大似然估計、邊際極大似然估計與EM算法等[10]。
4.信息函數:IRT把項目在評價被試能力水平時貢獻的信息量定義為信息函數,對于第i條項目,能力為θ的被試,其信息函數為:

三參數模型的信息函數公式即為:

信息函數將項目的難度、區分度、猜測度合而為一,反映出各個項目對不同能力水平被試者所能提供的信息量。由于每個項目可以單獨對問卷的信息作貢獻,貢獻量大小不受問卷其他項目的影響,所以測驗信同時,由θ取值分布的漸近正態性決定,測量信息函數與測量標準誤存在如下關系:SE(θ)信息量越大,測量標準誤越小,其測量精度也越高[7-9]。
5.項目反應理論下的決策點(劃界分數)
IRT證明當一個測驗(試卷)能恰當代表某一特質領域時,被試在該領域掌握百分比π就是他在該題庫全部項目上期望分數的平均數[7-9],即:

3PLM下的決策點(劃界分數)表達式即為:

因為所有項目的參數都是確定值,所以π與θ存在一一對應關系。當確定各項目的參數,按需要確定某一掌握百分比π0作為劃界分數,就可以推算出對應的θ0值,即確定其在特質連續體上的具體位置[7-9,11-12]。
資料來源于2013年江蘇省開展的健康素養專項調查研究。調查對象為境內15~69歲的常住居民,包括在監測范圍內居住或寄宿達6個月以上的外來人口。長期在外工作、學習的家庭成員,如果在外時間超過6個月,則不納入調查范圍。共調查13000余人。調查使用問卷為2013版《江蘇省居民健康素養調查問卷》,包含判斷題15題、單項選擇題40題、多項選擇題18題以及情景閱讀題7題(以0-1形式計分),合計80題。隨機抽取男女各500份有效問卷作為本次實驗樣本,平均年齡(49.9±12.5)歲,99%以上的受試者是漢族。
本次研究資料屬0-1評分,測試包含判斷題,無法排除猜測行為的發生,故選用IRT模型中的單維三參數logistic模型(3PLM),情景閱讀題7題答題結果之間存在相關(p<0.05),不滿足局部獨立性假設,故不在本次研究范圍內,其余73題進行的因子分析顯示第一特征根與第二特征根比值為3.78(10.124/2.678),單維性假設成立[1-2]。
利用BILOG-MG3.0軟件進行參數估計與模型擬合(采用邊際極大似然估計算法),采用MATLAB自編程序進行劃界分數的計算(采用牛頓迭代算法),并根據參數結果編寫了excel宏指令進行作圖。
1.IRT項目參數估計結果
從χ2估計擬合情況來看,有 15個項目(A03、A08、A10、B14、B16、B17、B20、B27、B29、B34、B38、B40、C06、C07、C12)的 P值小于 0.05,χ2檢驗拒絕了該模型,說明這15個項目的擬合度較差,考慮到樣本量較大,從校正卡方值(Chi/df)觀察,只有1個項目(B40)仍大于5,說明該項目與模型擬合度確實較差,其余11個項目尚可,3PLM模型擬合優度98.6%(72/73)。73個項目的區分度范圍為[0.32,1.58],難度范圍為[-4.27,4.23],猜測度范圍為[0.009,0.5]。項目的區分度、難度、猜測度的取值尚無固定標準,但有一些普遍采用的原則,一般認為如果ai<0.3,則認為項目的區分度過小,應在0.4以上為宜;bi>3.0或bi<-3.0,則認為項目過難或過易;ci>0.4,則認為項目的猜測度過大[13]。難度不在區間[-3.00,3.00]的條目有7個,猜測度大于0.4的條目有3個,詳見表1。

表1 項目參數及信息函數結果
2.信息函數
整個測驗信息函數的峰值為15.75,在潛在能力參數值為-0.13時實現,各項目在能力參數值為-0.13時提供的信息量范圍為0~0.93。73個項目的最大信息量范圍在0.04~0.98,對應的能力值范圍-3.90~4.23。通常,測量標準誤在能力分布集中的區域應當控制在0.4以內,即測量在這段能力值范圍內的信息量應至少達到 6.25(1/(0.4)2)[1]。本次研究測試者的能力值基本分布在-1.5~1.5,集中了90%(899/1000)的受試者,整個測驗在能力值區間-1.5~1.5的信息量均超過6.25,同時超過70%(53/73)的測驗項目在這段能力區間產生了最大信息量,詳見表1、圖1。可見,現有測驗的測量誤差基本滿足精度要求,但信息函數結果表明各項目普遍在中偏低的能力水平區間貢獻出較高的信息量,說明該測驗在面對中等偏低健康素養能力水平的被試時具有較高的測量精度。
3.標準參照測驗
標準參照測驗編制不同于常模參照測驗,其核心是要在劃界分數(cut-off score)做出決斷,從而對被試有最強鑒別力[1-2],即要求測驗在決策點有最大信息量和最小測量標準誤。信息函數表明問卷在測試能力水平θ=-0.3處取得最大信息量,帶入公式(9),通過迭代計算得掌握比例π=0.62,說明以此作為合格標準測驗將最為高效。實際應用中通常以掌握比例60%,即π0=0.6作為劃界分數,若以此為標準,本次測驗掌握比例60%對應的被試能力值為θ0=-0.26,測驗信息量為 15.64,測驗估計標準誤 SE(θ0)=0.25,提示命題者應降低整體測驗難度,提高測量精度[1-2],使測驗在劃界分數π0=0.6處達到最大信息量,從本測驗信息函數曲線圖(圖1)來看,應使曲線高峰向左移,并增大高度。

圖1 測驗信息函數圖
通常認為整體測驗標準誤小于0.20時,測驗信息量在劃界點處大于25,這樣測驗才能精確地區分合格與不合格被試,可認為質量良好;測驗信息量在16~25的項目可認為質量一般,需要修改,測驗信息量低于16的項目則可能需要重擬[11-12]。以掌握比例60%作為劃界分數為例,按上述要求就可建立項目優劣分類標準,見表2。對于需修改的項目,可調整難度與增強區分力,以提高項目信息量。如圖3,從項目B17的信息曲線可知,該項目在測驗掌握比例0.6(即能力水平是-0.26)時的信息量較小(0.25),但在能力水平為0.57時項目信息量達到最大(IM=0.37),因此,若能把項目難度降低到-0.26左右時,該項目的質量將會得到改善,圖4項目B24與B17的情形則相反;圖5項目C14的信息量較小且難度跟劃界點的差距大(IM=0.23在能力水平-0.74時產生),說明如要改進此項目的質量需要提高難度,同時加大項目的區分度。

表2 測驗項目質量分析

表3 測驗需修改項目的建議
由表2可知,16個良好項目雖然只占測驗項目總數的24.92%,卻提供了58.50%的測驗信息量,良好項目ICC的普遍特征為難度適中,猜測度較小,區分度較大,見圖2;與此相對的是48道需重擬項目,占測驗項目的65.75%,只提供了25.54%的測驗信息量。因此,測驗只要多選用良好項目,完全可以在較少項目數的條件下獲得滿意的信息量,在提高測驗效率的同時更加精確地區分合格與不合格被試。

圖2 質量良好的項目特征曲線圖

圖3 B17項目信息函數曲線圖

圖4 B24項目信息函數曲線圖

圖5 C14項目信息函數曲線圖
本次研究運用IRT分析2013版《江蘇省居民健康素養調查問卷》,以信息函數代替了信度概念,通過建立被試潛在特質與對項目的反應之間的數量關系,在獲得穩健項目性能參數的同時,實現了對測量誤差的主動控制。
IRT克服了經典測量理論(CTT)難度與劃界分數定義在兩個不同全域上的理論缺陷[12](CTT真分數理論框架中難度定義在某一測試組上的通過率,建立在被試的全域上;劃界分數定義在某一項目組上的通過率,建立在測驗項目的全域上,二者其實是兩個互無關聯的度量域[2,7-9]),通過將被試的能力水平參數與項目難度參數定義在同一等距量尺上[1,7-8],真正體現了難度就是對被試能力水平而言所顯現的困難程度,清晰而準確地反映出項目統計量跟劃界分數間的邏輯聯系。在已掌握比例為劃界分數的標準化測驗中,將可以直接考察測驗是否準確把握住了合格標準,并可以根據結果對項目性能進行直觀的偏離評估,優劣判斷,進而從項目參數的角度出發進行高效明確地調整[2,14-15]。本次研究說明IRT理論在健康素養的量化研究中是可行的,為今后中國健康素養評估體系的建立提供了實踐依據。
[1]余嘉元.項目反應理論及其應用.南京:江蘇教育出版社,1992.
[2]漆書青.現代教育與心理測量學原理.北京:高等教育出版社,2002.
[3]World Health Organization.Track 2:Health literacy and health behaviour.7th Global Conference on Health Promotion:track themes.http://www.who.int/healthpromotion/conferences/7gchp/track2/en/index.html.
[4]Weiss BD,Palmer R.Relationship Between Health Care Costs and Very Low Literacy Skill in A Medically Needy and Indigent Medicaid Population.Journal of the American Board of Family Practice,2004,17(1):44-47.
[5]李小寧,郭海健,黃明豪,等.江蘇省城鄉居民健康素養水平分析.中國公共衛生,2011,27(5):666-667.
[6]郭海健,李小寧,張鳳云.江蘇省城鄉居民健康素養水平變化情況分析.江蘇預防醫學,2012,23(2):23-25.
[7]Lord FM.Applications of item response theory to practical testing problems.Hillsdale,NJ:Lawrence Erlbaum Associates.1980.
[8]Hambleton RK,Swaminathan H.Item response theory:principles and applications.Boston,MA:Kluwer-Nijhoff Publishing,1985.
[9]Wim J van der Linden,Hambleton RK.Handbook of Modern Item Response Theory.New York:Springer-Verlag,1997.
[10]陳斌為,許碧云,陳啟光,等.兩分類項目反應理論在中醫證候中的應用.中國衛生統計,2011,28(1):16-18.
[11]漆書青,周駿,張青華.用信息函數法對標準參照測驗作質量分析.心理與行為研究,2003,1(1):34-39.
[12]涂冬波,蔡艷.信息函數在標準參照測驗中的應用研究.江西師范大學學報(自然科學版),2005,29(2):167-172.
[13]何克抗,李文光.教育技術學.北京:北京師范大學出版社,2005.
[14]Wright B,dMaster GN.Best test design.Chicago:Mesa Press,1982.
[15]Suen HK.Principles of Test Theories.Hillsdale,NJ:Lawrence Erlbaum Associates,1990.
Item Response Theory in the Application of‘Residents Health Literacy Criterion-Referenced Test’
Cao Shang,Cao Rongxiang,Sun Xinying,et al.
(Yangzhou Center for Disease Control and Prevention(225000),Yangzhou)
Objective To analyze items of the‘Residents′health literacy questionnaire’using item response theory(IRT).Using the information function of IRT to establish‘Residents Health Literacy Criterion-Referenced Test’and evaluate its item performance.Methods Unidimensional three parameters logistic model(3PLM)was used to fit the sample including 1000 cases and to calculate item parameters and information function.The grasp proportion of ability parameter was as a decision point(The cut-off score).Results The goodness of fit of the questionnaire of 73 items is 98.6%.Among the 73 items,the difficulty parameters of all items were between-4.27~4.23,the discrimination parameters of all items were between 0.32~1.58 and the guessing parameters of all items were between 0.009~0.5.The test maximized the information and minimize the measurement error at ability parameter of-0.13 with the corresponding grasp proportion of 0.62.The test should decrease the difficulty when using grasp proportion 0.6 as the cut-off score while increase the difficulty and discrimination when using grasp proportion 0.8 as the cut-off score.Conclusion IRT analysis questionnaire'could deeply and logically comprehend the quantitative relation between each item and the whole test.Residents'health literacy questionnaire of Jiangsu province applied to middle or low level ability subjects.
Item Response Theory;Health literacy;Information function;Criterion-referenced test
*國家醫療衛生-重大公共衛生專項資金(編號:2100409);江蘇省預防醫學科研基金(編號:Y2015040)
1.揚州市疾病預防控制中心(225000)
2.北京大學公共衛生學院社會醫學與健康教育系
3.江蘇省疾病預防控制中心
△通信作者:徐勤,E-mail:jsyzgps@sina.com
郭海強)