張慧敏 陳炳為△ 黃 灝 薛芳靜 陳啟光 申春悌
【提 要】 目的 以高血壓病的肝陽上亢證為例,探討其四診信息的效度、等級劃分的合理性及重要性。方法 利用R語言ltm包中的等級效應模型對1280例高血壓病的肝陽上亢證進行分析,以得到肝陽上亢證的區分度系數與難度系數的估計值。結果 所有指標的區分度參數a均大于0.4,說明這12個條目的效度均較好,能較好反映肝陽上亢證的結構。結論 應用等級反應模型研究證候規范標準是可行的。
項目反應理論( item response theory,IRT)是近二十多年來在西歐和北美各國教育與心理測量領域得以迅速發展和廣泛應用的一種新的教育和測量理論,是一種建立潛在變量與顯在變量間的對應關系的模型系統[1]。它通過受試者回答的項目,分析受試者在不同潛在能力(潛在特質水平)上不同受試者回答測驗項目的反應。IRT模型廣泛應用于個性、精神病學、患者報告的臨床結局(PRO)和健康相關生活質量(HRQOL)測量中[2]。項目反應理論屬于潛在變量模型的一種類型,它也屬于統計學的非線性混合模型中的一種[3]。IRT在指導測驗編制中的優異性使得其已成為發達國家的主流測量理論[4]。
辨證論治理論和方法是中醫的核心組成部分,辨證是根據所采集的四診信息(望診、聞診、問診、切診)資料,概括、判斷為某種性質的證候。因此,中醫的證候不是直接觀測的,而是通過四診信息來反映,將中醫學的證候視為統計學中的潛在變量,四診信息看成顯在變量,可利用結構方程模型、潛在類別或項目反應理論對中醫證候進行量化研究[5-6]。本文以高血壓病的中醫肝陽上亢證為例,利用R語言ltm包進行分析,以探討項目反應理論在中醫證候測量中應用的可行性。
等級反應模型(graded response model,GRM)是項目反應理論中的一種模型,其顯在變量為等級分類資料。假設測量工具有m條項目,現有n個個體被測量,yij為第j個個體(j=1,2,…,n)第i條項目(i=1,2,…,m)的測量結果,其測量結果為4個類別的等級資料。Samejima于1969年提出了等級反應模型如下[1-2]:

上式中,D為常數項,等于1.702。θj稱為能力參數或潛在特質(latent trait)參數,它是潛在變量,代表在第j個個體的能力。如果對于正確與錯誤的兩分類的IRT模型中,則為選項正確的能力。αi第i個項目的區分度參數;bik為第i條項目的難度參數,它是項目鑒別不同受試者潛在變量特質水平(能力) 的一種度量。
在中醫四診信息的采集中,通常采用無、輕、中、重四個等級。能力參數θj是度量中醫證候的潛在得分(即病情嚴重程度),區分度系數可認為是四診信息鑒別不同病人在證候中嚴重程度的度量。
在項目反應理論中,特征曲線( item characteristic curve,ICC)反映了潛在能力與項目應答概率間的關系。如對于急躁易怒,分為無、輕、中和重四個等級,共有四條曲線,每一個等級的特征曲線與其臨近等級的特征曲線有一個交點,所對應的橫坐標稱為閾值。因此,四個等級的特征曲線有三個交點,因而橫軸上有三個閾值,可以計算出對應于各個閾值的概率。一般來說,能力參數和難度參數都在(-3~3)的范圍間。
信息函數(information function,IF)包括項目信息函數(item information function,IIF)與測試信息函數(test information function,TIF)[7]。IF是關于被測量個體能力的函數,IIF及TIF均隨被測個體能力(如證候嚴重程度)不同而變化。IIF的公式如下:
TIF則是所有IIF的總和,其值介于[0,1]。
在項目反應理論中,當信息量越高則估計越準確,可作為能力估計精確度的判斷,反映了不同項目的信息貢獻。項目信息量的大小由項目參數和被測個體能力決定,項目提供的信息量越大,表明這個項目在評價被測個體能力時越有價值[7]。
資料來自2006年7月至2009年12月在常州、南京、沈陽和珠海四個地區五個三級甲等中醫院收集到的高血壓病病例共計1280例。對于肝陽上亢癥的12個指標:急躁易怒、煩躁、頭痛、頭脹、面紅、目脹、目赤、口苦、小便黃赤、舌紅、黃苔與弦脈。通過GRM模型對肝陽上亢癥對應四診信息等級的劃分的合理性進行評估。
應用R軟件對潛在變量分析并作參數估計,并做出類別反應曲線圖。通過模型擬合得到對數似然值為-12156.7,AIC=24409.4,BIC=24656.82。

表1 肝陽上亢證12個指標GRM模型分析
從表1可見12個指標的區分度參數a的值都在0.4以上,說明了其效度是不錯的,即這12個指標用來鑒別肝陽上亢證是較好的。
ICC圖形中,橫坐標為潛在能力標準化得分,縱坐標為不同能力下4個不同分類應答的概率。如對于四診信息急躁易怒,其4個級別對應描述為“無癥狀或體征”、“性情偏急,事欲速成,遇事不成易動感情”、“性情急躁,容易發怒”、“性情暴躁,動輒發怒”,4條曲線分別代表不同證候標化得分下選項為4個級別的概率。四個等級特征曲線的交點可以得到橫軸上的難度參數閾值分別為:b1=0.175,b2=1.844,b3=4.345。但是第三個閾值4.345很大,即認為急躁易怒在肝陽上亢證的病人出現性情暴躁,動輒發怒的可能性少。對于頭痛,從圖中可見,四個類別的特征曲線的交點分不開,說明實際工作中頭痛這一個指標在肝陽上亢證研究中四個等級的區分性不是很好。特別是舌紅、黃苔、弦脈項目在證候潛在得分較大時回答重級的概率還是很低,即這三個條目主要以無、輕、中為主。
根據項目信息函數,得到面紅的IIF函數最高,用于評價肝陽上亢癥是具有價值的,其次是小便黃赤、舌紅等指標。12個指標的項目信息函數在區間(-4,8)的信息量達到全信息的92.8%,能反映大部分的信息量。
等級反應理論是項目反應理論中的一種,我們借助現代測量心理和教育理論中的項目反應理論統計方法可以對中醫證候作如下問題的深入研究:(1)項目的效度分析,即對每一個證候與主要四診信息的內在聯系;(2)可以科學地評價四診信息等級的劃分是否合理,研究中表明,在12條四診信息中,目脹與頭痛的等級區分不是很好;(3)在IRT模型中,可以給出所有四診信息的IIF,從而分析出指標重要性的順序,從群體意義上提供篩查證候的主要四診信息指標。(4)從難度系數b3看,除急躁易怒、煩躁出現重的比例高些,其余的指標均較低,特別是弦脈、黃苔與舌紅出現癥狀重的比例較少。
在項目反應理論中主要有三個條件:(1)潛在變量的單維性。事實上,在高血壓的中醫證候研究中,先利用探索性因子分析與驗證性因子分析提取高血壓的5個主要證候,肝陽上亢證為其中之一,這滿足了單維性的假設。肝陽上亢證的12個四診信息是根據驗證性因子分析獲得結果。(2)項目間的局部獨立性,即在給定能力的情況下,不同項目間是相互獨立的。IRT與潛在類別模型一樣,均假定項目間存在獨立性。(3)項目特征曲線假設,即假定ICC曲線為logistic曲線或probit曲線。項目反應理論中probit曲線是早期應用較多的,但后期的研究主要是基于logistic曲線進行建模的。項目反應理論分析的軟件很多,有專用軟件BILOG與MULTILOG、PARSCALE等,在R語言、SAS、MPLUS等軟件也有可用于分析的模塊。

圖1 肝陽上亢證四分類指標GRM模型下類別反應曲線圖