陳 姝 萬崇華△ 楊 錚 周佳麗 梁啟廉 陳煥偉
【提 要】 目的 應用經典測量理論(CTT)和項目反應理論(IRT)分析癌癥患者生命質量測定量表體系中乳腺癌量表QLICP-BR(V2.0)的條目特性。方法 采用量表QLICP-BR(V2.0)對246例符合納入標準的女性乳腺癌患者進行自評式調查,采用描述性統計、變異度法、相關系數法、Cronbach′s α系數法及IRT中的Samejima等級反應模型對量表條目進行分析。結果 條目GSS1和GSS3在選項5的頻率較高,分別為80.49%、90.24%;各條目的標準差為0.517~1.397;各條目與其所在領域的相關系數普遍大于與其他領域的相關系數,且普遍大于0.4(均為P<0.05);各條目與總量表得分之間的相關系數為-0.209~0.647(P<0.05);各領域的Cronbach′ s α系數為0.626~0.768。項目反應理論分析表明各條目的區分度為1.13~1.47;除條目GSO7出現逆反閾值,其他各條目難度系數隨難度等級增加而遞增,存在部分條目的難度系數b1、b2小于-3;各條目的平均信息量為0.194~0.604。結論 QLICP-BR(V2.0)的條目經CTT和IRT檢驗具有較好的特性,可作為評價中國乳腺癌患者生命質量的工具,但個別條目有待進一步改進。
據國際癌癥研究機構(international agency for research on cancer,IARC)公布的2018年全球腫瘤流行病統計數據(GLOBOCAN2018)顯示[1],乳腺癌是女性最常見的癌癥,同時也是女性癌癥患者死亡的首要原因。在中國,女性癌癥發病率最高的為乳腺癌,已經嚴重危害我國女性的身心健康。乳腺癌患者生命質量測評在臨床療效評價、治療方案的篩選以及衛生資源投入的效益分析等方面起著重要的作用。目前國內外常用的乳腺癌患者生命質量測定量表是QLICP-BR(quality of life instruments for cancer patients-breast cancer)[2],FACT-B和QLQ-BR53[3]。
量表的基礎是條目,而條目分析多基于經典測量理論(classic theory test,CTT)。項目反應理論(item response theory,IRT)是針對CTT的局限性提出來的一種現代心理測量理論,提出后已經在心理、教育測量中得到了廣泛的應用,并且已應用于乳腺癌患者生命質量測定量表的研發與應用評價[4-6]。但國內尚未見相關報道。本文擬通過乳腺癌患者實測的生命質量資料,采用經典測量理論以及項目反應理論結合,對乳腺癌生命質量測定量表QLICP-BR(V2.0)的條目進行分析評價,為量表的評價或進一步修訂提供綜合依據。
1.研究對象
本研究選擇廣東省農墾中心醫院、廣東醫科大學附屬醫院和云南省腫瘤醫院作為調查點,采用乳腺癌患者生命質量測定量表QLICP-BR(V2.0),于2019年4月至2020年7月,對符合調查納入標準的246名確診女性乳腺癌患者進行自評式量表調查。納入標準:已確診的乳腺癌患者;具備一定的閱讀理解能力;自愿參加測評;知情同意。排除標準:文盲;存在意識障礙的患者;病情危重。
2.量表計分方法
QLICP-BR(V2.0)由共性模塊QLICP-GM(V2.0)及一個乳腺癌特異模塊構成,其中QLICP-GM(V2.0)包括軀體功能(8個條目)、心理功能(9個條目)、社會功能(8個條目)、共性癥狀及副作用(7個條目)4個領域10個側面32個條目,而乳腺癌特異模塊包括了3個側面10個條目。整個量表共5個領域(維度)13個側面42個條目,每個條目均采用Likert 5點評分法設置選項。
在評分時,正向條目直接計分,而逆向條目則需反向計分(用6減去原始得分),領域/側面的原始分等于該領域/側面的各個條目得分之和,總量表的原始分等于5個領域得分之和。為了便于進行比較,采取極差化的方法將原始分換算成標準分,得分越高即生命質量越好。
3.經典測量理論(CTT)條目分析法
(1)條目選項分布:計算條目各個選項的被選頻數,以反映條目各選項的集中趨勢與離散情況,考量條目的區分能力。
(2)變異度法:計算各條目的標準差(各條目的量綱相同,變異度直接用標準差來反映)。從指標的敏感性角度來評價條目。
(3)相關系數法:計算各個條目與其領域得分、總量表得分的相關系數。從指標的代表性與獨立性角度分析條目。
(4)克朗巴赫系數法:計算每個條目所屬領域的Cronbach′s α系數,刪除該條目后再重新計算該領域的Cronbach′s α系數。從量表的構思層次著手,通過內部一致性變化情況分析條目。
4.項目反應理論(IRT)分析
項目反應理論的核心是通過項目特征函數ICF和項目反應曲線ICC來精確刻畫被試在測驗項目上的反應行為與被試潛在特質之間的關系,通過信息函數來反映測量誤差(信度)。
本研究應用IRT中等級多分類資料的Samejima模型對量表各領域的條目進行分析評價。經過檢驗,本量表中的軀體功能領域、心理功能領域、社會功能領域、共性癥狀及副作用領域和特異模塊領域都基本符合單維性假設。因此,分別對各領域進行分析。
令θ作為被試的潛在特質或能力水平,令Ui作為項目i的分級項目反應的標志,它屬于一個隨機變量,而令ui為實際的反應。當一個具有能力θ的被試者在項目i上得到ui的概率為Pui(θ),將其稱作類型反應函數。
對于一組要研究的項目來說,其在此組項目上的反應結果V稱為其反應的形式。記為v:
v=(u1,u2,…,un)
(1)
在式(1)中,ui表示在第i個項目上被試的反應記錄。假如所研究的測驗是單維的,那么對于v為其反應形式,被試的潛在特質或能力水平為θ的條件概率Pv(θ)有以下的表達式:
(2)

(3)
(4)
計算所得出的值Pv(θ)是v的似然函數,也可記為L(v|θ)。
αi表示第i題的項目區分度,bμi表示第i題第μi等級的等級難度。
在Samejima的等級反應模型中,一個項目在各個等級上的難度都呈現為單調遞增,因此有:-∞=b0 采用最大似然估計法,測算出項目參數:區分度a、反應閾值/難度b(b1、b2、b3、b4)以及平均信息量等指標。以信息函數的大小并結合各條目的特征(區分度、難度等)來分析評價條目。其中信息函數計算能力參數在-2、-1、0、1、2五個點上的平均值。 5.分析工具 采用Epidata 3.0軟件建立數據庫,全部數據經雙重錄入并進行校驗,應用軟件SPSS 21.0和MULTILOG 7.03進行統計分析。檢驗水準為α=0.05。 1.被調查者基本情況 本研究共計調查女性乳腺癌患者246例。其中廣東省農墾中心醫院123例(50.00%)、廣東醫科大學附屬醫院31例(12.60%)、云南省腫瘤醫院92例(37.40%);年齡范圍為17~77歲,平均年齡為50.07歲;文化程度小學65例(26.42%),初中82例(33.33%),高中或中專66例(26.83%),大專27例(10.98%),本科及以上6例(2.44%);職業工人20例(8.13%),農民112例(45.53%),教師10例(4.07%),公務員4例(1.63%),個體9例(3.66%),其他91例(36.99%)。 2.經典測量理論分析結果 (1)條目分布和變異度:通過對QLICP-BR(V2.0)的42個條目進行描述性統計分析,計算各條目的均數、標準差以及各選項的被選頻數,進一步對條目選項分布與得分分布等特征進行評價,詳見表1。在條目選項分布的集中趨勢方面,條目GSS1和GSS3在選項5(非常)的選擇率較高,分別為80.49%、90.24%。在條目的離散程度方面,本研究中量表各條目的標準差為0.517~1.397。 (2)相關系數法:相關性分析結果表明,各條目與其所在領域的相關系數普遍大于與其他領域的相關系數,且條目-領域系數普遍大于0.4(均為P<0.05),但條目GPH3(生病或治療影響您的性功能了嗎?)、GSO4(遇到困難時,您會尋找他人的幫助嗎?)和GSS3(您有口腔潰瘍嗎?)的條目-領域相關系數均較小,分別為0.254、-0.095、0.293;各條目與總量表得分之間的相關系數為-0.209~0.647,見表1。 (3)克朗巴赫系數法:軀體功能、心理功能、社會功能、共性癥狀及副作用和特異模塊領域的克朗巴赫系數α分別為0.626、0.768、0.626、0.655、0.732,刪除某一條目后該條目所屬領域Cronbach′s α系數增大的條目為:GPH3、GPH7、GSO4、GSS2、GSS3、SBR6和SBR7,見表1。表明這些條目對量表的內部一致性有一定影響[7],其會降低所屬領域的內部一致性。 表1 QLICP-BR(V2.0)各條目特性分析(n=246) 3.項目反應理論分析結果 研究結果顯示,各條目的區分度為1.13~1.47;除條目GSO7出現逆反閾值,其他各條目難度系數隨難度等級增加而遞增,存在部分條目的難度系數b1、b2小于-3;各條目的平均信息量為0.194~0.604,具體見表2、表3。 表2 QLICP-BR(V2.0)條目參數估計結果(n=246) 表3 QLICP-BR(V2.0)條目信息量估計結果 本研究應用CTT和IRT對QLICP-BR(V2.0)的條目進行分析與評價。CTT主要從宏觀的角度評價分析量表,而IRT則從微觀的角度分析每個條目,兩種理論相輔相成,互相補充,將兩種方法結合能更全面地對量表的條目進行評價[8-10]。當兩種方法的條目分析結果一致時,增強了對條目設置是否合理的驗證;當結果不一致時,提示應從多角度分析條目設置的問題所在,以便進一步修訂和完善。 根據CTT的條目分析結果,在條目選項分布的集中趨勢和離散趨勢方面,條目GSS1(您有惡心、嘔吐嗎?)和GSS3(您有口腔潰瘍嗎?)的結果主要集中在選項5(非常),表明這些條目的區分能力較弱,這可能與本研究中59.10%的乳腺癌患者進行了化療有關,由于口腔潰瘍是腫瘤患者化療時最常見的并發癥,惡心、嘔吐是化療最多見的消化道反應[11],這些患者出現了此類不良反應,故有可能選擇該選項5(非常)。在相關性分析中,通常認為Spearman相關系數大于0.7為強相關,0.3~0.7為中度相關,小于0.3為弱相關[12]。根據相關性分析的結果,可認為,總體上QLICP-BR(V2.0)的條目代表性較好,但是存在個別條目的條目-領域的相關系數小于0.3,表明其代表性差。值得注意的是:條目GPH3(生病和治療影響您的性功能了嗎)具有一定的獨立性,并且在調查過程中出現了較多病人不愿回答此方面的問題,這與相關研究一致[13],畢竟中國人對待性方面問題的態度是相對保守的,因此有關性方面的條目還亟待探索。條目GSO4(遇到困難時,您會尋找他人的幫助嗎?)的代表性和同質性較差,需進一步修改。此外,雖然條目GSS3(您有口腔潰瘍嗎?)經統計學分析其測量學特征不理想,但根據專家意見,由于化療是乳腺癌重要的治療手段[14],并且口腔潰瘍是乳腺癌患者化療時較為常見的并發癥,故認為此條目對乳腺癌患者有較大的意義。 IRT分析中,a為條目的區分度,一般取值為0~2,當其<0.3時,表明該條目區分度較低[15],當其>2時,即便研究的樣本容量非常大,估計精度也不理想[16]。本研究結果顯示:各條目的區分度參數a處于1.13~1.47的合理范圍內,表明QLICP-BR(V2.0)條目區分度較高,能有效鑒別不同生命質量的乳腺癌患者。在反應閾值/難度方面,難度系數b一般在-3至3這個范圍內較為合理(b1~b4均需符合以上標準,且為單調遞增的趨勢)[17]。本研究5個領域中部分條目的難度系數b1、b2小于-3,提示這些條目所描述的狀況或者癥狀在所調查乳腺癌患者中較為常見。此外,除條目GSO7(您與家人或親戚朋友的關系好嗎?)出現了逆反閾值,其他各條目的難度都呈單向遞增,表明條目分級的設置比較合理。條目GSO7的5個選項分別為“非常差”、“比較差”、“一般”、“比較好”、“非常好”,4個難度參數分別為-1.39、-21.44、-2.13、1.35,逆反的閾值參數為-21.44,其反映的是“比較差”到“一般”的閾值,說明乳腺癌患者在區分此條目“比較差”、“一般”的選項上存在一定的障礙。可能由于乳腺癌患者認為與家人或親戚朋友的關系“比較好”,而忽略了關系“一般”的選項,這與徐震雷等[18]在乳腺癌患者個性特點研究中的研究結果相似,乳腺癌患者的個性易感性主要表現為其通過合理化效應來消除自己的負面情緒,其社會關系通常較為良好。 在平均信息量方面,通常認為,當測驗的信息量達到25時表明測驗質量良好,信息量為16~25時提示測驗有待改進,低于16時代表測驗很差[19]。但我們認為這個標準太過嚴苛,因此按照0.8的信度標準推測,將5定為信息量評價標準。據此,當條目的平均信息量大于0.12(5/42)的條目評價為“好”,小于0.12(5/42)的條目評價為“差”。本研究中各條目的平均信息量均>0.12,表明量表各條目對估計乳腺癌患者生命質量水平的貢獻較大,能提供較為精準的評估。 綜上所述,根據CTT和IRT的條目分析,可認為該量表的條目代表性較好,能較好地區分不同生命質量水平的乳腺癌患者,其分級設置較為合理,且各條目的質量良好,可應用于評價我國乳腺癌患者的生命質量。但由于研究對象較為特殊并且研究的問題相對敏感,本研究收集的樣本數量和范圍較為有限,個別條目的測量學特征不理想。為確保能更精確地評估我國乳腺癌患者的生命質量,仍需擴大樣本和大范圍進行進一步的驗證性研究。結 果



討 論