張雯 黃青梅 黃躍師 楊瑒,2 臧嫻 袁長蓉
(1.復(fù)旦大學(xué)護理學(xué)院,上海 200032;2.復(fù)旦大學(xué)附屬腫瘤醫(yī)院,上海 200032)
近年來,將患者聲音融入醫(yī)療衛(wèi)生領(lǐng)域以輔助臨床決策、科學(xué)研究及政策制定日益成為共識。患者報告結(jié)局(Patient-reported outcomes,PROs),即“直接來自患者的任何關(guān)于其健康狀況的報告,不經(jīng)過臨床醫(yī)生或其他任何人的解釋”的結(jié)局[1],也逐漸成為重要的臨床結(jié)局指標(biāo)之一。PROs一般通過自我報告問卷或量表來評估,因此,患者報告結(jié)局測量工具(Patient-reported outcome measures,PROMs)的質(zhì)量至關(guān)重要。目前,PROMs工具種類繁雜,且質(zhì)量參差不齊。如何對PROMs工具進行科學(xué)系統(tǒng)的質(zhì)量評價,以幫助使用者選擇最佳工具,或開發(fā)者科學(xué)嚴(yán)謹(jǐn)構(gòu)建工具,成為當(dāng)前迫切需要解決的問題。本文將綜述PROMs工具質(zhì)量評價標(biāo)準(zhǔn)的發(fā)展背景,重點介紹目前國際上應(yīng)用較為廣泛且具代表性的四種PROMs評價標(biāo)準(zhǔn),并比較其內(nèi)容、特點和應(yīng)用,以期為我國PROs領(lǐng)域研究者提供PROMs工具評價、選擇或開發(fā)過程的參考。
隨著將患者感受納入到健康決策的需求愈發(fā)強烈,為彌補早期健康結(jié)局測量中“患者聲音”的缺失,PROMs工具數(shù)量及相關(guān)研究飛速增加[2-3],也帶來了如何對PROMs工具質(zhì)量進行評價這一嚴(yán)峻問題。研究者從20世紀(jì)90年代開始逐步對PROMs工具的質(zhì)量評價標(biāo)準(zhǔn)進行了系列探索。McDowell和Newell[4]在其1996年發(fā)布的著作中初步提出信度和效度是評價PROMs工具的核心內(nèi)容,并提出了常用PROMs工具信效度評價的內(nèi)容和方法。受到該研究啟發(fā),越來越多的研究者或機構(gòu)致力于開發(fā)更為系統(tǒng)全面的評價標(biāo)準(zhǔn),同時期最具代表性的即醫(yī)療結(jié)局信托(Medical outcomes trust,MOT)組織下屬科學(xué)咨詢委員會(Scientific advisory committee,SAC)于1996年發(fā)布的“針對生活質(zhì)量及健康狀態(tài)相關(guān)測量工具的質(zhì)量評價標(biāo)準(zhǔn)”[5],也是迄今為止應(yīng)用最為廣泛的PROMs工具評價標(biāo)準(zhǔn)之一。最近20年是PROMs工具質(zhì)量評價標(biāo)準(zhǔn)發(fā)展較為迅速的時間段,這一時期各類PROMs工具評價標(biāo)準(zhǔn)愈發(fā)全面和系統(tǒng)化,且更具權(quán)威性。另外,隨著量表工具開發(fā)技術(shù)的不斷進步,運用現(xiàn)代測量學(xué)理論開發(fā)的工具逐漸獲得廣泛運用,因此,與上世紀(jì)多數(shù)面向基于傳統(tǒng)測量學(xué)理論開發(fā)的工具的評價標(biāo)準(zhǔn)相比,近年來研究者在開發(fā)評價標(biāo)準(zhǔn)時更注重其對基于現(xiàn)代測量學(xué)理論工具的適用性。同時,為了使評價標(biāo)準(zhǔn)更易于推廣,實現(xiàn)標(biāo)準(zhǔn)化評價,PROMs工具質(zhì)量評價標(biāo)準(zhǔn)也逐漸從對工具的主觀評價向量化評價過渡。近年來較具代表性的評價標(biāo)準(zhǔn)有:美國食品和藥品監(jiān)督管理局(Food and drug administration,FDA)在2006年發(fā)布的“PROMs工具開發(fā)和支持指南”[1](2006年發(fā)布草案,2009年發(fā)布正式版),以指導(dǎo)PROMs工具的開發(fā)、審查評估以及應(yīng)用;西班牙衛(wèi)生及衛(wèi)生服務(wù)結(jié)局研究合協(xié)作網(wǎng)(The spanish cooperative investigation network for health and health service outcomes research,Red- IRYSS) 于2008年研發(fā)的EMPRO(Evaluating the measurement of patient-reported outcomes)[6];以及由健康測量工具選擇標(biāo)準(zhǔn)共識指導(dǎo)委員會(The consensus-based standards for the selection of health measurement instruments,COSMIN)在2010年發(fā)布的COSMIN清單[7]和在2018年形成的COSMIN指南[8]。本文主要以上述四種常用的代表性PROMs質(zhì)量評價標(biāo)準(zhǔn)為例進行概述。
2.1醫(yī)療結(jié)局信托科學(xué)咨詢委員會標(biāo)準(zhǔn)(MOT-SAC) MOT-SAC是面向普適生活質(zhì)量及健康狀態(tài)相關(guān)量表或問卷的評價建議,也適用于PROMs工具評價。1996年MOT-SAC基于專家經(jīng)驗發(fā)布了第1版評價標(biāo)準(zhǔn)[5]。之后鑒于第1版標(biāo)準(zhǔn)對基于現(xiàn)代測量學(xué)理論發(fā)展的工具適用性不強,評價標(biāo)準(zhǔn)不夠清晰的問題,于2002年形成了目前使用的第2版[9]。MOT-SAC標(biāo)準(zhǔn)第2版要求對目標(biāo)工具的8個關(guān)鍵屬性進行評價,包括:概念和測量模型、信度、效度、反應(yīng)性、可解釋性、應(yīng)答和管理負擔(dān)、可選擇的模式及文化和語言適應(yīng)性。MOT-SAC標(biāo)準(zhǔn)對這8個關(guān)鍵屬性分別進行了較為明確的概念定義,并對每一個關(guān)鍵屬性采用語言描述的方式列出了主要的評價標(biāo)準(zhǔn),以具體指導(dǎo)實踐及研究者對各個關(guān)鍵屬性的質(zhì)量開展評價。MOT-SAC標(biāo)準(zhǔn)是目前PROMs工具質(zhì)量評價領(lǐng)域出現(xiàn)較早且較為系統(tǒng)全面的標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)的出現(xiàn)極大增強了人們對使用這類基于患者主觀報告數(shù)據(jù)工具的信心。但該標(biāo)準(zhǔn)對關(guān)鍵屬性的評價仍是定性的、主觀的,無法實現(xiàn)標(biāo)準(zhǔn)化評估,這可能會造成不同領(lǐng)域或不同水平的使用者對測量工具的評價結(jié)果有較大的主觀不一致性。
2.2美國食品和藥品監(jiān)督管理局(FDA)指南 FDA指南[1]涵蓋了更廣泛的評價內(nèi)容,包括對PROMs工具的開發(fā)流程、工具特點、選擇標(biāo)準(zhǔn)、工具修改、工具應(yīng)用于特殊人群時的注意事項,以及對其應(yīng)用于相關(guān)臨床研究的設(shè)計、數(shù)據(jù)分析等。以下主要對其中PROMs工具的評估和選擇部分進行概述。
FDA指南提出,PROMs工具性能主要取決于工具特征、概念框架、內(nèi)容效度和其他測量屬性。評估順序和重點包括:(1)評估PROMs工具的內(nèi)容效度:包括工具條目生成的來源及過程,數(shù)據(jù)采集方法和工具的實施模式,應(yīng)答回憶期,應(yīng)答的選項,工具的格式、說明和培訓(xùn),患者的理解,條目及維度得分,應(yīng)答和實施負擔(dān)。(2)對工具的概念框架進行評價:主要評估內(nèi)容為工具的條目和維度產(chǎn)生的過程是否符合其開發(fā)時基于的概念框架?條目之間、條目和維度之間、維度之間的關(guān)系,以及總體概念是否一致等。(3)其他測量屬性:主要包括信度、效度和測量到變化的能力,即反應(yīng)性。其中,信度主要的評估屬性包括重測信度和研究者內(nèi)部一致性信度;效度主要是建構(gòu)效度和校標(biāo)效度。FDA指南亦采用定性描述的方法分別就每個屬性需要評估的內(nèi)容、標(biāo)準(zhǔn)和推薦的評估方法等提出建議。
FDA指南已經(jīng)形成了更為科學(xué)全面的大型評價標(biāo)準(zhǔn)系統(tǒng),其特點在于主要面向的是PROMs工具開發(fā)者,評估已有工具的相關(guān)內(nèi)容是混合在開發(fā)過程中進行描述的,脈絡(luò)稍欠清晰。且FDA指南對PROMs工具的評價標(biāo)準(zhǔn)也是定性描述的,在標(biāo)準(zhǔn)化評價方面尚有不足。
2.3患者報告結(jié)局測量評估(EMPRO) EMPRO[6]是基于第2版MOT-SAC標(biāo)準(zhǔn)形成的,融入了測量工具研發(fā)的最新進展,同時將MOT-SAC標(biāo)準(zhǔn)提煉為獨立清晰的、可量化的評價條目[10],并基于AGREE工具形成了EMPRO工具的標(biāo)準(zhǔn)化格式[11]。與MOT-SAC標(biāo)準(zhǔn)相同,EMPRO對測量工具的8個關(guān)鍵屬性進行評價,但形成了更具操作性的質(zhì)量評價條目。EMPRO共包括39個條目,評價內(nèi)容包括:概念和測量模型(7條目)、信度(8條目)、效度(6條目)、反應(yīng)性(3條目)、可解釋性(3條目)、實施負擔(dān)(7條目)、可選擇的實施模式(2條目)、跨文化和語言適應(yīng)(3條目)。每個條目還包括了一個簡短的說明文本,以幫助評價者對條目目的和內(nèi)容的理解和應(yīng)用。EMPRO采用Likert 4級評分,包括“非常同意”(4分)、“同意”(3分)、“不同意”(2分)和“非常不同意”(1分)。除針對關(guān)鍵屬性的評價條目進行評分,EMPRO還額外包括了一個總評的條目,即要求評價者為所評價的PROMs工具提供一個綜合的建議,并注明原因。總評結(jié)論包括“強烈推薦”“帶有條件的推薦或修改后推薦”“不推薦”以及“不確定”。因此,使用EMPRO評價一個PROMs工具最終的結(jié)果應(yīng)包括8個關(guān)鍵屬性的分維度得分,通過計算各條目的平均分值獲得,并同時附上評價者的綜合評價意見。且針對關(guān)鍵屬性的評價和針對工具總體的評價是兩個獨立的體系,必須分開解讀,兩者也不能互相替代。
EMPRO基于MOT-SAC發(fā)展而來,但在標(biāo)準(zhǔn)化和實操性等方面實現(xiàn)了極大的改進。另外,在完成開發(fā)的同時,研究者還證明了這一評價標(biāo)準(zhǔn)本身具有良好的信效度。專家小組成員使用EMPRO對5個PROMs工具進行了質(zhì)量評價,提示EMPRO內(nèi)部一致性 (Cronbach′s α=0.95)和評價者間信度(ICC:0.87~0.94)均較高,機構(gòu)外專家評價內(nèi)容效度良好,假設(shè)檢驗證實其建構(gòu)效度良好[6]。但研究者也指出,目前針對EMPRO建構(gòu)效度的假設(shè)檢驗方法仍有待探討,另外由于EMPRO發(fā)展時限尚短,因此其隨時間推移的反應(yīng)度尚不明確。
2.4基于共識的健康測量工具選擇標(biāo)準(zhǔn)(COSMIN) COSMIN指南[8]聚焦于對PROMs工具系統(tǒng)評價的指導(dǎo)以及形成對PROMs工具的最終推薦意見。指南提出PROMs工具系統(tǒng)評價過程包括三大階段:文獻檢索及納入、評價PROMs工具的測量屬性、選擇PROMs工具,共10個步驟。以下主要對第2、3階段測量屬性評價和工具選擇部分進行闡述。
2.4.1第二階段測量屬性評價 包括3個步驟:(1)首先使用COSMIN風(fēng)險偏倚評估清單(COSMIN Risk of Bias checklist)[12-13]對納入的關(guān)于某PROMs工具測量屬性的相關(guān)文獻的偏倚風(fēng)險進行評估。評估清單要求按照順序?qū)ζ鋬?nèi)容效度、內(nèi)部結(jié)構(gòu)和其他測量屬性共10個框目進行評價。內(nèi)容效度包括PROM開發(fā)、內(nèi)容效度2框目,內(nèi)部結(jié)構(gòu)包含結(jié)構(gòu)效度、內(nèi)部一致性、跨文化效度/測量不變性3框目,其他屬性包括信度、測量誤差、校標(biāo)效度、建構(gòu)效度的假設(shè)檢驗、反應(yīng)性5框目,每個框目下包含3~35個條目不等,條目采用“非常好”“充分”“不確定”“不充分”“不適用”五級評價,每個框目最終的綜合評價采用“最低評價法”,即以所有條目中最低的評價為準(zhǔn)。(2)使用COSMIN的“測量屬性良好標(biāo)準(zhǔn)(Updated criteria for good measurement properties)”[8]對PROMs工具每種測量屬性的證據(jù)質(zhì)量進行評價。即在第一步對文獻進行風(fēng)險評估之后進一步提取文獻信息,根據(jù)“測量屬性良好標(biāo)準(zhǔn)”提供的指標(biāo)參考值,對各測量屬性進行“充分(+)”“不充分(-)”和“不確定(?)”的評價。(3)匯總每種測量屬性的評價結(jié)果,并基于GRADE 系統(tǒng)[14]形成證據(jù)質(zhì)量的推薦等級。由于目前PROMs研究注冊缺失,很難對GRADE中的發(fā)表偏倚進行評估,因此COSMIN指南推薦依據(jù)GRADE系統(tǒng)中的其余四個因素,即偏倚風(fēng)險、不一致性、不精確性和間接性進行證據(jù)質(zhì)量評級,開始評價時均假設(shè)為高質(zhì)量,根據(jù)以上四個因素的評價結(jié)果逐步降級,最后對測量屬性的證據(jù)質(zhì)量形成“高”“中”“低”和“極低”的推薦意見[15]。
2.4.2第三階段工具選擇要求 進一步評價PROMs工具總體的可解釋性和適用性,即對工具評分或最終輸出結(jié)果的意義解釋,以及其自身屬性外的應(yīng)用特征(如完成時間、難易程度等)的評價。最終針對研究領(lǐng)域?qū)ROMs工具進行推薦等級的分類,A類:推薦使用;B類:有應(yīng)用潛力,仍需進一步評估;C類:不推薦使用。
COSMIN指南主要用于指導(dǎo)研究者對目標(biāo)領(lǐng)域PROMs工具進行基于證據(jù)的系統(tǒng)評價。但研制者也指出,指南在開發(fā)時僅在內(nèi)容效度和結(jié)構(gòu)效度的評價中使用了德爾菲法等結(jié)構(gòu)化研制方法,未能實現(xiàn)更高的科學(xué)性。另外,證據(jù)質(zhì)量評價中樣本量的要求仍是基于經(jīng)驗的,對不同文獻呈現(xiàn)的工具測量屬性評價結(jié)果的匯總方法不足,基于GRADE的升級標(biāo)準(zhǔn)尚不能定義,未能對新的COSMIN指南中的評價標(biāo)準(zhǔn)進行信效度檢驗等問題亦有待進一步探索。
2.5其他評價標(biāo)準(zhǔn) 除以上幾種應(yīng)用較為廣泛且較具代表性的評價標(biāo)準(zhǔn)之外,還有很多其他機構(gòu)或個人發(fā)布的標(biāo)準(zhǔn)也較為常用。比如美國的國家質(zhì)量論壇(Nation quality forum,NQF)的患者報告結(jié)局(PROs)應(yīng)用測量指導(dǎo)文件[16]、歐洲藥品管理局(European medicines agency,EMA)的藥品評價中使用健康相關(guān)生活質(zhì)量(HRQL)測量的指導(dǎo)白皮書[17]、患者報告結(jié)局測量信息系統(tǒng)(PROMIS)測量工具研制和心理測量學(xué)評價的科學(xué)基本標(biāo)準(zhǔn)[18]、國際生存質(zhì)量協(xié)會(ISOQOL)的 “PRO 基本推薦標(biāo)準(zhǔn)”[19]等。多數(shù)在內(nèi)容和形式與以上四種標(biāo)準(zhǔn)較為相似,但亦有其獨特的適應(yīng)范圍和特點。比如NQF指導(dǎo)文件則基于目前移動健康發(fā)展大趨勢,特別提出了對電子健康記錄的評價要求[16]。
3.1四種PROMs工具質(zhì)量評價標(biāo)準(zhǔn)比較 以上四種常用的評價標(biāo)準(zhǔn)雖然在研究領(lǐng)域和研究目的等方面存在不同,但均對PROMs工具質(zhì)量評價環(huán)節(jié)提供了科學(xué)系統(tǒng)的標(biāo)準(zhǔn),且均契合當(dāng)下基于現(xiàn)代測量學(xué)理論發(fā)展測量工具的大勢,對傳統(tǒng)工具和此類工具的評價具有極強的兼容性。另外,MOT-SAC標(biāo)準(zhǔn)和FDA指南采用定性評價的方式,EMPRO和COSMIN采用定量評價為主,與定性評價結(jié)合的方式。
評價內(nèi)容是對PROMs工具進行質(zhì)量評價的核心,基于以上四種評價標(biāo)準(zhǔn)涉及的評價內(nèi)容可以發(fā)現(xiàn),概念框架和以信效度為主的測量學(xué)屬性是所有評價標(biāo)準(zhǔn)必涉及的重要內(nèi)容,基于四種標(biāo)準(zhǔn)主要涉及的評價項目對其評價內(nèi)容進行總結(jié)和比較,見表1。 另外,F(xiàn)DA和COSMIN指南均對評價的順序做出了具體的規(guī)定,指出內(nèi)容效度的評價必須是第一位的。但對于評價標(biāo)準(zhǔn)的選擇絕非簡單的由評價方式或內(nèi)容的數(shù)量等決定。我國研究者于長禾等[20]指出,各標(biāo)準(zhǔn)在評價內(nèi)容、方法、形式和應(yīng)用等方面有其不同的側(cè)重點,選擇評價標(biāo)準(zhǔn)時需要綜合考慮研究者本人的研究目的、納入研究的類型、待評價的量表分類、量表的實施模式等,從而選擇一個或多個合適的評價標(biāo)準(zhǔn),才能實現(xiàn)對PROMs工具的科學(xué)評價。

表1 四種PROMs工具質(zhì)量評價標(biāo)準(zhǔn)評價的主要內(nèi)容
3.2PROMs工具質(zhì)量評價標(biāo)準(zhǔn)的使用特點及應(yīng)用現(xiàn)狀
3.2.1MOT-SAC是該領(lǐng)域較早形成的系統(tǒng)化標(biāo)準(zhǔn) 其質(zhì)量評價8個關(guān)鍵屬性的提出為此類質(zhì)量評價標(biāo)準(zhǔn)的構(gòu)建奠定了基礎(chǔ),為后續(xù)很多其他評價標(biāo)準(zhǔn)提供了參考,比如EMPRO[6]、Terwee等[21]研制的健康相關(guān)問卷的測量屬性質(zhì)量標(biāo)準(zhǔn)等。目前仍有很多研究者在使用該標(biāo)準(zhǔn)評價相關(guān)工具的質(zhì)量及篩選工具,且許多研究者也傾向于將MOT-SAC和其他工具結(jié)合共同使用,以評價PROMs工具質(zhì)量,比如Barone等[22]即共同使用了FDA指南和MOT-SAC標(biāo)準(zhǔn)評價現(xiàn)有的基于PROs的變性術(shù)后滿意度的測量工具,綜合評價后認(rèn)為該領(lǐng)域需要新的高質(zhì)量PROMs工具。
3.2.2FDA指南更為偏重對工具開發(fā)者的指導(dǎo) FDA指南致力于指導(dǎo)研發(fā)新的PROMs工具時保障開發(fā)過程和工具屬性的高質(zhì)量,因此目前很多研究者在開發(fā)PROMs新工具時會主要參考FDA指南,比如Taher等[23]在2018年發(fā)布的非輸血依賴型地中海貧血患者自我報告結(jié)局癥狀測量(NTDT-PRO)工具即嚴(yán)格依據(jù)FDA指南對開發(fā)PROMs工具的流程和屬性要求完成開發(fā)。
3.2.3EMPRO和COSMIN是近年來新發(fā)展的評價標(biāo)準(zhǔn),二者都在評價標(biāo)準(zhǔn)的量化上做出了根本性的改進 自EMPRO和COSMIN發(fā)布以來,國外研究者大量采用其進行PROMs相關(guān)工具的系統(tǒng)評價和工具選擇,同時其也是目前國內(nèi)研究者較為認(rèn)可的評價標(biāo)準(zhǔn)。已有部分國內(nèi)研究開始使用COSMIN標(biāo)準(zhǔn)進行PROMs工具質(zhì)量評價,比如使用COSMIN清單篩選高質(zhì)量的濕疹患者生活質(zhì)量相關(guān)測量量表[24],根據(jù)COSMIN指南對中醫(yī)生活質(zhì)量量表[25]、中老年人綜合評估工具[26]、兒童青少年身體活動問卷[27]等多種領(lǐng)域的測量工具進行系統(tǒng)評價的研究。對EMPRO的認(rèn)識和使用相對較少,國內(nèi)有研究者對其進行過簡單綜述[28],但尚未有發(fā)表的應(yīng)用研究。
在國內(nèi)外PROs領(lǐng)域研究蓬勃發(fā)展的大趨勢下,PROMs工具的開發(fā)、評價和選擇成為熱點。近年也涌現(xiàn)了越來越多關(guān)于PROMs工具質(zhì)量評價的標(biāo)準(zhǔn)或指南,以指導(dǎo)研究者研制或選擇最佳的PROs工具進行高質(zhì)量的研究和實踐。而我國PROs研究發(fā)展起步相對較晚,且目前研究者尚缺乏對使用PROMs工具前進行系統(tǒng)評價和選擇高質(zhì)量工具的意識,開發(fā)新的PROMs工具更是缺乏科學(xué)性和規(guī)范性。因此迫切需要我國研究者了解各種PROMs工具質(zhì)量評價標(biāo)準(zhǔn),并根據(jù)實際研究需求選擇合適的標(biāo)準(zhǔn),以確定研究目標(biāo)領(lǐng)域最為合適的PROMs工具,或依據(jù)標(biāo)準(zhǔn)或指南要求科學(xué)嚴(yán)謹(jǐn)?shù)亻_發(fā)PROMs新工具。