沈藍君 彭健 陳祎婷 胡雁 程云
(1.復旦大學附屬華東醫院,上海 200040;2.復旦大學護理學院,上海 200032;3.復旦大學循證護理中心,上海 200032)
患者報告結局測量工具(Patient-reported outcome measures,PROMs)允許患者通過認知與判斷直接報告自己的健康結果,在醫學研究中具有重要意義[1]。然而,現有PROMs的質量參差不齊,研究者難以判斷出最合適的PROMs[2]。由荷蘭、美國、西班牙等研究機構的心理測量學專家組成的COSMIN指導委員會提出了基于共識選擇健康測量工具的標準(Consensus-based standards for the selection of health measurement Instruments,COSMIN),詳細介紹了規范制作PROMs系統評價的COSMIN方法,以指導研究者與臨床實踐者選擇最合適的PROMs,其中,評價PROMs測量屬性研究的偏倚風險(指研究在設計、實施、分析或報告等研究環節中出現的缺陷[3])是制作PROMs系統評價的基礎[4]。因此,COSMIN開發了評價PROMs測量屬性研究偏倚風險的COSMIN-RoB清單(COSMIN risk of bias checklist)[5],其包括內容效度,內部結構,其它測量屬性這3個部分,共10個框目。其中第一部分(框目1,框目2)主要是評價PROMs開發過程和內容效度研究的偏倚風險。為了使國內研究者與臨床實踐者深入理解和正確應用該工具來評價PROMs開發過程和內容效度研究的偏倚風險,本文將結合多篇文章進行實例解讀。
PROMs開發過程指的是為開發PROMs而進行的所有質性或量性研究,包括條目生成和測試新開發的PROMs。盡管PROMs的開發不是測量屬性,但PROMs開發過程中采用設計良好的定性方法有助于提高內容效度的質量[6]。因此,在評價PROMs的內容效度時,需要首先使用框目1評價PROMs開發過程的偏倚風險。若PROMs開發過程的偏倚風險已被評價并發表在了COSMIN網站上[7],建議研究者考慮使用此評分而不是再次評價。框目1由1a、1b兩部分組成,其中,1a部分(條目1~13)評價“PROM設計”(條目生成)的偏倚風險;1b部分(條目14~35)評價認知訪談或其他預實驗(Pilot test)的偏倚風險。框目1采用了四分制評分法(即很好,良好,模糊,不良)對PROMs開發過程的偏倚風險進行評價,“很好”代表偏倚風險低,“不良”代表偏倚風險高,整體偏倚風險評分是由所有條目的最低評分決定,評價者可以報告框目1的偏倚風險評分,也可以報告某一部分(如1b部分)的偏倚風險評分。PROMs開發過程的偏倚風險評估清單,見圖1。PROMs內容效度研究的偏倚風險評估清單,見圖2。

圖1 PROMs開發過程的偏倚風險評估清單

圖2 PROMs內容效度研究的偏倚風險評估清單
1.1評價“PROM設計”的偏倚風險(1a) 1a部分主要是評價“PROM設計”的偏倚風險,以確定PROM的相關條目。它包括PROM開發的總體設計要求(條目1~5)和概念引出(條目6~13)。
條目1:指出研究者應清楚地描述所測構念(Construct),以判斷PROM的條目是否與構念相關,以及是否全面覆蓋了構念。“Construct”可以譯為“概念”或“構念”,但相比“概念(Concepts)”,“構念”更強調構造、建造的涵義,在心理測量學應用更為廣泛[8]。例如,在開發Oswestry功能障礙指數(ODI)中,Fairbank等[9]指出功能障礙的定義是與健康人相比,患者的功能受到限制,但并沒有清楚定義“患者功能”或“健康人”這兩個概念,因此,該條目應評為“不良”。
條目2:強調應清楚PROM所測構念的來源,如理論、概念框架等。若構念沒有理論來源等,那么需提供明確的理由以及與其他現有構念的相關性。例如,在開發絕經期生存質量量表(MENQOL)中,Hilditch等[10]將生存質量定義為個人的生理、情感和社會方面完好無損,不受這種條件或治療的不利影響的程度,并將其分為心血管舒縮癥狀、心理社會狀態等5個維度,但并沒有描述清楚選擇這五個維度的原因以及它們與個人的生理、情感和社會方面的相關性,因此,該條目應評為“模糊”。
條目3:指出PROM開發人員應清楚描述PROM的目標人群,以確定PROM對于這一人群的相關性和全面性,并確定PROM在其他人群中的適用性。因此,需要提供有關目標人群的資料,包括疾病類型(如乳腺癌)、重要疾病特征(如疾病的階段)、人口特征(如年齡)等。例如,髖關節和腹股溝結果評分(HAGOS)清楚描述了目標人群是長期存在髖部和腹股溝疼痛的中青年體力活動患者[11],因此,該條目應評為“很好”。
條目4:指出PROM開發人員需要清楚描述PROM的使用情境。使用情境可以指PROM測量的目的(如用于診斷、評價或預測),也可以指一個特定的環境(如在醫院或家中使用)或一個特定的使用方法(如紙張或計算機)。例如,Haemo-QoL指數旨在評估血友病兒童和青少年健康相關生活質量,可用作臨床上的篩查工具,也可應用于大型臨床研究等[12],因此,該條目應評為“很好”。
條目5:強調樣本應具有代表性。為了使樣本能代表目標人群,樣本應具有足夠的差異性,如具有不同的構念表現(如抑郁水平的高低)、疾病特征(如疾病的嚴重程度)以及社會人口特征(如年齡)等。目的抽樣可以獲得多樣化的樣本,但其他抽樣方法也可以考慮。例如,為了確定甲狀腺疾病如何影響患者的生活,并為甲狀腺特異性問卷選擇最相關的生活質量問題,研究者采用非隨機抽樣選擇患者,旨在最大限度地擴大患者在診斷、治療、病程和年齡等方面的差異[13],因此,該條目應評為“很好”。
條目6:指出研究者應使用合適的定性數據收集方法,以確定新PROM的相關條目。廣泛認可的定性方法有訪談、焦點小組訪談和概念構圖(Concept mapping)等。如果研究中使用了其他方法(如觀察),則應提供相應的理由。但需要注意的是這些方法應適合所測構念(如考慮主題的敏感性)和研究人群(如考慮年齡、認知、溝通能力等因素)。例如,流感強度和影響問卷(FluiiQTM)用于衡量流感對流感樣疾病(ILI)患者和實驗室確診流感患者的癥狀和影響,其在開發過程中,使用了概念構圖法,患者和專家訪談法,以及對患者的焦點小組訪談進行數據收集,以指導和生成條目[14],因此,該條目應評為“很好”。
條目7:強調焦點小組和訪談需要有經驗豐富的主持人/訪談者,其需要熟悉定性方法的使用以及對受試者的體驗有充分的了解,以確保所獲信息與PROM的相關性。如,Wilburn等[15]在開發腸外營養影響問卷(PNIQ)時,明確提到PNIQ的條目是由經驗豐富的研究人員進行半結構式的定性訪談產生的,因此,該條目應評為“很好”。
條目8:強調小組會議或訪談需要有合適的提綱。提綱需包括哪些指示,哪些問題,如何提出問題等,并可以在訪談過程中隨時調整。值得注意的是,對于非常開放的方法,如扎根理論方法,可能不使用提綱也會產生非常有價值的結果,因此,若有不使用訪談提綱的充足理由,就可以認為這一條目“不適用”。例如,在慢性下肢靜脈功能不全生活質量調查問卷(CIVIQ)的開發中,只描述了訪談提綱是根據文獻回顧和對4名醫學專家和3名全科醫生的訪談資料編寫的,但提綱的具體內容描述不清楚[16],因此,該條目應評為“良好”。
條目9:指出小組會議或訪談應進行錄音并逐字轉錄。若有充分的理由說明錄音不合適,如對于一些敏感的問題,或當患者拒絕,又或存在道德問題時,那么建議研究者做筆記,并可以給予一個“很好”或“良好”的評分。需要注意的是,在使用概念構圖方法時不需要錄音或轉錄。例如,在對流感強度和影響問卷的開發過程中,對專家的訪談只提到由1名訪談者和2名觀察員進行記錄,但沒有錄音也并未進行逐字記錄,且未提供充分的理由[14],因此,該條目應評為“模糊”。
條目10:強調需要使用合適的方法分析數據。合適的方法取決于研究目的,通常可以使用多種方法,例如內容分析,演繹分析(探索數據中已知的理論/現象/概念,與驗證假設有關),框架分析(一種根據關鍵主題、概念和新興類別對數據進行分類和組織的方法),扎根理論,以及計算機輔助定性數據分析軟件等,但所有方法都強調受訪者的討論情境。例如,在青少年哮喘生活質量問卷(AAQOL)的開發中,焦點小組訪談和三次單獨訪談都以開放式問題開始,隨后是半結構式訪談,直至沒有發現新條目,然后將選定的條目合并以形成初步問卷[17],然而此問卷并沒有使用合適的定性方法分析數據,因此,該條目應評為“不良”。
條目11:強調至少有部分數據應獨立編碼。定性數據的分析可能因人而異,因此,在進行數據編碼時要涉及兩名及以上經過培訓的研究者。每個研究者需獨立完成轉錄文本和編碼,并與其他研究者進行討論、比較和修改,最后達成共識。例如,Khadra等[18]在開發青少年癌癥痛苦量表時使用定性數據分析軟件MAXQDA 10 Plus進行了逐行分析,并進行編碼、分類等,然而并不清楚是否有兩名研究者獨立編碼,因此,該條目應評為“模糊”。
條目12:要求數據收集達到飽和,以加強PROM的可理解性和廣泛適用性[19]。飽和對于基于“形成模型”的工具(例如癥狀量表)來說尤為重要,因為此類工具要求沒有遺漏構念的重要方面。研究者應提供證據表明數據飽和,常用方法可以使用由概念編碼組成的飽和表(Saturation grid)[20]進行記錄和比較。若無證據,且研究者在不同的人群中進行了大量的焦點小組或訪談,也可以認為數據可能已飽和。例如,在開發再生障礙性貧血(Aplastic anemia,AA)和陣發性夜間血紅蛋白尿(Paroxysmal nocturnal hemoglobinuria,PNH)專用的疾病特異性生活質量問卷(QLQ-AA/PNH)的過程中,研究者對超過25個城市的患者進行了面對面訪談,在第1階段,對19例患者和8名AA/PNH醫生進行訪談,并將得出的649個生活質量問題匯總成175個,然后由30例患者和14名醫生根據其重要性進行分級(第2階段)[21],鑒于這種方法,可以認為可能已飽和,因此,該條目應評為“良好”。
條目13:指出量性研究(調查)需要有合適的樣本量。若使用量性研究來確定PROM的相關內容,那么研究的樣本量應足夠大。例如,在開發Haemo-QoL指數時,Pollak等[12]在六個歐洲國家的20個血友病治療中心調查了總共339名血友病兒童及其父母,樣本量大于100,因此,該條目應評為“很好”。
1.2評價認知訪談或其他預實驗的偏倚風險(1b) 1b部分主要是評價認知訪談或其他預實驗的偏倚風險,以評估PROM的可理解性和全面性,包括總體設計要求(條目15)、可理解性(16~25)、全面性(26~35)。
條目14:強調開發PROM應進行認知訪談或預試驗,以測試PROM的可理解性和全面性。若沒有進行認知訪談或預試驗,框目1的其余部分都可以跳過,那么PROM開發過程的偏倚風險將被評為“不良”。例如,在流感強度和影響問卷的開發過程中,研究者對患有ILI或確診的流感患者進行了認知訪談,考察每個條目和問卷格式的適當性、可理解性等[14],因此,該條目應評為“很好”。
條目15:參見條目5。
條目16:指出研究者需要詢問受試者PROM的可理解性,包括PROM的指導語、條目、對應選項和回憶期。回憶期是指受試者體驗(或事件)與評估之間的時間間隔,回憶期可能是即時的(如您“現在”感覺如何),可能是2周(如胃輕癱的主要癥狀指數是評估患者在過去2周的癥狀情況)[22]。若不清楚是否詢問或沒有詢問受試者PROM的可理解性,該條目將被評為“模糊”或“不良”,那么可以跳過條目17~25。例如,在流感強度和影響問卷開發過程中,研究者對患有ILI或確診的流感患者進行了認知訪談,詢問患者對問卷內容的理解性,并對指導語、問卷完成的難易程度以及答案選項的適當性進行評價[14],因此,該條目應評為“很好”。
條目17:強調PROM的條目應以最終形式(最終的措辭,對應選項等)進行測試,以確保條目的可理解性。基于認知訪談或其它預實驗的輕微調整是允許的,但若對一個條目、對應選項或回憶期做出了重大調整,那么調整后的條目需要以最終形式進行重測。例如,在胃腸道癥狀評定量表(GSRQ)的開發過程中,研究者對10例胃腸道疾病患者進行調查,要求患者完成問卷和4個補充問題(如你覺得有什么問題難以理解嗎)[23],但文章中沒有描述預實驗的結果,因此不清楚是否發現任何問題,以及是否對條目進行了調整和重測,因此,該條目應評為“模糊”。
條目18:指出評價PROM指導語,對應選項和回憶期的可理解性應使用合適的定性方法,如認知訪談等[24]。例如,DyNaChron慢性鼻功能障礙問卷[25]的開發過程提到1名心理學家對10例患者進行了問卷的預調查并隨后進行了半結構式訪談,盡管并沒有清楚描述提出的問題,但可以認為進行半結構式訪談是一種系統的方法,且訪談是由1名心理學家進行的,他可能對認知訪談有一定的了解,因此,該條目應評為“良好”。
條目19:指出測試每個條目的受試者數量應是合適的。在質性研究中,所需訪談次數與所測構念的復雜程度、PROM指導語和條目的復雜性以及目標人群的特征和多樣性有關,而相比受訪者的數量,數據飽和更重要。在量性研究中,患者的樣本量則至少需要50例才可以評為“很好”(可以認為通過對50例患者的調查就可以達到飽和狀態)。例如,Khadra等[18]在開發青少年癌癥痛苦量表時訪談了19例患者和16名醫療保健專家,并將收集到的訪談資料用定性數據分析軟件進行分析,因此,該條目應評為“很好”。
條目20:參見條目7。
條目21:參見條目8。
條目22:參見條目9。
條目23:參見條目10。
條目24:強調至少需要兩名研究者參與分析,以確保分析嚴密以及防止偏倚。然而,這在認知訪談階段并不像在條目開發階段那么重要。因此,若不清楚是否有兩名研究者參與分析或只有一名研究者參與分析,可以給出“模糊”的評分。例如,在DyNaChron慢性鼻功能障礙問卷[25]的開發過程中,研究者僅僅簡單描述了認知訪談和預實驗的過程,并未描述有幾名研究者進行分析,因此,該條目應評為“模糊”。
條目25:指出通過調整PROM后需要妥善解決PROM指導語,條目,對應選項和回憶期的可理解性問題。若問題沒有得到妥善處理,或PROM在實質性調整后沒有進行重測,那么建議給出“不良”的評分。例如,在胃腸道癥狀評定量表的開發過程中,研究者對10例胃腸道疾病患者進行了抽樣調查,要求患者完成問卷和四個補充問題[23],但并沒有描述預實驗的結果,因此不清楚是否對這些條目進行了調整和重測以及問題是否得到妥善解決,因此,該條目應評為“模糊”。
條目26:強調應明確詢問受試者PROM的全面性,即這些條目是否全面涵蓋了PROM的所測構念。在認知訪談或預實驗這一階段,受試者可能對概念引出階段訪談中被遺漏的重要內容有不同的想法,如果概念引出階段進行得很好,那么重要概念被遺漏的風險就相對比較低,因此,除了條目35之外,本部分關于全面性條目(26~34)的評分均不低于“模糊”。例如,在胃腸道癥狀評定量表的開發過程中,研究者在預實驗和認知訪談階段詢問了患者問卷上的這些條目是否涵蓋了腸道狀況的某些特定方面[23],因此,該條目應評為“很好”。
條目27:指出PROM條目的最終形式需要進行測試,以評價PROM或子量表的全面性。如果條目在預實驗后被刪除或增加,應進行新的預實驗。例如,Rutishauser等[17]在開發青少年哮喘生活質量問卷時,使用了初步的調查問卷對66名青少年進行了預實驗,并在刪除部分條目后,形成了最終形式的AAQOL,然而并未再進行預實驗評價其全面性,僅僅只是驗證了最終版本AAQOL的構念效度和重測信度,因此,該條目應評為“模糊”。
條目28:強調需要使用合適的方法評價PROM的全面性。合適的方法可以是質性研究,如認知訪談。若只使用書面信息(調查),那么可以評為“良好”。例如,在膝骨關節炎預篩查問卷(KOPS)的開發過程中,研究者通過對15名受試者進行預實驗并咨詢專家小組,以確保問卷正確包含所有基本概念以及所有條目合適且容易理解[26],盡管訪談沒有描述清楚,但在文章的結果部分提到在預實驗的基礎上增加了一個新的風險因素,因此,該條目應評為“良好”。參見條目18。
條目29:參見條目19。
條目30:參見條目7。
條目31:參見條目8。
條目32:參見條目9。
條目33:參見條目10。
條目34:參見條目24。
條目35:指出通過調整PROM后需要妥善解決PROM全面性的問題。若發現重要問題未能妥善處理,建議給予“不良”的評分。參見條目25。
內容效度研究是指對已有PROMs的相關性、全面性或可理解性的研究,其應當在最終版本的PROMs確定后進行。在評價完PROM開發過程的偏倚風險后,需要用框目2評價PROM內容效度研究的偏倚風險,其評分方式與框目1相同。框目2包括以下五部分:2a部分(條目1~7)詢問受試者PROM條目的相關性;2b部分(條目8~14)詢問受試者PROM的全面性;2c部分(條目15~21)詢問受試者PROM的可理解性;2d部分(條目22~26)詢問專家PROM條目的相關性;2e部分(條目27~31)詢問專家PROM的全面性。
2.1詢問受試者PROM條目的相關性(2a) 條目1指出應使用合適的方法詢問受試者每個條目與他們經驗的相關性。在內容效度研究中收集數據最合適的方法是質性研究,如訪談、焦點小組訪談等。若使用調查方法,建議評為“良好”。例如,土耳其版的強直性脊柱炎生活質量問卷(ASQOL)[27]的內容效度通過“認知訪談(Cognitive debriefing)”的方法進行評估,結果表明土耳其版ASQOL清晰、相關和全面,然而并沒有對這些方法進行詳細說明,因此不清楚這些條目的相關性是如何被評估的,因此,該條目應評為“模糊”。
條目2:參見條目19,框目1。
條目3:參見條目7,框目1。
條目4:參見條目8,框目1。
條目5:參見條目9,框目1。
條目6:參見條目10,框目1。
條目7:參見條目24,框目1。
2.2詢問受試者PROM的全面性(2b) 條目8指出需要使用合適的方法評價PROM的全面性。研究者應明確詢問受試者這些條目是否全面涵蓋了PROM的所測構念。例如,青少年癌癥痛苦量表[18]的內容效度由患者和醫療保健專業人員組成的小組進行評估,其小組審查了量表的所有條目,并修改、添加或刪除任何不相關或不清楚的條目。在文章中“添加”這個詞意味著量表的全面性得到了評估。因此,該條目應評為“良好”。參見條目28和框目1。
條目9:參見條目19,框目1。
條目10:參見條目20,框目1。
條目11:參見條目21,框目1。
條目12:參見條目22,框目1。
條目13:參見條目23,框目1。
條目14:參見條目24,框目1。
2.3詢問受試者PROM的可理解性(2c) 條目15強調需要使用合適的定性方法評價PROM指導語,條目,對應選項和回憶期的可理解性。如果可理解性沒有得到系統的評估,只是根據受訪者自發的評論(或沒有評論),或患者填寫的調查問卷,那么建議對可理解性給予“不良”的評分。例如,胃輕癱主要癥狀指數(GCSI)是一種患者報告胃輕癱預后的一種工具,其回憶期為2周,為了盡量減少患者的回憶偏倚,研究者開發了每日日記版本的GCSI(GCSI-DD)[28],并進行了面對面的認知訪談,旨在獲取相關信息,包括參與者如何描述其癥狀經歷,用什么語言描述他們的情況和癥狀,以及他們如何理解GCSI-DD上的指導語,單個條目和對應選項,盡管沒有提到回憶期,但每日日記版本的GCSI-DD通常被認為與之不相關,因此,該條目應評為“很好”。參見條目18,框目1。
條目16:參見條目19,框目1。
條目17:參見條目20,框目1。
條目18:參見條目21,框目1。
條目19:參見條目22,框目1。
條目20:參見條目23,框目1。
條目21:參見條目24,框目1。
2.4詢問專家PROM條目的相關性(2d) 條目22指出需要使用合適的方法詢問專家每個條目與所測構念的相關性。詢問PROM條目相關性的一種典型方法是召集一組專家,針對特定的構念和所關注的人群,向他們提供目標列表和PROM條目,并以標準化的方式收集他們的反饋。例如:研究者通過征求10名專家(5名腫瘤學專家和5名腫瘤護理專家)對HCFS(一種癌癥疲乏量表)[29]初稿的意見來評估內容效度,要求這些專家從3個方面評估初稿的49個條目,然后將一些意見有分歧或不合適的條目進行刪除,因此,該條目應評為“很好”。參見條目1,框目2。
條目23:強調應納入所有相關學科的專家,包括研究人員、臨床醫生和其他在所測構念和目標人群上具有專業知識的醫療保健工作者。COSMIN還建議在評審團隊中納入對目標人群有一定經驗的人。例如,ABILOCO-Kids問卷是一種用于6至15歲腦癱兒童運動能力的測量工具,Diwan等[30]在驗證該問卷,確保古吉拉特語版的表面效度和內容效度時,采用群體一致性方法,由在兒科、兒科神經學、兒科整形外科學和兒科理療領域具有平均24.62年經驗的專家組(n=8)對每個條目進行評價,并分析其內容、意義、措辭、格式、評分等,因此,該條目應評為“很好”。
條目24:指出測試每個條目的專家數量應合適。盡管認為納入所有相關學科的專家比專家人數達到飽和更為重要,但應包括最低限度人數的專家。有研究者建議大約5名在所測構念方面具有專業知識的專家對工具進行審查[31],或者在焦點小組中建議15~20名在該領域有一定知識的專家進行評價[32]。COSMIN則建議在專家的數量與患者數量方面使用相同的標準。參見條目19,框目1。
條目25:指出需要使用合適的方法分析數據。COSMIN認為對每個條目的相關性進行分別評分是一種合適的方法,其可以計算出專家的平均分或內容效度指數或變異。例如,Khadra等[18]在對青少年癌癥痛苦量表的制定過程中,邀請了5名不同專業的醫療衛生保健專家對每個條目的內容以及整個量表進行評價和反饋,并修改、添加或刪除無關的條目,然后計算每個條目的內容效度指數(CVI),結果發現只有5項的CVI為0.80,其余的CVI為1,量表的平均CVI為0.98。可見,該研究使用了合適的方法,因此,該條目應評為“很好”。
條目26:參見條目24,框目1。
2.5詢問專家關于PROM的全面性(2e) 條目27指出需要使用合適的方法評價PROM的全面性。例如,Korakakis等[33]在對運動誘發的腿痛問卷進行跨文化調試和驗證時,對于內容效度,其提到將調試好的問卷分發給5名不同學科的專家,并以5分制的評分標準對每個條目進行了評分(1分=差;2分=一般;3分=好;4分=非常好;5分=優秀匹配),然而并不清楚究竟要求專家們在全面性方面給出什么樣的評分,而且評分似乎更多的是指相關性(優秀匹配),而不是條目的全面性,因此,該條目應評為“模糊”。參見條目28,框目1。
條目28:參見條目23,框目2。
條目29:參見條目24,框目2。
條目30:參見條目25,框目2。
條目31:參見條目26,框目2。
COSMIN-RoB清單中PROMs開發過程和內容效度研究的偏倚風險評估條目非常具體清晰。該清單不僅可以詳細地指導研究者對PROMs開發過程和內容效度研究的偏倚風險進行評價,而且也可以幫助研究者在研究設計、實施等階段參考該工具以減少偏倚風險,增加研究結果的可信度。但是,PROMs開發過程和內容效度研究的偏倚風險清單仍然存在一些不足。比如,清單條目較多,總共有2個框目共66個條目,評價過程比較費時費力;再比如,清單里的一些條目比較主觀,特別是質性研究的設計與分析方面,需要研究者自己判斷,這可能會影響評價結果。因此,COSMIN-RoB清單仍然需要不斷完善和更新。