醫學領域一次研究和二次研究的方法學質量（偏倚風險）評價工具

2021-03-03 04:25:38李柄輝李路遙王朝陽任學群

醫學新知 2021年1期

李柄輝，訾豪，李路遙，，王朝陽，，任學群，郭毅，譯

1. 武漢大學中南醫院循證與轉化醫學中心（武漢 430071）

2. 武漢大學中南醫院泌尿外科（武漢 430071）

3. 河南大學循證醫學與臨床轉化研究院（河南開封 475000）

在20世紀，著名教授Cochrane A、Guyatt GH和Chalmers IG[1-3]的開創性工作使我們進入了循證醫學（evidence-based medicine，EBM）時代。在這個時代，如何檢索、評價和使用最佳證據非常重要。系統評價與Meta分析是科學總結一次研究數據最常用的方法[4-6]，也是制定臨床實踐指南（clinical practice guideline，CPG）的基礎[7]。因此，為了進行系統評價和/或Meta分析，評估原始研究的方法學質量非常重要。當然，在使用系統評價/Meta分析前評估其自身的方法學質量亦是關鍵。質量包括內部真實性和外部真實性，而方法學質量通常是指內部真實性[8-9]。內部真實性也被Cochrane協作網稱為“偏倚風險（risk of bias，RoB）”[9]。

目前有三種類型的質量評價工具：量表、清單和條目[10-11]。2015年，Zeng等[11]研究了用于隨機對照試驗（randomized controlled trial，RCT）、非隨機臨床干預研究、隊列研究、病例-對照研究、橫斷面研究、病例系列、診斷準確性研究（也稱為診斷準確性試驗；diagnostic test accuracy，DTA）、動物實驗、系統評價與Meta分析、以及CPG的方法學質量工具。由于，現有評價工具可能會發生一些變化、新工具也可能會出現，近年來也開發了新的研究方法，因此，有必要系統地研究用于評估方法學質量的常用工具，尤其是用于經濟學評價、臨床預測規則/模型和質性研究的工具。

本綜述介紹了截至2019年12月的一次和二次醫學研究的相關方法學質量（包括“RoB”）評價工具，表1列出了基本特征。希望本綜述可以幫助證據的生產者、使用者和研究者。

表1 方法學質量（偏倚風險）評價工具的基本特征Table 1. Basic characteristics of methodological quality (deviation risk) evaluation tools

續表1

1 干預性研究

1.1 隨機對照試驗（個體或整群）

第一個RCT由Hill BA（1897-1991）設計，并成為迄今為止實驗研究設計的“金標準”[12-13]。如今，隨機試驗的Cochrane偏倚風險工具（于2008年制定并于2011年3月20日進行修訂）是RCT中最常用的質量評價工具[9,14]，被稱為“RoB”。2019年8月22日（于2016年制定）發布了此工具的隨機試驗中評估RoB的修訂版（RoB 2.0）[15]。RoB 2.0工具適用于個體隨機、平行組和整群隨機試驗，可從專用網站https://www.riskofbias.info/welcome/rob-2-0-tool上獲取。RoB 2.0工具包含五個偏倚領域，與原始Cochrane RoB工具相比有很大變化（附表1-A-B列出了這兩個版本的主要條目）。

物理治療證據數據庫（PEDro）量表是專門用于RCT物理治療的一種方法學評價工具[16-17]，可在http://www.pedro.org.au/english/downloads/pedroscale/獲取，內容涉及11個條目（附表1-C）。照護的有效實踐與組織（EPOC）是一個Cochrane評審小組，該小組開發了一種用于復雜干預隨機試驗的工具（稱為“EPOC RoB工具”）。該工具有9個條目（附表1-D），可在https://epoc.cochrane.org/resources/epoc-resources-reviewauthors獲取。文獻嚴格評價項目（CASP）是牛津大學三重價值醫療保健中心（3V）的一部分，該產品組合提供資源以及學習和發展機會，以支持文獻嚴格評價的發展（https://www.casp-uk.net/）[18-20]。RCT的CASP清單由三個部分組成，涉及11個條目（附表1-E）。美國國立衛生研究院（NIH）還開發了質量評價工具，用于對照干預研究（附表1-F），以評估RCT的方法學質量（https://www.nhlbi.nih.gov/health-topics/studyquality-assessment-tools）。

喬安娜·布里格斯學院（JBI）是一家獨立的、國際性的、非營利性研究與開發組織，總部位于南澳大利亞州阿德萊德大學健康與醫學學院（https://joannabriggs.org/）。它制定了許多重要的評估清單，涉及醫療保健干預措施的可行性、適當性、有意義性和有效性。附表1-G列出了針對RCT的JBI嚴格評估清單，其中包括13個條目。

蘇格蘭國家指南小組（SIGN）成立于1993年（https://www.sign.ac.uk/）。其目標是通過減少實踐和結果的差異，基于當前證據的有效實踐制定和傳播國家臨床指南，來提高蘇格蘭患者的衛生保健質量。它還制定了許多重要的評估清單，以評估包括RCT（附表1-H）在內的不同研究類型的方法學質量。

此外，Jadad量表[21]、改良的Jadad量表[22-23]、Delphi列表[24]、Chalmers量表[25]、英國國家健康和臨床優化研究所（NICE）方法學清單[11]、Downs & Black清單[26]，以及West等在2002年總結的其他工具[27]，如今并不常用或不被被推薦使用。

1.2 動物實驗

在開展臨床試驗之前，通常在動物模型中測試新藥的安全性和有效性[28]，因此動物研究被視為臨床前研究，具有重要意義[29-30]。同樣，動物研究的方法學質量也需要評估[30]。1999年，最初的“美國卒中治療學術產業圓桌會議小組（STAIR）”推薦了他們評估卒中動物研究質量的標準[31]，該工具也稱為“STAIR”。2009年，STAIR小組更新了標準，并制定了“確保高質量科學研究的推薦意見”[32]。此外，Macleod等[33]在2004年提出了一種基于STAIR的工具來評估動物研究的方法學質量，總分為10分，也稱為“CAMARADES（實驗研究動物數據的Meta分析和評價的協作方法）”；其中“S”以前代表“卒中（Stroke）”，現在代表“研究（Studies）”（http://www.camarades.info/）。在CAMARADES工具中，每個條目的最高得分為1分，而該工具的總得分最高為10分（附表1-J）。

2008年，荷蘭動物實驗系統評價研究中心（SYRCLE）成立，該團隊基于原始的Cochrane RoB工具[34]開發并發布了用于動物干預性研究的RoB工具——SYRCLE的RoB工具。這個新工具包含10個條目，目前已成為評價動物干預性研究方法學質量最為推薦的工具（附表1-I）。

1.3 非隨機研究

在臨床研究中，RCT并不總是可行的[35]。因此，非隨機設計仍然很重要。在非隨機研究（也稱為準實驗研究）中，研究者控制參與者的分組，但未采用隨機分組[36]，包括隨訪研究。根據是否進行比較，非隨機臨床干預研究可以分為比較和非比較兩種亞型，非隨機研究的偏倚風險—干預性（ROBINS-I）評價工具[37]是首選推薦工具。開發此工具的目的是評估非隨機干預性研究的偏倚風險，這類研究評估干預措施的相對有效性（損害或獲益），但未采用隨機方法將受試者（個體或整群）分配給各組。此外，JBI嚴格評估清單包括9個項目，也適用于準實驗研究（非隨機實驗研究）。非隨機研究的方法學指標（MINORS）[38]工具也可以被用于評價非隨機研究，該工具共包含12個得分點；前8個條目可以用于非比較研究和比較研究，而后4個條目則適用于兩組或多組的研究。每個項目的得分都從0到2，總體質量得分為16或24分。附表1-K-L-M分別列出了這三個工具的主要條目。

具有單獨對照組的非隨機研究也可以稱為臨床對照試驗或前后對照研究。對于這種設計類型，EPOC RoB工具是合用的（附表1-D）。使用此工具時，“隨機序列生成”和“分配隱藏”應記為“高風險”，而其他項目的評分可能與隨機試驗的評分相同。

沒有單獨對照組的非隨機研究可以是前后對照研究、病例系列（非對照縱向研究）或間斷時間序列研究。病例系列研究通常描述了一系列個體，接受相同的干預，并且沒有對照組[9]。有幾種工具可以評估病例系列研究的方法學質量。最新的一個工具是在2012年由Moga C等[39]使用加拿大衛生經濟學研究所（IHE）研發的改良德爾菲技術開發的，因此，也被稱為“IHE質量評價工具”（附表1-N）。此外，NIH也為病例系列研究開發了質量評價工具，其中包括9個項目（附表1-O）。對于間斷時間序列研究，建議使用“EPOC間斷時間序列研究RoB工具”（附表1-P）；對于前后研究，建議使用NIH無對照組的前后研究質量評價工具（附表1-Q）。

此外，對于非隨機干預性研究，Reisch工具（治療研究評估清單）[11,40]、Downs ＆ Black清單[26]以及Deeks等總結的其他工具[36]，如今已不常用或不被推薦使用。

2 觀察性研究和診斷研究

觀察性研究包括隊列研究、病例-對照研究、橫斷面研究、病例系列、病例報告和比較效果研究[41]，可分為分析性研究和描述性研究[42]。

2.1 隊列研究

隊列研究包括前瞻性隊列研究、回顧性隊列研究和雙向性隊列研究[43]。有一些評估隊列研究質量的工具，例如CASP隊列研究清單（附表2-A）、SIGN隊列研究清單（附表2-B）、NIH觀察性隊列研究和橫斷面研究質量評價工具（附表2-C），用于隊列研究的紐卡斯爾-渥太華量表（NOS，附表2-D）和用于隊列研究的JBI清單（附表2-E）。但是，Downs＆Black清單[26]和NICE清單[11]現已不常使用或不被推薦使用。

NOS量表[44-45]由澳大利亞紐卡斯爾大學和加拿大渥太華大學之間合作研發，是目前評價隊列研究最常用的工具，使用者可以根據特定主題進行修改。

2.2 病例-對照研究

病例-對照研究根據是否存在特定疾病或狀況選擇受試者，并尋找可能導致疾病或結局的早期暴露因素[42]。相比隊列研究，它的優勢在于不會出現受試者“脫落”或“失訪”的問題。目前，有一些可評估病例-對照研究方法學質量的工具，包括CASP病例-對照研究清單（附表2-F）、SIGN病例-對照研究清單（附表2-G）、NIH病例-對照研究質量評價工具（附表2-H），JBI病例-對照研究清單（附表2-I）和NOS病例-對照研究量表（附表2-J）。其中，NOS也是當今最常用于評價病例-對照研究的工具，并且可以根據特定的主題進行修改。

此外，Downs＆Black清單[26]和NICE清單[11]現已不常用或不被推薦使用。

2.3 橫斷面研究（分析性或描述性）

橫斷面研究是用來提供某個時間點特定人群中疾病和其他變量的研究。它可以分為分析性和描述性。描述性橫斷面研究僅描述特定人群在某個時間點或一段時間內的病例或事件的數量；而分析性橫斷面研究可用于推斷疾病與其他變量之間的關系[46]。

為了評估分析性橫斷面研究的質量，目前推薦的工具有NIH質量評價工具（附表2-C），JBI分析性橫斷面研究評估清單（附表2-K）和橫斷面研究評價工具（appraisal tool for cross-sectional studies，AXIS工具，附表2-L）[47]。AXIS工具是一項評估研究設計和報告質量以及偏倚風險的工具，該工具于2016年開發，包含20個條目。在這三種工具中，JBI清單是最常用的一種。

通常使用描述性橫斷面研究來描述疾病的患病率和發病率。因此，用于分析性橫截面研究的評價工具并不適用。只有很少的質量評價工具適用于描述性橫斷面研究，例如用于報告流行率數據研究的JBI量表[48]（附表2-M），美國衛生保健質量和研究機構（AHRQ）用于評估橫斷面研究/患病率研究的方法學量表（附表2-N），以及Crombie用于評估橫斷面研究質量的條目[49]（附表2-O）。其中，JBI工具是最新的。

2.4 病例系列和病例報告

與上述干預性病例系列不同，病例報告和病例系列用于報告新發疾病或獨特發現[50]。因此，它們屬于描述性研究。僅有JBI清單這一種工具用于病例報告的方法學質量評價（附表2-P）。

2.5 比較效果研究

比較效果研究（comparative effectiveness research，CER）比較了某醫療條件的替代治療方案真實世界情況下的結果[51]。它的關鍵要素包括效果的研究（在真實世界中的效果），而不是效力（理想效果），以及替代策略之間的比較[52]。2010年，比較效果的優良研究（GRACE）團隊成立并制定了相關原則，以幫助醫療保健提供者、研究人員、期刊讀者和編輯者評估觀察性比較效果研究的質量[41]。2016年，發布了GRACE清單5.0版（附表2-Q），用于評估CER的質量。

2.6 診斷性研究

臨床醫生使用診斷試驗（也稱為“診斷準確性試驗，DTA”）來確定患者是否存在某種狀況，從而制定適當的治療計劃[53]。DTA在設計方面具有一些獨特的特征，這些特征不同于標準的干預性研究和觀察性研究。2003年，Whiting等[53-54]開發了一種評估DTA質量的工具，即診斷準確性研究質量評估（quality assessment of diagnostic accuracy studies，QUADAS）工具。2011年，推出了修訂的“QUADAS-2”工具（附表2-R）[55-56]。此外，該領域常用的評價工具有CASP診斷清單（附表2S）、SIGN診斷研究清單（附表2-T）、JBI診斷準確性試驗評估清單（附表2-U）和Cochrane診斷準確性試驗偏倚風險評估工具（附表2-V）。

其中，Cochrane偏倚風險工具（https://meth ods.cochrane.org/sdt/）基于QUADAS工具，而SIGN清單和JBI清單則基于QUADAS-2工具。目前QUADAS-2工具是最為推薦的工具。在2004年Whiting等[53]綜述中提及的其他相關工具如今已不再使用。

3 其他類型一次研究

3.1 衛生經濟學評價

衛生經濟學評價研究比較了替代干預措施的資源使用、成本和健康影響[57]。它著重于確定、衡量、評估和比較兩種或多種替代干預方案的資源使用、成本和效益/效果[58]。如今，衛生經濟學研究越來越受歡迎。當然，其方法學質量也需要在使用之前進行評估。Drummond和Jefferson在1996年開發了第一個進行此類評估的工具[59]，之后，許多工具根據Drummond的條款或其修訂版[60]被開發出來。例如SIGN經濟學評價清單（附表3-A），CASP經濟學評價清單（附表3-B）、JBI經濟學評價清單（附表3-C）和NICE用于經濟學評價的方法清單（附表3-D）等。

我們認為綜合健康經濟評估報告標準（consolidated health economic evaluation reporting standards，CHEERS）聲明[61]屬于報告工具，而不是方法學質量評價工具，因此不建議使用它來評估衛生經濟學評價研究的方法學質量。

3.2 質性研究

在醫療保健領域，質性研究旨在理解和解釋個人經歷、行為、互動和社會環境，以解釋感興趣的現象，例如患者和臨床醫生的態度、信念和觀點，照顧者與患者之間的人際關系，疾病經歷，以及患者痛苦的影響[62]。與定量研究相比，用于質性研究的評價工具更少。如今，CASP質性研究清單（附表3-E）是最常用的工具。此外，JBI質性研究清單[63-64]（附表3-F）和英國國家社會研究中心的質性研究評估框架[65]（附表3-G）也同樣適用。

3.3 預測研究

臨床預測研究包括預測因子發現（預后因素）研究，預測模型研究（研發、驗證以及擴展或更新）和預測模型影響研究[66]。對于預測因子發現研究，可以使用預后研究質量（quality in prognosis studies，QIPS）工具[67]評估其方法學質量（附表3-H）。對于預測模型影響研究，如果使用隨機比較設計，則可以使用RCT評價工具，如RoB 2.0工具。如果使用非隨機比較設計，則可以使用非隨機研究工具，如ROBINS-I工具。對于診斷和預后預測模型研究，可以使用預測模型偏倚風險評價工具（prediction model risk of bias assessment tool，PROBAST；附表3-I）[68]和CASP臨床預測規則清單（附表3-J）。

3.4 文獻和專家觀點

基于文獻和專家觀點的證據（也稱為“非研究證據”）來自各種期刊、雜志、專著和報告中出現的專家觀點、共識、論述、評論以及假說[69-71]。如今，只有JBI清單可用于評估文獻和專家觀點的質量（附表3-K）。

3.5 結局測量工具

結果測量工具用于收集測量結果。“工具”一詞涵蓋的范圍很廣，可以指問卷（例如患者報告的生活質量結果、觀察（例如臨床檢查的結果）、量表（例如視覺模擬量表）、實驗室檢查（例如血液檢查）和影像學（例如超聲或其他醫學成像）[72-73]。測量可以是主觀的或客觀的，可以是一維的（例如態度）或多維的。目前，只有基于共識標準選擇健康測量工具（COSMIN）偏倚風險量表[74-76]（https://www.cosmin.nl/）這一種工具適合評估結果測量工具的方法學質量，附表3-L列出了其主要項目，包括患者報告結果測量（patient-reported outcome measure，PROM）的發展（附表3-LA）、內容真實性（附表3-LB）、結構真實性（附表3-LC）、內部一致性（附表3-LD）、跨文化真實性/測量不變性（附表3-LE）、信度（附表3-LF）、測量誤差（附表3-LG）、校標真實性（附表3-LH）、結構真實性假設檢驗（附表3-LI）和反應度（附表3-LJ）。

4 二次研究

4.1 系統評價與Meta分析

系統評價與Meta分析是總結當前醫學文獻的科學方法[4-6]，其最終目的和價值在于促進醫療保健[6,77-78]。Meta分析是一個將多項研究結果合并的統計過程，通常是系統評價的一部分[11]。當然，在使用系統評價與Meta分析之前，必須進行嚴格的評價。

1988年，Sacks等開發了第一個評估基于RCT的Meta分析的質量工具——Sack質量評估清單（sack’s quality assessment checklist，SQAC）[79]；1991年，Oxman和Guyatt開發了另一個工具——概述質量評估問卷（overview quality assessment questionnaire，OQAQ）[80-81]。為了克服這兩個工具的缺點，2007年，基于這兩個工具開發了一種評估系統評價的評價工具（a measurement tool to assess systematic reviews，AMSTAR）[82]（https://www.amstar.ca/）。但是，初始版本的AMSTAR工具并未包含對非隨機研究偏倚風險的評估，專家組認為修訂應針對系統評價的所有方面。因此，2017年發布了用于評價隨機和非隨機研究的新工具——AMSTAR 2[83]，附表4-A列出了其主要項目。

此外，CASP的系統評價清單（附表4-B）、SIGN的系統評價與Meta分析評價清單（附表4-C）、JBI的系統評價與研究整合評價清單（附表4-D）、NIH的系統評價與Meta分析質量評價工具（附表4-E）、英國約克大學決策支持單位（decision support unit，DSU）網狀Meta分析（NMA）方法學清單（附表4-F）和系統評價偏倚風險（risk of bias in systematic review，ROBIS）[84]工具（附表4-G）都可用于系統評價與Meta分析的質量評價。其中，最常用的是AMSTAR 2、最常建議使用的是ROIBS。

在這些工具中，AMSTAR 2適用于評估隨機或非隨機干預性研究的系統評價和Meta分析，DSU-NMA方法清單適用于網狀Meta分析，而ROBIS適用于干預性研究、診斷準確性試驗、臨床預測和預后研究的Meta分析。

4.2 臨床實踐指南

CPG很好地融入了臨床醫生和專業臨床組織的觀念或經驗[85-87]；并將科學證據納入臨床實踐[88]。但是，并非所有的CPG都是基于證據的[89-90]，其質量也參差不齊[91-93]。到目前為止，已經開發了20多種評價工具[94]。其中，指南研究與評價工具（AGREE）可作為開發臨床途徑評價工具的基礎[94]。AGREE工具于2003年首次發布[95]，并于2009年更新為AGREE II工具[96]（https://www.agreetrust.org/）。現在，AGREE II工具是用于評價CPG最為推薦的工具（附表4-H）。

此外，基于AGREE II，開發了AGREE全球評級量表（agree global rating scale，AGREE GRS）工具[97]，作為評估CPG質量和報告的簡要工具。

5 結語

目前，循證醫學已被廣泛接受，醫護人員的主要注意力在于“從證據到建議”[98-99]。因此，在使用之前對證據進行嚴格的評價是該過程的關鍵[100-101]。1987年，Mulrow CD[102]指出，醫學綜述需要常規使用科學的方法來識別、評估和綜合信息。故在使用研究結果之前，必須對研究進行方法學質量評估。盡管自第一個質量評價工具問世以來已經過去了20多年，但許多用戶仍然誤解了方法學質量和報告質量。其中，有人使用報告清單來評估方法學質量，例如使用報告臨床試驗的統一標準（consolidated standards of reporting trials，CONSORT）聲明[103]來評估RCT的方法學質量，使用流行病學觀察性研究增強報告（strengthening the reporting of observational studies in epidemiology，STROBE）評價隊列研究方法學質量[104]。這種現象表明，需要對醫學生和專業人員進行更多的臨床流行病學普及教育。

方法學質量工具應根據不同研究類型的特征開發。本文中，我們使用“methodological quality”“risk of bias”“critical appraisal”“checklist”“scale”“items”和“assessment tool”在 NICE 網站、SIGN網站、Cochrane圖書館網站和JBI網站中進行搜索。在此基礎上，在PubMed中檢索了“systematic review”“meta-analysis”“overview”和“clinical practice guideline”。與本團隊之前的系統評價[11]相比，我們發現一些工具仍被推薦和使用，某些工具仍在使用但未被推薦，而有些則被淘汰[10,29-30,36,53,94,105-107]。這些工具極大地推動了臨床實踐的發展[108-109]。

此外，相較本團隊既往研究成果[11]，本文列出了更多的工具，尤其是2014年之后開發的新工具和最新修訂版。當然，我們還調整了研究類型分類的方法。首先，2014年，NICE提供了7個方法學檢查清單，但現在僅保留和更新了經濟學評價清單。此外，Cochrane RoB 2.0工具、AMSTAR 2工具、CASP清單和大多數JBI清單都是最新修訂版；NIH的質量評價工具、ROBINS-I工具、EPOC RoB工具、AXIS工具、GRACE清單、PROBAST、COSMIN偏倚風險清單和ROBIS工具都是新發布的工具。其次，本文還介紹了用于評價網狀Meta分析、結果測量工具、文獻和專家觀點、預測研究、質性研究、衛生經濟學評估和CER的工具。第三，我們將干預研究分為隨機和非隨機兩種亞型，然后將非隨機研究進一步分為有對照組和無對照組；此外，還將橫斷面研究分為分析性和描述性兩種亞型，病例系列分為干預性和觀察性兩種亞型。這些分類更加客觀和全面。

顯然，適用于RCT的評價工具數量最多，其次是隊列研究。JBI的適用范圍最廣[63-64]，CASP緊隨其后。但是，仍需進一步努力來開發評價工具。對于某些研究類型，僅有一種適用的評價工具，例如CER、結果測量工具、文獻和專家觀點、病例報告和CPG。此外，對于許多研究類型，例如概述、遺傳關聯研究和細胞研究，都沒有合適的評價工具。而且現有些工具尚未被學界完全認可。將來，如何開發公認的工具仍然是一項具有重要意義的工作[11]。

本綜述可以幫助系統評價、Meta分析、指南和證據使用者等專業人員在產生或使用證據時選擇最佳工具。而且，方法學家可以獲得開發新工具的研究主題。最重要的是，我們必須明白，所有評價工具都是主觀的，使用這些工具時會受到用戶的技能和知識水平的影響。因此，用戶必須接受正規培訓（必須具備相關的流行病學知識），具有嚴謹的學術態度，并且至少應由兩名獨立的審閱者參與評估和交叉檢查，以最大限度地避免出現實施偏倚[110]。

附表中文版位置說明

附表1：干預性研究評估工具及其主要組成部分

附表2：觀察性研究和診斷研究評估工具及其主要組成部分

附表3：醫學領域其他的一次研究評估工具及其主要組成部分

附表4：醫學二次醫學研究評估工具及其主要組成部分

讀者可自《醫學新知》官網（http://www.jnewmed.com/）相對應文章中獲取。