靳英輝, 吳世文, 拜爭剛, 曾憲濤
(1. 武漢大學中南醫院循證與轉化醫學中心·武漢大學循證與轉化醫學中心·武漢大學第二臨床學院循證醫學與臨床流行病學教研室,武漢 430071; 2. 武漢大學新聞與傳播學院廣電系·武漢大學媒體發展研究中心,武漢 430072;3. 南京理工大學公共事務學院社會學系·南京理工大學循證社會科學與健康研究中心,南京 210098)
系統評價(systematic review)與Meta分析(Meta-analysis)發展至今天,已成為研究者及實踐者均需關注的方法。特別是近年來其結果帶來的對現有證據顛覆性的觀點,每每引起軒然大波。如2017年12月,JAMA刊出的Meta分析表明補鈣和維生素D不能降低50歲以上社區人群骨折風險[1];2018年3月,JAMACardiol刊出的Meta分析表明服用ω-3脂肪酸與致死性或非致死性冠心病或任何重要的血管事件無顯著關系[2]。事物的發展及對事物的認知是不斷深化的,伴隨著系統評價與Meta分析的廣泛傳播,亦產生了一些誤解。因此,正確理解其內涵及價值,對有效使用系統評價與Meta分析、避免其局限性具有重要意義。
Meta分析亦被譯為薈萃分析、元分析、統分分析等。據資料可查源自于法國分析學家皮埃爾-西蒙·德·拉普拉斯(Pierre-Simon de Laplace)和德國著名數學家約翰·卡爾·弗里德里?!じ咚?Johann Karl Friedrich Gauss)發明的合并效應量的方法;Meta分析的具體應用最早可追溯至英國皇家天文學家喬治·比德爾·艾里爵士(George Biddell Ariy),他在1861年出版的針對天文學家的專著中闡釋了Meta分析的方法[3]。在醫學領域,著名的統計學家卡爾·皮爾遜(Karl Pearson)于1904年應用該方法將接種腸熱病疫苗與生存率之間的相關系數進行了合并。他認為“由于受發生概率錯誤大小的影響,很多分組資料均太小,不足以獲得結論性的結論”,這一合并的理由至今仍為進行Meta分析的重要理由[4-5]。
Meta分析于1930年開始廣泛在社會科學領域應用;且Meta分析這一術語由美國教學心理、社會學家吉恩·格拉斯(Gene V. Glass)于1976年命名并定義為“The statistical analysis of large collection of analysis results from individual studies for the purpose of integrating the findings”[6-7]。此后,盡管對Meta分析的定義爭議不斷,許多方法學家均對其進行定義,但均傾向于“Meta分析是對以往的研究結果進行系統定量綜合的統計學方法”這一核心要義。1985年,美國社會教育學家拉里·弗農·郝奇斯(Larry Vernon Hedges)和美國教育統計學家英格拉姆·奧爾金(Ingram Olkin)共同出版了第一本專行介紹Meta分析的著作[8]。1991年,生態學領域的首項Meta分析發表[9]。1995年,首篇介紹生態學與進化學領域的Meta分析正式發表[10]。2013年,首部介紹生態學與進化學領域的Meta分析制作手冊正式出版,該書提供了在生態學和進化學中進行Meta分析的第一個全面性的指南,也與其他領域相關,如異質性是預期的、合并了在不同領域中使用的不同方法的明確考慮[11]。
如今,Meta分析在心理、經濟、生態、管理、地理、教育、犯罪、工程、進化生物學等領域得到廣泛應用,醫學領域僅僅是當前應用Meta分析最為活躍的領域之一。2018年3月,美國Stony Brook University生態與進化學系杰西卡·古雷維奇(Jessica Gurevitch)等在Nature正刊撰寫綜述介紹了Meta分析,認為“Meta分析作為一種重要的工具,通過量化已知的識別未知的東西來促進科學的快速發展”[12]。
系統評價亦被譯為系統綜述,起源于研究合成(research synthesis)。這一術語是英國著名的流行病學家及內科醫生阿奇·科克倫(Archie Cochrane)于1979年提出的[7,13]。在臨床實踐中,他注意到已發表的7項隨機對照試驗的結果顯示對早產孕婦采用氫化潑尼松治療可降低早產兒死亡率30%至50%,然而大多數產科醫師卻不知曉這一療法有效,導致約1%的早產兒因未應用該治療而死亡。因此,科克倫提出“醫學各專業應將所有相關的隨機對照試驗收集起來進行系統評價,并隨著新的試驗結果的出現不斷更新,以得出更為科學可靠的結論,從而為臨床實踐提供可靠的證據”。實際上,在1972年他就主張“醫學干預應建立在經過嚴格評價的、基于隨機對照試驗匯總分析的證據基礎上”[14],這一主張最終發展成了開展系統評價必要性的理論基礎。
隨后,美國醫師辛西婭·穆羅(Cynthia D. Mulrow)在分析了1985—1986年間發表在JAMA、NEJM、AnnInternMed和ArchInternMed這4種著名醫學期刊上的綜述后指出[15]: 醫學綜述應致力于解決一個具體的問題,應行有效檢索、應制定明確的納入/排除標準、應標準化評價過程與方法、應客觀全面整合結果,只有建立在系統且全面收集、評價和整合后的結論才可信;此外,綜述作者還應指出當前綜述的局限性及提出日后改進的建議。穆羅醫師的這一觀點奠定了制作系統評價的方法學基礎。
1989年,英國產科醫師伊恩·杰弗里·查默斯爵士(Iain Geoffrey Chalmers)帶領團隊系統性的評價了低價格、短療程的類固醇藥物治療有早產傾向孕婦的隨機對照試驗結果,評價結果顯示類固醇藥物可顯著降低嬰兒死于早產并發癥的風險[16]。該研究被稱之為“一項震驚整個醫學界的研究”;同時也標志著現代意義上的Cochrane系統評價(Cochrane systematic review, CSR)的雛形初步形成。2018年10月,英國循證醫學方法學家邁克·克拉克(Mike Clarke)撰文介紹了系統評價及Systematic Reviews雜志,包括了對系統評價的歷史、現在及未來的反思[17]。
為減少機遇而逐漸發展成熟的Meta分析和為降低偏倚而不斷完善的科學綜述于20世紀90年代最終在醫學領域融合,誕生了“Systematic Reviews”這種全新證據生產方法。1993年7月在倫敦召開的會議上,英國Cochrane中心的方法學家與BMJ雜志的編輯們正式提出“Systematic Reviews”這一術語,并大力進行推廣,如今開展系統評價的理念和方法已獲廣泛接受[7]。系統評價可以是定性的(qualitative systematic review),即未采用Meta分析;也可以是定量的(quantitative systematic review),即包含了Meta分析。
在西班牙內科醫師及流行病學家米克爾·波爾塔(Miquel Porta)主編的第5版A Dictionary of Epidemiology中,對Meta分析的定義有3大要點[18]: ①它是一種統計分析方法,針對獨立的研究結果進行;②它需考察研究結果間差異的來源,當結果具有足夠的相似性時方可使用該方法進行定量合成;③Meta分析具有定性成分和定量成分。因此,可看出Meta分析是將≥2項相同研究主題研究的結果進行定量的綜合分析,這一過程包括問題的提出、納入及排除標準的制定、相關研究文獻的全面檢索、基本信息的描述、相關數據的提取和定量統計分析等。然而,Cochrane協作網(https://www.cochrane.org/evidence)定義的要點為: (1) 如果單個研究的結果被組合起來產生一個整體的統計數據,這通常被稱為Meta分析;(2) 許多Cochrane系統評價通過從多個試驗中收集數據來衡量受益和危害,并將它們組合起來產生一個平均結果,目的是提供更精確的干預效果評估和減少不確定性;(3) 并非所有的Cochrane系統評價數據庫(Cochrane Databases of Systematic Review, CDSR)中的系統評價均包括Meta分析。
上述的第5版詞典對系統評價定義的亦有3大要點[18]: (1) 它運用限制偏倚的策略嚴格評價與綜合針對某一具體問題的所有相關研究;(2) Meta分析不一定是系統評價的必須部分;(3) 它與Meta分析的不同之處在于其不包括對結果的定量總結。因此可見,系統評價是基于某一具體問題,全面收集全球所有未或已發表的相關研究,篩選出符合納入標準的研究并使用臨床流行病學的原則和方法對其進行嚴格的評價,然后再行定性或/和定量(Meta分析)合成,從而得出更為可靠地結論。而Cochrane協作網對其的定義的三大要點為: (1) 系統評價是識別、評估和綜合所有符合預先設定的合格標準的實驗性證據,以回答一個特定的研究問題;(2) 進行系統評價的研究人員使用明確的、系統的方法,以減少偏見的觀點來選擇,以產生更可靠的結果來為決策提供信息;(3) CSR是發表在CDSR上有關衛生保健和衛生政策研究的系統評價。
從上述內容來看,系統評價與Meta分析既同而不和、又和而不同。今天Meta分析仍可以獨立使用,但必須遵循一定的報告格式。兩者之間有4點需要注意: (1) Meta分析可應用于諸多領域,而系統評價幾乎只限于醫學領域;(2) Meta分析可作為系統評價的一部分,但也可單用;(3) 醫學領域中,廣義的系統評價包括Meta分析;(4) Meta分析≠系統評價。
兩者的關系如下: (1) 制作系統評價時并非必須要行Meta分析;(2) 納入的研究是否具有足夠的相似性是是否行Meta分析的主要根據;(3) 制作Meta分析時也并非一定要將其做成系統評價;(4) 對多項同質性好的研究進行了Meta分析的系統評價可稱之為定量系統評價;(5) 若納入研究因同質性不足而無法行Meta分析(即未行Meta分析)、僅行了描述性分析的系統評價稱為定量系統評價;(6) 未行Meta分析的系統評價應屬于吉恩·格拉斯研究分層的第二層次、單純的Meta分析則應屬于第三層次[19]。用圖形來表示,則兩者關系如圖1。

圖1 系統評價/Meta分析與傳統綜述的關系Fig.1 Relationship between systematic review/meta-analysis and narrative reviewCEE: The Collaboration for Environmental Evidence;JBI: Joanna Briggs Institute
傳統的文獻綜述,即敘述性的文獻綜述(narrative review)。系統評價與Meta分析不同于傳統綜述。2001年,英國學者Petticrew對兩者做了清晰的比較[20],見表1;圖1也展示了兩者的區別。

表1 傳統綜述與系統評價的區別
早在1995年,伊恩·查默斯爵士等指出系統評價/Meta分析與傳統綜述相比較,具有以下優點[21]: (1) 使用明確的方法學及流程以最大程度限制在納入及排除研究的過程中出現偏倚;(2) 經過正式比較不同研究的結果,能得出概括性與一致性的結果;(3) 可明確異質性產生的原因、對特定亞組產生新的假設;(4) 進行Meta分析能增加全部結果的精確性;(5) 得出的結論更為可信及精確;(6) 大部分信息能迅速被研究者、衛生服務人員及政策制定者采用;(7) 縮短了研究發現到有效診治策略實施之間的時間差。
為何要行系統評價與Meta分析呢?以醫學研究為例,這樣的情況很常見: 甲藥與乙藥干預某一疾病的效果孰優孰劣、抑或是等效,一般會有多項相關研究發表。然而,這些研究的結果至少存在下述兩種情況: (1) 相互矛盾的結果,即有的結果具有統計學上的差異、有的則無,此時就需要量化不同研究結果間的變異程度并考慮結果的意義;(2) 結果是一致的,即均有統計學上差異或均無,此時仍需盡可能估算出準確無誤的效應量、及探討一致性研究結果的穩健性程度。顯然,系統評價與Meta分析能達成這些目標。
當前公認系統評價與Meta分析有以下9個方面的優點[6-8,21-24]: (1) 對同一主題多項研究的結果間一致性進行評價;(2) 對同一主題多項研究的結果行定性/定量合成;(3) 有效尋找新的或需進一步研究的研究問題,特別適于研究的選題;(4) 當解答目標問題受制于某些條件(如研究對象或時間的制約)時,系統評價與Meta分析是一種較佳的解決方法;(5) 能從方法學的角度評價現階段某個主題的研究設計;(6) 發現某些單項研究未能闡明的問題、可得出對該問題更為全面的認識,亦可解決專家間意見不一不致的局面;(7) Meta分析擴大了樣本量、可增加統計效能和估計效應值的精確度,增強結果的可靠性與客觀性;(8) Meta分析的結果有時會出現一些研究者事先想不到的結果,從而引出新見解;(9) 使證據的使用更加方便。
如圖2所示,該圖展示了PKRP與TURP治療良性前列腺增生癥后的電切綜合征(TURS)的發生情況[25]。若未開展Meta分析,會認為兩者在TURS的發生率是沒有區別的;但經過Meta分析之后,發現了意想不到的結果,即PKRP的TURS發生率顯著低于TURP,也就證明PKRP在這個結局上更安全。因此,與傳統的描述性的綜述相比,設計合理、制作嚴謹的系統評價與Meta分析能對所有證據進行更為全面、客觀的評價,能對結局指標及其效應量進行更準確、客觀的評估,并能很好的解釋不同研究的結果間的異質性。

圖2 示例: Meta分析產生意想不到的發現[25]Fig.2 Example: Emerging unexpected finding from meta-analysis
重復研究導致的研究資源浪費是一個較為普遍性且嚴重的問題。2016年,BMJ發表文章指出“所有新的研究都應以現有證據的系統評價/Meta分析為前提”,目的是“Reducing Waste, Increasing Value”。該文同時用圖展示了如何使用系統評價與Meta分析[26]。而且開展臨床研究的選題思路來源,其中之一就是來源于前期的系統評價與Meta分析的結果,近年來國內許多臨床研究團隊發表高水平的學術論文的研究選題及設計優化即是如此[27-29]。
臨床實踐指南(Clinical Practice Guideline, CPG)是開展實踐的重要參考。目前,得到廣泛認可的最為規范的定義主要是有美國醫學研究所(Institute of Medicine, IOM)提出的定義和世界衛生組織(World Health Organization, WHO)提出的定義。
1990年,IOM提出了臨床實踐指南的定義: 針對特定的臨床情況,系統制定出的幫助臨床醫生和患者做出恰當處理的指導性意見[30]。2011年,IOM對指南對定義進行了更新: “CPG是針對患者特定的臨床問題,基于系統評價形成的證據,并對各種備選干預方式進行全面的利弊平衡分析后提出的最優化指導意見”[31]。并明確指出循證臨床實踐指南(Evidence-Based Clinical Practice Guideline, E-CPG)的六大特征: (1) 必須基于當前所有證據(重點考慮最新的系統評價與Meta分析)形成的系統性評價;(2) 必須是多學科協作;(3) 必須考慮患者的意愿價值偏好;(4) 制定的過程要透明,最大程度的控制可能存在的偏倚,避免利益沖突;(5) 要明確患者臨床問題的結局指標和備選干預方案之間的邏輯關系,有明確的證據質量分級和推薦強度;(6) 新的證據出現時,應當及時更新指南。這個定義提出后,進一步明確了循證臨床實踐指南的定義和特點,得到許多國家學者的認可與推崇。
2012年,WHO對制訂研發的指南提出了明確的定義: “WHO指南是指任何包含了有關衛生干預推薦意見的文件,這些干預設計臨床、公共衛生或衛生政策。推薦意見告訴指南使用者“應該做什么”,指導人們在影響衛生保健和資源利用的不同干預之間做出選擇[32]。WHO指南需要遵循兩大原則: 推薦意見基于對現有證據的全面客觀的評價;形成推薦意見的流程清晰明確。
因此,制定/修訂指南的重要步驟就是規劃系統評價/Meta分析,并基于此使用證據分級標準進行分級。以WHO指南制定的流程為例,依次順序是[32]: (1) 成立WHO指導小組;(2) 列出優先主題;(3) 檢索文獻獲得相關數據及現有系統評價;(4) 核實是否有其他指南;(5) 制定指南范圍方案;(6) 形成可能的推薦意見;(7) 初步構建PICO問題;(8) 按要求進行評審與修訂。可以看出,系統評價是重要的環節。
循證醫學的定義明確指出了任何一項決策都必須包括三大要素: 當前最佳的研究證據、醫生的臨床經驗和患者的意愿[33];這亦是循證醫學的三要素??梢钥闯觯?(1) 證據只是三要素之一;(2) 經過系統化評價的證據是最佳的證據;(3) 系統評價與Meta分析屬于系統化評價的證據。再者,系統評價與Meta分析只是循證醫學證據來源的重要方法之一,并非全部方法。
當前國內最大的誤解就是將循證醫學與系統評價/Meta分析相等同。實際上早在1996年循證醫學的先驅大衛·薩科特(David L. Sackett)等就特別提出不要一提及循證醫學就將其和隨機對照試驗/Meta分析聯系在一起[34]。武漢大學循證與轉化醫學中心曾憲濤博士認為廓清循證醫學與系統評價/Meta分析與的關系只需把握兩點: (1) 證據只是證明有用,有用不等于對我有價值、更不等于我會選擇;(2) 證據不等于決策,只是決策三要素之一。他亦舉了一個例子以助理解[33]: 假設一對夫婦中丈夫患了前列腺癌且懷疑伴骨轉移,當前證據表明PET-CT是診斷骨轉移的最佳手段。那么有以下6種情況: (1) 該夫婦為貧困人群,一次檢查的費用對其來說是昂貴的,盡管主治醫師推薦PET-CT,但他們應該會選擇普通的CT;(2) 該夫婦經濟條件很好,主治醫師推薦PET-CT,但他們依據所掌握的知識堅持認為PET-CT的輻射量很大而拒絕,要求使用普通的CT;(3) 該夫婦經濟條件很好,且要求使用PET-CT,但被告知所在地區的醫院沒有PET-CT設備,只能選擇普通的CT;(4) 該夫婦經濟條件很好,在武漢大學中南醫院住院,經主治醫師推薦后,愿意選擇PET-CT進行檢查;(5) 該夫婦經濟條件很好,愿意選擇PET-CT且所在地區的醫院有PET-CT設備,其主治醫師認為普通的CT即可解決,但他們堅持要使用PET-CT進行檢查,最后主治醫師遵從了他們的意愿;(6) 該夫婦經濟條件很好,愿意選擇PET-CT且所在地區的醫院有PET-CT設備,但其主治醫師認為普通的CT即可解決,最終他們決定聽從醫生的建議選擇了普通的CT檢查。此即“有用≠對我有價值≠我會選擇”。
再者,決策還受到國家或當地政策法規、風俗習慣及文化的影響。例如超聲檢查是鑒別胎兒性別的最佳證據,可用來進行選擇性妊娠,但因國家政策法規不允許等而無法實施,這也是“證據≠決策”的體現。
系統評價與Meta分析因為需要而產生,因不完善而持續優化。身處學術時代與信息爆炸時代的我們,應該去掌握這門方法;冗余的、過載的信息不僅造成了信息的混雜,而且帶給了信息處理的負擔。從新聞傳播學的角度考察,系統評價與Meta分析通過整合信息,能夠通過明確“此時此刻”醫學專業共同體的共識,為專業的醫學報道提供確切的信息,紓解新聞信息中對不確定的醫學知識或健康信息的爭議,從而推動醫學報道不斷提升科學性與前沿性。這在今天信息爆炸的語境中顯得尤為重要。近年來,循證健康新聞報道的出現,以及對相關工具包的開發可謂是有益的嘗試。其次,系統評價與Meta分析通過整合信息、明晰結論、發現新趨勢,為確定的信息報道提供了重要的支撐。關照健康教育與公共衛生運動,系統評價與Meta分析所做的工作以及取得的研究成果能夠用于健康促進,推動公眾不斷提升其健康素養。再者,在學術研究層面,系統評價與Meta分析可用于開展健康傳播話題的研究,例如控煙宣傳效果研究、癌癥信息認知及其影響因素研究等,用整合的數據推動健康話題的聚合研究。盡管系統評價與Meta分析仍有許多值得研究的地方[35],但我們有理由相信,系統評價與Meta分析將持續服務于各學科的發展。