王世琦,蔣青青,黃 申,謝雨霖,曹世義
華中科技大學同濟醫學院公共衛生學院(武漢 430030)
在Meta 分析中,異質性是指納入的單項研究間存在的差異,包括由受試者、干預措施和結局指標等差異引起的臨床異質性,由研究設計和偏倚引起的方法學異質性,以及統計學異質性[1]。如果異質性較大,Meta 合并結果的可靠性就會大大降低,甚至在異質性過大時應當放棄Meta 分析而僅進行系統性綜述。因此,在進行Meta 分析時,選用恰當的異質性評價手段來識別和測量異質性至關重要。
常用的Meta 分析異質性檢驗方法以Q檢驗為主,并在此基礎上演變出H檢驗和I2檢驗。近年來發表的Meta 分析研究中,研究者常用I2取值來劃定研究的異質性程度,以25%、50%和75%區分為低、中、高度異質性,當I2>50%時認為存在明顯異質性,采用隨機效應模型,I2≤50%時則采用固定效應模型。然而,這種方式并不符合I2統計量的定義,也無法真實地展示研究異質性大小[2-3]。本文梳理了目前常用的Meta 分析異質性評價方法,解讀I2統計量誤用情況,并介紹能夠反映Meta 分析異質性的統計指標。
Cochrane 手冊認為,納入同一個Meta 分析的所有研究都不可避免地存在差異,假如一項Meta分析中得出的合并效應量為1.2,其納入的單項研究效應量分布在1.1 到1.3 之間或0.5 到1.9 之間,兩者的臨床價值將大不相同,因此任何Meta分析都必須進行異質性評價,常用異質性評價方法有圖示法和統計學檢驗兩類。
圖示法以森林圖為主,可顯示每項研究及合并效應量的置信區間,如果各單項研究的置信區間很少發生重疊或幾乎不重疊,則提示Meta 合并結果的異質性較大。除森林圖外,拉貝圖、Galbraith 星狀圖、漏斗圖等也可應用于異質性評價,代表各單項研究的點偏離代表合并效應量的線條越遠則提示該研究造成Meta 分析異質性的可能性越大。
圖示法可以簡單直觀地體現各單項研究偏離合并值的情況,但是存在明顯局限性,其主觀解讀空間較大,且無法定量估計異質性大小,所以在實際研究中往往采用統計學檢驗來定量評估Meta 分析的異質性。
常用的Meta 分析異質性統計學指標有Q統計量、I2統計量、H統計量等[4]。Q統計量是標準化尺度上所有單項研究關于平均效應量的離差平方和,展示Meta 分析可觀察到的所有差異,其計算公式如下[5]:
Xi為第i項研究的效應量,M為固定效應加權的平均效應量,SEXi為第i項研究的標準誤。Q統計量服從自由度為k-1 的卡方分布,當P>0.05時可認為研究間的差異由抽樣誤差引起,即Meta分析不存在顯著異質性,反之,則說明研究間差異無法完全由抽樣誤差解釋,則必須考慮Meta 分析的異質性。Q統計量在異質性檢驗中應用非常廣泛,但容易受到納入研究數量的影響,如果納入研究較多,Q檢驗易出現假陽性,如果納入研究較少,易出現假陰性。
H和I2統計量在Q統計量的基礎上,通過校正自由度來降低研究數量對異質性檢驗結果的影響,相對穩定可靠,其計算公式如下:
df為自由度,I2統計量的分子反映了除去抽樣誤差以外各研究間的離差平方和,故I2統計量反映了研究間異質性在合并效應量總差異中所占的比例[5]。當Q≤df時,I2取值為0,故I2的取值范圍在0%~100%之間。需要注意的是,I2和H統計量只能反映研究間異質性和總差異之間的關系,而不能用來直接判斷Meta 分析異質性大小。
在部分Meta 分析中,研究者用I2統計量簡單地描述異質性大小,以I2取25%、50%和 75%這三個值來分別劃定低、中、高水平的異質性,但I2統計量與異質性大小并無直接對應關系,簡單使用I2統計量表達異質性可能會存在I2很大而實際異質性較小,或I2很小而實際異質性較大的謬誤。本文將通過兩個Meta 分析實例來展示這一誤用。
在一項關于非工作時間入院對急性缺血性腦卒中患者死亡率影響的Meta 分析中,與工作時間入院相比,非工作時間入院的急性缺血性腦卒中患者發生院內死亡的比值比為1.08,95%置信區間為(1.03, 1.12),I2統計量為69%[6]。按照目前常用的Meta 分析結果解釋方式,該研究提示非工作時間入院可以顯著增加急性缺血性腦卒中患者的院內死亡風險,但效應量異質性較大。然而該Meta 分析的單項研究效應值分布情況如圖1-A所示,研究間實際離散程度較小。

圖1 兩項Meta分析實例中納入研究效應值的分布情況Figure 1.Distribution of the effect sizes of included studies in the two Meta-analysis examples
在一項關于膳食中攝入α-亞麻酸對心血管死亡風險影響的Meta 分析中,與攝入少量α-亞麻酸的人群相比,攝入大量α-亞麻酸者死于心血管疾病的比值比為0.89,95%置信區間為(0.81,0.97),I2統計量為5.6%[7]。按照目前常用的Meta 分析結果解釋方式,該研究提示膳食中攝入大量α-亞麻酸是心血管疾病的保護因素,且研究異質性極小。然而該Meta 分析的單項研究效應值分布情況如圖1-B 所示,研究間實際離散程度較大。
上述兩個實例中,實例1 的I2明顯大于實例2,但后者的研究間實際離散程度卻更大,說明I2統計量并不能直接判斷研究異質性大小。
在Meta 分析中,需要區分觀察到的效應量和真實的效應量。觀察到的效應量是對總體人群效應量的估計,但由于抽樣誤差,觀察到的效應量總是與該人群中的真實效應量不同,其方差比真實方差更大。如果每個單項研究的效應值完全相等,那么觀察到效應量的預期方差(VOBS)將等于各單項研究的誤差方差(VERR),即:
VOBS=VERR
當每個單項研究的效應值不相等時,這個等式將引入真實效應的方差(T2),即:
VOBS=VERR+T2
根據I2統計量的定義,I2計算公式可以改寫為:
I2統計量反映了研究間異質性在合并效應量總差異中所占的比例,故實例1 中的I2為 69%僅表明觀察到的差異有69%是由異質性而非抽樣誤差引起,實例2 中I2為5.6%僅表明觀察到的差異有5.6%是由異質性而非抽樣誤差引起。對于較小的總差異來說,較大的I2依舊會得出較小的異質性,而相應地,對于較大的總差異來說,較小的I2依舊會得出較大的異質性。
總體效應量的95%置信區間反映的是總體效應估計值的精確程度,即樣本總體的平均水平會落在這個范圍內,而不是樣本中95%的個別值會落在這個范圍內。當研究者應用Meta 分析為臨床實踐提供指導時,希望結果能夠適用于絕大部分患者,此時更需要總體效應值的預測區間。
預測區間是均值兩側兩個標準差的范圍,如果樣本符合正態分布假設,則可以預期總體內95%的個體真實效應將落在這個區間內。預測區間直觀而清晰地提供了關于絕對離散程度的信息,在Meta 分析當中應當匯報預測區間來體現研究結果的異質性[8]。
在實例1 中,匯報研究異質性時不應只匯報I2=69%,而應表明絕大多數非工作時間入院的急性缺血性腦卒中患者的院內死亡風險將落在0.96到1.21 之間。在實例2 中,匯報研究異質性時不應僅匯報I2=5.6%,而應表明絕大多數攝入大量α-亞麻酸者的心血管疾病死亡風險將落在0.74到1.07 之間。
Meta 分析的預測區間和原始研究類似,需要獲得真實效應量的標準差。可使用Q和df來計算真實效應方差T2的估計值,其分子是反映真實效應變化的離差平方和,分母C是基于標準化偏差的權重因子,Wi是研究的倒方差加權[8]。
Meta 真實效應量標準差的實際計算過程較為復雜,在常用Meta 分析工具中已嵌入計算T2的命令,輸出結果常用τ2表示。預測區間的計算往往也可以使用軟件進行,如在R 軟件的“meta”程序包中包含“prediction”邏輯判定,在meta 主命令中加入“prediction = TRUE”即可直接輸出效應值的預測區間。在網站https://meta-analysisbooks.com 中,可通過免費提供的電子表單繪制納入研究效應量的正態分布曲線并計算總體效應量的預測區間,從而直觀展現效應量的置信區間和預測區間范圍,相應計算公式由Borenstein 等提供[9]。