中山大學公共衛生學院醫學統計與流行病學系(510080)
公為潔 趙 志 顧豪高 張晉昕△
?
二分類資料的五種一致性評價指標應用效果比較*
中山大學公共衛生學院醫學統計與流行病學系(510080)
公為潔趙志顧豪高張晉昕△
【提要】目的探討5種不同的一致性評價指標用于估計二分類結局一致性的應用效果。方法用Monte Carlo法模擬得到不同樣本含量和不同陽性率的二分類數據,分別估計各指標、標準誤及估計值與真實值的相對偏差,從列聯表的均衡性角度評價各系數的適用性。實例數據則使用Bootstrap估計加以驗證。結果當列聯表趨于均衡時,5種系數的標準誤和相對偏差均較小;列聯表趨于不均衡,Kappa、Scottπ和Krippendorffα這3種系數的標準誤和相對偏差越大;對于各種情形下的列聯表,AC1和G指數的標準誤和相對偏差變化均較小。結論列聯表的均衡狀態對Kappa、Scottπ和Krippendorffα這3種系數的穩定性影響較大。當列聯表趨于不均衡時,推薦使用AC1和G指數評價二分類結局的一致性。
一致性評價診斷試驗Kappa系數二分類結局
同一方法由不同或同一評價者重復評估同一組樣本,所得結果往往不盡相同。因此,有必要對評價結果的一致性程度進行探討。采用合理的指標客觀評價診斷結果很重要[1]。二分類結局作為一種常見的結局類型,對其評價最普遍的方法是Kappa系數。然而,Kappa在實際應用中存在多種悖論[2],有學者指出應謹慎甚至停止使用[3-4]。以兩評價者D和F評估結果的四格表為例,可將結果整理為表1。即使a和d數值不變,當b和c的差值增大(即列聯表趨于不對稱)時,Kappa取值隨之增大,影響對一致性的判斷[5]。除Kappa之外,還有多種一致性評價指標,如Scottπ、Krippendorffα等。本文將通過Monte Carlo方法,模擬兩評價者間不同發生概率的二分類結局數據,分別估計包括Kappa在內的5種一致性系數、標準誤及估計值與真實值的相對偏差,歸納不同情況下各指標的適用性。

表1 兩評價者二分類結局的四格表
1.一致性評價指標
本文比較的二分類結局一致性的五種評價指標分別為:Cohen提出的Kappa系數[6]、Scott提出的π系數[7]、Holley等提出的G指數[8]、Krippendorff提出的α系數[9]、Gwet提出的一階一致性系數(the first-order agreement coefficient,AC1)[10]。這些指標均校正了機遇因素影響,進而衡量兩評價者對二分類或無序多分類結局間的一致性程度。其基本定義均為:設γs為其中某一致性系數,則
(1)


表2 二分類結局一致性系數對Po和Pe的不同定義
2.Monte Carlo模擬
3.指標評價
列聯表的均衡,定義為分類結局中不同類別所占的構成比例相等[13]。在模擬數據集中,當實際結局陽性率Pr越接近0.500,模擬產生的陽性結果和陰性結果的構成比越接近,則四格表趨于均衡。反之,當Pr越接近1,模擬產生的兩類結果構成比相差越大,則四格表越趨于不均衡。
模擬產生多種情況,每種情況均有500組模擬的結果。每種情況下500組數據所得各一致性系數的標準誤越小,說明該指標越穩健。各指標的樣本估計值與真實值間的相對偏差可用于評價指標的準確性。根據Gwet的假設及推導[12],設評價者D和F分別有θD和θF的概率會作出隨機性判斷,且正確率均為50%,則真實的一致率γ為
(2)

(3)

4.實例數據
資料取自1977年由Landis發表的詳細數據,為多個評價者間有序分類結局的經典數據[14]。七個病理學家被要求單獨診斷,將118張宮頸癌病理切片鑒別為為陰性、非典型鱗狀上皮增生、原位癌變、鱗狀細胞癌早期間質浸潤、侵襲性癌的五種病理類型[15]。根據診斷后隨訪方式的不同,可將診斷結果劃分為二分類結局(I類,包括:陰性、非典型鱗狀上皮增生、原位癌變;II類,包括:鱗狀細胞癌早期間質浸潤、侵襲性癌)[14]。本文選擇D和F兩位病理學家的二分類結局,整理為表1,結果為a=19,b=13,c=6,d=80,可知四格表中II類結局的例數遠大于I類的例數,屬于不均衡的列聯表。用Bootstrap法以118為樣本量對原始數據進行500次再抽樣,比較五種指標的標準誤大小。
晚上悶熱,夜空星月全無,遠處傳來雷聲,是天空云團在碰撞時奏出的交響,他坐著聆聽,后面的樂章是婉約?還是激越?是低回?還是電閃電鳴?但所有的音符終將交融成雨水,滋養大地,注入河川。沉浸之中,突然一聲巨大的炸雷震得他一驚而起,他不安地望窗外,腦子里跳出尾砂庫上的雨景。
本文中的所有模擬及計算均在R i386 3.1.3環境下進行。五種系數的計算參考agree.coeff2.r程序[10]。
1.Monte Carlo模擬結果
圖1分別為當n取20、60、100時,隨著實際結局陽性率Pr的變化,五種一致性系數的標準誤及各系數與真實值相對偏差的變化趨勢。由圖1可見:1)當n為20時,圖1(a)和圖1(d)中曲線波動幅度較大,標準誤和相對偏差取值在0.100附近,說明樣本含量n較小時,各系數取值尚不穩定。隨n的增大,曲線波動幅度減小,各系數的標準誤和相對偏差也逐漸減小;至n=100時,曲線起始平穩段的取值均在0.050左右。2)如圖1(a)、1(b)和1(d)、1(e)所示,當n取20、60時,曲線截止于Pr取值為0.755及0.950,而如圖1(c)和1(e)所示,當n取100時,曲線截止于Pr取值為0.995。3)隨Pr從0.500逐漸增大,五種一致性系數的標準誤和相對偏差均有變化。如圖1(b)和1(c)所示,在n取60、100時,Pr取值為0.500~0.710時,列聯表相對均衡,五種系數的標準誤均較小,相差不超過0.05,且曲線變化平緩。當Pr>0.710時,隨Pr的增大,列聯表逐漸趨于不均衡,G和AC1系數的標準誤逐漸減小,標準誤均低于0.05,曲線呈平緩下降的趨勢,其中G的曲線變化更為平緩;而Kappa、π和α系數的標準誤逐漸增大,且趨勢一致,三條曲線基本重合。Pr越大,列聯表越不均衡,3條曲線增長幅度越大,當Pr逐漸增至0.995,標準誤高達0.20以上。如圖1(e)和1(f)所示,當Pr取值在0.500~0.800時,各系數與真實值的相對偏差均在10%以內,當Pr>0.800時,Kappa、π和α系數的相對偏差超過10%,且曲線增長幅度較大,當Pr逐漸增至0.995,相對偏差高達70%以上;而G和AC1系數的相對偏差仍較低,保持在10%以下。相對偏差的曲線變化規律與標準誤相似,不再贅述。
2.實例數據Bootstrap再抽樣結果
如表3所示,對實例數據進行500次Bootstrap再抽樣后,五種系數的均數從大到小排序依次為:AC1>G>Kappa=π=α;標準誤排序為:π=α>Kappa>G>AC1;極差排序為:Kappa=π=α>G>AC1。

系數均數標準誤最小值最大值極差Kappa0.560.0890.320.860.55π0.560.0900.310.860.55G0.680.0690.490.920.42α0.560.0900.320.860.55AC10.750.0610.540.940.39
Kappa是被廣泛應用的分類結局一致性評價指標,存在多種悖論,不能正確反映實際情況[3-4]。目前已有許多研究提出針對不同情況下計算Kappa的多種校正方法。本研究立足于已有的機遇一致性評價指標,探索不同系數在不同條件下的適用性,尋找Kappa的適用情況及合理替代指標。
越不均衡的列聯表所需樣本含量越大[16],可以解釋在樣本含量較小時,無法計算各一致性系數。當列聯表趨于較均衡狀態時,五種系數的標準誤和真實相對偏差均較小。而當其逐漸趨于不均衡時,Kappa、π和α系數的兩個統計量(標準誤和真實相對偏差)均逐漸增大。根據相對偏差的取值變化,當Pr>0.800時,與其他3種系數相比,G和AC1系數是距離真實一致率更接近、更符合實際情況的Kappa系數替代指標。由實例數據再抽樣結果可知,對于不均衡的列聯表,相比之下,G和AC1系數的再抽樣標準誤估更小,說明其取值更為穩健,與Monte Carlo模擬結果相符。另有研究用Kappa系數和AC1分別評價多位醫生診斷人格障礙不同指標的分類結局一致性,得到AC1的標準誤均小于Kappa,是更為穩健的指標,與本文結論相符[17]。
本文從二分類結局是否均衡的角度比較了一致性系數的應用效果,有待繼續探討無序和有序的多分類資料及多個評價者的判斷結果間一致性系數的應用效果。
[1]閆巖,華琳,張建.對診斷一致性kappa系數及評價指標的探討.中國衛生統計,2007,24(3):313-315.
[2]Cicchetti DV,Feinstein AR.High agreement but low kappa II.Resolving the paradoxes.J Clin Epidemiol,1990,43:551-558.
[3]Zhao X.When to use Cohen′s κ,if ever? The annual meeting of the International Communication Association.Boston,MA,US,2010.[4]Robert GP,Millones M.Death to Kappa:birth of quantity disagreement and allocation disagreement for accuracy assessment.International Journal of Remote Sensing,2011,32(15):4407-4429.
[5]公為潔,溫興煊,何賢英,等.一階一致性系數AC1對二分類結局一致性的測評.中國衛生統計,2015,32(5):774-776.
[6]Cohen J.A coefficient of agreement for nominal scales.Educational and Psychological Measurement,1960,20(1):37-46.
[7]Scott WA.Reliability of content analysis:The case of nominal scale coding.Public opinion quarterly,1955,19:321-325.
[8]Holley JW,Guilford JP.A note on the G index of agreement.Educational and Psychological Measurement,1964,24(4):749-753.
[9]Krippendorff K.Bivariate Agreement Coefficients for Reliability of Data.Sociological Methodology,1970:139-150.
[10]Gwet KL.Handbook of inter-rater reliability.Gaithersburg,MD:STATAXIS Publishing Company,2001.
[11]Gwet KL.Handbook of inter-rater reliability:The definitive guide to measuring the extent of agreement among raters.Advanced Analytics,LLC,2014.
[12]Gwet KL.Computing inter-rater reliability and its variance in the presence of high agreement.British Journal of Mathematical and Statistical Psychology,2008,61(1):29-48.
[13]Hertzberg VS,Xu F,Haber M.Restricted Quasi-Independent Model Resolves Paradoxical Behaviors of Cohen′s Kappa.Journal of Modern Applied Statistical Methods,2005,5(2):16.
[14]Landis JR,Koch GG.An application of hierarchical kappa-type statistics in the assessment of majority agreement among multiple observers.Biometrics,1977:363-374.
[15]Holmquist N,McMahan C,Williams O.Variability in classification of carcinoma in situ of the uterine cervix.Archives of Pathology,1967,84(4):334-345.
[16]Sim J,Wright CC.The kappa statistic in reliability studies:use,interpretation,and sample size requirements.Physical therapy,2005,85(3):257-268.
[17]Wongpakaran N,Wongpakaran T,Wedding D,et al.A comparison of Cohen′s Kappa and Gwet′s AC1 when calculating inter-rater reliability coefficients:a study conducted with personality disorder samples.BMC Medical Research Methodology,2013,13(1):61-68.
(責任編輯:郭海強)
廣東省公益研究與能力建設專項基金(2014A020212713)
張晉昕,E-mail:zhjinx@mail.sysu.edu.cn