多分類結局指標中兩類別占比之差的統(tǒng)計推斷方法*

2016-12-26 05:38:17南方醫(yī)科大學生物統(tǒng)計學系510515段重陽陳平雁

中國衛(wèi)生統(tǒng)計 2016年3期

關鍵詞：方法

南方醫(yī)科大學生物統(tǒng)計學系（510515）吳軍段重陽陳平雁

南方醫(yī)科大學生物統(tǒng)計學系（510515）吳軍段重陽陳平雁△

目的多分類結局指標中兩類占比的比較目前尚無相應統(tǒng)計方法，本研究旨在建立多類別中某兩類占比差的統(tǒng)計推斷方法。方法根據(jù)多項分布理論，用正態(tài)近似法建立兩類別發(fā)生占比差的假設檢驗方法，分別基于Wald法和Newcombe法構建其置信區(qū)間，包括連續(xù)性校正和非連續(xù)性校正兩種情形。通過模擬驗證假設檢驗方法的一類錯誤及檢驗效能和置信區(qū)間方法的覆蓋率，最后以實例進行說明。結果基于占比差的假設檢驗在大樣本下可以較好的控制一類錯誤。兩種方法置信區(qū)間的覆蓋率均在95%左右，Newcombe法優(yōu)于Wald法，但在發(fā)生率較低時兩種方法均不理想。結論本文提出多分類結局指標中兩類占比差的假設檢驗及置信區(qū)間方法均能滿足應用需求，其中置信區(qū)間方法推薦Newcombe法，但當樣本量太小（如20例左右），所有方法均失效，建議使用描述方法。

多項分布占比差假設檢驗置信區(qū)間 Newcombe法

對于多分類結局指標，若需要比較其中的兩類占比，如人群的職業(yè)分布中比較其中教師與醫(yī)務人員的占比有無差異，霍奇金淋巴瘤人群中比較臨床病理分型結節(jié)硬化型與混合細胞型的占比有無差異等，目前的分析方法僅限于統(tǒng)計描述，尚無相應的統(tǒng)計推斷方法。為此，本研究將建立多分類結局指標中比較其中某兩類占比的統(tǒng)計推斷方法，為應用領域提供新的分析工具。

理論推導

假設某研究可能出現(xiàn)的結局有k種，其發(fā)生的概率分別為 π1，π2，…，πk，結局具有排他性，即滿足 π1＋π2＋…＋πk＝1。記第i種結局的頻數(shù)為 xi，則向量X＝（x1，x2，…，xk）服從參數(shù)為 n，π的多項分布，其中π＝（π1，π2，…，πk）為相應的概率向量。根據(jù)多項分析理論可知:

第i個結局發(fā)生率的方差為:

第i及j結局發(fā)生率的協(xié)方差為:

第i及j結局發(fā)生的相關系數(shù)為:

兩個占比的比較可以有差值比較和比值比較兩類方法，本研究將解決差值的比較問題。兩占比之差本文用符號PD（percent difference）表示。不失一般性，假設第1、2類為研究所關心的類別，相應地，π1和π2分別為占比參數(shù)，a和b分別為第1、2類事件的觀測頻數(shù)。下面分別推導假設檢驗和置信區(qū)間估計方法。

1.假設檢驗

檢驗的原假設及備擇假設分別為:

欲檢驗π1是否等于π2，可檢驗占比差PD＝π1-π2是否等于0，PD的方差根據(jù)公式（1）、公式（2）可以表示為:

根據(jù)中心極限定理，當樣本量夠大時，在原假設下可構建檢驗統(tǒng)計量

式中，zPD近似服從標準正態(tài)分布。應用中，PD值及其方差可用樣本進行估計，即

2.置信區(qū)間

對于多分類結局指標中兩類別發(fā)生占比之差的置信區(qū)間，我們分別用Wald法及Newcombe法進行推導，同時考慮有無連續(xù)性校正的情形。

（1）Wald法

PD值的（1-α）%置信區(qū)間根據(jù) Wald法理論［1－2］可以構建為:

（2）連續(xù)性校正Wald法

在上述 Wald法基礎上進行連續(xù)性校正［1－2］，可得其校正后的置信區(qū)間為:

（3）基于Newcombe思想的方法

基于 Newcombe思想［1－2］對單組率、兩獨立樣本占比差及兩配對樣本占比差置信區(qū)間構建思路，我們構建的多分類結局指標中兩類別占比差（1－α）%置信區(qū)間為

其中，

式中，dl1＝α/n-l1、du1＝u1-α/n，l1、u1為｜ξ－α/n｜

當α＝0時l1＝0，α＝n時u1＝1。

同理 dl2＝b/n-l2、du2＝u2-b/n，l2、u2為｜ξ－b/n｜

當 b＝0時 l2＝0，b＝n時 u2＝1。

公式（11）中，r為公式（3）ρ（π1，π2）的樣本估計值，即

當a或者b為0時r＝0。

（4）連續(xù)性校正Newcombe法

對Newcombe法進行連續(xù)性校正，只需將上述公式中計算l1、u1及l(fā)2、u2的公式修改如下式即可。

此時可解得:

將公式（16）計算結果代入公式（11）即可得出經連續(xù)性校正的Newcombe法置信區(qū)間。

模擬方法

采用Monte Carlo模擬技術對我們提出的上述方法進行驗證。以三項分布資料為例，假設數(shù)據(jù)服從F（π1，π2，π3）的多項分布，樣本量考慮 20、50、100三種情況，π1，π2，π3參數(shù)組合見表1，共考慮42種參數(shù)組合。每種情況模擬10000次，假設檢驗的檢驗水準設為雙側0.05，置信水平設為95%。模擬采用SAS 9.4編程實現(xiàn)。

表1 參數(shù)設置

結果

1.假設檢驗模擬結果

兩種假設檢驗方法的一類錯誤及檢驗效能的模擬結果見表2。從模擬結果中可以看出基于占比差的檢驗方法在樣本量設置為20時，未能控制住一類錯誤，但隨著樣本量的增大其一類錯誤能較好的控制在設定的0.05左右。檢驗效能模擬結果顯示，相同樣本量時隨著兩組占比差的增大檢驗效能逐漸增大，相同占比差情況下兩組率越小，占比差的標準誤越小，因而檢驗效能越高。

表2 一類錯誤及檢驗效的能模擬結果

2.置信區(qū)間模擬結果

對于占比差指標的四種置信區(qū)間覆蓋率模擬結果見圖1。當樣本量為20時各種方法在不同參數(shù)設置下均波動較大，此種波動與分類資料的性質有關［3］，尤其是基于Newcombe思想的方法，而且當兩類占比均較小時四種方法均失效。當樣本量增到50時，各方法都能較好的控制在95%左右，其中連續(xù)性校正的Wald法較為保守，Wald法較為激進，基于Newcombe思想的方法及其對應的連續(xù)性校正法更為接近于設定的95%，其中以連續(xù)性校正法Newcombe法更優(yōu)。當樣本量增到100時，整體結果與樣本量為50時相同，但是此時基于Newcombe思想的兩種方法極為接近，不分優(yōu)劣。從整體來看基于連續(xù)性校正的Wald法保守，Wald法激進，大樣本下基于Newcombe思想的兩種方法均較優(yōu)，小樣本下發(fā)生率較大時基于連續(xù)性校正的Newcombe法較優(yōu)，但小樣本下發(fā)生率較小時所有方法均較差。

實例

某研究欲研究不同冠狀動脈斑塊形成的危險因素，隨機抽取了280人進行64層螺旋CT冠狀動脈檢查，記錄有無冠狀動脈斑塊及斑塊種類，并調查了相關的影響因素。其中斑塊類型分布見表3。現(xiàn)欲知道鈣化斑塊與非鈣化之間的差異是否有統(tǒng)計學意義，并且將兩者之間的差異大小給出定量分析。分析結果見表4，可知鈣化斑塊比例要顯著高于非鈣化斑塊。

討論

本研究通過理論推導建立了多分類結局指標中兩類別占比差的假設檢驗方法及其區(qū)間估計方法，并經模擬驗證。就假設檢驗方法而言，基于占比差的檢驗方法由于其理論基礎基于大樣本理論，所以在小樣本下一類錯誤控制較差，當樣本量增大時則能較好的控制在設定的檢驗水準。

圖1 PD值置信區(qū)間覆蓋率模擬結果

表3 冠狀動脈斑塊分布結果

表4 利用本文分析方法所得分析結果

就占比差區(qū)間估計方法而言，本研究提出了Wald法、連續(xù)性校正Wald法、基于Newcombe思想的方法及其對應的連續(xù)性校正方法。Wald法較為簡單且意義直觀。Newcombe法則是基于 W ilson 1927［7］年提出的單組率置信區(qū)間構建的一類方法，目前已建立了單樣本率［4］、兩獨立樣本率［5］及配對樣本率［6］的置信區(qū)間方法，并經模擬驗證得出其優(yōu)于其他現(xiàn)有方法的結論，從而在應用中廣泛使用，其中兩獨立樣本率差的置信區(qū)間方法更是得到了FDA的官方推薦。本文因此選擇借鑒其思想構建適合多分類結局指標兩類間占比差的置信區(qū)間。經模擬驗證得出基于Newcombe思想的兩種方法均要優(yōu)于Wald法及其連續(xù)性校正方法。大樣本下我們推薦使用基于Newcombe思想的兩種方法，小樣本且當發(fā)生率較大時推薦使用基于連續(xù)性校正的Newcombe法，但是當樣本量小且發(fā)生率較小時所有方法均失效，從應用層面看，樣本量為20例左右的多分類數(shù)據(jù)建議用描述方法。

綜上所述，本文提出的針對多分類結局指標中兩類別占比差的假設檢驗及其置信區(qū)間方法均能較好的滿足應用需求。

［1］May WL，Johnson WD.Confidence intervals for differences in correlated binary proportions.Stat Med，1997，16（18）:2127-2136.

［2］Fleiss JL，Levin B，Paik MC.Statistical methods for rates and proportions.John Wiley＆Sons，2013.

［3］劉江美，陳平雁.單樣本率確切概率檢驗的樣本量與檢驗效能非單調變化關系的研究.中國衛(wèi)生統(tǒng)計，2012，29（2）:164-167.

［4］Newcombe RG.Two-sided confidence intervals for the single proportion:comparison of seven methods.Stat Med，1998，17（8）:857-872.

［5］Newcombe RG.Interval estimation for the difference between independent proportions:comparison of eleven methods.Stat Med，1998，17（8）:873-890.

［6］Newcombe RG.Improved confidence intervals for the difference between binomial proportions based on paired data.Stat Med 1998，17（22）:2635-2650.

［7］Wilson EB.Probable Inference，the Law of Succession，and Statistical Inference.Journal of the American Statistical Association，1927，22（158）:209-212.

Statistical Inference Methods for the Percent Difference Between Two Categories of the Multinomial Outcome

Wu Jun，Duan Chongyang，Chen Pingyan（Department of Biostatistics，School of Public Health and Subtropical Medicine，Southern Medical University（510515），Guangzhou）

ObjectiveNo statistical inference method has been developed to define the significant difference between two categories of the multinomial outcome.This study aims to develop hypothesis test methods and interval estimation methods base on the percent difference（PD）.MethodsHypothesis test method was developed based on the theory of large sample and multinomial distribution.The confidence interval was estimated based on the Wald method and the Newcombe′s method separately，including the corresponding continuity-corrected methods.Type Ierror and power of the hypothesis test and the coverage rate of confidence interval were tested by Monte Carlo simulation methods.ResultsThe type Ierror of the developed hypothesis test method was well controlled under large sample.Confidence interval methods based on Newcombe′s method with or without continuity-correction were better than Wald methods in the coverage rate.However，all of the interval estimation methods suffered from poor coverage rates when the percent of the two categories was too low.ConclusionBoth the hypothesis test and confidence interval methods brought up in the paper can meet application requirements and the methods based on Newcombe's method are recommended for confidence interval estimation.All methods work badly under small sample（such as 20），so descriptive methods are recommended for that case.

Multinomial outcome；Percent difference；Hypothesis testing method；Confidence interval；Newcombe′s method

國家自然基金資助（81273191）

△通信作者:陳平雁

（責任編輯:郭海強）

多分類結局指標中兩類別占比之差的統(tǒng)計推斷方法*

理論推導

1.假設檢驗

2.置信區(qū)間

模擬方法

結 果

1.假設檢驗模擬結果

2.置信區(qū)間模擬結果

實 例

討 論

結果

實例

討論