南方醫科大學公共衛生學院生物統計學系(510515) 吳研鵬 周立志 陳平雁
【提 要】 目的 針對配對等級資料,提出一種新的統計推斷方法,并通過統計模擬,與經典的非參數檢驗方法進行比較。方法 基于配對等級資料差值的離散性和多項分布特征,構造一種新的統計量AOC(average order change),即加權平均等級差,以及相應檢驗方法。應用Monte Carlo技術,比較AOC檢驗與Wilcoxon符號秩檢驗(Wilcoxon法)、Pratt法的統計性能。結果 在樣本量小于30時,三種方法的I類錯誤率偏于保守,其中Wilcoxon法偏離設定水平較大;在樣本量大于或等于30時,I類錯誤率均接近設定水平,以AOC檢驗更接近設定水平。當樣本量小于20時,檢驗效能以Wilcoxon法較低,AOC檢驗和Pratt法相當;在樣本量大于或等于20時,三種方法的檢驗效能非常相近。結論 在統計性能方面,AOC檢驗與Pratt檢驗表現相當或略優。在統計量意義上,AOC更能直觀表達等級變動情況。
配對等級資料在醫學研究中頗為常見,其特點之一是可能會有較大比例的零差值(zero differences)和相同秩(ties)[1-2]。對于相同秩,已有對應的校正方法[3]。對于零差值,大部分非參檢驗包括最常用的Wilcoxon符號秩檢驗,是刪除零差值的數據后進行分析。這種處理的缺陷是損失信息,特別是零差值的比例較大時,會使統計推斷產生偏倚[4-5]。對此問題,Pratt[5]提出的處理方法是,先對包含零差值的所有差值進行排秩,然后刪去零差值觀測單位,再運用Wilcoxon法對剩下的秩次進行檢驗。目前,有關Pratt法的模擬研究較少,其統計性能如何尚待回答[6]。因此,本研究基于不損失信息和更具可解釋性的前提,提出一種新的比較配對等級資料的統計方法。
1.統計模型
假設某項臨床試驗一組病例的樣本量為N,療效評價指標為疾病嚴重程度,分為K個等級,治療前后疾病嚴重程度等級的變化即等級差用D(D1,D2,…,DN)表示。顯然,Di的取值范圍為-(K-1)~(K-1),所有可能的取值個數為2K-1,每種可能取值對應的頻數為Fi,對應頻率為fi=Fi/N,概率為πi。具體構成見表1。

表1 配對等級數據等級差的分布
這里,我們根據加權平均等級差的思想定義一個統計量AOC(average order change),即
(1)
這里差值Di在配對等級數據中可看作兩組前后的等級變動級數,級數為正,表示向上變動級數,級數為負,表示向下變動級數,為0表示級數不變。fi表示等級變動級數Di對應的頻率。由公式(1)定義的AOC則表示總的等級變動級數的均值,當AOC取0時,配對兩組等級前后變動的均值為0,表示治療前后無差異。
AOC的方差估計為
(2)
由于fi服從對應概率為πi的多項分布[7],進一步得出
(3)
在AOC=0的原假設下,可以構建如下檢驗統計量z,
(4)

2.模擬方法
基于雙變量正態分布產生配對等級數據[8]。在雙變量正態分布中,參數μ1和μ2分別對應配對兩組的均值,σ1和σ2對應各自的標準差,協方差大小由相關系數ρ決定,即ρσ1σ2。在以上參數組合下,運用Monte Carlo技術模擬生成特定的雙變量正態分布數據,然后根據結局等級數,對雙正態分布數據進行等面積劃分。本研究只考慮臨床常見的三等級,四等級和五等級分類的配對資料比較,即對生成的雙變量正態數據進行三等分,四等分,五等分。具體模擬參數設置如下:
(1)雙變量正態分布設置:配對兩組無差異情況下,則μ1=μ2=0;存在差異情況,設μ1=0,μ2=0.3,0.5,0.8,1.0,1.3,1.5,1,8,2.0;
(2)雙變量正態相關系數:ρ=0.2,0.4,0.7;
(3)等級數:K=3,4,5;
(4)樣本量N=10,15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,100;
檢驗水準設置為雙側0.05,每種參數組合模擬次數為10000次,采用R 3.6.3編程實現。
不同等級數和相關系數組合下,AOC檢驗、Wilcoxon法和Pratt法的I類錯誤率隨樣本量變化的模擬結果見圖1。圖1中每個子圖中橫軸表示樣本量,縱軸表示I類錯誤率,按等級數K和相關系數ρ大小分別以橫向和縱向排列,并給出對應組合下的零差值的比例大小(%)。顯然,高相關系數低等級水平下,零差值比例更高。可以看出,當樣本量小于30時,三種方法的I類錯誤率均偏離設定水平0.05較大,且絕大多數是小于設定水平;當樣本量大于或等于30時,三種方法的I類錯誤率均接近設定水平,以AOC檢驗更接近設定水平,而且,樣本量的增大對I類錯誤率沒有趨勢性影響。

圖1 不同等級水平和相關系數下的I類錯誤率比較
圖2展示不同等級數和相關系數組合下,三種方法檢驗效能的比較。每個子圖中,橫軸為樣本量,縱軸表示檢驗效能,按等級數K和相關系數ρ大小分別以橫向和縱向排列,并給出對應組合下的零差值的比例大小(%)。可見,當樣本量小于20時,檢驗效能以Wilcoxon法較低,AOC檢驗和Pratt法相當;當樣本量大于或等于20時,三種方法的檢驗效能非常相近。

圖2 不同等級水平和相關系數下的檢驗效能比較
實例:瑞典一項研究招募了92名患者,使用Rand-36健康生活質量表,記錄該組病人在參與心臟康復計劃之前和3個月后的健康質量評價[9]。Rand-36中感受評價指標分為5個等級,分別賦值為:1(很差),2(較差),3(一般),4(較好),5(很好)。該組病人在基線值和治療3個月后的自我評價健康情況見表2。

表2 心臟康復病人在基線和隨訪的自我健康評價
對表2資料采用AOC檢驗,定義等級差為治療后-基線(治療前),得統計量AOC為0.577,95%置信區間為0.266~0.886,P值為0.00026。采用Wilcoxon法和Pratt法的P值分別為0.00031和0.00045。在檢驗水準0.05下,三種檢驗均顯示差異顯著,但AOC可以直觀表示治療后患者的健康水平平均改善了0.577個等級。
本研究根據加權平均的思想,提出了AOC統計量,其優點是直觀和良好的解釋性,而且充分利用了零差值的信息。
在統計性能的I、II類錯誤方面,模擬研究提示,AOC檢驗與Wilcoxon法、Pratt法相當或略優,特別是在零差值比例很大或樣本量較小的情形。
本研究存在一定的局限性。首先在模擬方面,目前只是在方差齊性和雙變量正態分布的假設下模擬數據。然而在實踐中,常會出現異方差和非正態分布情況,該種情況下的統計性能表現需要進一步驗證。其次,新方法的提出是基于漸進正態分布下的推導,小樣本的精確檢驗還需進一步研究。
綜上所述,本研究建立的AOC檢驗具有良好的解釋性和較為可靠的統計性能,可應用于配對等級資料的檢驗。