胡純嚴,胡良平,2*
(1. 軍事科學院研究生院,北京 100850;2. 世界中醫藥學會聯合會臨床科研統計學專業委員會,北京 100029*通信作者:胡良平,E-mail:lphu927@163.com)
人們在收集定性資料時,通常會面臨如下實際問題:在所考察的處理因素分別處于“暴露”與“非暴露”水平下,觀察兩組受試對象是否出現某種結局時,發現各組中每位受試對象受到處理因素特定水平(“暴露”或“非暴露”)影響的時間長度可能不相同。這就意味著以各組受試對象的總人數作為計算該組樣本發病率的分母是不夠合理的,需要同時考慮每個人所經歷的“時間長度”,它就是“人-年數”。本文介紹基于“人-年數”為“分母”的定性資料分析方法,即“人-時間資料的獨立性檢驗”。
1.1.1 累加發病率(簡稱“發病率”)
設觀察由n個受試對象組成的一個群體在一個確定的時間段(例如一個月或一個季度或一年)內出現患某病的人數為m,則稱該病的累加發病率(簡稱為“發病率”)為100(m/n)%。這里有一個隱含的假定:即所有n個受試對象都被觀察了相同時間長度(例如一個月或一個季度或一年)。
1.1.2 人-年數
在現實生活和科研工作中,受試對象被觀察的時間長度可能不盡相同,有些受試對象可能分別被觀察了3 個月、7 個月或14 個月,如此等等。為了便于分析,不妨將“時間長度”統一折算為“一年”,稱為“人-年數”。于是,分別被觀察了3、7、14個月的3位受試對象,總共被觀察了(3+7+14)/12=2人-年數。
1.1.3 發病密度
一組人群的發病密度(incidence density,ID)定義為:該組群中發生事件(發生疾?。┑娜藬党栽摻M群在研究期間累加的人-年(時間)總數[1]。這里的分母是“人-年數”,其取值范圍為0 到∞;而累加發病率的取值范圍為0~1。
第1 種形式:未分層成組設計的人-時間資料,見表1[1]。第2 種形式:分層且含一個定性因素的人-時間資料,見表2[1]。第3 種形式:分層且含一個計量因素的人-時間資料,見表3[2]。

表1 某地45~49歲婦女乳腺癌發病例數與是否使用口服避孕藥(OC)的關系

表2 絕經后期婦女是否使用OC患乳腺癌情況的調查結果

表3 某地鎳精煉工人肺癌死亡情況調查結果
未分層成組設計人-時間資料的表達模式,見表4。

表4 未分層成組設計人-時間資料的表達模式
檢驗假設可表述如下:H0:ID1=ID2;H1:ID1≠ID2;α=0.05。
根據資料所滿足的前提條件,有兩個可供選擇的檢驗統計量[1-2],分別見式(1)、式(2):

在上面兩式中,α1為表4 中“暴露水平組”的“病例數”,E1和V1分別為α1的“期望頻數”和“方差”,其計算分別見式(3)、式(4):

事實上,依據“Z2=χ21”的統計理論知識[3],可將式(1)和式(2)合并成式(5):

前提條件:這個檢驗適用于“V1≥5”。
【例1】如表1資料,試分析“現在使用OC”與“從不使用OC”兩組婦女乳腺癌發病密度差異是否有統計學意義。
【分析與解答】設所需要的SAS程序[2]如下:


【程序說明】第2 句“do i=1 to 1;”代表該資料只有“一層”(相當于只有一個4 格表資料);若整個資料有8層,此句應修改為“do i=1 to 8;”。
【SAS輸出結果及解釋】

以上輸出結果是基于標準正態分布理論算得的,V1=5.15994 為“α1=9”的方差;而Z=1.42105、P=0.15530>0.05。
【統計結論和專業結論】上述計算結果說明,某地45~49歲婦女使用口服避孕藥與不使用口服避孕藥的乳腺癌發病密度差異無統計學意義,即可以認為:口服避孕藥對該地45~49 歲婦女是否患乳腺癌沒有明顯影響。

以上輸出結果是基于χ2分布理論算得的,χ2=2.01939、P=0.15530>0.05,結論同上,此處從略。
【說明】當自由度為1時,χ2=Z2,故當只有一個四格表資料時,前面兩部分輸出結果只需要保留其中任何一個即可。
為節省篇幅,資料的表達模式參見前文表2 和表4(假定其代表第“i”層)。值得注意的是:在表2中,“年齡分組”可被視為一個“分層因素”(或稱為被控制的因素);而“使用OC 的情況”可被視為該研究的一個試驗因素,它有3 個水平,分別為“從不使用OC”“現在使用OC”和“過去使用OC”。
本文所介紹的方法適用于試驗因素具有兩個水平,對表2 資料而言,可以在分層的條件下比較“從不使用OC”與“現在使用OC”兩個水平下“各層合并后的發病密度”差異是否有統計學意義;也可以比較“從不使用OC”與“過去使用OC”兩個水平下“各層合并后的發病密度”差異是否有統計學意義。
檢驗假設可表述如下:H0:合并ID1=合并ID2;H1:合并ID1≠合并ID2;α=0.05。
檢驗統計量[1-2]見式(5):


前提條件:①假定各層發病密度之比[RRi=(α1i/t1i)/(α2i/t2i),i=1,2,…,k]相等;②Var(A)≥5。
【例2】如表2 資料,試分析按年齡分組且在“從不使用OC”與“現在使用OC”兩個條件下,合并的婦女乳腺癌發病密度差異是否有統計學意義。
【分析與解答】設所需要的SAS程序[2]如下:

后面緊接其他SAS 程序語句,具體內容與“第2.3 節”中自“data a;”到最后完全相同,為節省篇幅,此處從略。
【SAS輸出結果及解釋】

以上輸出的是表2 中5 個“年齡分組(層)”各自的計算結果,其中,Z、P和Var_a1 分別代表“檢驗統計量”“P值”和“各層α1的方差”。由“P值”列可知,只有在最后兩個年齡組中,“從不使用OC”與“現在使用OC”兩個條件下,婦女乳腺癌發病密度差異有統計學意義。

以上輸出的是表2 中5 個“年齡分組(層)”合并后的計算結果,即χ2=12.8219,P=0.000343<0.01。
【統計結論和專業結論】上述計算結果說明,在“從不使用OC”與“現在使用OC”兩個條件下,合并后的婦女乳腺癌發病密度差異有統計學意義。從表2 中的實際數據可知,“現在使用OC”者的乳腺癌發病密度比“從不使用OC”者的乳腺癌發病密度大。
采用“人-年數”取代“總樣本含量”是人們在處理定性資料時,嚴格遵照“實事求是”原則的一個具體體現,是統計學的一個微小進步。然而,在實際科研工作中,精準地獲得各組受試對象的“人-年數”是十分困難的事,尤其是在觀察時期較長、回顧性研究且各組樣本含量較大的情境中。因此,應盡可能事先制訂出相對完善的研究設計方案,并嚴格執行研究設計方案(包括“標準操作規程方案”和“實時精準質量控制方案”等)[4-5],以確保所獲得的科研數據是精準可靠的[6-7]。
本文介紹了與“人-時間資料”有關的基本知識、基于未分層人-時間資料比較兩總體“發病密度”和基于分層人-時間資料比較兩合并“發病密度”等內容;通過兩個實例,介紹了基于SAS軟件實現前述兩種場合下的統計計算方法,對SAS 輸出結果進行解釋,并做出了統計結論和專業結論。