如何正確運用χ2檢驗——隊列設計四格表資料的χ2檢驗

2021-03-24 03:48:46胡純嚴胡良平

四川精神衛生 2021年1期

胡純嚴，胡良平，2*

（1.軍事科學院研究生院，北京 100850；2.世界中醫藥學會聯合會臨床科研統計學專業委員會，北京 100029*通信作者：胡良平，E-mail：lphu927@163.com）

在流行病學研究中，為了獲得精準的研究結果，研究者首選“隊列研究設計方法”。因為通過對大樣本的隊列人群進行長期觀察和隨訪，不僅可以獲得暴露組與非暴露組人群結局變量的最終取值，而且可以獲得兩組人群各種非處理因素及其取值。所以，隊列設計屬于“由因索果”的前瞻性研究方法，其結果的可靠性和準確性高。若假定所有非處理因素在“暴露組”與“非暴露組”之間處于“均衡狀態”，而且結果僅分為“患某種病”與“未患某種病”，此時，基于隊列設計所收集的資料就可以簡化成“隊列設計四格表資料（參見下文表1和表2）”。對其進行統計分析時，包括兩個方面：其一，檢驗“暴露與否”與“患病與否”之間是否存在關聯性（所需要的統計分析方法與處理橫斷面設計四格表資料的統計分析方法相同）；其二，檢驗“相對危險度（簡稱為RR）是否等于1”。本文著重介紹相對危險度RR的概念、對總體RR的Mantel-Haenszel'sχ2檢驗（簡稱MHχ2檢驗）、對總體RR的區間估計方法以及用SAS和R軟件實現計算的方法。

1 隊列設計的概念及其四格表資料的實例

1.1 概念

所謂“隊列設計”，就是依據專業知識，通過對不同暴露水平的對象進行追蹤觀察，確定其疾病發生情況，從而分析暴露因素與疾病發生之間的因果關系，它是由因溯果的前瞻性研究設計，是論證疾病因果關系的一個重要研究方法。

通常，依據專業知識，將符合研究目的的總體按某個原因變量的兩個水平（例如暴露、未暴露）劃分成兩組（即“形成兩個隊列”），研究者對兩組受試對象進行長時間的“追蹤觀察”，然后，再依據定性的結果變量的兩個水平（例如發病、未發病）將各組受試對象進一步劃分成兩部分。一般放在橫向的兩行代表可疑的兩個“原因”（即原因變量的兩個水平），而放在縱向的兩列代表研究者所關心的兩個“結果”（即結果變量的兩個取值），于是，就將全部觀察對象分成了4個小組，清點出各小組的個體數目（即頻數）；先觀察到“原因”，后觀察到“結果”，其間隔較長（往往需要一年、甚至幾年時間）。隊列設計四格表資料的表達格式見表1。

表1 n個受試對象隊列研究的結果

1.2 實例

【例1】在文獻［1］中，作者根據MINI 5.0中文版自殺模塊判斷未治療抑郁障礙患者有無自殺風險，共6個條目，評分范圍0～33分。評分＜6分為無自殺風險，評分≥6分為有自殺風險。再將兩組受試者分別按“性別”“婚姻狀況”“有無精神障礙家族史”和“是否伴有精神病性癥狀”進行劃分，可得4個“四格表資料”，現將其中一個列在表2中。問：（1）未治療抑郁障礙患者“有無自殺風險”與“有無精神病性癥狀”之間是否存在關聯性？（2）“有自殺風險者的精神病性癥狀發生率”是“無自殺風險者的精神病性癥狀發生率”的多少倍？

表2 未治療抑郁障礙患者“有無自殺風險”與“有無精神病性癥狀”之間關系的調查結果

【統計分析方法的選擇】回答第1個問題，可選用“Pearson'sχ2檢驗”“校正的 Pearson'sχ2檢驗”“似然比χ2檢驗”或“Fisher's精確檢驗”。因為這些檢驗方法所對應的檢驗假設均為“兩屬性變量互相獨立或無關聯性”。回答第2個問題，需要先計算“相對危險度RR”，然后，選用“Mantel-Haenszel'sχ2檢驗”，該檢驗的檢驗假設為：“H0：RR=1，H1：RR≠ 1”。因為 MHχ2檢驗所對應的檢驗假設為“相對危險度是否等于1”。

【例2】在文獻［2］中，研究者對擬出院的患者采取兩種不同的方式來決定出院與否。對照組由醫生評估后下達醫囑辦理出院；研究組由醫生評估后下達醫囑，并接受出院準備度量表評定，評估達到標準后再辦理出院。記錄兩組患者在出院后12個月時“有無復發且再次入院”情況，現將結果呈現在表3中。問：（1）“組別”與“是否復發且再次入院”之間是否存在關聯性？（2）“對照組復發且再次入院的發生率”是“研究組復發且再次入院的發生率”的多少倍？

表3 兩組患者出院12個月時“有無復發且再次入院”的調查結果

【統計分析方法的選擇】參見表2之后“統計分析方法的選擇”，此處從略。

1.3 獨立性或關聯性的檢驗方法

雖然隊列設計四格表資料中的兩個變量有“原因變量”與“結果變量”之分，但在回答兩變量之間是否存在“關聯性”或“獨立性”時，仍可將其視為“兩屬性變量”之間關系的研究問題，故可采用的統計分析方法與橫斷面設計四格表資料是完全相同的，具體方法此處不再贅述。

2 相對危險度的概念、假設檢驗與區間估計

2.1 概念

相對危險度（RR）是兩個人群發病率之比值［3-4］，這兩個人群分別受到一個可疑危險因素兩個水平（例如暴露與非暴露）的影響。具體地說，RR是可疑危險因素處于暴露水平時的發病率為其處于非暴露水平時的發病率的一個倍數，其數值的大小反映的是因素的暴露水平相對于其非暴露水平對發病影響的方向與大小。在RR＞1的情況下，RR越大說明暴露水平對發病的促進作用越大；在RR＜1的情況下，RR越小說明暴露水平對發病的保護作用越大。RR越接近于1說明暴露水平對發病的作用越不明顯。

RR=（暴露者發病的概率）/（非暴露者發病的概率），基于表1中所設定的符號，可按下式計算：

【前提條件】兩個人群分別處于可疑危險因素的“暴露”與“非暴露”水平之下；每個人群都有足夠大的樣本含量（兩個人群的樣本含量之差越小越好）；應盡可能保證在追蹤觀察的整個時期內，兩個人群所受到其他一切非試驗因素的影響是幾乎相等的（兩個人群之間在一切重要非試驗因素方面越均衡越好）。

2.2 假設檢驗

RR是一個一般的樣本統計量，存在抽樣誤差，要想知道總體中的RR是否為1，就需要對其進行假設檢驗，即

對式（2）進行假設檢驗所需要的檢驗統計量為Mantel-Haenszel'sχ2，一般記為，見下式：

2.3 區間估計

2.3.1 概述

由于RR是一個一般的樣本統計量，通常，人們需要知道與其對應的總體參數所在的范圍，這就是總體相對危險度的區間估計問題。在SAS/STAT的FREQ過程中［5］，給出了3種置信區間的計算方法，即“漸近置信區間法（簡稱WALD法）”“評分置信區間法”和“精確非條件置信區間法”。因篇幅所限，以下僅對“漸近置信區間法”進行介紹［4-5］。

2.3.2 漸近置信區間法

RR的漸近100（1-α）%置信區間的計算公式如下：

在式（4）中，RR1是基于隊列設計四格表資料中第1列數據計算的相對危險度；z是標準正態分布曲線下左側面積為100(1-α/2)%處橫坐標軸上的分位數；而v為對數相對危險度RR1的方差，見下式：

在式（5）中，ɑ與c分別是表1中第（1，1）格與第（2，1）格中的觀察頻數；而p1與p2分別是表1中第1行與第2行上的發病率（注意：第1列為“發病”、第2列為“未發病”）。

3 隊列設計四格表資料統計分析的軟件實現

3.1 問題與數據

【例3】沿用例1中的“問題與數據”，試完成下列4項任務：（1）檢驗兩變量（即“有無自殺風險”與“有無精神病性癥狀”）之間的關聯性；（2）計算相對危險度（RR）；（3）對RR進行假設檢驗，即“H0：RR=1；H1：RR≠1”；（4）對RR進行區間估計。

3.2 基于SAS實現關聯性或獨立性分析

設所需要的SAS程序如下［5-6］：

【程序說明】第1個過程步對四格表資料進行“關聯性或獨立性”檢驗（包括檢驗、校正檢驗、檢驗和Fisher's精確檢驗）；計算RR，還包括對RR是否等于1的檢驗。第2個過程步對四格表資料進行“關聯性或獨立性”檢驗（包括檢驗及其精確檢驗、校正檢驗檢驗及其精確檢驗和Fisher's精確檢驗）；計算RR，還包括對RR是否等于1的檢驗及其精確檢驗。第3個過程步對四格表資料進行“RR計算”，并基于“漸近置信區間法（即WALD法）”求“RR的95%置信區間”。第4個過程步對四格表資料進行“RR計算”，并基于“評分法”求“RR的95%置信區間”。第5個過程步對四格表資料進行“RR計算”，并基于“精確非條件置信區間法（簡稱精確法）”求“RR的95%置信區間”。

【SAS主要輸出結果及解釋】

第1部分，“關聯性或獨立性”檢驗的結果，見表4。

表4 例1中隊列設計四格表資料關聯性或獨立性檢驗結果

第2部分，相對危險度的計算結果及其假設檢驗的結果如下：

RR=3.4375，=5.7659，漸近概率=0.0163、精確概率=0.0242。

第3部分，基于3種方法估計總體相對危險度RR的95%置信區間的結果如下：

漸近法：［1.1619，10.1702］；評分法：［1.2280，9.8313］；精確法：［0.0885，69248.3206］。

【結論】由表4結果可知，“有無自殺風險”與“有無精神病性癥狀”之間是不獨立的，具體地說，“有自殺風險”的患者更容易出現“精神病性癥狀”；“有自殺風險”者是“無自殺風險”者出現“精神病性癥狀”的3.4375倍，總體相對危險度RR的95%置信區間為“［1.1619，10.1702］（漸近法）”“［1.2280，9.8313］（評分法）”和“［0.0885，69248.3206］（精確法）”。

3.3 基于R實現關聯性或獨立性分析以及RR的計算、假設檢驗與區間估計

設所需要的R程序如下［6-7］：

【程序說明】“＞”代表R軟件運行環境中的“提示符”，上面的R程序中共有5個提示符，說明共有5個R語句；第一句組織第一個“行向量”，代表四格表資料的第1行數據；第二句組織第二個“行向量”，代表四格表資料的第2行數據；第三句調用函數“chisq.test（）”進行χ2檢驗，沒有選項“correct=FALSE”，系統默認值為“校正Pearson'sχ2檢驗”，等價于寫“correct=TRUE”；而選項“rbind（）”是將兩個行向量合并在一起，即構成兩行兩列的四格表數據。第四句目的是創建一個自定義函數function（a，b，c，d，alpha），并將其賦值給變量relativerisk。自定義函數有五個參數，分別為四格表中的四個頻數，第五個參數為雙側假設檢驗標準正態分布曲線下兩尾端的概率之和為alpha；第五句是調用relativerisk所代表的自定義函數，計算相對危險度并對其進行假設檢驗和區間估計。

【R主要輸出結果及解釋】

以上為進行了連續性校正的Pearson'sχ2檢驗結果，即=4.551，P=0.0329。

其他結果摘要匯總如下：

求得相對危險度RR=3.4375、其95%置信區間為［1.1619，10.1702］；檢驗總體RR是否等于1對應的=5.765882、P=0.016340。

以上R輸出結果與SAS輸出的“漸近法”的結果是相同的。

【結論】參見前文SAS輸出結果及結論，此處從略。

4 討論與小結

4.1 討論

在SAS/STAT的FREQ過程中［5］，增加了一些新的方法求總體相對危險度的置信區間，其中，精確非條件置信限的計算方法計算出來的上限值特別大，其原因有待進一步查證。建議讀者在實際應用中選用漸近法或評分法為宜。

4.2 小結

本文交代了隊列設計的概念、呈現了隊列設計四格表資料的實例和模式，給出了相對危險度的概念、計算公式和區間估計方法；基于SAS和R軟件實現了對隊列設計四格表資料的多種假設檢驗，對軟件輸出的結果做出了解釋，并給出了統計和專業結論。

四川精神衛生2021年1期

四川精神衛生的其它文章: ICD-11與DSM-5關于軀體癥狀及相關障礙診斷標準的異同; 課程思政元素融入《精神病學》的實踐與探討; 精神藥理學課程教學現狀及改革策略分析; 發作性睡病與異態睡眠的診治; 網絡成癮（游戲障礙）及干預策略; CBT治療以發作性腹痛為特征的轉換障礙1例