復雜抽樣調查設計二值資料一水平多重Logistic回歸分析

2019-12-31 06:50:52李長平胡良平

四川精神衛生 2019年5期

王嬌，李長平，2*，胡良平

（1. 天津醫科大學公共衛生學院衛生統計學教研室，天津 300070；2. 世界中醫藥學會聯合會臨床科研統計學專業委員會，北京 100029；3. 軍事科學院研究生院，北京 100850

*通信作者：李長平，E-mail：1067181059@qq.com）

抽樣調查由于省時省力且靈活性高，在流行病學調查中應用廣泛。最基礎的抽樣方法包括簡單隨機抽樣、系統抽樣、整群抽樣和分層抽樣。但是，在多中心及大規模的調查中，通過單一的抽樣方法獲取的樣本往往代表性不好，因此常將多種抽樣方法組合在一起使用，即復雜抽樣［1］。復雜抽樣通常具有分層、整群、不等概率或多階段實施等特點，其產生的樣本稱為復雜樣本。由于復雜抽樣各階段所采取的抽樣方法不一定相同，因此，抽樣誤差的估計會變得極為復雜，若計算時不考慮抽樣設計，可能會造成錯誤的統計推斷結果，從而得到錯誤的結論。本文通過不同的分析策略實現了對復雜抽樣調查設計二值資料一水平多重logistic 回歸分析，并探討了各種分析策略之間的差異。

1 基本概念

1.1 常見復雜抽樣調查設計種類

1.1.1 分層隨機抽樣調查設計

分層隨機抽樣是按一定標準先將總體各單位分層，然后根據各層樣本量在總體樣本量中的占比，確定從各層中抽取樣本的數量，最后按照隨機原則從各層中抽取樣本。分層隨機抽樣適用于總體樣本量較大、內部變異較大的調查對象。分層因素的選取需要把握好專業知識。

1.1.2 整群隨機抽樣調查設計

整群隨機抽樣是將總體按一定標準劃分成群或集體，以群或集體為單位按隨機原則從總體中抽取若干群或集體作為總體的樣本，并對抽中的各群或集體中每一個單位都進行實際調查。

1.1.3 多階段隨機抽樣調查設計

多階段隨機抽樣是先將調查總體各單位按一定標準分為若干集群，作為一級抽樣單元，按照隨機原則，先在一級抽樣單元中抽出若干單元作為一級單元樣本，再在第一級單元樣本中抽出二級單元樣本，以此類推，抽取第三、第四級單元樣本。調查工作至第二級單元樣本者，為兩階段隨機抽樣；至第三級單元、第四級單元樣本者，分別為三階段和四階段隨機抽樣。多階段隨機抽樣適用于總體的范圍大、單元多、情況復雜的調查研究場合。

1.2 抽樣調查設計中權重的種類

1.2.1 概述

權重是一個相對的概念，用來描述某一指標或個體在整體評價中的相對重要程度。研究表明，復雜抽樣資料的分析應同時考慮觀測權重與抽樣權重，并提出了綜合權重的概念，納入綜合權重的結果更加靈敏、準確、穩健［2］。

1.2.2 觀測權重

觀測權重是基于權重系數的思想，在分析中引入一個度量每個個體或觀測對總體的重要程度的指標，表示在其他個體不變的情況下，該個體的變化對結果的影響程度。由于抽樣研究中每個個體的重要程度有差異，在確定每個個體的觀測權重時應根據實際情況做出合理規定。常用的定義觀測權重的方法有經驗權重法、貢獻權重法和試驗次數權重法等。

1.2.3 抽樣權重

抽樣權重是反映所抽取的樣本中各個觀測在總體中的重要程度或樣本中各個觀測代表總體中個體的數目的指標。抽樣權重與抽樣方法有關，分為基礎抽樣權重、調整抽樣權重與總抽樣權重［3］。在多階段復雜抽樣中，最終的抽樣權重為多個抽樣概率倒數的乘積［4］。

1.2.4 綜合權重

評價一個調查研究所得到的樣本觀測的重要程度需要從不同方面進行綜合考慮，因此，在同時考慮觀測權重和抽樣權重的情況下，定義了綜合權重：綜合權重=觀測權重×抽樣權重。

2 多重logistic回歸模型的構建與求解

復雜抽樣數據多重logistic 回歸模型的構建、求解的思路和方法與“非配對設計二值資料一水平多重logistic 回歸分析”基本相同，參見文獻［5］，其區別僅在于多考慮了“權重”，其參數估計求解于下面的對數似然方程：

這種結合了權重的似然估計稱為加權極大似然估計。對對數似然方程關于參數求偏導數，并借助非線性迭代法求解出參數的估計值。

3 基于SAS的實例分析

3.1 問題與數據

本研究中使用的數據是中國教育追蹤調查（China Education Panel Survey，CEPS）的基線數據。CEPS使用多階段概率和規模成比例（PPS）采樣方法，抽樣過程分為四個階段。調查的起點是兩個年級。在第一階段，平均教育水平和流動人口比例是分層變量，從全國范圍內隨機選擇28個縣級單位為調查點；第二和第三階段的調查是在學校進行的。從選定的縣級單位中隨機抽取112 所學校的438 個班級進行調查；第四階段對第三階段所選擇班級的全部學生進行了調查，在基線時對大約20 000名學生進行調查。本例以年級為因變量來研究兩個年級（1=七年級、2=九年級）學生之間的差異，選取的自變量包括語文成績、數學成績、英語成績、性別（1=男生、2=女生）、戶籍類型（1=農村、2=非農村）、是否為獨生子女（1=不是、2=是）、父母是否在家（1=都在家、2=一方不在家或都不在家）、是否住校（1=是、2=否）、父親是否酗酒（0=否、1=是）、父母是否經常吵架（0=否、1=是）和父母是否關系很好（0=否、1=是）。見表1。

表1 七年級和九年級學生基線資料

3.2 分析策略

在上述實例數據中，語文成績、數學成績和英語成績三個變量為定量資料，在原始數據的基礎上分別產生12個派生變量（x1-x12），代碼如下：

（此處輸入表1 中全部數據，19487 行、15 列（含編號列））

3.2.1 不考慮抽樣設計和抽樣權重，使用原始變量（模型1）

需要調用LOGISTIC 過程來實現單純隨機抽樣資料的多重logistic回歸分析。

【說明】“descending”選項是要求給出“Y=2”（九年級）發生概率的計算結果，否則，給出“Y=1”（七年級）發生概率的計算結果；“class語句”定義了性別、戶籍類型、父母是否在家、是否住校、是否獨生、父親是否酗酒、父母是否吵架和父母關系為解釋變量中的分類變量；“model語句”中的selection=backward選項定義后退法來選擇變量；sls=0.05選項定義變量的保留標準為P＜0.05；RSQ選項輸出廣義R2。

3.2.2 不考慮抽樣設計和抽樣權重，使用原始變量和派生變量（模型2）

3.2.3 考慮抽樣設計但不考慮抽樣權重，使用原始變量（模型3）

需要調用SURVEYLOGISTIC 過程來實現復雜抽樣數據的多重logistic回歸。

【說明】PROC SURVEYLOGISTIC 用于處理抽樣調查數據，在分析過程中將抽樣設計信息納入分析。本例為多階段分層抽樣，一般以一級抽樣單位為分層變量，因此用strata語句來定義分層變量為所在縣、市、區（ctyids）。“model語句”中的ref='1'選項定義以y=1為參考進行建模。由于SURVEYLOGISTIC過程不能進行變量篩選，在初次分析后剔除了三個沒有統計學意義的變量（戶籍類型、父母是否吵架、父母關系），進行最終的建模。

3.2.4 考慮抽樣設計但不考慮抽樣權重，使用原始變量和派生變量（模型4）

代碼從略。最終模型中剔除了11 個沒有統計學意義的變量（x3、x4、x6、x10-x12、英語成績、戶籍類型、父親是否酗酒、父母是否吵架、父母關系）。

3.2.5 不考慮抽樣設計但考慮抽樣權重，使用原

始變量（模型5）

【說明】加入了weight 語句來利用權重，本例僅考慮抽樣權重來擬合多重logistic 回歸模型。最終模型剔除了（戶籍類型、是否獨生、父母是否吵架）三個沒有統計學意義的變量。

3.2.6 不考慮抽樣設計但考慮抽樣權重，使用原始變量和派生變量（模型6）

代碼從略。最終模型中剔除了10 個沒有統計學意義的變量（x3、x6、x10-x12、英語、戶籍類型、是否獨生、父親是否酗酒和父母是否吵架）。

3.2.7 同時考慮抽樣設計和抽樣權重，使用原始變量（模型7）

【說明】在SURVEYLOGISTIC 模型中同時加入了strata 語句和weight 語句來擬合模型。最終模型剔除了三個沒有統計學意義的變量（戶籍類型、是否獨生、父母是否吵架）。

3.2.8 同時考慮抽樣設計和抽樣權重，使用原始變量和派生變量（模型8）

代碼從略。最終模型剔除了10 個沒有統計學意義的變量（x3、x4、x6、x10-x12、戶籍類型、父親是否酗酒、父母是否吵架、父母關系）。

3.3 不同分析策略結果比較

不同的分析策略最終納入模型的變量不同。八個模型擬合結果見表2。

表2 各模型擬合結果比較

由表2可知，不考慮抽樣設計和抽樣權重時，獨生子女和父母關系均有統計學意義；考慮抽樣設計后，是否為獨生子女這個變量有統計學意義，而父母關系這個變量無統計學意義；考慮抽樣權重后，是否為獨生子女這個變量無統計學意義，而父母關系有統計學意義。考慮抽樣權重的模型比不考慮抽樣權重的模型R2更大；同時考慮抽樣設計和抽樣權重的模型R2最大（R2=0.2461，調整R2=0.3284）。各模型的AUC 相差較大，而同時考慮抽樣設計和抽樣權重的模型AUC為0.789，在八個模型中表現較好。在納入派生變量后，模型R2和AUC大于不考慮派生變量時模型的值。

4 討論與小結

由于不同群體特征的可變性，研究人員在樣本選擇過程中應采用科學的抽樣設計，以降低得出錯誤結論的風險，并根據樣本調查數據的信息對群體進行推斷。為了對調查資料做出統計上的有效推斷，必須在數據分析中考慮抽樣設計。在當前流行病學調查中，logistic回歸分析因其能處理結局變量為離散型變量，尤其是二分類變量而廣泛使用。但是，在普通的logistic回歸分析中沒有考慮抽樣設計和抽樣權重，而是假設所有的樣本均來自單純隨機抽樣，這可能造成信息損失和結果分析的偏差。

在實際調查中，由于抽樣設計和抽樣總體的變動，每一個體對結果影響的權重是不同的［2］，應分別加以考慮。本研究給出的實例采用多階段的概率與規模成比例抽樣，抽樣權重為31.506～5 376.874，如果忽略了權重，分析結果可能會與實際結果之間有差異。而采用最大似然法擬合離散響應調查數據的SURVEYLOGISTIC 回歸模型，其方差估計采用泰勒級數（線性化）方法或重采樣方法，考慮了復雜抽樣設計，包括分層、整群和權重不等的設計［6］。

由本研究結果可知，在考慮了抽樣權重后，變量之間的差異會與單純隨機抽樣和僅考慮了抽樣設計有所不同。忽略抽樣權重時，模型參數的標準誤降低，OR 值的置信區間變窄，但真實數據的分布可能沒有這么精確［7］。由于原始數據中僅提供了“抽樣權重”而未提供“觀測權重”，故本研究無法對使用不同權重后對回歸分析結果的影響加以評價。

但本研究所采用的“調查數據”中的“二值因變量（年級）”不是十分合格的“因變量”，它更適合充當“原因變量”。因為通常的“二值因變量”是每個受試對象在收集資料時可能會出現兩種結局之一，并且每種結局會以一定的概率出現［例如每位患者經過治療后，可能會以概率P出現“存活”，而以概率（1-P）出現“死亡”；而在本例中，每個學生要么屬于七年級、要么屬于九年級，不可能以概率P屬于七年級，而以概率（1-P）屬于九年級］。由于沒有找到合適的復雜抽樣調查數據，僅借用本例來演示如何更全面地對復雜抽樣調查資料進行二值資料一水平多重logistic回歸分析。