閆在在,常 帥,郝曉彤,湯 榮
(內蒙古工業大學 理學院,呼和浩特 010051)
抽樣調查是實踐中主要的數據收集工具,它的應用領域,如官方統計、質量控制、市場分析、資源統計等的基石。合適的抽樣設計是獲取高質量調查結果的本質,它直接影響調查成本和調查精度。應用中常使用不等概率抽樣設計包括放回地與單元大小成比例的PPS抽樣和不放回地與單元大小成比例的πPS抽樣,由于πPS抽樣設計不會出現重復的樣本單元,在實際中更受重視。如何構造和實施πPS抽樣設計是一個公開問題[1-12]。Brewer,Early和Joyce(1972)[17]提出一種稱為配置抽樣的嚴格πPS抽樣設計,其樣本容量n也是隨機的,配置抽樣先給每個單元賦予一個預定的入樣概率pi,然后等概率地給總體單元配置一組序號 (L1,L2,…,LN),它是 (1,2,…,N)的一個隨機排列。在[0,1]中抽取一個隨機數r,令ri=(Li+r-1)/N。若ri<pi,則i單元入樣,否則,該單元不入樣。對所有單元均按上述準則確定其是否入樣,構成一輪配置抽樣。
Brewer,Early,Joyce(1972)[13]和Brewer,Early,Hanif(1984)[14]建立了配置抽樣設計的基本理論,并與泊松抽樣比較說明配置抽樣的優良性,受條件泊松抽樣設計思想啟發,本文提出通過不斷產生配置樣本,直到其樣本量實現預定容量n時樣本才被接受的條件配置抽樣。
考慮從目標總體(Y1,Y2,...,YN)中采用不放回不等概率抽樣的方法抽取一個容量為n的樣本來估計總體總值Y。在估計量構造和評價階段,必須使用總體中單元i被包含到樣本中的一階包含概率πi=Pr(i)以及任意兩個單元i和j都包含到樣本中的二階包含概率πij=Pr(i,j),對于固定的n,滿足見文獻[15]。Horvitz與 Thompson(1952)提出了著名的總體總和的H-T估計量:

引理1:若 πi>0(i=1,2,…,N),則Horvitz-Thompson估計是Y的無偏估計,其方差為:

當n固定時,又有:

引 理 2 :若 所 有 的 πi>0,πij>0,(i,j=1,2,...,N;i≠j),則:


針對配置抽樣只能得到隨機容量樣本的缺點,受泊松抽樣發展到條件泊松抽樣的啟發,本文發展了一種固定樣本容量的近似πPS抽樣設計,其實施方法:預定樣本容量n,目標包含概率pi與輔助變量xi成正比。按如下設計進行抽樣:
(1)利用包含概率pi實施配置抽樣,抽取一個初始樣本s0。
(2)如果s0的樣本容量滿足:ns0=n,則最終的樣本s=s0,否則,重復第一步。
稱上述設計為條件配置抽樣。它實現了樣本容量固定,但其一階包含概率 πi≈pi,i=1,2,…,N。因此該設計為樣本容量固定的近似πPS抽樣。
根據條件泊松抽樣、2PπPS抽樣得到包含概率理論表達式的思想,得出一階、二階包含概率表達式:

一旦實現一階、二階包含概率的解析計算。就可以構造總體總值的Horvitz-Thompson型估計量:

以及估計量的方差:

需要指出的是,實際上式(6)和式(7)只是一、二階包含概率理論上的形式表達,并不能真正實現一、二階包含概率的計算。與條件泊松抽樣、2PπPS抽樣設計計算包含概率比較,瓶頸在于條件泊松抽樣、2PπPS抽樣設計下使用的初始泊松樣本具有樣本個體獨立的性質;而條件配置抽樣設計下使用的初始配置樣本個體間不獨立;如何實現理論上計算條件配置抽樣的包含概率有待研究,本文作為一個公開問題提出。擬數值上給出計算包含概率的方法并評價了提出設計的優良性。
由于上述包含概率的表達式還沒有得出,即使有也比較復雜或者為遞歸公式,理論上給出設計的優良性或方案間的比較非常困難,因此,數值模擬具有重要的意義。本文在小總體和小樣本時,基于超總體模型下的總體,借助Monte-Carlo方法數值模擬求解包含概率,進而分析條件配置抽樣與條件泊松抽樣、簡單隨機抽樣間的差別。調查變量根據線性超總體模型產生。計算時,采用超總體Y=1+2(X-0.5)+ε,輔助變量擾動變量為了保持調查變量Y與輔助變量X的主要回歸關系,正態擾動變量的方差的大小選擇為1/5調查變量Y的方差。使用條件配置抽樣設計和條件泊松抽樣設計產生容量為n的樣本,實施10000輪模擬抽樣,計算每種抽樣方法對應的方差。算法如下:
(1)使用上述模型產生目標變量Y,輔助變量X,計算入樣概率pi,i=1,2,…,N。
(2)按照配置抽樣的要求產生對應的r,Li,ri。如果ri<pi,則第i個單元入樣,否則,該單元不入樣。這一樣本記為s0,如果s0的樣本容量滿足:ns0=n,則作為最終的條件配置樣本s=s0,否則,重新抽樣。
(3)以pi為入樣概率進行泊松抽樣,如果成功,則第i個單元入樣,否則,該單元不入樣。這一樣本記為s0,如果s0的樣本容量滿足:ns0=n,則作為最終的條件泊松樣本s=s0,否則,重新抽樣。
(4)分別按照第2步和第3步實施10000次模擬抽樣,得到10000個條件配置和條件泊松樣本。
(6)采用樣本容量n固定的Horvitz-Thompson方差公式:

分別計算條件配置抽樣與條件泊松抽樣的方差。
下面給出線性超總體模型下,條件泊松(CP),條件配置(CC),簡單隨機不放回(SRS)抽樣設計的方差比較。
線性模型下,CP,CC設計獲得合格樣本所需抽樣次數比較結果見表1所示。抽樣設計精度比較結果見表2和表3所示。

表2 線性模型下不同估計量的方差(固定n=6)

表3 線性模型下不同估計量的方差(固定N=30)
從上面數值計算可以看出,線性模型下提出的條件配置抽樣精度高于經典的條件泊松抽樣;條件泊松抽樣精度高于簡單隨機抽樣。
實例:為了分析條件配置抽樣的性能,并和已有的結果(見文獻[16])作比較。考慮文獻[20]中的一個總體數據。
y:Percentage of hives affected by disease
x:Mean January temperature

表4 實例中預定包含概率及AP,2Pπps,CP,Pareto,CC設計下一階包含概率(N=10,n=4)

表5 實例中CC設計下二階包含概率(N=10,n=4)

表6 實例中CC,AP,2Pπps,CP,Pareto,SRSWOR設計的方差(N=10,n=4)
因此,本文建議的條件配抽樣不僅實施簡單,也容易通過Monte-Carlo模擬計算一階、二階包含概率,而且當研究變量和輔助變量線性相關比較顯著時(實例中相關系數ρ=0.79655),從表6可以看出,條件配置抽樣的方差較其他抽樣的方差明顯的小。
本文提出了一種新的不等概率抽樣設計.從數值模擬分析得出提出的條件配置抽樣優于經典的,在調查中被廣泛使用的條件泊松抽樣。以總體參數估計的方差作為抽樣設計精度的度量,從表2和表3中可以看出在線性趨勢模型下提出的條件配置抽樣設計精度上優于條件泊松抽樣和簡單隨機不放回抽樣設計。表1比較了條件泊松抽樣和條件配置抽樣得到合格樣本所需抽樣次數的方差,提出的設計其成功抽取樣本所需的試驗次數少,比泊松抽樣省時。說明條件配置抽樣更容易實施。當研究總體中目標變量與輔助變量相關性較顯著時,條件配置抽樣的精度呈現出優越性,所以提出的方法具有潛在的實際應用的價值。