劉高生,曹 琴,趙靜文
(1.天津商業大學 理學院,天津 300134; 2.天津城建大學 經濟與管理學院,天津 300384)
大數據具有免費獲取、數據量大等優點,但如果對大數據直接進行分析,不僅數據量龐大、耗時長,且計算效率低。面對如此龐大的數據,需要運用抽樣技術進行樣本選取,抽取一部分與總體研究對象高度相關的樣本量進行分析,根據調查數據,對全體對象進行推斷、估計。目前,抽樣調查被廣泛應用于各個領域,需進一步研究如何選擇合適的抽樣估計方法,達到更好的抽樣估計效果。
國外對抽樣調查方法的研究可追溯到19世紀。Kiaer提出了“代表性抽樣”概念,即從總體中抽出一組可代表該總體的樣本。Neyman、Hansen及Mahalanobis等進行了進一步的研究,提出了更加完整的抽樣調查方法理論體系。1980年,Metrika對簡單估計、比率估計等估計方法的性能進行了研究。20世紀初,Horviz和Thompson提出了無偏估計理論,抽樣調查方法的理論體系日趨完善。
國內關于抽樣調查的理論及方法日益豐富。孫山澤[1]等、金勇進[2]等對7種主要調查方法的公式推導進行了研究,給出了這些理論的應用條件及方法。盧宗輝[3]等提出了基于對等概率和不等概率不同抽樣方式下抽樣方差的計算與比較,研究發現,不等概率抽樣比率估計比等概率抽樣比率估計效果更好。鄧明[4]等闡述了基于比率估計的抽樣方法對復雜的時間序列數據季節指數的估計,解決了季節指數對觀測期數要求高的問題。俞純權[5]討論了有輔助變量可利用時估計量的選擇問題。喬松珊[6]等利用多輔助信息構造了比率估計。盧玉桂[7]等提出了基于R軟件利用分層抽樣方法,解決完整抽樣框和非完整抽樣框兩種不同情況下樣本選取及對總體參數的估計。賀建風[8]等提出了基于大數據將切片逆回歸得到的綜合得分作為輔助變量來構造概率,利用不等概率抽樣獲得了更好的抽樣估計效果。
當抽樣調查中存在輔助變量,且與目標變量存在一定的線性關系時,為估計總體均值,傳統的抽樣理論方法一般考慮回歸估計,但回歸估計僅考慮了一個輔助變量的情況,而當抽樣調查中存在多個輔助變量時則無法有效應用。為充分利用變量間的交互信息,將其擴展到多個交互輔助變量的情況,提出了多元交互回歸估計。在模型中加入交互效應,不僅可提高模型的解釋能力,還能深入研究交互效應變量,這種類似交互式回歸的思想可參考文獻[9-10]。本研究運用數據可視化的方式,將不同抽樣估計方法下復雜的理論結果用圖形直觀呈現出來,并對不同抽樣估計方法進行比較分析,為實際調查研究提供了一定的方法參考。
在簡單隨機抽樣方法中,估計總體均值常用的估計方法為簡單估計(y.bar)、比率估計(y.R)及回歸估計(y.lr)等。其中,簡單估計是用樣本均值作為總體均值的估計。當抽樣調查過程中存在與主要目標變量相關的輔助變量時,通常可以考慮利用這些輔助變量信息來提高估計值的精度。而比率估計和回歸估計只考慮了一個輔助變量的情況,考慮到抽樣調查的指標信息中可能存在多個輔助變量,故而提出了多元交互式回歸估計(y.lrm)。

若得到的新的輔助變量很多,且存在很多對因變量不顯著的變量,可通過Lasso篩選變量的方法去掉不顯著的變量,如果這些新的輔助變量之間存在一定的相關性,可利用主成分降維法得到不相關的主成分,將得到的主成分及其交互項作為新的輔助變量。
設研究的總體指標量為Yj,Xij(i=1,2,3,…k;j=1,2,3…N),從總體中抽取n個簡單隨機樣本,記為:yj,xij(i=1,2,3…k;j=1,2,3…n)。


則多元交互樣本回歸系數bi(i=1,2,3…,k)可取以下向量的第i個值;
b=(x′x)-1x′y;
綜上,多元交互回歸估計的理論如下:
(1)
多元交互回歸估計的均方偏差的估計為:
(2)

由于多元交互回歸估計的方差的估計計算公式較為復雜,提出Bootstrap方法估計多元交互回歸估計的方差過程,基本過程如下:步驟1:從總體中抽取n個原始樣本,采用重抽樣技術從原始樣本中重復抽取m次產生一定數量的再生樣本,此過程允許重復進行,設定m=300次。步驟2:根據步驟1中抽取的再生樣本結果,計算出多元交互回歸估計值。步驟3:將步驟1、2、3重復執行m次,即可得到m個多元交互回歸估計的估計值。步驟4:基于步驟3的計算結果,計算出這m個多元交互回歸估計值的方差,即為利用Bootstrap方法給出的多元交互回歸估計方差的估計。Bootstrap方法估計方差步驟如圖1所示。

圖1 Bootstrap方法估計步驟示意圖Fig.1 Step diagram of Bootstrap method estimation
數值模擬的數據集從線性回歸模型Y=0.5X1+0.5X2+0.5X1*X2+e中產生,其中X1服從二項分布為B(1,0.5),X2服從正態分布N(1,1),誤差項e服從正態分布N(0,σ2)。多元交互回歸估計以X1、X2、X1*X2為3個輔助變量,比率估計及回歸估計以X1為輔助變量。
從N=800的總體體中抽取n個樣本,誤差項的方差設定分別為σ=0.1、σ=0.5。運用簡單估計、比率估計、回歸估計及多元交互回歸估計4種方法估計總體均值。當誤差項方差改變時,對比分析不同的估計方法對總體均值的估計。設定樣本量n=100,試驗重復抽取m=300次,得到4種估計的箱線圖如圖2所示。

圖2 樣本均值估計箱線圖Fig.2 Box plot of sample mean estimation
在無偏估計的條件下,抽樣調查方法模型的均值估計量越集中,則估計方差越小,估計效果越好。從圖2可知,當固定樣本量,誤差項方差變大時,4種估計的四分位差都變大,估計效果都變差。當固定誤差項方差時,簡單隨機抽樣中的簡單估計的四分位差較大,估計效果較差,比率估計與回歸估計四分位差相差不大,估計效果相差不大,而在回歸估計的基礎上提出的多元交互回歸估計的四分位差最小,估計效果較好。
對模擬數據集抽取n1=100、n2=200、n3=300、n4=400的樣本,對比探究估計量的偏差及方差變化。利用Bootstrap方法,重復抽取m=300次,在σ=0.5的情況下得到這4種估計方法的估計偏差折線圖如圖3所示。

圖3 估計偏差折線圖Fig.3 Line plot for estimating deviations
由圖3可知,這4種估計的偏差都較小。當n=100、200、300時,簡單隨機抽樣中的簡單估計的偏差估計小于比率估計與回歸估計的偏差估計,而當n=400時,比率估計與回歸估計的偏差估計均小于簡單估計的偏差估計,而多元交互回歸估計在任何樣本情況下的偏差估計量都是最小的。
由圖4可知,固定估計方法隨著樣本量的增加,估計方差在減小,估計精度隨之提高,當n=400時,估計方差是最小的。在固定樣本量時,簡單估計的方差最大,比率估計與回歸估計的估計方差相當,多元交互回歸估計的估計方差最小,估計效果最好。簡單估計的估計效果最差,主要是因為簡單估計沒有利用輔助變量信息,而比率估計、回歸估計及多元交互回歸估計利用了輔助變量信息,從而提高了估計精度。比率估計與回歸估計利用了一個輔助變量,估計方差比簡單估計要小,而多元交互回歸估計利用了多個輔助變量及交互信息,估計方差最小,估計效果最好。

圖4 Boostrap方法得到的方差估計折線圖Fig.4 Line chart of variance estimation gained by Boostrap
圖5給出了不同方法下方差的估計條形對比圖,藍色表示利用Bootstrap方法得到的估計均值算出的方差的估計,綠色表示利用估計方法的計算公式得到的方差的估計。將運用Bootstrap方法對方差進行估計的結果與傳統公式計算方差的估計結果進行比較可知,兩種估算方法下的估計方差都隨著樣本量的增加而減小,當樣本量很大時,兩種方法得到的方差估計大致相等,這說明利用Bootstrap方法對均值方差進行估計所得的結果是合理有效的,可彌補傳統抽樣理論中方差估計計算復雜的缺陷,對抽樣方法理論及實際應用具有一定的意義。

圖5 方差的估計條形對比圖Fig.5 Bar comparison chart of variance estimation
實例分析使用的數據集為Bike Sharing Dataset[11],包括N=731條觀測數據,變量數目為7個,其中包括6個自變量、1個因變量。各個變量的指標含義如下:workingday-(X1)工作日,weathersit-(X2)天氣情況,temp-(X3)溫度,atemp-(X4)體感溫度,hum-(X5)濕度,windspeed-(X6)風速,cnt-(Y)共享單車租賃數量。
對變量進行相關分析可知,溫度、體感溫度與共享單車租賃數量相關系數接近0.6,天氣情況、濕度、風速等研究變量都與共享單車租賃總數有一定的線性相關性,但是相關性較弱,而工作日的相關性程度最弱。為避免輔助變量間存在多重共線性,選擇體感溫度和天氣情況作為輔助變量。為估計共享單車租賃數量的均值,比率估計及回歸估計只利用體感溫度這個輔助變量,而多元交互回歸估計利用體感溫度、天氣情況及交互信息作為輔助變量。
從N個總體中隨機抽取樣本量分別為100、400的樣本,重復抽取300次,采用簡單估計、比率估計、回歸估計及多元交互回歸估計方法估計共享單車租賃數量的均值,得到不同樣本量情況下估計量的箱線圖如圖6所示。

圖6 均值估計箱線圖Fig.6 Box plot of mean estimation
由表1、表2可知,隨著抽取樣本量的增加,這4種估計的方差都在減少。在固定樣本量的條件下,簡單估計的四分位距最大,多元交互式回歸估計的四分位距最小,比率估計和回歸估計的四分位距相差不大,說明提出的多元交互回歸估計在實際數據中估計效果較好。隨著抽取樣本量的增加,幾種方法得到的估計異常值有所增加,且數據異常值正負都有,這是由于樣本均值在樣本量很大的情況下服從正態分布導致的,結果合理。

表1 n=100的均值估計Tab.1 Mean estimation of n=100

表2 n=400的均值估計Tab.2 Mean estimation of n=400