


[摘 要]傳統(tǒng)的抽樣調(diào)查課程教學(xué)過(guò)于注重理論推導(dǎo),缺乏實(shí)際應(yīng)用,以至于學(xué)生在學(xué)習(xí)過(guò)程中未能真正掌握其中方法,不懂得如何運(yùn)用所學(xué)的方法解決實(shí)際問(wèn)題。課題組對(duì)實(shí)際抽樣時(shí)整群抽樣的抽樣與估計(jì)步驟進(jìn)行了系統(tǒng)的講解,并結(jié)合R軟件完成了整群抽樣的樣本抽取與總體參數(shù)估計(jì)。通過(guò)案例教學(xué),幫助學(xué)生掌握整群抽樣的理論知識(shí),并提高了學(xué)生運(yùn)用R軟件解決實(shí)際問(wèn)題的能力。
[關(guān)鍵詞]案例教學(xué);抽樣調(diào)查;整群抽樣;R軟件
[中圖分類(lèi)號(hào)] G642 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 2095-3437(2018)07-0065-03
○、引言
抽樣調(diào)查作為一門(mén)應(yīng)用性、實(shí)用性很強(qiáng)的統(tǒng)計(jì)學(xué)科,是統(tǒng)計(jì)學(xué)類(lèi)專業(yè)的專業(yè)必修課程。然而,傳統(tǒng)的抽樣調(diào)查課程教學(xué)過(guò)于注重理論推導(dǎo),缺乏實(shí)際應(yīng)用,以至于學(xué)生在學(xué)習(xí)過(guò)程中未能真正掌握其中方法,不懂得如何運(yùn)用所學(xué)的方法解決實(shí)際問(wèn)題。為此,候震梅(2016)[1]探討了抽樣調(diào)查課程實(shí)驗(yàn)教學(xué)改革的思路與途徑;張學(xué)新(2015)[2]提出一種抽樣調(diào)查課程貫穿統(tǒng)計(jì)軟件使用的教學(xué)改革方法;盧玉桂(2015)[3]提出應(yīng)運(yùn)用案例教學(xué)法進(jìn)行抽樣調(diào)查課程教學(xué)。
整群抽樣具有實(shí)施調(diào)查便利、節(jié)省費(fèi)用的優(yōu)點(diǎn),因而被廣泛應(yīng)用于調(diào)查中。但筆者在教授該知識(shí)點(diǎn)時(shí),發(fā)現(xiàn)大部分學(xué)生無(wú)法真正理解與掌握整群抽樣方法。因此,筆者擬在前人研究基礎(chǔ)[4][5]上,結(jié)合多年教授抽樣調(diào)查課程的經(jīng)驗(yàn),探討如何利用R軟件幫助學(xué)生更好的理解與掌握“整群抽樣”抽樣與估計(jì)過(guò)程。
一、整群抽樣簡(jiǎn)介
整群抽樣(cluster sampling)[5]是將總體劃分為若干個(gè)群,然后以群為抽樣單元,從總體N(總體群數(shù))抽取n個(gè)樣本群,并對(duì)樣本群中的所有單元進(jìn)行調(diào)查的一種抽樣方法。整群抽樣分為群規(guī)模相等和群規(guī)模不等兩種情況。所謂群規(guī)模是指組成群的單元數(shù)量,群規(guī)模可大可小。群規(guī)模大,則估計(jì)精度差但費(fèi)用省;群規(guī)模小,則可提高估計(jì)精度但費(fèi)用也高。因此,一般而言,群規(guī)模不宜過(guò)大。本文主要介紹群規(guī)模相等的整群抽樣(也稱為等概率整群抽樣),等概率整群抽樣是指在總體N個(gè)群(初級(jí)抽樣單元)中,每個(gè)群所包含的單元(二級(jí)單元)數(shù)皆等于M。
等概率整群抽樣一般用簡(jiǎn)單隨機(jī)抽樣方法抽取群,此時(shí)抽樣比為f=n / N,則總體均值[y]的無(wú)偏估計(jì)為:
二、群抽樣的R軟件實(shí)現(xiàn)
筆者在進(jìn)行整群抽樣教學(xué)時(shí),發(fā)現(xiàn)多數(shù)學(xué)生學(xué)起來(lái)吃力,無(wú)法理解整群抽樣與簡(jiǎn)單[?]隨機(jī)抽樣的關(guān)系,以至于產(chǎn)生厭學(xué)、不學(xué)等一些負(fù)面情緒。為了幫助學(xué)生更好的掌握整群抽樣方法,筆者將通過(guò)文獻(xiàn)[5]的例子,講解整群抽樣過(guò)程。
例 某郵局該轄區(qū)共有5000戶,并劃分為500個(gè)群,則每個(gè)群有10戶居民。為了解郵局管轄區(qū)內(nèi)每個(gè)家庭的月平均定報(bào)份數(shù)及其95%的置信區(qū)間,運(yùn)用整群抽樣方法從500個(gè)群中抽取5個(gè)群進(jìn)行抽樣調(diào)查。
本例中,每個(gè)群的規(guī)模均為10,故為等概率整群抽樣。因此,抽樣方法為運(yùn)用簡(jiǎn)單隨機(jī)抽樣從500個(gè)群中抽取5個(gè)群。因?yàn)槭前凑蘸?jiǎn)單隨機(jī)抽樣抽取群的,所以每個(gè)群的入樣概率均為5/500=1/100,又因?yàn)榭傮w中的某個(gè)群一旦被抽中,則群內(nèi)的所有單元全部入樣。因此,每個(gè)總體單元的入樣概率都為1/100,這也驗(yàn)證了群規(guī)模相等的整群抽樣為何也可稱為等概率整群抽樣。
實(shí)施抽樣調(diào)查時(shí),抽樣與估計(jì)是分開(kāi)進(jìn)行的,且先抽樣后估計(jì)。整群抽樣的抽樣步驟可分為以下兩步:
第一步:編制抽樣總體數(shù)據(jù)框,即編制抽樣框。
假設(shè)事先已獲取管轄區(qū)內(nèi)5000戶住戶的名錄,并已劃分為500個(gè)群。注意,本例中為簡(jiǎn)單起見(jiàn),住戶名錄用數(shù)字編號(hào)代替,實(shí)際抽樣時(shí),應(yīng)為真實(shí)名錄,這樣完成抽樣后,才能根據(jù)抽中的名錄清單,開(kāi)展調(diào)查。
其R代碼如下:
> a=rep(1:500,each=10)
> b=1:5000
> data=data.frame(“群號(hào)”=a,“住戶ID”=b)
第二步:調(diào)用整群抽樣函數(shù)cluster,完成抽樣。
進(jìn)行抽樣前,首先需要下載并加載sampling包(抽樣程序包),然后才可以調(diào)用整群抽樣函數(shù)。整群抽樣函數(shù)cluster( )的第一個(gè)參數(shù)為總體數(shù)據(jù)框,第二個(gè)參數(shù)為分群變量,參數(shù)size設(shè)定樣本群數(shù),參數(shù)method設(shè)定抽樣方法,包括不放回簡(jiǎn)單隨機(jī)抽樣(srswor)、放回簡(jiǎn)單隨機(jī)抽樣(srswr)、泊松抽樣(poisson)、系統(tǒng)抽樣(systematic)4種抽樣方法,description為邏輯型向量,取TRUE值,表示輸出抽樣信息。
其R代碼如下:
> install.packages(‘sampling) #下載sampling包
> library(sampling)#加載sampling包
> n=5#樣本群數(shù)
#調(diào)用整群抽樣函數(shù)
>data.c=cluster(data,“群號(hào)”,size=n,method=“srswor”,description=TRUE)
Number of selected clusters:5
Number of units in the population and number of selected units:5000 50
#從總體數(shù)據(jù)框中提取樣本數(shù)據(jù)
> data.c=getdata(data,data.c)
>data.c[1:20,]#顯示前20個(gè)樣本的信息
結(jié)果顯示:整群抽樣從總體群500中抽取了5個(gè)群,入樣的群編號(hào)依次為72、140、146、430、460,且總體單元數(shù)為5000,樣本單元數(shù)為50;整群抽樣函數(shù)cluster( )返回被抽中單元的住戶ID、群號(hào)、抽樣單元編號(hào)(ID_unit)和入樣概率(Prob)。
完成抽樣后,將對(duì)入樣的住戶展開(kāi)調(diào)查,獲取相關(guān)樣本數(shù)據(jù),完成樣本數(shù)據(jù)的收集。假設(shè)經(jīng)過(guò)調(diào)查后,獲取的樣本數(shù)據(jù)為表2。
根據(jù)獲取的樣本數(shù)據(jù),可開(kāi)始進(jìn)行總體參數(shù)的估計(jì)。整群抽樣的估計(jì)步驟也可以分為兩步:
第一步:估計(jì)的前期工作。
進(jìn)行抽樣估計(jì)前,需要下載并加載survey包(估計(jì)程序包),另外還需要加載一個(gè)grid基礎(chǔ)包,才能開(kāi)始進(jìn)行抽樣估計(jì)。另外,抽樣估計(jì)前,需要調(diào)用svydesign函數(shù)定義抽樣設(shè)計(jì),但在使用該函數(shù)前,還需要設(shè)定每個(gè)樣本的樣本權(quán)重pw和fpc。其中,pw為入樣概率的倒數(shù)N/n,即為500/5=100,fpc為總體群數(shù)N,即為500。其R代碼如下:
> install.packages(‘survey)#下載survey包
> library(survey) #加載survey包
> library(grid)#加載grid包
> N=500#設(shè)定總體群數(shù)
> n=5#設(shè)定樣本群數(shù)
> pw=rep(N/n,nrow(data1))#設(shè)定樣本權(quán)重
> fpc=rep(N,nrow(data1))#設(shè)定fpc變量
> data1.c=as.data.frame(cbind(data1,pw,fpc))#合并樣本數(shù)據(jù)框
> data1.c[1:5,]#顯示前5行樣本數(shù)據(jù)框
第二步:調(diào)用svydesign函數(shù)定義抽樣設(shè)計(jì),并完成估計(jì)。抽樣設(shè)計(jì)函數(shù)svydesign( )參數(shù)id定義群變量,參數(shù)weights定義樣本權(quán)重,參數(shù)data定義樣本數(shù)據(jù)框,參數(shù)fpc定義fpc變量。
> d.c<-svydesign(id=~群號(hào),weights=~pw,data=data1.c,fpc=~fpc)#抽樣設(shè)計(jì)
> summary(d.c)#查看抽樣設(shè)計(jì)
1 - level Cluster Sampling design
With (5) clusters.
svydesign(id = ~群號(hào),weights = ~pw,data = data1.c,fpc = ~fpc)
Probabilities:
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.01 0.01 0.01 0.01 0.01 0.01
Population size (PSUs):500
Data variables:
[1] “住戶ID”“群號(hào)”“ID_unit”“Prob”“訂報(bào)數(shù)” “pw”“fpc”
> svymean(~訂報(bào)數(shù),d.c)#訂報(bào)數(shù)的均值估計(jì)和標(biāo)準(zhǔn)誤差
mean SE
訂報(bào)數(shù) 2.02 0.1062
結(jié)果顯示:訂報(bào)數(shù)的均值估計(jì)值為2.02份,標(biāo)準(zhǔn)誤差為0.1062,則訂報(bào)數(shù)的均值估計(jì)值的95%置信區(qū)間為[1.8119,2.2282]。
三、結(jié)論
本文以一個(gè)簡(jiǎn)單的抽樣案例,對(duì)整群抽樣的抽樣與估計(jì)過(guò)程進(jìn)行了系統(tǒng)的講解,并結(jié)合R軟件完成了整群抽樣的抽樣與估計(jì)。通過(guò)運(yùn)用案例教學(xué)方法進(jìn)行整群抽樣的課堂教學(xué),不僅可以幫助學(xué)生理解與掌握整群抽樣的理論知識(shí),同時(shí)還可以提高學(xué)生靈活運(yùn)用R軟件的能力,以及運(yùn)用R軟件解決實(shí)際抽樣調(diào)查的能力。為此,在進(jìn)行抽樣調(diào)查課程教學(xué)時(shí),應(yīng)注意運(yùn)用實(shí)際案例和R軟件演示相結(jié)合進(jìn)行教學(xué),這將有利于學(xué)生對(duì)抽樣理論知識(shí)理解與掌握,同時(shí)提高學(xué)生運(yùn)用R軟件解決實(shí)際問(wèn)題的能力。
[ 參 考 文 獻(xiàn) ]
[1] 侯震梅. 《抽樣調(diào)查》實(shí)驗(yàn)教學(xué)創(chuàng)新性研究[J]. 現(xiàn)代商貿(mào)工業(yè),2016(10):168-169.
[2] 張學(xué)新. 《抽樣調(diào)查》課程的統(tǒng)計(jì)軟件教學(xué)方法實(shí)踐[J]. 寧夏師范學(xué)院學(xué)報(bào),2015(6):83-91.
[3] 盧玉桂. 案例教學(xué)法在《抽樣調(diào)查》課程教學(xué)中的應(yīng)用[J]. 亞太教育,2015(4):104+93.
[4] 王偉,陳志軍,徐辰武. 基于R語(yǔ)言的隨機(jī)抽樣方法及其應(yīng)用[J]. 揚(yáng)州大學(xué)學(xué)報(bào)(農(nóng)業(yè)與生命科學(xué)版),2014(2):77-81.
[5] 金勇進(jìn)等.抽樣技術(shù):第四版[M].北京:中國(guó)人民大學(xué)出版社,2015.
[責(zé)任編輯:林志恒]