

摘要:抽樣調查是“市場調查”課程的主要實踐教學環節,目前所使用的軟件對抽樣模擬的支持相對不足,很多抽樣及估計過程仍不能在軟件菜單中得以實現,尤其是不等概抽樣大多需要編程。軟件編程對工商管理類的學生并非易事,R軟件的sampling等軟件包提供了大量現成的不等概程序,可以方便地進行抽樣及模擬教學。探討以調查某品牌商品的消費者總量為例,模擬不等概率抽樣的過程,為“市場調查”課程實踐教學提供了一種實用的方法。
關鍵詞:市場調查;實踐教學;抽樣調查;R軟件
作者簡介:葛瑩玉,女,江蘇理工學院商學院講師,河海大學在讀博士,主要研究方向為技術經濟與管理。
中圖分類號:G642文獻標識碼:A文章編號:1674-7747(2014)30-0068-03
“市場調查”課程是工商管理類專業的核心課程之一,該課程的實踐操作性很強,教學內容主要圍繞市場調查方案制定、市場調查問卷設計、市場調查數據搜集、整理和分析等內容展開。通過“市場調查”課程教學,不僅使學生學會如何制定調查方案、設計調查問卷、處理和分析數據等,而且,其核心過程是讓學生掌握和運用抽樣調查方法。由于“市場調查”課程具有較強的實踐操作性,在本科階段僅僅講授抽樣原理的效果不佳,學生實踐能力也無法得到培養。因而,使用R軟件進行抽樣過程實踐,能夠讓學生直觀地了解抽樣過程及結果,培養其動手能力,提高他們解決企業市場調查中實際問題的能力。
一、“市場調查”課程的抽樣方法
目前,常用的抽樣方法有概率抽樣和非概率抽樣,其中,概率抽樣又包含等概率和不等概率兩大類別。等概率抽樣由于實施方便,且具有較高的精度,在實際抽樣中使用廣泛。[1]然而,等概率抽樣在實際使用時的限制也最多,它假定總體中每個個體具有相同的規模大小或重要程度,當總體中每個個體的規?;蛑匾潭却嬖陲@著差異時,會影響等概率抽樣的估計精度。[2]此時,若能找到說明個體規?;蛑匾潭鹊妮o助變量,則可采用不等概抽樣方法。不等概抽樣雖然是有偏估計,但可大幅提高估計精度,在偏度不大的情況下,不等概抽樣結果仍比概率抽樣更可靠。在現有的軟件中,SAS和SPSS軟件都有復雜抽樣的模塊,但不放回不等概抽樣的模塊和程序較少,具體使用時需要自己編程。而R軟件提供了多種不等概抽樣的程序,方便進行模擬及結果可視化,且R是開源軟件,無需為軟件或某個軟件包支付任何費用。因此,R軟件已成為工商管理類專業學生和實證研究人員的主要分析工具。
二、“市場調查”課程的抽樣模擬具體實例
本文以調查某品牌商品消費者總量為例。消費者總量的調查若以家庭或個體為單位,會大大增加抽樣框編制的難度,增加調查實施的困難。因此,本文以街道居委會或村民小組為最小單位,由于不同的街道居委會或村民小組居民數量不同,故擬采用不等概率抽樣方法。不等概抽樣的實施方法有很多,但由于實際操作困難,限制了不等概抽樣方法在實踐中的使用。[3]本文運用R軟件編程模擬幾種常用的不等概抽樣方法,運用Horvitz-Thompson估計量模擬調查精度,并與多階段抽樣和簡單隨機抽樣進行比較,從中選出滿意的抽樣方法。
(一)抽樣總體的描述
選取某品牌商品消費人口較多的某省某縣為總體,該縣有19個鄉鎮,125個村,最大的鄉鎮擁有171個街道或村民小組,最小的鄉鎮只有43個街道或村民小組;平均每個鄉鎮擁有94個街道或村民小組,19個鄉鎮共計有1 791個街道或村民小組??側丝诠?105萬人。其中,某品牌商品的消費者人數有746萬人,占總人口的2401%。在所有街道或村民小組中,消費某品牌商品的人數比率最低為0,最高為7674%,可見,消費某品牌商品的人數比率在各街道或村民小組中差異較大,且呈明顯右偏;消費某品牌商品的人數比率在50%以上的街道或村民小組很少,峰值在30%左右,如圖1所示。用Shapiro-Wilk正態性檢驗伴隨概率小于001,說明各街道或村民小組的某品牌商品消費人口數并不服從正態分布。但某品牌商品消費人口或村鎮總人口的相關系數達072,spearman相關系數檢驗的伴隨概率小于001,說明各街道或村民小組的某品牌商品消費人口與總人口數成高度相關,可將總人口數作為輔助變量進行抽樣。
(二)抽樣方法的選擇
常用的不等概抽樣有放回的不等概抽樣(pps)和不放回的不等概抽樣(πps)兩種,相比較而言,πps抽樣雖然抽取方法和方差估計比較困難,但精度上有所提高,且隨著計算機技術和統計軟件的發展,πps抽樣及估計的程序和軟件將越來越成熟,πps抽樣的使用也將逐漸廣泛起來。
設有限總體U={1,…,k,…N},本例中N=1 791,抽樣單元為街道或村民小組,調查變量yk為某品牌商品消費人口數,調查目的是估計地區的某商品消費總人數ty=∑kUyk,設對于總體中的每一個個體都存在xk>0,xk與yk近似成比例或存在一定相關性,則以xk為輔助變量的不等概抽樣可以減小抽樣誤差。
每個個體被包含到樣本中的概率為:
(三)抽樣過程的模擬仿真
1.抽樣程序采用R軟件以及sampling包進行編程抽取,為了比較各抽樣方法的差異及抽樣精度的穩定性,本文將樣本量設定為25、50和100三組,每組樣本都模擬抽樣100次。在sampling包中提供了brewer和midzuno等17種不等概抽樣方法,其用法基本一致,首先計算包含概率,計算程序為:
inclusionprobabilities(a,n),
其中,a為說明規模大小的輔助變量,a>0;n為樣本量。
為方便起見,令pik=inclusionprobabilities(a,n)。
2.按不等概方式抽取樣本,即生成變量s,s=1表示抽中,s=0表示沒有抽中,以brewer抽樣為例:
s=UPbrewer(pik),
其余不等概抽樣程序類似,詳見sampling包。
3.計算Horvitz-Thompson估計量。
HTestimator(y,pik),
其中,y為需估計的變量。
運用上述函數的三種樣本量模擬結果如圖2所示。
當樣本量為25個街道或村民小組時,抽樣比為140%,平均抽到的某品牌商品消費人數約為4 334人。此時,各種抽樣方法的精度不高,相較而言,poisson抽樣和多階段抽樣的估計量方差較大,多階段抽樣和pivotal的偏差較大(圖2中虛線為消費某品牌商品的總人數),而systematic抽樣和brewer抽樣效果相對較好。
當樣本量為50和100,抽樣比為279%和558%時,抽樣的偏差和估計量方差都有改善。其中,多階段抽樣和poisson抽樣的估計量方差仍較大,且偏差明顯不為0,故這兩種抽樣方法并不適用本例。相較而言,brewer、midzuno和systematic抽樣相對比較穩定,簡單隨機抽樣(srswor)在樣本量較小時估計誤差較大,而在樣本量大于50后也具有較好的估計精度。綜合考慮穩定性、偏差和估計量方差,本文認為,不等概系統抽樣(systematic)最適于用來估計該地區某品牌商品消費者總量。
三、結論
本文運用目前流行的統計開源軟件R軟件及sampling軟件包,方便實現了不等概抽樣及結果模擬,并用圖表直觀輸出,比較抽樣過程中的方法、樣本量等因素對抽樣精度的影響。模擬仿真結果表明,R軟件豐富的程序包,可方便進行抽樣設計及模擬,且使用方便,操作簡單,可擴展性強??梢?,相對于傳統理論教學,使用R軟件進行實踐教學,可以加深學生對不等概率抽樣的理解,使其更好地掌握和運用市場調查中的抽樣方法。[4-5]
參考文獻:
[1]龐智強.《抽樣調查》課程建設與教學改革[J].蘭州商學院學報,2001(6):148-149.
[2]馬嵐.對《抽樣調查》課程教學改革的思考[J].統計教育,2007(8):29-30.
[3]周妮笛.論《市場調查與預測》課程教學的改進[J].當代教育理論與實踐,2011(11):74-76.
[4]陳成棟,劉曉云.“市場調查與預測”課程教學改革實證研究[J].中國市場,2012(35):26-28.
[5]杜亞芳.市場調查課程教學改革與實踐[J].高等教育,2013(6):133-134.
[責任編輯盛艷]