赫明菲
摘 要:本文根據社會經濟調查的原則、流程及統計學方法等,調查華南師范大學2012級MBA全體同學2013年5月31日上、下班花費時間及2013年5月26日-2013年6月1日網上購物消費金額指標。本次調查運用分層抽樣、隨機數表法、抽樣誤差計算、區間估計的調查方法,進行調查、計算并對調查數據進行分析。
關鍵詞:分層抽樣;隨機數法;抽樣誤差;置信度區間
1 調查方法設計及原則
分層抽樣方案設計的原則須科學、有效、便利,也必須保證有較高的效率,即在相同的樣本量的條件下,方案設計應使調查盡可能小、精度盡可能高,即目標量估計的抽樣誤差盡可能小。抽樣方案必須有較強的可操作性,不僅便于具體抽樣的實施,也便于后期數據處理。按照此原則,我們將全班112名同學按性別分為男、女兩層并按姓氏排序編號。統計結果為男生69人,女生43人。
2 隨機數表抽樣法
隨機數表是統計工作者用計算機生成的隨機數組成,并保證表中每個位置上出現哪一個數字是隨機數表等概率的,利用隨機數表抽取樣本保證了各個個體被抽取的概率相等。真正的隨機數是使用物理現象產生的:比如擲錢幣、骰子、轉輪、使用電子元件的噪音、核裂變等等。這樣的隨機數發生器叫做物理性隨機數發生器,它們的缺點是技術要求比較高。而通常我們使用的隨機數表是使用偽隨機數,這些數列是“似乎”隨機的數,實際上它們是通過一個固定的、可以重復的計算方法產生的。計算機或計算器產生的隨機數有很長的周期性。它們不真正地隨機,因為它們實際上是可以計算出來的,但是它們具有類似于隨機數的統計特征。本次調查采用隨機號碼表法抽取樣本,完全排除主觀挑選樣本的可能性,使抽樣調查有較強的科學性。本文的隨機數表為EXCEL表通過函數“=INT(RAND()*(b-a)+a)”生成,代表生成范圍在(a,b)之間的隨機整數。
將全班112名同學按性別分為二層。第一層為女同學,共43名人,按姓氏的拼音首字母排序,并編號1、2、3......43;第二層為男同學,共69人,采用
相同的辦法排序,并編號1、2、3......69。
3 分層抽樣調查
欲了解華南師范大學2012級MBA全體同學2013年5月31日上、下班花費時間、2013年5月26日-2013年6月1日網上購物金額以及這兩個個指標,對30個樣本進行了分層抽樣調查,數據收集的方法為網絡調查,被調查者采用收取郵件方式對調查問卷作回答。發出問卷30份,有效回收30份。調查統計結果列出下表:
分層抽樣具有比純隨機抽樣高的抽樣精度,但由于分層抽樣中各層的樣本的具體情況在抽樣檢驗之前是未知的,所以我們也就無從知道樣本的均值、方差。必須根據調查數據作進一步的計算與分析。
4 抽樣誤差的計算
在112名同學總體中隨機抽出30個樣本,采用比例分配法把樣本中的女、男分為兩層,這里:N=112,n=30;N女=43,n女=21;N男=69,n男=18。
(一)指標1:上周五(2013年5月31日)上、下班花費時間
1、樣本均值計算:
2、樣本方差計算
3.置信區間
(二)指標2:上一周(2013年5月26日~2013年6月1日)網上購物金額
1.樣本均值計算
2.樣本方差計算
3.置信區間
5 分層設計分析
分層設計效應的目地在于為抽樣調查提供一個近似的、好用的估計來提高調查效率,并對群內的一致性進行分析。以下數據的計算結果(表-5)是嚴格按照分層抽樣比,選擇兩個代表性指標,對全班同學的上、下班花費時間,網購消費水平作總體估計。
判斷調查的抽樣精度沒有一個統一的標準,要因定性和定量研究的目地而定。一般誤差在5%范圍內,抽樣精度較高,在5%-10%之間抽樣精度較好,在10%-20%之間數據是可用的,在20%以上,可以認為抽樣樣誤差較大。數據均可根據抽樣調查在允許誤差的范圍內進行修正。所以為了提高抽樣精度,三個調查指標的數據計算都是在允許誤差95%的置信度區間內進行。
其中,置信水平可以分析總體參數值落在樣本統計值某一區內的概率,而置信區間是在某一置信水平下樣本統計值與總體參數值間誤差范圍。其區間范圍越大,置信水平越高。
指標2網上購物金額抽樣誤差37.78,從抽樣誤差的角度來看,完全可以滿足推斷總體的要求。在置信水平為95%的前提下計算出的置信度間隔148.1最寬,表明置信水平最高,用該數據來估計全班同學的網購消費水平的可信度就最高。由國家統計局資料顯示,全國居民平日在互聯網上的錢主要用于上網、購物、玩游戲,繳納各種生活費用。隨著中國網購市場日漸安全規范,人們越來越喜歡網上購物這種新型的消費方式。
指標3上周鍛煉身體的時間其抽樣誤差15.01,從抽樣誤差的角度來看,也可以滿足推斷總體的要求。在置信水平為95%的前提下計算出的置信度間隔58.84較寬,表明置信水平較高,用該數據來估計全班同學的上周鍛煉身體的時間可信度也較高。一份《2012年度中國職場人平衡指數調研報告》中指出 “廣州職場人工作時間全國第一,平均睡眠時間最短”。 由此可見,人們沒有更多的時間進行體育鍛煉。對于本次調查華師全體同學的鍛煉時間均值為73.39分鐘,這個結果還是比較讓人欣慰地。
總之,通過對30個樣本的兩個指標進行抽樣數據分析,對全班同學的數據作代表性估計是毋庸置疑的,而且抽樣誤差水平很低。因此,上下班花費時間、網購消費水平、鍛煉身體情況的樣本數據對推算全班總體具有較好的精確度,為進一步了解全班同學情況提供了重要的參考依據。