





摘要:傳統的抽樣調查課程注重統計學理論講授,忽視了統計軟件在抽樣調查課程中的作用,使學生難以有效應用抽樣知識解決實際問題。首先,介紹了R軟件,并分析其優越性;其次,探究了簡單隨機抽樣基本原理,給出了總體參數的點估計和區間估計理論;最后,通過具體案例,剖析了利用R軟件實現簡單隨機抽樣的過程,并給出了簡單估計和比估計的計算程序,使理論與實踐相結合,提高抽樣調查課程的教學效果。
關鍵詞:抽樣技術;R編程;簡單隨機抽樣;統計教育
中圖分類號:G642 文獻標識碼:A
文章編號:1009-3044(2025)02-0004-03 開放科學(資源服務) 標識碼(OSID) :
0 引言
統計學是一門以數據為核心的應用型學科,主要從事收集數據、整理數據、分析數據和解釋數據的工作。在收集數據過程中,當總體數據龐大或實驗具有破壞性時,對總體進行全面調查是不切實際的,抽樣調查是一種有效的替代策略,在實際生活中有廣泛的應用,如對農產量進行抽樣調查可以及時、準確反映糧食生產情況;對農村經濟進行抽樣調查可掌握農村經濟發展的實際狀況,為制定農村經濟政策提供依據;通過定期開展人口變動抽樣調查可準確了解我國人口數量、區域分布和受教育程度等信息,為教育、醫療和社會保障等領域的政策制定提供依據[1]。
抽樣調查包括概率抽樣和非概率抽樣兩種。非概率抽樣在抽取樣本單元時不遵循隨機原則,具體包括判斷抽樣、方便抽樣和配額抽樣等。盡管這些抽樣方法操作簡單,但不能直接進行統計推斷。概率抽樣是以隨機原則為基礎,按照某種事先設定的程序,有規律地從總體中抽取樣本的過程。由于其在抽樣過程中融入了概率元素,因此,可以計算抽樣誤差,并進行相應的統計推斷,如構建點估計和區間估計等。
概率抽樣以其良好的推斷性能,得到廣大實際工作者的青睞。但由于概率抽樣建立在嚴格的概率論與數理統計知識基礎上,在抽樣調查課程講授中,不可避免地涉及大量的公式推導和定理證明,如在構建總體參數的區間估計時,需要計算估計量的方差;在得出估計量的性質時要證明無偏性等。這些概率抽樣理論比較抽象,不易掌握和應用,如果采用傳統的課程教學模式,如教師利用黑板或PPT推導公式,學生利用筆和紙進行計算,會大大增加課程授課和學習難度,容易造成學生學習興趣不足、實踐能力不強等問題[2]。
隨著計算機的高速發展和各類新興統計軟件的開發應用,上述傳統教學模式已很難適應現代統計學課堂的要求,將抽樣調查理論與統計軟件相結合的教學模式已成為抽樣調查課程教學的主流模式。本文以此教學模式為研究基礎,探究將R軟件與概率抽樣中的簡單隨機抽樣相融合,構建了簡單隨機抽樣的R 實現過程,以提高教師的教學效果,并提升學生的學習熱情。
1 R 軟件簡介
R軟件是一種用于統計分析和統計繪圖的編程軟件,最初由新西蘭奧蘭克大學的Ross Ihaka和Rob?ert Gentleman開發,目前由R開發核心團隊負責其開發和維護[3]。R 軟件可通過官方網站(www.r-project.org)下載獲得,最新R軟件為R 4.4.1,相比于現有的各類統計分析軟件,如SAS、SPSS、Matlab、Eviews 和Minitab等,R軟件有獨特的優勢,具體體現在:
(1) 免費且資源豐富
R軟件是一款完全免費的軟件,它的各種版本(如R和Rstudio等)均能分別在其官方網站上下載到,R軟件的免費性有效地提高了軟件的使用頻率。此外,R 軟件通過加載程序包的形式,豐富其統計分析手段,而這些程序包不僅可免費使用,而且有詳細幫助文檔供讀者研究,R軟件的這些程序包資源使R軟件幾乎能處理現有的所有統計問題,受到統計研究者和數據分析者的廣泛關注。
(2) 占用空間小且可編程
最新的R 4.4.1僅36MB左右,占用空間特別小,軟件適合存放于U盤中,使用時可做到立刻安裝。R 軟件是一種編程軟件,可根據用戶的需求自定義函數,解決一些非編程軟件無法實現的統計計算。
R軟件在生物統計、經濟和金融等領域都發揮著重要的作用。生物統計以統計學理論與方法為基礎,通過對生物醫藥領域的實際數據進行分析,達到對研究對象進行統計推斷的目的。R軟件中的survival程序包可直接對生物統計中常見的刪失數據進行統計分析。時間序列數據和截面數據混合而成的面板數據經常出現在經濟金融領域,R軟件中的plm程序包可詳細分析此類數據,并得出合適的分析結果。
此外,在Tiobe公布的2023年度編程語言排行中,R軟件位居第23位,年度漲幅為0.74%,可見R軟件用戶增長速度快,已成為統計學者、計量經濟學者和數據分析人士所喜愛的分析工具之一。關于R軟件的更多簡介可參見文獻[3-4]。
2 簡單隨機抽樣
2.1 基本定義
簡單隨機抽樣是一種最基本的概率抽樣,又稱純隨機抽樣,是從N 個總體單元中隨機地、不放回地、一個一個地抽取n 個單元構成樣本,使每個單元被抽中的概率都相同,使任何n 個單元形成的組合被抽中的概率也相同。
2.2 估計方法與公式表述
設{Y1,...,Y } N 為總體變量Y 的N 個變量值,在實際生活中,往往需要對此總體的均值和總值進行估計。在抽樣調查中,可采用簡單估計和比估計方法對其進行點估計和區間估計。
在簡單隨機抽樣中,簡單估計是一種最直觀的估計形式,用于估計總體均值的統計量是樣本均值,且需估計的總體參數和用于估計的統計量是“同行同構”的,這也正是簡單隨機抽樣名字的由來[5]。
除簡單估計外,比估計也是一種常見的估計方法,它要求在調查過程中,收集到與主要變量高度相關且信息質量較高的輔助變量,利用這些輔助變量,可以有效提高估計的精度。
3 簡單隨機抽樣的R 實現
利用R軟件實現簡單隨機抽樣的過程,主要涉及兩階段,即抽樣階段和估計階段,即抽取樣本階段和利用所抽中的樣本進行統計推斷的階段。具體地,抽樣階段是利用隨機原則從N 個總體單元中抽取n 個單元構成樣本。估計階段是以所抽取的n 個樣本單元為基礎,構建出常用總體參數,如總體均值的點估計和區間估計。
現以一個具體實例闡述簡單隨機抽樣的R實現過程。某市共有10 000戶居民,為調查居民收入情況,用簡單隨機抽樣抽取50戶,代碼如下:
gt;install. packages(sampling) # 安裝sampling 程序包
gt;library(sampling) #調用sampling程序包
gt;s lt;- srswor(50,10000) #進行不放回簡單隨機抽樣
gt;(1:10000)[s==1] #選出被抽中的單元號
此50 戶居民的編號分別為313、407、470、478、586、954、1176、1218、1445、1733、1750、2232、2327、2536、2542、2629、3032、3054、3532、3584、4296、4685、4718、4754、5155、5454、5815、5945、6096、6146、6215、6294、6370、6440、6866、7033、7238、7425、7668、8298、8453、8457、8517、8711、8940、9159、9440、9451、9565、9927。通過深入調查,分別收集到此50戶戶收入和戶主收入數據,現需要估計該市居民戶平均季收入及其置信水平為95%的置信區間,具體數據如表1所示[1],并存放在income.txt文件中。
3.1 簡單估計
利用R軟件對表1數據進行簡單估計,構造該市居民戶平均季收入及其置信水平為95%的置信區間,代碼如下所示。
gt; datalt;-read.table“( income.txt”); #讀入數據
gt; Nlt;-l0000; n lt;- 50; f lt;- n/N; #計算抽樣比f
gt; Ybar lt;- mean(data[, 1]); #總體均值的點估計
gt; Var.Y lt;- var(data[, 1]); #計算樣本方差
gt; Var.Ybar lt;- ((1-f)/n)*Var.Y; #計算樣本均值的方差
gt; z lt;- qnorm(0.975, mean=0, sd=1); #計算正態分布的分位點
gt; CI.LOW lt;- Ybar - z * sqrt(Var.Ybar); #計算置信下限
gt; CI.UP lt;- Ybar+ z * sqrt(Var.Ybar); #計算置信上限
gt; out lt;- c(Ybar, CI.LOW, CI.UP); #生成結果
gt; names(out) lt;- c(\"總體均值的估計量\", \"置信下限\", \"置信上限\"); out #打印結果
運行上述代碼,可得計算結果如表2所示。這些結果表明該市居民戶平均季收入為36 767元,其95% 的置信區間為[ 30640.32,42893.68]。
3.2 比估計
利用表1數據構建相應比估計量,代碼如下所示:
gt; Xbar lt;- mean(data[, 2]); #生成輔助變量均值的點估計
gt; Var.X lt;- var(data[, 2]); #計算輔助變量樣本方差
gt; cov.xy lt;- cov(data[, 1],data[, 2]); #計算協方差
gt; r.est lt;- Ybar / Xbar; #計算總體比率估計
gt; Y.est.r lt;- Xbar * r.est; #總體均值的比估計
gt; var.ybar.r lt;- ((1-f)/n)*(var.Y-2*r.est*cov.xy+(r.est^2)*var.X) #計算比估計的方差
gt; CI.low.r lt;- Y.est.r - z * sqrt(var.ybar.r) #計算置信下限
gt; CI.up.r lt;- Y.est.r + z * sqrt(var.ybar.r) #計算置信上限
gt; out.r lt;- c(Y.est.r, CI.low.r, CI.up.r) #生成結果
gt;names(out.r) lt;- c(\"均值的比估計\",\"置信下限\",\" 置信上限\"); print(out.r) #打印結果
上述代碼的計算結果見表3,說明該市居民戶平均季收入為36 767 元,其95% 的置信區間為[ 34940.17,38593.83]。對比表2和表3的結果,不難發現,簡單估計量和比估計量的點估計結果一致,但比估計量的置信區間要明顯短于簡單估計量的置信區間,說明在相同精度下,比估計量比簡單估計量更加穩健,這得益于戶主收入與戶收入相關性較強,使得所構建的比估計量方差明顯小于簡單估計量。因此,在此研究中,比估計量明顯要優于簡單估計量。在實際調查中,當能獲取與主要變量高度相關的某些輔助變量信息時,借助輔助變量構建比估計量,可有效提高估計精度。
4 結論
本文詳細介紹了R軟件及簡單隨機抽樣的基本原理,以一個具體抽樣案例為對象,詳細剖析了簡單隨機抽樣的R實現過程。通過運用案例進行簡單隨機抽樣的教學,不僅能幫助學生掌握簡單隨機抽樣的基本理論,還有助于提高學生運用編程類統計分析軟件的能力,并利用R軟件解決實際抽樣調查問題。因此,在抽樣調查的課程教學中,為更好地理解各種估計方法的計算過程,簡化計算復雜性,應將R軟件與實際案例教學相結合,提高課堂教學的實際效果。此外,在本文研究基礎上,可進一步嘗試將抽樣調查案例與不同類型的統計軟件(如Python、SAS等) 相結合,并進行對比分析,全面提升學生的統計軟件使用能力。
參考文獻:
[1] 金勇進,杜子芳,蔣妍.抽樣技術[M].5版.北京:中國人民大學出版社,2021.
[2] 陳欣“. 抽樣調查”課程的混合式教學策略探索:基于超星學習通平臺[J].教書育人,2022(3):110-112.
[3] 薛毅,陳立萍.R語言實用教程[M].北京:清華大學出版社,2014.
[4] 湯銀才.R語言與統計分析[M].2版.北京:高等教育出版社,
[5] 趙培信,楊宜平《. 抽樣調查》教學中無放回隨機抽樣的R軟件實現[J].科技信息,2012(31):26.
【通聯編輯:李雅琪】
基金項目:安徽省質量工程教學研究一般項目“專業認證背景下抽樣調查課程混合式教學模式探究”(2022jyxm1277) ;安徽省質量工程教學研究一般項目“審核評估背景下基于SPOC 的混合式翻轉課堂模式探究——以《市場調查與分析》課程為例”(2023jyxm0595) ;安徽省質量工程“四新”研究與改革實踐項目“新文科視域下經濟統計學專業建設與改革路徑探究”(2023sx078) ;合肥師范學院科研促進教學專項(2024KYJX59,2024KYJX60)