趙銀倉++王健
隨機抽樣是研究如何合理收集數據,而用樣本估計總體則是研究如何整理與分析數據,從樣本的數據特征來了解整體的情況,由于樣本的隨機性,所以可以透過部分看整體. 在學習這一部分知識時,要通過實際問題情境,學習隨機抽樣、樣本估計總體的基本方法,體會用樣本估計總體及其特征的思想;通過解決實際問題,較為系統地經歷數據收集與處理的全過程,體會統計思維與確定性思維的差異. 由于抽樣方法與用樣本估計總體所體現的統計思想是一種重要的思想方法,所以這部分成為高考每年必考的內容.
重點難點
隨機抽樣與用樣本估計總體要求在解決統計問題的過程中,用隨機抽樣方法從總體中抽取樣本,進一步體會用樣本估計總體的思想,會用樣本的頻率分布估計總體分布,會用樣本的基本數字特征估計總體的基本數字特征;初步體會樣本頻率分布和數字特征的隨機性.
在歷年高考中,該部分知識在選擇題、填空題和解答題中都有出現,考查的方向主要有抽樣方法的選擇,繪制、識別頻率分布表和頻率分布直方圖、頻率折線圖、莖葉圖,并能應用這些圖表解決一些簡單實際問題.
重點:掌握抽樣方法的特點及它們之間的區別與聯系,面對實際問題能合理選擇抽樣方法抽取樣本;繪制頻率分布表和頻率分布直方圖、頻率折線圖、莖葉圖,會計算方差和標準差,并能計算樣本平均數,還能進一步解釋這些統計數據的實際意義.
難點:實際問題中抽樣方案的確定;頻率分布表和頻率分布直方圖的理解與應用,如計算平均數等.
方法突破
1.?搖隨機抽樣與用樣本估計總體的基本思路
(1)簡單隨機抽樣的特點:總體中個體性質相似,無明顯層次;總體容量較小,尤其是樣本容量較小;用簡單隨機抽樣方法抽出的個體帶有隨機性,個體間無固定間距.
系統抽樣的特點:適用于元素個數很多且均衡的總體,各個個體被抽到的機會均等;總體分組后,在起始部分抽樣時,采用簡單隨機抽樣.
分層抽樣的特點:適用于總體由差異明顯的幾部分組成的情況;分層后,在每一層抽樣時可采用簡單隨機抽樣或系統抽樣.
(2)作頻率分布直方圖的步驟:①求極差;②確定組距和組數;③將數據分組;④列頻率分布表;⑤畫頻率分布直方圖.
(3)標準差與方差:標準差、方差描述了一組數據圍繞平均數波動的大小,標準差、方差越大,數據的離散程度越大,標準差、方差越小,數據的離散程度越小,因為方差與原始數據的單位不同,且平方后可能夸大了偏離程度,所以雖然方差與標準差在刻畫樣本數據的分散程度上是一致的,但在解決實際問題時,一般多用標準差.
2. 隨機抽樣與用樣本估計總體的基本策略
(1)理解抽樣方法的區別與聯系
簡單隨機抽樣是系統抽樣與分層抽樣的基礎,是一種等概率的抽樣,由定義應抓住以下特點:它要求總體個數較少;它是從總體中逐個抽取的;它是一種不放回抽樣.
系統抽樣又稱等距抽樣,號碼序列一確定,樣本即確定了,但要求總體中不能含有一定的周期性,否則其樣本的代表性是不可靠的,甚至會導致明顯的偏向.
(2)分析總體特征,選擇合理的抽樣方法. 抽樣方法經常交叉使用,比如系統抽樣中的第一均衡部分,可采用簡單隨機抽樣,分層抽樣中,若每層中的個體數量仍很大時,則可輔之以系統抽樣.
(3)準確繪制頻率分布表和頻率分布直方圖、頻率折線圖、莖葉圖. 通過頻率分布表和頻率分布直方圖可以對總體作出估計,這就依賴于繪制圖表的準確性.在計數和計算時一定要準確,在繪制小矩形時,寬窄要一致,這樣才能使繪制的頻率分布圖表準確地反應實際問題.
(4)理解估計總體的有關概述并熟記有關公式. 若取值x1,x2,…,xn的頻率分別為p1,p2,…,pn,則其平均值為x1p1+x2pn+…+xnpn. 若取值x1,x2,…,xn的平均數為■,方差為s2,則ax1+b,ax2+b,…,axn+b的平均數為a■+b,方差為a2s2.
典例精講
■例1 (2013年高考陜西卷)某單位有840名職工,現采用系統抽樣方法,抽取42人做問卷調查,將840人按1,2,…,840隨機編號,則抽取的42人中,編號落入區間[481,720]的人數為( )
A. 11 B. 12 C. 13 D. 14
思索 當總體中所含的個體數比較大,并且個體間沒有顯著差異,被抽取的概率一樣時,采用系統抽樣法. 本題從840中用系統抽樣抽取42人,則每20人為一組,每組抽取一人. 因此只需要按等間隔抽取規則求出編號落入區間[481, 720]的組數,并且還要弄清首未兩組是否為全體.
破解 根據從編號1開始,每20人一組等距分組規則,第1組的編號區間為[1,20],第2組的編號區間為[21,40],以此類推,編號落入區間[481,720]的為第24組至第35組的全體,共有12組,所以抽取的42人中, 編號落入區間[481,720]的人數為12人,故選B.
■例2 (2014年高考廣東卷)已知某地區中小學生人數和近視情況分別如圖1和圖2所示. 為了了解該地區中小學生的近視形成原因,用分層抽樣的方法抽取2%的學生進行調查,則樣本容量和抽取的高中生近視人數分別為( )
■
圖1 圖2
A. 200,20?搖 B. 100,20?搖?搖?搖?搖
C. 200,10 ?搖?搖 D. 100,10
思索 由于中小學生的年齡差異明顯,因而近視情況的差異很大,所以選用分層抽樣方法. 本題考查統計圖表的實際應用,問題的關鍵是識圖,讀懂題目給出的圖表,明白其中數據的意義.
破解 根據題中的圖可知,該地區中小學生一共有10000人,因為要抽取2%的學生,所以樣本容量是10000×2%=200. 因為高中生的近視率為50%,所以抽取的高中生近視的人數為2000×2%×50%=20. 故選A.endprint
■例3 (2014年高考北京卷)從某校隨機抽取100名學生,獲得了他們一周課外閱讀時間(單位:小時)的數據,整理得到數據分組及頻數分布表和頻率分布直方圖(如圖3).
■
■
圖3
(1)從該校隨機選取一名學生,試估計這名學生該周課外閱讀時間少于12小時的概率;
(2)求頻率分布直方圖中的a,b的值;
(3)假設同一組中的每個數據可用該組區間的中點值代替,試估計樣本中的100名學生該周課外閱讀時間的平均數在第幾組.(只需寫出結論)
思索 本題要能夠讀懂頻數分布表及直方圖,明確圖表中每個數據的數學意義:頻數分布表以2小時為單位分組,直方圖中矩形的高為頻率與組距的比,寬為閱讀時間,面積為閱讀時間在該范圍的頻率,直方圖中小矩形的面積和為1. 從頻率分布直方圖來估計平均值,等于直方圖中每個小矩形的面積乘小矩形底邊中點的橫坐標之和.
破解 (1)根據頻數分布表,100名學生中課外閱讀時間不少于12小時的學生共有6+2+2=10(名),所以樣本中的學生課外閱讀時間少于12小時的頻率是1-■=0.9. 故從該校隨機選取一名學生,估計其課外閱讀時間少于12小時的概率為0.9.
(2)課外閱讀時間落在組[4,6)內的有17人,頻率為0.17,所以a=■=■=0.085. 課外閱讀時間落在組[8,10)內的有25人,頻率為0.25,所以b=■=■=0.125.
(3)由頻數分布圖中的數據可得平均數為■=0.06×1+0.08×3+0.17×5+0.22×7+0.25×9+0.12×11+0.06×13+0.02×15+0.02×17=7.68,所以樣本中的100名學生課外閱讀時間的平均數在第4組.
■例4 (2014年高考湖南卷)某企業有甲、乙兩個研發小組,為了比較他們的研發水平,現隨機抽取這兩個小組往年研發新產品的結果如下:(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b). 其中a,a分別表示甲組研發成功和失敗;b,b分別表示乙組研發成功和失敗.
(1)若某組成功研發一種新產品,則給該組記1分,否則記0分. 試計算甲、乙兩組研發新產品的成績的平均數和方差,并比較甲、乙兩組的研發水平.
(2)若該企業安排甲、乙兩組各自研發一種新產品,試估計恰有一組研發成功的概率.
思索 本題綜合考查隨機樣本的收集,用樣本的平均數與方差估計總體. 根據規定用1和0來表示研發的成功與失敗,將隨機抽取的研發結果轉化為關于反映甲、乙成績的兩組數值,計算它們的平均值與方差,以此來比較它們的研發水平.
破解 (1)甲組研發新產品的成績為1,1,1,0,0,1,1,1,0,1,0,1,1,0,
1,其平均數為x甲=■=■,方差為s2甲=■1-■?搖2×10+0-■?搖2×5=■.
乙組研發新產品的成績為1,0,1,1,0,1,1,0,1,0,0,1,0,1,1,其平均數為x乙=■=■,方差為s2乙=■1-■?搖2×9+0-■?搖2×6=■.
因為x甲>x乙,s2甲 (2)記E={恰有一組研發成功}.在所抽得的15個結果中,恰有一組研發成功的結果是(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),共7個,故事件E發生的頻率為■. 將頻率視為概率,即得所求概率為P(E)=■. 變式練習 1. (2014年高考天津卷)某大學為了了解在校本科生對參加某項社會實踐活動的意向,擬采用分層抽樣的方法,從該校四個年級的本科生中抽取一個容量為300的樣本進行調查. 已知該校一年級、二年級、三年級、四年級的本科生人數之比為4∶5∶5∶6,則應從一年級本科生中抽取________名學生. 2. 為了考察某校各班參加課外書法小組的人數,在全校隨機抽取5個班級,把每個班級參加該小組的人數作為樣本數據. 已知樣本平均數為7,樣本方差為4,且樣本數據互相不相同,則樣本數據中的最大值為________. 3. 以下莖葉圖記錄了甲、乙兩組各五名學生在一次英語聽力測試中的成績(單位:分),已知甲組數據的中位數為15,乙組數據的平均數為16.8,則x,y的值分別為________. ■ 圖4 4. (2014年高考廣東卷)某車間20名工人年齡數據如下表: ■ (1)求這20名工人年齡的眾數與極差; (2)以十位數為莖,個位數為葉,作出這20名工人年齡的莖葉圖;?搖?搖?搖?搖?搖 (3)求這20名工人年齡的方差. 5. (2014年高考重慶卷)20名學生某次數學考試成績(單位:分)的頻率分布直方圖如圖5所示. ■ 圖5 (1)求頻率分布直方圖中a的值; (2)分別求出成績落在[50,60)與[60,70)中的學生人數; (3)從成績在[50,70)的學生中任選2人,求此2人的成績都在[60,70)中的概率. 參考答案 1. 60 2. 10 3. 5,8 4. (1)眾數為30,極差為21. (2)略 (3)12.6 5. (1)據直方圖知組距為10,由(2a+3a+6a+7a+2a)×10=1,解得a=■=0.005. (2)成績落在[50,60)中的學生人數為2×0.005×10×20=2. 成績落在[60,70)中的學生人數為3×0.005×10×20=3. (3)記成績落在[50,60)中的2人為A1,A2,成績落在[60,70)中的3人為B1,B2,B3,則從成績在[50,70)的學生中任選2人的基本事件共有10個,即(A1,A2),(A1,B1),(A1,B2),(A1,B3),(A2,B1),(A2,B2),(A2,B3),(B1,B2),(B1,B3),(B2,B3). 其中2人的成績都在[60,70)中的基本事件有3個,即(B1,B2),(B1,B3),(B2,B3). 故所求概率為P=■. ■