孫杰


統計學研究的對象是客觀事物的數量特征和數量關系,它是關于數據的搜集、整理、歸納分析和解釋的科學,其基本思想是用樣本估計總體,用樣本的某種數字特征(平均數、方差等)去估計總體的相應數字特征。平均數反映了數據取值的平均水平,標準差、方差描述了一組數據圍繞平均數波動的大小。標準差、方差越大,數據的離散程度越大,越不穩定;標準差、方差越小,數據的離散程度越小,越穩定。
一、用定義與公式求樣本的數字特征
例1 袁隆平院士是中國雜交水稻事業的開創者,50多年來,他始終在農業科學的第一線辛勤耕耘、不懈探索,為人類運用科技手段戰勝饑餓帶來了綠色的希望和金色的收獲。袁老的科研團隊發現“野敗”后,將其帶回實驗,在試驗田中隨機抽取了100株水稻統計每株水稻的稻穗數(單位:顆)得到如圖1所示的頻率分布直方圖(同一組中的數據用該組區間的中點值為代表),則下列說法錯誤的是()。
A.a=0.01
B.這100株水稻的稻穗數平均值在區間[280,300)中
C.這100株水稻的稻穗數的眾數是250
D.這100株水稻的稻穗數的中位數在區間[240,260)中
分析:利用樣本的頻率分布直方圖估計總體的數字特征的方法:眾數的估計值是最高小矩形的底邊中點的橫坐標;中位數的估計值將頻率分布直方圖分成左右面積相等的兩部分;平均數的估計值等于頻率分布直方圖中每個小矩形的面積乘以小矩形底邊中點的橫坐標之和。
解:根據頻率分布直方圖知組距為20,所以20x(0.005+0.0075x2+0.0175+a+ 0.0025)=1,解得a=0.01,A正確。這100株水稻的稻穗數平均值x=20x(0.005x210+0.0075x230+0.0175x250+0.01x 270+0.0075x290+0.0025x310)=256,可知這 100株水稻的稻穗數平均值在區間[240,260)中,B錯誤。由頻率分布直方圖知第三個小矩形最高,所以這100株水稻的稻穗數的眾數是250,C正確。前兩個小矩形的面積是0.25<0.5,前三個小矩形的面積是0.6>0.5,所以中位數在第三組中,即這100株水稻的稻穗數的中位數在區間[240,260)中,D正確。應選B。
點評在頻率分布直方圖中,眾數只能表示樣本數據中的很少一部分信息;樣本中位數不受少數幾個極端值的影響,但它僅僅利用了排在中間的數據的信息;樣本平均數與每個樣本數據有關,任何一個樣本數據的改變都會引起平均數的改變,這是中位數、眾數都不具有的性質。也正因為這個原因,與眾數、中位數比較起來,平均數可以反映出更多的關于樣本數據的信息。
二、利用性質求樣本的數字特征
例2 一組數據中的每一個數據都減去80,得到一組新數據的平均值是1.2,方差是4.4,則原數據的平均值和方差分別是。
分析:利用樣本的數字特征的性質求解。解:由平均數和方差的定義可知,一組數據中的每一個數據都減去80,平均數也減少80,但方差不變。
因為新數據的平均值是1.2,方差是4.4,所以原數據的平均值和方差分別是81.2,4.4。
點評本題考查平均數和方差的變化特點。若原數據都乘以同一個數,則所得數據的平均數也乘以同一個數,而方差要乘以這個數的平方。
三、利用數字特征反推原始數據
例3 為了考查某校各班參加課外小組的人數,從全校隨機抽取5個班級,把每個班級參加該小組的人數作為樣本數據,已知樣本平均數為7,樣本方差為4,且樣本數據互不相同,則樣本數據中的最大值為()。
A.8
B.9
C.10
D.11
分析:本題中的樣本數據較少,根據已知條件可列出方程組,通過觀察和配湊找到方程組的解。
解:設這5個班級的人數分別為x1,x2,x3,x4,x5。不妨設x1由題意得x1+x2+x3+x4+x5=35,且(x1-7)2+(x2-7)2+(x3-7)2+(x4- 7)2+(x5—7)2=20。若樣本數據中的最大值為11,則(x1—7)2+(x2—7)2+(x3—7)2+(x4—7)2=4,而樣本數據互不相同,顯然此式不成立;若樣本數據為4,6,7,10,代入驗證均成立。故樣本數據中的最大值為10。應選C。
或者,由題意得x1+x2+x3+x4+x5=35,且(x1-7)2+(x2-7)2+(x3-7)2 (x4—7)2+(x5—7)2=20。因為5個整數的平方和是20,且這5個整數互不相等,所以只能配湊出一種結果,即(—3)2+(—1)2+02+12+32=20,所以x1=4,x2=6,x3=7,x4= 8,x5=10。應選C。
點評解答本題的關鍵是利用配湊法,反推原始數據。
四、巧妙構造函數求樣本特征數
例4 已知總體的各個個體的值由小到大依次為2,3,3,7,a,b,12,14,17,20,且總體的中位數是11,則總體方差的最小值為()。
A.32
B.34
C.34.2
D.342
分析:數據的總體方差可由數值a,b來表示,再能挖掘到a+b=22這一條件,該最值便可借助二次函數求出。
解:
顯然,當a=b=11時,g(a)取得最小值2,即f(a,b)取得最小值2。故s2的最小值為34.2。應選C。
點評本題巧妙構造二次函數,再利用二次函數的性質求出最值。
感悟與提高
已知一組數據x1,X2,x3,··,xn的平均數為x,方差為s2。若3x1+1,3x2+1,3x3+1,,3xn+1的平均數比方差大4,則s2—2的最大值為。
提示:
作者單位:江蘇省鹽城市時楊中學
(責任編輯郭正華)