999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

經歷系統的數據處理過程在解決實際問題中發展數據分析素養

2021-05-25 09:02:22程海奎章建躍
數學通報 2021年4期
關鍵詞:方法學生

程海奎 章建躍

(1.河北師范大學數學科學學院050024;2.人民教育出版社 課程教材研究所100081)

統計以數據為研究對象,利用概率論進行數學建模,通過收集整理所觀察對象的數據進行量化分析,進而作出推斷和預測,為決策提供依據和參考.統計中提供的“運用數據進行推斷”的思想方法已成為現代社會的一種普遍使用且強有力的思維方式,統計無處不在、無所不用.高中必修課程中的統計主要學習收集數據的方法,解決單變量的統計問題(樣本估計總體).本單元要通過一些典型案例,使學生經歷數據處理的全過程,熟悉統計的基本思想方法,逐步形成統計觀念,養成尊重事實、用數據說話的態度,在解決實際問題中發展數據分析素養.

1 課程定位

課程標準對概率統計的定位為:概率研究的對象是隨機現象,為人們從不確定性的角度認識客觀世界提供重要的思維模式和解決問題的方法.統計的研究對象是數據,核心是數據分析.概率為統計的發展提供理論依據.

課程標準指出,本單元的學習,可以幫助學生進一步學習數據收集和整理的方法、數據直觀圖表的表示方法、數據統計特征的刻畫方法;通過具體實例,感悟在實際生活中進行科學決策的必要性和可能性;體會統計思維與確定性思維的差異、歸納推斷與演繹證明的差異;通過實際操作、計算機模擬等活動,積累數據分析的經驗.課程標準強調,統計的教學應通過典型案例進行,引導學生經歷系統的數據處理全過程,學習數據分析方法,理解數據分析的思想,運用所學知識和方法解決實際問題;要注重利用計算器、計算機進行模擬活動、處理數據,幫助學生更好地體會統計思想.

2 內容與要求

1.獲取數據的基本途徑及相關概念

(1)知道獲取數據的基本途徑,包括:統計報表和年鑒,社會調查,試驗設計,普查和抽樣,互聯網等.

(2)了解總體、樣本、樣本量的概念,了解樣本數據的隨機性.

2.抽樣

(1)通過實例,了解簡單隨機抽樣的含義及其解決問題的過程,掌握兩種簡單隨機抽樣方法:抽簽法和隨機數法.會計算樣本均值和樣本方差,了解樣本與總體的關系.

(2)通過實例,了解分層隨機抽樣的特點和適用范圍,了解分層隨機抽樣的必要性,掌握各層樣本量比例分配的方法.結合具體實例,掌握分層隨機抽樣的樣本均值和樣本方差.

(3)在簡單的實際情境中,能夠根據實際問題的特點,設計恰當的抽樣方法解決問題.

3.統計圖表

能夠根據實際問題的特點,選擇恰當的統計圖表對數據進行可視化描述,體會合理使用統計圖表的重要性.

4.用樣本估計總體

(1)結合實例,能用樣本估計總體的集中趨勢參數(平均數、中位數、眾數),理解集中趨勢參數的統計含義.

(2)結合實例,能用樣本估計總體的離散程度參數(標準差、方差、極差),理解離散程度參數的統計含義.

(3)結合實例,能用樣本估計總體的取值規律.

(4)結合實例,能用樣本估計百分位數,理解百分位數的統計含義.

與初中的統計課程相比較,本單元的內容有些是初中沒有的,例如分層抽樣、分層抽樣樣本均值和樣本方差、百分位數等,有些是初中就有的,但有不同的要求.例如,對總體、樣本等概念,要求在結合具體問題進行描述性說明的基礎上,適當引入嚴格定義;了解數據的隨機性,了解樣本和總體的關系等.這樣的課程設計,體現了統計這個內容獨特性.

3 本單元的認知基礎分析

在初中階段,學生學習了隨機抽樣的必要性、簡單隨機抽樣方法、用統計圖表整理和表示數據,了解了平均數、方差等數字特征的意義及計算,學習了簡單的統計推斷以及用統計方法解決實際問題等,這些知識經驗為學習本單元知識打下了一定的認知基礎.不過,初中數學課程對統計的要求不高,總體、樣本等概念僅僅是描述性,學生對樣本數據的隨機性,樣本均值、樣本方差等數字特征的隨機性還缺乏認識.在高中階段的統計學習中,要結合實際問題,利用信息技術,使學生能夠對樣本估計總體效果的評價、樣本容量對估計精度的影響、以及估計結果的解釋等有新的認識,對平均數、中位數、百分位數、方差、標準差等數字特征,也要借助更加豐富的實際背景進行更深入的理解,在提高認識水平的基礎上,能夠用于解決實際問題.

4 核心內容的理解與教學思考

下面重點就隨機抽樣、總體、樣本的概念,數字特征的刻畫方法,百分位數的概念及應用,分析內容的本質及其蘊含的統計思想,討論教學中需要注意的問題.

4.1 隨機抽樣、總體、樣本的概念

用統計方法解決實際問題,要明確研究對象的范圍是什么?關心的指標是什么?這些指標是數值指標還是屬性指標?將這些指標統稱為變量,通過隨機抽樣得到變量的一些具體值(樣本觀測數據),計算樣本數據的特征值,由此估計總體的特征,最后提出決策與建議.因此,統計學習首先要抽象總體和樣本的概念.課程標準指出:對統計中的基本概念(如總體、樣本、樣本量等),要結合具體問題進行描述性說明,在此基礎上適當引入嚴格定義.

4.1.1 總體和樣本的概念

我們將總體直觀描述為研究對象的全體, 組成總體的每個對象稱為個體.在實際問題中,我們往往關心調查對象的某些指標,這些指標大致可分為數量指標和屬性指標.例如,學生的身高、居民家庭月用電量、空氣污染指數等都是數量指標;性別、近視或不近視、等級成績等都是屬性指標.進一步地,還可以把總體描述為全體個體的指標值,更一般地,將總體抽象為一個變量X(隨機變量),稱其為總體變量.

從總體中按照等概率原則抽取的部分個體稱為樣本.一次抽樣實際上得到的是一組個體指標值x1,x2,…,xn,稱為樣本觀測值.由于隨機抽樣要滿足抽到每個個體概率相等,在相同的樣本量下,重復抽樣得到的樣本觀測值不會完全相同,因此樣本具有隨機性.樣本的嚴格定義是:

對總體變量X的n次觀測X1,X2,…,Xn,滿足獨立同分布(與X具有相同的分布).

在教學中,不必追求概念的嚴格性,只要對研究的實際問題,能明確研究對象的范圍以及考察的指標變量即可.例如,研究某中學全體學生的身高分布情況,范圍是該中學全體學生,指標變量為身高.如果研究全體學生的近視情況,指標就是取值為近視和不近視兩個值的屬性變量.

4.1.2 隨機抽樣

根據總體的規模和結構特點,有很多種抽樣方法.課程標準要求了解簡單隨機抽樣和比例分層抽樣,簡單隨機抽樣又分為有放回隨機抽樣和不放回隨機抽樣.不論哪種抽樣方法都要滿足每個個體被抽到的概率相等,這是為了保證統計推斷不會產生系統性誤差.

關于隨機抽樣的必要性,初中已有了解,具體的抽樣方法屬于操作性知識,不難理解.為了發展學生的數據分析素養,教學中要引導學生思考下面的問題.

(1)不同的抽樣方法的適用范圍及優缺點是什么?

有放回和不放回隨機抽樣,適用于總體規模和樣本量都較小的情形.有放回隨機抽樣的優點是:各次抽樣的結果互相不受影響,便于進一步統計分析,也便于計算機模擬實現;缺點是產生極端樣本的可能性較大.比較而言,不放回隨機抽樣同一個體不會被重復抽到,產生極端樣本的可能性要小,但各次抽樣結果之間不獨立,統計分析要困難一些.

比例分層抽樣適合于總體包含多個子類,同一類中個體的變量值差異較小,但不同類之間個體的變量值差異較大.分層抽樣可以避免極端樣本的產生,在實際中也便于實施,是最常用的抽樣方法.

(2)如何認識和理解估計結果的不確定性?如何評價估計的效果?

以樣本均值估計總體均值為例,為了理解樣本均值的隨機性(不確定),可以就相同的樣本量,進行重復多次抽樣,觀察這些樣本均值是否相同,樣本均值波動幅度的大小,以及和總體均值的關系.

首先看一個極端例子:

四名學生A,B,C,D的身高構成總體, 其中A,B為女生,C,D為男生.h(A)=156cm,h(B)=160cm,h(C)=170 cm,h(D)=174cm,隨機抽取2名學生,用樣本平均值估計總體的身高的平均值.總體4個身高的平均數為165cm.

采用有放回抽樣,共有16種等可能的樣本.如表1所示,有八分之一的可能出現極端樣本(156, 156),(174,174),由極端樣本計算的樣本平均數與總體平均數偏差很大.

表1 有放回抽樣的16種等可能樣本

采用不放回抽樣,有12種等可能的樣本,如果不考慮順序,可合并為6種等可能的樣本,不會出現上述極端樣本.

比例分層抽樣,只有4種等可能的樣本(156, 170),(156, 174),(160, 170),(160,174). 樣本平均數與總體平均數都比較接近.

樣本均值的波動情況如圖1所示:

圖1

三種抽樣方法的樣本均值都圍繞總體均值波動,直觀看, 波動幅度越大,表示估計的誤差較大的可能性也較大.定量評價估計的效果,是比較在相同限定誤差下的概率大小.例如,限定誤差為2,比較樣本均值落在區間[163, 167]的概率p,如表2所示.

表2

可以看到,用樣本估計總體,不放回抽樣效果好,但放回抽樣方便統計分析,如何解決這個矛盾?實際上,當樣本容量遠小于總體容量時,兩種抽樣方法差別很小.

(3)樣本容量的大小對估計結果的精確性有什么影響?

用樣本估計總體,由于樣本的隨機性,估計的結果也具有隨機性,誤差是不可避免的.一般地,樣本量越大,估計的效果也越好.如何描述樣本容量對估計結果的影響呢?在高中階段,概率知識還不足以支持進行嚴格的描述,可以結合具體問題,采用計算機模擬重復抽樣,借助于統計圖的直觀來認識.

問題某中學高一年級學共有700名學生,其中男生360人,女生340人.全年級學生的平均身高為165.0 cm.用簡單隨機抽樣的方法,從這些數據中分別抽取容量為25和100的樣本各10組,分別計算出樣本平均數,繪制統計圖如下(圖2):

圖2

定性分析:觀察圖形發現樣本均值圍繞著總體均值波動,且具有隨機性,但沒有系統性偏差;樣本量為100的樣本均值的波動幅度明顯小于樣本量為25的.結論是:增加樣本量使誤差較小的可能性增大.但就一次抽樣而言,樣本量大的平均值未必一定比樣本量小的平均值誤差小.

定量分析:我們知道方差可以描述一組數據的波動大小,分別計算10個樣本均值的方差.通過方差的大小,比較兩組樣本均值的波動大小.

容量為100的10個樣本平均數方差明顯要小,所以波動也小.

4.2 數據集中程度、離散程度的刻畫

1.對數字特征的理解

用樣本推斷總體是最重要的統計思想.統計估計和假設檢驗是兩種基本的推斷方法, 估計內容包括用樣本數字特征估計總體特征.

描述數據特征的量稱為統計量,按其作用可分為以下幾類:

(1)描述數據集中趨勢的量:平均數、中位數、眾數、百分位數.

(2)描述數據離散程度的量:方差、標準差、極差等.

(3)描述兩組數據關系密切程度的量:相關系數.

其中,平均數、百分位數和方差是最重要的統計量.表3給出了這些統計量的意義、各自的優缺點及適用范圍.

表3 各種統計量的意義、優缺點及適用范圍

2.對數字特征認識的層次性

對于平均數和方差,學生在初中已有初步認識.如何在初中的基礎上引導學生進一步理解它們的意義和優缺點,掌握它們的適用范圍,這是教學中需要認真思考的問題.下面通過具體案例進行說明.

案例1對平均數認識的幾個層次.

隨著學生年齡增長、學習的深入,他們對平均數的認識層次也在不斷提升.

(1)初中階段:平均數是將數據之間的差異抹平后得到的一組數據的代表值,反映這組數據的整體水平.平均數作為一個度量性概念,主要用于不同總體某個指標的比較.一組數據的平均數定義為

(2)高中階段:要求理解樣本平均數與總體平均數的關系,用樣本平均數估計總體平均數,理解樣本平均數的隨機性.根據頻率分布表或直方圖近似計算平均數,由多個樣本平均數計算總平均數.

作為拓展,在教學中還可以引導學生討論如下性質:

這一性質揭示了平均數是一組數據與其偏差平方和最小的代表值,同時也說明方差的特殊性.證明中用到的平方和分解的方法,在統計分析中具有廣泛應用.

換一個角度看,就是用最小二乘法估計參數的思想.

例如,假設某段公路的長為a(未知參數),n次測量的數據為x1,x2,…,xn,根據測量數據,如何估計參數a?

(3)大學階段:大學《數理統計》課程中,大數定律嚴格描述了樣本均值與總體均值(數學期望)的關系.

假設X是總體隨機變量,X1,X2,…,Xn是取自總體的一組樣本(看成獨立同分布的隨機變量),且E(X)=μ,D(X)=σ2,則

樣本均值的期望等于總體隨機變量的期望,說明樣本均值估計總體均值無系統誤差,而樣本均值的方差隨著樣本容量的增大而減小,即波動幅度越來越小,逐漸穩定到總體均值.頻率穩定到概率是其特殊情形.

案例2構建一組數據的方差的過程.

這里的目標是構建一個統計量,用于描述一組數據相對于其平均數的離散程度,其基本思路和調整過程大致可以概述如下:

另外,還有如下問題需要解決:

(6)如果要比較兩組均值不等數據的離散程度,或者要消除量綱的影響,該怎么做?

(7)為什么有時用方差

根據要刻畫的數字特征的意義,從直觀想法出發,逐步進行修正,是構造統計量的常用的思想方法.構造描述成對數據的相關系數、估計回歸系數時的偏差平方和、獨立性檢驗的統計量都用到這種思想.

4.3 百分位數的概念及應用

總體百分位數的估計是新增加的內容.根據課程標準的要求,這一內容的教學也要結合一些典型的案例,使學生經歷系統的數據處理全過程.具體而言,就是要從實際問題出發,通過收集數據,構建百分位數進行數據分析,并用樣本推斷總體,做出決策.

中位數是一個反映數據集中趨勢的量,也就是50百分位數,它是一個描述數據中間位置的量.在實際中,僅用中位數反映數據的特征信息量還不夠,需要將中位數推廣到任意的百分位數.先看下面的實際問題.

問題某市政府為了減少水資源的浪費,計劃對居民生活用水實施階梯水價制度,即確定一戶居民月用水量標準a,用水量不超過a的部分按平價收費,超出a的部分按議價收費.如果希望80%的家庭能享受平價,如何確定a?

如果能獲得全體居民月用水量數據,然后確定一個數值a,使得不超過a的數據占80%,那么問題得到解決.但實際中很難獲得全部數據,可以通過隨機抽樣得到一組居民月用水量的樣本數據x1,x2,…,xn,然后確定一個值,使得樣本中不超過的數據占80%,然后用估計a.

對于任意的n以及任意的百分數p%, 如何給百分位數下個確切的定義呢?能否仿照中位數的定義進行直接推廣呢?

由于中位數太特殊了,直接推廣有難度,先看下面的兩種特殊情形.

(1)有重復數據的情形:測量10名同學的身高數據(單位:cm)如下:

165 168 170 172 172 175 176 176 176 180

10個數據由小到大排列的第8個數和第9個數都是176,如果把176作為80%分位數,這10個數據中小于或等于176的數至少占80%(90%),而大于或等于176的數至少占20%(40%).

(2)n×p%不是整數的情形:測量8名同學的身高數據(單位:cm)如下:

165 168 170 172 172 175 176 178

8×80%=6.4,取第7個數176作為80%分位數,這 8個數據中小于或等于176的數占87.5%,而大于或等于176的數占25%.

對上面問題進行歸納,給出百分位數定義:百分位數是位于由小到大排列的一組數據中某一百分位置的數值,一般用Pp表示.它使得這組數據中至少有p%的數據小于或等于這個值,且至少有(100-p)%的數據大于或等于這個值.顯然50%分位數P50也就是中位數.

根據定義,可得計算一組數據百分位數的方法.

(1)由原始數據確定百分位數.

第1步 按從小到大順序排列原始數據;

第2步 計算i=n×p%;

第3步 若i不是整數,而大于i的比鄰整數為j,則Pp為第j項數據;若i是整數,則Pp為第i項與第(i+1)項數據的平均數.

(2)由頻率分布表估算百分位數.

表4是根據100戶居民月用水量整理的頻率分布表,試估計月用水量樣本數據的80%分位數P80.

表4

由累計頻率列看到,月用水量在13.2 t以下的居民用戶所占比例為77%,而月用水量在16.2 t以下的居民用戶所占比例為86%.因此,第80百分位數位于[13.2,16.2]內,這個區間長度為3,其中分布的數據占9%,假設數據在區間內均勻分布,可得

由特殊到一般,可以得到估算百分位數的一般公式.

其中,Lmin為百分位數所在組的下限,s為組距,m%為小于Lmin的頻率.

注意:對總體的百分位數的概念在高中不做要求,對有限總體,可以理解為全體個體對應指標值的百分位數.可使用Excel中的函數PERENTILE.EXC計算百分位數.

5 教學建議

(1)注意初、高中內容的銜接

學生在初中已經學習過一些統計知識,本單元是在此基礎上的進一步學習.與初中的統計比較,本單元有些內容是新增的,有些內容則是內容相同但要求不同.例如,對于抽樣方法,初中只要求了解簡單隨機抽樣方法;高中除了要求了解簡單隨機抽樣,還要求了解分層隨機抽樣,并要求會設計恰當的抽樣方法解決問題.對于簡單隨機抽樣,高中不但要求了解它的含義及其解決問題的過程,還要掌握兩種實現簡單隨機抽樣的方法.又如,在初中只要知道方差可以刻畫數據的離散程度,并會計算簡單數據的方差;但高中需要理解方差的統計含義,對方差定義的合理性有所體會,會結合實例計算分層隨機抽樣的樣本方差,以及會根據具體問題選擇恰當的特征數(標準差、方差、極差)刻畫數據的離散程度.因此,準確把握本單元的教學要求,除了要認真研讀課程標準和教科書,還需要了解初中的統計內容和要求.

(2)從統計的整體看局部的統計方法

一個統計問題的完整解決包括從收集數據到獲得結論的一系列過程,而具體的統計方法往往是針對某個具體環節而言的.只有使學生在較為系統的數據處理過程中學習統計方法,才能理解其目的和本質.例如,抽樣目的是為了估計總體,研究抽樣方法是為了有效地抽取樣本,從而更好地估計總體.只有在估計總體這個大目標下,才能體現出簡單隨機抽樣的概率合理性,分層隨機抽樣的必要性.又如,畫頻率分布直方圖的目的是為了觀察樣本數據的分布規律,進而估計總體的分布規律.因此組數多少應以是否有利于觀察數據的分布規律以及估計總體的分布規律為標準.

(3)在問題解決過程中培養數據分析素養

針對研究對象獲取數據,運用數學方法對數據進行整理、分析和推斷,形成關于研究對象的知識,這是高中統計需要重點培養的素養.數據分析素養的培養需要在具體問題的解決中逐漸形成.本單元的教學,應結合典型案例,引導學生根據實際問題的需求,選擇不同的抽樣方法獲取數據,理解數據蘊含的信息;根據數據分析的需求,選擇適當的統計圖表描述和表達數據,并從樣本數據中提取需要的數字特征,估計總體的統計規律,解決相應的實際問題.對統計中的基本概念(如總體、樣本、樣本量),應結合具體問題進行描述性說明,在此基礎上適當引入嚴格的定義,并利用數字特征(平均數、方差等)和數據直觀圖表(直方圖、散點圖等)分析數據.

(4)合理使用信息技術

信息技術既是現代統計的組成部分,也是統計學習的有效手段.因此,在統計教學中,必須加強信息技術的使用,這不僅是為了提高教學的效率,同時也是為了更好地體現統計的學科特點.例如,繪制頻率分布直方圖涉及數據的分組、頻率的計算、圖形的繪制等大量工作,用統計軟件可以快速繪制出不同組距和組數的直方圖,節約重復計算、機械性操作的時間,從而把更多的精力花在直方圖信息的提取上;又如,平均數、方差等特征數的計算,在學生已經知道如何計算的前提下,統計軟件的使用就可以大大節約時間,進而把更多的精力花在理解特征數的統計含義上.在中學階段,信息技術最大的優勢在于可以實現隨機模擬,它使大量重復試驗成為可能,可以讓學生直觀觀察、體驗樣本的隨機性和規律性,了解樣本和總體之間的關系,彌補沒有理論基礎的不足.教學中,應鼓勵學生盡可能運用隨機模擬的方法,更好地體會統計的思想.

猜你喜歡
方法學生
快把我哥帶走
學習方法
《李學生》定檔8月28日
電影(2018年9期)2018-11-14 06:57:21
趕不走的學生
學生寫話
可能是方法不對
學生寫的話
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 亚洲欧美综合另类图片小说区| 亚洲国产精品不卡在线| 久久国产精品国产自线拍| 亚洲第一视频区| 久久激情影院| 久久黄色视频影| jizz在线观看| 亚洲国产精品无码久久一线| 日韩精品专区免费无码aⅴ| 又爽又黄又无遮挡网站| 72种姿势欧美久久久久大黄蕉| 天天综合色网| 91精品久久久无码中文字幕vr| 色婷婷在线影院| 91国内在线观看| 国产午夜精品鲁丝片| 天堂在线视频精品| 国产男女XX00免费观看| 欧美日韩成人| 五月婷婷综合网| 亚洲成aⅴ人在线观看| 成年午夜精品久久精品| 三级国产在线观看| 免费国产福利| 婷婷午夜影院| 国产无套粉嫩白浆| 看av免费毛片手机播放| 国产白丝av| 国产97视频在线观看| 最新国产在线| 久久久噜噜噜久久中文字幕色伊伊 | 亚洲成人在线免费观看| 亚洲一级色| 中文字幕不卡免费高清视频| 国产精品久久久久久久久kt| 婷婷亚洲天堂| 男女男精品视频| swag国产精品| 亚洲av色吊丝无码| 国产成人精品视频一区二区电影 | 在线免费看黄的网站| 91在线视频福利| 少妇人妻无码首页| 日韩精品成人在线| 97一区二区在线播放| 免费无码AV片在线观看国产| a级毛片一区二区免费视频| 99视频有精品视频免费观看| 99一级毛片| 中文字幕丝袜一区二区| 92午夜福利影院一区二区三区| 久久男人资源站| 精品视频福利| 欧美日韩国产成人在线观看| 国产精品自在自线免费观看| 免费精品一区二区h| 爱爱影院18禁免费| 亚洲国产中文精品va在线播放| 五月天久久综合国产一区二区| 免费欧美一级| 国产成人av一区二区三区| 精品一区二区无码av| 日韩国产欧美精品在线| 亚洲aaa视频| 欧美色亚洲| 国产成人亚洲无码淙合青草| 国产一级无码不卡视频| 狠狠操夜夜爽| 久热99这里只有精品视频6| 无码 在线 在线| 日本高清免费不卡视频| 欧美日韩国产精品综合| www精品久久| 国产极品美女在线播放| 九九热视频精品在线| 国产亚洲精品在天天在线麻豆| 成人av专区精品无码国产 | 国产91蝌蚪窝| 欧美亚洲一区二区三区导航 | 香蕉伊思人视频| 亚洲国内精品自在自线官| 欧美黄网在线|