張廣民 曹雅楠 杜曉沛



摘 ?要:以一次基于R軟件的抽樣試驗教學活動為例,探索R軟件在統計教學中應用的可能路徑,并基于教學活動的開展效果提出統計教學的幾點思考:數據分析素養需要在學生的親身經歷中發展;統計思維需要在學生的批判驗證中提升;科學素養需要在信息技術的教學應用中生成.
關鍵詞:R軟件;統計教學;隨機抽樣;數據分析
統計內容近年來在高中數學課程中的地位逐步提高,特別是《普通高中數學課程標準(2017年版2020年修訂)》將概率與統計內容設為四條主線之一,貫穿整個高中數學課程體系,將數據分析列入六大數學核心素養,并指出,數據分析是研究隨機現象的重要數學技術,是大數據時代數學應用的主要方法,也是“互聯網 +”相關領域的重要數學方法,數據分析已經深入到科學、技術、工程和現代社會生活的各個方面.
數據分析素養要求學生有數據意識,認識數據,能用數據的眼光觀察世界,能夠收集數據、處理數據、分析數據、得出結論,具有統計思維,能夠理解并體會隨機性. 在高中階段加強數據分析素養的提升刻不容緩,數據分析素養是時代所需,是信息時代學生應該具備的基本素養. 同時,數據分析素養的培養與提高需要在統計教學中得以落實.
一、統計教學實踐中面臨的困境與突破
當前高中統計的教學過程中仍然面臨著亟須突破的困境.
一是認知困境.統計學的“或然思想”與傳統數學的“必然思想”有所區別. 傳統數學以概念和定義為基石,以公理體系為推理基礎,得到確定的必然結果. 而統計學則建立在數據的基礎上,以數據背景為推斷,得到或然性的結論,關注的是如何從數據中挖掘更多有效信息. 因此,若仍采用一貫的教學方法和研究思路,容易使學生產生思維上的不適應性,也不利于學生理解統計學的本質.
二是評價困境. 統計內容在高考中或是以簡單的形式出現,或是每年以相對固定的模式出現. 客觀來說,統計內容在紙筆測試的考查中確有難度,這方面也需要教師做進一步的研究. 教師在日常的統計教學中,傾向于直接給出概念,輔以例題講解,學生再通過習題訓練達到考試要求,這與發展數據分析素養的課程目標相背離.
因此,在統計部分的教學實踐中,教師需要根據教學內容和學生的實際情況調整教學策略,讓學生由數據出發,通過對數據的處理與分析探索得到研究結論的過程. 這就需要學生自己動手進行實踐,而數據處理環節的實踐又必須借助統計軟件來完成.在統計教學中加強信息技術的應用,既是提高教學效率的舉措,又能更好地反映統計的學科特征.
目前,中學階段常用的統計軟件包括Excel,R,SPSS. 其中Excel是常見的數據處理軟件,有豐富的圖形操作界面,是日常辦公的必備軟件,但是在進行較為專業的數據處理時不如R語言清晰、簡便. SPSS也是一款功能強大的統計軟件,一般采用圖形界面,但是價格昂貴,對于編寫代碼有不便之處. R軟件是開源軟件,在統計工作中有廣泛的應用,能夠進行隨機模擬,使得大量隨機試驗的完成得以實現,能夠更好地幫助學生觀察樣本與總體之間的聯系,增強教學的直觀性和實操性,在人教A版《普通高中教科書·數學》(以下統稱“教材”)中存在大量的R語言實例. R語言以指令形式運行,入手存在困難,這也是R軟件在普及過程中的一個弱點. 筆者所在學校在進行統計教學的過程中,利用課余時間對學生進行了R語言使用的基礎培訓. 從最終教學效果看,學生掌握得非常好,能夠使用R軟件進行數據處理的基本操作,這為利用R軟件開展統計活動做好了前期技術上的準備.
二、基于R軟件的抽樣試驗教學活動案例
以教材必修第二冊第九章第1節“隨機抽樣”內容為例,通過設計一系列學生實踐活動,并在教學中應用R軟件輔助統計活動開展,探索與嘗試R軟件應用于高中數學統計教學的可能路徑,以期提升學生的數據分析素養.
教學活動從“調查學生平均身高”這一核心問題出發組織學生開展探究活動,分析不同的抽樣方法下樣本均值對總體均值的刻畫效果,以及R軟件的實現方法.
問題:一家家具廠要為樹人中學高一年級制作課桌椅,他們事先想了解全體高一年級學生的平均身高,以便設定可調節桌椅的標準高度. 已知樹人中學高一年級有712名學生,如果要通過簡單隨機抽樣的方法調查高一年級學生的平均身高,應該怎樣抽取樣本?
1. 通過隨機數法進行簡單隨機抽樣
實現簡單隨機抽樣可以采用抽簽法和隨機數法. 兩種方法都需要產生隨機數,只是產生工具有所不同. 面對總體較大的情況,借助信息技術手段生成每個樣本的隨機數,是最為方便、成本最低的實施方案. 故首先可以借助R軟件生成隨機數.
試驗1:簡單隨機抽樣.
利用R軟件,只需要“sample( ?)”一條指令就能完成抽樣過程,包括有放回和無放回的情況.
R軟件代碼如下.
> Students <- c(1:712) # 建立一個學生編號的向量
> sample(Students,50,replace=FALSE) # 從712名學生中,無放回地抽取50個學生
其中,c(1:712)表示建立一個從1到712的向量(或可以理解為數組). 指令sample表示從Students中抽取50個樣本. 參數replace為FALSE時表示無放回的抽取,為TRUE時表示有放回的抽取. 運行結果如圖1所示.
通過試驗1,初步掌握借助統計軟件進行簡單隨機抽樣的基本方法,關注所抽取的樣本的均值情況.
2. 樣本量對抽樣結果的影響
在抽取樣本的過程中,樣本量的選取是值得討論的問題. 從抽樣問題本質來看,所抽取的樣本容量越大,樣本的數字特征接近總體數字特征的概率就越大,往往更能反映總體情況. 但是在實際問題中,受到人力、費用、時間成本的影響,并不是抽樣容量越大越好. 以下借助R軟件完成試驗2,考察不同樣本量下樣本均值與總體均值的差異.
試驗2:樣本量分別為10,100,200,500對抽樣結果的影響.
利用R軟件進行不同樣本容量下的簡單隨機抽樣,做出圖象形象地觀察所得數據,考察樣本容量對抽樣結果的影響. 仍然針對712名學生身高的探究問題情境進行抽樣調查,可以在前期通過問卷調查獲取真實的高一學生身高數據,這里通過正態隨機數生成712名學生身高數據,并以此作為此問題的總體. 利用無放回簡單隨機抽樣分別抽取10名、50名、100名、200名、500名學生的身高數據,計算幾次抽樣得到的樣本平均身高并與總體均值進行比較,觀察其與總體均值的偏離情況.
首先,利用R軟件進行抽樣,代碼如下.
< # 簡單隨機抽樣,樣本量是否越大越好?
< Height <- rnorm(712,mean=165,sd=7)
< colnames <- c("NO","X10次","X20次","X50次","X100次","X200次","X500次")
< rownames <- c(1:50)
< A <- matrix(nrow=50,ncol=7,dimnames = list(rownames, colnames))
< A[,1]=c(1:50)
< flag <- c(10,20,50,100,200,500) #分別表示抽取的樣本數為10,20,50,100,200,500,可調整
< for (i in c(1:50)) {
< ? for (k in c(1:length(flag))) {
< ? ?A[i,k+1]<- mean(sample(Height,flag[k],replace = FALSE))
< ? ?}
< }
< B <- data.frame(A)
為了清晰地反映不同樣本容量對抽樣結果的影響,選取樣本容量為10和100兩種情況,分別繪制樣本平均值與總體平均值的折線圖,體會用樣本估計總體的過程.
R軟件代碼如下.
< # 繪制折線圖,比較樣本容量不同,對抽樣結果的影響
< # 下面的是樣本容量為10和100的情況比較
< library(ggplot2)
< p1 <- ggplot(data=B)
< p2 <- p1+geom_point(mapping=aes(x=NO,y=X10次))+
< ? geom_line(aes(x=NO,y=X10次))+
< ? geom_point(mapping=aes(x=NO,y=X100次),size=2,shape=2,color="red")+
< ? geom_line(aes(x=NO,y=X100次),color="red")+
< ? geom_hline(yintercept =mean(Height),color="red",size=1)
< p2+ylab(" ")
運行結果如圖2所示,其中“●”表示抽取樣本容量為10的情況,“[△]”表示抽取樣本容量為100的情況. 由圖2可以看出當樣本容量為10時,產生較大偏差的情況更多,而當樣本容量為100時,得到的結果相對穩定.
同時,受隨機數生成的隨機性的影響,某些時候樣本容量為10的效果要比樣本容量為100的更好. 例如,在第10次試驗中,容量為10時所抽取的樣本比樣本容量為100更貼近總體均值. 通過此試驗,可以讓學生初步體會利用樣本估計整體的統計研究思想,體會在統計研究的過程中,并不是針對確定數值的研究,而是伴隨概率問題的.
進一步增加樣本容量為200和500的情況,感受樣本平均值和總體平均值之間的差異,體會樣本容量增大后抽樣效果的反映.
R軟件代碼如下.
< # 增加繪制樣本容量為200的情況
< p3 <- p2 +geom_point(mapping=aes(x=NO,y=X200次),size=3,shape=3,color="blue")+
< geom_line(aes(x=NO,y=X200次),color="blue")
< p3
< # 增加繪制樣本容量為500的情況
< p4 <- p3 +geom_point(mapping=aes(x=NO,y=X500次),size=4,shape=4,color="purple")+
< geom_line(aes(x=NO,y=X500次),color="purple")
< p4
運行結果如圖3所示,其中,“[+]”是樣本容量為200的情況,“[×]”是樣本容量為500的情況.
可以看出,與樣本容量為10和100時的情況相比,樣本容量為200和500時的樣本均值與總體均值之間的偏差有所減小,表明當樣本容量增大時能夠更好地反映總體情況. 但從絕對偏差來看,樣本容量為200和500之間的差異并不大. 因此,盡管樣本容量增大能夠更好地估計總體,但是考慮實際抽樣過程中的人力、物力和時間成本等因素,樣本容量為500并不一定是效益最好的樣本容量選擇方案. 故在實際的抽樣中,需要結合具體問題的需要確定樣本容量,而并非一定是越大越好. 在教學中教師要引導學生就此問題展開討論,體會統計學研究方法的特殊性以及與現實情境的關聯性.
為進一步觀察不同樣本容量下的抽樣結果,可以繪制樣本容量為100和500,以及200和500的折線比較圖,如圖4和圖5所示,能更加清晰地反映它們之間的關系,也印證上文所得到的結論,即樣本量并非越大越好,具體樣本容量的選取需要考慮實際問題背景下的抽樣效益.
折線圖繪制R軟件代碼如下.
< # 比較100次與500次
< p1+geom_point(mapping=aes(x=NO,y=X100次))+
< ? ylim(160,170)+
< ? geom_line(aes(x=NO,y=X100次))+
< ? geom_point(mapping=aes(x=NO,y=X500次),size=2,shape=2,color="red")+
< ? geom_line(aes(x=NO,y=X500次),color="red")+
< ? geom_hline(yintercept=mean(Height),color="red",size=1)
< # 比較200次與500次
< p1+geom_point(mapping=aes(x=NO,y=X200次))+
< ? ylim(160,170)+
< ? geom_line(aes(x=NO,y=X200次))+
< ? geom_point(mapping=aes(x=NO,y=X500次),size=2,shape=2,color="red")+
< ? geom_line(aes(x=NO,y=X500次),color="red")+
< ? geom_hline(yintercept=mean(Height),color="red",size=1)
3. 有放回與無放回簡單隨機抽樣之間的比較
簡單隨機抽樣包括有放回和無放回兩類,這兩類之間是否存在差異,以及對抽樣結果有怎樣的影響是值得探討和試驗的問題. 由于學生在學習這部分內容時還不具備概率部分的必要知識,故通過設置試驗3,對三組不同特征下的數據分別進行有放回和無放回的簡單隨機抽樣,并作出折線圖直觀地觀察它們之間的聯系與區別,并為學生后期學習概率知識奠定基礎.
與有放回簡單隨機抽樣比較,不放回簡單隨機抽樣效率更高,因此實踐中人們更多采用無放回簡單隨機抽樣. 有放回和無放回簡單隨機抽樣,從抽樣的結果來看,是否存在差異?通過下面三組不同數據特征下的試驗,讓學生直觀感受它們之間的聯系與區別,
試驗3:不同數據分布情況下有放回與無放回簡單隨機抽樣的比較.
(1)數據分布整齊(正態分布)情況下的比較.
利用正態隨機數函數rnorm(700,mean=177,sd=5)生成一個容量為700的總體. 這個總體數據基本服從正態分布,如圖6所示. 在其中分別采用有放回和無放回的方式抽取100個樣本,進行60次試驗,繪制樣本平均值和整體平均值的關系,如圖7所示,觀察它們之間的聯系與區別.
R軟件代碼如下.
< # 比較無放回抽取和有放回抽取
< # 在數據比較規范的情況下
< Height2 <- rnorm(700,mean=177,sd=5)
< N <- 100 #設定抽取樣本數,可調整
< M <- 60 #設定試驗次數,可調整
< colnames <- c("試驗次數","樣本平均數","是否有放回")
< rownames <- c(1:(M*2))
< C <- matrix(nrow=M*2,ncol=3,dimnames = list(rownames, colnames))
< C[,] <- 0
< C[,1] <- (c(1:(M*2))-1)%%M+1
< for (i in c(1:M)) {
< C[i,2]<- mean(sample(Height2,N,replace=FALSE))
< C[i,3] <- "無放回"
< C[i+M,2]<- mean(sample(Height2,N,replace=TRUE))
< C[i+M,3] <- "有放回"
< }
< D <- data.frame(C)
< D$試驗次數 <- as.numeric(D$試驗次數)
< D$樣本平均數 <- as.numeric(D$樣本平均數)
< p1 <- ggplot(data=D,aes(x=試驗次數,y=樣本平均數,shape=是否有放回))
< p2 <- p1+geom_point(size=3)+
< ? geom_line(aes(color=是否有放回,linetype=是否有放回))+
< ? geom_hline(yintercept = mean(Height2),color="blue",size=1)
< p2
圖7中分別表示無放回和有放回的情況. 由圖7給出的60次試驗結果來看,在700個數據服從正態分布的情況下,有放回與無放回簡單隨機抽樣得到的樣本均值偏離情況差距不大,樣本均值與整體均值產生較大偏差的情況比較少. 但是由于數據具有隨機性,在圖中給出的60次試驗中也存在出現較大偏差的情況. 例如,有放回抽取的第28次試驗,出現了樣本均值偏離整體均值大約1.5的情況.
(2)數據分層情況下的比較.
利用語句c(rnorm(600,mean=180,sd=5),rnorm(100,mean=160,sd=5))生成一個容量為700的整體,其中600個數據作為男生身高的模擬,基本服從均值為180、標準差為5的正態分布,另外100個數據作為女生身高的模擬,基本服從均值為160、標準差為5的正態分布,數據分布情況如圖8所示. 可以看出,這組數據有比較明顯的分層特征. 現從中分別無放回和有放回地抽取200個樣本,進行80次試驗,繪制樣本平均值和整體平均值的折線圖,輸出結果見圖9.
R軟件代碼如下.
< # 在數據不規范的情況下
< Height3 <- c(rnorm(600,mean=180,sd=5),rnorm(100,mean=160,sd=5))
< X1 <- c(1:600);C1[] <- "男"
< X2 <- c(1:100);C2[] <- "女"
< X3 <- c(C1,C2)
< H <- data.frame(Height3,X3)
< N <- 200 #設定抽取樣本數,可調整
< M <- 60 #設定試驗次數,可調整
< C <- matrix(nrow=M*2,ncol=3,dimnames = list(c(1:(M*2)),c("試驗編號","樣本平均值","是否有放回")))
< C[,] <- 0
< C[,1] <- (c(1:(M*2))-1)%%M+1
< for (i in c(1:M)) {
< ? C[i,2]<- mean(sample(H$Height3,N,replace=FALSE))
< ? C[i,3]<-"無放回"
< ? C[i+M,2]<-mean(sample(H$Height3,N,replace=TRUE))
< ? C[i+M,3] <- "有放回"
< }
< D <- data.frame(C)
< D$試驗編號 <- as.numeric(D$試驗編號)
< D$樣本平均值 <- as.numeric(D$樣本平均值)
< p1 <- ggplot(data=D,aes(x=試驗編號,y=樣本平均值,shape=是否有放回))
< p2 <- p1+geom_point(size=3)+
< ? geom_line(aes(colour=是否有放回,linetype=是否有放回))+
< ? geom_hline(yintercept = mean(H$Height3),color="blue",size=1)
< p2
圖9中分別表示無放回和有放回的情況. 由圖9可見,當700個數據具有分層特點的時候,樣本均值與整體均值偏差的幅度明顯大于沒有分層的情況,尤其是在有放回抽取中發生偏離的情況更多,偏離的幅度也更大. 例如,第21次試驗,樣本均值偏離整體均值約為1.7. 在教學過程中,教師可以引導學生思考為什么會出現這種情況. 實際上,在有放回抽取的過程中,偏離的數據被重復抽取到的概率會更大. 為了驗證這一想法,強化數據的分層特征再次進行試驗,考察數據極端情況下無放回和有放回抽樣間的差異.
(3)數據極端情況下的比較.
利用語句c(rnorm(600,mean=200,sd=5),rnorm(10,mean=0,sd=5))生成一個容量為610的整體,其中600個數據在200附近,10個數據在0附近,從中抽取50個樣本,進行60次試驗,得到如圖10所示的數據分布情況.R軟件代碼可以參照前面的試驗稍作修改即可,這里不再贅述. 生成的折線圖如圖11所示,可以看出出現樣本均值與總體均值(196.89)的偏差幅度很大的情況較多,而且偏離數值很大. 在這60次試驗中,樣本平均值小于192的,無放回出現3次,有放回出現6次,其中小于185的,無放回出現1次,有放回出現3次.
從上述三組不同數據分布特征情況下的抽樣試驗中可以看出,當數據分層情況非常明顯的時候,簡單隨機抽樣得到的樣本代表性減弱,有放回的抽取更容易產生較大偏差. 由此可見,面對具有分層特征的數據采用簡單隨機抽樣的方法來估計總體特征是不夠準確的,因此需要對抽樣方法進行改進,這一改進方法即分層隨機抽樣.
在教學中要注重引導學生基于所生成的折線圖得到試驗結論并加以討論,分析不同數據情況下進行抽樣的差異,嘗試對抽樣方法進行改進,探尋最適合數據特征的抽樣方法,在此過程中培養學生能夠批判性地理解知識的高階思維.
4. 分層隨機抽樣與簡單隨機抽樣之間的比較
為了探究數據出現分層情況時分層隨機抽樣和簡單隨機抽樣何種抽樣效果更優,以及效果差異是否明顯的問題,安排試驗4,開展不同數據情況下分層隨機抽樣與簡單隨機抽樣間的對比.
試驗4:不同數據分層情況下分層隨機抽樣和簡單隨機抽樣的比較.
當樣本出現比較明顯的分層情況. 例如,前面例子中模擬的700個學生身高的數據,其中600個男生的身高數據基本服從均值為180、標準差為5的正態分布,另外100個女生的身高數據基本服從均值為160、標準差為5的正態分布. 對該數據分別進行簡單隨機抽樣和分層隨機抽樣,并繪制樣本均值和總體均值差異的折線圖,如圖12所示.
R軟件代碼如下.
< # 分層隨機抽樣
< # Height3 組的分層試驗
< Height3 <- c(rnorm(600,mean=180,sd=5),rnorm(100,mean=160,sd=5))
< X1 <- c(1:600);X1[] <- "男"
< X2 <- c(1:100);X2[] <- "女"
< X3 <- c(X1,X2)
< H <- data.frame(Height3,X3)
< N <- 210 #設定抽取樣本數,可調整
< M <- 80 #設定試驗次數,可調整
< C <- matrix(nrow=M*2,ncol=3,dimnames= list(c(1:(M*2)),c("試驗編號","樣本平均值","是否分層隨機抽樣")))
< C[,] <- 0
< C[,1] <- (c(1:(M*2))-1)%%M+1
< for (i in c(1:M)) {
< C[i,2]<- mean(sample(H$Height3,N,replace=FALSE))
< C[i,3] <- "簡單隨機抽樣"
< C[i+M,2]<- mean(c(sample(H$Height3[1:600],N*6/7,replace=FALSE),sample(H$Height3[601:700],N*1/7,replace = FALSE)))
< C[i+M,3] <- "分層隨機抽樣"
< }
< C1 <- data.frame(C)
< C1$試驗編號 <- as.numeric(C1$試驗編號)
< C1$樣本平均值 <- as.numeric(C1$樣本平均值)
< p1 <- ggplot(data=C1,aes(x=試驗編號,y=樣本平均值,shape=是否分層隨機抽樣))
< p2 <- p1+geom_point(size=3)+
< geom_line(aes(colour=是否分層隨機抽樣,linetype=是否分層隨機抽樣))+
< geom_hline(yintercept = mean(H$Height3),color="blue",size=1)
< p2
圖12中分別表示了分層隨機抽樣和簡單隨機抽樣的情況. 可見,在分層隨機抽樣的情況下,樣本均值較穩定地圍繞總體均值波動,相對于簡單隨機抽樣,其波動情況明顯較小.換言之,在這種數據情況下,分層隨機抽樣明顯優于簡單隨機抽樣.
當數據分層情況更加明顯,如試驗3“數據極端”情況的例子中,通過簡單隨機抽樣和分層隨機抽樣得到的均值圍繞總體的波動情況如圖13所示,可以看出在這種情況下,簡單隨機抽樣得到的樣本均值偏離整體均值的幅度很大.
當分層的樣本容量相當的時候,如男生和女生各有350人,其中男生身高均值約為170,標準差約為5,女生身高均值約為160,標準差約為5,該情況下采用簡單隨機抽樣和分層隨機抽樣的試驗結果如圖14所示. 從試驗結果可以看出,當分層容量相當的時候,采用簡單隨機抽樣和分層隨機抽樣,所得樣本均值差異并不明顯,分層隨機抽樣略好于簡單隨機抽樣.
通過以上三種不同數據分布情況下對分層隨機抽樣和簡單隨機抽樣結果的對比,可以引導學生得出結論:分層情況明顯且樣本量相差很大的時候,分層隨機抽樣要明顯優越于簡單隨機抽樣.
三、反思與總結
1. 數據分析素養需要在學生的親身經歷中發展
數據分析素養的形成與發展離不開學生親身參與統計過程、積累統計活動的基本活動經驗. 整個統計活動教學的展開與推進應該是以學生對實際問題的分析為出發點,以學生對解決路徑探索引發的思考為推動,并以學生得出的判斷加以驗證,讓學生經歷猜想、實踐、觀察、分析,并得出結論的過程.
探究活動圍繞高一學生平均身高這一問題情境,開展了一系列抽樣試驗. 由簡單隨機抽樣出發,初步掌握借助統計軟件進行簡單隨機抽樣的基本方法,關注所抽取的樣本均值的情況. 在抽樣過程中樣本容量的選取是學生產生的第一個困惑點,由此開展試驗2分析不同樣本容量下樣本均值的表現. 簡單隨機抽樣包括放回與不放回兩種形式,故兩種抽取方式會對抽樣結果產生何種影響是學生很自然所產生的困惑. 故在試驗3中設置三組不同特征的數據來探究放回與不放回抽樣之間的差異. 對于后兩組數據表現出的分層特征,對分層數據選擇簡單隨機抽樣和分層隨機抽樣哪個能更好地反映總體特征、各自效果如何等疑惑展開對比分析. 整個教學過程以學生的思考探究為驅動力,步步深入,層層展開,引導學生經歷基于數據分析、討論、改進最終得到試驗結論的過程,培養學生基于數據思考問題的習慣,提升學生基于數據解決現實問題的能力,是學生數據分析素養生成與提升的必要路徑.
2. 統計思維需要在學生的批判驗證中提升
統計方法的選擇是基于實際問題的需求和數據特征所做出的更優方案. 在統計教學中也需要引導學生針對不同分布情況下的總體數據,比較不同抽樣方法下的結果表現,分析不同方法的優劣和適用特征,從而批判性地做出更佳的統計分析方案. 例如,在對樣本容量的討論中得出結論:當樣本容量增加時,樣本均值能夠更好地反映總體均值情況,但當樣本容量增加到一定數值之后,再擴大樣本容量引起的影響并不大,故從抽樣效益角度出發,樣本容量的選取并非越大越好. 在實際的抽樣調查中也會受到人力、費用、時間等成本的影響,故在調查中要根據實際問題的需要,選擇恰當的樣本容量進行抽樣. 在學生探究、討論、分析并得到結論的過程中,既可以體會利用樣本估計總體的思想方法,也能在比較與分析中實現批判思維等高階思維的發展.
3. 科學素養需要在信息技術的教學應用中生成
科學素養是信息時代對學生提出的新要求,關注學生利用所學的科學知識并將其應用于生活情境的能力. 研究表明,在教學中應用信息技術能夠促進學生科學素養的發展. 而在統計教學的過程中離不開信息技術的支持,其中R軟件作為重要的統計軟件,能夠模擬完成大量隨機試驗并計算得到數據結果,便于學生觀察樣本與總體之間的關聯,提高統計活動開展效率,在統計教學中發揮著重要作用. 故在此次教學活動實踐中以R軟件作為重要的技術支持貫穿整個教學過程. 師生借助R軟件實現數據的分析處理,在引導學生掌握軟件使用方法的同時,以可視化的呈現方式生成圖象,便于學生觀察不同情況下的抽樣結果,分析樣本與總體之間的關聯,討論選取更優的抽樣方案,培養學生達成統計教學目標,培養學生的數據意識. 在提高統計教學質量的同時,學生的科學素養也在探究和應用過程中生成和提高.
參考文獻:
[1]中華人民共和國教育部. 普通高中數學課程標準(2017年版2020年修訂)[M]. 北京:人民教育出版社,2020.
[2]陳建明,孫小軍,楊博諦. 數據分析素養的評價框架與實施路徑研究[J]. 數學教育學報,2022,31(2):8-12,57.
[3]史寧中. 數形結合與數學模型:高中數學教學中的核心問題[M]. 北京:高等教育出版社,2018.
[4]程???,章建躍. 經歷系統的數據處理過程 在解決實際問題中發展數據分析素養[J]. 數學通報,2021,60(4):1-6,14.
[5]高雪松,郭方奇,歐陽亞亞. 基于核心素養的高中統計教學研究[J]. 中國數學教育(高中版),2019(6):17-20.
[6]陽志長. 充分運用教材資源,致力培養數據分析核心素養[J]. 中國數學教育(高中版),2017(3):19-22.
[7]王春麗,顧小清. 中學生信息技術使用及其對科學素養的影響:基于PISA數據的中芬比較研究[J]. 中國遠程教育,2019(5):47-56,93.
[8]張廣民,康玥,任倩. 將GeoGebra軟件融入概率教學體現新課程理念:以“頻率與概率”單元為例[J]. 中國數學教育(高中版),2021(1 / 2):83-90.