陳秀平 趙麗央
摘要:大數據為統計學發展提供了新的平臺,同時也為統計學專業的課程教學提出了新的挑戰。本文首先分析了大數據賦予統計學專業人才新的要求,在此基礎上探討了本人在教學上的想法和思考,認為應從問題驅動教學、加強實驗教學、依托科技競賽三方面入手,讓學生真正理解統計思想,掌握統計計算與計算機編程能力,具備“用數據思考”的能力,讓統計學真正成為推動大數據處理與分析的有力工具之一。
關鍵詞:大數據;問題驅動;實驗教學;科技競賽
中圖分類號:G642.0 文獻標志碼:A 文章編號:1674-9324(2018)31-0206-02
在大數據背景下,統計學以數據為研究對象沒有變,作為方法論科學的性質沒有變,以探索真相為根本任務沒有變,但是數據分析思路與技術有新的要求:①統計專業人才不僅要掌握數學和統計理論基礎知識,還要具備統計計算和計算機編程能力;②統計專業人才應該能從實際問題出發,設定科學的研究方案,搜集、篩選合適的數據,選擇恰當的統計方法和模型,得出合理的統計推斷,將統計分析結果用易于用戶理解的方式表達出來;③統計專業人才不僅需要良好的統計素養,還需要具備良好的交流和表達能力,演示和分析結論的可視化技巧、團隊合作能力。
基于大數據賦予統計學專業人才的新的要求與對本專業學生的社會適應能力以及社會需求的了解,為我們做好統計學專業的課程教學改革工作指明了方向。筆者結合教學實踐和科技競賽的指導經驗,談談在大數據背景下統計學專業的課程教學的幾點思考。
一、問題驅動教學,深度理解統計思想
在大數據背景下,統計學專業人才應該懂得統計方法在什么情況下如何應用,應該深刻理解統計原理背后隱藏著的數學思想,并能夠解釋數學推導與統計應用之間的相互關系。對于統計學本科培養而言,極其重要的一點是幫助學生在統計學方法和理論方面打下扎實的基礎。這些基礎知識需要被講解,被論證,被強化,此過程應當貫穿于學生的全部學術課程,伴隨介紹性的課程開始,并在接下來的課程中不斷被強調。比如:“假設檢驗”是《概率論與數理統計》中非常重要的章節,對假設檢驗P值的解讀,很多學生都是云里霧里,不知道將結果如何通俗易懂地表達給用戶。為此,筆者在講解“假設檢驗”這知識點時,應用實際問題驅動的教學模式,取得了比較顯著的教學效果,具體教學方案設計如下:
引入“假設檢驗”知識點之前,先讓學生討論一下身邊的實際問題:“某老板說:本次摸獎的中獎率很高,中獎的概率為0.9,當你摸了三次,都沒中獎,試問:這位老板說法可信嗎?(假設摸后放回)”,在這個問題之后,又連續提了四個問題,問題1:假設老板說法是可信的,那么三次摸獎都沒中獎的概率是多少?問題2:那老板的說法可信嗎?為什么?問題3:當你拒絕了老板的說法是可信的,你會犯錯誤嗎?問題4:如果給定顯著性水平,那么當你摸三次獎時,出現哪些中獎情況會認為老板的說法是可信的,哪些中獎情況會認為老板的說法是不可信的?這個“實際問題”對學生來說就是一個興趣、一種“催化劑”。“實際問題”能激發學生濃厚的學習興趣和求知欲望,讓學生的主體性、能動性、獨立性不斷得到張楊、發展、提升,促進學習方法的轉變;“實際問題”能引起學生對新概念、重點和難點知識的深度理解,能夠在教學中起統帥作用的,能引起學生對其進行火熱思考,能觸及數學本質的問題。
二、加強實驗教學,提高統計實踐能力
大數據背景下的統計學專業人才不僅需要掌握數學與統計理論基礎知識,還需要具備計算機編程能力,演示和分析結論的可視化技巧,以及將分析結果通俗易懂地表達給用戶的能力。因此,在教學中重視實驗實訓教學,不僅能將抽象的統計原理具體化、可視化,而且能提高學生實踐操作能力。比如:在教學《概率論與數理統計》時,可以利用R軟件進行輔助教學,R軟件是自由軟件,完全免費,且開放源代碼;R是一種可編程語言,語法比較簡單,可視化比較強,具有較強的互動性。相較于其他統計軟件如SPSS、SAS等,R的獨特之處是其特別適合輔助《概率論與數理統計》教學。比如,上完“假設檢驗”知識點后,讓學生借助R軟件完成課后習題第220頁第17題:對兩種小麥品種從播種到抽穗的天數是否存在顯著差異,數據如下:
品種A所需天數(x):101 100 99 98 100 98 99 99 99
品種B所需天數(y):100 98 100 99 98 98 98 99 100
假設兩樣本依次來自正態總體。這是典型的兩樣本均值比較問題,首先檢驗兩總體方差是否相等,我們可以先做一個方差檢驗,用R中函數var.test完成。如果P值小于給定的顯著性水平(比如說0.05),則拒絕原假設,認為兩個總體的方差不相等,反之,則認為兩個總體的方差相等,然后再檢驗均值是否相等,用R中函數t.test完成,默認情形為方差不相等。本題方差檢驗的P值為0.8993,則認為兩個總體的方差相等,然后用函數t.test(x,y,var.test=TRUE)進行檢驗兩個總體的均值是否相等,其結果的P值為p-value=0.4675,則認為兩個總體的均值無顯著差異。如果借助R軟件就不需要煩瑣的計算與求解,只需要幾個簡單的函數,就可以完成假設檢驗。目前,很多與大數據有關的行業都需要熟悉R和Python語言的統計人才來分析數據,因此,將R語言引入概率統計的教學中,不但可以提高教學效率,而且能提高學生的實踐操作能力。
三、依托科技競賽,培養創新統計人才
目前,越來越多以培養和提高大學生創新創業能力的多種學科競賽活動在全國高校范圍內廣泛開展,這些賽事都能為提升大學生調研能力、數據分析能力和處理實際問題能力的創新統計學科人才培養模式提供一個良性平臺。真實數據是統計專業教育的重要組成部分。分析真實數據,解決實際問題,讓學生真真切切地感受到數據就在我們的身邊,同時也感受到統計方法是分析大數據的重要工具之一。比如,當學生掌握了“假設檢驗”的知識點并學會使用R軟件進行統計分析后,就進入小組合作分析真實數據解決實際問題的實戰階段。為此,筆者選擇了2012年的全國數學建模A題(葡萄酒的評價問題),題目中提供的實際數據比較詳細,根據學生的實際情況可以把原題中第一問題,分解為三個小問題:問題1:對每組評酒員的總評分進行正態性檢驗。問題2:對通過正態性檢驗的樣品酒進行正態總體的均值檢驗,對沒有通過正態性檢驗的樣品酒進行非參數檢驗。問題3:如果兩組評酒員的評價有顯著差異,那么哪組評酒員的評價更可信?
掌握了假設檢驗的原理與方法并學會使用R軟件進行統計分析后,分析葡萄酒評價問題就比較容易上手,比如對于問題1,學生就會應用比較穩健的Jarque-Bera統計量,即J-B檢驗,J-B檢驗在SPSS軟件中是沒有的,由于R軟件比較靈活,學生就可以借助R軟件進行編程,很快找到解決問題的方法。
依托科技競賽,精選能真正訓練學生學以致用的素材,讓學生懂得要完成以上的競賽題,不僅要掌握“假設檢驗”這一模塊的知識,還需要計算機編程能力,團隊合作能力,查閱資料和自學能力,數據分析與處理能力,撰寫報告能力,等等。
在統計學課程的每一章節或者每一模塊結束后都進行這樣的實際問題的解決,不但讓學生掌握了該章節或該模塊的核心知識,而且讓學生知道了該章節或該模塊的核心知識的實際應用,同時讓學生在不同的學習階段就能完成綜合實際問題解決的階段任務,提高了學生的實踐能力和職業能力。
四、結論
大數據時代,數據分析的思維必然要跟著變化,意味著我們的數據認識思維、數據收集思維、數據判斷思維、數據分析思維等都要跟著變化。大數據時代對于實際問題的分析、數據處理、計算分析、統計分析結果的解讀等方面都提出了更高的技術要求。因此,大數據背景下的統計課程的教學模式亟待解決,首先,應用問題驅動的教學方法,讓學生深度理解統計原理背后的統計思想,這一點的訓練直接關系到學生對統計分析結果的解讀是否正確、科學。其次,加強實驗教學,引入比較靈活的R軟件輔助教學,讓學生學會計算機編程,因為在大數據背景下,就業單位急需具有計算機編程能力的統計人才。最后,依托科技競賽,培養學生調研能力、數據分析能力和處理實際問題能力,在大數據時代,這種能力尤為重要。
參考文獻:
[1]孟生旺,袁衛.大數據時代的統計教育[J].統計研究,2015,(4):3-7.
[2]徐德義,林志恒.對大數據時代大學統計教學的認識與思考[J].大學教育,2015,(11):183-184.