吳劍 錢進
摘 要:智能制造是工業發展方向,為了適應“大數據”時代人才培養的需求,在學習《概率論與數理統計》的理論知識之外,讓工科本科生具有基本數據分析的能力,使用R軟件對概率論與數理統計部分的理論進行模擬,對數理統計的數據進行可視化,對學生理解理論、培養學生讀懂數據有重要的意義。因此本文初步探討使用R軟件進行概率論數理統計的輔助教學,為進一步課程的深化改革提供參考,目的是把《概率論與數理統計》打造成有難度的“金課”。
關鍵詞:R語言;回歸;數理統計
一、 引言
概率論的理論基礎可以按照其他大學數學課程的學習方法進行學習,而數理統計是應用科學的基礎,當數據較大時,需要借助統計軟件去模擬,及實現數據的可視化,因此使用統計軟件輔助概率論與數理統計教學,讓工科的學生更好地掌握概率論的理論,懂得統計學的方法及簡單的應用是重要的。
R語言是專業的統計軟件,是統計計算、數據可視化的優秀工具,同時R也是免費開源的軟件,其官網和鏡像網站中可以下載安裝程序、源代碼和程序包等,它可以提供一些集成的統計工具,但更大量的是它提供各種數學計算、統計計算的函數,從而使使用者能靈活地利用這些函數進行數據分析,甚至可以通過不同方法的組合,創造出符合需要的新統計計算方法。
使用計算機語言輔助大學數學的教學相關研究較多,韓海燕介紹了使用Matlab軟件對《概率論與數理統計》課程進行輔助教學,它主要利用進行圖形可視化和數學運算。江海峰研究了蒙特卡洛模擬在概率論與統計教學中的應用,作者分析了該算法的應用,并沒有介紹如何實現,也沒有介紹使用的軟件。劉宣研究了R語言在大學數學教學中的應用。因此對于工科概率論與數理統計課程的教學者,亟須把統計軟件應用到教學中,并發展案例教學的方法,讓學習者更好的理解統計學的基本概念,懂得如何進行數據處理。
二、 R軟件的模擬應用
工科的《概率論與數理統計》課程中,中心極限定理是概率論中重要的定理之一,其定理敘述如下:
x1,x2,…,xn是獨立同分布的隨機變量,期望μ與方差σ2都存在,設部分和序列為
Sn=∑ni=1xi,ESn=nμ,DSn=nσ2,則對于任意的實數x,標準化部分和序列的分布函數
Fn(x)收斂到標準正態分布的分布函數,
PSn-nμnσ≤x→φ(x)=∫x-∞12πe-t22dt
該定理文字解釋很直觀,即某個隨機現象由大量隨機因素組成,各個因素起到的作用均勻且可忽略,則這個隨機現象可以用正態分布去描述,但是學生很難理解為什么隨機變量序列只要求獨立同分布,而不要求服從具體的分布,即無論服從什么分布,標準化部分和序列都服從正態分布,因此我們使用蒙特卡洛模擬,給學生直觀的認識。
假設x1,x2,…,xn服從參數為2的泊松分布,n=10000,計算其前n項部分和,并中心標準化,計算
Sn-ESnDSn,并模擬100000次,利用這些數據生成概率密度函數的估計,模擬的結果可視化的形式呈現給學生。
使用核概率密度函數估計,可以看出雖然給定的變量是泊松分布,但是標準化部分和序列的概率密度與標準正態的密度的形狀相似。
三、 R軟件線性回歸的演示
在線性回歸中,最小二乘法及回歸的計算相對復雜,解釋困難,因此利用實際數據,配合圖形講解回歸的方法是讓學生快速掌握方法的較好途徑,采用如下的模擬方式,假設真實的模型為
Yi=a+bxi+εi,i=1,2,…,100,εi~N(0,σ2),取σ2=1,2,3三個不同噪聲等級下,
a=2,b=3觀察回歸的效果。再取誤差服從t(4),觀察在有異常數據點下最小二乘的效果,利用一條直線擬合這些數據,使得這些數據距離直線的平方和最小,即是最小二乘的思想,隨著信噪比不斷地增加,數據的離散程度越來越大,模擬中還引入了厚尾的t分布,探索最小二乘估計的穩健性,從表1中可以看到,隨著數據的離散程度越來越大,估計10000次的中位數與真值的距離越來越大,同時也關注R2
的取值越來越小,意味著擬合效果越來越差。從誤差為t分布的模擬結果和回歸直線可以看到,最小二乘回歸對異常數據點的影響是敏感的,因此可以適當探索其他的回歸估計方法。
四、 總結
由于工科學生動手能力較強,抽象思維能力相對理科學生較弱,因此適當的利用統計軟件進行模擬研究,把結果直觀演示給學生,對學生掌握該方法提供了直觀的解釋。對于統計軟件的輔助作用就是更直觀地把數據及統計方法呈現給學生,更好地理解理論的推導和應用,理論和應用相結合,培養工科學生實踐能力和創新能力。
參考文獻:
[1]韓海燕.MATLAB軟件和概率論與數理統計教學的整合研究[J].科技信息,2011(14):202.
[2]江海峰.MCS在概率論與數理統計教學中的應用研究[J].數理統計與管理,2008,27(4):740-747.
[3]劉宣.基于R語言的大學數學教學初探[N].福建師大福清分校學報,2015(5):45-48.
作者簡介:吳劍,錢進,遼寧省沈陽市,東北大學。