張明亮
摘要:統計學是一門重要的學科,在日常生活中有著極其廣泛的應用。本文對統計學教學中幾個容易混淆的問題進行闡明,旨在幫助學生對統計學中的一些概念有個正確的理解。
關鍵詞:統計學;直方圖;總體;相關系數
中圖分類號:C81 文獻標志碼:A 文章編號:1674-9324(2019)24-0188-02
統計學是一套處理和分析數據的方法和技術,是一門數據分析的學科。統計學作為一門基礎課程,越來越受到人們的重視,呈現著新的發展趨勢及活力。但是,學生往往對一些概念產生模糊認識,甚至一些教科書中,也出現對一些概念表述不清的情況,這里就學生在學習中容易產生混淆的幾個問題進行闡述,旨在幫助學生對一些概念有一個正確的理解。
一、直方圖與條形圖
直方圖是統計學中對數據描述的一個圖形,在高中教材中也有介紹,但有一部分學生對這個概念理解不清。曾對學習統計學一年以后的大三學生做過一項統計學方面的調查,班級共有68名學生,有36名學生對直方圖與條形圖不能很好地區分開來,約占53%。有的學生把二者混為一談,對于二者的應用范圍分不清楚。條形圖是用寬度相同的條形的高來表示數據多少的圖形,每一矩形表示一個類別,其寬度沒有實際意義,每個小矩形不相連。條形圖有單式條形圖和復式條形圖之分,它一般適應于品質數據。
直方圖是用于展示定量數據分布的一種常用圖形,它是用矩形的寬度和高度來表示頻數的分布,矩形的寬度表示分組數據的組距,由于分組數據具有連續性,所以每個矩形是相連的,通過直方圖可以觀察數據分布的大致情況。一般用每個小區間內的頻率比上組距來表示小矩形的高度,這樣做是為了使得直方圖圍成的面積為1,因為一維連續型隨機變量的概率密度函數與x軸圍成的面積為1,通過對直方圖的折線近似擬合,觀察這條折線與已知分布的哪個概率密度函數擬合得比較好,可得出這組數據的大致分布。
但是,在有的教材中,往往把直方圖的高這一數據標錯,給學生理解帶來困難。右圖為某公司電腦銷售額分布的直方圖,從圖中可以看出,縱坐標標出的高度都不是頻率與組距的比,直方圖圍成的面積自然也不能保證是1。
二、對總體的理解
總體是指研究的對象的全體或試驗的全部可能的觀察值。由此可見,總體是指研究對象,一般是一些具體的數值。如,要考察一個班級《統計學》期末的考試成績,不能把這個班的學生看作總體,而應是每個學生的《統計學》成績組成的集合為總體,因為這里考察的僅僅是《統計學》的成績,而不是其他學科的成績。有的學生對總體理解不到位,甚至一些教材上也犯有同樣的錯誤。
三、方差與標準差的單位
隨機變量X的方差用D(X)或Var(X)表示,若E[X-E(X)]存在,則D(X)=E[X-E(X)]稱為隨機變量X的方差。它刻畫了隨機變量X的取值與其數學期望E(X)的偏離程度,若方差較小,意味著隨機變量X的取值比較集中在E(X)附近,反之,說明隨機變量X取值比較分散。方差的開平方稱為標準差或均方差。方差和標準差是否有單位,應該怎樣定義單位呢?關于這個問題有很多人認識不清,方差和標準差是否有單位,取決于“樣本數據”,若“樣本數據”有單位,那么方差和標準差均有單位;若“樣本數據”是沒有單位的數值,那么方差和標準差均沒有單位。由方差的定義知,一個隨機變量X的方差,是這個隨機變量與它的數學期望的差的平方的數學期望,若這個隨機變量X有單位,它的數學期望就與這個隨機變量具有相同的單位,二者差的平方的單位應該是原單位的平方,再求數學期望則單位不變,因此,方差的單位應該是“樣本數據”單位的平方,而標準差是由方差開方得到,所以標準差的單位與“樣本數據”的單位相同。如果數據的單位是千克,方差的單位就是千克的平方,標準差的單位就是千克;如果數據的單位是秒,方差的單位就是秒的平方,標準差的單位就是秒。只是現在教科書中對方差的單位比較淡化,一般考試中,所求的方差不要求寫單位。但是,在有的教材中仍會出現單位標注錯誤。有本教材給出的例題是這樣的:
例:根據例4.1的數據,計算9名員工月工資收入的方差和標準差。
四、無限與不可數
可數和無窮多是兩個不同的概念。可數可以簡單地認為是可以按一定順序排列出來,所以也稱為可列。如所有自然數{0,1,2,3,…}是可數個,只要能與自然數一一對應就是可數的,如所有奇數、所有偶數、所有有理數都是可數的。不可數就是沒有辦法一一排列出來,如區間[0,1]內的所有實數就是不可數的。
五、相關系數及其含義
當r=1時,稱隨機變量X與Y正相關;當r=-1時,稱隨機變量X與Y負相關;當r=0時,稱隨機變量X與Y不相關。說明相關系數定量地刻畫了隨機變量X、Y的線性相關程度,這里需注意的是:相關系數為零,只能說明隨機變量X與Y不具有線性相關關系,未必沒有關系;相關系數為1,也只能說明隨機變量X與Y之間以概率1存在著線性關系,直觀來說,就是幾乎所有的點(X、Y)都在直線Y=aX+b上,允許個別點不在這條直線上,不在這條直線上的點的概率應為0,但不能說二者具有函數關系。在有些教材中,把r=1與二者具有函數關系等同起來,此教材這樣描述相關系數:“可以證明,相關系數的取值范圍在+1和-1之間,即-1 六、一元線性回歸模型 總之,有些概念在一些教科書中介紹不清,老師在講授時又不夠重視,使得學生對這些概念不能很好地掌握,這是造成學生錯誤的根本原因,值得重視。 參考文獻: [1]賈俊平.統計學基礎[M].第3版.北京:中國人民大學出版社,2013. [2]盛驟,謝式千,潘承毅.概率論與數理統計[M].第4版.北京:高等教育出版社,2011.