



摘" 要:箱線圖是對數據進行直觀描述的重要方法. 當對一類數值變量進行分析時,首選直方圖,但是對不同類別的數值變量進行對比分析時,箱線圖的優勢非常明顯. 通過對箱線圖的概念、畫法和應用的簡單介紹,體現其在發展學生數據觀念、統計思想中的教育價值.
關鍵詞:箱線圖;四分位數;百分位數;異常值
《義務教育數學課程標準(2022年版)》(以下簡稱《標準》)在“統計與概率”領域內新增了“四分位數”“箱線圖”“百分位數”等概念. 由于概念很新,大多數教師以前并未接觸過,給教師的教學帶來了一定的挑戰. 本文擬結合《標準》中的案例,對箱線圖的概念進行介紹,同時談一談箱線圖的畫法和簡單應用.
一、箱線圖的概念
1977年,美國著名數學家John W.Tukey在他的著作Exploratory Data Analysis中介紹了箱線圖,因其形狀如箱子而得名. 如圖1,箱線圖利用下界(下邊緣值)、下四分位數(Q1)、中位數(Q2)、上四分位數(Q3)和上界(上邊緣值)這五個統計量來描述數據的分布規律. 通過箱線圖可以直觀地觀察出數據的異常值、數據分布的離散程度,以及數據的對稱性. 其中,Q1,Q2,Q3分別被稱為第一四分位數、第二四分位數、第三四分位數,其實也就是第25,50,75百分位數. 為了說明上界和下界,我們引入一個四分位差(IQR)的概念. 所謂四分位差,就是第75百分位數和第25百分位數的差,即IQR=Q3-Q1. 習慣上定義下界 =Q1-1.5 ? IQR,上界=Q3+1.5 ? IQR. 這里需要注意,箱線圖里面的上界并不是數據中的最大值,下界也不是數據中的最小值,作出一組數據的箱線圖以后,也許會有數據在上界、下界之外的情況,我們稱這樣的數據為異常值,也稱其為離群點,習慣上將異常值以“空心點”形式進行展示.
當箱線圖很短時,意味著數據大多集中分布在很小的范圍內,也就說明數據的波動程度較小;當箱線圖很長時,意味著數據分布的范圍比較廣,也就說明數據的波動程度較大. 圖2展示了四種不同類型的箱線圖和曲邊多邊形之間的關系. 鐘形(對稱)分布和矩形分布的箱線圖比較類似,中位數和平均數幾乎相等,且中位數與下四分位數和上四分位數的間距差不多,說明數據的分布是呈對稱性的;左偏分布和右偏分布的箱線圖中,中位數與下四分位數和上四分位數的間距有一定的差別,此時說明數據的分布是偏態分布,且中位數所處的高低位置能反映數據的偏斜程度.
在箱線圖中,使用的是中位數而不是平均數來描述數據的“中心”,這是由于相對于平均數而言,中位數更穩健. 由于平均數在大多數情況能夠“代表”樣本,所以在進行研究的時候經常用它,但是平均數也有一個較大的缺陷,即當數值差距很大時,呈現的平均結果可能會出現不客觀的現象,也就是平均數陷阱.在一組數據中,由于比中位數大(或小)的數據占數據整體的一半,所以中位數具有對于極端值不敏感的特征,也就是我們常說的中位數的穩健性. 因此,中位數也是數據分析中非常重要的一個統計量. 所以在畫箱線圖的時候我們選擇了中位數.
二、箱線圖的畫法
1. 求百分位數
畫箱線圖,首先要求出四分位數,而四分位數是百分位數的特例,這里簡單介紹一下離散型數據的百分位數的求法.
我們可以通過下面的步驟計算一組n個數據的第p百分位數.
第1步:按從小到大的順序排列原始數據.
第2步:計算i=n×p%.
第3步:若i不是整數,而大于i的最近整數為j ,則第p百分位數為第j項數據;若i是整數,則第p百分位數為第i項與第i+1項數據的平均數.
2. 畫箱線圖
《標準》中的例86中,已知某銀行理財團隊A負責經營的12項理財產品的收益率(單位:%)如下:
4.77" 3.98" 6.44" 4.89" 2.15" 3.85
3.64" 3.21" 3.18" 2.02" 4.11" 4.10
我們現在來畫這組數據的箱線圖.
第1步:將上述數據按從小到大的順序排列:2.02,2.15,3.18,3.21,3.64,3.85,3.98,4.10,4.11,4.77,4.89,6.44. 上述數據中的最小值為2.02,最大值為6.44.
第2步:計算四分位數和四分位差(IQR). 中位數Q2=3.85+3.98÷2=3.915,下四分位數Q1=3.18+3.21÷2≈3.20,上四分位數Q3=4.11+4.77÷2=4.44,四分位差IQR=1.24. 所以下界為3.20-1.5×1.24=1.34;上界為4.44+1.5×1.24=6.30.
第3步:畫一個能夠把所有值都包括在內的數軸,在數軸上依次描出下界、下四分位數Q1、中位數Q2、上四分位數Q3、上界五個值,并以Q1和Q3作為方盒的兩邊作圖,在中位數、下界、上界處分別畫方盒的短平行線,再將方盒與下界、上界用虛線連接即可,如圖3所示.
但是我們在用統計軟件作圖時,發現觸須線的長度往往是不同的,這又是為什么呢?仍然用《標準》例86中的數據進行解釋.
A:4.77" 3.98" 6.44" 4.89" 2.15" 3.85
3.64" 3.21" 3.18" 2.02" 4.11" 4.10
B:3.18" 3.84" 3.99" 3.67" 3.40" 3.60
4.10" 4.21" 4.15" 4.44" 3.87" 3.91
我們通過“R語言”的基本作圖命令“boxplot”可以畫出這兩組數據的箱線圖,如圖4所示.
很顯然,這個箱線圖與我們手工畫得的箱線圖有很大的不同. 除了橫豎不同,還能發現A組數據對應的箱線圖上下兩部分觸須線的長度存在明顯不同. 這是因為軟件在作圖時去掉了異常值后,將余下的數據中的最大值作為了上界,最小值作為了下界.
三、對箱線圖的思考
統計學是一門科學,它研究怎樣以有效的方式收集、整理、分析帶有隨機性的數據,并在此基礎上對所研究的問題作出統計推斷,直至對可能作出的決策提供依據或建議. 習慣上,我們將統計學分為描述統計學和推斷統計學兩大類. 推斷統計學中主要包括兩類基本問題:參數估計和假設檢驗,這個話題牽涉統計學上多方面的理論問題,在這里不進行過多解讀. 描述統計學距離我們要更近一些. 例如,上面通過箱線圖對A,B兩個理財團隊分別負責經營的12項理財產品的收益率進行對比得出的投資建議;再如,教師對班級學生成績的平均數和方差進行對比分析得出針對本班的考試情況. 這都是在進行統計描述.
統計學主要研究的是隨機數據,如果只是把數據放在那里,讓人去“看”,是沒有任何意義的. 正如陳希孺院士所說:大量的原始數據如果不經過整理、分類、排比、分析,并通過適當的形式表示出來,就好比一堆沒有經過冶煉的礦物,沒有什么用處. 通過對數據的整理分析,畫出常用的統計圖表,計算出樣本的統計量,我們就可以對整體進行描述或得出結論. 常用的統計圖表包括統計表、條形圖、折線圖、扇形圖、直方圖(頻數、頻率)、散點圖、莖葉圖、箱線圖等;常用的描述統計分析的統計量有平均數、中位數、眾數、四分位數、百分位數、極差、離差、方差、標準差等.
在日常使用的過程中,扇形圖能夠用來表示屬性變量所占的比例,條形圖能用來表示數值變量的數值、頻數或百分比,折線圖和散點圖能用來表示兩個數值變量之間的關系,直方圖則能用來顯示數值變量的分布情況,但是我們缺少一種能夠對比不同類別的數值變量分布差異的圖表. 以前我們通過平均數和方差的不同進行比較,現在有了箱線圖這一工具,就可以將這個比較直觀化了. 除此之外,箱線圖還能夠展示單組數據的分布情況、異常值、波動情況和穩定性等.
箱線圖和直方圖都是對數據進行“壓縮”以后得到的,都能代表原始數據的分布情況,而且都盡可能地保留了原始數據的相關信息,也都是了解變量分布的常用的圖形工具. 但是這兩者使用的范圍是有區別的,直方圖顯示了數值變量的頻率條形圖,能估計變量的分布情況,可以用來快速了解分布的形狀、變化和潛在的異常值;箱線圖除了可以看到數據分布的大致形狀,還可以收集一組數據的四分位數、范圍和異常值等信息. 尤為重要的是,在需要同時比較多個圖表時,箱線圖就特別有用了.
通過對上面如圖4所示箱線圖的分析可以發現,A,B兩個理財團隊分別負責經營的12項理財產品的收益率的中位數相差無幾,說明兩組數據分布的對稱中心是相同的. 但是A組數據的箱線圖總體要長,且存在異常值,說明理財團隊A的收益的波動情況比較大,如果是風險偏好型投資者,建議選擇理財團隊A,而穩健型投資者最好選擇理財團隊B. 從對稱性上來觀察,B組數據的箱線圖的對稱性好于A組數據,說明理財團隊B是一個價值型投資團隊,理財團隊A則是一個成長型投資團隊,有更大的成長空間.
最后,說說異常值. 箱線圖中的異常值以“空心點”的形式進行展示. 箱線圖中,可以通過異常值來判斷數據的偏態程度. 如果是正態分布的數據,異常值比較少;異常值很多時則說明尾部很重,分布不服從正態分布. 對于異常值的處理,需要看其來源:如果是記錄錯誤,直接修改即可;如果異常值是由于數據分布特點而帶來的,則恰好可以幫助我們識別偏態分布是正偏還是負偏.
參考文獻:
[1]布萊克. 以Excel為決策工具的商務與經濟統計[M]. 張久琴,張玉梅,楊琳,譯. 北京:機械工業出版社,2003.
[2]萊文,克雷比爾,貝倫森. 商務統計學(第5版)[M]. 黃耀鋒,王小勇,等譯. 北京:中國人民大學出版社,2010.
[3]陳希孺. 統計學概貌[M]. 北京:科學技術文獻出版社,1989.
[4]陳希孺. 數理統計學簡史[M]. 長沙:湖南教育出版社,2002.