有一個朋友經常向我抱怨,她穿的34碼鞋很難買到,為什么就不能多生產一些小號的鞋呢?參透其中的“奧秘”就要用到平均數了。
日常生活中我們經常會處理大量數據以了解其代表性,常用的計算方法便是計算平均數。計算過程中,首先要對統計口徑有一個清晰的說明。其次,計算中采用的是哪種平均數很關鍵。平均數這個詞的涵義很寬泛,常見的有3種 均值、中位數、眾數。所以,當我們看到某個數是平均數時,除非標注著它的具體種類——均值、中位數、眾數,否則,可要細細推敲這平均的涵義嘍!
眾數、中位數都是用來描述一組數據的集中趨勢的。眾數是一組數據中出現次數最多的數據,一組數據中的眾數可能不止一個,也可能沒有。中位數是將一組數據按大小依次排列,處在最中間位置的一個數據(或最中間兩個數的平均數),一組數據中的中位數是惟一的。均值是各數據的總和除以數據總個數的商。平均數的大小與一組數據里每個數據均有關系,其中任何一個數據的變化都會相應引起平均數的變動。它反映的是一組數據的總體水平(一般水平)。
我們在描述人類某些生理特征,諸如身高等數據時,三種數的數值十分接近。這個時候的數據具有正態分布的形態特點,均值、中位數和眾數會落在鐘形曲線的同一點上,這時使用哪個平均數都不會產生多大的差異。但有些時候,區分還是有必要的。
冰火兩重天——均值
均值的優點是計算簡單,便于理解,不足之處在于,當數據的分布呈現正偏態或負偏態時,均值往往高于或低于一般水平。我們的收入分布就是典型的正偏態分布,所以平均工資偏高就很正常了。
均值易受數據中極端數值的影響。比如,當某個不了解中國天氣情況的外國人計劃去新疆吐魯番旅行的時候,他通過網絡了解到當地的平均氣溫是25攝氏度,卻忽略了氣溫的波動范圍,可想而知,到了那里,他或被凍個夠嗆,或被熱暈過去,這個宜人的平均溫度掩蓋了8度到38度之間30度的氣溫波動范圍。
張百萬的故事——中位數
中位數的優點在于,在一組數據中,如果個別數據有很大的變動,選擇中位數表示這組數據的“集中趨勢”會比較適合。
網上曾有這樣一首打油詩:“張村有個張千萬,隔壁九個窮光蛋,平均起來算一算,人人都是張百萬。”這當然不是“平均數”的錯,也不是統計學的錯,很顯然這是用均值掩蓋了極端數據,換成“中位數”來計算,就能把問題說清楚了。以一個101人的企業為例,把所有人員年收入從大到小排列,正中間的一位,即第50位的年收入就是這家企業年收入的中位數。這個時候平均數不能說明的問題,中位數就說清楚了。
為什么買不到34碼的鞋——眾數
用眾數代表一組數據,可靠性較差,不過,眾數不受極端數據的影響,并且求法十分簡便。眾數的優勢在于,當數值或被觀察者沒有明顯次序(常發生于非數值性資料)時特別有用,由于可能無法良好定義算術平均數和中位數,顯然用眾數是最好的方法。
文章開頭提到我朋友的困惑,其實就是商家為了降低成本,取得規模效益,在生產鞋的時候采用了眾數。畢竟,37碼的鞋是適合大多數人需求的,這個“大多數”就是眾數。