蔣耀萱
天津財經大學
正態分布的起源與發展
蔣耀萱
天津財經大學
中外古今,人類從未停止對“對稱美”的追尋。對統計學中這個形狀優雅、簡潔漂亮的對稱鐘形曲線也不例外,即是當今應用最為廣泛的連續概率分布——正態分布。本文結合國內學者研究成果,以狄美孚、高斯、麥克斯維爾和高爾頓四個主人公的故事為依托,梳理了正態分布的早期歷史,來揭開她的神秘面紗。
正態分布;鐘形曲線;概率分布;早期歷史
實際問題中涉及的隨機變量大都服從正態分布,這個近似“中間高,兩頭低”的對稱鐘形分布,憑借其普遍的適用性,占據了各種概率分布中的首要地位。正態分布又名高斯分布,以紀念曾一度被認為第一個提出它的高斯,不過另外一個說法,正態分布是1733年狄美孚率先提出來的概念,因為高斯首次在天文學的探索中運用了正態分布,并且研究了它的性質,所以后人又稱其為高斯分布。正態曲線雖然看上去很美,但它的出現到成為統計學中概率模型的理論基礎經歷了數百年。從表現形式來看,正態分布既為概率論所有,又是統計學的理論基礎,因此它的出現與應用對后世有著重要的意義。
本文以正態分布的歷史發展為線索,以狄美孚、高斯、麥克斯維爾和高爾頓四個主人公為依托,對正態分布的早期發展過程中代表人物及其重要工作做出了梳理與總結。
正態分布函數密度曲線可以表示為:稱x服從正態分布,記為,其中為均值,為標準差,。標準正態分布令正態分布的為0,為1。
正態分布函數密度曲線特征:①曲線的高峰處在均數處正中位置。②正態分布函數密度曲線以均數為基準左右兩邊對稱。③正態分布函數密度曲線有兩個參數,即均數()和標準差()。④正態分布函數密度曲線下面積的總和為1。
(一)狄美孚與中心極限定理
通過陳希孺先生的《數理統計學簡史》,可以了解到正態分布的密度形式首次發現是在狄美孚-拉普拉斯的中心極限定理中。如此,我們就引入正態分布史上的首位主人公——狄美孚。
亞伯拉罕·狄美孚于1667年出生在法國。1733年的一天,狄美孚和幾位朋友探討自己的一篇7頁紙論文,在采納了朋友們意見的基礎上做了完善,最后這篇文字錄入在《機遇論》(第2版)的書中,也是此篇文章,狄美孚第一次推導出正態概率曲線表達式。追溯1730 年的《分析雜論》中出現的斯特靈公式,但毫無疑問是狄美孚首先發現的,狄美孚于1733年用它來得到二項分布的漸進分布——正態分布。1774年,拉普拉斯首先證明了,并開始推廣狄美孚的結果,用較一般的形式構建中心極限定理,也就是如今的狄美孚-拉普拉斯中心極限定理。
(二)高斯與觀測誤差分布
進入18 世紀,隨著數學的發展,致使天文學變得數學化起來。谷神星的出現,我們故事的第二個主人公高斯登場。
高斯于1777年出生在德國,以數學享譽世界,堪稱近代數學的奠基者之一,后人們稱其為“數學王子”。他在1809年出版了《天體繞日運動理論》一書,書中結尾介紹了一章關于“數據結合”的問題,用在人們意料之外的方法證明出了觀測誤差也服從正態分布,依據最大后驗概率論證了觀測參數的估計值就是算術平均值。對于如何解決誤差分布,高斯通過拉普拉斯在1774年得到的結論,算出了誤差分布的密度是:,從此高斯提出了誤差正態分布,同中心極限定理的一般形式及最小二乘法的出現,對后世產生了深遠的影響,所以后人又稱其為高斯分布。
(三)麥克斯維爾與氣體分子運動速度分布
20世紀正態分布被概率學家們越拓越寬,而后數學家和物理學家們發現:條條曲徑通正態。接下來,我們介紹故事的第三位主人公。
麥克斯維爾(1831.6.13—1879.11.5),英國物理學家、數學家,在蘇格蘭愛丁堡出生,在劍橋去世。他不僅在經典電動力學有所建樹,而且是創立氣體動理論的學者之一,還在統計物理和熱力等學科為人類科學發展作出突出的貢獻。1860年,麥克斯維爾在考慮氣體分子的運動速度分布的時候,在三維空間中推導出了氣體分子運動的分布是正態分布,這個三維正態分布就是三個正態分布的乘積,這就是麥克斯維爾-波爾茲曼氣體速率分布定律。
(四)高爾頓與二元正態分布
統計學是一門研究其它學科的方法論。麥克斯維爾把統計學引用到物理學,下面我們第四位主人公則最早把統計方法應用于生物學,他建立的回歸分析模型對英國的生物統計學派的崛起作出了重要貢獻。
弗朗西斯·高爾頓于1822年2月16日在英國拉杰斯出生。美國心理學家曾估算其幼年時的智商接近200。高爾頓在學術上遍地開花,以至于人頌“維多利亞式的天才”。高爾頓首先發現親子兩代身高數據服從同一正態分布,進而通過“正態漏斗”實驗、“種豌豆”試驗兩個類比實驗解決了前期存在的一些困惑。1884年,高爾頓設立了“人體測量實驗室”,利用收集的數據繪成二維圖來得到關于的二維分布,以期發現這一現象的原因。后來通過狄克遜的幫助,高爾頓得到了二維正態分布的答案。
通過狄美孚、高斯、麥克斯維爾和高爾頓四個主人公的故事,正態分布早期歷史的神秘面紗就揭開了,穿越百年歷史,從最初被發現到被人們重視,到構成統計學的理論基礎,正態分布曲線展示在世人面前,等候不同領域學者們的召喚。作為統計人,希望通過正態分布早期歷史的梳理與總結,讓人們認識正態分布的起源與發展,和其特有的雙重理論背景及重要價值。
[1]陳希孺.數理統計學簡史[M].長沙:湖南教育出版社,2000:28-156.
[2]于忠義.高斯與觀測誤差分布的發現[J].統計與信息論壇,2006,11.
[3]Maxwell.Illustrations of the dynamical theory of gases[J].Philosophical Magazine,1860,7:378~409.
蔣耀萱(1992—),男,漢族,天津人,天津財經大學統計學碩士研究生,研究方向:金融風險管理。