唐菲雨
(廣州市第六中學, 廣東廣州 510399)
正態分布是概率統計理論的重要組成部分。人們在分析生活中符合正態分布的變量時,可以計算其數學期望、方差,從而得到描述變量分布的函數,繪制概率密度曲線。通過對函數進行積分計算,人們可以得到某一事件的發生概率。概率密度曲線可以幫助分析者更直觀地認識某一變量的分布規律[1]。
中心極限定理同樣是概率統計理論中的重要內容。它是由法國數學家棣莫弗提出的,它為人們提供了根據樣本的特征推斷總體的特征的重要方法。此外,中心極限定理還可以幫助研究者確定不服從正態分布的總體的一些重要統計參數。
正態分布和中心極限定理在生產生活中有著廣泛的應用[2]。事實上,自然界中的多數變量都服從正態分布。在工業、商業、醫療等領域,人們常常需要應用正態分布和中心極限定理,才能準確地對隨機變量的分布規律以及大樣本的特征進行分析,得到可靠的結論。
正態分布是一種十分重要的概率模型。1733 年,棣莫弗在研究二項分布的極限形式時,提出了正態分布模型。1783 年,拉普拉斯(Laplace)嘗試使用正態分布曲線來描述誤差的分布。1809 年,高斯使用正態分布曲線分析天文數據。此后,研究者們嘗試應用正態分布模型解決工業、商業、醫藥等領域的問題,得到了許多重要的結論。

正態分布曲線有如下幾個特點:
(1)當σ 一定時,曲線的形狀是一定的,曲線的位置由μ 決定。當μ 發生變化時,曲線會沿x 軸平移。
(2)當μ 一定時,曲線的位置是一定的,曲線的形狀由σ 決定。σ 越小,曲線越“瘦高”,表示變量的分布較為集中;σ 越大,曲線越“矮胖”,表示變量的分布較為分散。

1.3.1 確定銷售時機
漁場老板往往會面臨這樣的難題:養魚時間過短,魚的重量小、品相差,沒有市場競爭力;養魚時間過長,魚的重量大,消耗的魚糧多,成本也高,所以選擇合適的養殖時間猶為重要。某漁場的老板養殖了一批鯉魚,在最近試捕的100 條魚里,他發現這批鯉魚的平均重量為3kg,標準差為0.1kg,根據以往的市場行情,鯉魚的平均重量在2.8kg ~3.2kg 時,凈利潤最高,漁場老板是否應開始捕撈,并將其運到市場上銷售?
利用正態分布曲線進行概率分析后發現,老板應決定進行捕撈。若將頻率近似為概率,設池塘里每一條魚的重量為X,P(2.8 ≤X ≤3.2)=P(μ-2σ ≤X ≤μ+2σ)=0.9545, 可以認為,池塘里至少有95%的魚達到市場的要求,所以養殖時間應開始捕撈,并將其運到市場上銷售。
1.3.2 質量檢測
根據以往經驗,某面包廠生產的面包質量服從N(200,5)的正態分布,在一次生產時,負責檢查的員工隨機連續抽取的兩個面包的質量均小于185g,該員工當即決定停機檢查,請分析該名員工的決策依據。
生產的面包的質量是服從正態分布的。P(X<185)=P(X<μ-3σ)=[(1-0.9974)/2]×100%≈0.13%,此為獨立事件,連續兩次抽檢得到面包質量小于185g 的事件記為A,P(A)=(0.13%)2≈0.0002%。這樣的事件基本是不可能發生的,很可能是生產的某一環節出現了問題,如原料、機器等出現問題。這時,該名員工停機檢查,有助于及時止損,降低生產成本,提高企業的經濟效益。
1.3.3 確定醫學參考值的范圍
在醫院的體檢單上,我們常能發現這樣一些數據:總蛋白參考范圍(65.0g/L ~85.0g/L),葡萄糖(3.91mmol/L ~6.10mmol/L)……這些數據是怎么得到的?醫學研究者在制定標準前,需要先獲得多個健康個體的血清指標的數據,并根據正態分布函數,確定健康個體中相應指標的范圍。
研究小組發現,血清中白蛋白的濃度可以反映患者的營養狀況,他們采集了一些營養狀況良好的患者的血清,并測定了白蛋白的濃度(g/L):69.1,74.2,68.5,67.6,68.4……,并通過計算得到:μ=70,σ=5。那么,應當如何確定白蛋白的醫學參考值范圍?
人體中白蛋白的濃度應服從正態分布。設白蛋白濃度為X,P(65 ≤X ≤75)=P(μ-2σ ≤X ≤μ+2σ)=0.9545 ≈95%,P(65 ≤X ≤75)的含義是總蛋白含量在65g/L ~75g/L的范圍內的可能性較大。當檢測的樣本在65 以下或是75以上時,該個體的血清白蛋白濃度超過了95%的健康個體的白蛋白濃度范圍,則可以認為出現這種情況是較為“不正常”的,該患者可能營養狀況不佳或營養過剩。由此可見,正態分布在確定標準方面也發揮著重要的作用。
正態分布在生產生活中發揮著重要作用,人們可以通過以往的歷史數據建立正態分布模型,依據3σ 原則,甚至是6σ 原則進行決策,達到提高生產效益的目的。同時,正態分布在醫療檢測等領域的廣泛運用也啟發我們:正態分布能夠幫助人們確定某些指標的標準,或者判斷某一群體是否符合標準。
雖然中心極限定理的概念是由棣莫弗于1733 年首先提出的,但是直到1930 年,它才被匈牙利數學家喬治·波利亞正式命名為中心極限定理[4]。
中心極限定理(CLT)指出,無論總體服從何種分布,從同一總體中多次抽樣時,假設每次抽樣時樣本容量相同,那么樣本均值的分布近似服從正態分布。換句話說,CLT 是一種統計理論,它指出,對于具有有限方差的數據,所有樣本的均值將近似等于總體均值。當樣本容量等于或大于30 時,人們可以用CLT 分析總體的特征[5]。
在經濟金融分析中,中心極限定理有著廣泛的應用。例如,當金融從業者評估單個股票或股票指數的投資回報時,它可以幫助人們確定某股票或某股指基金的平均回報率,降低分析相關的金融數據的難度。事實上,幾乎所有類型的投資者都需要借助中心極限定理分析股票收益、建立投資組合和規避投資風險[6]。
例如,假設一位投資者希望分析包含1000 只股票的股票收益率。在這種情況下,該投資者可以只研究其中數十只股票,就可以推斷股票收益率。需要注意的是,在分析的過程中,分析者必須隨機抽取至少30 個跨行業的股票,才能保證所得到的結論是可靠的[7]。
某保險公司的保戶有n 名,每名保戶一年繳納保險金b 元,根據保險公司以往的調查,一年內保戶發生事故的概率為p,事故發生后保險公司的理賠金額為c 元,試分析應如何使保險公司虧本的概率最小?
應當用二項分布和中心極限定理解決這一問題。設X 為出現事故的次數。X 服從二項分布,即X ~B(a,p),E(X)=ap,D(X)=ap(1-p),P(虧本)=P(cX>ab)=P(X>ab/c),根據棣莫弗—拉普拉斯中心極限定理P(虧本)≈?(+∞)-?(ab/c),保險公司為了不虧本,可以使P(虧本)<0.000001,甚至更小,求解此不等式即可得到對應的n、b。
由上述例子可以知道,保險公司可通過鼓勵更多人投保或提高保險金,擴大總收入;可通過設置理賠條件,來降低需要理賠的概率,也可以通過降低理賠金額降低虧本的發生率。
假設M 市第一中學有4000 名學生,只有一間學校飯堂,現有打飯窗口30 個。為緩解午餐高峰期的打飯壓力,一些學生提議增設打飯窗口。飯堂辦公室調查發現,排隊打飯大約會占用學生1%的就餐時間。那么,未新增打飯窗口前,擁擠的概率是多少?至少要有多少個打飯窗口,才能有99%的可能不擁擠?


實際上,考慮到不增設打飯窗口時,不擁擠的概率已經接近95%,飯堂辦公室從成本的角度考慮,完全沒有必要增設新窗口。
其實,中心極限定理不僅在保險領域和生活中有著廣泛的應用,其在工業生產、醫藥等領域也發揮著重要的作用。它能夠幫助人們將非正態分布轉化為正態分布,擴大正態分布的適用范圍[8]。
概率論與數理統計是一門應用性較強的學科。應用正態分布和中心極限定理,人們可以高效地解決生產生活、科學研究、經濟金融等領域中的一系列問題。從事自然科學和社會科學研究的研究者以及企業的經營者應學好數理統計,加深對事物的本質的認識,更高效地做出決策。