劉靜宜 池文雅 胡典順




摘 ?要:統(tǒng)計問題解法背后的思想往往很重要,但卻常常被忽視. 最大似然估計就是統(tǒng)計學中一個很重要的思想與方法. 從教材例題出發(fā),深入剖析最大似然估計的定義與內(nèi)涵,并結(jié)合二項分布和超幾何分布的問題實例闡明其應(yīng)用方法,在此基礎(chǔ)上再拓展介紹最小二乘法和貝葉斯估計法,以及它們與最大似然估計法的區(qū)別與聯(lián)系,從而增強學生對最大似然估計的理解,更好地用統(tǒng)計學中的思想去解決問題.
關(guān)鍵詞:最大似然估計;二項分布;超幾何分布;最小二乘法;貝葉斯估計法
一、提出問題引人思
依據(jù)《普通高中數(shù)學課程標準(2017年版)》編寫的2019年鄂教版《普通高中教科書·數(shù)學》(以下簡稱“教材”)必修第四冊中有這樣一個問題:漁民有什么方法能方便且快速地知道自己魚池中魚的數(shù)目呢?有經(jīng)驗的漁民常用一種被稱為“標記后再捕”的方法,即先從魚池中隨機捕捉一些魚,不妨假設(shè)捕到1 000條魚,在每條魚的身上做記號(不影響其存活)后又放回魚池中. 經(jīng)過一段時間,再從魚池中隨機捕捉一些魚,不妨設(shè)第二次捕到200條,其中10條有記號,由此就可以估計出這個魚池中魚的總數(shù). 那么,這具體是怎樣估計出來的呢?有人會直接列出這樣一個比例式:200∶10 = x∶1 000,x的值就是要求的魚池中魚的總條數(shù). 通過解該方程,得x = 20 000,即魚池中魚的總數(shù)為20 000條. 是否可以這樣做呢?這個問題背后的統(tǒng)計思想又是什么呢?實際上,用樣本中有標記的魚的比例估計總體中有標記的魚的比例這種做法,看似與解決純數(shù)學題的過程并無太大區(qū)別,但實際上運用了統(tǒng)計學的思想,其本質(zhì)是利用樣本均值估計總體均值,是以大數(shù)定律為依據(jù)的矩法估計. 需要注意的是,數(shù)學與統(tǒng)計是兩個獨立的一級學科,由于數(shù)學研究的是抽象的數(shù)量關(guān)系和空間形式,而統(tǒng)計則是反映一定時間、地點條件下具體社會現(xiàn)象的數(shù)量特征,因此它們之間并不是簡單的包含與被包含的關(guān)系.
若想在解決此題的過程中較清晰地體現(xiàn)統(tǒng)計學思想,我們可以考慮另一種在統(tǒng)計學中應(yīng)用十分廣泛的方法——最大似然估計法.
二、解讀內(nèi)涵明定義
最大似然估計法(Maximum likelihood estimate)最早由德國數(shù)學家高斯(C.F.Gauss)提出,后來在1912年英國統(tǒng)計學家費歇爾(R.A.Fisher)再次提出了這個方法,并在1922年的一篇文章中將此方法命名為“最大似然估計”,同時證明了它的一些性質(zhì). 最大似然估計法是建立在最大似然原理基礎(chǔ)上的一個統(tǒng)計方法. 最大似然原理的直觀想法是:一個隨機試驗如有若干個可能的結(jié)果[A,B,C,…,] 在一次試驗中,結(jié)果A出現(xiàn),則一般認為試驗條件對A出現(xiàn)有利,也即A出現(xiàn)的概率很大.
為了更好地理解最大似然估計法,我們先來看一個直觀的例子:設(shè)甲箱中有99個白球,1個黑球;乙箱中有1個白球,99個黑球. 先隨機取出一箱,再從抽取的一箱中隨機取出一球,結(jié)果發(fā)現(xiàn)是黑球,這個黑球是從乙箱中抽取的概率為[99100],比從甲箱中抽取的概率[1100]大得多,這時我們自然更多地相信這個黑球是取自乙箱的. 這就是最大似然估計的思想,即實際最可能發(fā)生的情況對應(yīng)最可能的參數(shù)取值.
最大似然估計法的具體數(shù)學定義:設(shè)總體X的分布為[fx,θ,θ∈Θ,] [Θ]是[θ]的參數(shù)空間,當X是離散型時,[fx,θ]為X的概率分布;當X是連續(xù)型時,[fx,θ]為X的密度函數(shù),而[x1,x2,…,xn]為樣本[X1,X2,…,Xn]的觀測值,稱[Lθ=i=1nfxi,θ,θ∈Θ]為似然函數(shù),[Lθ]取最大值所對應(yīng)的[θ]作為[θ]的估計,并稱[θ]為[θ]的最大似然估計.
從字面上解釋,“似然”就是“像”的意思,所以最大似然估計法就是根據(jù)樣本的部分已知情況來推測最像或者最可能產(chǎn)生這種情況的原因,以及樣本的整體情況,即“最可能的解釋就是最好的解釋”. 需要注意的是,由于最大似然估計法是統(tǒng)計學中頻率學派的代表,所以我們運用最大似然估計思想的前提,是需要堅持統(tǒng)計學中頻率學派的思想,即參數(shù)是客觀存在的,只是未知而已. 通俗來說,就是所有的解釋都只有正確和錯誤兩種情況,而不存在能用概率來衡量的中間狀態(tài). 在最大似然估計法中的體現(xiàn)就是忽略低概率事件,直接將高概率事件認為是真實事件的思想.
了解了最大似然估計法的定義和思想內(nèi)涵,下面我們再來看看最大似然估計法的具體應(yīng)用方法.
三、應(yīng)用實例增理解
運用最大似然估計法能夠解決統(tǒng)計學中的很多問題,下面將通過兩個典型的分布問題——二項分布和超幾何分布,來具體闡述其方法的核心.
題目1 (二項分布)假設(shè)一個袋子中放有若干個白球和紅球,已知這兩種顏色球的數(shù)量之比為1∶3. 現(xiàn)有放回地抽取3個球,希望通過抽到白球的情況估計白球在袋子里所占比例.
解析:該題滿足二項分布條件,設(shè)取到白球的個數(shù)為X,則X的可能取值為[0,1,2,3.]
假設(shè)白球所占比例,即摸到白球的概率為p,則紅球所占比例,即摸到紅球的概率為[q=1-p.]
根據(jù)題目條件,可知參數(shù)[p]只能取[14]或[34.]
則[PX=k=Ck3pkq3-k,k=0,1,2,3.] 計算所得[X]取不同值時的概率如表1所示.
由表1可知,當[X=0]或[X=1]時,參數(shù)[p]為[14]的概率較大;當[X=2]或[X=3]時,參數(shù)[p]為[34]的概率較大,所以一個合理的估計為:[p=14,X=0,1,34,X=2,3.]
根據(jù)最大似然估計原理的思維基礎(chǔ),使得取值概率最大的參數(shù)就是真的參數(shù),即[p]就是p的最大似然估計.
題目2 (二項分布)如果某批產(chǎn)品中有a件次品、b件合格品,采用有放回抽樣的方式從中抽n件產(chǎn)品.
(1)恰好有k件產(chǎn)品是次品的概率是多少?
(2)若從n件產(chǎn)品中抽到k件次品,這批產(chǎn)品的次品率為多少?
解析:(1)由n重伯努利試驗?zāi)P涂芍捎诿看卧囼炄〉酱纹返母怕蕿閇aa+b,] 取到合格品的概率為[ba+b,]
則在取出的n件產(chǎn)品中恰好有k件是次品的概率[ak=Cknaa+bkba+bn-k.]
(2)此小題的求解要用到最大似然估計法,由于[ak]的系數(shù)[Ckn]對求似然函數(shù)最大值沒有影響,故不做考慮.
[ak]取對數(shù)以后的似然函數(shù)可以表示為[gp=klnp+][n-kln1-p,] 其中[p=aa+b.] 要注意,k作為已知量,[gp]只是關(guān)于p的函數(shù).
對函數(shù)[gp]求導,并令導數(shù)等于0,得
[dgpdp=kp-n-k1-p=0.]
通常把這個方程叫做似然方程,解得[p=kn.]
所以當[p=aa+b=kn]時,[ak]取到最大值.
故利用最大似然估計法,得到所求次品率為[kn.]
如果將題目2中“有放回”的條件變?yōu)椤安环呕亍保瑒t此問題就轉(zhuǎn)變?yōu)槌瑤缀畏植紗栴}.
題目3 (超幾何分布)如果某批產(chǎn)品中有a件次品、b件合格品,采用不放回抽樣的方式從中抽取n件產(chǎn)品.
(1)恰好有k件產(chǎn)品是次品的概率是多少?
(2)若從n件產(chǎn)品中抽到k件次品,這批產(chǎn)品的次品率為多少?
解析:(1)將從[a+b]件產(chǎn)品中取出n件產(chǎn)品的可能組合全體作為樣本點,總數(shù)為[Cna+b.]
其中,次品出現(xiàn)k次的可能為[CkaCn-kb.]
令[N=a+b,] 則所求概率為[hkN=CkaCn-kN-aCnN.]
(2)若沿用題目2的方法對[hkN]求導,計算量較大. 于是我們對相鄰兩項進行比較,
即[hkNhkN-1=CkaCn-kN-aCnNCkaCn-kN-1-aCnN-1=N2-aN-nN+anN2-aN-nN+kN.]
令[hkNhkN-1=λ,]
則當[an>kN]時,[λ>1;] 當[an<kN]時,[λ<1,]
即當[N<ank]時,[hkN]是關(guān)于[N]的增函數(shù);當[N>ank]時,[hkN]是關(guān)于[N]的減函數(shù).
所以當[N=ank]時,[hkN]達到最大值,故次品率為[aN=kn.]
仔細觀察就會發(fā)現(xiàn),當產(chǎn)品總數(shù)很大而抽樣數(shù)不大時,采用有放回抽樣與不放回抽樣對結(jié)果的影響并不大. 教材選擇性必修第三冊中的一道例題同樣說明了這一點:在一批總數(shù)為1 000件的產(chǎn)品中,有10件次品,分別采取有放回和不放回兩種方式抽取5件,依次計算兩種方式抽到[n n=0,1,2,3,4,5]件次品的概率. 計算后發(fā)現(xiàn),兩種取樣方式得到的概率差的絕對值均小于0.000 1. 從直觀角度理解,當產(chǎn)品數(shù)量很大時,不放回雖然會影響下次抽取的概率,但這個影響對產(chǎn)品數(shù)量結(jié)構(gòu)的影響很小,故可以忽略;從數(shù)學角度理解,[hk=CkaCn-kbCna+b=Akak! ? An-kbn-k!Ana+bn!=CknAkaAn-kbAna+b=Cknakbn-ka+bn ? Akaak ? An-kbbn-kAna+ba+bn,]當[k]比[a]小得多,[n-k]比b小得多時,有[Akaak ? An-kbbn-kAna+ba+bn≈1.] 此時我們可以得到[hk≈ak]. 所以即使在實際工作中采用不放回的抽樣方式,但只要產(chǎn)品數(shù)量很大而抽樣數(shù)量不大,我們也可以用二項分布作為超幾何分布的近似來減少計算量.
我們再來思考本文一開始提到的“估計魚池中總共有多少條魚”的問題. 在[N=ank]中,令[a=1 000,n=][200,k=10,] 就可以解得當[N=20 000]時,捕到200條魚中有10條帶標記的可能性最大,那么就可以估計出這個魚池總共有[20 000]條魚.
四、開拓視野辨異同
實際上,除了最大似然估計法之外,最小二乘法和貝葉斯估計法也是統(tǒng)計學中很常見的參數(shù)估計方法,下面我們就來看看這兩種方法與最大似然估計法的聯(lián)系與區(qū)別.
1. 最小二乘法
最小二乘法是高斯在研究誤差分析的過程中發(fā)明的一種方法,其思想在于從樣本數(shù)據(jù)中擬合出與真實值誤差的平方和最小的參數(shù). 既然在這個參數(shù)下誤差的平方和達到最小,那么也就有理由相信這個參數(shù)是真實的. 高斯通過這個方法巧妙追蹤到了消失的“谷神星”的位置. 這個方法究竟如何使用?讓我們通過教材選擇性必修第三冊中的簡單線性回歸的例子來詳細說明.
例 ?某小賣部6天賣出某熱飲的杯數(shù)與當天氣溫的對照如表2所示.
解析:通過畫散點圖,發(fā)現(xiàn)這些點基本在一條直線附近,則確定回歸直線方程為[y=a+bx.]
利用最小二乘法思想,可知[26,20, 18,24,][13,34, 10,38, 4,50, -1,64]為平面上的點,這些點的縱坐標與回歸直線上對應(yīng)點的縱坐標之差就是誤差.
將這些誤差的平方加起來,得誤差函數(shù)[Lyi,yxi=]
[i=1nyxi-yi2][=i=1na+bxi-yi2,] 其中[n=6.]
為了得到擬合效果最好的參數(shù)a和[b,] 就要使誤差函數(shù)取值最小,教材選擇性必修第三冊第85到第86頁的閱讀材料中給出了利用配方法求出參數(shù)[a]和[b]的過程.
[i=1nyi-bxi-a2=i=1nyi-y+y-bx+a-bxi-x2=][i=1nyi-y2+ny-bx+a2+b2i=1nxi-x2+2y-bx+a ·]
[i=1nyi-y-2by-bx+ai=1nxi-x-2bi=1nxi-xyi-y=]
[i=1nyi-y2+ny-bx+a2+b2i=1nxi-x2-2bi=1nxi-xyi-y=][i=1nyi-y2+ny-bx+a2+i=1nxi-x2b2-2bi=1nxi-xyi-yi=1nxi-x2=][i=1nyi-y2+ny-bx+a2+i=1nxi-x2b-i=1nxi-xyi-yi=1nxi-x22-][i=1nxi-xyi-y2i=1nxi-x2=ny-bx+a2+i=1nxi-x2b-i=1nxi-xyi-yi=1nxi-x22+]
[i=1nyi-y2-i=1nxi-xyi-y2i=1nxi-x2,] 其中[y=i=1nyin,x=i=1nxin.]
上式中,后兩項與[a]和[b]的值都無關(guān),而前兩項為非負數(shù). 因此,當且僅當前兩項的值都為0時,[i=1nyi-bxi-a2]取最小值,即有[a]和[b]的最小二乘估計為[b=i=1nxi-xyi-yi=1nxi-x2=i=1nxiyi-nxyi=1nxi2-nx2,a=y-bx.] 代入數(shù)據(jù),得[a≈57.59,b≈-1.65.] 則回歸直線方程為[y=57.59-1.65x].
利用最小二乘法可以在選定模型下取到一個最優(yōu)的參數(shù). 例如,上面的例題是從一次函數(shù)這個模型去擬合,得到一次函數(shù)中最優(yōu)的參數(shù)a和b. 若將[yx]換成指數(shù)函數(shù)[cedx]去擬合,同樣可以得到在指數(shù)函數(shù)中最優(yōu)的參數(shù)c和d. 而在利用最大似然估計法求參數(shù)的估計值時,則需要知道變量的概率分布情況. 值得一提的是,在一元回歸中,如果假定誤差服從正態(tài)分布,那么利用最大似然原理與最小二乘法求得的參數(shù)估計結(jié)果是一致的. 兩種方法沒有優(yōu)劣之分,只是從不同的角度確定最接近真實情況的參數(shù)的估計取值.
2. 貝葉斯估計法
前文曾提到,最大似然估計法是頻率學派的經(jīng)典方法. 頻率學派是現(xiàn)代統(tǒng)計學中主要的兩大學派之一,另外一個是貝葉斯學派,而貝葉斯估計法則是貝葉斯學派的經(jīng)典方法. 自20世紀數(shù)理統(tǒng)計大發(fā)展以來,頻率學派和貝葉斯學派經(jīng)常發(fā)生熱烈的爭論,而爭論的根本原因就是這兩大學派對概率本質(zhì)的認識不同:頻率學派認為概率是物質(zhì)世界的一種客觀屬性,并不因認知主體的不同而發(fā)生變化;貝葉斯學派則把概率看作對物質(zhì)世界的一種主觀認識,是認知主體對物質(zhì)世界信息量掌握多少的一種度量.
舉例說明,在晚上7:00—8:00 時間段,小明在房間內(nèi)玩游戲的可能性是60%,學習的可能性是40%. 在這個時間段內(nèi),小明媽媽推開小明房門,看到小明在玩游戲的概率是多少?對于這個問題,無論是在頻率學派思想下還是貝葉斯學派思想下,答案顯然都是0.6.
而如果小明媽媽事先在小明房間安裝了監(jiān)控,已經(jīng)知道推門后會看到小明在玩游戲,那她推門后看到小明在玩游戲的概率是多少呢?在頻率學派觀點下,因為小明是否在玩游戲的行為是一種客觀存在,而概率是描述這種客觀存在的屬性,所以無論認知主體是否能預(yù)知試驗結(jié)果,事件概率不變,也就是小明玩游戲的概率仍然為0.6;而在貝葉斯學派的觀點下,由于認知主體已經(jīng)得知了試驗的結(jié)果,所以小明玩游戲的概率就是1.
再換一種情況,如果小明媽媽沒有在小明房間安裝監(jiān)控,推門后發(fā)現(xiàn)小明在看手機,她立即從小明手里拿走手機,但是并沒有看手機界面,所以小明具體是用手機打游戲還是查學習資料并不確定. 在這種情況下,小明媽媽推門后發(fā)現(xiàn)小明在玩游戲的概率又是多少呢?依據(jù)頻率學派的思想,由于在小明媽媽拿到小明手機之后小明是否在玩游戲的行為已經(jīng)確定了,所以研究對象不再是一個隨機事件,也就是說小明在玩游戲的概率為1或0. 如果認為在頻率學派的思想下小明此時玩游戲的概率為0.6,則指的是此時小明媽媽手中的手機會自動按照一定的概率在游戲界面和學習資料界面切換. 而依據(jù)貝葉斯學派的思想,雖然小明是否在玩游戲的行為已經(jīng)確定,但是對于小明媽媽這個認知主體來說結(jié)果仍然是未知的,所以這個問題的概率就和此例最初情形下的概率是一樣的,即0.6.
這種對概率本質(zhì)認識的不同自然也在兩大學派下的經(jīng)典方法中體現(xiàn)出來. 在貝葉斯估計法中,一個重要的理論核心就是貝葉斯公式. 在教材選擇性必修第三冊中,貝葉斯公式的具體定義如下.
貝葉斯公式定義:設(shè)[Ω]為試驗E的樣本空間,A為E的事件,[B1,B2,…,Bn]為[Ω]的一個分割,且[PBi>0][i=1,2,…,n,] 則[PBiA=P(Bi)PABii=1nP(Bi)PABi.]
其中,[PBi]稱為先驗概率,它通常是根據(jù)已有的經(jīng)驗提前做出的假定;[P(BiA)]稱為后驗概率,反映的是在試驗結(jié)束后,結(jié)合之前做出的假定及試驗的結(jié)果得到的新認知.
貝葉斯公式想要闡述的是對某個想要知道的事件發(fā)生的可能性先做出一個假設(shè),然后根據(jù)試驗后得到的新信息修正之前的假設(shè),從而得到想要知道的事件發(fā)生的可能性的新認知. 其中體現(xiàn)出的貝葉斯學派的思想在于:由于想知道的事件發(fā)生的可能性在試驗結(jié)束后相對于認知主體來說仍然是未知的,所以依然可以將該事件當作隨機事件去計算概率,這也就是存在先驗概率和后驗概率的原因. 而頻率學派則認為,事件概率的大小在試驗結(jié)束后已經(jīng)確定,即研究的對象不再具有隨機性,也就不涉及概率問題.
這種區(qū)別具體到最大似然估計法和貝葉斯估計法中,就體現(xiàn)在對參數(shù)的理解. 參數(shù)表示的是事物的某種系統(tǒng)特征,在最大似然估計法中將參數(shù)當作一種固定的未知變量,而貝葉斯估計法則認為參數(shù)是隨機變量. 另外,由于最大似然估計法本質(zhì)上僅僅利用了樣本信息,而貝葉斯估計法將主觀先設(shè)定的先驗信息與樣本信息相結(jié)合,所以在樣本量足夠大時,最大似然估計法能夠得到較好的統(tǒng)計推斷結(jié)果;而當樣本量較小時,貝葉斯估計法的優(yōu)越性就體現(xiàn)了出來. 當然,因此貝葉斯估計法需要先假定一個先驗信息,所以常被頻率學派認為推斷過于主觀,結(jié)果缺少科學性. 或許有人會問,頻率學派和貝葉斯學派究竟哪一派的理論是正確的呢?最大似然估計法和貝葉斯估計法又是哪一種方法比較好呢?事實上,我們并不能簡單地用正確與否來判斷這兩大共同撐起現(xiàn)代統(tǒng)計學的學派,具體到其經(jīng)典方法當中也是如此,需要根據(jù)具體問題具體分析. 兩種估計方法各有優(yōu)、缺點,有時也會起著互補的作用,因此相比于判斷這兩種方法的優(yōu)劣而言,了解這兩種方法的適用條件和具體應(yīng)用方法是更加有意義的事情.
五、結(jié)束語
綜上所述,教材中一些看似可以用簡單的數(shù)學式子計算出來的統(tǒng)計問題背后,其實蘊含著深刻的統(tǒng)計方法與思想,如本文討論的最大似然估計思想. 數(shù)學既是一種文化、思想的體現(xiàn),更是現(xiàn)代理性文化的核心,是一種無形的客觀存在,教育的目的也不僅是學會知識,更是學習一種思維方式. 這就要求數(shù)學教師在教學中做到勤于思考、樂于鉆研、持續(xù)反思,提高自己的專業(yè)知識水平與專業(yè)素養(yǎng),盡可能拓寬自己的視野,培養(yǎng)自己的可持續(xù)性學習能力,尤其是在專業(yè)知識方面. 正所謂:教學相長,只有教師自身的專業(yè)水準不斷提高,才能做到將深刻的數(shù)學思想滲透到日常教學中,從而讓學生領(lǐng)略到數(shù)學不僅是簡單的公式計算,更有其豐富的思想內(nèi)涵,讓其感悟到數(shù)學之美,達到數(shù)學教學思想性、素養(yǎng)性、文化性的要求.
參考文獻:
[1]王云峰,陳衛(wèi)東. 統(tǒng)計學原理:理論與方法(第三版)[M]. 上海:復(fù)旦大學出版社,2017.
[2]魏宗舒. 概率論與數(shù)理統(tǒng)計教程[M]. 北京:高等教育出版社,2008.
[3]李賢平. 概率論基礎(chǔ)[M]. 北京:高等教育出版社,2010.
[4]范超. 概率是物質(zhì)屬性還是主觀認識:頻率學派與貝葉斯學派的區(qū)別[J]. 中國統(tǒng)計,2016(8):40-41.
[5]胡典順,邵貴明,姚曼. 數(shù)學文化的探索之旅:寫給中學生的數(shù)學文化入門書[M]. 武漢:湖北科學技術(shù)出版社,2019.
[6]褚蕾蕾,李換琴,張芳.“高等數(shù)學”教學與反思取向的教師專業(yè)發(fā)展[J]. 大學數(shù)學,2020,36(4):20-24.