999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

回歸分析的內涵與教學探究

2021-09-11 10:17:22湯向明
數學通報 2021年7期
關鍵詞:探究模型

湯向明 金 蛟

(1.泉州市教育科學研究所 362000;2. 北京師范大學統計學院 100875)

現實生活中,很多變量間存在著一定的關系,描述變量間關系的線性回歸模型有著廣泛的應用.現行高中教材中包含有相關和線性回歸的內容,本文以案例教學的方式分析回歸的內涵并對關鍵問題進行探究,供高中教師教學參考.

1 相關

案例1 身高和臂展

根據直觀經驗,我們普遍認識到,人的身高和臂展相近.我們收集1024名同學的身高和臂展數據(不同群體身高和臂展數據特點不盡相同,本文采用模擬數據,各授課教師可收集教學班級的數據,提升學生參與度和授課效果),部分數據如表1所示.

表1

從數據中能看出身高和臂展確實非常接近.但我們也會遇到如下情形:某籃球運動員身高226cm,但臂展只有220cm.又比如《三國演義》小說中描寫的人物劉備,身高7尺5寸,雙耳垂肩,雙臂過膝. 身高7尺5寸相當于現在的173cm,劉備的臂展相對于他的身高遠遠偏長.

如果身高、臂展數據的散點圖中所有點(為了直觀,取20點展示)在一條線上(圖1左),這就是數學上確定的函數關系.而實際收集數據(為了直觀,取20名同學)繪制的散點圖如圖1右,這些點不嚴格在線上,而是在線附近,這種變量間有影響,又沒達到確定程度的關系就是統計上的相關關系.

圖1

相關關系的度量方式有多種,英國生物學家、統計學家Pearson定義了線性相關系數:

模擬具有不同相關系數的數據繪制散點圖如圖2:

圖2

由相關系數定義和圖2可見,相關系數的取值范圍在-1到1之間.相關系數為負時,隨著一個變量的增加,另一變量有著相反的降低趨勢;相關系數為正時,兩個變量之間有著同增同減的相同趨勢;相關系數為0時,兩個變量間沒有線性關系;隨著相關系數絕對值的增加,兩個變量間的相關關系增強,如果等于1,就嚴格在一條線上.

探究1 相關與線性相關

兩個變量間相關關系的度量方式除了Pearson線性相關系數,還有Spearman秩相關系數、Kendall等級相關系數等(可作為延伸探討).取數據如表2,變量x和y的Pearson線性相關系數為0.928,而x和y的Spearman秩相關系數和Kendall等級相關系數都為1.可見,常用的Pearson線性相關系數r僅度量兩個變量的線性相關程度.

表2

2 回歸

案例1續

將數據繪成散點圖(如圖3),看出身高和臂展很接近,計算得相關系數為0.94,說明二者的相關關系非常強.學生們都經歷過入學體檢,所以學生一般都知道自己的身高、體重的最新數據,但知道自己的臂展是多少嗎?

假定學生們的身高、臂展數據規律和案例1的數據一致,我們提出問題:已經知道學生的身高,能否估計出其臂展?進一步明確問題:假如學生的身高為180cm,我們可否基于數據提供的趨勢信息,估計出臂展.這就引出回歸.

圖3

回歸方法應用非常廣泛,例如可通過容易測量的樹的胸徑估計不容易測量的樹的高度;通過容易測量的氣壓估計不容易測量的海拔高度等等.

要講兩個變量的回歸,先回顧單個變量的分析方法.比如要研究某學校的全體同學身高的分布規律,我們抽取部分同學的身高數據(案例1的身高)作為樣本,繪制了直方圖、箱線圖,即使推測數據可能來自的總體分布其密度函數有著單峰、對稱、鐘型曲線特點,但仍無法確定其分布是否為正態分布(因還有其他對稱分布,例如t分布等).也就是說嚴格確定分布是困難的,我們退而求其次,考慮期望、方差等數字特征來描述總體分布特征.

圖4

處理兩個變量的相關關系,可以用回歸分析方法.

案例2 父子身高數據

英國科學家高爾頓研究遺傳差異時,收集了1078對成年父子身高的數據,這個研究非常經典,是回歸分析的起源.

圖5

圖5左圖橫坐標為父親身高,縱坐標為兒子身高.注意到身高是72英寸時,相當于183cm的父代,他們的子代身高是有變化的一些數據.同樣,身高是64英寸,相當于163cm的父代,他們的子代身高也是一些不同的數據.之所以是帶狀區域,是因為有四舍五入的影響.所以兩變量的研究就聚焦到給定一個變量后,另一個變量的條件分布(如父親身高為72英寸的子代的身高分布)問題,與一維數據分析類似:分布難以確定,就研究期望、方差等數字特征;條件分布同樣難以確定,我們就退而求其次,研究條件期望和條件方差這些數字特征.

圖5右上圖可以幫助理解回歸模型,坐標橫軸為父親身高,縱坐標為兒子身高,當父代身高為72英寸時,子代的條件分布有單峰對稱輪廓線,同樣當父代身高為64英寸時,子代的條件分布有單峰對稱輪廓線.回歸模型假定:條件期望(不同輪廓線的對稱中心)是x的線性函數,就是條件期望成線性.不同輪廓線的形狀相同,與x取值無關,就是條件方差等方差.圖5右下圖展示了不等方差情形,即異方差回歸模型(可作為回歸分析深入學習的延伸探討).一般講解的回歸模型可按圖5右上圖理解.

下面給出回歸模型的總體形式:

·均值函數:E(Y|X=x)=β0+β1x.

·方差函數:Var(Y|X=x)=σ2.

就是條件期望成線性,條件方差等方差.待估參數為回歸參數β0和β1,及誤差方差σ2.

更為大家熟悉的是回歸模型的樣本形式:

xi,yi為第i個觀測數據,β0+β1xi為回歸直線,數據點不嚴格在線上,這個擾動用模型誤差ei來表達,模型的具體限定條件分別為誤差項期望為0、等方差、不相關,也就是有名的高斯-馬爾可夫條件.

探究2 回歸名稱的由來

這個模型為什么叫回歸模型呢?英國科學家高爾頓研究遺傳問題時收集了1078對成年父子身高數據,分析發現:平均意義下,身高偏高的父親,兒子的身高也偏高,但沒有父親那么高.同樣,平均意義下,身高偏低的父親,兒子的身高也偏低,但沒有父親那么低.

圖6 圖片來自文獻[2]

通過圖片展示能得到什么結論嗎?高爾頓得出結論:子代的身高有向族群平均身高“回歸”的趨勢.他把分析方法稱為回歸分析方法,回歸這個詞就一直沿用至今了.

3 估計

我們主要關注回歸參數β0和β1的估計問題.目前手中掌握了數據,假定了回歸模型.β0和β1取不同的估計值,就是擬合了不同的直線,如何選擇估計值,等價于如何選擇最優的擬合直線.

我們給出直觀解釋:為展示方便,忽略掉橫縱坐標的實際含義,繪制了散點圖如圖7.

圖7

參數估計問題直觀上看就是最優擬合直線的選擇問題, 圖7繪制了兩條直線,一條實線,一條虛線,哪一條的擬合效果更好?大部分學生會覺得實線更好,因為視覺上我們會主觀判斷這條線更好地擬合了數據點,也就是所有這些點和這條線更接近.那么引出一個問題:如何度量點到線的接近程度?

把直線記作y=β0+β1xi,先描述一個點到線的接近程度,這點橫坐標取為xi縱坐標為yi,在直線上選擇xi對應的點,縱坐標為β0+β1xi,二者之間的差異,稱作殘差,記為ri.如果這個點在直線的下方,那么殘差符號為負.

圖8

圖9

定義了回歸模型并給出直觀理解后,我們可以給出參數的最小二乘估計方法,殘差平方和可以具體寫為參數β0和β1的函數:

使得殘差平方和達到最小值的自變量的取值就是參數的最小二乘估計.

明確了估計方法,那么最小二乘的具體表達就容易得到.本質上就是一個優化問題,具體而言,就是求函數的極值點.結果為:

其中

探究3 為什么是最小二乘

需要說明的是回歸分析中參數估計方法有多種,最小二乘法只是我們介紹的一種常用估計方法.

探究4 為什么是縱向的差異

圖10

對于點(xi,yi),在直線上選擇xi對應的點,縱坐標為β0+β1xi,二者之間的差異,稱作殘差,記為:

ri=yi-β0-β1xi.

為什么不是如圖10所示的點到直線的垂直距離?這是因為回歸模型假定解釋變量x是精確值,沒有測量誤差.

如果有測量誤差存在,可以采用測量誤差模型:

這時觀測數據為(wi,yi),可基于垂直距離,使用正交回歸方法.這可作為回歸分析深入學習的延伸探討.

4 預測

最后再回到案例1的問題,使用計算機軟件(如Excel等,本文使用R語言)得到回歸參數的估計值.進一步可以得到擬合的回歸直線,這里我們稱為經驗回歸方程.它就是圖11的散點圖中的直線,它描述了數據的線性趨勢.

圖11

5 效果

如何衡量回歸模型的擬合效果?殘差平方和是個不錯的選擇,殘差平方和越小表明回歸直線和所有點越接近,擬合效果越好.但殘差平方和與數據的單位有關,比如把身高數據的單位由厘米改為米,那同樣的數據,殘差平方和就會縮小10000倍.人們常用另外一種指標:

探究5 解釋變量和響應變量互換會怎樣

模型中的x稱作解釋變量,或自變量;y稱作響應變量,或因變量.解釋變量和響應變量互換后使用最小二乘法得到的結果不同,即兩個經驗回歸方程不同.這是因為最小二乘法假定解釋變量沒有測量誤差,只考慮響應變量(因變量)方向的殘差變化.

另需說明,回歸分析雖然是處理變量間的相關關系的一種統計方法,但在實際使用中,常常考慮解釋變量對響應變量一定意義下的影響作用(所以解釋變量也稱作自變量、響應變量也稱作因變量).在應用回歸模型進行實際數據分析時,哪些變量作為解釋變量,什么變量作為響應變量,是需要結合專業知識謹慎選擇的.

6 總結

本文結合案例,旨在為中學師生教授、學習回歸分析提供幫助,最后給出本文總結:一個變量:推分布,過猶不及.對單變量的分析,我們想知道它的統計分布,但精確分布難以確定,就退而研究期望、方差.兩個變量:用回歸,中庸之道.處理兩個變量的相關關系,我們想知道它的條件分布,同樣關注數字特征,具體描述為條件期望成線性,條件方差等方差,就是線性回歸模型.最小二乘:做擬合,眾志成城.我們給出參數的最小二乘估計方法,是使得所有點的殘差平方和最小的參數取值.統計結論:看效果,衡短論長.參數估計還有最小一乘等其他參數估計方法,同樣的數據,采用不同方法,會得到不同的結論,我們要制定標準,比較擬合效果,最終找到更好的統計方法.

另外還有一些探究問題,如為什么采用條件期望?為什么不考慮條件中位數或其他條件分位數?什么是線性?等等,可留待高等教育階段學習時深入探究.

猜你喜歡
探究模型
一半模型
一道探究題的解法及應用
一道IMO預選題的探究
中等數學(2021年11期)2021-02-12 05:11:46
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
探究下神峪村“由亂到治”之路
今日農業(2019年14期)2019-09-18 01:21:42
探究式學習在國外
快樂語文(2018年13期)2018-06-11 01:18:16
一道IMO預選題的探究及思考
中等數學(2018年11期)2018-02-16 07:47:42
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国国产a国产片免费麻豆| 精品国产一区二区三区在线观看| 欧美啪啪精品| 97青青青国产在线播放| 99re经典视频在线| 精品国产自在在线在线观看| 特级aaaaaaaaa毛片免费视频| 欧美午夜在线播放| 99热这里只有精品国产99| 欧日韩在线不卡视频| 国产在线麻豆波多野结衣| 精品剧情v国产在线观看| 欧美成一级| 高清不卡毛片| 亚洲综合精品香蕉久久网| 国产欧美在线观看精品一区污| 国产成年女人特黄特色毛片免| 亚洲欧美激情另类| 成人免费午夜视频| a毛片在线播放| 亚洲成人精品久久| 国产精品成人一区二区| 日韩一级毛一欧美一国产| 精品国产99久久| 一本大道无码高清| 在线观看91香蕉国产免费| 青草视频在线观看国产| 久草中文网| 欧美精品v| 国产亚洲高清视频| 六月婷婷精品视频在线观看 | 久久国产精品电影| 一区二区三区四区日韩| 中国毛片网| 毛片久久久| 丝袜美女被出水视频一区| 国产福利影院在线观看| 国产人碰人摸人爱免费视频| 亚洲天堂在线免费| 国产精品林美惠子在线播放| 热思思久久免费视频| 亚洲成在人线av品善网好看| 国产欧美在线观看精品一区污| 无码一区二区三区视频在线播放| 欧美一区二区自偷自拍视频| 国产精品免费p区| 国产午夜无码专区喷水| 亚洲天堂色色人体| 欧美日韩一区二区在线播放 | 国产乱子伦视频三区| 久久精品视频亚洲| 亚洲日韩精品综合在线一区二区| 国产在线八区| 青青热久麻豆精品视频在线观看| 成人午夜免费观看| 日韩中文精品亚洲第三区| 亚洲精品不卡午夜精品| 亚洲自偷自拍另类小说| 亚洲成人黄色在线| 99er精品视频| 精品一区二区三区自慰喷水| 97青草最新免费精品视频| 久久免费视频6| 91精品人妻互换| 国产精品亚洲一区二区三区在线观看| 免费国产高清精品一区在线| 国产人碰人摸人爱免费视频| 亚洲中文久久精品无玛| 中日韩一区二区三区中文免费视频| 99视频精品在线观看| 久久久久久久蜜桃| 国产av无码日韩av无码网站| 国产一区二区免费播放| 亚洲床戏一区| 毛片久久网站小视频| 先锋资源久久| 精品久久国产综合精麻豆| 91综合色区亚洲熟妇p| 在线网站18禁| 亚洲欧美不卡| 久热99这里只有精品视频6| 久久精品91麻豆|