朋文佳,朱玉,賈賢杰,羋靜
科學研究的一個重要目的是評估結局變量與解釋變量之間的數量依存關系,回歸分析是達到該研究目的重要統計學分析方法。回歸分析存在著重要價值,其一描述結局變量與解釋變量之間的數量依存關系;其二通過解釋變量預測結局變量;其三比較眾多解釋變量對結局變量影響大小[1]。現實世界中,結局變量與解釋變量的數量依存關系錯綜復雜,為了更好地反映數量依存關系,回歸分析理論在逐步完善,形成了參數回歸分析和非參數回歸分析[2]。在教學中發現學生對參數回歸和非參數回歸的理解和應用存在困難,本文以科研案例為基礎,將參數回歸分析和非參數回歸分析的關鍵理論進行總結和辨析,并用R語言實現分析。
1992-1996年期間,美國開展了一項“脊柱骨密度”科學研究[3],本文從該研究中截取了部分女性數據,見表1。數據集包含423位調查對象,3個變量。其中,變量id為調查對象編號;變量y是調查對象的脊柱骨密度含量,為結局變量;變量x是調查對象的年齡,為解釋變量。本案例欲研究年齡對脊柱骨密度含量有無影響?如果存在影響,影響形式是什么?

表1 脊柱骨密度研究數據
2.1 參數回歸簡介 因為脊柱骨密度含量是連續型定量變量,則解釋變量年齡(x)與結局變量脊柱骨密度(y)之間的潛在趨勢用參數回歸形式描述為:
yi=f(xi) +εi,E(yi|xi)=f(xi)=β0+β1xi,E(εi)=0
其中函數f(xi) =β0+β1xi形式固定,β0和β1為待估計的未知參數,εi為隨機誤差,i=1,2,L,n為個體編號。……