劉鵬 蔣澤坤






一、引言
本文是基于墨西哥、秘魯和哥倫比亞等國的飲食習慣和身體狀況生活習慣等數據進行的實證分析,在諸多方法的比較之下,最小二乘法仍是最為簡單有效的估計方法。本文利用最小二乘法計算出相應的條件期望函數,得到關于經常食用的高熱量食物對于體重影響的因果效應。在條件期望函數是線性的情況下,那么總體回歸函數和條件期望函數將完全一致。我們所要估計的因果效應參數便是總體回歸函數的系數。
二、估計方法和研究思路
我們假設的條件為:經常攝入高熱量食物和身高(HEIGHT)以及主餐次數(NCP)對于體重的影響是線性的。故我們將模型(1)假定為:
模型(1)正確的描述了被解釋變量體重、解釋變量經常攝入高熱量食物、身高、主餐次數和干擾項e之間的關系。由于因果效應參數就是用條件期望函數來定義的,在條件期望函數是線性的情況下,那么總體回歸函數和條件期望函數將完全一致。因此我們所要估計的因果效應參數便是總體回歸函數的系數。
模型(1)在估計經常食用高熱量食物對體重影響的因果效應上可能會存在偏差,所以我們又在模型(1)的基礎之上添加了模型(2)和模型(3)。控制變量的引入,能夠消除混雜偏差。模型(2)則是在模型(1)的基礎之上添加性別變量(GENDER)作為控制變量,我們男性設置為1,女性設置為0。而模型(3)則是在模型(2)的基礎之上在添加了家族肥胖史(FAM)作為一個控制變量,設置同上。對于控制變量,我們引入的目的就是為了保證原因變量的系數有因果效應的解釋。
三、數據來源和描述
本文的這些數據來自UCI機器學習庫,該數據集包括墨西哥、秘魯和哥倫比亞等國的飲食習慣和身體狀況和生活習慣等數據。表1是本文數據中各變量的描述性統計。
由表1可知,三個國家的人均體重為86.69kg,有88%的人經常食用高熱量食物。從經常食用高熱量食物人群和不經常食用高熱量食物人群對比分析中可以得出經常食用高熱量食物人群的平均體重要比不經常食用高熱量食物人群平均體重重22.27kg。
四、回歸結果分析
1.本文采用最小二乘法(OLS)對模型(1)進行估計,具體的回歸結果如下圖所示
由回歸結果可知,在模型(1)滿足了條件獨立性假設的條件的情況下,是否經常食用高熱量食物對體重的影響的估計中,經常食用高熱量食物的人群要比不經常食用高熱量食物的人群體重要重16.04kg。
2.同樣采用最小二乘法對模型(2)進行估計。回歸結果如下圖所示。
由回歸結果可知,加入了性別作為控制變量后,經常食用高熱量食物的人群要比不經常食用高熱量食物的人群體重要重15.24kg。
3.同樣采用最小二乘法對模型(3)進行估計。回歸結果如下圖所示。
由回歸結果可知,加入了家族肥胖史作為控制變量后經常食用高熱量食物的人群要比不經常食用高熱量食物的人群體重要重10.1kg。
五、結論
本文是先假設體重與身高、是否經常食用高熱量食物和主餐次數之間的關系是線性的,然后構建了一個線性方程,并在方程中加入控制變量,在加入了性別作控制變量之后又加入了家族肥胖史作控制變量。經過本文三個模型的研究發現,經常食用高熱量食物對體重的影響有著顯著的因果效應。經常食用高熱量食物人群的平均體重要顯著高于不經常食用高熱量食物的人群的平均體重。
在本文的研究中可以發現,高熱量食物的攝入和體重有顯著的因果關系,所以減少高熱量食物的攝入是控制肥胖問題的一個關鍵途徑。
參考文獻
[1]王紹云. 高蛋白早餐對攝入量、食欲及體重的影響研究[D].中國人民解放軍醫學院,2014.
[2]謝元娟. 線性因果關系建模方法演進及其應用研究[D].山東財經大學,2017.
作者簡介
劉鵬(1995-),男,江西贛州人,碩士研究生,主要研究方向大數據分析。