鄧多杰 張崢



摘? ?要:為研究薪酬水平的影響因素以及與這些因素之間是否存在線性關系,以R語言中自帶數據集wgge1為例,借助R語言提供的豐富高效的統計模型處理方法,對wage1數據集中薪酬與教育水平、工作經驗以及婚姻狀況等因素進行分析,建立影響薪酬水平的回歸模型。基于此,在指出模型分析中不足的同時,也提出了幾點現實的參考意見。
關鍵詞:薪酬水平;R語言;回歸分析
中圖分類號:F069;C936? ? 文獻標志碼:A? ? 文章編號:1673-291X(2021)23-0057-03
引言
薪酬是組織優化人力資源的有效杠桿,理論界目前對薪酬結構與其影響因素的實證研究也還存在很大空間。同時,隨著大數據的興起,作為由統計學教授Ross·Ihaka 和Robert·Gentleman開發的用于統計分析、繪圖的語言和操作環境的一種軟件,R語言迅速成為一種熱門的數據分析工具。因其具有強大的數據處理能力和持續擴展能力,處理統計和測量問題的方法也越來越豐富,覆蓋范圍也越來越廣[1],所以我們以R語言中自帶數據集wgge1為例,在認真查閱和分析資料的前提下,利用R語言這一軟件,分析wooldridge包中的wage1數據集中的數據分布情況。
一、數據集描述性分析及數據說明
wage1數據集是由著名的經濟學家杰弗里·伍德里奇和亨利·法伯爾在就讀于麻省理工學院時,從1976年美國人口現狀調查中所收集的關于勞動力薪酬情況。
(一)數據集描述性分析
wage1數據集中包含526行和24列。也就是說,該數據集是對樣本為n=526人所作出的24項調查,wage1數據集中共含有24個變量。
(二)數據說明與變量處理
結合研究主題和相關文獻的研究,擬采用的變量包括薪酬、教育水平、工作經驗、婚姻狀況、家屬人數及居住區域等。變量具體設定如表1。
二、R語言環境下回歸模型的建立與分析
對于薪酬水平與其影響因素的關系,已有許多學者做出了相關研究。葉勤等人對企業的薪酬環境、組織環境和員工具體所從事工作的性質對員工薪酬水平的影響進行了研究,認為環境因素與薪酬水平和滿意度之間有顯著相關關系[2]。Lawler 和 Edward認為,總體報酬以員工需求為導向的本質,突出了企業利益與個人利益協調、共贏的思想,對員工工作積極性、離職率和其他關鍵行為發揮著積極的影響[3]。基于此,在wage1數據集中,為了更加細致清楚地描述薪酬與所選變量之間的關系,我們建立薪酬與研究變量之間的回歸方程。
(一)建立簡單線性回歸模型
利用wooldridge包中的wage1中n=526 個人的數據,估計薪酬與教育水平之間是否存在線性關系,建立如下的回歸模型1,即總體回歸方程為:
W=β0+β1educ+εi(1)
同時建立半對數的回歸模型2,其回歸方程為:
ln(W)=β0+β1educ+εi(2)
模型1、2中,W代表每小時薪酬水平,β0和β1是回歸系數,εi是誤差項,是其他一切不確定因素的總和。我們用參數為formula模型公式,函數lm會估計回歸系數β0和β1,分別用Intercept和x表示,可得模型中回歸方程的參數水平和判決系數(見表2、表3)。在此數據的基礎之上,進一步分析所做回歸模型的合理性,并對模型回歸結果進行分析。
顯然,調整之后模型2中的判決系數Multiple R-squared為0.185 8,其值并不接近于1,回歸結果也是不理想的;但同時,p-value=2.2e-16,與模型1相比沒有變化。我們無法判斷哪個模型更好,因此,影響薪酬的因素不只是有教育水平,可能還有其他方面的,比如工作經驗、婚姻狀況等。為了更好解釋影響薪酬的因素,我們就必須用到多元回歸模型。
(二)建立多元線性回歸模型
在數據集wage1中,我們建立wage與educ、exper以及married之間的多元線性回歸模型3,其回歸方程為:
W=β0+β1educ+β2exper+β3married+εi(3)
同時,在模型3的基礎之上建立模型4,其多元線性回歸方程為:
log(W)=β0+β1educ+β2exper+β3married+εi(4)
從回歸結果來看,模型3、模型4擬合的效果相對于模型1、模型2的效果還是不錯的。常數項以及educ、exper的預測效果較為顯著,married的預測能力較好。同時,如表5所示,模型3的判決系數為0.240 1,模型4的判決系數為0.275 8,與模型1中相比較大,回歸系數也是較為顯著的,但仍偏離1較遠。我們用AIC函數來判斷4種模型哪一個的擬合效果更好,見表6。
綜合以上四種模型,對簡單回歸模型而言,我們只能說模型2比模型1 的擬合效果好,但不能說模型2中薪酬與教育水平具有顯著的共線性關系。同樣,對多元回歸模型而言,也不能得出薪酬與教育水平、工作年限或者婚否這些因數之間存在明顯的線性關系。因此,我們預測,薪酬是由多方面因素影響的,若將教育水平、工作經驗、當前工作任期、婚否、家屬人數、居住區域等因素都考慮起來,其回歸方程的擬合效果會更好,可解釋性會更大。