文/劉子樺 馬若炎
自殺是一種全球性的現象。根據WHO提供的數據顯示,2012年,自殺死亡占全世界死亡總數的1.4%,在2012年的死因排序中居于第15位。
本文利用1985-2016年世界101個國家的自殺人數以及宏觀參數的數據集,考慮時間(年),人口,HDI指數,GDP指數以及其衍生變量對自殺率的影響,并且對數據進行相關性分析,探究單個因素與總自殺率的線性相關性。最后利用多元線性回歸與隨機森林進行預測模型的生成。
本論文主要采用皮爾森相關系數逐個分析單一變量對最后因變量(自殺率)之間的相關程度。相關計算方式如下:估算樣本的協方差和標準差,可得到樣本皮爾遜系數,常用英文小寫字母r代表:

r 亦可由(Xi,Yi)樣本點的標準分數均值估計,得到與上式等價的表達式:

2.2.1 自殺率與人口增長速度以及年齡分布之間的關系
選取101個不同國家人口的增長速度為自變量,自殺率為因變量。由計算可知,在全球的范圍內,自殺率與人口增加率之間成線性關系的擬合系數為0.0185。Kendall與Spearmans以及Pearsonr相關系數的值分別為0.131,0.217,0.135。說明二者整體上成正相關,即人口增長速率增加會導致自殺率的增加,但是這種相關關系十分微弱。

圖1:隨機森林與多元線性回歸比較
在探究年齡分布情況時,選取年齡分布為自變量,自殺率為因變量。為了能夠更好的表示一個國家的年齡分布,將5-14歲,15-24歲,25-34歲,35-54歲,55-74歲,74歲以上等不同年齡段分別賦予1-6的加權分數并且進行加權平均獲得一個總分。利用Sklearn對1985-2015年之間全球的年齡組成與自殺率之間的進行線性擬合。根據相關性分析可知,在全球的范圍內,自殺率與年齡組成之間成弱中等線性關系,擬合系數R^2為0.0928。Kendall與Spearmans以及Pearsonr相關系數的值分別為-0.242,-0.206,-0.305。說明二者整體上成負相關,即年齡組成增加(老齡化)會導致自殺率的減少。
2.2.2 自殺率與性別組成之間的關系以及國家人類發展指數(HDI)之間的關系
選取男女性別比例為自變量,自殺率為因變量。由線性擬合可知,在全球的范圍內,自殺率與年齡組成之間成強線性關系,擬合系數為0.55261。Kendall與Spearmans以及Pearsonr相關系數的值分別為0.540,0.742,0.743。說明二者整體上成強正相關關系,即性別比例的增大會大概率導致自殺率的增大。十分具有參考性,對人口政策具有指導意義。
HDI指數是聯合國1990開發計劃署創立了人類發展指數,以“預期壽命、教育水平和生活質量”三項基礎變量,按照一定的計算方法,衡量各個國家人類發展水平。本文選取不同國家HDI指數為自變量,自殺率為因變量。根據計算顯示,在全球的范圍內,自殺率與年齡組成之間成弱線性關系,擬合系數為0.578。Kendall與Spearmans以及Pearsonr相關系數的值分別為0.215、0.333、0.241。說明二者整體上成正相關,即性別比例的增大會導致自殺率的增大,但是這種相關關系較弱。
2.2.3 自殺率與人均GDP之間的關系
選取不同國家人均GDP為自變量,自殺率為因變量。由計算得知,在全球的范圍內,自殺率與人均GDP之間成相關關系的概率很低。擬合函數為0.021,Kendall與Spearmans以及Pearsonr相關系數的值分別為0.161,0.224,0.145,說明二者整體上成正相關,但是這種關系很弱,幾乎可以視為不相關。
對于多元線性回歸,我們應該考慮每個特征值xj與其權重w乘積之和:
并且使用梯度下降算法,不斷縮小損失函數:

計算當L(f)最小時候,對應的w與b的值:

在具體實施中,選取在本文中提到的人口增長率、性別比例、年齡組成、以及人均GDP四個相對獨立的因素,進行歸一化操作,然后合并作為特征向量構成因變量,目標變量為自殺率,生成4維向量進行多元線性回歸。整個數據被分為90%的訓練集以及10%的測試集。得到的多元線性回歸擬合的擬合方程如下:

利用此方程對訓練集數據與測試集數據進行線性擬合,結果顯示訓練集上均方差為0.678,測試集為0.596。
隨機森林是利用多棵樹對樣本進行訓練并預測的一種分類器。在本文中,使用50個決策樹(Decison Tree)進行概率分類,進行投票程序,最終得到了誤差更小,使用度更高的機器學習預測模型。利用隨機森林生成的預測模型在訓練集上的誤差為0.606,在測試集上的誤差較為理想,達到了0.098,是比較好的預測模型。如圖1所示。
本文通過開放數據集,利用Python Pandas以及scikit-learn進行數據探索與分析,探究了國家宏觀因素與自殺率之間的相關系數。并且建立多元回歸模型、隨機森林預測模型,其中隨機森林預測的殘差僅為0.0980,起到了很好的自殺率預測效果。