裘晨璐 季君 許卉瑩 道路交通安全公安部重點實驗室 公安部交通管理科學研究所
道路交通事故回歸分析與預測
裘晨璐 季君 許卉瑩 道路交通安全公安部重點實驗室 公安部交通管理科學研究所
根據多元線性回歸分析基本原理,以道路交通事故數據為研究基礎,結合城市GDP、人口數、汽車保有量、城市道路長度、公路客運量、公路貨運量六項影響因素,采取逐步進入策略,建立道路交通事故次數多元線性回歸分析數學模型;結合顯著性檢驗原理,給出了各因素導致道路交通事故發生的顯著性作用評估方法,為合理有效地進行道路交通事故分析和預測提供了科學依據。
多元線性回歸 事故預測
一直以來,中國是世界上交通事故死亡人數最多的國家之一,每年都由此造成大量的人員傷亡和巨大的財產損失。為了有效控制和減少我國道路交通事故的發生,保障道路交通安全,開展一系列的交通安全方面的統計分析研究十分必要。其中基于回歸分析的預測技術開展對區域安全狀況分析及發展趨勢預測的研究就是道路安全研究的重要方面[1-3]。本文采用多元線性回歸方法,開展對影響道路交通安全趨勢的相關因素分析,包括國民生產總值(GDP)、人口總數、汽車保有量、城市道路長度、公路客運量和公路貨運量等,找出其主要影響因素及其關聯性,建立交通事故預測回歸模型,實現對區域內交通安全狀況分析并預測其未來的發展趨勢,從而為有針對性地、科學有效地制定合理的交通安全對策提供科學依據,這對于制定交通安全管理目標、提高交通安全管理水平具有十分重要的意義。本文還提出了對模型進行回歸方程的顯著性檢驗和回歸系數的顯著性檢驗方法。
道路交通是一個涉及到多因素的復雜系統,一般與當地的經濟發展水平、客觀環境及人類社會活動有密切關系。交通事故雖然具有隨機特性,但從統計的角度看,一個地區在較長時域內發生的交通事故又具有一定的規律性,因此可以運用數理統計方法對交通事故總體狀況進行研究,分析其發展趨勢及規律,科學地對道路交通事故進行預測。道路交通事故預測是通過對交通事故的過去和現在狀態的系統探討,并考慮其相關因素的變化所做出的對交通事故未來狀態的描述過程。預測方法有多種,本文選擇回歸分析預測法[4]來進行預測分析。
回歸分析是確定兩種或兩種以上變量間相互依賴定量關系的一種統計分析方法。在回歸分析中,把變量分為兩類,一類是因變量,代表實際問題中所關心的一些指標,通常Y用來表示;而影響因變量取值的另一類變量稱為自變量,用X1,X2,…Xp來表示。當研究的因果關系只涉及因變量和一個自變量時,叫做一元回歸分析;當研究的因果關系涉及因變量和兩個或兩個以上自變量時,叫做多元回歸分析。此外,回歸分析中,又依據描述自變量與因變量之間因果關系的函數表達式是線性還是非線性,分為線性回歸分析和非線性回歸分析。通常線性回歸分析法是最基本的分析方法,遇到非線性回歸問題可以通過變量變換,將非線性回歸化為線性回歸,然后用線性回歸方法處理[4]?;貧w分析的一般步驟如下:
1. 收集資料:通過調查分析,確定待研究變量可能的相關因素,并收集和處理這些因素的相關統計資料;
2. 相關性分析:對待研究目標和其影響因素作定性分析,確定是否存在相關關系;
3. 建立回歸模型:選取相關度高的因素作為自變量建立回歸分析模型,根據最小二乘法估計參數,求出回歸方程;
4. 檢驗模型:在運用回歸方程進行預測之前,對回歸方程和回歸系數進行顯著性檢驗;
5. 利用模型進行預測:利用模型進行預測,并討論預測結果的置信度。
自變量為多個的線性回歸稱之為多元線性回歸。設變量Y與變量X1,X2,…Xp間有線性關系,則多元線性回歸方程式為[4],

其中,β0是截距項,βj(j=1,2,…,p)為回歸系數,p是自變量的個數,ε代表誤差項。在有些應用情況下,模型假設截距項β0為零。
設(xi,1,xi,2,…,xi,p,yi),i=1,2,…,n,是(X1,X2,…,Xp,Y)的次獨立觀測值,令

則多元線性模型可表示為矩陣形式Y=Xβ+ε 。其中,β是未知的回歸系數向量。最小二乘法通過最小化誤差平方和Q(β)=(Y-Xβ)T(Y-Xβ)來求回歸系數β的估計值。其他常見的估計方法有最大似然估計和矩估計??梢宰C明,回歸系數β的最小二乘估計為從而可得經驗回歸方程和殘差向量
擬合優度是指所建立的回歸模型對于數據來說,自變量能夠解釋因變量的程度。令yi代表yi的估計值,。模型的可決系數為模型的可決系數是一個取值范圍在0和1之間的非負統計量??蓻Q系數越大,說明模型的擬合優度越好。在多元回歸分析中,調整可決系數剔出了自變量個數對擬合優度的影響,作為綜合度量模型對觀測值擬合優度的指標,可以有效地防止過擬合。
顯著性檢驗有兩種,一種是回歸方程的顯著性檢驗;另一種是回歸系數的顯著性檢驗。
回歸方程的顯著性檢驗,即檢驗整個回歸方程的顯著性,或者說評價所有自變量與因變量的線性關系是否密切,一般用F檢驗法。對于給定的顯著性水平α,假設成立時,模型的F統計量服從自由度為(p,n-p-1)的F分布,記為
回歸系數的顯著性檢驗,即檢驗回歸模型中各個自變量是否具有顯著性,一般用t檢驗法。給定顯著性水平α,對于每一個回歸系數βj,模型的t統計量服從自由度為n-p-1的t分布,記為。如果t大于臨界值則認為α在水平下回歸系數βj顯著不為零,即自變量Xi對因變量的線性影響顯著。
當多元線性回歸方程經過檢驗是顯著的,且其中每一個系數均顯著時,可用此方程作預測。給定自變量將其帶入經驗回歸方程得到估計值和一個置信度為1-α的預測區間,其中

我國目前在交通安全管理上常采用的指標包括交通事故起數、受傷人數、死亡人數和直接經濟損失,即交通事故四項指標。選擇交通事故起數這一指標進行回歸分析。以某市2005~2012年道路交通事故起數作為因變量,與同期該市的城市GDP、人口數、汽車保有量、城市道路長度、公路客運量、公路貨運量共六項影響因素作相關分析,選取相關度高的因素作為自變量建立多元線性回歸模型。該市2005~2012年相關數據見表1。

?
回歸分析是對具有因果關系的影響因素(自變量)和預測對象(因變量)所進行的數理統計分析處理。只有當變量與因變量確實存在某種關系時,建立的回歸方程才有意義。進行相關分析,一般要求出相關關系,以相關系數的大小來判斷自變量和因變量的相關程度。圖1展現了道路交通事故起數與城市GDP、人口數、汽車保有量、城市道路長度、公路客運量、公路貨運量之間的散點圖。觀察可得,事故起數和死亡人數與城市道路長度沒有明確的線性關系,與其他各指標呈現明顯的負相關關系。

我們進一步對各個變量做Pearson相關分析。對于連續型數值變量,Pearson相關系數是一個介于-1與1之間的統計量,測量了變量之間的相關程度[5]。表2顯示了事故起數與各指標之間的Pearson相關系數和對應的單邊顯著性水平。從表中可以看出,事故起數與人口數之間的相關系數為-0.916,它們在0.05顯著性水平下顯著負相關;事故起數與GDP、汽車保有量、公路客運量和公路貨運量之間的相關系數分別為-0.714、-0.683、-0.688和-0.673,它們在0.05顯著性水平下顯著負相關。根據散點圖和Pearson相關分析,初步將城市道路長度這個影響因素排除。

?

一般來講,如果在一個回歸方程中忽略了對因變量有顯著影響的自變量,那么所建立的方程必然與實際有較大的偏離,但是如果自變量選的過多,特別是當方程中還有對因變量影響不大的自變量時,就會影響回歸方程的擬合優度和預測精度。本文采用逐步回歸策略來選擇自變量。逐步回歸策略按全部自變量對因變量的顯著程度大?。ㄘ暙I程度大?。?,由大到小地將自變量逐個引入回歸方程,而對那些對因變量作用不顯著的變量則不被引入回歸方程。另外,己被引入回歸方程的變量在引入新變量后也可能失去重要性,而需要從回歸方程中剔除出去。引入一個變量或者從回歸方程中剔除一個變量都稱為逐步回歸的一步,每一步都要進行F檢驗,以保證在引入新變量前回歸方程中只含有對因變量影響顯著的變量,而不顯著的變量已被剔除。令y為道路交通事故起數,x1為城市GDP,x2為人口數、x3為汽車保有量,x4為公路客運量、x5為公路貨運量。我們采用逐步回歸策略,通過SPSS計算求解[5],得出事故數量的回歸方程為,

模型的調整可決系數 R2=0.993,這說明模型的擬合優度較好。由回歸方程式可知,GDP與事故數量是負相關的,即隨著GDP的增加,事故數呈下降趨勢。相反,人口規模與事故數量是正相關的,即隨著人口的增加,事故數呈上升趨勢。
用F檢驗法對上述回歸方程進行顯著性檢驗,經過計算得出回歸方程的F統計量為54.721,在α=0.01水平下是顯著的,即認為GDP和人口規模兩個影響因素總體對交通事故起數的線性影響是顯著的。用t檢驗法對單個回歸系數進行顯著性檢驗,經過計算得出回歸系數的t統計量為5.365,在α=0.01水平下是顯著的,即認為GDP對交通事故起數的線性影響是顯著的;回歸系數的 t統計量為-2.496,在α=0.05水平下是顯著的,即認為人口規模對交通事故起數的線性影響也是顯著的。因此,事故起數與GDP和人口數之間的線性關系顯著,建立的上述多元線性回歸模型是恰當的。經檢驗,回歸方程及各回歸系數都是顯著的,給定自變量和置信水平,就可以根據回歸方程預測出因變量的估計值和置信區間。
經檢驗,回歸方程及各回歸系數都是顯著的,那么就可以利用回歸模型計算預測值。若該市GDP按8%速度增長,2013年和2014年將分別達到8173.60億元和8827.49億元;若該市人口數按0.5%速度增長,2014年將達到472.42萬人和474.78萬人。根據式(1)中的多元回歸分析模型,2013年道路交通事故起數的90%預測上限為2485起,即2013年發生2485起以上道路交通事故的可能性不超過10%;2014年交通事故死亡人數的預測上限為2422起,即2014年發生2422起以上道路交通事故的可能性不超過10%。
本文通過建立多元線性回歸模型,對某市的道路交通事故數據進行分析和預測。選取道路交通事故次數作為因變量,城市GDP、人口數、汽車保有量、城市道路長度、公路客運量、公路貨運量作為自變量,進行多元線性回歸分析。分析結果說明,交通事故次數與GDP之間的線性關系是顯著的,隨著GDP的增加,事故數呈下降趨勢。根據結果建立了預測模型,且模型的擬合優度較好,通過了模型的顯著性檢驗。多元線性回歸模型是定量分析和預測道路交通事故發展趨勢的有效手段之一,可廣泛應用于道路交通事故的分析和預測中,科學地對道路交通事故進行預測,從而為科學交通管理提供技術支撐。
[1] 董玉波.道路交通事故多元線性回歸模型及檢驗方法.中國人民公安大學學報(自然科學版), 2013年第2期.
[2] 房曰榮,沈斐敏.道路交通事故發展趨勢分析與預測.中國安全生產科學技術,2012年第8卷第2期.
[3] 胡向陽, 姚慧芳.運用回歸分析法研究足跡樣本.警察技術,2002年03期.
[4] 薛毅,陳立萍. 統計建模與R軟件.北京:清華大學出版社, 2007.
[5] 張文,張文彤, 鄺春偉. SPSS統計分析基礎教程.高等教育出版社,2011.