王 谷 過秀成
(中交一公院綜合交通運輸研究所1) 西安 710001) (東南大學交通學院2) 南京 210096)
由于城市土地利用與城市交通間存在著密切的聯系,交通生成模型作為聯系城市形態與居民出行生成間的一個基礎模型而受到普遍關注.生成率法作為該類模型的典型代表,通過調查人口、經濟、土地利用等資料,采用最小二乘法估計(iterative least square method,LS)擬合現狀數據,建立與居民出行間的回歸關系,得到各變量系數,預測未來居民出行量的大小.通常,數據量比較少和自變量個數不多時,可由散點圖或殘差圖等找出異常點,但當樣本含量增大或變量個數增多時,異常點的檢測就變得困難起來[1],況且,即使找出了異常點,只有經核查是由于記錄、錄入或系統誤差等造成的,才可以剔除,否則,應保留之.因此,對于由隨機誤差造成的客觀存在的異常點,既不能剔除,又不能對回歸系數影響太大,這就需要采用不剔除異常點的穩健回歸處理方法,該方法已成功應用于機械控制[2]、地震預報[3]、化學分析[4]等眾多研究領域.
穩健估計(robust estimators)思想由來已久,早在1960年,Tukey曾經強調過穩健估計方法的重要性:“一個心照不宜的希望是忽略了與理想模型的偏離并不會有嚴重后果,在嚴格的模型條件下,最優的統計方法在近似的模型下也會最優.不幸的是這種希望往往是非常錯誤的,即使有的輕微偏離也會比我們的預想產生更大的影響”[5].
穩健回歸的基本思想是采用迭代加權最小二乘估計回歸系數,根據回歸殘差的大小確定各點的權wi,以達到穩健的目的,其優化的目標函數

為減少“異常點”作用,可以對不同的點施加不同的權重,即對殘差小的點給予較大的權重,而對殘差較大的點給予較小的權重,根據殘差大小確定權重,并據此建立加權的最小二乘估計,反復迭代以改進權重系數,直至權重系數之改變小于一定的允許誤差.其參數βj可采用迭代加權最小二乘法求解.其基本步驟是:先建立最小二乘回歸,并根據其絕對殘差構造權重,并據此建立加權最小二乘回歸,如此迭代以不斷修改權重系數,直至最大的權重系數之改變小于預定的值或是迭代達到指定次數.
構造權重,許多學者提出了許多方法,得到的穩健回歸估計大同小異.這里我們選用較為常用的Huber方法[6]計算各樣本點權重.

式中:ch一般取1.345;ui為“標準化”的殘差指標,定義為 ui=ei/s=0.674 5×ei/med(|eimed(ei)|),其中:med(ei)為殘差ei中位數,s定義為殘差尺度.
考慮如表1所列某城市居民出行調查數據,其中:ID為樣本編號;Y為家庭平均工作出行次數;X1為每個家庭平均小于5歲人數;X2為每個家庭平均擁有汽車數;X3為總人數;X4為家庭數.該出行調查數據集是為采用出行發生率法預測出行次數做出的數據準備,由于需要處理的變量較多,無法通過二維平面散點圖觀察數據情況,進而難以保證觀測樣本中是否存在異常數據,由于傳統最小二乘法回歸系數沒有考慮異常數據的處理,因此需要對其進行穩健分析.

表1 居民出行樣本集
對表1數據采用最小二乘法回歸,結果如表2所列,繪制以樣本序號排列的殘差圖如圖1所示.由殘差圖可見,有3個樣本點在(-2,2)以外,即5,12,18,它們被視為“異常點”,4,6,30也離-2不遠.
通過最小二乘法,模型標定自變量X2,X3系數P值均大于0.05,在5%的顯著性水平下,與因變量Y不具有統計學意義,該回歸方程不宜用于居民出行的出行發生預測.

圖1 最小二乘法學生殘差和穩健回歸樣本點權重值
使用Huber方法,在給定的100次迭代以后收斂,得出穩健回歸結果見表3.對比表2和表3回歸結果,X2,X3的變化較大,各系數的標準誤差均有所減少,且各變量P值均小于0.05,均有顯著性.同時,由圖1樣本點權重來看,被診斷為“異常點”的觀察點5,12,18,其權重都較小;最小二乘殘差越接近0,權重越大.穩健回歸模型通過對不同的點施于不同的權重,即對殘差小的點給予較大的權重,對殘差較大的點給予較小的權重,使得回歸模型更加貼近實際結果.

表2 最小二乘法回歸結果

表3 穩健回歸結果
研究發現居民出行生成率各參數由最小二乘法回歸所確定,回歸中出現的異常數據對最小二乘法估計的結果產生較大影響.但是由于該問題是多變量回歸,調查樣本無法描繪在平面散點圖上,無法通過人工判斷異常數據的取舍.因此,對于包含了實際中不易判定與剔除的異常數據的樣本集,對其采用穩健回歸分析.研究表明穩健估計可以克服最小二乘估計受異常樣本點影響較大的弊病,模型參數更接近實際.實際算例表明,用穩健回歸方法建立的數學模型避免了少數異常值的干擾影響,更加真實地反映了居民出行發生的變化趨勢,是居民出行趨勢變化分析強有力的數學工具.
[1]Ortiz M C.Robust regression techniques a useful alternative for the detection of outlier data in chemical analysis[J].Talanta,2006,70(3):499-512.
[2]Pennacchi P.Robust estimate of excitations in mechanical systems using m-estimators-theoretical background and numerical applications[J].Journal of Sound and Vibration,2008,310:923-946.
[3]楊馬陵.地震前兆數據的穩健回歸與建模[J].西北地震學報,1999(12):399-408.
[4]周 蒂.穩健統計學與地球化學數據的統計分析[J].地球科學,1991,16(3):273-279.
[5]Hample F R.Robust statistics:the approach based on influence function[M].New York:John Wiley &Sons,1986.
[6]Huber P.Robust Statistics[M].New York:John Wiley,1981.