周 敏,朱從坤
(蘇州科技大學 土木工程學院,江蘇 蘇州215011)
隨著城市交通擁堵、出行難等問題日益突出,公共自行車交通對改善和發展城市綠色交通系統,促進交通的可持續發展具有十分重要的意義。對公共自行車的合理調度是提高公共自行車使用率和服務質量的重要基礎,而合理調度的前提,是對站點借還量的有效短期預測。
在基于歷史運行數據進行預測方面,公共自行車租賃站點借還需求量與時刻之間具有復雜的非線性關系,但每天之間又具有很高的相似性。BP神經網絡模型結構簡單,具有良好的泛化、容錯和非線性映射能力,陳昕鈞等學者曾使用BP神經網絡完整預測1 d內某租賃站點借還頻次隨時間的分布[1]。然而,BP神經網絡卻存在易陷入局部收斂和收斂速度慢等特點[2]。差分進化(Differential Evolution,DE)算法[3]有很強的全局最優能力,并且收斂速度快。本文利用DE算法彌補BP的不足,進行公共自行車站點需求量預測研究。
通過獲得蘇州高新區金獅大廈公共自行車站點2014年10月08日至11月08日連續32 d實際借還量,借還量隨時間變化曲線如圖1所示。選取每天6:00~23:00時間段、間隔為10 min的數據作為樣本,每天有103個數據。選取10月08日(星期三)一天的借還量和某一周的借還量進行時間分布特征分析。

圖1 金獅大廈站點借還量曲線圖
由圖1可知,金獅大廈站點在早晚高峰期間出現“還車早高峰”和“借車晚高峰”,這種“單峰型”的借還量顯示出借還需求的不平衡,易出現還車難或借車難的現象。同一站點同一周內工作日的借還需求量變化趨勢基本相同。
1.2.1 相似系數 以每天一定時段的借還量時間序列數據作為一個列向量,k為序列長度,本文k=103,由n天數據向量構成矩陣Fk×n=[fk1,fk2,…,fkn]。相似系數S表示兩組數據向量fa和fb之間的相關程度,表達式

式中,Sab是fa和fb的協方差,其值越大,表示兩個數據向量之間的相似程度越大。MS的計算公式

MS表示平均相似系數,是向量之間相似系數的平均值,它越大,表示n個數據向量之間的相似程度越大。
1.2.2 借還數據周期相似性分析 金獅大廈站點10月20日至10月26日連續一周的借還量兩兩相似系數如表1和表2所列。

表1 一周借還量的兩兩相似系數(借)

表2 一周借還量的兩兩相似系數(還)
由表1和表2可知,工作日間的相似系數都大于0.8,工作日與休息日之間相似系數大部分小于0.8,休息日間相似性較差;借車需求量之間的相似系數較還車需求量之間更接近1,說明工作日間還車需求量具有更大相似性。表2中,工作日與星期日間的相似系數大于0.8,但通過計算其他周的工作日與星期日的還車量之間相似系數,發現其值均小于0.8,故不考慮工作日與星期日間的相似性。
進一步計算得到工作日10月20日至10月24日的借車平均相似系數0.854 1,還車平均相似系數0.921 1。同理可算出其他各周工作日的平均相似系數,見表3所列。

表3 同周工作日平均相似系數
為了分析不同周同一工作日相似系數,可計算得出不同周各工作日的兩兩相似系數(以星期三為例,見表4和表5所列),以及不同周每個工作日的平均相似系數(見表6所列)。
由上述分析數據可知,調查對象的站點借還量在一周中的不同工作日之間,以及不同周的每個工作日之間,均具有很高的變化趨勢周期相似性,說明其站點借還需求量可采用BP神經網絡進行預測。

表4 不同周星期三需求量的兩兩相似系數(借)

表5 不同周星期三需求量的兩兩相似系數(還)

表6 不同周工作日平均相似系數
BP神經網絡是一種多層網絡的“逆推”學習算法。單隱層BP神經網絡是目前運用最廣泛的,它包含輸入層、隱層和輸出層,如圖2所示。
在圖2中,X為輸入向量 (x0是為隱含層節點引入閾值而設置的),Y為隱含層輸出向量 (y0是為輸出層節點引入閾值而設置的),O為輸出層輸出向量,用d表示期望輸出向量,V為輸入層和隱含層間的權值矩陣,W為隱含層和輸出層間的權值矩陣。
訓練過程分為正向和反向傳遞兩個過程,輸入信息經隱層傳遞至輸出層,若輸出結果和期望值有誤差,則將誤差信息沿原網絡返回,通過修改神經元的權值,再正向傳遞,反復循環直至達到要求。

圖2 三層BP神經網絡
差分進化算法(DE)是1995年由Storn和Price提出的一種基于群體進化的優化算法[4]。它借助于群體個體之間的差分信息對個體形成擾動來探索整個群體空間,利用貪婪競爭機制進行優化,尋求問題的最優解。DE算法原理簡單、易于理解和實現、控制參數少,表現出高可靠性和強魯棒性等良好性能[5]。
利用差分進化對BP神經網絡的初始權值和閾值進行優化,可彌補其在數值選擇上的隨機性缺陷,以取得更高的預測精度和收斂速度。其算法流程如圖3所示。
將BP神經網絡中權值和閾值通過編碼編成軟件可識別的碼串表示的個體,首先隨機生成初始群體,經上述變異、交叉操作,產生一個新的臨時種群,利用保優策略的選擇操作對種群的個體進行優化選擇,直至找到最優個體。將DE得到的最優個體對BP神經網絡的初始權值和閾值進行賦值,再利用BP神經網絡預測模型進行尋優,從而得到具備全局最優解的BP神經網絡預測值。

圖3 基于DE的BP神經網絡預測流程圖
3.1.1 樣本數據預處理 以前述金獅大廈站點調查的數據作為樣本,每個站點共計103×23=2 369個數據,將前18個工作日作為訓練集,最后5個工作日作為驗證集。
輸入向量采用預測日t時刻的上一周同周期類型t時刻借還量、前三周任意4個工作日在t時刻借還量(5維輸入、1維輸出)。一般情況下樣本數據不能直接用于訓練,需要進行處理。利用MATLAB的mapminmax函數處理樣本數據,使BP神經網絡的輸入落在[-1,1]之間。

式中:x為原始數據,y為處理數據;xmax、xmin為原始數據的最大、最小值,ymax、ymin為處理數據的最大、最小值。
3.1.2 神經網絡參數的設定 通過文獻閱讀與樣本分析,設定隱含層神經元個數為8,隱含層傳遞函數為雙極性Sigmoidal函數f(x)=;輸出層傳遞函數為線性函數f(x)=x。學習速率取0.01,動量因子取0.9,訓練函數采用共輒梯度法中的SCG算法。
3.1.3 初始權值、閾值的確定 在差分進化算法開始前,首先對種群中染色體進行編碼。輸入節點、隱含層節點和輸出節點個數分別為5、8和1,共含有權值5×8+8×1=48個,閾值8+1=9個,進行實數編碼時,編碼長度為48+9=57。根據相關文獻[6-7]與實驗測定,設定縮放因子F為0.9,交叉概率為0.7,種群規模為20,最大迭化次數為100。差分進化算法的適度值函數采用神經網絡的全局均方誤差函數。
3.2.1 BP神經網絡預測 經過BP神經網絡的多次學習、訓練,第48次訓練得到借車量最佳歸一化均方誤差0.013 596,見圖4;第67次訓練得到還車量最佳歸一化均方誤差0.010 387,見圖5。
訓練樣本、驗證樣本和測試樣本均方誤差收斂特征相同,所得神經網絡是可信的。使用訓練好的神經網絡對11月4日(周二)金獅大廈站點的借還車需求量進行預測,結果見圖6與圖7。

圖4 BP神經網絡的訓練過程誤差曲線(借)

圖5 BP神經網絡的訓練過程誤差曲線(還)

圖6 BP神經網絡的借車量預測結果圖

圖7 BP神經網絡的還車量預測結果圖
3.2.2 DE-BP神經網絡預測 經過差分進化算法優化的神經網絡的多次學習、訓練,借車量和還車量的差分最優個體適應度值分別為10.03、11.07,見圖8與圖9;借還車需求量預測的結果見圖10和圖11。

圖8 DE-BP神經網絡的DE優化迭代曲線(借)

圖9 DE-BP神經網絡的DE優化迭代曲線(還)

圖10 DE-BP神經網絡的借車量預測結果(2014-11-04)

圖11 DE-BP神經網絡的還車量預測結果(2014-11-04)
3.2.3 預測結果分析 為評價預測結果,采用平均絕對誤差MAE、平均絕對百分比誤差MAPE、均方根誤差RMSE和擬合度為評價指標[8],其計算公式分別如下

式中,yt為實際值為預測值,n為樣本數據個數。
BP神經網絡和DE-BP神經網絡的預測結果評價指標如表7所列。由表7可以看出,基于差分進化的BP神經網絡比BP神經網絡的預測精度有較大程度的提高,說明DE-BP神經網絡預測模型對于公共自行車站點需求量預測更為有效。

表7 神經網絡的預測誤差對比
首先對蘇州高新區金獅大廈站點公共自行車借還量樣本進行相似性分析,在分析的基礎上構建了基于BP神經網絡的公共自行車借還需求量預測模型,并利用差分進化算法對BP神經網絡預測模型進行改進優化;最后利用傳統BP神經網絡與改進的DE-BP神經網絡對公共自行車站點借還需求量進行仿真預測。預測結果表明,DE-BP神經網絡的各項評價指標均優于傳統BP神經網絡。