楊迎卯
(溫州市鐵路與軌道交通投資集團有限公司,溫州 325000)
城市軌道交通行為分析與數據挖掘決策系統研究
楊迎卯
(溫州市鐵路與軌道交通投資集團有限公司,溫州 325000)
本文對智慧城市軌道交通行為分析與數據挖掘系統進行探討,從系統需求分析入手,對系統功能、運行流程進行設計,并結合城市軌道交通實際應用場景進行分析。
城市軌道交通;行為分析;數據挖掘;輔助決策
隨著我國城市軌道交通的飛速發展、智慧城市理念的深化和實施,智慧軌道交通建設提上日程。智慧軌道交通是以未來人類社會為理想目標,以信息化的人類智慧為指導,以軌道交通的規劃設計、建設運營、控制管理為指導,集“人、事、物”為一體的物聯網為信息采集、交換與服務的基礎支撐平臺;以智能的信息化決策和處理技術為基本手段,通過對海量軌道交通信息的梳理、過濾、挖掘和利用,構建“高效、便捷、安全、可視、環保和可預測”的現代軌道交通運輸系統。
本文就智慧軌道交通中“如何通過對乘客的行為分析和數據挖掘,實現對地鐵商業和地鐵廣告業務的拉動,達到便利乘客消費、增加地鐵商業開發收入”的議題展開討論。
為了使地鐵附加銷售額增長,根據地鐵業務的現實情況,提出兩個系統對營銷策略進行支持與決策:(1)行為分析與數據挖掘決策系統;(2)個性化及廣告推薦精準營銷系統。本文主要介紹行為分析與數據挖掘決策系統。該系統是從運營者及商家的角度,對客戶的宏觀行為進行統計與決策,制定相應的營銷政策、預警客戶流失、推動銷售額增長,從而對傳統業務與新業務經營進行分析和決策支持、優化成本。
1.1 地鐵業務相關系統的需求
1.1.1 數據信息挖掘內容
(1)出行信息。各車站進出客流量實時數據信息,各車站客流量歷史數據信息;
(2)電子商務物流配送信息;
(3)消費偏好信息;
(4)生活需求、服務需求信息。
1.1.2 大數據挖掘目的
(1)挖掘市民的出行信息,為地鐵公司列車開行方案、行車組織提供決策支持;為城市軌道交通規劃提供決策支持。
(2)調整地鐵商業服務內容,便于商業服務更貼近用戶。
(3)精準推送地鐵公益信息、商業廣告等內容。
1.2 地鐵業務大數據獲取途徑
根據地鐵業務的場景和特點,地鐵運營過程中數據的采集主要為乘客使用的市民卡。除了乘坐地鐵閘機刷卡外,市民卡還可以在以下的服務中使用市民卡:
(1)地鐵商鋪消費;
(2)地鐵站提供的物流服務(快遞自提點等);
(3)互動型廣告、自動售賣機、報刊售賣、生活費用繳納;
(4)手機充電、雨傘借用、針線包、急救藥箱等便民服務;
(5)綜合查詢機(賓館預訂信息、景點信息、文化場所信息、消費場所信息、旅游線路信息、交通出行信息、火車票飛機票預訂信息等)。
除市民卡(閘機、消費)以外,還可以考慮引入以下數據采集方式:
(1)WIFI上網熱點;
(2)手機NFC技術;
(3)移動通信天線、手機定位;
(4)攝像頭視頻數據分析;
(5)拾音器;
(6)與地鐵相關的智能穿戴設備;
(7)地鐵里其他信息數據采集裝置。
(1)客戶細分。
(2)客戶流失預警。
(3)增量銷售。銷售策略制定與決策,提高營銷活動利潤。
(4)營銷效果統計。根據主要收益來源,統計新產品營銷效果,分析如何激活沉默用戶;學習數據,對下一步營銷策略進行預測。
(5)高價值客戶維系。通過數據學習,完善高價值差異化服務。比如設立VIP、積分卡進行促銷,回饋利潤。
(6)地鐵站客流量統計。
(7)商家及運營者盈利模型制定,財務經營狀況預測。
(8)商家及運營者內部企業投資及新業務數據推薦。通過不斷學習數據,及數據走向預測,制定新的投資策略,開發新的業務,以數據驅動業務,增加企業收入及可持續科學發展。
(9)其他相關傳統的商業智能功能。
基于上述系統需求分析和功能設計,城市軌道交通行為分析與數據挖掘決策系統結構如圖1所示。

圖1 系統結構圖
城市軌道交通行為分析與數據挖掘決策系統的實現過程分為6個階段,如圖2所示。

圖2 行為分析與數據挖掘過程
(1)業務理解:商業理解,項目目的。確定從數據中獲得支持決策的信息。業務理解階段是了解相關領域的有關情況,熟悉背景知識,弄清要求。在確定需求后,應對現有資源如已有的歷史數據進行評估,確定是否能夠通過數據挖掘技術來確定需求,進一步確定數據挖掘的目標和制定數據挖掘計劃。
(2)數據理解:通過數據發現經營狀況。理解數據的統計學規律,根據具體的商業理解確定決策方向,進行數據分析。
(3)數據準備:根據數據理解(分析),進行數據準備,從數據集、數據倉庫等數據存儲系統中獲取需要進行數據分析的數據。數據挖掘所處理的數據集通常不僅是海量數據,而且可能存在大量的噪聲數據、冗余數據、稀疏數據或不完全數據等。數據準備包括數據抽取、清洗、轉換和加載,具體包括數據的清洗、集成、選擇、變換、規約,以及數據的質量分析等步驟。
(4)建立模型:數據挖掘中的建模實際是利用己知的數據和知識建立一種模型,并能將該模型有效地應用到未知的數據或相似情況中。在數據挖掘中,可以使用多種不同的模型:關聯規則模型、決策樹模型、神經網絡模型、粗糙集模型、數理統計模型、時間序列分析模型等。
(5)模型評估:根據商業需求、模型數據學習后的結果,及數據命中率,修改完善模型,達到更加接近想要得到的數據訓練結果。數據挖掘得到的模式有可能沒有實際意義或沒有實用價值,也可能不能準確反映數據真實意義,甚至在某些情況下是與事實相反的,因此對于數據挖掘的結果需要進行評估,確定數據挖掘是否存在偏差,挖掘結果是否正確,哪些是有效的、有用的模式,能夠滿足需求。
(6)模型發布:將評估后的數據模型發布,供商業、決策人員使用,為公司進行客戶行為分析和決策支持。
城市軌道交通行為分析與數據挖掘決策系統的整體應用如下。
5.1 業務理解
根據地鐵各站點客流量及用戶在地鐵站內消費數據,商家應進行產品銷售策略的變動,對高價值客戶進行維系。產品銷售策略如圖3所示。
5.2 數據理解

圖3 大數據整體應用場景
(1)客戶消費傾向度分析如圖4所示。

圖4 客戶消費傾向度分析示意圖
(2)高價值客戶數據分析如圖5所示。

圖5 高價值客戶數據分析示意圖
(3)客戶消費傾向度因素分析。
時間階段:上班、下班時間;
地鐵站:幾號線、是否為換乘站;
商品:品牌、價格。
(4)高價值客戶傾向度因素分析。
服務質量;
商品價格。
5.3 數據準備
從數據倉庫,或者其他數據存儲系統中,獲取數據理解中需要的數據,如圖6所示。
5.4 建立模型
客戶消費傾向度可采用分類模型,K-mean算法,如圖7所示。

圖6 數據準備示意圖

圖7 K-mean算法示意圖
5.5 模型評估
K-mean算法對歷史數據進行模型校驗,得出是否可以刷卡這個選項對客戶消費傾向度有較大影響,因此在分組中需加入此分組。
5.6 模型發布
以圖、表形式展現數據學習結果,并向相關關系者提供分析數據。
6.1 并行數據挖掘技術
當數據挖掘對象是一個龐大的數據集或是許多廣泛分布的數據源時,效率就成為數據挖掘的瓶頸。隨著并行處理技術的快速發展,用并行處理的方法來提高數據挖掘效率的需求越來越大。
并行數據挖掘涉及到了一系列體系結構和算法方面的技術,如硬件平臺的選擇(共享內存或分布式)、并行的策略(任務并行、數據并行或任務并行與數據并行結合)、負載平衡的策略(靜態負載平衡或動態負載平衡)、數據劃分的方式(橫向的或縱向的)等。處理并行數據挖掘的策略主要涉及3種算法:并行關聯規則挖掘算法、并行聚類算法和并行分類算法。
6.2 數據挖掘隱私保護技術
數據挖掘在產生社會、經濟效益的同時也出現了乘客隱私泄露的問題。如何在防止乘客隱私泄露的前提下進行數據挖掘,是系統迫切需解決的問題。
基于隱私保護的數據挖掘是指采用數據擾亂、數據重構、密碼學等技術手段,能夠在保證足夠精度和準確度的前提下,使數據挖掘者在不觸及實際隱私數據的同時,仍能進行有效的數據挖掘。
受數據挖掘技術多樣性的影響,隱私保護的數據挖掘方法呈多樣性。基于隱私保護的數據挖掘技術可從4個層面進行分類:從數據分布情況,分為原始數據集中式和分布式;從數據隱藏情況,分為對原始數據進行擾動、替換和匿名隱藏等;從數據挖掘技術層面,分為分類挖掘、聚類挖掘、關聯規則挖掘;從數據隱藏內容層面,分為原始數據隱藏和模式隱藏。
6.3 上網行為分析技術
乘客在地鐵范圍內的行為信息,除了地鐵商鋪消費、物流服務、出行OD信息、便民服務使用、綜合查詢服務和NFC、無線定位、視頻分析、智能穿戴等技術手段采集到的數據信息外,通過地鐵站內公共WIFI采集到乘客上網行為也是非常重要的。因此,采用先進的上網行為分析技術非常必要。
上網行為分析技術包括Web頁面內容識別技術和業務識別技術。
Web頁面識別技術包括無效頁面過濾、內容清洗、文本切詞、無效關鍵詞過濾、文檔語義識別等。
常用的業務識別技術主要有端口識別技術、流量特征識別技術、深度包檢測(DPI,DeepPaket Inspection)識別技術、IP地址識別技術、會話判別技術、拓撲特征識別技術等。
6.4 內容推薦技術方法
城市軌道交通行為分析與數據挖掘決策系統的主要目標之一就是廣告等內容的精準推送。因此,如何通過行為分析和數據挖掘,實現精準的內容推薦是系統的重要目標之一。
目前,內容推薦的方法主要有:基于分類TOP排名直接推薦,基于用戶喜好的個性化推薦,基于用戶行為進行關聯推薦等。其中,行為關聯推薦法是通過對大量乘客的數據進行分析挖掘,找出乘客的身份、特征、出行、消費等不同行為之間的關聯關系,根據乘客已有的行為,與分析出的不同行為之間的關系進行比較,從而確定用戶下一步的可能行為。行為關聯推薦法需要大量數據支持,對數據分析挖掘的要求較高,但這種方法在進行內容推薦時往往成功率較高。
隨著智慧城市和城市軌道交通的發展,智慧軌道交通將進入快速發展的時期。數據挖掘決策在智慧軌道交通的數據智慧采集—數據智慧融合—數據智慧挖掘—智慧決策的鏈條中處于關鍵位置。隨著網絡技術和智能穿戴等數據采集技術的發展,智慧軌道交通系統所需要的數據將越來越豐富,而系統的數據挖掘和輔助決策將成為系統的核心。
[1]維克托·邁爾·舍恩伯格.大數據時代[M].杭州:浙江人民出版社,2012.
[2]馬安華.基于用戶行為分析的精確營銷系統設計與實現[D].南京:南京郵電大學,2013.
[3]楊 燕,朱 焱,戴 齊,等.智慧軌道交通—實現更深入的智能化[J].計算機應用,2012(5).
[4]竇 軍,曾華燊,譚獻海,等.智慧軌道交通全聯網(SRTIoT)—更廣泛的互聯互通[J].計算機應用,2012(5).
責任編輯 王 浩


圖2 室內輔助設計軟件流程示意圖
參考文獻:
[1]肖彩霞.ZPW-2000R無絕緣移頻軌道電路系統技術說明書—系統描述[R].黑龍江:黑龍江瑞興科技股份有限公司,2012.
責任編輯 陳 蓉
Behavior analysis and Data Mining Decision Support System for Urban Transit
YANG Yingmao
( Wenzhou Mass Transit Railway Investment Group Co.LTD., Wenzhou 325000,China)
This article discussed the behavior analysis and Data Mining Decision Support System for the Urban Transit of smart city,designed the System from the system requirements,function and running process,combined with the practical application scenarios of Urban Transit to analyze them.
Urban Transit;behavior analysis;data mining;decision support
U231.92∶TP39
A
1005-8451(2016)06-0065-05
2015-11-10
楊迎卯,工程師 。