張 良,張 欣,周昌順,文 章
(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴州 貴陽 550025)
軌跡挖掘可以定義為從移動定位數(shù)據(jù)中提取隱含的﹑人們預(yù)先不知道的﹑但又潛在有用的移動軌跡模式的過程。軌跡本身的價值及其產(chǎn)生的便捷性,催生了一批基于軌跡的位置服務(wù)。目前,軌跡挖掘已經(jīng)應(yīng)用到多個重要領(lǐng)域,如社交網(wǎng)絡(luò)﹑公共安全﹑智能交通管理﹑城市規(guī)劃與發(fā)展等[1]。商圈是現(xiàn)代市場中企業(yè)市場活動的空間,最初是站在商品和服務(wù)提供者的產(chǎn)地角度提出的,后來逐漸擴(kuò)展到商圈,同時也是商品和服務(wù)享用者的區(qū)域[2]。本文基于用戶的歷史定位數(shù)據(jù),采用層次聚類算法,對基于基站數(shù)據(jù)的商圈聚類。重點(diǎn)在于對不同的商圈分群進(jìn)行特征分析,比較不同商圈類別的價值,以選擇合適的區(qū)域進(jìn)行運(yùn)營商的促銷活動。
GSM網(wǎng)絡(luò)的基礎(chǔ)結(jié)構(gòu)是由一系列蜂窩基站構(gòu)成的。這些蜂窩基站把整個通信區(qū)域劃分成如圖1所示的一個個蜂窩小區(qū)[3]。用移動設(shè)備在GSM網(wǎng)絡(luò)中通信,實(shí)際上就是通過某一個蜂窩基站接入GSM網(wǎng)絡(luò),然后通過GSM網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)傳輸。

圖1 移動基站
手機(jī)用戶在使用短信業(yè)務(wù)﹑通話業(yè)務(wù)﹑開關(guān)機(jī)﹑正常位置更新﹑周期位置更新和切入呼叫時均產(chǎn)生定位數(shù)據(jù)。定位數(shù)據(jù)記錄手機(jī)用戶所處基站的編號﹑時間和唯一標(biāo)識用戶的EMASI號等。歷史定位數(shù)據(jù)描繪了用戶的活動模式,一個基站覆蓋的區(qū)域可等價于商圈,通過歸納經(jīng)過基站覆蓋范圍的衡量區(qū)域的人流特征,識別出不同類別的基站范圍,即可等同地識別出不同類別的商圈。
從移動通信運(yùn)營商提供的特定接口上解析﹑處理并濾除用戶屬性后得到用戶定位數(shù)據(jù)。以2016年6月1日為開始時間,2016年12月31日為結(jié)束時間,作為分析的觀測窗口。抽取觀測窗口內(nèi)某市某區(qū)域定位數(shù)據(jù)形成建模數(shù)據(jù),部分?jǐn)?shù)據(jù)見表1。
以單個用戶為例進(jìn)行數(shù)據(jù)探索分析,研究在不同基站的停留時間。為了便于觀察數(shù)據(jù),先提取EMASI號為“55552”的用戶在2016年6月1日的定位數(shù)據(jù)。如表2所示,可以發(fā)現(xiàn)用戶在2016年6月1日00∶31∶48處于36908基站的范圍,下一個記錄是用戶在2016年6月1日00∶53∶46處于36902基站的范圍,表明用戶從00∶31∶48到00∶53∶46都是處于36908基站,共停留了21分58秒,并在00∶53∶46進(jìn)人了36902基站的范圍。再下一條記錄是用戶在2016年6月1日01∶26∶11處于36902基站的范圍,可能是由于用戶在進(jìn)行通話或者其他產(chǎn)生定位數(shù)據(jù)記錄的業(yè)務(wù)。此時的基站編號未發(fā)生改變,用戶依舊處于36902基站范圍。若要計(jì)算用戶在36902基站范圍停留的時間,則需要繼續(xù)判斷下一條記錄。可以發(fā)現(xiàn),用戶在2016年6月1日02∶13∶46處于36907基站范圍,故用戶從00∶53∶46到02∶13∶46都是處于36902基站,共停留了80分鐘。

表1 某市某區(qū)域的定位數(shù)據(jù)示例

表2 EMASI號為“55552”的用戶在2016年6月1日的位置數(shù)據(jù)
原始數(shù)據(jù)的屬性較多,但網(wǎng)絡(luò)類型﹑LOC編號和信令類型3個屬性對于挖掘目標(biāo)沒有用處,故剔除這3個冗余屬性。而衡量用戶的停留時間并不需要精確到毫秒級,故可把毫秒這一屬性刪除。
在計(jì)算用戶停留時間時,只計(jì)算兩條記錄的時間差。為了減少數(shù)據(jù)維度,把年﹑月和日合并記為日期,時﹑分和秒合并記為時間。
挖掘的目標(biāo)是尋找出高價值的商圈,需要根據(jù)用戶的定位數(shù)據(jù)提取出衡量基站覆蓋范圍區(qū)域的人流特征,如人均停留時間和﹑人流量等。高價值的商圈具有人流量大﹑人均停留時間長的特點(diǎn)。但是,在寫字樓工作的上班族白天所處的基站范圍基本固定,停留時間也相對較長;晚上住宅區(qū)的居民所處的基站范圍基本固定,停留時間也相對較長。因此,僅通過停留時間作為人流特征,將難以區(qū)分高價值商圈﹑寫字樓與住宅區(qū)。所以,提取出來的人流特征必須能較為明顯地區(qū)別這些基站范圍。下面設(shè)計(jì)工作日上班時間人均停留時間﹑凌晨人均停留時間﹑周末人均停留時間和日均人流量,將其作為基站覆蓋范圍區(qū)域的人流特征。
工作日上班時間人均停留時間是所有用戶在工作日上班時間處在該基站范圍內(nèi)的平均時間。居民一般的上班工作時間是在9∶00—18∶00,所以工作日上班時間人均停留時間是計(jì)算所有用戶在工作日9∶00—18∶00處在該基站范圍內(nèi)的平均時間。
凌晨人均停留時間是指所有用戶在00∶00—07∶00處在該基站范圍內(nèi)的平均時間。一般居民在00∶00—07∶00都是在住處休息,利用這個指標(biāo)則可以表征出住宅區(qū)基站的人流特征。
周末人均停留時間是指所有用戶周末處在該基站范圍內(nèi)的平均時間。高價值商圈在周末的逛街人數(shù)和時間都會大幅增加,利用這個指標(biāo)則可以表征高價值商圈的人流特征。
日均人流量指平均每天曾經(jīng)在該基站范圍內(nèi)的人數(shù)。日均人流量大,說明經(jīng)過該基站區(qū)域的人數(shù)多。利用這個指標(biāo)可以表征高價值商圈的人流特征。
這4個指標(biāo)的計(jì)算直接從原始數(shù)據(jù)計(jì)算比較復(fù)雜,需先處理成中間過程數(shù)據(jù),再從中計(jì)算4個指標(biāo)。中間過程數(shù)據(jù)的計(jì)算以單個用戶在一天里的定位數(shù)據(jù)為基礎(chǔ),計(jì)算在各個基站范圍下的工作日上班時間停留時間﹑凌晨停留時間﹑周末停留時間是否處于基站范圍。
假設(shè)原始數(shù)據(jù)所有用戶在觀測窗口期間(T天)曾經(jīng)經(jīng)過的基站有N個,用戶有M個。用戶i在j天經(jīng)過的基站有station1和station2,則用戶i在j天在station1基站的工作日上班時間停留為weekday station1ij,凌晨停留時間為night station1ij,周末停留時間為weekend_station1ij,是否停留時間為stay_station1ij,在station2基站的工作日上班時間停留時間為weekend_station2ij,凌晨停留時間為night_station2ij,周末停留時間weekend_station2ij,是否停留時間為stay_station2ij。其中stay_station1ij﹑stay_station2ij的值均為1。對于未停留的其他基站,工作日上班時間停留﹑凌晨停留時間﹑周末停留時間是否處于基站范圍的值均為0。
對于基站station1,4個基站覆蓋范圍區(qū)域的人流特征的計(jì)算公式如下。
工作日上班時間人均停留時間:

凌晨人均停留時間:

周末人均停留時間:

日均人流量:

對于其他基站,計(jì)算公式一致。
對采集到的數(shù)據(jù),按基站覆蓋范圍區(qū)域的人流特征進(jìn)行計(jì)算,得到各個基站的部分樣本數(shù)據(jù),見表3。由于各個屬性之間的差異較大,為了消除數(shù)量級數(shù)據(jù)帶來的影響,進(jìn)行聚類前需要進(jìn)行離差標(biāo)準(zhǔn)化處理。標(biāo)準(zhǔn)化后的部分樣本數(shù)據(jù),見表4。
數(shù)據(jù)經(jīng)過預(yù)處理后形成建模數(shù)據(jù)。采用層次聚類算法[4]對建模數(shù)據(jù)進(jìn)行基于基站數(shù)據(jù)的商圈聚類,畫出譜系聚類圖,如圖2所示。

表3 樣本數(shù)據(jù)

表4 標(biāo)準(zhǔn)化后樣本數(shù)據(jù)

圖2 譜系聚類圖
針對聚類結(jié)果按不同類別畫出3個特征的折線圖,如圖3﹑圖4和圖5所示。對于商圈類別1,日均人流量較大,同時工作日上班時間人均停留時間﹑凌晨人均停留時間和周末人均停留時間相對較短,其基站覆蓋的區(qū)域類似于商業(yè)區(qū)。對于商圈類別2,凌晨人均停留時間和周末人均停留時間相對較長,而工作日上班時間人均停留時間較短,日均人流量較少,其基站覆蓋的區(qū)域類似于住宅區(qū)。對于商圈類別3,基站覆蓋范圍的工作日上班時間人均停留時間較長,同時凌晨人均停留時間﹑周末人均停留時間相對較短,其基站覆蓋的區(qū)域類似于白領(lǐng)上班族的工作區(qū)域。

圖3 商圈類別1折線圖

圖4 商圈類別2折線圖

圖5 商圈類別3折線圖
商圈類別2的人流量較少,商圈類別3的人流量一般,且白領(lǐng)上班族的工作區(qū)域一般的人員流動集中在上﹑下班時和午間吃飯時間,這兩類商圈均不利于運(yùn)營商的促銷活動。由于商圈類別1日均人流量較大,同時工作日上班時間人均停留時間﹑凌晨人均停留時間和周末人均停留時間相對較短,所以可選擇商圈1進(jìn)行商家的促銷活動。
本文從移動通信運(yùn)營商提供的特定接口上解析﹑處理并濾除用戶屬性后得到用戶定位數(shù)據(jù),然后以單個用戶為例進(jìn)行數(shù)據(jù)探索分析,研究在不同基站的停留時間,并進(jìn)一步進(jìn)行預(yù)處理,包括數(shù)據(jù)規(guī)約和數(shù)據(jù)變換。最后,利用形成的已完成數(shù)據(jù)預(yù)
處理的建模數(shù)據(jù),基于基站覆蓋范圍區(qū)域的人流特征進(jìn)行商圈聚類,對各個商圈分群進(jìn)行特征分析,從而選擇合適的區(qū)域進(jìn)行商家的促銷活動。
[1] 洪欽敏.基于張量的用戶軌跡數(shù)據(jù)挖掘技術(shù)研究[D].武漢:華中科技大學(xué),2015.
HONG Qin-min.Users of the Tensor Trajectory Data Mining Technology based on the Research[D].Wuhan:Huazhong University of Science and Technology,2015.
[2] 王春燕,王超.商圈生態(tài)的概念與體系[J].上海商業(yè),2007,10(01):40-42.
WANG Chun-yan,WANG Chao.The Concept and System of Business Circle Ecology[J].Shanghai Business,2007,10(01):40-42.
[3] 楊帆.基于GSM和Google Map的定位與地圖標(biāo)注關(guān)鍵技術(shù)研究[J].陜西科技大學(xué)學(xué)報:自然科學(xué)版,2011,2(02):122-125.
YANG Fan.Research on Key Technologies of Location and Map Annotation based on GSM and Google Map[J].Journal of Shaanxi University of Science and Technology(Natural Science Edition),2011,2(02):122-125.
[4] 段明秀,楊路明.對層次聚類算法的改進(jìn)[J].湖南理工學(xué)院學(xué)報:自然科學(xué)版,2008,21(02):28-29.
DUAN Ming-xiu,YANG Lu-ming.Improvement of Hierarchical Clustering Algorithm[J].Journal of Hunan Institute of Science and Technology(Natural Science Edition),2008,21(02):28-29.