999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

電信大數據分析下的時空區域經濟可視化應用

2022-03-08 11:57:28李娜劉文敏孟繁瑞劉巖
北京航空航天大學學報 2022年2期
關鍵詞:區域經濟分析

李娜,劉文敏,孟繁瑞,劉巖

(國家計算機網絡應急技術處理協調中心山東分中心,濟南 250002)

隨著移動互聯網、智能手機、大數據等新一代技術的發展,信息化技術日益普及,極大程度上改變了居民的生活方式。社會信息化和網絡化發展導致數據量激增,數據的規律性特征在一定程度上反映了人群在現實生活中的活動特征。在“以人為本”的社會中,人群的行為特征和方式也能夠反映出特定區域的發展狀況[1-2]。大數據技術時代,國內越來越多的城市提出要加強“智慧城市”建設,“智慧城市”通過有效整合多源信息資源,為城市規劃、建設和管理構建新的模式。“智慧城市”建設過程中,如何處理、整合海量數據并加以利用成為了關鍵。同時,在區域發展規劃及經濟趨勢預測中,大數據的運用已成為新的研究方式,該方式有別于過去普遍采用的問卷調查方式。傳統區域經濟的研究數據來源多通過人口普查和經濟調查的方式進行,其實時性低、泛化性低、準確性低等缺點難以避免;在數據層面,其體量小、不全面、質量參差不齊,獲取數據的人力成本高、區域覆蓋范圍小,且多為政府人員采集,非公開性的特點更是為經濟預測帶來重重困難。而大數據的5V特征,即規模性(volume)、多樣性(variety)、高速性(velocity)、價值性(value)和真實性(veracity),一定程度上克服了傳統方式的缺點,其數據量大、獲取統一、成本低等優點極大地彌補了傳統數據的不足。在眾多可用的海量數據中,基于通信網絡的電信大數據更具有得天獨厚的優勢,其時空全覆蓋的特點是其他數據所不擁有的。數據的時間連續性能夠在歷史數據和當前數據的基礎上對未來數據進行預測與趨勢分析;空間多樣性能夠在廣闊的覆蓋面上,動態、實時、快速地進行更新、共享、融合分析。《中國移動互聯網發展報告(2020)》指出,截至2019年12月底,中國4G手機用戶數量達到12.8億,占移動電話用戶總數的80.1%[3]。利用數據挖掘技術,能夠刻畫覆蓋用戶人群的行為畫像,提取行為特征[4-5],結合區域經濟政策進行評價,可為經濟發展提供決策依據。

本文采用多源數據融合分析的方法,在充分研究遙感影像技術[6-7]、手機信令技術[8-9]、交通熱力圖技術[10]等的基礎上,將傳統數據與電信大數據融合,實現在電信大數據下的區域經濟分析,本文主要工作如下:

1)通過分析數據特征,利用數據挖掘技術完成數據清洗和時空關系關聯,獲取并補充電信大數據中精確的時間戳、地址等屬性,提高數據質量。

2)結合多源數據,對數據特征規則進行篩選和建模,定量分析關聯特征,設計基于電信大數據的區域經濟分析方法框架,全方位、多角度地分析區域經濟狀況。

3)對電信大數據下的時空區域經濟進行可視化實驗分析,結合優化選址方法,指導城市熱點商圈布局與調整,挖掘投資商業價值,提高城市系統效率,為“智慧城市”規劃提供參考。

1 電信大數據清洗分析

本節對電信大數據進行清洗分析,并選取其中關鍵項進行數據設計和分析處理。

電信大數據數據量龐大,以2019年9月某省1日內產生的數據為例,數據總量達6TB,涵蓋約9 000萬用戶產生的700億條記錄。其數據格式如表1所示,部分關鍵項包含用戶標識、基站標識碼、位置信息、時間戳、手機歸屬地、手機所在地、事件標識等信息。

表1 電信大數據基本格式Table 1 Basic for mat of telecom big data

對海量的電信大數據進行清洗、去噪和糾偏尤為重要。研究過程中,利用Spark集群計算框架與HDFS文件存儲框架,對大量原始的數據進行了預處理,采用Hive存儲各類中間結果,采用Hbase存儲用于可視化的大規模數據,采用Redis快速存取各類配置和用于界面實時展示數據量較少的分析結果,進而完成了數據的過濾清洗。

1.1 無效數據清洗

原始數據中存在部分無效數據,包括空值、重復值、錯誤值及格式錯誤數據等,占比約為0.8%。對于存在極小概率的某些屬性字段中會出現缺失信息,采用直接刪除的處理方法;對于某些屬性字段完全一致的重復數據,保留其中一條數據,刪除重復數據,進一步減小計算量;對于存在偏差范圍無法覆蓋的異常數據及格式錯誤數據(如不在指定區域經緯度范圍內的數據、日期異常、停留時間異常等),采用條件篩選或聚類算法進行清洗。

1.2 噪點數據清洗

原始數據中的人群位置信息是用戶處于手機聯網時連接的基站位置,由于終端和基站之間通信復雜、時有干擾,在基站比較密集的地區其手機上報的基站附著點會有很多噪聲,對基站附著點進行去噪,可以提升數據質量,有利于后續數據分析。

首先對數據進行去重操作,按取10位Geo-Hash算法[11]對數據點合并,利用空間密度聚類DBSCAN算法[12-13]對附著點區域直徑50 m、樣本量少于5的孤點去噪,利用K-Means算法[14]進行聚類,按聚類類別進行排序,將同類數據合并,得到去噪后的數據結果。同一基站1 d內的數據處理前,基站附著點有4 430個,如圖1所示。對其進行數據點去噪,共去除820個,保留3 610個,保留81.49%數據體量,去噪后基站附著點如圖2所示。去除冗雜的數據點后,提升了數據質量。

圖1 數據清洗前的基站附著點分布Fig.1 Distribution of base station attachment points before data cleaning

圖2 數據清洗后的基站附著點分布Fig.2 Distribution of base station attachment points after data cleaning

1.3 軌跡糾偏

在基站比較密集的地區,手機附著的基站其連接軌跡點會來回跳轉,使局部軌跡呈現網狀結構,并產生乒乓數據[15-16],軌跡糾偏變得更加復雜。對基站軌跡的糾偏去噪,可以從3個方面進行處理。

依次進行7位的GeoHash算法[11]取坐標值,對異常數據糾偏、速度異常數據糾偏、乒乓數據降噪糾偏。舍棄提取的誤差范圍以外的異常數據,得到清洗后的軌跡數據。軌跡糾偏流程如圖3所示。

圖3 軌跡糾偏流程Fig.3 Flowchart of track rectification

圖4和圖5為糾偏前后對比,該軌跡為放置在公交車上的用戶手機在相同線路行駛2個來回、共4趟距離的軌跡路程。其原始軌跡如圖4所示,軌跡點有879個,對其進行軌跡糾偏,共去除94個,保留785個,保留89.31%數據體量,糾偏后軌跡如圖5所示。對比圖直觀地顯示出,移除明顯的漂移軌跡點可以提高數據的聚斂性,去除乒乓數據影響后的網狀結構,軌跡更加平滑,為后面的分析提供更準確的數據支撐。

圖4 數據糾偏前的軌跡Fig.4 Trajectory before data correction

圖5 數據糾偏后的軌跡Fig.5 Trajectory after data correction

2 基于電信大數據的區域經濟分析方法

區域經濟在一定程度上反映了居民的生活水平。基于電信大數據進行規則篩選并對其特征建模,結合電子地圖、交通出行數據、人口普查數據等多源數據,進行多尺度、多維度分析,可以為區域經濟決策提供參考,具體方法框架如圖6所示。在大量原始數據基礎上,通過數據清洗提高數據質量,在定義規則中選取特定時間和區域,精確縮小時空范圍,進行時空關聯并分析。通過數據結果將其可視化,利用圖表模式展示分析,將數據通過計量經濟學模型進行政策評價,對分析居民社會生活屬性、經濟發展、政策區域選址等工作提供了有力的數據支撐。本節選取特定時空區域,以某市“夜經濟”為例進行區域經濟分析方法框架設計。

圖6 電信大數據的區域經濟分析方法框架Fig.6 Framework of regional economic analysis method for telecom big data

夜經濟起源于英國,1995年被英國政府納入城市發展目標[17],2017年,夜經濟占英國GDP的8%,涵蓋約1/8的就業崗位。在中國,城市夜經濟經歷了3個發展階段,即初始市場、零散夜市和集成商圈[18]。許多一二線城市在2019年紛紛制定夜經濟發展戰略,并有向三四線城市擴散的跡象。某市在2019年6月出臺了《關于推進夜間經濟發展的實施意見》,同時進行了大規模的燈光亮化工程、定點夜市鼓勵政策等,使夜經濟快速升溫。2019年11月,首屆中國夜間經濟論壇上,該市入選“夜間經濟十佳城市”。2020年5月,中國受疫情影響,為恢復消費活力,國家再次開放發展夜市經濟,推出了“五允許一堅持”政策,下文將基于電信大數據并結合相關政策進行有效評價。

首先,針對某市“夜經濟”定義規則,結合已有電信大數據、用戶軌跡、人物畫像庫等信息,提取數據特定屬性。其次,劃定空間區域范圍,選取特定時間范圍,查找范圍內對應用戶軌跡、結合人物畫像知識庫屬性建模,通過Hadoop平臺進行分析。最后,對夜間活躍人口行為、出行游玩地點、交通情況等連同經濟政策進行評價,并提出選址優化方法,指導城市熱點商圈布局與調整,有助于政府決策區域優化選址方法。

2.1 數據規則定義

1)夜間經濟:18:00至次日6:00城市各種商業經營活動的總稱。

2)夜間人口:18:00至次日6:00活動的人口。

3)夜間活躍人口:夜間發生2 km以上且排除前往火車站位置的移動人口。

4)夜間人口駐留點:夜間出現停留時長在0.5 h以上及5 h以下的位置點。

5)某景點夜間游玩人數:某日夜間在景點基站附近,提取停留時長大于0.5 h且為外地歸屬信號與停留時長大于0.5 h且為居住地不在該景點的信號,二者加和。

6)夜間人流走廊:夜間活躍人口在某市區遷移情況。

7)外出情況:每小時與常居住地距離在2 km以上的連接數數量統計。

8)夜間人口聚集點識別:提取夜間某時間段內終端所在地,組點形成分布,排除與家庭住址一致的終端,進行聚類。

9)區域范圍:某市。

通過對以上規則可視化分析,通過圖、表、熱力圖等對該市區域夜經濟情況進行剖析,具體見第3節電信大數據下時空區域經濟可視化實驗分析。

2.2 電信大數據下時空區域經濟發展政策評價算法

地方政策實施效果評估是微觀計量經濟學的前沿主題。2019年6月,中國出臺了《關于推進夜間經濟發展的實施意見》,針對夜間的外出意愿和夜經濟政策的相關性進行統計學分析,采用雙重差分(difference-in-differences,DID)模型算法[19],通過控制實施組和對照組在政策處理前后存在的差異實行政策評價。

DID是評估一項政策是否有效的重要算法,特點為事前差異,即除了要研究的核心變量差異外,還包含產生干擾的其他因素。DID模型的基礎是自然實驗數據,即被解釋變量是由帶參數的連續解釋變量、離散解釋變量控制的。通過建模,控制事前差異,得到真實結果:

式中:Y為被解釋變量;X為連續解釋變量;Di為離散解釋變量;u為截距項,截距項表示解釋變量為0時被解釋變量的值,在回歸算法中意義不大。

式(1)中重點關注α、β、γ的斜率變化,斜率的正負反映出解釋變量和被解釋變量的正負相關性,斜率為正則代表兩變量正相關,斜率為負則代表兩變量負相關。

2.3 政策區域選址

將特定時間內的經濟活躍區域景點人流數、人口出游數、交通擁堵區域位置、電信大數據呈現的人流密度等數據整合分析,劃定時空區域關聯分析,利用專家判斷、趨勢分析、模擬等方法進行經濟活躍區域和熱門地點輸出預測,如特定法定節假日、每日特定時段、重要時間節點等相關區域分析。有助于政府對相關時段的區域經濟發展做出決策,選取合適的熱門地點有助于市民對市場經濟響應。

3 電信大數據下時空區域經濟可視化實驗分析

3.1 實驗環境與數據

3.1.1 實驗環境

對海量原始的數據進行處理并建模,分析和計算建模結果。應用技術工具主要為Spark、Spark streaming、Hive、Hbase、Redis、Kafka等,其中Spark用于運行離線計算程序,Spark streaming用于進行實時的流處理,Hive用于存儲各類中間結果,Hbase用于存儲可用于界面展示的大規模數據庫,Redis用于快速存取各類配置和用于界面實時展示的數據量較少的分析結果,Kafka用于在各個程序模塊之間實時發布和訂閱消息。用于實驗的服務器及其配置如表2所示。

表2 實驗環境Table 2 Exper imental environment

3.1.2 實驗數據

1)數據來源。電信大數據及部分政府統計年鑒數據。

2)數據周期。主要數據來源于2019年9月至10月,部分數據來源于2019年12月。

3)數據處理。利用集群計算框架及文件存儲框架,對原始數據進行去重清洗處理,將原始數據解釋為區域化數據、軌跡數據和停留數據,并進一步分析。獲取軌跡停留數據后,對數據進行基站圈點,得到局部數據,按照時間點、地點等需求打點,利用pyecharts等相應的第三方工具包,在地圖上根據經緯度和量值,離線畫出熱力圖等,呈現可視化分析結果。

3.2 時空區域經濟可視化分析

基于提取數據特征信息,結合交通、天氣等多源數據,將可視化分析形成報告,分為5個方面:夜間活動總概況、游在夜間、行在夜間、玩在夜間及政策評價和結論。

3.2.1 夜間活動總概況

1)夜間活躍人口。隨著夜晚來臨,居民活動總體趨勢下降,22:00左右出現驟降,23:00有32萬人在外活動,如圖7所示。將2:00—3:00點活動人群視作夜間上班人群,進行差分計算,22:00仍有超15萬人在外休閑娛樂。活躍人口隨時間分布符合事實規律,進一步驗證了數據的準確性。

圖7 九月夜間活躍人口Fig.7 Active population at night in September

2)夜間活躍人口年齡和性別比例。夜間活躍在外人群以男性為主(67.18%),年齡分布集中在15~40歲,如圖8所示。一方面是年輕人相對有活力,另一方面是男性比女性擁有更強的夜間外出休閑、娛樂意愿。

圖8 夜間活躍人口年齡和性別比例Fig.8 Age and gender ratio of active population at night

3)不同行政區活躍人口及人口流動情況。熱鬧的夜晚正改變著夜生活,從某市范圍看,居住在歷城區居民活躍人口最多,而從居住地與活躍人口比例上來說,某市槐蔭區、歷下區和天橋區占比前3,最不活躍的是章丘區,圖9反映了某市各區的夜間經濟活躍情況。

圖9 各區夜間活躍人口數量和比例Fig.9 Number and proportion of active population in different districts at night

從夜間人口遷移數量中可以看出,某市歷城區是整個人口流動網絡的中心節點,商河縣是人口流動的邊緣節點,如圖10所示。同時,歷城區還是整個網絡圖的橋節點,該市各區域夜間人口流動依靠歷城區作為中轉實現遷移。

圖10 夜間人口遷移數量Fig.10 Population migration number at night

4)某市夜間活躍人口省內來源。從夜間活躍人口中的外省來源絕對數量可以看出,某市周邊德州、泰安、濟寧和菏澤來源最多(見圖11)。考慮外市常住人口基數后(即活躍人口/地區常住人口),發現某市周邊泰安、德州兩市和萊城區人口在夜間留駐該市的意愿最強。符合距離越近的市被吸引參與該市“夜經濟”活動人口比例越高的特點。進一步分析,相近區域受該市夜經濟輻射影響更強,距離較遠區域受夜經濟輻射能力相對較弱。地區人口基數來源:《山東省2018年統計年鑒》。

圖11 省內夜間活躍人口來源Fig.11 Sources of night active population in the province

3.2.2 游在夜間

通過圖12中展示的4個時間點人口分布來看,21:00某市景點大明湖南岸和環護城河帶的市民數量居多,說明夜經濟政策點燃了市民夜間休閑的熱情。

圖12 不同時間點的晚間熱力圖Fig.12 Thermal map of different time at night

3.2.3 行在夜間

截止2019年12月23日,某市24小時公交K101已運行滿1個月,夜間總運送人數超2 000人。圖13為當日公交沿線熱力圖,路線串聯了某市幾大經濟活躍區域(如芙蓉街、世貿購物中心、恒隆購物中心)和人口密集區域(如山大中心校區、裕園小區等),24小時公交提供了便利的夜間回家途經,為該市夜經濟注入了新活力。

圖13 K101公交沿線熱力圖Fig.13 Thermal map along K101 bus

3.2.4 玩在夜間

由圖8可以看出,夜間活躍人口中15~40歲年齡段占比較高,年輕人常常利用互聯網獲取交通或消費信息,大數據時代讓“線上”服務與“線下”O2O(online to offline)模式被廣泛應用。本節選取周六19:00—24:00區間,對某市人口使用地圖導航和消費APP情況進行分析,如圖14所示(列舉部分APP展示)。當夜晚來臨,居民活動總體趨勢下降,使用支付寶、美團等消費APP的用戶數量都高達上萬。22:00仍有萬級人口使用各類交通導航工具,體現出某市的“夜經濟”場景也是萬物互聯時代的夜經濟場景。

圖14 娛樂APP夜間使用人數Fig.14 Number of recreational APP users at night

3.2.5 政策評價和結論

采用基于DID的統計學方法,對夜間出游和夜經濟政策進行相關性分析。由于政策影響夜間因素,選擇是否執行政策和是否以夜間作為虛擬變量,以是否執行政策和是否為夜間的交互項作為政策評價系數,進行統計分析。

假設1 實行夜經濟政策對出游行為有顯著正向影響,建立回歸模型:

式中:Y為出游人數,為被解釋變量;X1為人力最適宜溫度(25℃)差值;D為解釋變量,D1表示是否為假期,D2表示是否為夜間,D3表示是否執行夜經濟政策;根據DID理論,δ3為政策影響,δ4為政策實際效果,并考慮了夜間D2與政策D3的交互項。其中,采用分層回歸算法:第1步,模型一只納入2個解釋變量對被解釋變量進行解釋;第2步,模型二利用其他解釋變量對被解釋變量進行解釋。其分析結果如表3所示。

由表3可得,以25℃為基準,當氣溫每偏離1℃時,每小時出行人數降低1 633人;周末相較于非周末,每小時出行人數增加12 974人;晚上相較于白天,每小時外出休閑人數減少9 066人。將氣溫、節假日、晝夜等因素差分排除影響后,可得夜經濟政策使得夜間每小時出行人數增加了621人。

表3 分析結果Table 3 Analysis r esults

采用DID和層次回歸方法對數據進行回歸分析,結果表明,政策影響為正向且顯著,通過了假設檢驗,證實了夜經濟政策對夜間出游行為有著促進作用。夜間人們的活躍程度較白天顯著性降低,該市夜經濟還有更大的發展前景。

3.3 熱點選址

選取7天內(2019年9月1日至7日)不同時間段經濟活躍區域景點的人流數、人口出游數、交通擁堵區域位置和基站附著點人流密度數據整合分析,并進行專家判斷和趨勢分析,確定位置在某市泉城路、大明湖、趵突泉、甸柳莊環聯區域、萬達廣場等地點為活躍區域點。部分位置預測如圖15所示,經濟活躍區的判定有助于政府對夜經濟發展做出決策,也有助于市民對夜市經濟的響應,促進經濟消費。

圖15 經濟活躍區熱力圖Fig.15 Thermal map of economically active areas

4 結束語

本文結合反映人群活動特征的電信大數據開展研究,將其解釋為軌跡數據和區域化數據進行分析應用:

1)對電信大數據進行數據清洗和軌跡糾偏,定量抽取和分析關聯特征,減少無效數據,提高數據質量。

2)結合多源數據,對數據規則篩選及特征建模,多角度全方位分析用戶行為,將時空區域數據進行可視化分析研究,采用雙重差分統計模型評價區域經濟政策。

3)提出政策選址結論,用于指導城市熱點商圈布局與調整,為區域經濟發展提供決策依據。

本文還有很多方面可以改進,未來的研究重點集中在以下3個方面:

1)在本文基礎上結合應用信息推送、社交平臺及微博熱詞推薦提取數據,多角度分析,進一步增強信息可靠度。

2)海量數據處理方面,采用多種數據處理算法融合進行清洗排序,增加數據質量可信度和可用度。

3)將區域經濟進一步擴展,從時間和空間延伸區域經濟的可分析范圍,例如,時間可選至重要節點日期等;空間可選購物、美食、旅館、景區等。擴大經濟區域效益范圍,可為區域發展提供多方位參考。

猜你喜歡
區域經濟分析
“林下經濟”助農增收
今日農業(2022年14期)2022-09-15 01:44:56
隱蔽失效適航要求符合性驗證分析
增加就業, 這些“經濟”要關注
民生周刊(2020年13期)2020-07-04 02:49:22
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
民營經濟大有可為
華人時刊(2018年23期)2018-03-21 06:26:00
電力系統及其自動化發展趨勢分析
關于四色猜想
分區域
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
區域
民生周刊(2012年10期)2012-10-14 09:06:46
主站蜘蛛池模板: 国产高清又黄又嫩的免费视频网站| 国产丰满大乳无码免费播放| 91香蕉国产亚洲一二三区| 性色一区| 伊人五月丁香综合AⅤ| 国产交换配偶在线视频| 国产无码制服丝袜| 永久免费av网站可以直接看的| 欧美一级大片在线观看| av在线无码浏览| аv天堂最新中文在线| 国产青榴视频| 亚洲欧美精品日韩欧美| 国模沟沟一区二区三区| 国产麻豆福利av在线播放| 97精品国产高清久久久久蜜芽| 国产成人区在线观看视频| 免费人欧美成又黄又爽的视频| 日韩欧美亚洲国产成人综合| 九九热视频精品在线| 国产精品成人观看视频国产 | 91精品情国产情侣高潮对白蜜| 中文字幕va| 久久久久免费看成人影片| 亚洲男女在线| 成人日韩精品| 欧美日韩v| 激情网址在线观看| 99精品高清在线播放 | 亚洲性日韩精品一区二区| a欧美在线| 亚洲人成网址| 欧美人在线一区二区三区| 成人免费一区二区三区| 亚洲日韩精品伊甸| 日韩麻豆小视频| 在线视频亚洲色图| 色哟哟国产成人精品| 国产精品亚洲а∨天堂免下载| 久久6免费视频| 五月天天天色| 91精品国产无线乱码在线| 亚洲第一视频网| 国产中文在线亚洲精品官网| 人妻中文字幕无码久久一区| 男女男精品视频| 一本色道久久88| 亚洲一级毛片在线播放| 综合天天色| 欧美一区二区三区不卡免费| 国产拍揄自揄精品视频网站| 亚洲欧美自拍中文| 欧美另类第一页| 欧美一区二区福利视频| 国产福利一区视频| 男女精品视频| 国产一级精品毛片基地| 亚洲最大看欧美片网站地址| 国产亚洲精品91| 亚洲最大福利视频网| 国产91精品最新在线播放| 亚洲天堂啪啪| 日本AⅤ精品一区二区三区日| 孕妇高潮太爽了在线观看免费| 欧美中文字幕在线播放| 先锋资源久久| 欧美国产日本高清不卡| 久久精品人人做人人爽| 欧美性猛交一区二区三区| 丝袜国产一区| 亚洲第一成人在线| 五月天天天色| 国产福利2021最新在线观看| 在线免费看片a| 男女男精品视频| 狼友av永久网站免费观看| 在线毛片免费| 成人在线不卡| 日本人妻丰满熟妇区| 日本午夜精品一本在线观看| 久久精品欧美一区二区| 日韩欧美中文字幕一本|