999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網吧記錄數據可視分析系統SRDVis

2021-09-17 09:43:20趙凡馬小東任芃錕
數據與計算發展前沿 2021年4期
關鍵詞:可視化特征用戶

趙凡,馬小東,任芃錕

1.中國科學院新疆理化技術研究所,新疆 烏魯木齊 830011

2.中國科學院大學,北京 100049

3.新疆民族語音語言信息處理研究室,新疆 烏魯木齊 830011

引言

時空數據是包含了時序特征及空間特征的數據集合,針對時空數據的研究是目前數據分析領域的重要方向之一。在時空數據分類中有一種類型具備了特有的數據特征,這些數據記錄的是個體在某固定空間位置里的駐留狀態信息,常見的業務場景包括網吧上網記錄、賓館住宿記錄以及停車場出入記錄等。這類數據記錄了不同用戶不同時間段在固定的地點停留的信息,從中可以繪制不同特征的用戶畫像,總結個體的行為模式,挖掘出具有相似行為的群體,對從業者精準營銷、安全防控等領域有很重要的指導意義。

現有的統計分析或機器學習等數據挖掘技術很難做到從龐雜的時空數據中發現系統化的知識,自動識別復雜的模式,這為相關數據的分析工作帶來不小的挑戰。如何通過更為自然、智能的方式提升相關人員對個體/群體時空信息的理解能力和利用效率,已經成為當前信息領域必須解決的關鍵問題之一。為了充分挖掘利用海量時空數據其中蘊藏的價值,需要結合數據分析與可視化技術,即把復雜時空數據轉換為業務人員更易理解的圖形,通過人-機信息交互得到更多更有價值的知識。

因此可視分析方法已成為目前大數據分析領域近期研究的熱點。使用數據可視分析方法分析數據記錄特征,發現用戶行為模式,展示統計結果,將復雜的數據用直觀的表現手段呈現,增強用戶信息認知能力,減少用戶的認知負荷,提升數據分析結論的可解釋性。

本文以網吧用戶上網記錄數據為基礎,研究用戶模型構建和行為模式發現方法,結合先進的多模態可視化技術,支持多角度、多視圖的數據描述,通過色彩、布局、方向、形狀等多維度的渲染,實現了一個針對此類時空數據的可視分析系統SRDVis,該系統開發目標是滿足相關業務監管人員的管理和經營需求,已在相關領域開展應用并取得了良好的效果。

1 相關工作

1.1 時序數據可視化

時序數據指的是包含時間屬性的數據,體現數據隨時間變化的規律以及數據分布的時間規律,時序數據可視化在數據可視化領域目前屬于熱點研究,例如使用時間軸的線性和周期時間可視化,使用日歷視圖的可視化,或分支和多角度時間可視化[1]等。有的研究工作則試圖解決大規模時序數據可視化中的視覺混淆問題,例如使用平行坐標圖[2],或使用多模態可視化技術結合多種視圖的方式[3]。

常見的時序數據可視化的映射方式有基于時間坐標軸的柱狀圖、折線圖等[4-6]視圖。針對有周期性時序數據特征的設計空間表達,Weber 等[7]提出一種基于螺旋線的新方法。有學者使用可重新排序的圖表矩陣,通過交互式探索來比較相關數據的不同側重點[8-9]。Javed 等[10]提出的Stack Zooming 交互式構建多焦點縮放的層次結構。Gruendl 等[11]針對高維時序數據提出了平行坐標圖的三維擴展。

除了設計新穎的視圖,研究者還通過結合用戶視覺信息和人機交互的手段幫助人們提高數據分析的效率,如Martin 等[12]設計刷選式動態過濾技術來探索時序數據的特征。Yang 等[13]提出DOSFA 發現多維度數據間的相似性,通過交互的維度層次結構操作,探索不同維度之間關系。Furnas 等[14]使用上下文用戶界面交互技術。Zhao[15]和Chen 等[16]使用多視圖關聯協調技術實現多元復雜數據的可視分析任務。

1.2 地理空間分布可視化

地理空間數據普遍具有稀疏、多維、時空等特點,使用地圖視圖是最常見的空間數據可視化方法。除此之外,Cornee 等[17]提出基于點(特征編碼、顏色、密度、連接)的交互探索世界貿易數據的方法。Chen 等[18]采用分層多類采樣技術來表現多類數據特征,使用分層多類藍噪聲采樣方案,生成點分布的可視化抽象。Guo 等[19]提出基于核的密度估計,使用流密度聚類模型,過濾重復信息來表示移民情況。Collins 等[20]引入氣泡集方法,使用一個連續的、閉合的、等值線來描繪集合的成員。Yuan 等[21]提出的高維傳遞函數,結合3D 時空視圖等多種視圖高效支持多模態數據探索。

2 數據處理與分析

SRDVis 系統使用的是公開數據集,來源自ChinaVis2017 數據可視分析挑戰二,該集合中包含重慶市內3 000 多個網吧的基本信息及2016年三個月約1 600 萬行上網脫敏記錄,數據大小為1.7G。本章首先介紹該數據集的數據格式,數據分析的任務,然后介紹系統工作流程和數據處理方法。

2.1 數據描述

2.2 任務分析

根據數據的描述,聯系具體問題,可以對駐留行為時空數據進行以下幾個任務來進行分析:

任務1:全局時空特征分析,主要是展示所有記錄數據的時空統計特征及網吧的經營情況。例如按日期區分統計上網人數和上網時間,按每天的時段區分上網人數和上網時間,及按照用戶年齡、性別進行統計。

任務2:用戶行為模式分析,主要是對數據中的個體用戶行為記錄進行分析。行為特征包括周期性、趨勢、高頻使用階段以及不同用戶間的行為相似程度。例如統計不同省市的上網人數、人均平均上網時間和次數,或按不同籍貫統計分析對應的人群上網行為特征,包括常去網吧的地理分布特征等。

任務3:共現群體發現,發現可能存在共現行為的群體。在網吧個人行為記錄數據中,將多個人在同一個網吧,“同時”上機且“同時”下機定義為一個群體。這里的“同時”表示一個極短的時間間隔,本文中,我們將這一閾值定義為5 分鐘,即同一個網吧中,兩兩用戶之間上機的時間間隔必須在5 分鐘之內,且下機時也滿足此條件。該閾值的越大則挖掘出的群體越多,同時設置群體最小規模為2 人。

2.3 系統工作流程

SRDVis 系統主要分為數據處理、數據分析及數據可視化3 個部分,如圖1所示。數據處理部分主要是對原始數據進行清洗和重新組織,提取分析所需的特征;數據分析部分主要是建立完善的用戶畫像標簽體系結構,從不同維度對用戶進行描述,對個體行為進行建模,探索可能存在的群體模式;數據可視化部分采用多模塊協同交互式可視界面,展示記錄數據時變特性及空間分布特征。

圖1 系統工作流程圖Fig.1 System workflow

2.4 數據處理與分析

數據處理工作首先是數據清洗,包括修正格式異常的數據,缺少字段的數據,或字段不合規范的數據,或字段明顯不合情理的數據,去除格式異常的上網日期、上網人員生日、籍貫等數據。其次是從上網記錄中清除經緯度為空的網吧,并刪除與該網吧有關的上網記錄,去除不需要的字段。最后將毫無規律的數據整理成兩種格式,分別為以網吧的數據標識為主要索引的記錄文件(包含了網吧的經緯度位置信息、經過脫敏后的網吧名稱信息以及經過統計處理后的經營信息)和以日期為主索引的記錄文件,且文件中的記錄按上機時間排序,以便于之后進行數據分析任務和各種視圖可視化。

數據分析工作主要包括用戶模型構建和共現群體發現。我們針對原始數據類型特點,使用特征提取、文本分類、社區發現、LDA 等挖掘算法提取用戶特征,抽象出標簽化的用戶模型,標簽包括用戶靜態數據例如性別、年齡、所在地域等基礎屬性,還有動態行為數據包括上網時間、上網地點、上網時長等。然后根據個體行為模式特點進行聚類,實現對群體的定義及劃分,最后挖掘個體及群體的行為模式,構建個體-群體的關聯體系。

3 可視化設計

本節對SRDVis 系統中的可視化視圖設計思路和方法進行詳細描述和功能介紹。

3.1 基于極坐標的時序特征視圖

展示數據的時序特征時,我們仿照表盤設計了一種基于極坐標的時間特征展示視圖,如圖2(a)所示,該圖將圓周劃分為24 等份,每一份代表了一天對應的時間,最小單位為小時,同時使用不同顏色將每天的時間劃分為工作時段(藍色)、休息時段(綠色)、夜晚時段(紅色)三部分,可以直觀地展示這三類時段中數據的分布情況。

圖2 上網行為時序特征可視化視圖Fig.2 Visualization view of time series characteristics of online behavior

基于該坐標系,可以繪制圓心相同、半徑不同、長度不同的固定寬度弧線,代表行為記錄的時間延續情況,如圖2(b)所示。弧線顏色分為兩種,其中綠色弧線代表當天為休息日,藍色弧線代表當天為工作日。弧線沿順時針繪制,起點和終點代表上網的開始和結束時間,長度代表本次上網時長,弧線距圓心的距離代表日期的先后順序,即靠近圓心代表日期較早,遠離圓心代表日期較晚。本系統用此視圖展示個人所有上網延續時間的數據特征。

另外在坐標系中還可以嵌套南丁格爾玫瑰圖來展示不同時段的數據統計信息,如圖2(c)及圖3(c)所示,其中每小時的統計數據條使用不同顏色繪制,從圓心到圓周的數據條長度代表統計數量的多少。該圖不易展示每部分數據的精確數量,但能展示出一天內不同時間分段的統計數字變化趨勢。本系統使用該圖展示人數和總上網時長的數據統計量。

另外系統使用日歷矩陣圖來表現更大時間尺度范圍的離散數據,以便于分析特定時間段內的行為特征。如圖3(b)上方的兩個視圖所示,每一小方格代表一天,將對應日期的記錄統計數量熱力值繪制在圖上,顏色深淺代表了記錄發生的數量多少。此視圖對全局數據的時序行為特征分布進行了有效的可視化支持。

3.2 時空特征分布視圖

圖3 是SRDVis 系統的主界面之一,用來呈現數據的時空屬性分布特征。系統中使用基于行政區域地圖的熱力圖來展示數據中的人員地理空間分布特征,如圖3(a)所示,其中左圖是全國行政區域地圖,展示了來源于不同省市的上網人員總計數,各行政區域的顏色越偏向紅色說明該省(市)的人群數量越多,右圖是重慶的行政區域地圖,用熱力圖的方式展示各地人群去往特定場所的分布,數據使用的是進行過隨機偏離坐標的網吧位置信息,熱力點紅色越密集的地方說明去的人數越多。通過對左圖的點擊切換省市操作可以動態展示不同籍貫的上網人員在重慶各地網吧的地理空間分布情況。

圖3 SRDVis 系統數據時空特征分析界面視圖Fig.3 Data spatio-temporal characteristic analysis interface view of SRDVis system

除了使用地圖展示全局統計數據的空間分布特征,系統還需要分析個人上網行為的時空特征,總結存在相似規律的同類用戶行為模式。因此我們根據每兩次上網記錄之間的間隔時空屬性特征來描述個人上網行為特征,其中包括了兩次上網記錄的間隔時間及相同或不同網吧地點之間的聯系。

首先,我們從數據集中選擇某人的所有上網記錄,然后我們得到3 個列表:

其中Ltime1表示該用戶開始上網的時間集合,Ltime2表示該用戶結束上網的時間集合,Lbar是用戶所在網吧對應的地理坐標集合(無重復)。接下來,我們計算出每兩次上網行為之間的時間間隔列表:

其中in= tbn+1-ten,表示第n 次上網結束時間與第n+1次上網開始時間的間隔。然后計算出每次上網的時間長度列表:

其中on-1= ten-tbn。之后我們將Linterval及Lonline集合數據一起映射到極坐標,就顯示出具有交錯表示的視圖,其中黑色部分代表了上網的時長,灰色部分代表了兩次上網時間間隔的時長。餅圖的大小代表了用戶活動范圍的大小,我們使用Lbar數據集計算半徑(MC_R),即計算包含所有網吧的地理節點形成的最小包圍圓(MC),這里MC_R 是MC 的半徑。依據Lbar集合的無重復元素數量,可以展示幾種不同的狀態如圖4所示。圖4(a)是只有一個網吧的情況,定義MC_R 是餅圖半徑的最小值(例如5px)。圖4(b)有兩個網吧,使用線段(LS)連接兩點,定義MC的中心是LS 的中點,MC_R 是LS 的長度的1/2。圖4(c)有三個網吧,連接三點構成三角形,頂點代表網吧,然后計算出三角形的外接圓(CMC),這里的CMC 就是MC。如果存在多于三個網吧的情況,則如圖4(d)中所示,使用模擬退火法生成最小包圍圓。圖4 設計的餅圖中,用戶上網總時長分兩種情況,一種是查看個體用戶的上網行為時空分布特征時的本用戶統計上網總時長,從1 小時到3 個月不等;還有一種情況涉及到多用戶的行為特征比較,這時會以總上網時長最長的用戶時間總長度為基礎,繪制同其比較用戶的行為特征。

圖4 個人上網行為時空分布特征可視化設計Fig.4 Visual design of spatial-temporal distribution characteristics of personal online behavior

3.3 統計特征視圖

系統還設計了一些對固有特征進行統計展示的視圖,如圖3(d)所示,左圖為柱形折現結合視圖,用來分析統計人員的籍貫信息,藍色柱狀表示來自該地區人員的數量,橙色折線表示該地區人員記錄產生的平均時長;右圖用區域堆疊圖展示不同年齡段的上網人員總數,同時使用紅藍顏色區域區分人員性別。

另外在圖7(b)中還使用了平行坐標圖展示了對不同年齡段人群上網的特征分布,使用多條平行的豎直坐標軸表示數據的多個維度,在坐標軸上刻畫某一維度的數據數值或者分類,然后用線連接某一數據項在所有坐標軸上的點,有效分析上網與年齡階段以及時長之間的關系。

3.4 共現關系視圖

系統使用基于時間軸甘特圖的改進視圖來表現兩人或多人之間行為的共現關系,如圖5所示,其中x 坐標軸代表了時間,y 坐標軸是每個上網用戶,使用平行與x 軸的甘特圖表示每位用戶的行為記錄發生時段,并將每個時段按5 分鐘劃分,使用平行于y 軸的虛線連接同時出現的用戶,顏色相同的甘特線代表這些用戶是在同一場所。

圖5 個人上網行為共現關系視圖Fig.5 Co-occurrence relationship view of personal online behavior

同時系統設計了使用力導向的關系圖表現所有具備共現情況的用戶,如圖6所示,圖中節點代表一個用戶,每條線都代表了兩點之間至少有3 次時空特征重合的現象,時空特征重合指的是對應的兩個用戶的上網行為記錄中,存在著地點一致(即兩人上網所在網吧為同一個),以及兩人的上網時間區域有重疊的現象。經統計,所有可能的用戶共現事件都發生在3 天之內,因此在力導向關系圖中設置了1-3 天的顏色區分。其中灰色的節點說明所有的重合事件都發生在同一天,藍色的代表了兩天,橙色的代表了3 天。甘特圖和力導向關系圖的結合可以有效且直觀地顯示出群體成員的聚集時間范圍,對群體的發現和對群體行為分析十分有益。

圖6 人群共現關系可視化視圖Fig.6 Visualization view of crowd co-occurrence relationship

4 案例分析

本節中,通過兩個實際的案例來說明分析方法與系統的有效性,其中案例一是基于上網人員的固有屬性及行為特征繪制全局用戶畫像,實現對數據統計特征的識別和分析。案例二是發現可能存在的共現群體并展示個人的上網記錄時空分布特征。

4.1 用戶畫像

首先按人均計算每個區域的上網時間與次數,結果如圖7(a)所示,柱形圖是人均上網時間(單位:分鐘),線性圖是人均上網次數(單位:次)。可以看出人均上網時間與上網次數不同省份之間的差距不大,人均時間最長和次數最多的記錄都是西藏,人均時間最短的是天津,人均次數最少的是重慶(人均1 次)。

圖7 用戶畫像可視化展示Fig.7 Visualization display of user persona

其次,用戶年齡、上網時長、用戶數量及網吧數量的關聯關系使用平行坐標圖展示,如圖7(b)所示。可以看出1980年前出生的用戶去網吧次數和使用時長都很少,主力用戶是80 后和90 后的用戶,同時這一階段的用戶年齡與上網時長呈反比關系。

接下來是使用區域堆疊圖展示不同籍貫上網人員的年齡及性別分布畫像,圖7(c)的數據來自上海,這里將上網人員的年齡分為5 組,分別是70 前(1970 前)、70 后(1970-1980)、80 后(1980-1990)、90 后(1990-2000)及00 后(2000 后),藍色表示男性、紅色表示女性。從中可以看到網吧用戶中90 后人數占比最多,其次是80 后,男性人數大大超過女性人數。

最后是展示流動人口的上網時間與時長的特征,這里使用了圖7(d)中的日歷熱力圖及圖7(e)中的基于極坐標的南丁格爾圖來分別表現不同尺度下的人員分布特征,最小單位分別是“天”和“小時”。圖中展示的是來自北京的上網人員畫像,其中左邊視圖展示的是不同日期及不同時段上網人數的分布,右邊視圖反映的是不同日期及不同時段的平均每人上網的時長分布(單位是分鐘)。基本的時間分布情況是:休息日多于工作日,11月人數多于10月和12月,上網時段以12 點至21 點人數最多,上網時間分布則比較平均。

4.2 共現群體發現

我們將網吧用戶可能存在的共現群體定義為至少有兩個用戶上網時空特征重合,即同一時段這兩名用戶在同一網吧上網。在系統展示所有可能的共現關系時過濾了上網記錄少于3 次的用戶,因為個人記錄太少會造成偶然因素過大使得分析結果不準確。最終我們篩選出個人上網次數大于3 次的數據進行分析,計算每個網吧中兩兩用戶之間的共現情況作為邊,有共現關系的用戶作為點,再次篩選出共現關系大于等于3 次的點和邊,形成了最終的關系圖如圖8(a)所示。

該圖中每條線都代表了兩點之間至少有3 次時空特征重合的現象,其中橙色的節點說明有3 天都發生了時空特征重合事件,顯然橙色節點之間所形成的子圖代表一個群體的可能最大。

為了驗證圖中的群體是否是真實存在的,我們使用基于時間軸甘特圖的改進視圖來詳細描述兩人或多人之間上網行為的關系,如圖8(b)所示。通過觀察這個發現的群體,我們可以發現這5 人出現時空共現的重合點集中在同一天的12 小時之內,且這5 人在其他時間段均沒有出現共現現象(其中的2人或3 人也沒有),到此可以大致判斷這種共現可能是一次巧合。為了進一步加強判斷,通過查看每人的詳細上網記錄進行比較,如圖8(c)所示,給出了這5 人其中的1 人的上網記錄詳細時序視圖及時空分布視圖,再通過比較其他幾人的個人特征視圖,可以發現這幾人之中確實沒有時空特征相似的情況,因此得出結論,這5 人不是共現群體。而橙色節點代表的2 個用戶(視圖可參見圖5)的重合上網時間分布在3 天不同的日期中,且沒有其他額外的上網記錄,結合個人詳細記錄的比較,我們可以判斷出這2 名用戶可能是屬于一個共現群體的。

圖8 共現關系發現及用戶行為展示Fig.8 Co-occurrence relationship discovery and user behavior display

5 結論與展望

本文基于現實的時空數據(包括個體行為記錄等)設計并實現了SRDVis 系統,該系統使用可視化視圖來輔助分析不同特征人群的上網行為,為業務監管人員提供可能的群體行為判斷、預測等分析手段。SRDVis 系統使用可視化分析方法,可以幫助用戶從海量、異構、復雜的數據中發現感興趣的信息,獲得更深入的理解。文中的可視化方案設計簡潔明了,針對每個設計任務使用多種視圖來輔助分析,部分視圖設計對多種包含時間空間信息的業務領域數據分析系統的可視化實現都有很好的適用性,包括基于極坐標的時序特征視圖、基于行政區域地圖的熱力圖、時空分布特征餅圖、基于時間軸甘特圖的共現視圖及日歷矩陣、平行坐標等視圖均在其他時空數據分析系統中得到實際應用,例如停車場數據分析系統等,具有一定的擴展性。

團隊后續的研究工作包括擴展數據集,整合天氣、節假日等多種數據源,進行數據融合分析,并從框架、模型、算法、設計到交互方式,使SRDVis系統更加完善,從而提高從業者數據營運能力,實現業務監管部門對相關異常事件的事前預警和事后監督反饋。

利益沖突聲明

所有作者聲明不存在利益沖突關系。

猜你喜歡
可視化特征用戶
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
基于CGAL和OpenGL的海底地形三維可視化
如何表達“特征”
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 免费无码AV片在线观看国产| 久热re国产手机在线观看| 日韩国产高清无码| 找国产毛片看| 国产一级毛片高清完整视频版| 99视频精品在线观看| 最新国产网站| 91成人试看福利体验区| 国产无码精品在线| 久久永久视频| 狠狠做深爱婷婷久久一区| 蝴蝶伊人久久中文娱乐网| 亚洲码在线中文在线观看| 国产伦片中文免费观看| 成人精品亚洲| 亚洲欧美日韩成人在线| 欧美日韩免费在线视频| 久久香蕉国产线看精品| 国产精品999在线| 国产精品区网红主播在线观看| 日韩精品一区二区三区中文无码 | 88av在线播放| 午夜小视频在线| 国产人妖视频一区在线观看| 巨熟乳波霸若妻中文观看免费| 免费看的一级毛片| 亚洲欧美不卡视频| 青青草原国产av福利网站| 毛片在线播放a| 麻豆精品久久久久久久99蜜桃| 国产精品福利导航| 国产成人精品高清不卡在线| 91精品小视频| 国产在线第二页| 久久成人免费| 欧美成人二区| 亚洲日韩AV无码一区二区三区人 | 在线国产欧美| 国产精品视频白浆免费视频| av尤物免费在线观看| 一本色道久久88综合日韩精品| 好紧好深好大乳无码中文字幕| 亚洲综合色吧| 亚洲无码37.| 欧美视频在线不卡| 国产免费怡红院视频| 欧美在线一二区| 操国产美女| 免费看a毛片| 国产精彩视频在线观看| 91在线丝袜| 99视频在线精品免费观看6| 亚洲综合香蕉| 毛片视频网| 亚洲人成在线精品| 九色视频在线免费观看| 巨熟乳波霸若妻中文观看免费 | 日韩人妻少妇一区二区| 欧美日韩v| 手机精品福利在线观看| 亚州AV秘 一区二区三区| 亚洲欧美日韩动漫| 亚洲欧美另类色图| 亚洲人成网18禁| 99精品欧美一区| 播五月综合| 四虎成人免费毛片| 国产成人久久综合一区| 亚洲 欧美 偷自乱 图片| 男人的天堂久久精品激情| 国产乱子伦手机在线| 亚洲全网成人资源在线观看| 热久久综合这里只有精品电影| 一级全免费视频播放| 国产精品偷伦在线观看| 丁香婷婷久久| 国产精品专区第一页在线观看| 青青草原国产| 亚洲日本www| 美女毛片在线| 国产一区二区三区夜色| 精品无码日韩国产不卡av|