999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聚類算法的用戶互聯網偏好分析

2022-07-25 09:42:40畢佳佳
現代計算機 2022年9期
關鍵詞:用戶

畢佳佳

(安徽職業技術學院信息工程學院,合肥 230011)

0 引言

隨著移動互聯網時代的到來,移動用戶每天都會產生大量的網絡數據。這些數據中隱藏著很高的價值,對于商家而言,如何從大量的數據中挖掘出有價值的信息,提高其商業價值,是一個具有意義的挑戰。對于運營商而言,語音收入正在大幅度下降,但其擁有大量的客戶群體,每個用戶每天都會產生大量的行為數據,這些數據都會存儲在運營商的系統數據庫中。運營商可以根據不同的業務數據,從不同的運營方向挖掘用戶的不同價值,提高運營商自身的利益及競爭力。因此,如何在經營過程中將用戶數據變現,提高經營價值是其核心問題。

移動用戶上網時的行為表現往往會具有一般的規律性,運營商可根據用戶的不同規律性,有針對性地進行精準營銷。針對移動用戶的上網行為數據進行挖掘,挖掘出不同用戶的不同規律,分析用戶的上網偏好,給用戶打上偏好標簽,為后期精準化營銷奠定基礎。

本文使用某運營商業務系統的用戶行為數據,結合對各網站及社交媒體進行爬取的數據進行解析,經過數據處理以后,使用聚類算法K-means 對用戶在互聯網上的行為偏好進行挖掘。

1 互聯網外部數據爬取及解析

為了精確地分析移動用戶的互聯網偏好,豐富分析使用的數據類型和規模,本文利用當下流行的爬蟲技術,結合容器化及智能化手段,完成各類網站及社交媒體信息的爬取,為上層應用提供基礎數據支撐能力。爬蟲技術包括微信及微博爬蟲、規則爬蟲、自動化爬蟲、定制爬蟲等,涵蓋的信源類型包括新聞、論壇、微博、微信、博客、商機、商家等。本文通過爬蟲技術采集了9 萬條url 信息,同時建立了URL/UA配置庫。

本文采用基于DPI技術,結合URL/UA 配置庫,對用戶上網日志數據進行解析。DPI是一種深度報文解析技術,可解析用戶網站訪問及app使用情況。本文通過該技術從爬取的用戶上網日志數據中解析出16 萬款App,涵蓋了金融、購物、游戲、娛樂、閱讀等800大類信息。通過對網頁內容解析后,從9 萬條url 信息中識別出圖書、視頻、音樂、資訊、商品等類型數據。

2 用戶行為偏好挖掘

2.1 數據預處理

將用戶上網的數據解析后,與其通信行為數據進行關聯匯總,形成用于挖掘用戶行為偏好的初始數據。數據見表1,主要包括性別、年齡基本信息,上網時間、流量、套餐、ARPU等通信行為數據,以及從上網數據中解析的應用名稱、應用分類1級、2級等信息。

通過對表1進行數據挖掘,分析用戶上網影響因素,從而細分用戶群體,為精細化營銷奠定基礎。

表1 用戶行為偏好分析初始數據

為了方便快速地對用戶行為數據進行分析,提供有效的決策支撐,需要對數據進行預處理,提高數據的質量,保證挖掘的效果。

首先對初始數據按照以下經驗規則進行粗粒度的分類,形成訓練樣本。

(1)將按照年齡層次劃分以下四部分:小于20 為少年,20~30 為青年,30~50 為中年,大于50為老年。

(2)將上網時間按照時間段劃分為以下五個部分:9:00 之前為上班途中,9:00~12:00為上午,12:00~17:00為下午,17:00~19:00為下班歸途,19:00~24:00為晚上。

(3)根據上網日期可劃分為工作日、節假日、周末三種類別。

(4)將ARPU 大于200 元劃分為高消費用戶。

(5)按照上網天數劃分:1~10 號為上旬,10~20為中旬,20~30為下旬。

(6)按照流量劃分:0~100 M 為低流量用戶,100 M~2 G為中流量用戶,大于2 G為高流量用戶。

經過預處理后數據如表2所示,由“性別”、“年齡”、“上網日期”、“上網時間段”、“日期類型”、“流量”、“應用名稱”、“應用分類1 級”、“應用分類2 級”、“套餐”、“ARPU”11 個特征構成。其中,“ARPU”值為運營商每月從用戶身上所獲取的利潤。

表2 上網記錄預處理后的數據

2.2 基于聚類模型的用戶偏好挖掘

聚類是一種無監督的學習算法,根據“物以類聚”的思想將數據對象按照相似性進行分類,使得同一組內的數據對象之間的距離盡可能地小,組間數據對象之間的距離盡可能地大。

本文采用基于劃分的聚類算法K-means 對用戶行為數據進行挖掘。K-means 算法簡潔高效,原理簡單、易于實現,運行效率快,可適用于大規模的數據挖掘。K-means 的基本思想是把數據集劃分為個簇,每個簇內部的樣本數據之間都非常的相似,而不同簇之間的樣本數據之間差異性很大。K-means 算法聚類的過程以圖1 為例,該示例將用戶的Arpu 和流量兩個特征聚成2組。

圖1 K-means聚類過程示例

步驟如下:

(1)確定=2,將用戶聚成兩組;

(2)任選兩個數據作為初始聚類中心點,如圖1中第二個子圖中的圓形數據點;

(3)分別計算剩余數據對象與兩個初始聚類中心點的距離,距離哪個中心點近,就指派到哪個簇中,最終形成兩組初始的簇;

(4)根據劃分的兩個簇內數據,分別計算兩個簇內樣本數據的特征均值,來更新兩個聚類中心點;

(5)重復步驟(3),直到聚類中心點不再發生變化或變化很小,或者人工設置迭代次數,提前終止迭代更新。

通過K-means 算法將用戶行為數據的不同特征聚成不同的類別。根據聚類中心結果的特點,結合專家經驗,給用戶打上不同的標簽。通過實驗分析發現,“客戶興趣”概念的標簽可能是“游戲愛好者”、“閱讀愛好者”或者“視頻愛好者”,“游戲愛好者”的游戲偏好可能是“王者榮耀”,用戶上網的時間段集中在19:00~24:00。用戶更喜歡在周末或放假期間觀看視頻;通過ARPU 值對用戶的消費等級進行評估;通過上網天數觀察用戶為高頻次、中頻次或低頻次活躍用戶。這些實驗結果分析用來進一步指導產品的實際運營工作。

3 結語

本文首先采用DPI 技術實現對移動用戶上網日志數據進行解析,再結合用戶基本通信信息,形成用于挖掘偏好的初始數據。為了提高數據質量,對初始數據進行了預處理,對處理后的數據采用聚類的算法將用戶分成不同的類型,挖掘用戶的偏好標簽,為進一步指導產品的運營工作提供了支撐。

猜你喜歡
用戶
雅閣國內用戶交付突破300萬輛
車主之友(2022年4期)2022-08-27 00:58:26
您撥打的用戶已戀愛,請稍后再哭
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年5期)2016-11-28 09:55:15
兩新黨建新媒體用戶與全網新媒體用戶之間有何差別
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
挖掘用戶需求尖端科技應用
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 亚洲伦理一区二区| 国产高清国内精品福利| 欧美激情视频二区| 久久久久亚洲av成人网人人软件| 色偷偷男人的天堂亚洲av| 一级毛片在线免费视频| 成人午夜精品一级毛片| 97免费在线观看视频| 久久青草免费91观看| 亚洲第一黄片大全| 亚洲一级毛片| 天天综合网亚洲网站| 中文字幕不卡免费高清视频| 国产免费黄| 国产精品丝袜视频| 天天摸夜夜操| 国产精品三区四区| 成人免费视频一区二区三区| www精品久久| 亚洲视屏在线观看| 热伊人99re久久精品最新地| 尤物成AV人片在线观看| 91最新精品视频发布页| 黄色网站不卡无码| 99久久99这里只有免费的精品| 国产精品久线在线观看| 日韩AV手机在线观看蜜芽| 国产大片喷水在线在线视频 | 一本无码在线观看| 视频在线观看一区二区| 国产自产视频一区二区三区| 精品国产乱码久久久久久一区二区| 欧美日韩精品一区二区视频| 一级爆乳无码av| 日韩二区三区无| 国产黄网永久免费| 久久人午夜亚洲精品无码区| 日韩成人在线视频| 欧美一区福利| 欧美日韩在线国产| 亚洲无码高清一区二区| 操操操综合网| 久久伊伊香蕉综合精品| 久久国产免费观看| 欧美性猛交一区二区三区| 国产无码制服丝袜| 亚洲一级毛片免费观看| 免费在线视频a| 亚洲中文字幕在线精品一区| 精品一区二区三区水蜜桃| 一本大道在线一本久道| 极品尤物av美乳在线观看| 国产精品久久久久久久久kt| 国产本道久久一区二区三区| 日韩欧美中文| 人人91人人澡人人妻人人爽| 亚洲国产成人自拍| 国产精品永久在线| 永久免费AⅤ无码网站在线观看| 亚洲无码一区在线观看| 国产欧美中文字幕| 黑人巨大精品欧美一区二区区| 欧美在线精品一区二区三区| AV无码无在线观看免费| 国产福利影院在线观看| 国产视频一区二区在线观看 | 亚洲第一区在线| 无码AV日韩一二三区| 成人福利一区二区视频在线| 亚洲欧洲天堂色AV| 四虎永久免费地址在线网站| 亚洲欧洲日韩国产综合在线二区| 日本亚洲最大的色成网站www| 国产福利免费视频| AV不卡无码免费一区二区三区| 日韩中文欧美| 67194亚洲无码| 亚洲第一黄色网| 伊人色综合久久天天| 人妻91无码色偷偷色噜噜噜| 亚洲无码精品在线播放| 麻豆精品在线视频|