



摘要:近年來,運營商行業對數智化洞察提出了更高要求,要求以“平臺應用”和“場景化攻堅”為抓手,通過大數據挖掘模型算法,打磨精準運營的客戶洞察能力,為一線深入開展“價值提升”提供方法研究。該文基于數據挖掘技術對某運營商產品訂購用戶數據進行分析,構建了一套基于產品的潛在用戶畫像建設標準化方法,提供了由產品找用戶的關鍵抓手,提升了數據資源向銷售落單的轉化能力,解決了運營商行業營銷不精準、客群適配不精確等問題。
關鍵詞:精準營銷;數據挖掘;用戶畫像
doi:10.3969/J.ISSN.1672-7274.2024.08.023
中圖分類號:TP 311.13" " " " " " " " "文獻標志碼:A" " " " " " 文章編碼:1672-7274(2024)08-00-03
Research on User Profile Construction Method Based on Data Mining Theory System
LI Zheng
(China Mobile Xinjiang Co., Ltd., Urumqi 830000, China)
Abstract: In recent years, the operator industry has put forward higher requirements for intelligent insights, requiring \"platform applications\" and \"scenario based challenges\" as the starting points, and using big data mining model algorithms to polish the customer insight ability of precise operations, providing methodological research for frontline in-depth \"value enhancement\". The article analyzes the user data of a certain operator's product ordering based on data mining technology, constructs a standardized method for constructing a potential user profile based on products, provides a key tool for finding users from products, improves the conversion ability of data resources to sales orders, and solves problems such as imprecise marketing and customer adaptation in the operator industry.
Keywords: precision marketing; data mining; user profile
0" "引言
以客戶洞察能力建設為中心,以打造用戶畫像分析能力為目標導向,通過自研大數據挖掘模型,結合本地數據資源條件和精準營銷平臺,構建用戶畫像建設標準化流程,打造場景化用戶畫像,能夠實現“落實場景化精準營銷能力建設工作,提升營銷客戶精準識別能力”的目標。
1" "用戶畫像建設流程
1.1 用戶畫像定義
大數據時代下,利用大數據技術進行“用戶畫像”已成為各行各業的選擇。用戶畫像為當前人工智能領域最重要的應用場景之一[1]。用戶畫像是用戶數據的形象化展示,是用一連串的用戶標簽簡短而形象地描述一個用戶的特征[2]。
本次研究為了滿足客戶的業務需要,根據客戶的不同生命周期,選取相應的營銷政策[3],建設“畫像建設四步法”標準化流程,匯聚數據、拉通用戶特征、精細化運營場景,以用戶畫像為媒介,銜接底層數據與上層場景需求,并通過集中運營平臺能力承載推送,避免業務運營“盲打盲推”。
1.2 用戶畫像體系架構
本次研究通過規劃數據層、計算層、應用層,構建“標簽-畫像-場景”三層架構體系(見圖1),在數據層,整合八大標簽維度的數據;在計算層,通過“四步法”挖掘數據價值,實現業務銜接;在應用層,利用集中運營平臺,構建場景和評估體系,提供預見性用戶畫像,增強業務洞察。
CRISP-DM(Cross Industry Standard Process for Data Mining)是一種開放性的數據挖掘標準過程,完整地描述了數據挖掘技術應用于商業或工業問題的關鍵步驟。數據挖掘的過程由以下3個階段組成:
(1)數據準備階段。該階段包括數據收集和預處理。數據收集獲取相關原始數據,預處理包括清洗、集成、轉換等操作以滿足挖掘需求。
(2)模型建設階段。該階段包括模型選擇、訓練、評估、優化和部署5個步驟。選擇適合任務和數據的算法和模型,通過訓練數據,訓練初步模型,評估模型指標,優化參數和特征改進性能,最后部署到實際應用。
(3)結果表達和解釋階段。此階段是對模型的結果進行解釋,結合行業經驗,為決策提供支持。
1.3 用戶畫像“四步法”建設流程
用戶畫像“四步法”建設流程是以精準化客戶洞察為導向,拉通各維度營銷數據,開發數據同步接口,建立并完成數據提取、數據預處理、特征選擇、設計模型算法、模型評估優化、結果輸出與應用等6大步驟,從而快速定位目標客群。
本文通過大數據技術進行數據加工,并基于機器學習算法與數據挖掘標準化流程,結合本省數據現狀與需求,優化衍生,逐步打造出了一套適合本省的用戶畫像建設標準,形成了用戶畫像“四步法”建設流程,其中包含:數據準備、數據預處理、得分計算及推薦區間計算4個步驟(見圖2)。
同時,對收集到的用戶畫像應用效果進行分析研究,提出畫像優化建議,對用戶畫像持續性迭代優化,保障用戶畫像建設工作有序、高效、持續性開展。
1.3.1 數據準備
(1)Python環境設置。為了更深入地分析數據,同時為保證數據的準確和完整性,本次研究選擇了Python3.7作為主要工具先對數據進行預處理。
(2)原始數據變量梳理。從以下方面選取豐富的數據變量,對客戶進行梳理分類,主要包括客戶基礎信息、消費特征、業務訂購特征等。
(3)數據導入及變量構建。通過pandas庫進行數據導入,通過數據分層抽樣,使樣本數據符合真實現狀;同時根據業務需求和數據特征,將原始變量按照時間周期進行劃分,以不同周期計算數據。
(4)數據寬表構建。完成原始數據的梳理整合,構建數據寬表,以便開展下一步數據預處理工作。
1.3.2 數據預處理
(1)數據提取與清洗。首先,根據業務經驗,從現有標簽數據中選擇與產品業務關聯較大的標簽字段,并提供正負樣本數據。其次,在隨機抽樣的基礎上,對負樣本進行分層隨機抽樣,使重要標簽數據分布貼近真實情況。最后,對正負樣本數據進行一系列清洗流程,其中包括數據剔重、缺失值處理、異常值處理等,最小化數據價值損失的同時使數據更好用。
(2)數值編碼。首先,對民族、性別、是否5G終端等非數值型標簽進行數值化編碼,使其能參與到后續計算當中。其次,為使算法更容易收斂至最優解,消除由于量綱不一致導致的數據真實含義與模型識別存在的差異,需統一將數據處理至0~1之間,實現量綱統一。除此之外,將連續的數據進行分段,減小算法的時間和空間開銷,提高對樣本的分類能力和抗噪能力。
(3)特征衍生與組合。基于用戶連續幾個月的消費、行為指標,衍生出均值、趨勢、波動等新指標,計算與某個用戶具有相同套餐的其他用戶群體的ARPU均值、DOU均值、MOU均值,進一步擴充用戶的潛在特征。將一階特征組合為高階特征,提高復雜關系的擬合能力。
1.3.3 得分計算
通過計算各特征變量與模型預測目標的相關性,得到每個特征變量與預測結果之間的得分。本次研究中,采用皮爾遜相關系數法來表征特征與預測目標之間的相關性,計算公式如下:
(1)
根據前期得到的相關性計算結果,按照得分高低對參與計算的標簽進行排名,一般取TOP1-TOP5作為推薦標簽。
1.3.4 推薦區間計算
推薦區間計算由數據分箱、數據分布觀測、區間評估三個步驟實現。首先,項目組針對全量樣本數據繪制KDE概率密度曲線觀測樣本分布狀態,頻率表征每一組區間的樣本量占比,如圖3所示。將全量樣本數據分布與抽樣樣本數據分布進行對比,發現抽樣數據分布與全量數據一致,說明抽樣樣本數據具有代表性。其次,借助業務經驗對數據型標簽輔助分箱,通過觀測分箱區間中正負樣本分布情況,捕捉每個標簽正樣本占比最高的區間。最后,對數值型標簽進行區間劃分并進行合理性評估,評估出最適區間與較適區間。
2" "應用成效
本次研究通過一系列項目溝通管理活動,經過全體組員的努力,終于順利完成交付,并在項目終驗會上得到了各方的一致好評。下面是本次研究沉淀的場景及應用效果。
2.1 精細化用戶畫像建設成果
本次研究通過用戶畫像“四步法”建設流程,構建并輸出涵蓋個人、家庭和新業務三大市場的流量運營、5G業務、移動高清、彩云業務、任我選系列等產品的40多個業務場景的用戶畫像,同時通過客戶消費圈的大小,衡量不同客戶的價值度,為不同客戶提供差異化服務,為業務人員精準營銷提供了選擇營銷對象的思路與方法。
同時為方便業務人員理解和使用畫像,在用戶畫像結果中對推薦標簽按主選和次選進行了分類。業務人員可優先選擇主選標簽進行組合,再根據實際需求,補充添加次選標簽。例如,某款流量包潛在用戶畫像就是由近3個月ARPU均值、是否集團手廳月活(即在一個月內至少使用過一次移動手廳(或稱為“移動客戶端”)的用戶)、繳費總額(元)、主套餐流量飽和度等標簽組成。
2.2 場景沉淀成果
本次研究通過對業務場景進行分析,結合畫像建設成果,設計“人-貨-場”的搭配思路,通過一線市場驗證,沉淀出了50個場景搭配成果,為業務人員精準營銷提供了規則參考。
例如,在“在網大于3個月消費大于90非漢族-XX移動云盤空間包-營業廳彈窗”推薦場景中,“人”是在網大于3個月消費大于90非漢族用戶畫像,“貨”是XX云盤空間包,“場”是CRM(統一運營位)營銷渠道。
3" "結束語
本次研究通過構建用戶畫像“四步法”流程,完成營銷標簽建設,助力一線業務人員選取目標客戶或參考標簽配置營銷活動,并通過調用運營平臺相關營銷策略,開展實時營銷工作,進而提升營銷資源利用率和一線人員工作效率,形成各類套餐資費“上線一款、營銷一款”的良性發展模式。
參考文獻
[1] 李英坤.大數據背景下用戶畫像的統計方法實踐研究[D].北京:首都經濟貿易大學,2016.
[2] 韓晶,張智江,王健全,等.面向統一運營的電信運營商大數據戰略[J].電信科學,2014,30(11):154-158.
[3] 黃志豪.基于移動用戶交往圈的終端營銷策略分析和應用[J].通信技術,2018,51(8):1914-1917.
作者簡介:李" " 征(1979—),男,漢族,山西陽泉人,高級工程師,大學,獲工信部頒發信息系統項目管理師(高級)、軟件設計師(中級)資質,研究方向為數智化輔助營銷能力。