王苗苗
摘要:數據的價值不斷提升,對用戶行為數據的分析可以更精確快速地形成用戶標簽,為企業發展提供數據信息基礎。論述了關于用戶畫像的研究現狀,探究了在數據挖掘基礎上利用聚類分析方法和python語言對互聯網企業的用戶畫像構建,對用戶畫像的應用領域進行了介紹,并總結了用戶畫像在帶來便利的同時也帶來了一些弊端。
關鍵詞:數據挖掘;用戶畫像;標簽
大數據時代,許多實體企業已經爭先開始向互聯網企業進行改革。在第41次《中國互聯網絡發展狀況統計報告》中顯示,數字經濟繁榮發展,電子商務持續快速增長。2017年電子商務等行業的收入水平增速均在20%以上,發展勢頭良好。中國已經上市的互聯網企業超百家,電子商務的服務模式不斷創新、信息技術能力迅速增強。在競爭如此激烈的環境下,互聯網企業必須以滿足消費者需求為導向,以智能化技術為抓手,向用戶提供個性化服務,才能在群雄逐鹿的時代健康發展并且占領一席之地。
用戶畫像也稱為用戶角色,是用來勾畫用戶(用戶背景、特征、性格標簽、行為場景等)和分析用戶需求并且滿足用戶的產品設計的有效方法之一,旨在從海量數據中盡可能分析提煉出有關用戶的信息全貌,從而幫助企業將數據轉化為商業價值。通俗的來講,用戶在互聯網上的基本信息、社會交往以及瀏覽、點擊、評論等碎片化的數據被組織存儲起來,形成一系列的標簽,即用戶信息標簽化。這是在互聯網發展下逐漸產生的一種用戶行為分析方式,其應用也同時促進了互聯網市場的不斷發展。
大數據分析技術在各企業以及政府部門中應用越來越廣泛。文章探究了基于數據挖掘技術的互聯網企業用戶畫像的構建,并綜合分析了用戶畫像技術的應用情況。
一、相關研究綜述
1.概念
數據挖掘,也叫數據采集,是基于統計分析基礎上的一種數據分析技術。從技術角度來定義:指在大量的、不完全的、有噪音的數據中,提取人們事先不知道的、潛在有用的信息,是一種特定信息的搜索過程。從商業角度來定義:是一種商業數據信息處理技術,主要對商業數據庫中的業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性數據并指導商業決策。利用數據挖掘技術,用戶在互聯網中的行為可以被生動的描述出來。
2.用戶畫像研究現狀
近年來隨著大數據的發展,用戶畫像也被越來越多的學者所研究,并且被應用到各種領域以滿足不同的需求。其中An J,Cho H,Kwak H等人,設計了一種基于社交媒體實時數據的自動分析方法,實現了實時創建用戶畫像。Jiabin Li,Zhi Xue提出了一種利用大數據技術分析用戶畫像的新方法,建立了一個數據存儲和搜索模塊的封裝系統。Zhang x,Brown H F,Shankar A提出了一種定量的自下而上的數據驅動方法來創建用戶畫像,以便能夠更好的反映用戶在產品使用過程中的實際工作流程。劉海等人提出以4C理論為基礎構建“用戶畫像”數據庫,通過數據挖掘來達到對消費群體進行細分的目的,能夠準確的定位消費者群體的需求。
3.數據挖掘在用戶畫像中的作用
我國許多學者在此方面進行了一些研究。黃章樹等依據數據挖掘技術提出了一種新的營銷策略,該營銷策略結合內容提供企業的實踐經驗及用戶的實際數據,在保留重點客戶、激活潛在客戶、降低客戶流失率等方面取得良好的效果。李鵬,陳曉東等提出基于客戶端用戶瀏覽行為的數據采集方式,進行Web使用記錄挖掘,并且其實用性得到很好的驗證。陳澤菡對客戶細分、客戶價值、交叉銷售及客戶流失方面等電信業務進行主題分析,通過數據挖掘技術得到大量的用戶數據和業務數據中的潛在商業價值信息,實現精準營銷使企業效益最大化。
一般來說,用戶畫像已經成為企業增強競爭力的有效技術方法之一,數據挖掘技術能夠準確識別和分析目標用戶,對用戶群體的差異化可以進行細分。然而,不同行業的目標用戶及不同的領域有較大的差異,所以我們需要有針對性的構建用戶畫像。
二、用戶畫像構建
構建用戶畫像的關鍵是利用本體對用戶畫像領域中的標簽進行表示、驗證、推理和解釋。本體一般包括類、屬性、實例、公理和推理規則。這里將用戶畫像的構建分為數據采集、用戶行為建模、構建用戶畫像三個部分。
1.數據采集
一般情況可以將用戶數據分為用戶屬性數據和用戶行為數據。用戶屬性分析,主要涉及靜態數據,如姓名、性別、年齡、籍貫、薪資、職業、教育程度、消費水平等,這些基本屬性信息往往由用戶注冊使用某網站或者APP后就可以通過統計直接獲取,一般用于刻畫靜態用戶畫像以便對用戶群體進行差異化的細分。用戶行為分析,主要涉及用戶動態特征及動態變化趨勢,如點擊率、訪問時間、訪問深度、收藏率、購買率、評價等用戶行為時所產生的數據,這些數據則可以根據挖掘相應網站的用戶行為日志或相關數據來獲得。為了全面的分析用戶畫像獲得更準確的用戶信息,這兩個方面都必須具體考慮。
2.基于數據挖掘技術的用戶行為建模
以滿足用戶的需求為目標,要以用戶原始數據為基礎,需要對用戶行為進行建模,從而為分析用戶偏好等重要商業信息提供大量的數據基礎。用戶畫像建模往往就是用戶信息標簽化,將用戶的行為偏好數據及潛在的興趣意愿等進行存儲和分析,形成精準的語義信息。
數據挖掘的方法有很多,文章簡單介紹一下聚類分析方法。聚類分析是指在沒有任何先驗知識的前提下,依據一定的研究和處理將數據聚合成不同的類,并且描述了類問的差異性及同一類中的相似性,是認識和探索事物內在聯系的一種有效手段。從數據集生成不同類別概念的過程,實質上就是一種概念的聚類分析過程。互聯網企業將每天產生的大量用戶數據進行聚類分析,通過對這些信息進行分析處理,可挖掘到用戶的某些行為特征及相似用戶群體,以便進行科學的商業決策。
數據挖掘是通過統計數據、在線分析處理等諸多方法來實現一系列統計分析目標。Pvthon是一種程序設計語言,語法簡潔而清晰、可讀性比較強、便于維護,并且具有豐富和強大的類庫,是實現數據挖掘方法的一種工具。數據挖掘的算法,可以由python具體實現,簡單方便。
3.構建用戶畫像
通過統計分析建模、數據挖掘技術形成一整套用戶標簽體系,能夠預測用戶未來數據,極大地支持了精準營銷的實現,從對潛在用戶的挖掘到吸引新用戶,再到老用戶的培養與流失用戶的回流,體現了其巨大的商業價值。
三、用戶畫像的應用
1.精準營銷
用戶畫像可以幫助互聯網企業較為精準的發現客戶類型,包括忠實客戶、普通客戶、潛在客戶等,針對不同的客戶類型可以提供不同的服務。首先,能夠準確識別和分析目標用戶。比如某女性在某電商平臺上搜索了化妝品和衣服的商品信息,留下了個人足跡,平臺就會針對用戶所留下的瀏覽痕跡進行精準的商品推薦,使用戶在更短的時間內就可以準確的定位到他們可能喜歡的商品,從而達到增加電商銷售額的目的。其次,能夠在精準服務中避免用戶流失。隨著互聯網的發展,各大電商企業競爭日趨激烈,應該利用用戶畫像提取用戶的隱含信息,充分反映客戶的潛在需求、及時跟進服務,在針對性服務中吸引新用戶、挽留老用戶。
2.征信
由于用戶畫像提供了豐富的用戶標簽,其中包括個人基本信息、購買記錄、消費水平、薪資水平、受教育水平、工作單位等,這些記錄可以為個人信用評價提供詳細的數據參考,對用戶的信用度進行較為全面的評估分析。例如支付寶中的芝麻信用、螞蟻花唄和螞蟻借唄。支付寶是我國互聯網支付的領跑者,其附帶的芝麻信用能夠客觀呈現個人的信用狀況。用戶的芝麻信用分數越高代表其信用度越高,并且已經在信用卡、消費金融、融資租貸、酒店、租房、出行、公共事業服務等上百個場景為用戶和商戶提供服務。比如,當某人芝麻信用的分數達到一定等級后可以享受共享單車免押金服務。另外,平臺在分析了用戶的芝麻信用度、購買行為、評價行為以及賬號等級等因素之后,可以豐富該用戶標簽,這些標簽決定了用戶螞蟻花唄和螞蟻借唄的具體額度。
3.搜索引擎
隨著互聯網用戶數量的不斷增加,對于信息的需求也在呈持續上漲的趨勢。如何更有效的利用信息技術為用戶提供更好的服務是現在互聯網企業的一個重要研究問題。搜索引擎是一種重要的服務模式,其技術的不斷完善很大程度上降低了用戶的搜索成本。以百度收索引擎為例,當用戶開始注冊使用,就可以通過采集該用戶的搜索記錄、點擊率、日常訪問日志等行為數據構建相應的用戶畫像,分析用戶接下來想要了解的相關信息,進而將用戶可能感興趣的內容按照結果的相關性排列在搜索結果的前列,優化用戶體驗。其基本思路是將行為相似用戶聚類,為不同類別的用戶給出不同排序的結果,同時還考慮了用戶的位置等信息。
4.個性化業務定制領域
大數據時代信息數量激增,同時信息冗余量也在不斷上升,用戶很難從海量的數據信息中快速的檢索到個人感興趣的信息內容。對于互聯網中的內容服務商來說,需要針對用戶的需求及時提供相應的服務,提高用戶體驗,增加用戶的滿意度。因此,開發了個性化業務定制功能,用戶畫像通常被應用到此領域。例如《今日頭條》,這是一款基于數據挖掘的推薦引擎,為用戶推薦信息,提供連接人與信息的服務的產品。其宣傳標語為:你關心的,才是頭條!根據用戶的行為習慣、閱讀記錄及興趣偏好為其定制個性化服務,為不同的用戶推送不同方向的信息內容,極大程度滿足了用戶的需求,從而提升用戶忠誠度與黏性。
四、結語
用戶在互聯網上的行為軌跡和數據被充分的記錄下來,企業利用這些近乎完整的標簽能夠更精確的勾畫出用戶畫像,從而制定發展戰略。值得注意的是,在享受用戶畫像帶來的利益的同時,也帶來了前所未有的挑戰。互聯網企業掌握著用戶的幾乎全部信息,“信息安全”、“數據隱私”、“大數據殺熟”諸如此類的詞匯開始逐漸出現。首先,在信息安全方面,共享充電寶的出現緩解了不少手機用戶的燃眉之急,但是其中也存在諸多隱患。2017年3·15晚會曝光了用戶在使用充電樁時惡意軟件直接被下載安裝的現象,用戶的信息安全得不到保障,黑客由此便可竊取用戶手機內的個人信息包括,甚至能夠遠程控制支付軟件,不輸密碼就可以購物。此外,數據隱私也是一個讓人擔憂的重大問題,用戶數據的泄漏會導致公眾信任的缺失。互聯網企業應加強信息技術的利用,在技術上保證用戶隱私數據的安全,防范可能出現的風險,如數據丟失,數據非法獲取等。其次,互聯網企業可以通過用戶的日常消費行為,能夠判斷出用戶經常使用什么品牌的手機以及處于什么樣的消費水平,然后看人下單,但用戶是被蒙在鼓里的。然而個性化服務不是看人叫價,企業要避免技術的貪欲,應該構建與大數據發展相適應的消費權利觀念。