山東青年政治學院 隋國政
淺談用戶畫像構建及應用
山東青年政治學院 隋國政
隨著大數據技術的發展,越來越多的企業發現通過大數據技術對海量的用戶行為數據進行分析可以更精準、快速的掌握用戶的一些重要的特征信息,從而為企業發展提供信息基礎。本文分析了用戶畫像構建的基本思路,并對其應用進行了簡單介紹。
大數據;用戶畫像;標簽隨著計算機的發展,人們對計算機解決問題的要求也越來越高,從最開始的處理數學計算,經歷支持圖形化操作、單機辦公軟件、支持資源共享(網絡)、B/S架構的企業辦公軟件,一直到互聯網行業的蓬勃發展,近幾年互聯網行業進入“大數據時代”,人們對計算機使用過程中產生的數據產生了極大的興趣,希望通過對這些數據的挖掘、分析去發現潛在的商業價值,推動企業的發展。隨著大數據技術的發展,越來越多的企業發現,通過大數據技術對海量的用戶行為數據進行分析可以更精準、快速的掌握用戶的一些重要的特征信息(行為、消費習慣等),從而為企業發展提供信息基礎。隨著對用戶行為分析的深入,一個描述這個過程的概念逐漸產生,就是用戶畫像。
什么是用戶畫像?在下定義之前先通過一個例子了解,我們經常這樣描述一個人:男性,35歲,中等身高,國字臉,短發,微胖,大學本科畢業,在XX單位工作,主要從事互聯網行業,屬于高收入人員,經常網購,偏好電子產品。這樣的描述可以讓我們對一個人的某些方面有很直觀的了解,如果信息足夠,我們可以大概知道這個人的樣子,從而對這個人的一些行為進行預測或分析,這就是一個用戶畫像的簡單案例,這些描述就是我們對這個人的特征的抽象,這里用標簽來描述這些特征,如果對一個人的特征掌握足夠全面,就可以對這個人產生更具體形象的了解,就像看到了本人的照片一樣,這就是用戶畫像。簡而言之,用戶畫像是根據用戶社會屬性、生活習慣和消費行為等信息而抽象出的一個標簽化的用戶模型。
要進行用戶畫像構建,首先需要了解標簽,標簽是對用戶的社會屬性、生活習慣、消費行為等進行進一步的抽象,通過簡單規則算法或者大數據技術對用戶行為習慣的分析提取,以及對用戶簡單直接的特征描述即用戶標簽,標簽的目的使我們簡單、直觀的了解用戶的某些特征。
通過之前的說明我們可以了解到用戶畫像其實就是對一個人的特征(標簽)進行提煉,即對一個人打標簽的過程。標簽也分不同類別,寬泛的說標簽主要分為基礎屬性標簽(性別、年齡、體型、婚姻狀況、所在地區、工作狀況等)、行為標簽(愛好、常用購物網站、關注商品類別、常出現的地點等)兩大類。
用戶畫像其實就是提煉標簽及制定標簽規則的過程,以基礎標簽為例,對一個人年齡階段的劃分:從出生到滿1周歲(不包括1周歲)為嬰兒;從1(包括1周歲)至6周歲(不包括6周歲)為幼兒;6周歲至12周歲(不包括12周歲)為兒童;12周歲至18周歲(不包括18周歲)為少年;18周歲至40歲(不包括40周歲)為青年;40周歲至65周歲(不包括65周歲)為中年人;65周歲以上為老人年。這是通過人的出生日期經過年齡計算然后在根據年齡階段規則匹配而生成的標簽,規則相對簡單,有許多標簽規則更為復雜,規則標準沒有很明確的標準,需要經過大數據云計算技術對用戶的行為習慣進一步分析才能得出,如“白富美”、“高富帥”等,這種沒有很明確的標準,需要根據人的收入或財富、體型、長相等標準綜合評判后才能獲得。
綜上所述給用戶打標簽的過程就是對用戶的行為習慣或者特定屬性進行提取分析的過程,當一個用戶的被打的標簽足夠多的時候就產生了用戶畫像。
那具體的構建方法有沒有呢?目前有很多已經被大家認可的用戶畫像的方法,如Alen Cooper的“七步人物角色法”,Lene Nielsen的“十步人物角色法”等,這些都是非常好并且非常專業的用戶畫像方法,值得我們借鑒和學習。事實上,當我們仔細了解了這些方法之后,就會發現這些方法從流程上主要可以分為3個步驟:獲取和研究用戶相關信息、細分用戶群、給用戶打標簽并建立用戶畫像。當然,不同行業構建用戶畫像時因為關注點不同,所提取的標簽也有所不同,最終構建出來的用戶畫像也不盡相同。
用戶畫像是為了提取用戶特征,方便我們全面的了解用戶,這里用于用戶畫像的數據來源就是當前能接觸到的所有的用戶數。有的數據反映用戶的基本特征,如:人的性別、職業、戶籍、婚姻狀況等,這些可以通過人員基本屬性直接提取,基本不會發生變化,這種數據稱之為靜態數據(穩定數據)。有些數據是具有時空特性,隨著時間、空間的變化而不斷變化的數據,如:年齡段劃分、常用購物網站、某個時間段關注或購買的商品類別等,這些是隨著用戶所處的時空變化而變化的,這種數據我們稱之為動態數據(時效數據)。
不同行業獲取的數據種類不同,產生標簽也不盡相同,下表以某政府部門和某購物網站為例,分別列出了可以獲取的數據種類和可以分析出的標簽及關注點:

名稱數據種類關注點可獲取的標簽戶籍信息某政府部門車輛相關信息機票信息上網信息火車票信息嫌疑人信息有沒有犯罪嫌疑人在特定地區出現性別、年齡段、地域、婚姻狀況、車輛狀況、是否嫌疑人等快遞信息某購物網站地址信息經常購買商品經常瀏覽商品一年中用戶購買商品記錄用戶的消費習慣,特定時間向用戶推薦其感興趣的商品或針對特定時間、區域用戶的消費習慣人員地域、消費水平、性別、年齡、購物時間、購物類別等
同為互聯網行業,因從事的具體行業方向不同,所以對用戶的關注點不同,決定了他們在構建用戶畫像時提取的標簽也是不同的,接下來以汽車行業和電商行業為例做簡單說明。
汽車行業:一般情況下,一個準備買車的人首先考慮的是價格,收入及存款情況決定了要買的車輛的價格,后面要考慮的就是具體車型了,決定車型的一般是家庭情況,如果是已婚并有2個以上的孩子,有很大可能會考慮七座車型,單身一般會考慮外形比較酷炫的。這種都是比較明確的約束,一般考慮完這些才是挑選具體品牌。
電商行業:由于電商行業涉及物品種類比較多,很難根據用戶的家庭及收入情況來推斷他需要什么商品,這里畫像時比較關注的就是這個人已經購買或關注的商品種類,比如一個人剛買了iphone7,那我可以給他推薦對應品牌的鋼化膜或者手機套;再比如一個人最近一個星期一直在瀏覽籃球鞋類商品,那可以根據他的以往的消費情況進行推薦相應商品。
完成用戶畫像后要使其真正產生價值還要對構成用戶畫像的標簽進行進一步分析,盡量去除那些無關緊要或者影響力比較低的標簽,找到影響我們關注點的那些標簽,從而使用戶畫像真正產生價值。
用戶畫像對互聯網行業尤其是電商平臺尤為重要,將消費者的所有行為數據收集、分析進一步挖掘潛在的商業價值。通過收集消費者的社會屬性(地域、性別)、生活習慣、消費行為等數據,可以分析某個或某一區域的消費者的整體特征,用于向單一消費者進行商品推薦或用于調整區域倉庫某一商品的備貨數量,從而達到精準銷售或節省成本的目標(倉庫商品備貨數量過多會導致商品積壓而占用流動資金,從而導致周轉不靈或對新產品的引進產生影響,從而影響商戶利益)。以推薦引擎為例簡單解釋下:用戶A(男)在情人節買了一瓶紅酒和一個女性手鐲(當然該用戶還有其他數據),標簽提取:非單身、男,時間點提取:情人節,這里我們就可以在特定的節日給用戶A推薦女性喜歡的禮物。這就是我們逛購物網站時經常看到的推薦商品的基本原理。
真正用戶畫像的核心就是大數據量的深度分析算法,涉及從數據采集、清洗、轉換、建模、分析、驗證等復雜過程,需要涉及很多大數據相關技術及不同行業的關注點,本文只是對用戶畫像的構建過程及使用進行了簡單闡述,但可以作為構建并使用用戶畫像的基本思路。
[1]鄭得龍.數據挖掘在企業集團營銷決策中的應用研究[D].浙江理工大學,2013.
[2]孔祥迎.基于社會化標簽的個性化推薦技術研究[D].成都:電子科技大學,2013.
[3]王曉帥.社會化標簽推薦算法的研究[D].南寧:廣西大學,2012.
[4]陳麗霞.基于社會化標簽的P2P語義推薦研究[D].西安:西安電子科技大學,2012.
[5]范能能.圖像社會化標簽預處理與聚類方法研究[D].武漢:華中科技大學,2012.
隋國政(1967-),男,大學本科,高級工程師,研究方向:計算機應用。