張宇 阮雪靈

移動用戶在使用移動網(wǎng)絡(luò)過程中都會留下自己的痕跡,包括:靜態(tài)信息、動態(tài)信息以及它們之間關(guān)系的信息等,企業(yè)可以憑借用戶畫像來提取真實用戶的行為特征以及興趣特征,以便為群體劃分、廣告投放、產(chǎn)品營銷等工作提供依據(jù)。目前,用戶畫像已成為學(xué)術(shù)界、廣告界以及互聯(lián)網(wǎng)界的熱門話題,將大數(shù)據(jù)技術(shù)與用戶畫像構(gòu)建進行有效結(jié)合,發(fā)揮大數(shù)據(jù)算法優(yōu)勢,不僅可以達到有效的內(nèi)容服務(wù)和產(chǎn)品營銷效果,還可以為產(chǎn)品研發(fā)帶來有效的技術(shù)參考。
(一)數(shù)據(jù)平臺整理
數(shù)據(jù)指標(biāo)梳理一般來源于系統(tǒng)之前保存的日志記錄系統(tǒng),可利用Sqoop將HDFS進行導(dǎo)入。如果Sqoop系統(tǒng)暫時無法導(dǎo)入,還可以利用代碼來實現(xiàn)導(dǎo)入,即利用Spark當(dāng)中的JDBC與數(shù)據(jù)庫當(dāng)中的Cache進行有效連接,同樣可將HDFS進行導(dǎo)入。在HDFS導(dǎo)入之后,就需要利用Hive進行編寫,并依照業(yè)務(wù)邏輯將ETL進行有效拼接,確保移動用戶能夠?qū)?yīng)上各種用戶標(biāo)簽數(shù)據(jù),進而生成對應(yīng)的源表數(shù)據(jù),不僅能夠更好的操作用戶畫像系統(tǒng),還有利于后續(xù)利用不同規(guī)則來生成標(biāo)簽寬表。
(二)數(shù)據(jù)平臺計算
目前,數(shù)據(jù)平臺應(yīng)用越來越方便,只要通過系統(tǒng)管理員就可以申請資源以及注冊服務(wù)。但是在處理離線業(yè)務(wù)時往往還是需要應(yīng)用到Hadoop,而Hadoop的實際封裝函數(shù)較為單一,只有Map以及Reduce,還欠缺其他的封裝函數(shù),仍需進一步提高實際開發(fā)效率。首先,在計算框架的選擇過程中,可采用Spark以及Hadoop?!?br>