摘 要:數(shù)據(jù)革命將改變整個(gè)世界,未來(lái),數(shù)據(jù)將會(huì)是生活變得更加人性化。將數(shù)據(jù)帶入到廣告界,就不用等著消費(fèi)者看廣告牌了,而是直接將廣告發(fā)送給消費(fèi)者,而且能夠深入挖掘這些數(shù)據(jù)來(lái)預(yù)測(cè)人們想要買些什么。這其中最大的難題就是如何在我們每天創(chuàng)造出的海量數(shù)據(jù)中找到關(guān)于顧客的喜好,滿足更多的消費(fèi)需求,這需要在這些數(shù)據(jù)中挖掘出信息,本文提出了一種利用手機(jī)終端數(shù)據(jù)構(gòu)建用戶興趣模型的方法,來(lái)定制個(gè)性化的移動(dòng)廣告。
關(guān)鍵詞:手機(jī);模式;移動(dòng)廣告
中圖分類號(hào):TP391.3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-7712 (2015) 02-0000-02
一、移動(dòng)廣告模式分析
隨著網(wǎng)絡(luò)能力以及通信技術(shù)的發(fā)展,移動(dòng)廣告業(yè)務(wù)也越來(lái)越蓬勃發(fā)展。移動(dòng)廣告其事實(shí)上是利用移動(dòng)通信技術(shù)為廣告提供了一種便捷的傳播途徑。與傳統(tǒng)的廣告模式相比,移動(dòng)廣告的特點(diǎn)是:能夠在任何時(shí)間任何地點(diǎn)將廣告信息發(fā)送到目標(biāo)客戶。事實(shí)上,移動(dòng)廣告產(chǎn)業(yè)的發(fā)展,也給廣告合作、媒體廣告及媒體價(jià)值帶來(lái)了新的機(jī)遇。
移動(dòng)廣告是通過(guò)移動(dòng)設(shè)備(手機(jī)、PSP、平板電腦等)訪問移動(dòng)應(yīng)用或移動(dòng)網(wǎng)頁(yè)時(shí)顯示的廣告,廣告形式包括:圖片、文字、插播廣告、html5、鏈接、視頻、重力感應(yīng)廣告等。
對(duì)于手機(jī)廣告,最常見的形式就是,收到許多條陌生的廣告信息,并且這種現(xiàn)象還會(huì)一直持續(xù)下去。發(fā)送人可能會(huì)不了解手機(jī)用戶的實(shí)際需求,將廣告信息發(fā)送到手機(jī)終端,信息模式包括:APP文字鏈接廣告、APP橫幅廣告、WAP PUSH廣告(群發(fā))等形式。對(duì)于非需求類的廣告,用戶在接收到信息后,可能直接將其刪除掉了。廣告商的這種千篇一律的營(yíng)銷模式,雖然可能會(huì)從潛在目標(biāo)客戶中找到目標(biāo)客戶,但是這種尋找目標(biāo)客戶的途徑成效不會(huì)很大。正是因?yàn)檫@種沒有目標(biāo)的、盲目的尋找目標(biāo)客戶的形式,越來(lái)越多的人拒絕接收這種類型的廣告,直接就認(rèn)定其是廣告垃圾。結(jié)果,廣告商尋找客戶的目的沒有達(dá)到,而用戶也沒有接收到想要的信息,這種信息的傳遞方法,并不能取得很好的營(yíng)銷效果。
二、用戶興趣模型的構(gòu)建
在用手機(jī)上淘寶、京東等購(gòu)物網(wǎng)站的時(shí)候,其系統(tǒng)會(huì)有記憶功能,會(huì)在你下次登錄此購(gòu)物網(wǎng)站的時(shí)候,將同類型的商品進(jìn)行推薦。比如說(shuō),我曾經(jīng)購(gòu)買了一件某品牌的衣服,然后推薦欄里會(huì)推薦同類型的其他品牌的衣服,然后再過(guò)個(gè)幾個(gè)月后再次登錄的時(shí)候,可能會(huì)出現(xiàn)你購(gòu)買這個(gè)品牌的這個(gè)店家的商品。對(duì)于一些瀏覽器的彈出廣告,一般用戶都會(huì)非常的討厭,但是對(duì)于這種推薦性的廣告,用戶卻能夠欣然接受。因?yàn)檫@種推薦性的商品可能正是你最需要的。對(duì)于瀏覽的所有記錄,其實(shí)已經(jīng)被瀏覽器和電商所記載,通過(guò)對(duì)用戶的瀏覽信息進(jìn)行分析,可以推測(cè)出用戶現(xiàn)在的狀態(tài),今后又將會(huì)出現(xiàn)哪些狀態(tài),于是,個(gè)性化定制的廣告就會(huì)出現(xiàn)了。其最本質(zhì)的應(yīng)用就在于預(yù)測(cè),即從海量的歷史數(shù)據(jù)中分析出特征,進(jìn)而預(yù)測(cè)未來(lái)可能會(huì)發(fā)生什么。對(duì)于海量數(shù)據(jù)的收集是多維的,多樣性的,從不同的角度對(duì)用戶的行為進(jìn)行分析。
(一)數(shù)據(jù)收集。(1)用戶訪問內(nèi)容數(shù)據(jù)收集。對(duì)于用戶在手機(jī)終端上訪問的內(nèi)容進(jìn)行數(shù)據(jù)收集和整理。這些內(nèi)容主要包括頁(yè)面所包含的主要信息;(2)用戶行為數(shù)據(jù)收集。用戶行為信息,就是用戶在網(wǎng)站上的所有行為,如搜索、瀏覽、打分、點(diǎn)評(píng)、加入購(gòu)物筐、購(gòu)買、使用減價(jià)券和退貨等;甚至包括在第三方網(wǎng)站上的相關(guān)行為,如比價(jià)、看相關(guān)評(píng)測(cè)、參與討論、社交媒體上的交流、與好友互動(dòng)等。用戶行為分析的目的是,通過(guò)對(duì)用戶產(chǎn)生的行為信息的分析,找出其中的規(guī)律,從而為用戶以后的行為做決策。并且,對(duì)于每一個(gè)移動(dòng)終端,每天每時(shí)每刻都會(huì)產(chǎn)生大量的用戶行為信息,對(duì)這些信息從一定的角度分析,可以得出用戶的近期的消費(fèi)習(xí)慣,從而為個(gè)性化的推薦提供了基礎(chǔ)。這種個(gè)性化的推薦服務(wù)往往會(huì)得到非常好的效果,不僅可以提高顧客的購(gòu)買商品的意愿、縮短購(gòu)買的路徑和時(shí)間,通常還可以在比較恰當(dāng)?shù)膶?shí)際捕獲顧客的沖動(dòng)消費(fèi)時(shí)機(jī),提高用戶體驗(yàn)。目前,網(wǎng)絡(luò)行為的分析主要是用的特征量的統(tǒng)計(jì)特征或特征量的關(guān)聯(lián)關(guān)系來(lái)定性表示的。
(二)數(shù)據(jù)預(yù)處理思想。(1)獲取瀏覽次數(shù)。瀏覽次數(shù)是指某個(gè)用戶在某期間內(nèi)訪問頁(yè)面的總次數(shù);(2)獲取瀏覽時(shí)間。瀏覽時(shí)間是指代某個(gè)用戶在訪問某個(gè)網(wǎng)頁(yè)的時(shí)候所需要的時(shí)間,通常以秒為單位;(3)獲取用戶的訪問內(nèi)容。用戶在某段時(shí)間內(nèi),訪問的相關(guān)網(wǎng)頁(yè)。此網(wǎng)頁(yè)的內(nèi)容對(duì)用戶在這一期間內(nèi)的興趣具有主要指導(dǎo)性的作用。對(duì)用戶的訪問內(nèi)容需要進(jìn)行分詞、刪選等處理,得到大量的特征詞。對(duì)每個(gè)特征詞進(jìn)行統(tǒng)計(jì),獲取到所有的特征詞的個(gè)數(shù)以及用戶訪問特征詞的次數(shù)。
(三)用戶訪問內(nèi)容處理模型。本文采用TF-IDF算法來(lái)構(gòu)建用戶興趣模型。TF是詞頻,表示著某詞語(yǔ)在文件中的出現(xiàn)頻率。TF=關(guān)鍵詞次數(shù)/頁(yè)面的總字?jǐn)?shù)。IDF是通過(guò)關(guān)鍵詞在網(wǎng)頁(yè)中出現(xiàn)的頻率來(lái)計(jì)算權(quán)重。包含關(guān)鍵詞的文檔越少,IDF就越大,則表明該關(guān)鍵詞具備了分類的能力;包含的關(guān)鍵詞的文檔多,則IDF就越小。本算法的主要思想是:找到每個(gè)頁(yè)面的出現(xiàn)次數(shù)最多的詞。如果某個(gè)詞很重要,它應(yīng)該在這篇文章中多次出現(xiàn)。這個(gè)用“詞頻”TF進(jìn)行統(tǒng)計(jì)。但是在某個(gè)文本中,出現(xiàn)最多的詞很可能是“是”“的”“在”這種無(wú)意義的詞,叫做“停用詞”,表示對(duì)結(jié)果毫無(wú)幫助、必須過(guò)濾掉的詞。因此提出另外一個(gè)概念,如果某個(gè)詞比較少見,但是在這篇文本中多次出現(xiàn),那么它很可能就反映了這篇文本的特性。這個(gè)就是我的需要的“特征詞”。在詞頻的基礎(chǔ)上,要對(duì)每一個(gè)詞分配“重要性”權(quán)重。即“的”“是”“在”具備較小的權(quán)重。而具有涵義的詞具備較大的權(quán)重。這種權(quán)重就叫做逆文芳頻率IDF。它的大小與一個(gè)詞的常見程度成反比。
1.對(duì)于某一個(gè)頁(yè)面而言,計(jì)算其頁(yè)面特征詞wi出現(xiàn)的次數(shù)ni和頁(yè)面總詞數(shù)之 和,得到TFi值。 (公式1)。
2.用戶訪問的頁(yè)面集。對(duì)于用戶的訪問的歷史數(shù)據(jù)進(jìn)行記載,獲得其在某一段時(shí)間內(nèi)訪問的總的網(wǎng)頁(yè)數(shù)D。然后通過(guò)計(jì)算特征詞wi出現(xiàn)的網(wǎng)頁(yè)數(shù)DWi。得到其 (公式2)。
3.根據(jù)向量空間模型得到某個(gè)詞的權(quán)重值Mi=TFi*IDFi(公式3)。若要計(jì)算某個(gè)詞組或某一句話的權(quán)重,則將詞的權(quán)重相加即可: 。當(dāng)計(jì)算出文檔中每個(gè)詞的TF-IDF值之后,通過(guò)降序排列,取排在前面的詞。此時(shí),對(duì)于頁(yè)面的“特征詞”提取的過(guò)程就完成了。通過(guò)用戶訪問的頁(yè)面的內(nèi)容“特征詞”的提取,靠前的“特征詞”可以標(biāo)識(shí)當(dāng)前頁(yè)面。
(四)用戶訪問行為的處理模型。上述值是通過(guò)用戶的訪問內(nèi)容來(lái)得到不同的頁(yè)面內(nèi)容具有不同的權(quán)重,但是用戶的興趣模型,不僅與訪問的內(nèi)容有關(guān),還與用戶在不同網(wǎng)頁(yè)的訪問時(shí)間(包括用戶在網(wǎng)頁(yè)中的動(dòng)作數(shù)查詢、編輯、修改、保存、執(zhí)行書簽),對(duì)不同網(wǎng)頁(yè)的訪問次數(shù)等行為相關(guān)。用戶的這兩個(gè)行為可以用來(lái)評(píng)估用戶對(duì)某一個(gè)頁(yè)面的興趣值。這里采用回歸分析法,定量的分析用戶的興趣值。(1)對(duì)某一個(gè)網(wǎng)頁(yè)P(yáng)而言,用戶在網(wǎng)頁(yè)P(yáng)中的訪問時(shí)間為t(p),訪問次數(shù)為n(p);(2)為了定量的分析t,n,行為與網(wǎng)頁(yè)的興趣值之間的關(guān)系,利用線性回歸方法,得到線性回歸方程:d(p)=α*t(p)+β*n(p)+δ2(公式4),其中α、β稱為回歸系數(shù),α、β、θ2的估計(jì)可以采用最小二乘法。
(五)基于用戶訪問內(nèi)容和訪問行為的興趣模型。從上述得到了某頁(yè)面的興趣值之后,那么這個(gè)對(duì)于興趣值估計(jì)的行為參數(shù)也要應(yīng)用到關(guān)鍵詞頻率的模型中,將模型修改為:(1)對(duì)于(公式1)因?yàn)橛脩魧?duì)不同的網(wǎng)頁(yè)的興趣值不同,而用戶對(duì)網(wǎng)頁(yè)的興趣值與網(wǎng)頁(yè)內(nèi)容的特征值成正比,因?yàn)椴捎煤?jiǎn)單的乘法關(guān)系修改TFi=tfw,p*d(p)。其中tfw,p表示關(guān)鍵詞w出現(xiàn)在了網(wǎng)頁(yè)p中,而d(p)則表示了用戶對(duì)網(wǎng)頁(yè)p的興趣值;(2)將上述修改值代入到公式3中,則可以得到基于網(wǎng)頁(yè)訪問內(nèi)容和訪問行為的用戶興趣模型。Mi=TFi*IDFi=tfw,p*d(p)*IDFi。
三、基于用戶需求的移動(dòng)廣告
通過(guò)上述興趣度模型的設(shè)置,可以得到用戶在某一段時(shí)間內(nèi)的興趣的集合,商家在收集到用戶數(shù)據(jù)之后,按照用戶的興趣值的大小發(fā)送廣告,實(shí)現(xiàn)基于個(gè)人的個(gè)性化廣告的定制。
本文提出的思想,通過(guò)收集用戶終端的相關(guān)個(gè)人歷史信息,來(lái)記錄用戶的興趣度。筆者對(duì)一篇5000詞的網(wǎng)頁(yè)文檔進(jìn)行了檢測(cè),得到其關(guān)鍵詞的排序的前三位為:反洗錢,139;重點(diǎn)關(guān)注名單,90;匹配算法,76。得到該網(wǎng)頁(yè)的排名前三的關(guān)鍵詞為:(反洗錢,重點(diǎn)關(guān)注名單,匹配算法)。則這三個(gè)詞的詞頻(TF)分別為0.028,0.018,0.015。通過(guò)百度搜索假設(shè)包含的中文網(wǎng)頁(yè)總數(shù)為1億個(gè)。
從表1可以得到,“反洗錢”的TF-IDF值最高,“重點(diǎn)關(guān)注名單”其次,“匹配算法”最低。再利用基于行為的計(jì)算公式 對(duì)上述的TF-IDF值進(jìn)行修正。實(shí)驗(yàn)結(jié)果可以得到,如果只是選擇一個(gè)詞語(yǔ),則“反洗錢”可以作為當(dāng)前網(wǎng)頁(yè)文檔的關(guān)鍵詞。如果,有關(guān)于反洗錢的相關(guān)的政策法規(guī)或者是國(guó)家的一些新的東向,可以向帶有該標(biāo)簽的用戶發(fā)送移動(dòng)的廣告,這樣廣告的被刪除率會(huì)下降很多,同時(shí)信息的利用率也會(huì)大幅提高。
四、結(jié)束語(yǔ)
本文提出的興趣模型,在一定的時(shí)間里,可能對(duì)用戶的需求能夠產(chǎn)生預(yù)測(cè),但是,事實(shí)上,用戶的興趣不可能是一成不變的,因此,這種興趣模型也存在著一定的局限性。
[作者簡(jiǎn)介]梅培(1983.08-),女,湖北武漢人,講師,碩士研究生,研究方向:信息系統(tǒng)應(yīng)用。