孫麗霞 山東外事翻譯職業學院
基于查詢日志的消費意圖挖掘分析
孫麗霞 山東外事翻譯職業學院
隨著互聯網的普及,在線廣告成為人們生活中不可缺少的一部分。而用戶在搜索行為中包含了大量的內容豐富的信息,這些信息中有相當數量都表現了用戶的消費意圖。本文在進行了充分的預處理后,在數據上進行特征的分析和抽取, 利用SVM分類器結合抽取出的特征進行測試,提出對用戶搜索的消費意圖具有較高的區分能力的方法。
消費意圖識別;二元分類模型;SVM
在網絡上投放廣告已經成為了一種十分普遍,十分重要,收益簡單高效的廣告投放方式。在我們點擊網頁的時候,不經意間就能看到各種各樣的廣告。隨著在線廣告的不斷普及,越來越多的銷售商希望通過在線廣告來提升自己產品的知名度,提高自己產品的銷量。這樣一來,搜索引擎便成為了銷售商進行產品推銷的一個重要媒介。一些搜索引擎,如百度,搜狗等,都會記錄用戶的訪問信息,例如,百度的查詢日志就由用戶搜索語句、用戶點擊標題、用戶點擊URL三部分組成。其中,有些信息顯示了用戶意圖是期望購買某類產品的內容。消費對象能更好地反映出用戶的消費興趣,真實的消費需求和消費類別。
第一步需要準確確定有意圖或者無意圖一個標準,這樣才能判斷最終得到的系統給出的結果是不是正確的。首先,需要得到用戶的真實查詢語句,在大量的,真實的語料上進行分析。準確的判斷出用戶的一條查詢究竟是有意圖的還是無意圖的。
在確定了標準之后,需要根據這些數據抽取特征。所謂特征,也就是一個規則,這個規則可以較為有效的分辨出用戶的查詢是有意圖或者無意圖。在多個特征的基礎上,下一步就是確定如何利用這多個特征進行分類,因而就需要找到一個合適的分類模型,然后利用抽取出的多維特征,在數據上將每一條語句表示成一個由多個特征組成的向量,然后把這個向量交給分類器去處理。分類器則會計算每一個特征對這條語句是否是有意圖查詢的影響程度。進而計算出每一個特征影響的權重,當一個新的查詢到來的時候,可以利用分類器訓練出來的模型進行測試,進而得出結果,判斷出該條查詢是否具有消費意圖。
LibSvm是臺灣大學林智仁(Lin Chih-Jen)教授等開發設計的一個簡單、易于使用和快速有效的SVM模式識別與回歸的軟件包,他不但提供了編譯好的可在Windows系列系統的執行文件,還提供了源代碼,方便改進、修改以及在其它操作系統上應用;該軟件對SVM所涉及的參數調節相對比較少,提供了很多的默認參數,利用這些默認參數可以解決很多問題;并提供了交互檢驗(Cross Validation)的功能。該軟件可以解決C-SVM、ν-SVM、ε-SVR和ν-SVR等問題,包括基于一對一算法的多類模式識別問題。
SVM是最常用的二元分類器之一。支持向量機SVM作為一種可訓練的機器學習方法,依靠小樣本學習后的模型參數進行導航星提取,可以得到分布均勻且恒星數量大為減少的導航星表。
SVM分類器即可以解決線性分類問題,也可以解決非線性分類問題。在解決非線性分類問題上,SVM采用了核函數的方法,可以將低維空間的非線性問題映射為高維空間的線性問題,并且幾乎不增加計算復雜度,在一定程度上避免了其他機器學習算法的“維度災難”的問題。SVM分類器中常用的幾種核函數包括:(1)線性核函數,如公式(1-1)所示;(2)多項式核函數,如公式(1-2)所示;(3)徑向基函數,如公式(1-3)所示;(4)二層神經網絡核函數,如公式(1-4)所示。

如果想對消費意圖進行準確的分類,首先就要有一個高質量的初始語料庫。本數據來源于百度2012年3月份的部分用戶查詢數據。數據由用戶查詢語句、用戶點擊標題、用戶點擊URL三部分組成。
用戶查詢語句:用戶在搜索框中輸入的內容
用戶點擊標題:用戶點擊的網頁對應的title
用戶點擊URL:用戶點擊的網頁對應的URL
由于人們對消費意圖這一概念比較模糊,而且對于不同的人,會有不同的理解,所以在這里嚴格定義消費意圖的概念如下:
(1)用戶搜索語句或點擊標題中有明確的購買意向,如 “求推薦一部性價比高的手機”這條語料都很明確的具有消費意圖,指出了消費對象,并出現了購買觸發詞,如“推薦”“求”等。
(2)明確的指出了購買意向,但沒有觸發詞“水貨智能機,1000元以內”這類數據雖然沒有出現購買意愿詞,但是仍然可以認為這些語料具有顯式消費意圖。
(3)用戶點擊網站的標題具有消費意圖傾向“三星Galaxy S6 報價_中關村在線”
這類數據可能用戶只搜索了“三星Galaxy s6”,單單從這個搜索中,我們并不能確定該查詢具有消費意圖,但是從用戶的點擊上可知其應當具有消費傾向。
(4)用戶點擊的URL中包含電商網站
如用戶搜索“手機”后,點擊淘寶網,僅僅通過搜索詞并不能看出用戶具有消費意圖,但是通過用戶點擊的URL:http://www. taobao.com/,可以判定用戶的點擊行為具有消費意圖。
一個消費意圖二元分類系統,主要針對用戶的搜索數據,對數據進行預處理,進而在數據上進行特征的分析和抽取,最終利用特征選擇模塊,獲得了最優特征。
[1]張鴻, 莊越挺, 吳飛. 一種基于內容相關性的跨媒體檢索方法. 計算機學報. 2010, 31(5): 820-826.
[2]H. K. Dai, L. Zhao, Z. Nie, J.-R. Wen, L. Wang, and Y. Li. Detecting online commercial intention (oci). In Proc. of WWW '06, pages 829-837, 2006.
[3]趙妍妍, 秦兵, 劉挺. 文本情感分析. 軟件學報. 2010, 21(8):1834-1848.
[4]劉非凡, 趙軍, 呂碧波, 徐波, 于浩, 夏迎炬. 面向商務信息抽取的產品命名實體識別研究. 中文信息學報. 2006, 20(1): 7-13.
孫麗霞,女,1982年出生,民族∶漢,籍貫∶山東省乳山市人,學歷∶本科,職稱∶講師,主要研究方向∶計算機軟件工程。