葉文權+陸興華
摘要: 關鍵詞: 中圖分類號: 文獻標志碼: A文章編號: 2095-2163(2017)06-0005-04
Abstract: The current search algorithm generally ignores the users' interest behavior. It just relies on the surface of the keywords to predict the users' search preferences, to provide users with contents automatically. This kind of search algorithm cannot reflect users' real needs deeply. It does not customize a personalized search model according to the users' longterm search habits and search interests. This paper proposes a personalized search model based on users' behavior when they browse websites, such as the time, types of websites and whether there are any further actions such as saving or copying when browsing the webpage. All of these can enrich contents about personalized search model proposed in this paper,which makes the search algorithm be more accurate and close to the users' real needs.
0引言
隨著互聯網逐漸融入人們的日常生活,網絡數據呈指數增加,如搜狗、百度等搜索引擎可以為用戶帶來更方便的數據查找,用戶對數據查找的準確性要求也越來越高,希望隨時隨地地找到所期待的數據,使得數據對于人們來說是更加透明、獲取更加快捷、更加智能,創造更加舒適化、安全化、透明化的信息獲取環境。中國互聯網絡信息中心公布了第 39 次《中國互聯網絡發展狀況統計報告》,截止2016年12月,我國網民規模達7.31億,全年共計新增網民4299萬人[1]。由此可見,網絡早已深入普通民眾的日常生活中,正因為當前網絡環境中的數據信息流量十分龐大,網民們才對網絡搜索的準確度提出了更高的要求,然而當前眾多搜索引擎的搜索準確度均為有限,每個人的上網習慣和事物喜好傾向的不同也就導致了搜索引擎“眾口難調”的現狀。因此,本文研究的是在基于用戶日常的上網習慣中提取用戶的興趣點,并融合計算用戶的興趣度,再進一步設計建立用戶的個性化搜索模型,也就相當于為用戶量身打造了一個專屬于某用戶的搜索引擎,以此來提高搜索的準確度。
1用戶瀏覽行為分析
大量研究分析得出,用戶對網頁的興趣度通常體現在用戶的瀏覽行為上。用戶的許多瀏覽行為都能映射出用戶的興趣和偏好。例如:瀏覽網頁的時間、瀏覽網頁的類型、在網頁中進行保存、復制等操作、把網頁加入收藏夾、訪問網頁的次數等行為都在一定程度上表現出用戶的興趣[2]。
用戶興趣度計算的最小瀏覽組合為以下五種:保存頁面、打印頁面、將頁面加入收藏夾、訪問同一頁面的次數、在頁面上的瀏覽時間。分析這五種瀏覽行為之間的關系可以發現,如果用戶進行了收藏頁面、保存頁面、打印頁面等操作,則說明對其興趣度較高。除此之外,如果用戶在瀏覽頁面時對頁面內容有復制、粘貼、剪切等行為的話,也從側面反映了用戶對該頁面有著較濃的興趣。
用戶的各種瀏覽行為之間的關系既各自獨立,又相互聯系,而用戶本身的瀏覽習慣也有著顯著不同,因此選擇哪些瀏覽行為來分析用戶的興趣就尤顯其研究存在的重要性。若僅選擇少數幾個瀏覽行為,則容易導致用戶興趣的精度不高,但選擇過多又會造成計算方法的繁冗復雜。經過對用戶瀏覽行為的綜合考慮,本文選擇了從用戶的實際瀏覽動作、對頁面的訪問次數、在頁面上的瀏覽時間這三個方面來估算用戶的興趣度。
2基于用戶行為的興趣度估算
如果用戶在某時間內依次共瀏覽了多個頁面或者多次訪問同一個頁面,記用戶在該時間內瀏覽的各頁面為ω1, ω2, ω3, …, ωn。在分析用戶的瀏覽行為時,用戶的實際瀏覽動作、對頁面的訪問次數、在頁面上的瀏覽時間這三類典型的瀏覽行為近似地代替所有的瀏覽行為[3]。因此在本次研究中,用戶對頁面的興趣度就可視作為上述三類行為的函數。
2.1基于用戶瀏覽動作的用戶興趣度計算
如果用戶對一個頁面感到興趣,則有很大幾率會對該頁面開展一系列的瀏覽動作,如:保存、打印、收藏和復制。因此,可以利用用戶的這些瀏覽行為來進行用戶興趣度的計算。
2.2基于用戶訪問次數的用戶興趣度計算
調查顯示,用戶在瀏覽頁面時,很少會發生保存頁面、收藏頁面和打印頁面等瀏覽行為,因此,僅是依托用戶的瀏覽動作來計算用戶的興趣度也未臻至全面,故而還需要對用戶的訪問次數和瀏覽時間進行分析,進而計算用戶的興趣度,豐富用戶的個性化搜索模型。
用戶對一個頁面的興趣度很大程度上反映在其對該頁面的訪問頻度上[4],由此,研究可以定義用戶在某段時間內對某一頁面的訪問次數為Freqω,可知Freqω越大,用戶的興趣度Interestω也就越大。基于用戶訪問次數的用戶興趣度計算函數可表示為:InterestFreqW=Freqωmaxv∈WFreqω (4)其中,W為某一時間段內用戶訪問的所有頁面的集合。雖然式(4)可以對用戶的興趣度進行量化計算,但是隨著時間的推移,用戶對某個網頁的訪問次數會逐漸地累積,這些冗余的數據就未必能夠真實地反映當前用戶的興趣,這就導致了對用戶興趣度計算的準確率下降,并且隨著時間的推移,精度還會越來越低。因此,這里提出需對用戶的瀏覽次數進行周期性地更新,設定以“周”為單位,每經過一周,就對數據擇取1次更新處理[5]。更新方法如下:endprint
2.3基于用戶瀏覽頁面的速度計算用戶興趣度
用戶對某個頁面的瀏覽時間越長,則從一定程度上表明了用戶對該頁面具有較高興趣,因此用戶對頁面的瀏覽時間也是分析用戶興趣度的一個重要指標。用戶的瀏覽時間與用戶瀏覽網頁的速度密不可分,為了更為有效地規整集成各類因素,本文將用戶的瀏覽時間與瀏覽速度相對應?;谟脩魹g覽頁面的速度來計算用戶的興趣度,不僅要考慮用戶在頁面的停留時間,還需要考慮頁面大小的影響。
2.4利用BP神經網絡進行整合建模
三種用戶興趣度之間并不是相互獨立的,而是相互依存,相互聯系的,只有對這三種用戶興趣度進行整合后,才能真實地反映用戶興趣度。在求用戶興趣度時,要先判斷InterestActivitω的取值, 由之前推導可知,當InterestActivitω取值為1時,可直接將Interestω置為1。
當InterestActivitω=0時,則要考慮用戶對頁面的訪問次數以及訪問速度下的用戶興趣度的取值了,本文利用三層BP神經網絡來支持設計這兩者的融合。BP(back propagation)神經網絡是1986年由Rumelhart和McClelland為首的科學家提出的思想概念,是一種按照誤差逆向傳播算法訓練的多層前饋神經網絡,BP神經網絡由輸入層、輸出層和隱含層構成,隱含層的數量由一層到多層不等,隱含層的數量越多,則神經網絡結構越復雜[7]。本次研究中,神經網絡的設計結構如圖1所示。
3用戶個性化興趣庫的建立
基于用戶行為計算給出的興趣度只是一個用戶興趣度的初步模型,該模型是對用戶的有限次操作所得到的,分析可知其結果精度還稍顯遜色,因為隨著時間的推移,用戶的興趣度可能發生多維的變化?;诖?,研究擬將建立針對特定用戶的個性化興趣庫,將基于用戶行為計算出來的用戶興趣度數據保存在用戶的個性化興趣庫中,隨著用戶不斷地在網絡上發生一些特定的瀏覽行為,用戶的個性化興趣庫即會日趨完善,并更加豐富,而且越來越接近用戶的日常搜索習慣。這也相當于是一個隨著用戶的使用次數越多而漸至達到完善的用戶個人興趣數據庫,當該興趣庫積累擴充到一定程度時,其對用戶的興趣度預測將會極其接近用戶的真實興趣。
3.1PageRank算法
PageRank算法是Google創始人拉里·佩奇和謝爾蓋·布林于1997年構建早期的搜索系統原型時研究提出的鏈接分析算法[8],是Google用來標識一個網頁的重要性、衡量一個網站優劣的標準。該算法的主要思想是:首先網頁通過鏈接關系建立起Web圖,每個網頁都設置一個相同的PR(PageRank)值,如果一個網頁通過超鏈接鏈向另一個網頁,則表示向鏈出網頁投了一票,并將自身PR值平均分配給鏈出網頁。PR值越高,證明該網頁越受歡迎,其受歡迎等級分為0~10級,10級為滿分。獲得更高評分的網頁在網頁搜索時將會獲得較前排名。具體來說,一個網頁的PR值主要由三個因素決定[9],基于表述如下:
1)一個網頁的鏈入網頁越多,該網頁的PR值越高;
2)一個網頁鏈入網頁的排名越高,該網頁的PR值也會越高;
3)一個網頁鏈入網頁的出度越少,該網頁的PR值越高。
由以上三個因素,推導可知PageRank算法的原始公式為:PRμ=∑v∈IμPRvOutv(12)其中,Iμ是網頁μ的鏈入頁面的集合,Outv是網頁v鏈出頁面的數目。
3.2基于用戶個性化興趣庫的搜索內容推薦
PageRank雖然是一種堪稱經典的搜索分析算法,并且在Google中也占據著舉足輕重的地位,但是其缺點卻也顯而易見,該算法對網頁的排名過于公式化,因為每個用戶都是有著不同興趣愛好的獨立個體,如果一味追求公式化而忽略用戶的興趣反而會造成搜索精度大幅下降,給用戶帶來差等體驗。因此,如果能將該算法與用戶個性化興趣庫有機地結合起來將會大大地提高搜索精度[10]。
用戶在轉入網絡搜索時往往是帶有強烈的個人興趣的,因此,用戶在輸入關鍵詞展開搜索時,PageRank算法可以計算出每個網頁的PR值,先進行預排名,之后再在用戶個性化興趣庫中對相應搜索內容進行興趣度匹配,將興趣度匹配吻合程度最高的頁面的排名提前,將興趣度匹配程度較低的頁面排名移后或者刪除,綜合所有網頁的排名后即可提交給用戶。如果用戶在排名較前的頁面中找到感興趣的內容并伴隨著相應的瀏覽行為,又可對用戶的瀏覽行為調取興趣度分析計算,從而將數據返回至用戶個性化興趣庫中,最后即使用戶個性化興趣庫得以充實與完善。
4實驗分析
本節實驗分析的關鍵步驟就是對實驗數據進行分析整理,過程中采集實驗數據時運用的是Web日志挖掘的方法。該方法主要分為數據預處理、會話識別、模式發現以及模式分析這四個階段。其基本過程就是根據挖掘的目的,對原始Web日志文件中的數據經由提取、分解、合并后轉化為用戶會話文件,再運用統計分析、關聯規則、聚類、歸類、序列模式、依賴關系等技術從Web日志數據中挖掘和發現用戶使用Web的各種潛在的規律和模式。最后,在模式分析階段把在模式發現階段產生的規則和模式過濾掉,去除那些無用的模式,并把發現的結果模式通過一定的方法直觀地展現出來。
采集得到特定用戶群一個月內瀏覽http://www.163.com/網站中的瀏覽日志文件,使用本文中的興趣度計算方法來計算用戶興趣度,并與用戶對瀏覽網頁的興趣度自評加以對比,來衡定、并驗證本文方法的合理性及對用戶興趣度預測的準確性。通過Web日志挖掘獲取到瀏覽行為數據3 246條,對這些數據進行清洗、篩選,選擇其中有效數據為2 951條,再對這些瀏覽行為設計展開基于用戶行為的興趣度計算,繼而利用Matlab軟件中的神經網絡工具箱實現BP神經網絡整合,輸出最終的用戶興趣度。不僅如此,研究又將該用戶興趣度與用戶對瀏覽網頁的興趣度自評結果做出了比較對照,部分數據對比結果如表1所示。endprint
由表1實驗數據可以分析得到,本文建立的用戶個性化搜索模型對用戶的興趣預測精度高,說明了該用戶興趣模型在搜索引擎系統中發揮了突出的作用,能夠為用戶推薦其真正感興趣的內容,更加貼近用戶的真實需求,大大節省了用戶的時間成本,同時更增進了用戶的查詢信息的滿意度。
5結束語
隨著目前網絡的普及以及信息技術的高速發展,互聯網與現代生活早已息息相關,并且產生了重大的影響。特別地,針對當代快節奏的生活方式,在五花八門的各式網頁中海量搜索用戶感興趣的內容已經明顯滯后于時代的發展。本文通過對用戶的瀏覽行為進行分析,計算用戶的興趣度,建立用戶的個性化興趣庫,從而提出用戶的個性化搜索模型。在此基礎上,由實驗分析可知,該模型能夠高效反映用戶的興趣點,并在用戶進行瀏覽器搜索時提供用戶所感興趣的內容,大大節省了用戶的時間,并給用戶帶來更好的使用體驗。
參考文獻:
[1] 郝水龍,吳共慶,胡學鋼. 基于層次向量空間模型的用戶興趣表示及更新[J]. 南京大學學報(自然科學版),2012,48(2):190-197.
[6] 史寶明,賀元香,張永. 個性化信息檢索中用戶興趣建模與更新研究[J]. 計算機應用與軟件,2014,31(3):7-10.
[7] 潘慶先,董紅斌,韓啟龍,等. 一種基于BP神經網絡的屬性重要性計算方法[J]. 中國科學技術大學學報,2017,47(1):18-25.
[8] 馮海濤. 基于網頁時間權值的PageRank算法改進[J]. 西安郵電大學學報,2013,18(2):121-124.
[9] 邵晶晶,李波,劉漢平. PageRank的改進算法—調整阻尼因子[J]. 應用數學,2008,21(S1):57-61.
[10]孫克雷,陳安東. 基于用戶興趣的個性化推薦算法研究[J]. 安徽建筑大學學報,2017,25(1):65-69.
[11]王沖,紀仙慧. 基于用戶興趣與主題相關的PageRank算法改進研究[J]. 計算機科學,2016,43(3):275-278,312.
[47] LEDERER S,MULLER C,TIMMERER C. Dynamic adaptive streaming over http dataset[C]// Proceedings of the 3rd Multimedia Systems Conference. Chapel Hill, NC, USA:ACM, 2012:89-94.
[48]OYMAN O, SINGH S. Quality of experience for http adaptive streaming services[J]. IEEE Communications Magazine, 2012,50(4):20-27.
[49]ESSAILI A E,SCHROEDER D,STAEHLE D, et al. Qualityofexperience driven adaptive http media delivery[C]// Communications (ICC), 2013 IEEE International Conference on. Budapest:IEEE, 2013:2480-2485.
[50]MOK R K,LUO X,CHAN E W W,et al. Qdash: A QoEaware dash system[C]//Proceedings of the 3rd Multimedia Systems Conference.Chapel Hill, North Carolina: ACM, 2012: 11-22.
[51]HOUDAILLE R,GOUACHE S. Shaping http adaptive streams for a better user experience[C]// Proceedings of the 3rd Multimedia Systems Conference. Chapel Hill, North Carolina:ACM, 2012:1-9.
[52]THANG T C,HO Q D,KANG J W, et al. Adaptive streaming of audiovisual content using mpeg dash[J]. IEEE Transactions on Consumer Electronics, 2012, 58(1):78-85.
[53]MLLER C, LEDERER S, TIMMERER C. An evaluation of dynamic adaptive streaming over http in vehicular environments[C]// Proceedings of the 4th Workshop on Mobile Video. Chapel Hill, North Carolina:ACM,2012:37-42.
[54]PIRES K, SIMON G. Dash in twitch: Adaptive bitrate streaming in live game streaming platforms[C]// Proceedings of the 2014 Workshop on Design, Quality and Deployment of Adaptive Video Streaming. Sydney, Australia:ACM,2014:13-18.endprint