999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于情景和瀏覽內容的層次性用戶興趣建模①

2017-10-13 12:05:13孫海真謝穎華
計算機系統應用 2017年1期
關鍵詞:用戶信息模型

孫海真, 謝穎華

?

基于情景和瀏覽內容的層次性用戶興趣建模①

孫海真, 謝穎華

(東華大學信息科學與技術學院, 上海 201620)

用戶興趣建模是個性化服務的核心, 考慮到情景信息對用戶偏好的影響, 對融和情景信息的用戶行為日志數據進行深入研究, 提出了一種基于情景信息的用戶興趣建模方法. 該方法首先通過計算情景相似度來獲得用戶當前情景的近似情景集; 對“用戶-興趣項-情景”三維模型采用情景預過濾的方法降維處理. 然后根據用戶瀏覽內容得到用戶興趣主題, 分析頁面內容得到每種主題的興趣關鍵詞, 建立基于層次向量空間模型的用戶興趣模型. 實驗結果表明, 本文提出的基于情景信息的用戶興趣模型對用戶興趣的預測誤差控制在9%以內, 是有效的.

用戶興趣模型; 情景; 用戶瀏覽內容; 文本聚類; TF-IDF

個性化服務利用用戶預先提供的數據或是利用數據挖掘等技術從用戶的歷史記錄中收集用戶偏好, 幫助用戶獲取感興趣的信息, 避免了用戶瀏覽大量無關資源而浪費時間. 用戶興趣模型的建立是個性化服務的核心, 資源推薦的準度和廣度, 完全取決于用戶建模表征用戶興趣的準確度和潛在用戶興趣的挖掘度.

用戶興趣建模一般包括兩方面內容: 通過記錄和分析用戶瀏覽行為、瀏覽內容及用戶反饋等收集用戶信息并從中挖掘用戶興趣; 用合適的方法表示用戶興趣, 即建立用戶興趣模型, 并隨用戶興趣變化動態更新用戶興趣模型[1].

傳統的基于用戶瀏覽行為的用戶興趣建模大部分只考慮用戶和項目兩個維度, 在一些融合諸如時間或位置情景的個性化服務中誤差較大, 而基于情景信息的用戶興趣建模可有效的提高大數據時代個性化服務的精準度. 例如, Koren提出一種融入用戶時間情景信息的推薦模型timeSVD++, 并將該算法在Netflix電影評分數據集上進行試驗, 結果表明該模型的推薦精確度較未融入時間用戶情境矩陣分解模型有了顯著的提高[2]. Si等人通過設定推薦系統服務中的用戶情景信息為在線時刻、位置及心情三種類型, 并結合用戶所感興趣的主題關鍵詞, 應用矢量模型構建了用戶偏好模式, 來研究手機終端上關于圖書的推薦服務問題[3]. Liu等采用本體模型來表示用戶情景信息, 并計算其用戶情景信息之間的距離[4]. Shi提出一種基于情緒特征的物品相似度的矩陣分解方法對情緒用戶特征進行用戶偏好建模[5]. 胡慕海對位置、時間、用戶心情等多種用戶情景信息, 提出了一個應用信息熵提取用戶情景偏好特征的建模方式, 并通過超圖模型將用戶進行細分, 最后通過超圖分割技術對用戶偏好和用戶偏好漂移進行識別與建模[6]. 王立才專門對情緒這類情景結合認知心理學的知識通過基于張量和高階奇異值分解技術(Higher-order Singular Value Decomposition, HOSVD)進行用戶偏好建模[7].

綜上所述, 情景化機制已經引起了國內外學者的廣泛關注, 他們通過對用戶位置、時間、業務需求的情景化挖掘, 基于不同的資源對象和情景來探討用戶興趣的變化. 但這些研究主要集中在情景維度的某個方面, 缺少對用戶興趣表示及情景機制的完整描述. 本文的目的在于建立基于情景信息的用層次性戶興趣模型. 通過將用戶情景進行系統的分類和識別, 將情景影響因子加入到用戶興趣建模過程中, 改進用戶興趣度的計算方法, 最后根據訓練集和測試集的興趣誤差來驗證模型的有效性.

1 融合情景的用戶興趣模型表示

1.1 用戶興趣三維建模

目前用戶興趣建模大多停留在二維上, 即用戶維和項目維[8], 最終的用戶興趣度由用戶和項目決定, 沒有涉及到情景, 如時間、地點等. 本文加入情景維度來描述用戶興趣, 三維模型如圖1所示.

圖1 用戶興趣三維模型

“用戶-興趣項-情景”三維模型是一個三維的向量空間, 每個維度分別由各自的屬性值組成的向量來表示, 圖中表示的就是在情景A下用戶101對于興趣項04的興趣度. 可將用戶興趣模型形式化的表示為一個三元組:

1.2 基于層次的向量空間模型

本文基于情景的用戶興趣模型表示方法主要是對向量空間模型表示法(VSM)[9]進行改進, 由于傳統的VSM表示方法是把所有種類的用戶興趣記錄在同一個向量里, 并且很少考慮到用戶所處的情景, 這樣會導致不同情景、不同類別的興趣特征項相互影響, 降低個性化服務的質量.

針對上述出現的問題, 本文基于情景信息提出層次性向量空間模型來表示用戶興趣. 其基本思想是: 1)將用戶訪問日志根據情景屬性進行分類. 2)分別分析不同情景下的用戶訪問日志, 計算用戶瀏覽網頁的次數, 按照新聞、視頻、調查、論壇、購物、社交、游戲給用戶興趣歸類, 得到用戶的興趣主題. 3)通過頁面URL獲取頁面內容信息, 提取文檔中的關鍵詞作為特征項用VSM來描述用戶興趣.

具體如圖2所示, 底層是用戶興趣關鍵詞, 第二層是劃分的用戶興趣主題, 第三層是用戶所處的情景, 最上一層是用戶.

圖2 基于層次的用戶興趣模型表示結構圖

如果用戶在情景A下有個不同的類別偏好, 即用戶有個興趣主題, 那么情景A下用戶興趣模型可表示為如下結構的向量:

其中,T為第個主題特征向量,W為主題權重,n為第個主題包含文檔實例數量(),W初始化如下:

(2)

T類包含個興趣關鍵詞條, 則T可表示為:

2 用戶興趣建模方法

2.1 情景建模

2.1.1 情景模型定義及分類

情景維度模型是表示情景綜合信息的模型, 用戶偏好會隨所處情景(如時間、地點、環境、用戶狀態等)的不同而發生變化, 因此建立用戶興趣模型時需要考慮到用戶情景.

研究分析顧君忠[10]對情景信息的分類方法, 本文將情景信息劃分為3個情景維度, 表示為= {,,}.

(1) 用戶情景(User Context)指用戶的概要信息、社會地位等. 從用戶的信息表中我們可以獲得用戶的年齡、性別、職業等信息. 用戶維情景可以表示為={,,}.

(2) 時間情景(Time Context)指用戶與系統發生交互的時間, 可根據具體需要按照不同的分層粒度對時間情景進行組織. 時間維情景可以表示為= {,,,,,}. 其中={“”, “”, “”, “”, “”, “”, “”};= {“”, “”}.

(3) 空間情景(Spatial Context)指用戶與系統發生交互時所處地點的相關信息. 可以表示為={,}.

不同的情景信息對用戶興趣的影響程度不盡相同, 因此在建立模型之前需要分析與用戶興趣密切相關的有效情景, 在情境建模時可以視具體情況適當減少或增加一些維度.

2.1.2 情景預過濾

情景預過濾(contextual pre-filtering)是利用當前情景信息過濾掉與當前情景無關的用戶數據, 從而構建與當前情景相關的數據集合[11]. 簡單來說, 如果分析一個只在星期六上網的人的興趣, 則只需過濾出每周六的所有用戶的評測數據來構造興趣模型即可, 然而這種方法存在缺點, 太精確的情景信息可能不夠實用. 比如, 對于星期六或者星期日去看電影的用戶來說, 情景信息其實差別不大; 但與星期三(工作日)相比, 那就不同. 所以在過濾情景信息時, 不應該把周日的數據也給過濾掉. 此外, 精確過濾后的數據量相對來說有所減少, 導致數據稀疏問題. 因此在實際興趣建模過程中會使用情景泛化處理來解決上述問題.

本文在建立用戶興趣模型前首先通過時間情景對用戶瀏覽行為的日志數據進行預過濾, 考慮到過度細化的缺陷, 時間維情景劃分方式為:= {“”, “”}.

2.1.3 情景后過濾

情景后過濾(contextual post-filtering)不會在輸入數據和建模時考慮情景信息, 而是在生成用戶興趣項列表時根據情景信息進行如下處理: 1)過濾掉不相關的興趣項. 2)調整列表中興趣項的排序.

例如采用傳統的用戶興趣建模方法得到用戶興趣列表, 假設用戶對新聞類的網站感興趣, 考慮到用戶所處的空間情景(如城市), 可以直接過濾掉與當前情景關聯概率小的項目, 得到情景優化后的興趣列表.

2.2 基于PV提取用戶興趣主題

網頁瀏覽次數 PV(Page View)[12]是統計互聯網用戶瀏覽網頁的次數, 通過分析url的類別, 歸類得到用戶興趣主題.

url訪問頻率uf(url visit frequency): 表示url被用戶訪問的頻繁程度, 計算公式如下:

其中u表示第條url的值,為用戶訪問的所有url集合. uf大的url說明用戶訪問頻繁, 對這類網站的興趣度越高.

2.3 基于網頁內容提取用戶興趣關鍵詞

2.3.1 文本特征項的提取

在對文檔進行特征提取之前, 需要先進行文本信息的預處理――特征詞條的選擇. 從自然語言理解的角度來看, 名詞及名詞短語、動詞及動詞短語是一個文本的核心, 它們的簡單組合可以作為整個文檔的簡單表示. 本文采用中國科學院計算機研究所研制的漢語分詞系統NLPIR進行分詞[13].

對頁面文檔進行處理并提取特征詞的步驟如下:

(1) 通過頁面URL獲取頁面內容信息, 清除頁面中網頁標簽信息, 進行頁面清洗, 將其轉化為文本文檔;

(2) 調用字典模塊對文檔進行分詞, 將文檔轉化為詞序列;

(3) 根據停用詞表去除詞序列中的停用詞;

(4) 計算每一個詞的權重;

(5) 根據權值大小對詞進行降序排列, 選取前個詞作文檔的特征詞集合.

2.3.2 TF-IDF算法計算關鍵詞權重

一個文檔集中的某個文檔, 對于中的關鍵詞來說,在中除了之外的其它文檔中出現的次數越少,對于的區分度就越高. 因此, 如果中有兩個關鍵詞和, 它們在中出現在頻率一樣, 而在文檔集合中的其它文檔中出現地次數比少, 則對于文檔來說,的權重應該大于的權重. 即: 一個關鍵詞的權重與它在一個文檔中出現的頻率(Term Frenquency)成正比, 與它在文檔集中其它文檔中出現的頻率(Inverse document frequency)成反比[14], 該計算方式表示為:

其中,(,)為詞在文本中的權重,(,)為詞在文本中的詞頻,為訓練文本的總數,為訓練文本集中出現詞語的文本數, 分母為歸一化因子.

2.3.3 改進的文本特征聚類算法

文言文中定語后置的這幾種形式,只要用心識記、揣摩,遇到實際問題時細心明辨,靈活處理,就不會被表面的形式蒙蔽,弄懂它的意思進而把它準確地譯成現代漢語。

在基于瀏覽內容進行數據挖掘分析中, 由于用于挖掘的數據源是文本文檔集合, 而挖掘的目的是發現用戶的興趣類型及興趣濃度. 采用K-means 方法進行聚類分析時, 由于預先不知道用戶的興趣種類, 即不知道進行K-means 聚類的值, 因此無法直接采用. 而且K-means方法中初始聚類中心的選取直接影響到最后的聚類結果, 并且很容易陷入局部最優解. 層次凝聚法能夠生成層次化的嵌套簇, 準確度較高. 但在每次合并時, 需要全局地比較所有簇之間的相似度, 并選出最佳的2個簇, 因此執行速度較慢, 不適合大量文件的集合.

綜合考慮這兩種聚類方法的優缺點, 提出一種改進的文本聚類方法, 具體過程如下:

(5) 選擇一個未聚類的單個成員簇, 重復步驟(3)和(4), 開始新一輪的聚類, 直到所有的單個成員簇都參與了聚類, 最終聚成類;

算法流程圖如下:

圖4 改進的文本聚類算法流程圖

3 實驗步驟及結果

3.1 實驗步驟

本文采用的數據集是CNNIC(http://cnnicdata. datatang.com/)數據堂提供的數據集. 該數據集包含用戶連續4周內訪問電腦軟件及瀏覽網頁的行為日志. 實驗原始數據總時長為28天: 取前21天數據作為訓練數據(Training Data), 用以預測后7天(測試數據, Test Data)用戶的興趣分布.

Step1. 情景信息預過濾: 將用戶瀏覽網頁的行為日志按時間情景分為工作日和周末兩類.

Step2. 數據預處理: 從用戶行為日志中過濾出用戶ID、瀏覽的網址及用戶瀏覽次數.

Step3. 提取用戶興趣主題: 統計數據集合中域名級別的網站, 分析網站的類別, 過濾掉搜索網站、導航網站等不能明確反映用戶興趣愛好的網站, 得到新聞、視頻、調查、論壇、購物、社交、游戲七大興趣主題.

Step4. 提取興趣關鍵詞: 將每種主題的url轉化為文本文檔, 采用NLPIR進行分詞, 通過TF-IDF算法計算關鍵詞的權重, 將文本文檔用向量表示, 并進行聚類分析, 得到每個主題下關鍵詞的權重, 進而得到每種主題的權重, 建立基于層次的用戶興趣模型.

3.2 實驗結果

實驗中抽取三個用戶的瀏覽行為特征, 采用第二章的方法分析訓練數據集, 得到用戶對每種主題的興趣度, 如表1所示.

表1 用戶對興趣主題的興趣度

從表1中可以看出用戶101在工作日對于新聞和購物類比較感興趣, 周末增加了社交類的興趣; 用戶102在工作日對購物類有著濃厚的興趣, 周末轉向了調查類的網站; 用戶103在工作日對新聞和社交比較感興趣, 周末新增了視頻類的興趣. 因此在個性化服務中考慮到情景信息可以發現用戶不同情景下的興趣傾向, 從而改善用戶的體驗.

對測試數據集進行分析得到每種主題的誤差如表2所示.

表2 興趣主題的絕對誤差

從表2中可以看出, 根據前面提到的興趣度計算方法計算得到的用戶興趣度與測試集中用戶興趣度絕對誤差控制在9%以內, 由此可以驗證本文提出的基于情景信息的用戶興趣模型是合理及有效的.

4 結語

本文將情景信息融和到用戶興趣建模過程中, 結合情景預過濾的思想, 將用戶興趣三維模型降維處理, 建立基于層次的向量空間模型, 并改進文本特征聚類算法. 分析訓練集和測試集的用戶興趣, 得到用戶興趣預測誤差, 實驗結果表明誤差控制在9%以內, 表明該算法的可行性和有效性. 目前只考慮到單維度的靜態情景信息, 下一步的工作將研究多維度情景和動態情景對用戶興趣的影響.

1 南智敏.基于網頁興趣度的用戶興趣模型體系研究[碩士學位論文].上海:復旦大學,2012.

2 Koren Y. Collaborative filtering with temporal dynamics. Communications of the ACM, 2010, 53(4): 89–97.

3 Si H, Kawahara Y, Kurasawa H, et al. A context-aware collaborative filtering algorithm for real world oriented content delivery service. Proc. of ubiPCMM, 2005.

4 Liu D, Meng XW, Chen JL. A framework for context-aware service recommendation. 10th International Conference on Advanced Communication Technology (ICACT 2008). IEEE. 2008, 3. 2131–2134.

5 Shi Y, Larson M, Hanjalic A. Mining mood-specific movie similarity with matrix factorization for context-aware recommendation. Proc. of the Workshop on Context-Aware Movie Recommendation. ACM. 2010. 34–40.

6 胡慕海.面向動態情境的信息推薦方法及系統研究[博士學位論文].武漢:華中科技大學,2011.

7 王立才.上下文感知推薦系統若千關鍵技術研究[博士學位論文].北京:北京郵電大學,2012.

8 邢曉兵.面向用戶興趣的用戶瀏覽行為分析方法及應用[碩士學位論文].沈陽:東北大學,2013.

9 郝水龍,吳共慶,胡學鋼.基于層次向量空間模型的用戶興趣表示及更新.南京大學學報,2012,2:190–197.

10顧君忠.情景感知計算.華東師范大學學報(自然科學版),2009,5:1–20,145.

11 劉海鷗.云環境用戶情景興趣的移動商務推薦模型及應用研究[博士學位論文].秦皇島:燕山大學,2013.

12 趙釹森.基于用戶行為的動態推薦系統算法研究及實現[碩士學位論文].成都:電子科技大學,2013.

13 ICTCLAS中文分詞系統官方網站.http://ictclas.org/.

14 蔣晨.基于用戶情景感知的動態興趣模型及其應用[碩士學位論文].武漢:華中師范大學,2014.

Hierarchical User Interest Modeling Based on Context and Browse Content

SUN Hai-Zhen, XIE Ying-Hua

(School of Information Science and Technology, Donghua University, Shanghai 201620, China)

The user’s interest model is the core component in a personalized services system. Considering the impact of context information on user interests, this paper deeply studies the user behavior log data based on context information, and proposes a user interest modeling method based on context information. First, we get the user’s context set by calculating the context similarity, and reduce the dimension of the “user-interest item-context” 3D model through the method of context pre-filtering. Second, user browsing content forms interest topic, and web page content forms interest keyword. Then a hierarchical vector space model is set up based on the user profile. The experimental result shows that the prediction error of user interest degree is controlled within 9%, which is effective.

user interest model; context; user browsing content; text clustering; TF-IDF

2016-04-06;收到修改稿時間:2016-05-05

[10.15888/j.cnki.csa.005509]

猜你喜歡
用戶信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 中国黄色一级视频| 亚洲精品午夜无码电影网| 丰满人妻久久中文字幕| 国产乱子伦一区二区=| 久久综合婷婷| 亚洲第一成年人网站| 久久综合五月婷婷| 色偷偷综合网| 亚洲视频在线青青| 午夜啪啪网| 欧美伊人色综合久久天天| 日本一区二区三区精品AⅤ| 国产亚洲欧美日韩在线一区| 无套av在线| 亚洲日韩高清在线亚洲专区| 丰满人妻中出白浆| 亚洲日韩在线满18点击进入| 亚洲一区无码在线| 亚洲欧美一级一级a| 在线观看热码亚洲av每日更新| 日本www在线视频| 国产精品太粉嫩高中在线观看| 91最新精品视频发布页| 午夜性刺激在线观看免费| 在线观看热码亚洲av每日更新| 高清亚洲欧美在线看| 久久黄色小视频| 婷婷六月在线| 国产一区二区精品福利| 四虎综合网| 动漫精品中文字幕无码| 中文纯内无码H| 97超爽成人免费视频在线播放| 国产91视频免费观看| 欧美黄色网站在线看| 久久久久中文字幕精品视频| 青青青国产视频| 99精品视频在线观看免费播放| 成人a免费α片在线视频网站| 无码中文字幕乱码免费2| 亚洲成综合人影院在院播放| 香蕉99国内自产自拍视频| 久久夜色精品国产嚕嚕亚洲av| 久久国产热| 日韩东京热无码人妻| 98超碰在线观看| 久久a级片| 99热国产在线精品99| 久久精品国产免费观看频道| 免费看a级毛片| 国产精品久久久久久影院| 国产青青草视频| 欧美伊人色综合久久天天| 国产精品久久久久久久久kt| 婷婷亚洲天堂| 日韩亚洲高清一区二区| 日韩国产黄色网站| 思思热精品在线8| 九九视频免费看| 一本色道久久88| 成人中文在线| 亚洲视频一区在线| 青草精品视频| 国产福利在线观看精品| 久久性妇女精品免费| 99久久99视频| 国外欧美一区另类中文字幕| 日日拍夜夜操| 亚洲视频无码| 国产精品自拍露脸视频| 人妻21p大胆| 国产女人在线视频| 亚洲黄色视频在线观看一区| 国产女人爽到高潮的免费视频| 亚洲女同一区二区| 色综合久久88| 一级香蕉人体视频| 国产成人欧美| 99r在线精品视频在线播放| 国产午夜小视频| 三上悠亚在线精品二区| 日韩a级片视频|