999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

新聞個性化推薦的模型設計

2017-12-26 18:44:26劉亞卓劉海燕鄭斯文
環球市場信息導報 2017年46期
關鍵詞:文本用戶模型

◎劉亞卓 劉海燕 鄭斯文

新聞個性化推薦的模型設計

◎劉亞卓 劉海燕 鄭斯文

用戶在面對海量新聞時,個性化的推薦系統可以通過分析用戶行為來預測用戶的閱讀偏好,使其能夠盡快地找到用戶可能感興趣的信息。本文圍繞新聞推薦系統中文本內容挖掘和用戶興趣表達的問題,應用混合模型對新聞個性化推薦的模型設計進行了研究。

隨著網絡信息化的飛速發展,信息的數量和種類均呈爆炸式增長,逐步出現信息過載和泛濫的現象,用戶難以從海量信息中及時找到自己關注的內容。個性化推薦理論和技術的誕生,為解決該問題提出了很好的解決辦法,它是一種嶄新的智能﹑高效的信息服務方式,通過分析用戶的歷史行為數據,預測用戶可能感興趣的需求,準確為用戶提供個性化的信息推薦服務。

新聞內容模型

新聞的文本特征可以通過新聞隱藏的主題﹑關鍵詞﹑標簽來表示,新聞主題聚類通過LDA挖掘得到。通過LDA主題模型訓練出新聞主題分類,以及每篇文本的主題分布和主題的詞分布。實現步驟為先做分詞處理,然后生成向量,根據向量去做主題聚類。

數據預處理。新聞文本是以網頁html標簽的形式存在的,由于格式﹑規范等各種不一致,通過文本預處理,轉化為計算機可直接處理的規范化格式。最關鍵的步驟就是分詞,提取有價值的詞,去除停用詞,降低數據維度,為后續的文本分類工作減輕壓力,提高效率。中文分詞相對英文分詞要復雜,本文通過現有CJK規范為每個詞之間插入空格,然后通過Mahout自帶英文分詞技術完成該過程。

LDA主題聚類模型。LDA是一個三層貝葉斯模型,主題的分布和詞的分布不是確定的,是一種對文本進行無監督聚類的方法。假設文本是由一系列潛在主題隨機混合而成,主題是由詞匯表中所有的詞混合而成,不同文本的主要區別在于其主題混合比例不同 。在訓練集合中,通過LDA模型計算每個文本都包含一個主題數維度的向量,這個向量表示每個主題在該篇文章中的出現概率,概率越高,這個主題在該文章中的權重就越大。并通過對每個詞在主題中的概率計算,完成關鍵詞的概率分布。根據以上原理計算入庫新聞的主題分布,表示為:z={(主題1,概率1),(主題2,概率2),…,(主題p,概率p)}

混合模型生成。為了更準確計算新聞的相似性,引入關鍵詞和標簽屬性生成向量。關鍵詞可以通過TF-IDF(詞頻-逆向文檔頻率)的方法,計算特征詞權重,表示為:d={(關鍵詞1,概率1),(關鍵詞2,概率2),…, (關鍵詞n,概率n)} ,n代表所有關鍵詞的個數。標簽屬性按照欄目類別劃分,欄目的新聞內容具有一定的相似性,標簽向量表示為:t={標簽1,標簽2,…,標簽m} ,m代表所有標簽的個數。

結合以上內容設計新聞內容的混合模型如下所示:M=k1zi+ k2dj+ k3tm(1)其中,k1代表主題模型計算得信息主題特征的權值,k2代表關鍵詞特征的權值,k3代表標簽的權值。

用戶興趣模型

將用戶的隱含主題偏好與關鍵詞興趣相結合,考慮新聞的時效性,構建完整的個性化興趣偏好的用戶興趣模型,準確﹑完整的用戶興趣模型可以很好的提高推薦準確性。用戶興趣模型表示方式為:F={Z,K,T }(2)其中,Z﹑K﹑T分別表示用戶主題偏好向量﹑關鍵詞權值序列和新聞標簽關注程度,取值范圍為0到1的實數。下面對模型的主要內容進行介紹:

(1)用戶主題偏好。用戶主題偏好通過訪問過的新聞主題聚類得出,由一組向量表示:Z={主題1,主題2,…,主題y},其中,y代表所有主題的個數,屬性值代表用戶對各主題的偏好程度。

(2)關鍵詞權值序列。用戶在瀏覽新聞的過程中,會對含有某些關鍵詞的新聞感興趣,通過向量空間和TF-IDF計算關鍵詞的序列及其權值,表示為:

K={(關鍵詞1,概率1),( 關鍵詞2,概率2),…,( 關鍵詞j,概率j)}

其中,j代表用戶感興趣的關鍵詞的個數,并用權值表示用戶對各關鍵詞的感興趣的程度。

(3)新聞標簽關注程度。用戶對新聞標簽的關注程度由一組向量表示:T={標簽1,標簽2,…標簽q},其中,q代表所有標簽的個數,Tc代表用戶對第c個標簽的關注程度,是一個權值,計算公式表示為:Tc=,So表示用戶對該標簽下新聞的閱讀量,S表示用戶全部的閱讀量。

(4)用戶興趣度更新。用戶瀏覽網頁的行為和習慣反映了用戶的興趣特征,興趣偏好是一個逐漸變化的過程,當某一個興趣得不到加強,隨著時間的推移興趣會逐漸減弱,而且很難與用戶偶然性的瀏覽相區分,通過添加衰減因子更新新聞興趣主題特征權重的方法更新用戶對新聞主題的新鮮度,公式如下所示:Zi=λ(t)Z′i其中,Zi表示主題i新的權值;λ(t)為時間衰減因子;Z′i表示其原有權值。定義用戶的興趣衰減系數如下公式所示:λ(t)=ek(t-t0)(0<k<1)

k值的大小決定了特征值權重的衰減速度。k值越大,衰減速度越快。t表示現在訪問時間,t0表示上次訪問時間。

新聞推薦生成

用戶推薦新聞列表由新聞內容模型與用戶興趣模型計算向量相似性,通過余弦相似度方法實現,計算結果在0~1之間,結果越接近1,相似度越大,通過定義一個閾值判斷新聞的推薦結果。本文定義閾值為0.7,通過有效新聞的推薦效果來驗證閾值是否正確,如果對用戶推薦新聞篇數過少或者推薦用戶范圍過小,將值調整為0.6,以此類推進行判斷。

另外,在新聞推薦中,為用戶推薦還未產生興趣偏好的新聞(未通過主題模型計算出的新聞),防止推薦主題過分收斂,增加推薦的多樣性和新穎性。基于ItemCF的關鍵是找到與被訪問新聞a“最近鄰”的相似的新聞b。相似度的值越大,則新聞a與新聞b就越相似,那么在預測的新聞推薦的過程中,新聞b的評分的權重值就越大。同樣采用余弦相似度算法來計算新聞之間的相似度。計算結果按權值從高到低排序,推薦其中的前3個插入新聞興趣推薦列表中一同給用戶。如果用戶對這類新聞非常感興趣,會隨著用戶的訪問行為改變用戶的主題偏好。

文章簡要描述了一個新聞推薦系統的主要架構和模塊,新聞文本特征模型﹑用戶興趣模型和新聞推薦的生成。本文所做的工作十分有限,要進一步完善用戶興趣表達,提高新聞文本主題隱形含義的更精準表達,滿足用戶對新聞推薦服務的差異化需求,提高個性化新聞推薦的準確率及用戶滿意度,還有很多問題有待研究。

陸軍裝甲兵學院信息管理中心)

猜你喜歡
文本用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 亚洲黄色成人| 欧美成人午夜视频免看| 久久国产精品电影| 97国产精品视频自在拍| 精品偷拍一区二区| 日韩欧美中文亚洲高清在线| 久久精品无码一区二区国产区| 好吊妞欧美视频免费| 噜噜噜久久| 国产精品福利在线观看无码卡| 青青青视频免费一区二区| 久久婷婷国产综合尤物精品| 亚洲国产清纯| 免费观看男人免费桶女人视频| 激情午夜婷婷| 一级一级一片免费| 亚洲人成网址| 国产色伊人| 欧美一级在线看| 在线播放真实国产乱子伦| 亚洲成人精品| 中文字幕在线看| 欧洲一区二区三区无码| 天堂网亚洲系列亚洲系列| 国产69囗曝护士吞精在线视频| 香蕉视频在线精品| 一本二本三本不卡无码| 中文成人无码国产亚洲| 亚洲色婷婷一区二区| 毛片基地美国正在播放亚洲| 国产在线观看精品| 国产精品久久久久久影院| 中文字幕人妻av一区二区| 丝袜久久剧情精品国产| 国产精品浪潮Av| 亚洲一区无码在线| 国产精品偷伦视频免费观看国产 | 亚亚洲乱码一二三四区| 中文字幕在线永久在线视频2020| 亚洲无限乱码一二三四区| 国产91蝌蚪窝| 欧美爱爱网| 免费高清毛片| 欧美97欧美综合色伦图| 亚洲天堂久久久| 色窝窝免费一区二区三区| 国产精品一区二区久久精品无码| 午夜日本永久乱码免费播放片| 99中文字幕亚洲一区二区| 国产小视频在线高清播放| 久久99国产综合精品女同| 免费女人18毛片a级毛片视频| 亚洲午夜片| 亚洲区第一页| 成人福利免费在线观看| 亚洲第一区欧美国产综合| 久久亚洲国产最新网站| 成人在线观看一区| 99久久国产精品无码| 一级毛片免费不卡在线| www.国产福利| 久久综合婷婷| 一区二区理伦视频| www.国产福利| 亚洲男人的天堂在线| 国产在线精彩视频论坛| 久草视频一区| 永久免费精品视频| 亚洲欧洲日产国产无码AV| 国产精品香蕉在线观看不卡| 狠狠色噜噜狠狠狠狠奇米777| 免费人成黄页在线观看国产| 午夜不卡视频| 波多野结衣第一页| 成人午夜久久| 91外围女在线观看| 日韩精品高清自在线| 欧美激情伊人| 欧美亚洲激情| 国产乱人免费视频| 亚洲无限乱码一二三四区| 伊人久综合|