999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

個性化搜索用戶興趣更新學習及評價研究

2018-06-20 07:46:08徐志明
計算機技術與發展 2018年6期
關鍵詞:分類用戶方法

宋 毅,徐志明

(1.哈爾濱華德學院 電子與信息工程學院 計算機應用技術系,黑龍江 哈爾濱 150025;2.哈爾濱工業大學 計算機學院,黑龍江 哈爾濱 150025)

0 引 言

每個用戶總體興趣是個恒定常數。人的精力是有限的,用戶興趣類別偏好也是有限的,如果對某些類興趣度高,對其他類興趣度必然降低。文中關注用戶感興趣的類別,用戶整體興趣滿足固定常數,也就是隨著更新學習,用戶某些興趣可能由高到低遞減變化,而有些類別興趣由低到高遞增變化,但是用戶在整個類別偏好體系中興趣度總和個恒定常數用戶興趣能夠反映用戶主題偏好[1]。然而現有大部分個性化搜索引擎沒有識別用戶長期興趣和短期興趣,因此提出基于短期興趣來學習用戶長期興趣[2]。

用戶興趣隨時間變化符合一定規律,基本規律是先快后慢,先多后少,逐漸遺忘。面對興趣遺忘過程,如果興趣模型不進行更新,將會出現用戶興趣漂移現象:也就是隨著時間變化,用戶對某類興趣可能增加,對另一類興趣可能減小,也會有短期興趣積累一定時間,將會向長期興趣演變,用戶興趣需要定期更新,可使模型自動發現用戶的新興趣,并能適應用戶興趣的變化,從而能更好、更準確地反映用戶的真實興趣。具體更新需要對增量數據進行處理,因為如果用戶對某類興趣增加,相關文檔會增加,對新增數據的大量數據計算需要本文高效處理[3]。

1 用戶興趣更新學習方法

1.1 時間窗原理

時間窗通過時間的閾值來設定,有很多研究均采用此方案。基于優化時間窗的用戶興趣漂移算法[4],利用分類錯誤率的變化跟蹤用戶興趣的漂移,當用戶興趣發生變化時,通過優化時間窗算法自動調節時間窗的大小[5],用戶模型根據該值來進行改進。該算法主要通過客觀的時間來設定,因此對于用戶遺忘比較公正。目前有學者討論了個性化技術兼顧時間窗算法的模型[6]。在此,考慮長期因素,也包括短期因素,兩者兼顧觀察用戶興趣的趨勢。該機制效率良好。

1.2 相關反饋原理

為了改進用戶興趣模型的精準率,加入相關反饋知識[7]。該算法是根據原來的文本時間,當有更新文本值時,加入新的文本,同時原來文本相同的不進行更新,只更新不同的差值,這樣對于更新時間明顯減少,更新效率大大提高,對于發現用戶最新的興趣節省了時間。

1.3 遺忘規律

有研究學者根據遺忘規律進行衰減[8],通過不同的年齡來標識樣本信息,時間增長,標識信息的日期也增長,如果時間超出設定數值,忽略該樣本信息。改進用戶模型僅用沒有被篩選掉的數據,被篩選留下的數據可以反映用戶隨時間變化的興趣規律。

1.4 更新學習思想

第一是用戶短期興趣更新學習,采用遺忘因子進行更新;第二是短期興趣向長期興趣變化更新,由于短期興趣經過一定時期累加[9],隨著興趣度累加到一定時期[10],短期興趣會演變為長期興趣,面對增大的數據量,文中考慮增量學習方法,所以采用改進的Rocchio定期自動調整學習模型[11];最后是長期興趣學習:由于長期興趣具有變化緩慢、穩定的特點,如果長時間內長期興趣的興趣度仍然較小,可以判斷用戶對該類興趣不感興趣,可以對該類興趣進行淘汰。由此啟發,聯想到操作系統中的最近最少使用算法(LRU)[12],對應最近一段時間內最久沒有使用的興趣類別進行淘汰,也就是對最近一段時間內長時間興趣度低的興趣類別進行淘汰,將新加入的興趣度高的興趣類別更新進行替換,進行長期用戶興趣更新學習。

2 短期用戶興趣更新學習

用戶興趣更新學習包括加入用戶的最新興趣和對舊興趣的遺忘[12]。實驗證明,人們在學習中遺忘是有規律的,遺忘的進程很快,并且先快后慢。觀察曲線會發現,學得的知識在一天后如不抓緊復習,就只剩下原來的25%。隨著時間的推移,遺忘的速度減慢,遺忘的數量也就減少。有人做過一個實驗[13],兩組學生學習一段課文,甲組在學習后不復習,一天后記憶率36%,一周后只剩13%。乙組按艾賓浩斯記憶規律復習,一天后保持記憶率98%,一周后保持86%,乙組的記憶率明顯高于甲組。遺忘因子[7]F(x)如式1所示:

(1)

其中,cur為當前日期;est為興趣詞在用戶興趣庫中出現的最近日期;hl為減弱值。

經過弱化,用戶興趣遺忘一半,但并不是線性遺忘,遺忘速度是先快后慢。hl可以根據大量實驗測試確定,也可以人為確定,確保在短期興趣中歷史興趣遺忘快些,長期興趣中遺忘速度適當慢些。hl短期=2,hl長期=7,隨著時間的流逝,用戶興趣也會有對應一些規律性變更,因此挖掘用戶模型也對應參數調整。隨著個性化信息推薦的發展,研究人員進行了時間參數更新的模型研究,對于存在的差異也就是興趣的偏移解決策略提出了對應方案:時間窗方法、遺忘函數方法、混合用戶模型等[14]。以上思想基本是FIFO算法原理,缺乏考慮用戶長期和短期結合的思想[14]。

實驗中,每天用戶興趣度更新都有所變化,或增大,或減小,以第7天為例,用戶興趣更新遺忘規律如圖1所示。通過圖1可以看出,用戶在第7天時,在各類興趣度都有所減小,在體育和軍事類興趣減小均等,在旅游類興趣減小幅度大,可以推測用戶在一周后對旅游領域興趣明顯降低,相對不感興趣了,而對汽車和軍事類別還是比較感興趣。

圖1 用戶興趣遺忘結果

文中將10天設定為短期用戶興趣,具體更新結果如圖2所示。可以看出,整體衰減速度是先快后慢,先多后少的趨勢符合人們的遺忘規律。

圖2 短期興趣更新

3 長期用戶興趣更新學習

3.1 長期興趣更新學習方法

個性化原理是按照用戶所感興趣的數據,根據時間的變化以及興趣的熱點來獲取用戶興趣點,用戶實際需要的數據也會根據模型而輸出具體數值[15]。該算法通過最近最久未用方法改進用戶模型,設定閾值的尺寸為L,當有多于L個興趣出現時,利用“訪問的局部問題”,按照“到目前為止最少使用的興趣,很可能也就是將來最少使用的興趣”的原則,把興趣點最低的值淘汰。

3.2 長期興趣更新學習實驗

根據原理,被移除的興趣應該是那些在近期內被再次訪問的可能性最低的興趣對象[16]。該算法優于時間窗機制進行淘汰的方法,優點是命中率較高。根據用戶在半個月內在體育、軍事、教育、汽車、旅游和IT六類的興趣度淘汰表,可以計算出命中率,就是新加入興趣已在原用戶興趣序列中的命中次數與新加入興趣的總數之比。長期興趣更新結果如圖3所示。

圖3 長期興趣更新

4 實驗結果及結論

4.1 興趣度的相對誤差

興趣計算的準確程度需要衡量,所以采用傳統的相對誤差方法,如式2所示。

(2)

其中,E為相對誤差;V為真實興趣度;V'為測量興趣度。

表1是用戶在體育、軍事、汽車、教育、旅游和IT六類中興趣度相對誤差實驗結果,相對誤差率越小,表明興趣度越準確,用戶興趣模型性能越好。表中顯示了用戶的興趣誤差:誤差范圍在0.011之內,興趣度計算相對誤差率較低,表明用戶興趣度的計算相對準確率較高。

表1 誤差分析

4.2 查詢分類的準確率

采用傳統的兩個參數評價分類性能,即查準率及召回率。具體定義如式3所示。

(3)

其中,QT為查詢分類正確數量;QA為所有查詢數量。

查詢串有相應類別,文中模型的本質是將查詢分類,以查詢分類的準確率來評價分類準確性。輸入查詢串320個,分別屬于體育、軍事、汽車、教育、旅游、IT六類,分類準確率平均值為0.86,每類分類性能如表2所示。

表2 查詢分類準確率

5 結束語

闡述了用戶興趣更新學習意義和現有方法,基本的用戶興趣更新學習方法包括時間窗機制、遺忘因子更新學習和最近最少使用算法等。分為短期用戶興趣更新學習和長期用戶興趣更新學習。短期興趣學習方法采用遺忘因子進行更新學習,長期興趣學習方法采用最近最少使用算法。通過更新學習,能夠動態識別用戶興趣。評價方法包括相對誤差分析方法、傳統的準確率方法。相對誤差值越小,查詢串分類準確率越高,說明用戶興趣模型識別用戶興趣類別越準確。相應地給出了實驗分析,并且具體評價了用戶興趣模型的性能。

參考文獻:

[1] 邢春曉,高鳳榮,戰思南,等.適應用戶興趣變化的協同過濾推薦算法[J].計算機研究與發展,2007,44(2):296-301.

[2] 費洪曉,戴 弋,穆 珺,等.基于優化時間窗的用戶興趣

漂移方法[J].計算機工程,2008,34(16):210-211.

[3] 戰守義,井 新.加入時間因素的個性化信息過濾技術[J].北京理工大學學報,2005,25(9):782-785.

[4] 蔣 萍.基于用戶興趣挖掘的個性化模型研究與設計[D].蘇州:蘇州大學,2005.

[5] 史朝輝,王曉丹,楊建勛.一種SVM增量訓練淘汰算法[J].計算機工程與應用,2005,41(23):187-189.

[6] 李 娜.基于垂直搜索引擎的農業信息推薦關鍵技術研究[D].沈陽:沈陽農業大學,2016.

[7] 韓春曉.中文期刊個性化搜索引擎的設計與實現[D].哈爾濱:哈爾濱工業大學,2014.

[8] 張梅芳.基于改進PageRank算法和用戶興趣的個性化搜索研究[D].天津:河北工業大學,2014.

[9] 王 哲.一種基于位置服務的個性化美食搜索算法研究與實現[D].長沙:湖南大學,2013.

[10] 黃華東.基于用戶模型的個性化搜索研究[D].上海:華東理工大學,2013.

[11] 鄧曉嘉.一種基于RSS用戶興趣的個性化搜索系統[D].北京:北京工業大學,2010.

[12] 石志偉,劉 濤,吳功宜.一種快速高效的文本分類方法[J].計算機工程與應用,2005,41(29):180-183.

[13] QIU Feng,CHO J.Automatic identification of user interest for personalized search[C]//Proceedings of the 15th international conference on world wide web.Edinburgh,Scotland,UK:ACM,2006:23-26.

[14] KOUTRIKA G,IOANNIDISY.Personalized queries under a generalized preference model[C]//Proceedings of the 21st international conference on data engineering.Tokoyo,Japan:IEEE,2005.

[15] CLAYPOOL M,LE P,WASEDA M,et al.Implicit interest indicators[C]//Proceedings of the 6th international conference on intelligent user interfaces.Santa Fe,New Mexico,USA:ACM,2001:33-40.

[16] SHEN Xuehua,TAN Bin,ZHAI Chengxiang.Implicit user modeling for personalized search[C]//Proceedings of the 14th ACM international conference on information and knowledge management.Bremen,Germany:ACM,2015:824-831.

猜你喜歡
分類用戶方法
分類算一算
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产女主播一区| 欧美日韩动态图| 另类专区亚洲| a毛片在线| 一级毛片免费观看久| 亚洲天堂免费在线视频| 永久免费精品视频| 欧美一级在线| 在线观看视频99| 亚洲香蕉久久| 婷婷六月激情综合一区| 国产亚洲欧美日韩在线一区二区三区| 免费看av在线网站网址| 日本一本正道综合久久dvd| 一区二区三区四区在线| 一本大道视频精品人妻| 欧美黄网站免费观看| 亚洲日本中文字幕乱码中文| 无遮挡国产高潮视频免费观看| 久久亚洲日本不卡一区二区| 欧美国产日韩一区二区三区精品影视| 尤物国产在线| 国产99热| 免费日韩在线视频| 91精品人妻互换| aⅴ免费在线观看| 三区在线视频| AV网站中文| 亚洲国模精品一区| 国产区网址| 成人一级免费视频| 超碰免费91| 好久久免费视频高清| 国产精品毛片一区视频播| 久久夜色撩人精品国产| 精品视频第一页| 欧美性色综合网| 性激烈欧美三级在线播放| 午夜精品一区二区蜜桃| 国产超薄肉色丝袜网站| 91黄色在线观看| 福利小视频在线播放| 欧美日韩中文字幕在线| 一级毛片中文字幕 | 色色中文字幕| 喷潮白浆直流在线播放| 久久美女精品| 国产jizz| 国产成人区在线观看视频| 国产在线观看91精品| 成人午夜免费观看| 婷婷在线网站| 伊人91视频| 91久久夜色精品国产网站| 亚洲一区毛片| 亚亚洲乱码一二三四区| 免费A∨中文乱码专区| 欧美精品成人一区二区在线观看| 白浆免费视频国产精品视频 | 亚洲精品福利视频| 91精品专区| 成人无码一区二区三区视频在线观看| 亚洲欧美自拍一区| 尤物特级无码毛片免费| 亚洲天堂2014| 丁香婷婷激情网| 激情综合网激情综合| 国产精品综合色区在线观看| 欧美区国产区| 亚洲国产日韩欧美在线| 色网在线视频| 亚洲视频免| 欧美成人午夜视频| 亚洲综合片| 欧美国产日韩另类| 欧美成人看片一区二区三区 | 欧美区日韩区| 国产伦精品一区二区三区视频优播 | 国产成人高清精品免费5388| 亚洲天堂精品在线| www.av男人.com| 国产在线观看91精品|