999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于用戶興趣的文獻個性化推薦研究

2019-10-15 02:21:53關菲李曉靜
軟件導刊 2019年8期

關菲 李曉靜

摘 要:針對當前文獻推薦中個性化程度不高等問題,提出一種對用戶行為重新分配權重的度量算法。運用用戶行為數據按照時間順序重新分配權重,突出近期用戶興趣構建用戶興趣模型。通過LDA主題分布、關鍵詞分布等方法構建學術資源模型,實現兩模型間匹配,完成推薦。通過實驗驗證,該算法準確性達到80%,比傳統等權重算法提高近20%,召回率與F值分別提升了7%和5%。研究表明,基于時間因素的用戶興趣度量算法相較于傳統等權重算法具有更高的準確性,未來可進一步優化用戶興趣度量以實現精準推薦服務。

關鍵詞:精準推薦;學術資源;用戶興趣;個性化推薦

DOI:10. 11907/rjdk. 191868 開放科學(資源服務)標識碼(OSID):

中圖分類號:TP391文獻標識碼:A 文章編號:1672-7800(2019)008-0170-04

Personalized Recommendation of Literature Based on User Interest

GUAN Fei,LI Xiao-jing

(School of Mathematics and Statistics, Hebei University of Economics and Trade, Shijiazhuang 050061,China)

Abstract: To solve the problem of low degree of personalization in current literature recommendation, a measurement algorithm for reallocating weights to user behaviors is proposed. The paper uses the user behavior data to redistribute the weight according to the time sequence, and highlights the recent user interest to build the user interest model. Through LDA topic distribution, keyword distribution and other methods to build academic resource model, the two models were matched and the recommendation was completed. The experimental results show that the accuracy of the algorithm reaches 80%, which is nearly 20% higher than the traditional equal weight algorithm. The recall rate and F value are increased by 7% and 5% respectively. The user interest measurement algorithm based on time factor has higher accuracy than the traditional equal weight algorithm. In the future, the user interest measurement can be further optimized to provide ideas for optimizing accurate recommendation services.

Key Words:accurate recommendation; academic resources; user interest; personalized? recommendation

基金項目:河北省自然科學基金青年項目(F2017207010)

作者簡介:關菲(1985-),女,博士,河北經貿大學數學與統計學學院副教授、碩士生導師,研究方向為模糊對策與決策、數據挖掘;李曉靜(1994-),女,河北經貿大學數學與統計學學院碩士研究生,研究方向為大數據分析。

0 引言

數字驅動時代,人們生活方式已完成從手動自給自足到科技信息化的過渡,知識擴張和科技發展為社會的現代化進程提供了助力。現代化主要指以現代工業、科技革命為推動力,由傳統社會向現代社會轉化的歷史過程,涵蓋了生活便捷、信息豐富等多方面。現今人們的社交也不限于面對面的交流,更多的是應用電子軟件進行網上會話、網上購物等方式。傳統學習方式也發生變化,人們可以利用網絡搜索自己感興趣的知識進行學習,方便快捷、省時省力。當前,網絡技術支持每一個擁有通訊設備的人完成各種網上操作,無形中會有各種使用痕跡留存網站。研究者可以根據這些代表之前網絡行為的歷史數據總結用戶偏好,預測下一步行為傾向,在實施搜索之前給予推薦,達到智能個性化推薦效果。數據是一種信息資源,網上數據繁多,用戶行為呈現指數級增長,如何對其合理利用是實現精準推薦的重點和難點。

目前,學者利用的推薦方法有協同過濾、基于內容推薦和基于知識推薦等,但大多個性化推薦服務都存在個性化程度不高、推薦準確度較低等問題,不能很好地度量用戶興趣。相關研究大多從推薦算法設計和興趣模型構建兩方面著手。黃珊珊[1]利用改進的LDA主題模型對微博短文本和粉絲微博內容進行分析,豐富用戶興趣、拓寬推薦內容,但并未考慮用戶興趣轉移問題;徐吉等[2]基于協同過濾算法,構建興趣遷徙模型和用戶信任度模型,提升推薦準確性;林耀進等[3]提出基于用戶群體推薦算法,增強推薦系統穩定性;劉珊珊[4]采用混合協同過濾方法完成用戶感興趣數據篩選,從而實現個性化推薦;朱雨晗[5]建立長短期用戶興趣標簽,運用最近鄰獲取動態興趣進行推薦,但時期分配上只有長短兩個時期,還不夠充分;陳佳艷[6]提出同伴推薦方法,將個性化推薦思想融入在線學習平臺的學習資源個性化推薦;Haifang Wang等[7]將用戶各類數據深度融合,考慮數據間邏輯關系,提高了推薦準確性;Tian Qiu等[8]從用戶活躍度方面入手構建用戶興趣模型;劉超慧等[9]構建用戶—學術資源評價模型,應用基于資源的協同過濾算法完成推薦。通過資源模型構建可以更好地度量學術資源內容,是目前比較受歡迎的一種方式;Divyaa等[10]提出一種基于偏好相似度得分的社交網絡子圖的聚類細化算法,提升了推薦準確度;姜書浩等[11]依據用戶歷史偏好和項目類別專家評分采用后過濾技術生成多樣化推薦列表;劉電霆、吳麗娜[12]在LDA主題模型基礎上,綜合社會網絡結構、用戶間信任關系和社會影響力,打破了推薦結果模式化;高元[13]基于Hadoop平臺海量學術資源分詞、TF*IDF相關參數提取以及分類模型訓練,解決了傳統單機模式處理海量文本數據時效率低的問題。在解決冷啟動問題、尋找最優解方面,梁仕威等[14]結合表示學習模型與基于矩陣分解的協同過濾算法,解決了傳統新聞推薦的冷啟動問題;Lei Liu等[15]創建了一個混合教材學習平臺,并將其應用于各階段教學;翟域等[16]基于知識狀態生成待學習知識點向量,設計迭代算法找到最佳匹配。本文以精準推薦為目標,結合已有算法,運用用戶的歷史行為數據,考慮到時間因素下用戶興趣轉移的影響,創新性地提出運用用戶行為數據按照多個時間順序重新分配權重的算法,構建用戶興趣模型并與學術資源模型進行匹配,以提高推薦效果。

1 學術資源模型

當前,研究者多利用網絡資源實現學習時間碎片化充分利用[17],而這些學術資源中研究論文的參考文獻大多需要具備權威性。知網提供各種文獻檢索、閱讀等服務,為我國學者廣泛使用,而知網海量論文中的主題、關鍵詞篩選功能無疑為人們搜索學習資源提供了便利[18]。論文中的摘要作為論文的精華部分,涵蓋了研究領域、運用方法和結論展示,能夠使學者快速把握文章主旨,節約時間和精力。爬取論文摘要進行分析不僅能夠節省研究者的精力還能防止文章中的片面信息對提取文章主題造成負面影響。

精準推薦的重點在于準確把握用戶需求[19],將其與資源特征進行匹配,從而完成推薦,其中資源特征提取和向量化顯得尤為重要。資源特征提取不當不僅不能很好地表達學術資源本身的研究背景,難以運用算法和研究結論,還會造成匹配不當致使資源推送不當,呈現客戶不滿意度上升甚至客戶流失等嚴重后果[20]。資源特征提取一般運用提取特征詞分布的TF-IDF方法,該方法是利用詞頻計算每篇文檔的特征詞及其權重。

[TF-IDF=詞頻(TF)*逆向文件頻率(log(1IDF))]

但是傳統TF-IDF方法難以把握詞語在文章中的順序差異,無法準確表達不同主題下相同詞語的不同含義。而LDA主題模型可以準確得到文章包含主題及每個主題下的關鍵詞和權重,有利于解決上述問題,本文選取LDA算法完成學術資源的文本向量化。LDA算法是運用概率知識進行求解。

[p(w|d)=p(w|t)*p(t|d)]

其中,w代表詞語,t代表主題,d代表文檔,則p(w|d)為文檔d中詞語w的分布概率,p(w|t)為主題t下詞語w的分布概率,p(t|d)為文檔d中主題t的分布概率。通過分詞系統后統計詞頻,上式左側可以較容易得到,進而通過矩陣分解得到右側,這部分涉及較多數學知識,不再深入分析。通過Python編程代碼可以較便利得到每篇文檔的主題分布T和主題下的詞分布W,則文檔d可用關鍵詞w與權重表達:

[W=(λ1w1,λ2w2,?,λ10w10)]

為達到文本向量化的目的,每篇文檔選取主題數為1,主題下的關鍵詞數量取前10,以便減少數據稀疏性。

2 用戶興趣模型與精準推薦

用戶興趣偏好度量是在資源模型基礎上進行推薦的核心部分[21-22],一般從大量用戶數據中選取用戶行為數據表征用戶偏好。準確把握用戶偏好有利于增加推薦準確度,本文根據用戶歷史下載數據判斷其偏好傾向,下載行為通常說明用戶對該主題感興趣。但是用戶歷史行為數據并沒有考慮用戶興趣轉移因素,隨著時間的推移,用戶的興趣很可能發生變化,近期內的用戶行為數據更能夠表述用戶的偏好傾向。因而本文在運用歷史數據時考慮時間因素下用戶偏好轉移,在學術資源模型基礎上構建用戶興趣模型時為不同時間段設置不同權重代替偏好傾向度,有:

[M=(u1M1,u2M2,?,unMn)]

其中,M代表用戶偏好,[Mi(1in)]為用戶歷史數據向量,i為時間因素,權重系數有[1u1u2?un0],隨著時間的接近其更能夠影響偏好傾向,具體權重大小由實驗比較得出,且[u1+u2+?+un=1]。

與此對應,排除用戶行為時間因素,設置等權重用戶興趣模型作為對照組,有:

[M'=(uM1',uM2',?,uMn')]

其中,[u=1/n],即不考慮時間因素影響,認為用戶歷史行為數據有相同的權重系數。

在學術資源模型和用戶興趣模型基礎上,可以進行每篇文檔與用戶興趣向量的相似度計算。鑒于學術資源和興趣模型的向量化數字表示已經完成,本次選用相似度算法為余弦相似。

[cos(W,M)=i=1N(Wi*Mi)i=1N(Wi2)*i=1N(Mi2)]

選取相似度較高的Top-N進行推薦。

3 實驗分析

實驗數據來源于中國知網,選取推薦系統領域的所有核心期刊論文共2 759篇,爬取論文題目、摘要信息構建學術資源模型。在LDA建模中選擇主題—特征詞的前十進行文本主題識別和向量化。運用Python代碼進行運算,設置主題數為1,表征主題的關鍵詞截取前十,得到部分主題—特征詞分布如表1所示。

表1 部分主題詞和關鍵詞

在構建用戶興趣模型的系數選擇上,選取不同取值進行實驗,本次設置了系數范圍分別為[u1∈(0,0.1),u2∈(u1,][0.2),u3∈(u2,0.3),u4∈(u3,0.4),u5∈(u4,0.5)]滿足時間因素下系數遞增,即權重分配不同,通過多次迭代選擇推薦準確度較大的系數:[u1=0.048,u2=0.095,u3=0.143,u4=0.238,][u5=0.476],實驗過程部分數據如表2所示。

表2 系數效果比較

系數確定后,用戶興趣模型就建立完成,進而計算學術資源模型中每一篇論文與用戶興趣模型的相似度,取相似度值較高的N篇論文進行推薦,在推薦后匹配用戶數據,進而確定評價指標數值。

判斷考慮時間因素下用戶興趣轉移采用不同權重的算法與不考慮時間因素下用戶興趣轉移平均算法的指標為準確率P、召回率R和調和平均值F,以期較準確地評價用戶推薦效果。3個指標運算公式如下:

[P=推薦中用戶喜歡的文獻個數推薦的文獻總個數]

[R=推薦中用戶喜愛文獻個數用戶在學術庫中喜愛的總個數]

[F=2*P*RP+R]

通過運算,得到實驗結果如圖1-圖3所示。

圖1 不同推薦個數下準確度比較(P值)

圖2 不同推薦個數下召回率比較(R值)

圖3 不同推薦個數下F值比較

實驗結果顯示,當推薦個數依次從5增加到15時,兩種方法的準確度、召回率和F-measure值都依次上升。但是考慮時間因素下的用戶興趣轉移算法在準確率和召回率上都要優于不考慮興趣轉移的平均權重算法,雖然初始時的F指標不是很高,但隨著推薦個數的增加,本文提出算法的F值也很快超過對照組算法的取值。當推薦個數相同時,本文時間因素下用戶歷史行為不同權重的各項指標均優于平均權重算法,可見考慮用戶興趣轉移因素使得推薦效果更佳。

4 結語

推薦系統利用用戶以往網絡痕跡數據,為用戶提供主動式服務,節省用戶的時間和精力,也進一步促進網絡資源的智能化發展。本文基于用戶歷史行為數據,考慮到基于時間因素用戶興趣轉移的影響,從而提出權重重新非均等分配算法。運用LDA提取文獻主題、關鍵詞及權重,達到文本向量化進而建立學術資源模型;運用用戶歷史行為數據,根據實驗得出時間影響下的不同權重系數分配從而得出用戶興趣模型。采用余弦相似度算法計算兩模型相似度進行推薦匹配,與不考慮時間因素下用戶興趣轉移的均等權重用戶興趣模型算法相比,本文提出的算法無論在推薦準確率、召回率還是隨著推薦個數增加的F值上效果均更佳。但本研究仍存在一定缺陷:運用LDA模型提取文獻主題,在實驗階段選取了推薦領域專一主題數據,雖然能夠反映文獻背景、算法和結論的不同,但選用不同領域文獻能夠自動識別文章主題,推薦效果會更佳,也更符合人們日常搜索習慣;僅利用用戶下載行為數據,而更大范圍的用戶點擊、分享等行為數據的綜合運用可以更好地度量用戶興趣,這也是下一步研究方向。

參考文獻:

[1] 黃珊珊. 基于LDA的微博個性化新聞推薦方法研究[D]. 武漢:武漢郵電科學研究院,2019.

[2] 徐吉,李小波,許浩. 基于用戶信任的協同推薦算法研究與分析[J]. 數據通信,2019(2):29-34.

[3] 林耀進,胡學鋼,李慧宗. 基于用戶群體影響的協同過濾推薦算法[J]. 情報學報,2013,32(3):299-305.

[4] 劉珊珊. 大數據中基于混合協同過濾的動態用戶個性化推薦[J]. 軟件工程,2019,22(3):16-19.

[5] 朱雨晗. 基于用戶興趣標簽的混合推薦方法[J]. 電子制作,2018(22):42-44.

[6] 陳佳艷. 基于學習行為特征的學習資源個性化推薦研究[D]. 南京:南京郵電大學,2018.

[7] WANG H F,WANG Z J,HU S H,et al. DUSKG: a fine-grained knowledge graph for effective personalized service recommendation[J]. Future Generation Computer Systems,2019,100(11):600-617.

[8] QIU T, WAN C,WANG X F,et al. User interest dynamics on personalized recommendation[J].? Physica A: Statistical Mechanics and its Applications,2019,525.

[9] 劉超慧,李宇根,陶浩武,等. 基于用戶-圖書資源特征的圖書資源推薦技術研究[J]. 電子世界,2019(8):86-87.

[10] DIVYAA L R,NARGIS P. Towards generating scalable personalized recommendations: integrating social trust, social bias, and geo-spatial clustering[J]. Decision Support Systems,2019,122:113066.

[11] 姜書浩,張立毅,張志鑫. 基于個性化的多樣性優化推薦算法[J]. 天津大學學報:自然科學與工程技術版,2018,51(10):1042-1049.

[12] 劉電霆,吳麗娜. 社會網絡中基于信任的LDA主題模型領域專家推薦[J]. 廣西師范大學學報:自然科學版,2018,36(4):51-58.

[13] 高元. 面向個性化推薦的海量學術資源分類研究[D]. 寧波:寧波大學,2017.

[14] 梁仕威,張晨蕊,曹雷,等. 基于協同表示學習的個性化新聞推薦[J]. 中文信息學報,2018,32(11):72-78.

[15] LIU L,VERNICA R,HASSAN T,et al. Using text mining for personalization and recommendation for an enriched hybrid learning experience[J]. Computational Intelligence,2019,35(2):1-3.

[16] 翟域,徐朦,黃斌. 基于知識狀態的個性化學習資源推薦方法[J]. 吉首大學學報:自然科學版,2019(3):23-27.

[17] 劉揚超. 大學生碎片化學習的現狀調查研究[D]. 呼和浩特:內蒙古師范大學,2018.

[18] 涂佳琪,楊新涯,王彥力. 中國知網CNKI歷史與發展研究[J/OL]. 圖書館論壇:1-12[2019-06-26]. http://kns.cnki.net/kcms/detail/44.1306.G2.20190619.0848.002.html.

[19] 丁夢曉,畢強,許鵬程,等. 基于用戶興趣度量的知識發現服務精準推薦[J]. 圖書情報工作,2019,63(3):21-29.

[20] 劉偉,劉柏嵩,王洋洋. 海量學術資源個性化推薦綜述[J]. 計算機工程與應用,2018,54(3):30-39.

[21] 王剛,郭雪梅. 融合用戶行為分析和興趣序列相似性的個性化推薦方法研究[J/OL]. 情報理論與實踐:1-11[2019-06-26]. http://kns.cnki.net/kcms/detail/11.1762.G3.20190417.1553.006.html.

[22] 黃宏程,陸衛金,胡敏,等. 用戶興趣相似性度量的關系預測算法[J]. 計算機科學與探索,2017,11(7):1068-1079.

(責任編輯:孫 娟)

主站蜘蛛池模板: 欧美日韩成人在线观看| 四虎亚洲精品| 香蕉精品在线| 全部免费特黄特色大片视频| 亚洲国产天堂久久九九九| 久久精品视频一| 欧美视频二区| 国产精品无码AV中文| 欧美日韩导航| 亚洲精品色AV无码看| 91久久国产综合精品女同我| 国产成人精品视频一区二区电影 | 亚洲一道AV无码午夜福利| 欧美日韩在线观看一区二区三区| 亚洲日本中文综合在线| 久久久久人妻精品一区三寸蜜桃| 亚洲天堂视频在线观看| 伊人色婷婷| 农村乱人伦一区二区| 欧美亚洲中文精品三区| 五月婷婷综合网| 亚洲国产精品日韩av专区| 最近最新中文字幕免费的一页| 国产办公室秘书无码精品| 国产在线拍偷自揄拍精品| 欧美中文字幕在线视频| 久久久久亚洲av成人网人人软件| 看看一级毛片| 国产尤物视频网址导航| 亚洲人在线| 欧美翘臀一区二区三区| 亚洲国产一区在线观看| 国产亚洲精久久久久久无码AV | 精品伊人久久久大香线蕉欧美| 中文字幕佐山爱一区二区免费| 日韩精品视频久久| 亚洲欧美激情小说另类| 凹凸国产熟女精品视频| 91九色国产在线| 欧美爱爱网| 国产成人亚洲日韩欧美电影| 黑人巨大精品欧美一区二区区| 一级毛片在线播放免费| 久久国产V一级毛多内射| 91视频区| 欧美日本视频在线观看| 亚洲午夜综合网| 国产精品99在线观看| 丝袜美女被出水视频一区| 亚洲人成人伊人成综合网无码| 9啪在线视频| 日本一区二区三区精品视频| 欧美综合激情| 九九精品在线观看| 无码AV高清毛片中国一级毛片| 在线免费a视频| 亚洲毛片在线看| 欧美色视频网站| 亚洲成aⅴ人在线观看| 18禁黄无遮挡网站| 久久综合色天堂av| 国产一区亚洲一区| 女同国产精品一区二区| 精品综合久久久久久97超人| 五月激情综合网| 天天色天天综合| 性网站在线观看| 香蕉视频在线精品| 国产午夜无码专区喷水| 日韩成人在线一区二区| 亚洲欧洲日产国产无码AV| 亚洲成人免费看| 亚洲第一视频网| 国产高清无码第一十页在线观看| 色135综合网| 亚洲色图欧美| 国产簧片免费在线播放| 中文字幕亚洲精品2页| 手机在线免费不卡一区二| 凹凸国产熟女精品视频| 欧美视频在线播放观看免费福利资源| 亚洲毛片网站|