袁黃輝 孫知信 高鳳玲



摘? 要:隨著互聯網大數據時代的到來,資源聚合平臺逐漸成為一種趨勢,而文章聚合系統則是其中最普遍的一種資源整合方式。一方面,它能滿足用戶對于閱讀數量的追求;另一方面,系統中內容分發方式的豐富也迎合了用戶個性化的需要。該文針對平臺方實際需求,實現了一種融合個性化推薦的文章聚合系統,系統的推薦內核主要依賴于所提的融合用戶畫像的協同過濾推薦方法,以此為平臺方用戶提供文章推薦服務。
關鍵詞:個性化推薦? 文章聚合? 協同過濾? 用戶畫像
中圖分類號:TP391.3? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A文章編號:1672-3791(2021)04(a)-0035-03
An Article Aggregation System Integrating Personalized Recommendation
YUAN Huanghui1? SUN Zhixin2? ?GAO Fengling3
(1.School of Computer Science and technology, Nanjing University of Posts and Telecommunications, Nanjing, Jiangsu Province, 210023 China; 2.School of Modern Posts, Nanjing University of Posts and Telecommunications, Nanjing, Jiangsu Province, 210003? China; 3.China Electronics System
Engineering NO.2 Construction Co., Ltd., Wuxi, Jiangsu Province, 214135? China)
Abstract: With the advent of the era of Internet big data, resource aggregation platform has gradually become a trend, and article aggregation system is one of the most common ways of resource integration.On the one hand, it can meet the user's pursuit of reading quantity; on the other hand, the rich content distribution in the system also caters to the needs of personalized users. According to the actual needs of platform, this paper presents an article aggregation system that integrates personalized recommendation. The recommendation kernel of the system mainly relies on the proposed collaborative filtering recommendation method that integrates user portrait, so as to provide article recommendation service for platform users.
Key Words: Personalized recommendation;Article aggregation;Collaborative filtering;User portrait
互聯網時代的到來衍生出了各類信息聚合的平臺和網站。不論是新浪新聞、今日頭條這類以文本信息為主的網站,還是類似于淘寶、京東這類的電商平臺,它們都是幫用戶將海量的數據做了初步的聚合歸類,但是即便如此用戶對于便捷和效率的訴求隨著信息數據的激增依舊無法得到滿足。因此,如何針對不同用戶進行個性化推薦是這類信息聚合平臺亟需解決的問題。
基于文章聚合系統的個性化服務訴求,該文結合實際場景設計了一種融合用戶畫像的協同過濾推薦方法進行文章個性化推薦,使得最終的推薦結果更加準確。
1? 關鍵技術概述
1.1 協同過濾推薦方法
協同過濾推薦方法主要分為兩類:基于用戶和基于內容的協同過濾[1]。基于用戶的協同過濾主要是通過用戶的歷史行為記錄來計算用戶間的相似性,使用相似用戶的其他偏好進行推薦[2];而基于內容的協同過濾則是根據所有用戶對項目的喜好來計算項目間的相似性,根據用戶偏好將相似的內容推薦給用戶[3]。
1.2 用戶畫像技術
用戶畫像顧名思義就是將原本晦澀難懂的用戶數據以一種更形象的方式梳理并呈現出來,通常的呈現形式是一系列與用戶相關的結構化標簽集合[4-6]。此項技術目前已被廣泛應用于推薦系統領域,目的就是快速、準確地分析用戶的行為習慣和興趣偏好,最終實現個性化的內容分發。
2? 系統架構設計
該系統架構自下而上分別是基礎數據層、特征計算層、召回策略層、排序過濾層以及展示層,以這5層架構實現系統核心功能,具體的總架構圖見圖1。
3? 融合用戶畫像的協同過濾推薦方法
3.1 用戶畫像標簽體系建立
該系統設計的用戶畫像標簽體系包括靜態和動態標簽兩部分,畫像標簽體系見圖2。
3.2 用戶畫像構建
基于上述用戶標簽體系的設計,將畫像模型具體表示為。第一維度表示用戶的基本信息特征,分別為用戶的性別、年齡、婚姻狀況和興趣愛好。第二維度表示用戶的主題分布特征。第三維特征和第四維特征則是用戶的閱讀頻率和一天中的閱讀時間分布。畫像模型的具體構建方法如下。
3.2.1 用戶基本信息統計
用戶基本信息的具體標簽種類如表1所示。該方法使用二進制序列對多維特征進行表示,例如:性別維度設一個標志位,即性別男置1,女置0;年齡維度設6個標志位,將對應年齡段的標志位置1;婚姻和興趣也根據表1中信息進行設置。最終得到用戶靜態信息的二進制序列表示B。
3.2.2 用戶的主題特征表示
將用戶偏好文章輸入到預訓練好的LDA主題模型,得到文章的主題分布向量。
3.2.3 用戶閱讀頻率計算
將閱讀頻率作為用戶畫像的一維特征可以有效地區分用戶,有助于個性化推薦的精準性。閱讀頻率R的具體計算公式如公式(1)所示。其中k表示統計到有閱讀行為的總天數,Rm表示用戶在第C天閱讀的總文章數。
(1)
3.2.4 用戶閱讀時間分布統計
為了方便度量一個人的閱讀時間分布,該方法中將一天劃分為7個不同的時間段,即最終得到的閱讀時間分布向量有7個維度。具體計算方法如式(2),其中 RN表示每個時間段閱讀總數分布向量。
(2)
3.2.5 多維度相似性計算
對于得到的用戶多維度特征表示向量使用余弦相似度計算方法進行計算,得到最終的用戶相似度矩陣US。計算方法如式(3)。其中PRi和PRj分別表示用戶 Vi和Vj的多維特征向量。
(3)
3.3 協同過濾生成結果集
基于得到的用戶相似度矩陣,使用K-means聚類方法對用戶進行聚類。在對特定用戶進行推薦時,找到與其屬于同一類別的其他相似用戶,獲取到他們的偏好文章集合。再利用用戶相似度矩陣數值對每篇文章進行加權排序,最終篩選出指定數量的結果集。
4? 結語
該文針對文章資源整合以及用戶個性化推薦服務的需求,設計并實現了一種融合個性化推薦的文章聚合系統。且在該系統的推薦內核中設計了一種融合用戶畫像的協同過濾推薦方法來增加推薦結果的準確性,并在實際的應用場景中能很好地完成個性化的文章內容分發任務。
參考文獻
[1] 顧明星,黃偉建,黃遠,等.結合用戶聚類與改進用戶相似性的協同過濾推薦[J].計算機工程與應用,2020,56(22):185-190.
[2] yeongwook yang,jang hongjun,byoungwook kim. A Hybrid Recommender System for Sequential Recommendation: Combining Similarity Models With Markov Chains[J].IEEE Access,2020(8):190136-190146.
[3] 王永,趙旭輝,李曉光,等.一種面向協同過濾的快速最近鄰居搜索方法[J/OL].計算機工程與應用:1-14[2021-04-08].https://www.kns.cnki.net/kcms/detail/11.2127.TP.20201208.1533.022.html.
[4] Simsek A, Karagoz P. Wikipedia enriched advertisement recommendation for microblogs by using sentiment enhanced user profiles[J].Journal of Intelligent Information Systems,2020,54(2):245-269.
[5] Ouaftouh S, Zellou A, Idri A. Social recommendation: A user profile clustering‐based approach[J].Concurrency and Computation: Practice and Experience,2019,31(20):5330.
[6] 劉勇,吳翔宇,解本巨.基于動態用戶畫像的信息推薦研究[J].計算機系統應用,2018,27(6):236-239.