陳學輝 陳少鎮 王培彬 藍汝琪 熊梓韜

摘要:它的設計基于內容推薦系統,聯合內容的推薦算法技術解析用戶大批的行為數據,在個性化推薦系統中將新的資訊、有意思領域的資訊推薦給用戶并通過頁面進行個性化展示,以及把用戶關注領域的最新進展資訊、有價值的信息或者可能喜歡的資訊推薦給用戶。按照設計思路實現的實例它能在文章數量充足的數據庫當中根據用戶自定義的標簽或者閱讀過的文章推薦類似的資訊給用戶,并展示在系統的推薦頁面。達到了提高信息傳播的價值、準確率和降低信息傳播的偶然性的效果。
關鍵詞:個性化推薦系統;行為數據;余弦相似度;興趣偏好點;標簽
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2019)09-0014-03
Abstract: Its design is based on the content recommendation system, combined with the content recommendation algorithm technology to analyze a large number of user behavior data, in the personalized recommendation system to recommend new information, interesting areas of information about the user and personalized display through the page, and the user The latest progress information, valuable information or information you may like in the area of interest is recommended to the user. According to the design idea, it can recommend similar information about users in the database with sufficient number of articles based on user-defined tags or read articles, and display them in the system recommendation page. It has achieved the effect of improving the value, accuracy and reducing the contingency of information dissemination.
Key words: personalized recommendation system; behavioral data; cosine similarity; interest preference point; label
1 概述
隨著移動互聯網的蓬勃發展,用戶對信息的需求在大規模的信息量中得到滿足,但由于信息量的大幅增長,用戶未能在自身偏好點或者真正需要的信息中得到滿足,從而降低了信息傳播的價值和傳播效率。就目前來說基于內容的推薦是最符合解決這類似問題的方式,它根據用戶的標記、收藏、需求、興趣、瀏覽記錄等行為數據,作為用戶偏好點的根據,并聯合算法進行個性化計算分析,得出用戶的行為偏好點,將符合用戶偏好點的信息形成個性化推薦系統推薦信息給用戶。個性化推薦系統區別于傳統信息推薦系統。傳統的做法是基于用戶對信息有明確的需求查詢,例如各種搜索引擎,根據目的搜索快速的獲得信息,這是它的優點也是它的缺點,它要求用戶必須提供明確的需求信息,因此不能滿足用戶對信息多樣性的需求。前者根據后者的不足,對推薦系統進行了個性化推薦的設計,改進了傳統信息推薦系統對目的搜索獲得需求的依賴。
2 基于內容推薦算法的推薦系統
2.1 主要解決的兩個問題
2.1.1個性化資訊推薦系統如何獲取用戶喜歡資訊類型
就目前來說,最主流的做法主要分為以下3種:
1)機器學習模型。由于數據存在變動性,它需要持續的調整和調優模型參數和超參數的學習更新過程,將過程循環迭代獲得最有效的評估模型。再通過驗證和離線評估,參考評估指標在一個或多個評估模型中獲得較為符合的模型。
2)產品數據。實質上機器學習模型的檢測都需要產品數據的參與。它可以通過分析一系列的數據,而不是僅限于單一的分類模型。持續變更的用戶歷史數據,提取歷史行為記錄里能代表資訊內容的關鍵詞(標題的關鍵詞更為明確),比如“經濟”“裁員”“演唱會”等,并統計關鍵詞出現的次數計算關鍵詞的權重或者統計資訊所屬的領域在哪方面,比如“政治”“娛樂”“體育”等,獲取用戶瀏覽最多的領域。
3)用戶調查。內容的分布變動性和眼球效應(產品數據顯性而被動的局限性)會對內容的推薦質量產生長久的影響。它可以把評定需要的指標納入KPI考核中,但要明確的是不能單憑單一的KPI來評定最終的資訊內容質量。
2.1.2資訊內容相似度計算
結合以上關于產品數據的解析不難想到,可以提取兩個資訊內容的關鍵詞,對比它們的關鍵詞是否相同來評定兩個資訊存在的相似性。但是考慮到不同資訊內容它表達的語態、語法等還有一篇資訊可以有好幾個關鍵詞,很難做到文章中所有的關鍵詞都匹配準確。所以在內容相似度計算的設計中需要基于兩篇資訊的關鍵詞進行匹配度的合理量化。
3 資訊推薦系統的設計與實現
設計的系統需要在用戶自定義的標簽和歷史閱讀資訊中收集數據,通過分析用戶的行為數據和資訊的文本內容,提取出能代表用戶和文章的關鍵詞,如圖1:
它把用戶自定義的標簽和資訊內容出現的關鍵詞作為屬性,再把用戶的行為數據和資訊內容分解成向量的形似,如圖2:
這樣它就把文本數據轉變為向量,然后利用余弦相似度計算向量的距離(如下公式),得出用戶偏好點和資訊的相似度。
相對應公式轉換為如下代碼實現余弦相似度計算方法(D表示資訊詞集、w[i][j]表示第i篇資訊中的第j個詞):
這種計算過程雖說簡單,從圖1和圖2的關鍵詞來看,如果資訊里同時有體育、足球、中超關鍵詞,顯然直接匹配關鍵詞“中超”比匹配關鍵詞“體育”和“足球”準確,這就很有必要獲得關鍵詞的權重了,它可以通過如下公式計算資訊中每個關鍵詞所占據的權重,精確相似度。
sim(user,text) = 資訊內容相似度(user, text) * 權重
不過,它還需要考慮到以上關鍵詞匹配方法的局限性。以足球球迷用戶為例,如果用戶的偏好點是足球,而資訊內容的關鍵詞是中超聯賽、英超聯賽和西甲聯賽等,關鍵詞間顯然無法得到關聯。所以需要在原來關鍵詞匹配的基礎上,結合聚類(關鍵詞聚類)與用戶進行相似度計算。
先把資訊的關鍵詞聚類到一個主題中,例如中超聯賽、英超連死啊和西甲聯賽等聚類到“足球”的主題中,還有各類籃球聯賽等也同樣聚類到“籃球”的主題中,再把各主題的內容與用戶的關鍵詞進行相似度計算。這種方法的實現如圖5中的代碼設計(z[i][j]表示第i篇資訊中第j個詞屬于的話題):
基于以上方法簡單的實驗,它設定“我的標簽”中包含“足球”關鍵詞,獲取用戶在 “新聞中心”的行為數據作為數據集,再基于以上余弦相似度計算方法獲得推薦資訊,并把資訊標題展現在“猜你喜歡”頁面。
進入實驗測試系統后,在“我的標簽”頁面設置用戶的各種偏好點,然后返回“新聞中心”瀏覽由資訊庫提供的各類資訊。在這過程中,自動收集用戶在系統的各種歷史行為數據,進行上述設計實驗的過程。
當用戶進入“猜你喜歡”頁面時,能夠獲得系統個性化推薦的資訊,點擊標題方可進入閱讀資訊,測試只顯示少量資訊。實驗發現,當用戶在“新聞中心”的資訊閱讀量越多時,系統推薦的資訊內容更準確。
4 結論
基于內容推薦算法的個性化推薦系統可以把資訊庫最新的資訊個性化推薦給用戶,而且新資訊被推薦的概率與舊資訊同等。它只需要依據每個用戶本身的關鍵詞獲得推薦資訊,而不需要用戶明確的需求和其他用戶的關聯,所以它解決了傳統推薦系統對目的搜索的依賴和推薦系統的冷啟動問題。它可以運用到各種新聞、讀書、在線商城等網站和軟件,還可以運用到跟資訊推薦有關的平臺建設當中。但是,對于文本分詞獲得詞流,再從詞流中抽取關鍵詞還是很難的,它很難精確的檢測到描述資訊的特征,再者就是過于執著根據關鍵詞推薦,從而失去了資訊推薦內容的多樣性,還需要在實際的開發當中對它繼續改進。
參考文獻:
[1] 項亮.推薦系統實戰[M].北京:人民郵電出版社, 2012:11-97.
[2] 張培穎.基于Web內容和日志挖掘的個性化網頁推薦系統[J].計算機系統應用,2008(9).
[3] 吾佳芬.基于內容的互聯網推薦算法[J].科教導刊,2016(12).
[4] 王博.新聞內容推薦算法研究[J].信息與電腦,2016(6).
[5] 喜晶.個性化推薦技術的分析和比較[J].電腦編程技巧與維護,2016(22).
[6] 王嶸冰,安維凱,馮勇,等.基于標簽和PageRank的重要微博用戶推薦算法[J].計算機科學,2018(2).
[7] 劉輝,郭夢夢,潘偉強.個性化推薦系統綜述[J].常州大學學報:自然科學版,2017(3).
[8] 邱爽,葛萬成,汪亮友, 等.個性化推薦中基于用戶協同過濾算法的優化[J].信息技術,2016(3).
[9] 許媛萍.基于內容的推薦與協同過濾融合的新聞推薦分析與探究[J].新聞研究導刊,2018(13).
【通聯編輯:謝媛媛】