陳傳敬 陳琳



摘? 要:本文在基于現有的個性化推薦研究基礎,提出了用戶情境和文本內容組合推薦的方法,并構建了用戶興趣矩陣模型,設計了一套個性化推薦系統。本系統可以依據移動用戶的偏好為用戶提供推送服務。該系統由移動端及云平臺服務器構成,移動端對用戶信息進行采集,并展示推薦數據;服務器端收集來自移動端的數據,展開數據分析,構建用戶興趣模型,結合文本處理技術獲取推薦內容,推送給移動用戶。
關鍵詞:文本處理;個性化推薦;情景;興趣矩陣
中圖分類號:TP311? ? ?文獻標識碼:A
Abstract:Based on the previous studies of personalized recommendation,this paper proposes a combined recommendation method of user context and text content,constructs a user interest matrix model,and designs a personalized recommendation system.This system can provide push service for users according to their preferences.The system is composed of mobile terminal and cloud platform server,in which the mobile terminal collects user information and displays recommendation data.The server collects data from mobile terminal,launches data analysis,builds user interest model,obtains recommendation content with text processing technology,and pushes it to mobile users.
Keywords:text processing;personalized recommendation;scenario;interest matrix
1? ?引言(Introduction)
隨著移動用戶需求的不斷提升,現有的個性化推薦逐漸不能滿足用戶。因此,將個性化推薦與移動網絡技術的結合成為優化的選擇,研究個性化推薦,提取用戶偏好及個人信息、推算服務矩陣模型、文本相似度匹配、優化相似度算法有助于提高用戶認可度。
與桌面計算機相比,在移動環境中工作的移動電話,PAD等設備有著高實時性和方便性的特點,但局限于屏幕尺寸、網絡傳輸及信息處理能力。移動用戶的位置和周邊的環境都有可能在隨時間變化。因此需要提取移動用戶情景信息數據學習,深入探索移動用戶興趣點,并過濾不符合用戶需求的信息,提高服務移動用戶的質量。
Kbaier[1]等人采用混合推薦方法;LeiShi[2]等使用決策樹創建用戶組,向用戶提供推薦;Chiliguano[3]等提出卷積神經網絡提取事物特征; Qiudan Li等人提出了基于協同過濾的移動商務服務,采用了多維矩陣模型;基于Android平臺開發的AppBrain通過Android API接口來檢測用戶近期安裝的應用,并查找同類應用向用戶推薦;基于iPhone平臺開發的一款應用AppsFire,采用了基于社會化信息流的方法進行推薦。
本文研究提出了移動環境下個性化推薦矩陣模型系統(Personalized Recommendation Matrix Model System),并對該系統的結構、框架、核心技術等進行研究。系統獲取位置等情景信息,混合內容推薦個性化推薦技術分析客戶行為,構建用戶偏好矩陣模型,提高智能化推薦的性能。
2? ?相關工作(Related research)
個性化推薦系統是智能化的用于挖掘有效數據的平臺。推薦系統可分為三個部分[4],用戶模型構建、推薦矩陣模型構建、推薦運用。用戶模型構建中,采集信息方式有隱式瀏覽信息、顯式瀏覽信息、關鍵字和行為屬性、用戶評分、用戶書面評價、用戶歷史關注。推薦矩陣模型構建可采用多種推薦算法,常用的推薦算法有基于內容的推薦、基于協同過濾的推薦及多種推薦技術結合的推薦等技術。
基于內容的推薦[5],根據瀏覽歷史構建用戶興趣模型,對項目內容特征提取構建項目特征模型,分析得出用戶興趣模型和項目特征模型之間的匹配度,根據匹配程度做出推薦。其特征集是文本關鍵詞的集合,進行文本詞頻率及其逆文檔頻率的數據統計。其優點是效率高,不存在數據稀疏性或冷啟動。缺點是不利于特征集提取,無法處理復雜的文本特征,對音頻、視頻信息無法特征推薦。
基于協同過濾的推薦[6],有相同興趣的用戶或物品構成集合,根據相似程度進行推薦。如果一個物品是和當前用戶有著很大興趣相似度的用戶所喜歡的物品,那么當前用戶也往往會喜歡該物品;如果用戶想購買某件物品,而另一件物品和這一物品有很大相似性,那用戶也會購買另一物品。
協同過濾算法的優點是,可以用于文字內容推薦,也可以用于視頻、音樂、相片等非文本內容,用途廣。缺點是存在數據稀疏性、冷啟動及擴展性問題。
針對上述問題本文提出了基于移動用戶情境和文本內容組合推薦的方式,彌補上述缺點,提高推薦系統精確性、穩定性。
3? 信息的收集處理(Information collection and processing)
移動信息收集處理包括用戶信息、項目信息、情景信息。用戶信息可以是用戶的喜好或特征;項目信息是系統中待推薦項目附加的各種屬性;情景信息綜合了用戶的周圍環境,如當前位置、天氣、時間。通過提取用戶的個人信息、項目信息和周圍情景,并交服務器模型處理,對用戶潛在喜好推測,達到推薦目的。
移動用戶信息包括基本信息和行為信息。每個用戶基本信息可以用一維矩陣表示,,代表第i個用戶的信息矩陣,矩陣中存儲用戶編碼、姓名、性別、年齡、教育程度、婚否、描述、移動終端碼。行為信息是指用戶對項目的瀏覽次數、點擊趨勢、地理坐標。用戶行為信息一維矩陣表示為 代表第i個用戶的行為矩陣,矩陣中存儲用戶編碼、點擊次數、是否收藏、是否分享、查閱時間、經度、維度,行為信息能體現用戶興趣。
項目信息是將要被推薦的項目的特征屬性的信息,覆蓋面廣,可以是文本、歌曲、視頻或者是一件商品。項目屬性會因項目而異,如餐廳的推薦,項目信息是指餐廳的種類、菜系、價格等因素;如旅游地點,項目信息是門票價格、景點地點、優惠時間、開放時間等;如音樂推薦,項目信息是作曲家名稱、歌手名稱、歌曲風格等。本文以旅游項目為例建立項目特征矩陣模型。
項目信息模型矩陣為用戶二維空間矩陣,橫軸i表不同的興趣領域,如吃、住、娛、游、購;數軸j代表i領域下不同的實體項目,實體項目又包含眾多特征屬性。
實體特征矩陣包括,實體編碼、名稱、圖片信息、價位、交通狀態、開放時間、聯系方式、描述,實體項目矩陣將項目信息模型延伸為三維矩陣模型,作為項目特征集。
情境是用戶附近環境的相關信息的集合體,可以是時間、天氣、用戶位置、服務的網絡、移動終端,且能對用戶決策造成影響。本文采用時間、位置情景信息構建情境模型。
情境模型為一維矩陣模型,包括編碼信息、用戶編碼、時間、經度、維度。可記錄用戶瀏覽信息時間、位置等信息。本文采用移動蜂窩網絡基站定位來確定用戶的位置,時間信息和終端狀況可直接通過移動用戶終端獲取,將這些情景信息通過移動網絡傳遞給服務器端。
4? ?用戶模型的構建(Construction of user model)
本文的用戶模型綜合考慮了用戶、文本和情景三個要素,采用矩陣、用戶興趣度及向量空間模型方式結合表示。該模型能夠分析用戶的歷史情景,得到個體行為模型,對歷史瀏覽項目學習,將其文本信息作為訓練語料,提取項目文本特征詞并建立特征詞矩陣,用以標識特征詞及其對應的概率關系,通過建立的特征詞矩陣計算用戶與待推薦項目文本的相似概率,進行相似度計算得到用戶對待推薦項目的興趣度,從待推薦項目中找到合適的推薦項目。綜合分析情景和用戶的興趣度,二者結合構成本模型。
4.1? ?情境計算
情景可以認為由n個情景屬性構成,定義成:
上式中分別對應著情景的屬性值。
用戶當前狀態的情景和歷史情景的相似值可定義成:
代表在用戶以往的情景信息里,情景屬性值的數目。
4.2? ?文本特征提取
每個實體項目都有對應的文本內容,可對其特征提取獲取特征詞和特征詞權,并重構成的向量空間的模型。
一篇文檔可以表示成:
文檔是第個項目的文本內容,是第個項目文本中的第個特征詞,是第個項目中的第個特征詞在當前文本中所占權重值,是文檔中的所含有的特征詞的數目。
采用TF-IDF方法統計特征詞權重的式子定義為:
其中,是文本,是一個詞語,為在中的所占的權重,為在里的詞頻,N是所有應用到的訓練文本的總的數目,為所有文本中有出現的文本數目,也可以說成是的文檔頻度。
用戶在多次使用移動旅游客戶端后,其瀏覽過的項目文本的集合可以定義為:
用戶瀏覽或點擊過的第個項目文本為記為,其中用來表示第個項目文本中出現的第個特征關鍵詞,表示第個特征關鍵詞在項目文本中所占有的權重,還有代表在項目文本的特征關鍵詞的總數。
項目文本集合的的特征詞權重矩陣可以表示成:
上述矩陣中,代表第i個文本中的第j個特征詞的權重值的大小。
4.3? ?興趣度計算
為與、相關的隨機變量,和分別代表用戶對項目的瀏覽次數和評分的多少,、、是和、不相干的參數,代表著隨機產生的誤差,該方程為一個多線的正態線性回歸方程。
將用戶興趣度運用到文本權重矩陣:
上式中,為移動手機用戶對第i個文本的興趣度。將用戶興趣度和特征詞的權重相關聯,可計算用戶對各項目興趣度,得到最佳推薦。
5? ?結論(Conclusion)
本文采用情景構建移動用戶模型,作為為個性化推薦依據。計算用戶當前情景和歷史情景的相似值,和當前情景相似值最高的歷史情景下的項目信息優先推薦給用戶。運用自然語言處理知識,對項目文本內容作分詞處理,提取特征關鍵詞并計算各個特征詞在文本中的權重值,建立特征詞矩陣。根據用戶行為信息,分析用戶瀏覽、分享、收藏項目的情況,結合特征詞矩陣構建用戶的興趣特征集合。將用戶興趣集合中的文本和待推薦項目作相似性的計算,根據得出相似度值做順序排序,向用戶推薦。
參考文獻(References)
[1] Kbaier M E B H,Masri H,Krichen S.A personalized hybrid tourism recommender system[C].International Conference on Computer Systems and Applications.Hammamet:IEEE,2018:244-250.
[2] Shi L,Zhao WX,Shen YD.Local representative-based matrix factorization for cold-start recommendation[J].ACM Transactions on Information Systems,2017,36(2):1-28.
[3] CHILIGUANO P,FAZEKAS G.Hybrid music recommender using content-based and social information[C].IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2016:2618-2622.
[4] Bobadilla J,Ortega F,Hernando A,et al.Recommender systems survey.Knowledge-Based Systems,2013(46):109-132.
[5] SHI Y,LARSON M,HANJALIC A.Collaborative filtering beyond the user-item matrix:A survey of the state of the art and future challenges[J].ACM Computing Surveys(CSUR),2014,47(1):1-45.
[6] Breese J S,Heckerman D,Kadie C.Empirical analysis of predictive algorithms for collaborative filtering[J].Uncertainty in Artificial Intelligence,2013,98(7):43-52.
作者簡介:
陳傳敬(1989-),男,碩士,助教.研究領域:計算機應用.
陳? ? 琳(1992-),男,碩士,助教.研究領域:圖形圖像處理.