蔡志遠
摘 要:探討算法設計流程、分析計算結果。
關鍵詞:人口統計學;聚類模型;協同過濾算法
推薦系統是根據用戶的興趣建立模型的程序,推薦系統能分為基于用戶行為的推薦系統、基于項目內容的推薦系統、基于人口統計學的推薦系統。在大數據環境下,推薦系統將人口統計學數據及語境感知等數據進行處理,通過復合系統保證推薦的準確度。
一、算法設計流程
(一)人口統計學下計算數據相似度
用戶相似度計算作為推薦算法的應用核心,準確性對推薦結果產生直接影響。從前使用的協同過濾推薦算法對用戶相似度進行計算時,通過Spearman系數相似度展開計算,屬于絕對指數的計算方式。在計算過程中,統計用戶的年齡、性別、職業、文化程度等信息,從而確定用戶群體的喜好,并根據以上屬性進行聚類。用戶人口統計屬性向量利用(d1,d2....dn)表示,對用戶在每一維度屬性上的相似度進行計算,根據需求屬性計算最終的相似度。可通過以下算法表示:
[sim(p,q)=knsim(pdk,qdk)×w(dk)](1)
在此公式中,n表示用戶的群體個數,sim(pdk,qdk)表示第p及q用戶在dk上的相似性,w(dk)作為dk屬性權值。決定指數相似性計算過程中,通過以下公式表示:
[sim(p.q)=e-m-1mrm,p-rm,q](2)
相對權值w(dk)作為dk屬性對不同用戶的能力進行劃分,用戶在dk屬性兩個維度上分值最高的項目t在不同個體的平均數利用ave(dk)表示,權值w(dk)通過以下公式計算:
[w(dk)=ave(dk)k=1nave(dk)](3)
通過以上三類公式能對兩個群體在人口統計學上相似度進行計算。
(二)人口統計學下的數據用戶聚類
針對人口統計學下的數據用戶聚類方法,需建立在相似值之上,利用分層近鄰傳播聚類算法對用戶進行聚類,結果中觀察到同類用戶與用戶異類的屬性差異。……