張龍飛

摘 要:該文在國(guó)內(nèi)外推薦算法研究基礎(chǔ)上,基于用戶的訪問(wèn)web記錄與服務(wù)使用記錄,采用OB-Mine算法提取用戶頻繁訪問(wèn)路徑,利用改進(jìn)的PrefixSpan算法篩選具有相似偏好的用戶簇,利用改進(jìn)的CF算法進(jìn)行個(gè)性化服務(wù)推薦,有效克服了數(shù)據(jù)高維性和稀疏性,最后實(shí)例驗(yàn)證了該推薦算法性能優(yōu)于傳統(tǒng)的CF算法。
關(guān)鍵詞:相似度計(jì)算 服務(wù)推薦 個(gè)性化推薦
中圖分類號(hào):TP3;D630 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2016)03(c)-0159-02
現(xiàn)有服務(wù)推薦技術(shù)并不成熟,面對(duì)海量重復(fù)的Web服務(wù),用戶難以識(shí)別并且尋找到所需的服務(wù),因此提高服務(wù)推薦質(zhì)量已成為Web服務(wù)體系的迫切需求。服務(wù)推薦的研究焦點(diǎn)是新推薦算法的探索和新推薦模型的發(fā)現(xiàn)。Dell'Amico和Capra[1]定義了以社會(huì)導(dǎo)向和品味相似為特征的用戶可信性標(biāo)準(zhǔn),提出了一種新的信息過(guò)濾方法。Vallet等[2]利用社區(qū)隱性用戶信息,提出了一種基于圖的交互式視頻檢索系統(tǒng),有效增強(qiáng)了視頻檢索能力。
該文以web日志中的用戶瀏覽行為與服務(wù)使用記錄為依據(jù),利用OB-Mine算法[3]提取用戶頻繁訪問(wèn)路徑;然后,利用改進(jìn)的PrefixSpan算法[4]篩選具有相似用戶偏好的用戶簇;最后,使用改進(jìn)的CF算法,對(duì)目標(biāo)用戶做出推薦。該文以“××中小企業(yè)網(wǎng)”的相關(guān)數(shù)據(jù),實(shí)證表明該推薦算法優(yōu)于傳統(tǒng)的CF算法。
1 服務(wù)推薦算法分析
1.1 提取用戶頻繁訪問(wèn)路徑
利用OB-Mine算法對(duì)預(yù)處理數(shù)據(jù)集挖掘代表用戶興偏好的用戶頻繁訪問(wèn)路徑。
1.2 篩選相似偏好的用戶簇
利用改進(jìn)的PrefixSpan算法[5]尋找用戶偏好,篩選出具有相似偏好的用戶簇。
1.3 服務(wù)推薦
1.3.1 建立用戶-服務(wù)類評(píng)分矩陣
設(shè)用戶評(píng)分Rij,按照瀏覽或者使用某種服務(wù)的次數(shù)計(jì)算用戶評(píng)分。
1.3.2 尋找最近相似鄰居集
相似性的計(jì)算方法主要有余弦相似度、Pearson相似度和修正的余弦相似度。
1.3.3 生成推薦結(jié)果
計(jì)算目標(biāo)用戶對(duì)未評(píng)分服務(wù)項(xiàng)的預(yù)測(cè)評(píng)分,并且設(shè)定閾值r,推薦用戶r值以上的服務(wù)類。
2 實(shí)證分析
以“××中小企業(yè)網(wǎng)”為研究對(duì)象,根據(jù)該網(wǎng)站web日志文件,計(jì)算推薦結(jié)果。
2.1 提取用戶頻繁訪問(wèn)路徑
2.1.1 數(shù)據(jù)預(yù)處理
對(duì)web日志中的用戶訪問(wèn)行為數(shù)據(jù)進(jìn)行預(yù)處理,獲取用戶訪問(wèn)路徑。
2.1.2 提取用戶頻繁訪問(wèn)路徑
利用OB-Mine算法對(duì)用戶的多條訪問(wèn)路徑進(jìn)行聚類,生成每個(gè)用戶的頻繁訪問(wèn)路徑。
2.2 篩選具有相似用戶偏好的用戶簇
利用改進(jìn)PrefixSpan算法篩選具有相同或者相似用戶偏好的用戶簇,如表1所示。
2.3 用戶個(gè)性化推薦
2.3.1 建立用戶-服務(wù)評(píng)分矩陣
通過(guò)訪問(wèn)頻次與使用服務(wù)頻次計(jì)算用戶對(duì)服務(wù)的評(píng)分。
2.3.2 確定最近相似鄰居集
設(shè)定鄰居集容量為N,選取與目標(biāo)用戶相似度最高的N個(gè)用戶形成最近相似鄰居集。
2.3.3 生成推薦結(jié)果
計(jì)算目標(biāo)用戶對(duì)未評(píng)價(jià)服務(wù)預(yù)計(jì)評(píng)分值,設(shè)定好閾值m,對(duì)目標(biāo)用戶推薦評(píng)分高于閾值的服務(wù)項(xiàng)目。對(duì)目標(biāo)用戶的推薦結(jié)果如表2。
3 實(shí)證結(jié)果分析
3.1 評(píng)價(jià)標(biāo)準(zhǔn)
MAE的值越小,表明算法的評(píng)分預(yù)測(cè)越準(zhǔn)確,推薦質(zhì)量越高。
3.2 實(shí)證結(jié)果分析
實(shí)驗(yàn)中設(shè)步長(zhǎng)間隔為5,鄰居集容量大小分別取5,10,15,20,25,30,35,40,使用該文改進(jìn)的CF算法與傳統(tǒng)的CF算法作對(duì)比,其服務(wù)推薦質(zhì)量比較如圖1所示。
從圖中可以看到:(1)在鄰居集容量大小發(fā)生變化時(shí),該算法下MAE值均小于傳統(tǒng)的CF算法,說(shuō)明該推薦算法具有較好的推薦質(zhì)量;(2)與傳統(tǒng)的CF算法相比,改進(jìn)的CF算法下MAE值隨著鄰居集容量的增加迅速減小并趨于穩(wěn)定,說(shuō)明改進(jìn)的CF算法性能優(yōu)于傳統(tǒng)的CF算法,計(jì)算效率更高,有效緩解了由冷啟動(dòng)引起的數(shù)據(jù)高維性和數(shù)據(jù)稀疏性等問(wèn)題;(3)兩種算法下,MAE值隨著鄰居集容量增加而減小,當(dāng)鄰居集容量增大到一定數(shù)值時(shí),MAE值趨于穩(wěn)定時(shí),但是CF算法下的趨于穩(wěn)定的MAE值要小于傳統(tǒng)的CF算法,說(shuō)明改進(jìn)的CF算法計(jì)算精度優(yōu)于傳統(tǒng)的CF算法。
4 結(jié)語(yǔ)
該文通過(guò)提取用戶頻繁訪問(wèn)路徑,篩選相似偏好的用戶簇和個(gè)性化服務(wù)推薦,克服了單一推薦算法的不足,克服了數(shù)據(jù)高維性和稀疏性,提高了計(jì)算效率與計(jì)算精度。
參考文獻(xiàn)
[1] Dell'Amico M,Capra L.Dependable filtering:Philosophy and realizations [J].ACM Transactions on Information Systems(TOIS),2010,29(1):364-371.
[2] Vallet D, Hopfgartner F, Jose J M, et al. Effects of usage-based feedback on video retrieval: a simulation-based study [J].ACM Transactions on Information Systems (TOIS),2011,29(2):219-230.
[3] 曹忠升,唐曙光,楊良聰.Web-Logs中連續(xù)頻繁訪問(wèn)路徑的快速挖掘算法[J].計(jì)算機(jī)應(yīng)用,2006(1):216-219.
[4] 姬浩博,王俊紅.一種改進(jìn)的PrefixSpan算法及其在Web用戶行為模式挖掘中的應(yīng)用[J].計(jì)算機(jī)科學(xué),2016(1):25-29.
[5] 業(yè)寧,李威,梁作鵬,等.一種Web用戶行為聚類算法[J].小型微型計(jì)算機(jī)系統(tǒng),2004,25(7):1364-1367.
[6] 王海艷,楊文彬,王隨昌,等.基于可信聯(lián)盟的服務(wù)推薦方法[J].計(jì)算機(jī)學(xué)報(bào),2014(2):301-311.