999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于PCA降維的協(xié)同過濾推薦算法

2016-02-23 09:06:40李遠(yuǎn)博
關(guān)鍵詞:用戶

李遠(yuǎn)博,曹 菡

(陜西師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,陜西 西安 710062)

基于PCA降維的協(xié)同過濾推薦算法

李遠(yuǎn)博,曹 菡

(陜西師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,陜西 西安 710062)

在信息過載的時(shí)代,推薦系統(tǒng)通過分析用戶的歷史行為,為用戶興趣建模,主動給用戶推薦能夠滿足他們興趣和需求的信息,已經(jīng)被廣泛應(yīng)用于電子商務(wù)等多個(gè)領(lǐng)域。但是在推薦系統(tǒng)中,用戶評分?jǐn)?shù)據(jù)極端稀疏,矩陣的稀疏性導(dǎo)致推薦算法在相似性計(jì)算時(shí)存在較大誤差,進(jìn)而導(dǎo)致最近鄰居選擇的不準(zhǔn)確,從而影響推薦質(zhì)量。針對上面存在的問題,文中通過對評分矩陣采用PCA降維的方法,降低了評分矩陣的稀疏性,保留了最能代表用戶興趣的維數(shù),使得相似性計(jì)算更加準(zhǔn)確,保證了最近鄰居選擇的準(zhǔn)確性,從而提高了推薦質(zhì)量。實(shí)驗(yàn)結(jié)果表明,在公開數(shù)據(jù)集上與傳統(tǒng)的協(xié)同過濾推薦算法相比較,文中提出的算法具有較高的準(zhǔn)確度和覆蓋度。

主成分分析;降維;協(xié)同過濾;推薦算法

1 概 述

隨著人類進(jìn)入到信息化時(shí)代,信息呈現(xiàn)出快速、爆炸式增長,信息出現(xiàn)過載。推薦系統(tǒng)[1]通過對用戶的歷史記錄的分析,為用戶建立興趣模型,主動給用戶推薦能夠滿足他們興趣和需求的信息。從電子商務(wù)、音樂視頻網(wǎng)站,到在線廣告和個(gè)性化閱讀,到處都是推薦系統(tǒng)的應(yīng)用。

在推薦系統(tǒng)中,協(xié)同過濾(Collaborative Filtering,CF)[2]是應(yīng)用最廣泛的個(gè)性化推薦算法。首先通過分析歷史數(shù)據(jù),計(jì)算出用戶之間或者項(xiàng)目之間的相似度;其次根據(jù)相似度建立起近鄰關(guān)系[3],然后在近鄰關(guān)系中,選擇與目標(biāo)距離最近的用戶對項(xiàng)目的評分?jǐn)?shù)據(jù)來預(yù)測目標(biāo)用戶對特定項(xiàng)目的評分;最后針對目標(biāo)用戶產(chǎn)生相應(yīng)的推薦。

隨著電子商務(wù)信息規(guī)模的不斷擴(kuò)大,數(shù)據(jù)量都在增加,針對以前的推薦系統(tǒng),很少有用戶對項(xiàng)目進(jìn)行評分,這就導(dǎo)致推薦系統(tǒng)評分?jǐn)?shù)據(jù)的稀疏性[4]。對于任何一個(gè)優(yōu)秀的推薦系統(tǒng),用戶對項(xiàng)目的評分?jǐn)?shù)據(jù)往往只占有一小部分,而未評分?jǐn)?shù)據(jù)常常比用戶的已有評分更多,由于用戶之間選擇的差異也會加重?cái)?shù)據(jù)的稀疏性。在傳統(tǒng)的向量空間模型中,評分矩陣的稀疏性對于推薦系統(tǒng)中使用的統(tǒng)計(jì)方法都會產(chǎn)生計(jì)算不準(zhǔn)確的影響。在推薦系統(tǒng)中,用戶的最近鄰居就是通過統(tǒng)計(jì)學(xué)方法進(jìn)行相似性計(jì)算,因此如何解決矩陣的稀疏性成為推薦系統(tǒng)的關(guān)鍵。

為了降低評分矩陣的稀疏性,早期Pirasteh等通過將電影的類型和導(dǎo)演信息進(jìn)行填充,進(jìn)而來降低矩陣的稀疏性問題[5],該方法需要用戶額外評價(jià)電影類型和導(dǎo)演等信息;Wang等首先對用戶已經(jīng)評分的數(shù)據(jù)進(jìn)行聚類,然后結(jié)合Slope One算法來對未評分?jǐn)?shù)據(jù)進(jìn)行預(yù)測填充,以此來降低矩陣的稀疏性問題[6];Pitsilis等首先使用已有的評分?jǐn)?shù)據(jù)建立信任關(guān)系模型,進(jìn)而來預(yù)測未評分的數(shù)據(jù),通過該方法可以有效解決矩陣的稀疏性問題和冷啟動問題[7],但是此方法并不是社會網(wǎng)中真正意義上的信任關(guān)系;文獻(xiàn)[8]中首先使用K-means算法對項(xiàng)目進(jìn)行聚類分析,然后將聚類分類后的結(jié)果結(jié)合已評分的數(shù)據(jù)來計(jì)算用戶相似性;黃創(chuàng)光等針對傳統(tǒng)K近鄰算法中存在K固定這一缺陷,提出了利用不確定近鄰K來進(jìn)行計(jì)算的最近鄰居推薦[9]等。

2004年美國《連線》雜志主編ChrisAnderson發(fā)表了題為《TheLongTail》一文[10]。作者認(rèn)為,基于互聯(lián)網(wǎng)的銷售方式以及其他因素已經(jīng)將媒體和娛樂產(chǎn)業(yè)推向后一種模式為主導(dǎo)的世界,那些不起眼的產(chǎn)品“長尾”吸引了大量的用戶,ChrisAnderson指出“你可以在長尾中找到任何想要的,有以前的舊專輯,他們?nèi)匀槐蝗藗儜涯詈拖矏鄄⒉粩嘤楷F(xiàn)出新的粉絲;有現(xiàn)場制作的音樂,B面的內(nèi)容,混錄版歌曲,設(shè)置封面;還有數(shù)千種風(fēng)格流派不同的利基項(xiàng)目:例如整個(gè)TowerRecords唱片公司在80年代推崇的長發(fā)樂隊(duì)或節(jié)奏電子音樂”。在互聯(lián)網(wǎng)時(shí)代,由于網(wǎng)絡(luò)貨架成本的低廉,電子商務(wù)中物品不受貨架的限制,大多數(shù)不熱門商品都有機(jī)會銷售,這些商品由于其數(shù)量龐大,總體銷售額往往超過熱門商品。在長尾分布中,熱門商品代表著大部分用戶的選擇,而長尾商品則代表了用戶的個(gè)性化選擇。因此,在研究用戶的興趣需求的同時(shí),如何挖掘長尾商品,來提高對用戶的個(gè)性化推薦,進(jìn)而提升銷售額,這正是個(gè)性化推薦必須解決的主要問題。

在推薦系統(tǒng)中,通過對商品長尾分布的分析,挖掘用戶的歷史記錄,分析用戶的個(gè)性化需求,從而將那些不容易發(fā)現(xiàn)的但是用戶感興趣的長尾商品精確地推薦給用戶。推薦系統(tǒng)本質(zhì)上旨在向用戶展示那些不那么廣泛流行的項(xiàng)目,但這些項(xiàng)目符合用戶的興趣,這一點(diǎn)可以從他們過去的購買歷史中推斷。

文中通過對評分矩陣采用PCA降維,降低了評分矩陣的稀疏性,保留了最能代表用戶興趣的維數(shù),使得相似性計(jì)算更加準(zhǔn)確,保證了最近鄰居選擇的準(zhǔn)確性,從而提高了推薦質(zhì)量,并且驗(yàn)證了算法具有較高的準(zhǔn)確度和覆蓋度。

2 現(xiàn)有算法分析

協(xié)同過濾推薦算法推薦原理:如果大多數(shù)用戶對項(xiàng)目的評分?jǐn)?shù)據(jù)相似,那么當(dāng)前用戶也會有類似的項(xiàng)目評分[11]。協(xié)同過濾推薦利用用戶對項(xiàng)目數(shù)據(jù)的評分記錄,進(jìn)而生成評分矩陣來分析用戶的興趣,利用統(tǒng)計(jì)學(xué)知識在已評分的用戶中找到與目標(biāo)興趣相似的用戶,從而找到目標(biāo)用戶的最近鄰居,再結(jié)合這些鄰居用戶對項(xiàng)目的評分進(jìn)行預(yù)測并產(chǎn)生推薦。傳統(tǒng)的協(xié)同過濾算法步驟如下:

(1)求解用戶和項(xiàng)目間的相似度矩陣;

(2)根據(jù)相似度矩陣求出目標(biāo)的最近鄰居;

(3)對未評分項(xiàng)目進(jìn)行預(yù)測并進(jìn)行推薦。

2.1 相似性計(jì)算

在推薦系統(tǒng)中,算法的第一步就是計(jì)算用戶和用戶之間的相似性。余弦相似度、皮爾遜相關(guān)系數(shù)和修正的余弦相似度[12]是目前最重要的度量方法。

(1)余弦相似度。

通過計(jì)算空間夾角的余弦值來求解用戶之間的相似性。在推薦系統(tǒng)中,用戶的評分被看作是n維向量空間,用戶i和用戶j之間的相似性可以表述為:

(1)

(2)皮爾遜相關(guān)系數(shù)。

它是一種線性相關(guān)系數(shù),通過兩個(gè)變量之間的協(xié)方差和標(biāo)準(zhǔn)差的商來計(jì)算,其表達(dá)式為:

(2)

(3)修正的余弦相似度。

余弦相似度在計(jì)算相似性時(shí)沒有考慮不同用戶的評分尺度,在推薦系統(tǒng)中,通常評分區(qū)間為1-5,有的用戶喜歡打高分,有的用戶打低分。此計(jì)算方法通過減去用戶的平均評分來改善這一缺陷。其表達(dá)式為:

(3)

2.2 基于用戶的協(xié)同過濾算法

基于用戶的協(xié)同過濾算法,首先會生成用戶的評分矩陣,其次根據(jù)用戶評分矩陣,利用相似性計(jì)算方法得到用戶之間的相似性,求出K近鄰,最后根據(jù)K近鄰來對未評分項(xiàng)目進(jìn)行預(yù)測,并產(chǎn)生推薦。計(jì)算公式[13]如下:

(4)

2.3 傳統(tǒng)的相似性計(jì)算分析

在傳統(tǒng)的計(jì)算方法中,相似性是利用用戶對所有項(xiàng)目的評分?jǐn)?shù)據(jù)來計(jì)算,這就會導(dǎo)致最終的評分矩陣數(shù)據(jù)維數(shù)高,評分向量的維數(shù)過高會增加相似性計(jì)算的復(fù)雜度,而且維數(shù)過高的向量對于相似性的度量也會造成負(fù)面影響。在統(tǒng)計(jì)學(xué)中對于已知的樣本數(shù)目,存在維數(shù)的極限值,當(dāng)使用的數(shù)據(jù)向量的維數(shù)一直增加時(shí),算法的性能并不會隨著維數(shù)的增加而增加,維數(shù)超過極限值之后,算法性能反而會退化。隨著電子商務(wù)規(guī)模的不斷擴(kuò)大,用戶和項(xiàng)目數(shù)據(jù)都在快速增長,但是數(shù)據(jù)量卻極度稀疏,尤其是評分?jǐn)?shù)據(jù),在大型電子商務(wù)網(wǎng)站中,用戶評分的項(xiàng)目數(shù)據(jù)一般不會超過總數(shù)的1%[14]。

文中對MovieLens數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)分析,其中有8.8%的電影僅僅被一個(gè)用戶進(jìn)行過評分,18%的電影被超過一百個(gè)用戶進(jìn)行過評分。如果將所有的項(xiàng)目都用來進(jìn)行相似性計(jì)算,不僅不能區(qū)分用戶之間的相似性,反而會給相似性計(jì)算帶來誤差,流行性物品不能反映用戶的興趣,而評分極其少的物品又會增加矩陣的稀疏性,對統(tǒng)計(jì)學(xué)方法而言沒有意義。

基于此,文中在分析數(shù)據(jù)集的基礎(chǔ)上提出了基于PCA降維的方法,將數(shù)據(jù)集進(jìn)行簡化,在保留主要特征的同時(shí)降低數(shù)據(jù)集的維數(shù),同時(shí)明顯降低了簡化后的評分矩陣的稀疏性,由于降低了稀疏性,使得相似性計(jì)算更加準(zhǔn)確,提升了最近鄰居選擇的準(zhǔn)確性,從而提高了推薦質(zhì)量。

3 基于PCA降維的算法

3.1 數(shù)據(jù)表述

表1 用戶-項(xiàng)目評分矩陣

在統(tǒng)計(jì)學(xué)中,當(dāng)維數(shù)很高時(shí),導(dǎo)致可用數(shù)據(jù)很稀疏,然而從統(tǒng)計(jì)學(xué)意義上說,稀疏性也是一個(gè)重要問題。在推薦系統(tǒng)中,用戶的最近鄰居搜索就是通過相似性進(jìn)行分組,然而在高維數(shù)據(jù)空間中,所有的可用數(shù)據(jù)變得很稀疏,因此使得相似性計(jì)算非常不準(zhǔn)確。

3.2 項(xiàng)目流行度分析

對很多互聯(lián)網(wǎng)數(shù)據(jù)的研究發(fā)現(xiàn),互聯(lián)網(wǎng)上的很多數(shù)據(jù)都滿足一種稱為PowerLaw的分布,這個(gè)分布在互聯(lián)網(wǎng)領(lǐng)域稱為長尾分布,其流行度滿足表達(dá)式:

f(x)=axk

(5)

長尾分布出現(xiàn)在各個(gè)領(lǐng)域,其實(shí)長尾分布最早是被統(tǒng)計(jì)學(xué)家發(fā)現(xiàn)的。1932年,哈佛大學(xué)的語言學(xué)家Zipf在研究英文單詞的詞頻時(shí)發(fā)現(xiàn),如果將單詞按照出現(xiàn)的頻率進(jìn)行排列,那么每個(gè)單詞出現(xiàn)的頻率和它在熱門排行榜中排名的常數(shù)次冪成反比,這個(gè)分布后來被稱為Zipf定律。為了研究項(xiàng)目的流行度是否具有長尾分布,文中對MovieLens數(shù)據(jù)集進(jìn)行分析。

圖1顯示了MovieLens數(shù)據(jù)集中電影流行度的分布曲線。電影的流行度是指對電影進(jìn)行過評分的用戶總數(shù)。圖中的曲線是雙對數(shù)曲線,而長尾分布曲線就是這種雙對數(shù)曲線,從而證明物品流行度具有長尾分布。

圖1 MovieLens數(shù)據(jù)集中物品流行度的長尾分布

3.3 PCA降維

主成分分析(Principal Component Analysis,PCA)是一種分析、簡化數(shù)據(jù)集的技術(shù)。主成分分析通常用于減少數(shù)據(jù)集的維數(shù),同時(shí)保持?jǐn)?shù)據(jù)集中對方差貢獻(xiàn)最大的特征[15]。該方法依據(jù)樣本空間中的位置分布,把樣本點(diǎn)在多維空間中的最大變化方向,即方差最大方向,作為判斷向量來實(shí)現(xiàn)特征提取。主成分分析由卡爾·皮爾遜于1901年提出,用于分析數(shù)據(jù)及建立數(shù)理模型。其方法主要是通過對協(xié)方差進(jìn)行特征分解,以得出數(shù)據(jù)的主成分與它們的權(quán)值。

對于一個(gè)給定的樣本空間Xm×n,用PCA對矩陣Xm×n進(jìn)行降維分析,具體步驟如下:

(1)求出樣本均值。

(2)計(jì)算Xm×n的協(xié)方差矩陣公式為:

(3)計(jì)算協(xié)方差矩陣的特征值和特征向量,其中特征值按照從大到小排列:

λ=(λ1,λ2,…,λn),λ1≥λ2…≥λn

(4)計(jì)算在每一維的投影:

得到一個(gè)降維的投影矩陣,該投影矩陣就是該樣本空間的主成分并且按照主成分從大到小排列。

3.4 基于PCA降維的推薦

傳統(tǒng)的向量空間模型存在數(shù)據(jù)災(zāi)難,對于成百上萬的項(xiàng)目來說,用戶的項(xiàng)目評分維度就會增加。在高維空間中的數(shù)據(jù)集可以通過削弱減至低維空間,而不必失去其重要性質(zhì)。這一點(diǎn)可以通過降維方法有效反映。

在文中提出的基于PCA降維的協(xié)同過濾推薦算法中,計(jì)算用戶和用戶的相似性時(shí)先采用PCA方法對評分矩陣進(jìn)行降維處理,然后進(jìn)行相似性計(jì)算。Sarwar利用MovieLens數(shù)據(jù)集對余弦相似度、皮爾遜相關(guān)系數(shù)和修正的余弦相似度進(jìn)行了對比[11]并將MAE作為評測指標(biāo)。實(shí)驗(yàn)結(jié)果表明,利用修正的余弦相似度進(jìn)行K近鄰計(jì)算,進(jìn)而進(jìn)行評分預(yù)測推薦可以獲得最優(yōu)的MAE。因此文中采用修正的余弦相似度來進(jìn)行相似度計(jì)算,在得到用戶的相似度之后采用最近鄰?fù)扑]。

鑒于降維的優(yōu)點(diǎn),文中引入PCA降維技術(shù)對用戶評分矩陣進(jìn)行降維,然后通過降維后的用戶評分矩陣計(jì)算用戶的相似性,提高相似性計(jì)算的準(zhǔn)確性,保證最近鄰居選擇的準(zhǔn)確性。

算法流程如圖2所示。

圖2 基于PCA降維的協(xié)同過濾推薦算法基本流程

4 實(shí)驗(yàn)分析

4.1 數(shù)據(jù)集

文中以MovieLens數(shù)據(jù)集為例,來評測文中提出的基于PCA降維的協(xié)同過濾算法和傳統(tǒng)的基于用戶的協(xié)同過濾算法。在該數(shù)據(jù)集中,包含了943個(gè)用戶對1 682個(gè)項(xiàng)目的10萬條評分記錄,每一個(gè)用戶至少對20部電影進(jìn)行評分,電影類別為19類,用戶的評分范圍為1-5。

4.2 評價(jià)標(biāo)準(zhǔn)

在推薦系統(tǒng)中,平均絕對誤差(MAE)和覆蓋度(Coverage)是兩個(gè)最重要的評價(jià)指標(biāo)。

MAE數(shù)值越低說明推薦算法越精準(zhǔn),計(jì)算公式如下:

(6)

覆蓋度是一項(xiàng)被廣泛應(yīng)用于評價(jià)推薦算法發(fā)掘長尾的能力,覆蓋率越高,說明推薦算法越能夠?qū)㈤L尾中的物品推薦給目標(biāo)用戶。計(jì)算公式如下:

(7)

其中,IP(u)是推薦算法為用戶u推薦的項(xiàng)目集;IR(u)是用戶u在測試集上進(jìn)行評分的項(xiàng)目集。

4.3 實(shí)驗(yàn)結(jié)果

最近鄰K的個(gè)數(shù)往往能夠影響推薦的效果,因此在實(shí)驗(yàn)中,針對不同的K,分別利用兩種算法進(jìn)行了MAE和Coverage的分析比較。

實(shí)驗(yàn)中通過PCA方法將用戶評分矩陣維數(shù)降低到用戶個(gè)數(shù)的矩陣,即將R943×1682降低到R943×943,實(shí)驗(yàn)結(jié)果如圖3和圖4所示。

由圖3和圖4可以看出,文中提出的基于PCA降維的協(xié)同過濾推薦算法具有較小的MAE和較大的Coverage。這是因?yàn)樵谟?jì)算用戶相似性時(shí),對用戶評分矩陣進(jìn)行了PCA降維,通過PCA降維,將用戶評分矩陣中最能反映用戶興趣的特征進(jìn)行了保留,去除了不能反映用戶興趣的噪聲數(shù)據(jù),使得評分矩陣的維數(shù)和稀疏性都有了明顯降低。在此基礎(chǔ)上進(jìn)行用戶相似性的計(jì)算更加準(zhǔn)確,保證最近鄰居選擇的準(zhǔn)確性,從而使算法的推薦更準(zhǔn)確。

圖3 不同推薦算法的MAE比較

圖4 不同推薦算法的Coverage比較

5 結(jié)束語

文中首先分析在用戶評分?jǐn)?shù)據(jù)極度稀疏的情況下統(tǒng)計(jì)學(xué)方法在計(jì)算用戶相似性時(shí)存在的問題。針對用戶評分矩陣的稀疏性,文中提出了如何用PCA方法對推薦系統(tǒng)中的用戶評分?jǐn)?shù)據(jù)進(jìn)行降維處理,通過降維不僅降低了稀疏性,而且使得相似性計(jì)算中保留的數(shù)據(jù)是最能代表用戶興趣的特征向量,使得在計(jì)算相似性時(shí)更加準(zhǔn)確,從而保證了最近鄰居選擇的準(zhǔn)確性。通過對MovieLens數(shù)據(jù)進(jìn)行降維處理,并通過實(shí)驗(yàn)驗(yàn)證了提出的算法可以降低評分矩陣的維數(shù),并且有效降低了評分矩陣的稀疏性,解決了傳統(tǒng)相似性度量方法在高維數(shù)據(jù)中存在的弊端,提高了推薦系統(tǒng)的推薦質(zhì)量。

[1]KonstanJA.Introductiontorecommendersystems:algorithms

andevaluation[J].ACMTransactionsonInformationSystems,2004,22(1):1-4.

[2]BobadillaJ,OrtegaF,HernandoA,etal.Improvingcollaborativefilteringrecommendersystemresultsandperformanceusinggeneticalgorithms[J].Knowledge-basedSystems,2011,24(8):1310-1316.

[3]BellRM,KorenY.Improvedneighborhood-basedcollaborativefiltering[C]//Procof13thACMSIGKDDinternationalconferenceonknowledgediscoveryanddatamining.[s.l.]:ACM,2007.

[4]LiuLM,ZhangPX,LinL,etal.Researchofdatasparsitybasedoncollaborativefilteringalgorithm[J].AppliedMechanicsandMaterials,2014,462:856-860.

[5]PirastehP,JungJJ,HwangD.Item-basedcollaborativefilteringwithattributecorrelation:acasestudyonmovierecommendation[M]//Intelligentinformationanddatabasesystems.[s.l.]:SpringerInternationalPublishing,2014:245-252.

[6]WangJ,LinK,LiJ.Acollaborativefilteringrecommendationalgorithmbasedonuserclusteringandslopeonescheme[C]//Procof8thinternationalconferenceoncomputerscience&education.[s.l.]:IEEE,2013:1473-1476.

[7]PitsilisG,KnapskogSJ.Socialtrustasasolutiontoaddresssparsity-inherentproblemsofrecommendersystems[C]//ProcofACMrecommendersystemworkshoponrecommendersystem&thesocialweb.[s.l.]:ACM,2009:33-40.

[8]WeiS,YeN,ZhangS,etal.Collaborativefilteringrecommendationalgorithmbasedonitemclusteringandglobalsimilarity[C]//Procoffifthinternationalconferenceonbusinessintelligenceandfinancialengineering.[s.l.]:IEEE,2012:69-72.

[9] 黃創(chuàng)光,印 鑒,汪 靜,等.不確定近鄰的協(xié)同過濾推薦算法[J].計(jì)算機(jī)學(xué)報(bào),2010,33(8):1369-1377.

[10]AndersonC.Thelongtail[J].WiredMagazine,2004,12(10):170-177.

[11] 項(xiàng) 亮.推薦系統(tǒng)實(shí)踐[M].北京:人民郵電出版社,2012:44-64.

[12]SarwarB,KarypisG,KonstanJ,etal.Item-basedcollaborativefilteringrecommendationalgorithms[C]//Proceedingsofthe10thinternationalconferenceonWorldWideWeb.[s.l.]:ACM,2001:285-295.

[13] 羅 辛,歐陽元新,熊 璋,等.通過相似度支持度優(yōu)化基于K近鄰的協(xié)同過濾算法[J].計(jì)算機(jī)學(xué)報(bào),2010,33(8):1437-1445.

[14]LindenG,SmithB,YorkJ.Amazon.comrecommendations:item-to-itemcollaborativefiltering[J].IEEEInternetComputing,2003,7(1):76-80.

[15]RaikoT,IlinA,KarhunenJ.Principalcomponentanalysisforlargescaleproblemswithlotsofmissingvalues[C]//ProcofECML2007.Berlin:Springer,2007:691-698.

Collaborative Filtering Recommendation Algorithm Based on PCA Dimension Reduction

LI Yuan-bo,CAO Han

(School of Computer Science,Shaanxi Normal University,Xi’an 710062,China)

In the era of information overload,recommender system can help users find their interest and recommend the satisfactory information to analyze their historical behavior,so it is widely used in electronic commerce and other fields.But the user rating matrix is extremely sparse in recommender systems.The sparsity of the matrix leads to great error in the calculation of similarity of recommendation algorithms,bringing about the nearest neighbor sections is not accurate,thus affecting the quality of recommendation.Aiming at the problems above,a dimension reduction method based on PCA was proposed to reduce the sparsity of user rating matrix,by this method the remain matrix retain the most representative characteristic of the user interest,so that the similarity calculation is more accurate to ensure the accuracy of the nearest neighbors,thereby improving the quality of the recommendation.The experimental results show that compared with the traditional collaborative filtering algorithm,the algorithm proposed reaches a high accuracy and coverage.

PCA;dimension reduction;collaborative filtering;recommendation algorithm

2015-01-28

2015-05-17

時(shí)間:2016-01-26

國家自然科學(xué)基金資助項(xiàng)目(41271387);陜西師范大學(xué)院士創(chuàng)新基金資助項(xiàng)目(999521);西安市科技計(jì)劃基金資助項(xiàng)目(SF1228-3)作者簡介:李遠(yuǎn)博(1988-),男,碩士研究生,研究方向?yàn)楦咝阅苡?jì)算、數(shù)據(jù)挖掘;曹 菡,博士,教授,研究方向?yàn)閿?shù)據(jù)挖掘、智慧旅游、高性能計(jì)算。

http://www.cnki.net/kcms/detail/61.1450.TP.20160126.1517.002.html

TP301.6

A

1673-629X(2016)02-0026-05

10.3969/j.issn.1673-629X.2016.02.006

猜你喜歡
用戶
雅閣國內(nèi)用戶交付突破300萬輛
車主之友(2022年4期)2022-08-27 00:58:26
您撥打的用戶已戀愛,請稍后再哭
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年5期)2016-11-28 09:55:15
兩新黨建新媒體用戶與全網(wǎng)新媒體用戶之間有何差別
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
挖掘用戶需求尖端科技應(yīng)用
Camera360:拍出5億用戶
100萬用戶
404 Not Found

404 Not Found


nginx
主站蜘蛛池模板: 亚洲日韩久久综合中文字幕| 国产精品成人AⅤ在线一二三四| 久久国产精品麻豆系列| 456亚洲人成高清在线| 日韩欧美色综合| 国产福利免费在线观看| 青青操视频免费观看| 欧美一级在线看| 国产精品毛片一区视频播| 日本精品视频一区二区| 久久亚洲综合伊人| 亚洲第七页| 国产欧美精品一区二区| h视频在线播放| 无码一区18禁| 国产日本一线在线观看免费| 亚洲一区二区三区国产精华液| 一级全黄毛片| 国产麻豆福利av在线播放| 欧美特黄一级大黄录像| 露脸真实国语乱在线观看| 日本高清免费不卡视频| 天天摸夜夜操| 亚洲福利网址| 91福利免费视频| 亚洲欧美激情小说另类| 毛片网站在线看| 色九九视频| 国产中文一区二区苍井空| 亚洲香蕉在线| 欧美一级专区免费大片| 精品国产中文一级毛片在线看| 国产女人18水真多毛片18精品| 国产在线麻豆波多野结衣| 日韩国产亚洲一区二区在线观看| 色综合中文综合网| 日本AⅤ精品一区二区三区日| 日韩在线网址| 久久情精品国产品免费| 欧美精品二区| 色播五月婷婷| 欧美一级大片在线观看| 老司国产精品视频91| a在线亚洲男人的天堂试看| 91精品国产丝袜| 国产丝袜啪啪| 欧美一区二区三区欧美日韩亚洲 | 成人国产免费| 国产乱视频网站| 精品国产成人av免费| 高清不卡一区二区三区香蕉| 亚洲精品国产综合99| 国产精品网址你懂的| 男女性色大片免费网站| 国产原创演绎剧情有字幕的| 在线看国产精品| 亚洲乱强伦| 日本免费福利视频| 日本午夜在线视频| 成年A级毛片| 在线日本国产成人免费的| 精品久久久久久中文字幕女| 精品综合久久久久久97超人该| 国产丝袜第一页| 亚洲全网成人资源在线观看| 亚洲一区国色天香| 伊人色综合久久天天| 国产成人综合日韩精品无码不卡| 午夜毛片免费观看视频 | 国产成人免费观看在线视频| 97在线碰| 欧美国产在线看| 91九色国产在线| 国产亚洲视频中文字幕视频| 亚洲欧美日韩精品专区| 亚洲国产欧洲精品路线久久| 国产精品爽爽va在线无码观看| 国产视频资源在线观看| 一级看片免费视频| 亚洲免费播放| 精品一区二区三区自慰喷水| 天天干天天色综合网|