利用交叉推薦模型解決用戶(hù)冷啟動(dòng)問(wèn)題

2016-06-08 05:48:29朱坤廣郝春亮

計(jì)算機(jī)應(yīng)用與軟件 2016年5期

朱坤廣　楊　達(dá)　崔　強(qiáng)　郝春亮

1(中國(guó)科學(xué)院軟件研究所基礎(chǔ)軟件國(guó)家工程研究中心　北京 100190)2(中國(guó)科學(xué)院大學(xué)　北京 100190)3(中國(guó)科學(xué)院軟件研究所計(jì)算機(jī)科學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室　北京 100190)

朱坤廣1,2楊達(dá)1,3崔強(qiáng)1,2郝春亮1,2

1(中國(guó)科學(xué)院軟件研究所基礎(chǔ)軟件國(guó)家工程研究中心北京 100190)2(中國(guó)科學(xué)院大學(xué)北京 100190)3(中國(guó)科學(xué)院軟件研究所計(jì)算機(jī)科學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室北京 100190)

摘要用戶(hù)冷啟動(dòng)是推薦系統(tǒng)的一個(gè)重要問(wèn)題。傳統(tǒng)的推薦系統(tǒng)使用遷移學(xué)習(xí)的方法來(lái)解決這個(gè)問(wèn)題，即利用一個(gè)領(lǐng)域的評(píng)分信息或者標(biāo)簽預(yù)測(cè)另外一個(gè)領(lǐng)域的用戶(hù)和物品評(píng)分。上述遷移學(xué)習(xí)模型通常假設(shè)兩個(gè)領(lǐng)域沒(méi)有重疊的用戶(hù)和物品，與上述假設(shè)不同，很多情況下系統(tǒng)可以獲取同一用戶(hù)在不同領(lǐng)域的數(shù)據(jù)。針對(duì)這種數(shù)據(jù)，提出一種新的推薦系統(tǒng)冷啟動(dòng)模型—crossSVD&GBDT(CSGT), 通過(guò)有效利用重疊用戶(hù)的信息來(lái)解決用戶(hù)冷啟動(dòng)問(wèn)題。具體地，首先提出新模型獲取用戶(hù)和物品的特征，然后利用GBDT模型進(jìn)行訓(xùn)練。實(shí)驗(yàn)數(shù)據(jù)表明，在豆瓣數(shù)據(jù)集中corssSVD&GBDT可以得到比傳統(tǒng)方法性能更高、魯棒性更強(qiáng)的實(shí)驗(yàn)結(jié)果。

關(guān)鍵詞推薦系統(tǒng)遷移學(xué)習(xí)用戶(hù)冷啟動(dòng)交叉推薦

0引言

隨著互聯(lián)網(wǎng)的發(fā)展，產(chǎn)生的信息呈指數(shù)級(jí)增長(zhǎng)，推薦系統(tǒng)在解決這種信息過(guò)載問(wèn)題中越來(lái)越重要。推薦系統(tǒng)利用用戶(hù)的歷史信息主動(dòng)給用戶(hù)推薦用戶(hù)未來(lái)需要的信息(用戶(hù)喜歡的衣服、書(shū)籍等)，并且已經(jīng)在工業(yè)界得到了成功的應(yīng)用，比如亞馬遜、淘寶等公司。雖然推薦系統(tǒng)得到廣泛的應(yīng)用，但是也面臨很多問(wèn)題，其中用戶(hù)冷啟動(dòng)是個(gè)非常重要的問(wèn)題。用戶(hù)冷啟動(dòng)指當(dāng)用戶(hù)在一個(gè)領(lǐng)域沒(méi)有任何歷史信息時(shí)，如何給該用戶(hù)推薦他需要的當(dāng)前領(lǐng)域的信息?如果不能夠很快速地給一個(gè)新用戶(hù)推薦感興趣的信息，會(huì)讓用戶(hù)認(rèn)為該領(lǐng)域的信息對(duì)他沒(méi)有價(jià)值，這樣就會(huì)錯(cuò)失掉該用戶(hù)。

針對(duì)冷啟動(dòng)中的數(shù)據(jù)稀疏問(wèn)題,有些學(xué)者提出使用交叉領(lǐng)域推薦的方法解決。交叉領(lǐng)域推薦即利用信息豐富領(lǐng)域(原領(lǐng)域)中探索到的知識(shí)(用戶(hù)的興趣、物品的特征)提高信息稀疏領(lǐng)域(目標(biāo)領(lǐng)域)中的推薦性能。當(dāng)前探索出來(lái)的交叉領(lǐng)域推薦模型都是基于兩個(gè)領(lǐng)域沒(méi)有用戶(hù)重疊和物品重疊的數(shù)據(jù)設(shè)計(jì)的。但是，從業(yè)界來(lái)看，越來(lái)越多的公司同時(shí)在很多個(gè)領(lǐng)域開(kāi)展業(yè)務(wù)，這樣就會(huì)收集到很多用戶(hù)在多個(gè)領(lǐng)域的行為信息，就可以挖掘這些重疊用戶(hù)的價(jià)值。通過(guò)這些重疊用戶(hù)的行為，可以探索用戶(hù)會(huì)對(duì)兩個(gè)領(lǐng)域的哪些物品同時(shí)產(chǎn)生興趣。比如對(duì)喜劇電影感興趣的用戶(hù)會(huì)很有可能喜歡喜劇類(lèi)的書(shū)籍，對(duì)于某個(gè)武俠小說(shuō)感興趣的用戶(hù)同時(shí)會(huì)對(duì)這個(gè)小說(shuō)改編的電影感興趣。

基于以上分析，本文是利用重疊用戶(hù)的評(píng)分信息解決用戶(hù)冷啟動(dòng)問(wèn)題。解決這種問(wèn)題最直接的做法是將兩個(gè)領(lǐng)域的評(píng)分合在一起，利用已有的推薦模型。比如基于物品的推薦，基于用戶(hù)的推薦或者矩陣分解的方法進(jìn)行計(jì)算。但這樣首先會(huì)使數(shù)據(jù)更加稀疏，得到的結(jié)果更加不穩(wěn)定不準(zhǔn)確[8],對(duì)于這一點(diǎn)，本文將在實(shí)驗(yàn)部分進(jìn)行證實(shí)。其次，兩個(gè)領(lǐng)域的知識(shí)或者特征不可能完全相同，必然都有各自獨(dú)立的特征。比如圖書(shū)和電影兩個(gè)領(lǐng)域，武俠是兩個(gè)領(lǐng)域共同的物品類(lèi)別，但是經(jīng)管類(lèi)書(shū)籍只屬于圖書(shū)所有，利用用戶(hù)對(duì)經(jīng)管類(lèi)書(shū)籍的評(píng)分學(xué)到的特征對(duì)于預(yù)測(cè)用戶(hù)對(duì)電影的評(píng)分沒(méi)有任何用處，如果強(qiáng)行遷移，只會(huì)引起負(fù)作用。

所以，本文提出的模型假設(shè)兩個(gè)領(lǐng)域有一些共同的特征，但同時(shí)都有各自獨(dú)立的特征，模型分為2部分。首先，得到兩個(gè)領(lǐng)域中的每個(gè)用戶(hù)和每個(gè)物品的特征，包括獨(dú)立特征和共同特征。這部分工作是基于LFM[13]進(jìn)行改進(jìn)，使得LFM模型適合處理多領(lǐng)域信息的問(wèn)題，本文的模型將LFM中定義的特征分割為3部分：(1) S領(lǐng)域的獨(dú)立特征；(2) T領(lǐng)域的獨(dú)立特征；(3) 兩個(gè)領(lǐng)域共同的特征。如圖1所示,U2用戶(hù)群中的每個(gè)用戶(hù)最后會(huì)得到S領(lǐng)域中的獨(dú)立特征以及兩個(gè)領(lǐng)域共同的特征，U3用戶(hù)群中的用戶(hù)最后會(huì)得到T領(lǐng)域中的獨(dú)立特征以及兩個(gè)領(lǐng)域的共同的特征，U1用戶(hù)群會(huì)得到S和T兩個(gè)領(lǐng)域獨(dú)立的特征，同時(shí)也有兩個(gè)領(lǐng)域共同的特征。S領(lǐng)域中的物品會(huì)獲得S領(lǐng)域中獨(dú)立的特征以及兩個(gè)領(lǐng)域中共同的特征，T領(lǐng)域中的物品會(huì)獲得T領(lǐng)域中獨(dú)立的特征以及兩個(gè)領(lǐng)域中共同的特征。

圖1　符號(hào)說(shuō)明

其次，選擇特征和模型預(yù)測(cè)評(píng)分。目的是預(yù)測(cè)S領(lǐng)域的用戶(hù)對(duì)T領(lǐng)域的物品的評(píng)分或者預(yù)測(cè)T領(lǐng)域的用戶(hù)對(duì)S領(lǐng)域的物品的評(píng)分，那么屬于每個(gè)領(lǐng)域的獨(dú)立特征就不會(huì)起作用，所以只需選擇兩個(gè)領(lǐng)域共同的特征來(lái)預(yù)測(cè)用戶(hù)對(duì)物品的評(píng)分。這樣就將該問(wèn)題轉(zhuǎn)化成一個(gè)回歸問(wèn)題，特征是兩個(gè)領(lǐng)域共同的特征，即每個(gè)用戶(hù)在共同特征下的值和每個(gè)物品在共同特征下的值，y值是該用戶(hù)對(duì)該物品的評(píng)分，采取當(dāng)前比較好的一個(gè)回歸模型GBDT。并且經(jīng)過(guò)實(shí)驗(yàn)結(jié)果，本文提出的crossSVD&GBDT相對(duì)于其他模型更加準(zhǔn)確、穩(wěn)定。本文的貢獻(xiàn)點(diǎn)主要分為2個(gè)部分:

(1) 嘗試使用兩個(gè)領(lǐng)域重疊的用戶(hù)信息解決單領(lǐng)域的用戶(hù)冷啟動(dòng)問(wèn)題。

(2) 基于傳統(tǒng)模型，提出新的模型crossSVD&GBDT，獲取兩個(gè)領(lǐng)域用戶(hù)和物品共同的隱含特征。

1相關(guān)工作

正式介紹模型之前，先描述矩陣分解的背景知識(shí)。然后介紹交叉推薦系統(tǒng)相關(guān)領(lǐng)域的知識(shí)。

1.1基于矩陣分解的推薦系統(tǒng)模型

矩陣分解是將一個(gè)矩陣拆解成2個(gè)或者更多個(gè)矩陣的乘積，這些矩陣乘積的結(jié)果可以近似等于原矩陣。在推薦系統(tǒng)中，矩陣分解模型是將一個(gè)user-item-rating矩陣(R∈Rm×n,m是指有m個(gè)用戶(hù)，n是指有n個(gè)物品)分解成一個(gè)用戶(hù)矩陣U∈Rm×k和一個(gè)物品矩陣V∈Rn×k。

R=U×VT

使用以下目標(biāo)函數(shù)求解U，V，使得結(jié)果近似R。

(1)

式中，Iij表明Rij是否為0，即用戶(hù)i對(duì)物品j是否有評(píng)分。如果有評(píng)分為1，沒(méi)有評(píng)分為0。Rij表明用戶(hù)i對(duì)物品j的評(píng)分，Ui表明用戶(hù)i的特征，Vj表明物品j的特征。為了解決稀疏性問(wèn)題，加入了正則項(xiàng)。

(2)

以上2個(gè)目標(biāo)函數(shù)都可以使用SGD(Stochastic Gradient Descent)或者LBFGS(Limit Quasi-Newton Methods)解法求解。

1.2基于遷移學(xué)習(xí)的交叉領(lǐng)域推薦系統(tǒng)

遷移學(xué)習(xí)的思想有2個(gè)領(lǐng)域：一個(gè)領(lǐng)域信息量豐富；另一個(gè)領(lǐng)域信息量稀少。如何利用信息量豐富領(lǐng)域中的信息來(lái)解決信息量稀少領(lǐng)域中遇到的問(wèn)題。用戶(hù)在其他電影網(wǎng)站(源領(lǐng)域)的一些行為預(yù)測(cè)用戶(hù)在當(dāng)前電影網(wǎng)站(目標(biāo)領(lǐng)域)對(duì)電影的評(píng)分。比如文獻(xiàn)[1,2],使用用戶(hù)是否喜好一個(gè)電影(0/1)或者看電影的時(shí)間長(zhǎng)度，預(yù)測(cè)用戶(hù)對(duì)電影的評(píng)分。同時(shí)訓(xùn)練源領(lǐng)域和目標(biāo)領(lǐng)域的數(shù)據(jù)，假設(shè)用戶(hù)在兩個(gè)領(lǐng)域的特征分布是一樣的，因?yàn)閮蓚€(gè)領(lǐng)域都是關(guān)于電影的。文獻(xiàn)[3] 假設(shè)當(dāng)前領(lǐng)域的用戶(hù)和物品都很稀少，比如當(dāng)前電影網(wǎng)站用戶(hù)行為稀少，物品被訪問(wèn)得也少，而這個(gè)領(lǐng)域里的用戶(hù)在另外一個(gè)網(wǎng)站的行為很多，那么可以利用另外一個(gè)網(wǎng)站的行為學(xué)習(xí)這個(gè)用戶(hù)的特征，用另外一個(gè)電影網(wǎng)站學(xué)習(xí)到電影的特征。然后將這2個(gè)特征應(yīng)用到當(dāng)前電影網(wǎng)站中。還有一部分文獻(xiàn)是利用圖書(shū)中的信息推薦電影中的信息。比如文獻(xiàn)[4]利用圖書(shū)中的信息學(xué)到用戶(hù)群對(duì)物品群的評(píng)分，然后將該信息應(yīng)用到電影中。文獻(xiàn)[11]對(duì)遷移學(xué)習(xí)有一個(gè)總結(jié)，描述了遷移學(xué)習(xí)的分類(lèi)。文獻(xiàn)[5] 假設(shè)兩個(gè)領(lǐng)域中有共同的特征，在每個(gè)領(lǐng)域中建立一個(gè)user×item×tags的三維矩陣，并且將該3維矩陣分解，得到每個(gè)用戶(hù)的特征分布，以及每個(gè)物品的特征分布以及標(biāo)簽的特征分布，模型中假設(shè)的目標(biāo)領(lǐng)域和源領(lǐng)域中共同的知識(shí)是用戶(hù)、物品、標(biāo)簽3個(gè)維度之間的關(guān)系。然后將信息量豐富的領(lǐng)域中學(xué)到的特征應(yīng)用到信息量稀少的領(lǐng)域中。文獻(xiàn)[6,7]同時(shí)訓(xùn)練圖書(shū)和電影中的數(shù)據(jù)、圖書(shū)和電影間共同的知識(shí)是指他們有著共同的用戶(hù)類(lèi)、共同的物品類(lèi)，并且某一類(lèi)用戶(hù)對(duì)某一類(lèi)物品的評(píng)分也是共同的。利用這個(gè)共同的信息，得到每個(gè)用戶(hù)屬于哪一個(gè)特征，哪個(gè)物品屬于哪一個(gè)特征。文獻(xiàn)[7]假設(shè)是多個(gè)領(lǐng)域間有共同的用戶(hù)群個(gè)數(shù)，但是物品類(lèi)個(gè)數(shù)可以不一樣，多個(gè)領(lǐng)域間共同的特征是用戶(hù)群和其中一部分物品群之間的關(guān)系是相同的，而并不是用戶(hù)群和所有的物品群之間的關(guān)系是相同的并且物品群個(gè)數(shù)是相同的。利用在兩個(gè)領(lǐng)域間有共同行為的用戶(hù)推薦商品。建立一個(gè)用戶(hù)和物品的二部圖，將2個(gè)領(lǐng)域的數(shù)據(jù)混合在一起，進(jìn)行文獻(xiàn)[10]這種方法的缺陷訓(xùn)練，基于隨機(jī)游走的方法，結(jié)果不穩(wěn)定并且需要大量的計(jì)算。

2crossSVD&GBDT模型

2.1利用重疊用戶(hù)信息獲取用戶(hù)和物品在兩個(gè)領(lǐng)域的共同特征

最直接得到兩個(gè)領(lǐng)域中用戶(hù)和物品的特征，是將兩個(gè)領(lǐng)域的評(píng)分混合在一起，行數(shù)是兩個(gè)領(lǐng)域中的用戶(hù)數(shù)，列數(shù)是兩個(gè)領(lǐng)域中的物品數(shù)。矩陣中的每個(gè)元素即相應(yīng)下標(biāo)是用戶(hù)對(duì)物品的評(píng)分，然后直接利用SVD模型或者其他隱含因子模型進(jìn)行求解。但是這種辦法非常的粗糙，缺點(diǎn)在文獻(xiàn)[8]中也有闡述，這樣會(huì)使得矩陣更加稀疏，得到的結(jié)果更加不精確。同時(shí)這種方法是默認(rèn)2個(gè)領(lǐng)域的隱含特征是一樣的，就像在背景中分析的那樣，有很大的缺陷?；诒尘爸刑岢龅乃枷?，本文的模型就是假設(shè)每個(gè)領(lǐng)域都有自己獨(dú)立的隱含特征，都是另外一個(gè)領(lǐng)域不具備的。但同時(shí)這2個(gè)領(lǐng)域肯定也會(huì)有一些共同的topic，否則也不可能有那么多用戶(hù)在這2個(gè)領(lǐng)域同時(shí)會(huì)有那么多評(píng)分信息的。

假設(shè)兩個(gè)領(lǐng)域特征總數(shù)有k個(gè)，屬于S領(lǐng)域的特征個(gè)數(shù)有x個(gè)，屬于T領(lǐng)域的特征個(gè)數(shù)有y個(gè)，他們共有z個(gè)特征。滿(mǎn)足等式x+z+y=k，如圖2所示。

圖2　特征的表示形式

假設(shè)該k維向量中，前x+z個(gè)隱含特征屬于S領(lǐng)域，后面y+z個(gè)隱含特征屬于T領(lǐng)域。

本文的損失函數(shù)如下:

(3)

式中，Sm表示S領(lǐng)域中用戶(hù)的個(gè)數(shù)，Sn表示S領(lǐng)域中物品的個(gè)數(shù)。Tm表示T領(lǐng)域中用戶(hù)的個(gè)數(shù)，Tn表示T領(lǐng)域中物品的個(gè)數(shù)。由此可以得到每個(gè)用戶(hù)的特征向量，共有k維。其中U2用戶(hù)群后面y個(gè)特征的數(shù)值都是0(這y個(gè)特征只算一個(gè)數(shù)值的補(bǔ)充，沒(méi)有任何物理含義)，U3用戶(hù)群前面x個(gè)特征的數(shù)值都是0(同理，這個(gè)x個(gè)特征沒(méi)有任何物理含義)。得到每個(gè)物品的特征向量，共有k維。T1物品群后面y個(gè)特征都是0(同理，這y個(gè)特征沒(méi)有任何物理含義，只是數(shù)值補(bǔ)充)，T3物品群前面x個(gè)特征都是0(這x個(gè)特征沒(méi)有任何物理含義)。

使用SGD的方法求解該目標(biāo)函數(shù)。

1) 對(duì)于S領(lǐng)域中的評(píng)分信息，即對(duì)于任意評(píng)分信息Rij,如果物品j屬于S領(lǐng)域,更新用戶(hù)i的特征向量，即Ui向量的前x+z個(gè)值，以及物品j的前x+z個(gè)值。根據(jù)第一個(gè)平方誤差等式，求導(dǎo)如下:

(4)

2) 對(duì)于T領(lǐng)域中的評(píng)分信息，即對(duì)于任意評(píng)分信息Rij,如果物品j屬于T領(lǐng)域，更新用戶(hù)i的特征向量，即Ui向量的后z+y個(gè)值，以及物品j的后y+z個(gè)值。根據(jù)第二個(gè)平方誤差等式，求導(dǎo)如下:

(5)

可以將該模型分為3個(gè)部分去觀察:

1) 針對(duì)U1用戶(hù)群以及該部分用戶(hù)的評(píng)分信息:對(duì)S領(lǐng)域的這部分評(píng)分信息體現(xiàn)在第一個(gè)平方誤差等式中，對(duì)T領(lǐng)域的這部分評(píng)分體現(xiàn)在第二個(gè)平方誤差等式中。假設(shè)用戶(hù)a屬于U1用戶(hù)群，i是S領(lǐng)域的物品，j是T領(lǐng)域的物品，a分別對(duì)i和j有評(píng)分。根據(jù)a對(duì)i的評(píng)分，模型每次更新用戶(hù)a的前x+z個(gè)特征，以及物品i的前x+z特征。根據(jù)a對(duì)j的評(píng)分，模型每次更新用戶(hù)a的后z+y個(gè)特征,以及物品j的后y+z個(gè)特征。這樣無(wú)論是在哪個(gè)領(lǐng)域的評(píng)分，都會(huì)更新用戶(hù)a在z個(gè)公共特征的值。

2) 針對(duì)U2用戶(hù)群以及該部分用戶(hù)的評(píng)分信息:該部分的評(píng)分信息只包含在第一個(gè)平方誤差等式中。假設(shè)用戶(hù)a屬于U2用戶(hù)群，物品j屬于S領(lǐng)域，用戶(hù)a對(duì)于物品j有評(píng)分信息，則根據(jù)用戶(hù)a對(duì)于物品j的評(píng)分，模型每次更新用戶(hù)a的前x+z個(gè)特征，以及物品j的前x+z個(gè)特征。

3) 針對(duì)U3用戶(hù)群以及該部分用戶(hù)的評(píng)分信息:該部分的評(píng)分信息只包含在第二個(gè)平方誤差等式中。假設(shè)用戶(hù)a屬于U3用戶(hù)群,物品j屬于T領(lǐng)域，用戶(hù)a對(duì)于物品j有評(píng)分信息，則根據(jù)用戶(hù)a對(duì)于物品j的評(píng)分，模型每次更新用戶(hù)a的后z+y個(gè)特征，以及物品j的后y+z個(gè)特征。

可以明確該框架的3個(gè)優(yōu)點(diǎn):(1) 假設(shè)兩個(gè)用戶(hù)有一部分特征是相同的，也都有各自獨(dú)立的特征，這種假設(shè)較假設(shè)兩個(gè)領(lǐng)域中有共同的特征更適合現(xiàn)實(shí)中的數(shù)據(jù)。(2) 將2個(gè)領(lǐng)域的評(píng)分信息混合在一起，同時(shí)得到每個(gè)用戶(hù)和每個(gè)物品的特征，并用一個(gè)統(tǒng)一的特征體系表達(dá)出不同領(lǐng)域的用戶(hù)以及物品特征。(3) 本模型分布式計(jì)算很容易實(shí)現(xiàn)，計(jì)算復(fù)雜度較低。

2.2使用GBDT模型以及用戶(hù)和物品在兩個(gè)領(lǐng)域的共同特征預(yù)測(cè)用戶(hù)對(duì)新領(lǐng)域的評(píng)分

本文目的是預(yù)測(cè)U2用戶(hù)群對(duì)T領(lǐng)域的評(píng)分以及預(yù)測(cè)U1用戶(hù)群對(duì)S領(lǐng)域的物品。2.1節(jié)獲取了用戶(hù)在每個(gè)單獨(dú)領(lǐng)域的隱含特征以及兩個(gè)領(lǐng)域共同的隱含特征，物品在每個(gè)單獨(dú)領(lǐng)域的隱含特征以及兩個(gè)領(lǐng)域共同的隱含特征。單獨(dú)領(lǐng)域的隱含特征只能特定表明用戶(hù)在該領(lǐng)域的特征或者物品在該領(lǐng)域的特征，而兩個(gè)領(lǐng)域的關(guān)系只能通過(guò)兩個(gè)領(lǐng)域的共同隱含特征體現(xiàn)。兩個(gè)領(lǐng)域各自獨(dú)立的隱含特征之間是沒(méi)有任何關(guān)系的，所以只選擇共同領(lǐng)域的隱含特征作為GBDT模型的輸入。

2.2.1GBDT模型簡(jiǎn)介

GBDT(Gradient Boosting Decision Tree)模型是一種解決回歸問(wèn)題的樹(shù)模型，詳細(xì)的方法不再描述，只描述一些核心的部分。模型的輸入即上述構(gòu)造的樣本集合，輸出是n顆樹(shù)，每顆樹(shù)都有若干個(gè)葉節(jié)點(diǎn)，每個(gè)葉節(jié)點(diǎn)都有一個(gè)值，該值是該節(jié)點(diǎn)上的樣本的標(biāo)簽的平均值。算法如下:每一次特征的選擇方法有2種:

第一種是采用平方誤差:

(6)

R1=(xj≤s)R2=(xj≥s)

c1=ave(yi|xi∈R1(j,s))

c2=ave(yi|xi∈R2(j,s))

第二種采用絕對(duì)值誤差:

(7)

R1=(xj≤s)R2=(xj≥s)

c1=ave(yi|xi∈R1(j,s))

c2=ave(yi|xi∈R2(j,s))

這樣，最后子節(jié)點(diǎn)中的y值基本上是相近的。

最后的終止條件有3種情況:(1) 特征都已經(jīng)用完(基本上不會(huì)發(fā)生)。(2) 當(dāng)前節(jié)點(diǎn)的損失小于一定閾值。(3) 當(dāng)前節(jié)點(diǎn)個(gè)數(shù)小于一定閾值。

2.2.2構(gòu)造樣本

由上一節(jié)得知，每個(gè)用戶(hù)用統(tǒng)一的k維向量表示，每個(gè)物品用統(tǒng)一的k維向量表示,抽出z個(gè)共同的隱含特征構(gòu)造樣本，對(duì)于每一個(gè)評(píng)分Rij，用如表1形式表示。

表1　樣本的形式

表1中，ui指的用戶(hù)i的z個(gè)共同隱含特征，vj指的物品j的z個(gè)共同隱含特征，rij表示用戶(hù)i對(duì)物品j的評(píng)分。樣本共有2z個(gè)特征。

2.2.3模型訓(xùn)練

根據(jù)上述得到的樣本，使用GBDT模型進(jìn)行訓(xùn)練的。最后的結(jié)果就是產(chǎn)生若干顆樹(shù)，每個(gè)樹(shù)上有很多個(gè)葉子節(jié)點(diǎn)。每個(gè)葉子節(jié)點(diǎn)包含一部分評(píng)分信息，對(duì)應(yīng)一個(gè)特征組合規(guī)則。該特征組合規(guī)則指的是從root節(jié)點(diǎn)到該葉子節(jié)點(diǎn)的路徑，路徑上的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)特征，并且每個(gè)節(jié)點(diǎn)都有一個(gè)閾值，大于該閾值的特征是該節(jié)點(diǎn)的右子節(jié)點(diǎn)，小于該閾值的特征是該節(jié)點(diǎn)的左子節(jié)點(diǎn)。應(yīng)用到當(dāng)前的推薦場(chǎng)景，當(dāng)前葉節(jié)點(diǎn)中的某個(gè)評(píng)分是用戶(hù)i對(duì)物品的j的評(píng)分。那么用戶(hù)i和物品j的2z個(gè)特征滿(mǎn)足當(dāng)前葉節(jié)點(diǎn)的特征組合規(guī)則。

根據(jù)GBDT模型，每個(gè)葉節(jié)點(diǎn)上的樣本的評(píng)分是相似的，每個(gè)節(jié)點(diǎn)上的評(píng)分信息有3種可能:(1) 該葉節(jié)點(diǎn)上所有的評(píng)分都來(lái)自于用戶(hù)對(duì)S領(lǐng)域物品的評(píng)分。(2) 該葉節(jié)點(diǎn)上所有的評(píng)分都來(lái)自于用戶(hù)對(duì)T領(lǐng)域物品的評(píng)分。(3) 該節(jié)點(diǎn)上的評(píng)分包含2個(gè)領(lǐng)域的評(píng)分。

每個(gè)葉節(jié)點(diǎn)的值等于該葉節(jié)點(diǎn)上所有評(píng)分的平均分,由此認(rèn)為在該葉節(jié)點(diǎn)上的所有用戶(hù)對(duì)該葉節(jié)點(diǎn)上所有物品的評(píng)分都是該平均分。如果是上述第一種可能或者第二種可能，那么該葉節(jié)點(diǎn)沒(méi)有起到交叉領(lǐng)域的作用，只是說(shuō)明在單領(lǐng)域中，該領(lǐng)域的用戶(hù)對(duì)該領(lǐng)域的物品的評(píng)分。如果是第三種可能，得到某個(gè)領(lǐng)域的用戶(hù)對(duì)另外一個(gè)領(lǐng)域的物品的評(píng)分。

3實(shí)驗(yàn)

3.1數(shù)據(jù)處理

實(shí)驗(yàn)數(shù)據(jù)來(lái)自于對(duì)豆瓣的采集，共有50 000個(gè)用戶(hù)，電影多少條，書(shū)籍多少條，評(píng)分信息共有x條。采用以下條件處理數(shù)據(jù)滿(mǎn)足實(shí)驗(yàn)的需求，如表2-表4所示。

表2　用戶(hù)群的組成

表3　物品的組成

表4　訓(xùn)練集和測(cè)試集的組成

3.2實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)

實(shí)驗(yàn)采用2種衡量標(biāo)準(zhǔn)：Mean Absolute Error(MAE) 和Root Mean Square Error(RMSE),衡量本實(shí)驗(yàn)的預(yù)測(cè)精確度。定義如下:

3.3對(duì)比方法

在實(shí)驗(yàn)中，我們檢測(cè)了提出的模型在真實(shí)數(shù)據(jù)中的效果，并且跟其他經(jīng)典的單領(lǐng)域推薦模型相比,包含3種模型：LFM(Latent Factor Model)、biasSVD(Bias-Singluar Value Decomposition)、pureSVD(pure Singluar Value Decomposition)。

LFM[13]:一個(gè)單領(lǐng)域的模型，使用矩陣分解的方法學(xué)習(xí)每個(gè)領(lǐng)域的隱含特征,使用這些隱含特征預(yù)測(cè)評(píng)分。模型如下:

biasSVD[14]:一個(gè)單領(lǐng)域的模型，在上述LFM的基礎(chǔ)上加入了全局平均數(shù)，用戶(hù)偏置項(xiàng)，物品偏置項(xiàng)。模型如下:

λ(‖U‖2+‖V‖2)

pureSVD[15]:一個(gè)單領(lǐng)域的模型，使用傳統(tǒng)的SVD分解方法，將評(píng)分矩陣分解成3個(gè)矩陣，一個(gè)矩陣存儲(chǔ)用戶(hù)特征，一個(gè)矩陣存儲(chǔ)物品特征，一個(gè)矩陣存儲(chǔ)用戶(hù)群和物品之間的關(guān)系。模型如下:

crossSVD&GBDT:本文的模型。首先改進(jìn)LFM，使得單領(lǐng)域的LFM適用到2個(gè)領(lǐng)域上。獲取每個(gè)領(lǐng)域的用戶(hù)以及物品特征。其次在上述特征的基礎(chǔ)上，使用GBDT模型。

3.4性能對(duì)比

本文將兩個(gè)領(lǐng)域的數(shù)據(jù)混合在一起，然后使用已有的3個(gè)模型進(jìn)行預(yù)測(cè)，有2個(gè)因素影響這3個(gè)模型的效果，隱含特征個(gè)數(shù)和正則項(xiàng)。對(duì)于crossSVD&GBDT ，有4個(gè)因素影響效果:兩個(gè)領(lǐng)域共同的特征個(gè)數(shù);GBDT中的樹(shù)的個(gè)數(shù);樹(shù)的深度;下降速率。通過(guò)以下實(shí)驗(yàn)的對(duì)比，可以看到本文提出的模型比傳統(tǒng)的3個(gè)模型得到結(jié)果更準(zhǔn)確更具有魯棒性，并且利用傳統(tǒng)模型的結(jié)果證明本文的假設(shè)是對(duì)的，即兩個(gè)領(lǐng)域的特征不可能完全相同。

3.4.1準(zhǔn)確度對(duì)比

如表5所示,是通過(guò)交叉驗(yàn)證，調(diào)試較多參數(shù)得到的每個(gè)模型最好的效果。

表5　模型結(jié)果

從表5中，有以下幾點(diǎn)分析:

(1) CSGT在MAE上相對(duì)其他3個(gè)模型有較大的提升,在RMSE上也有一小部分提升。

(2) 使用LFM或者pureSVD,CSGT的方法比biasSVD得到的效果要好很多。從模型的角度來(lái)看，全局均分，用戶(hù)偏置對(duì)結(jié)果影響很大，即電影和圖書(shū)兩個(gè)領(lǐng)域的均分是有較大差別的。用戶(hù)對(duì)電影和圖書(shū)的評(píng)分也是有很大區(qū)別的，說(shuō)明這2個(gè)不同領(lǐng)域有很多特征都是不同的。

(3) 從pureSVD、LFM、CSGT這3種方法效果來(lái)看，利用用戶(hù)在一個(gè)領(lǐng)域的評(píng)分信息預(yù)測(cè)用戶(hù)在另外一個(gè)領(lǐng)域的評(píng)分信息是有較好效果的。說(shuō)明用戶(hù)在兩個(gè)領(lǐng)域的行為還是有一些相同點(diǎn)的。

3.4.2魯棒性對(duì)比

設(shè)定迭代次數(shù)是50次，分別將正則項(xiàng)參數(shù)設(shè)置為0、0.01、0.1。將topic的個(gè)數(shù)從20到50，得到如圖3-圖8所示。

圖3　MAE:LFM:正則項(xiàng)權(quán)重和topic個(gè)數(shù)

圖4　MAE:biasSVD:正則項(xiàng)權(quán)重和topic個(gè)數(shù)

圖5　MAE:pureSVD:正則項(xiàng)權(quán)重和topic個(gè)數(shù)

圖6　RMSE:LFM:正則項(xiàng)權(quán)重和topic個(gè)數(shù)

圖7　RMSE:biasSVD:正則項(xiàng)權(quán)重和topic個(gè)數(shù)

圖8　RMSE:pureSVD:正則項(xiàng)權(quán)重和topic個(gè)數(shù)

以上是計(jì)算出來(lái)的LFM、biasSVD、pureSVD三種模型在不同topic個(gè)數(shù)和正則項(xiàng)權(quán)重下的誤差?？梢钥吹絽?shù)對(duì)于結(jié)果的影響很大,效果不穩(wěn)定，并且三種模型除個(gè)別參數(shù)，大部分情況下都是隨著topic個(gè)數(shù)的增多，誤差減小。這說(shuō)明兩個(gè)領(lǐng)域不可能那么多共同的topic,必然都有各自獨(dú)立的特征，兩個(gè)領(lǐng)域的評(píng)分不能簡(jiǎn)單的混合在一起進(jìn)行計(jì)算。所以本文模型的假設(shè)即兩個(gè)不同的領(lǐng)域有共同的主題，但都有各自獨(dú)立的主題，這樣的假設(shè)更符合數(shù)據(jù)。

圖9、圖10是在樹(shù)的權(quán)重是0.1和樹(shù)的深度是3的基礎(chǔ)上,GBDT不同的樹(shù)的個(gè)數(shù)和不同的topic下，兩種誤差的趨勢(shì)?？梢钥吹浇Y(jié)果非常平穩(wěn)，隨著樹(shù)的個(gè)數(shù)增多或者樹(shù)的大小增多，兩種誤差都沒(méi)有太明顯的變化,topic個(gè)數(shù)的變化對(duì)于結(jié)果的影響也不明顯。

圖9　RMSE:crossSVD&GBDT:兩個(gè)領(lǐng)域共同topic個(gè)數(shù)的影響

圖10　MAE:crossSVD&GBDT:兩個(gè)領(lǐng)域共同topic個(gè)數(shù)的影響

由圖11、圖12可以看到，樹(shù)的個(gè)數(shù)和樹(shù)的深度對(duì)于結(jié)果的影響也不大，效果也比較穩(wěn)定。

圖11　RMSE:crossSVD&GBDT:樹(shù)的個(gè)數(shù)和樹(shù)的深度

圖12　MAE:crossSVD&GBDT:樹(shù)的個(gè)數(shù)和樹(shù)的深度

圖13、圖14是在樹(shù)的個(gè)數(shù)為50、topic個(gè)數(shù)是20的基礎(chǔ)上，隨著下降速率的變化，兩種誤差的變化。由圖形可以看到結(jié)果比較穩(wěn)定。

圖13　MAE:crossSVD&GBDT樹(shù)的下降速率

圖14　RMSE:crossSVD&GBDT:樹(shù)的下降速率

綜合以上圖形，可以總結(jié)，本文提出的模型的參數(shù)對(duì)于結(jié)果的影響不大，效果比較穩(wěn)定。

3.4.3時(shí)間復(fù)雜度對(duì)比

本文模型分為2部分:獲取共同特征和使用GBDT模型處理。獲取共同特征的模型和傳統(tǒng)模型求解的原理是一樣的，這部分處理的時(shí)間和傳統(tǒng)模型的處理時(shí)間相近，所以本文的時(shí)間復(fù)雜度相比傳統(tǒng)模型多了一步GBDT處理的時(shí)間。當(dāng)前分布式系統(tǒng)中也有很多分布式的GBDT模型，處理速度都很快，比如當(dāng)前流行的Spark分布式系統(tǒng)中MLlib庫(kù)中的GBDT算法。綜上所述，本文模型可以分布式處理，時(shí)間復(fù)雜度是可控的。

3.5實(shí)驗(yàn)總結(jié)

綜上所述，實(shí)驗(yàn)有如下總結(jié):

(1) 在準(zhǔn)確性上，本文提出的CSGT模型相比傳統(tǒng)模型結(jié)果更加精確。

(2) 在魯棒性上，本文的模型相比傳統(tǒng)模型，受參數(shù)影響較小。

(3) 從以上結(jié)果分析，更進(jìn)一步證明本文的假設(shè)是正確的，即兩個(gè)領(lǐng)域有共同的特征，但同時(shí)都有各自獨(dú)立的特征。

(4) 利用用戶(hù)在一個(gè)領(lǐng)域的評(píng)分信息預(yù)測(cè)用戶(hù)在另外一個(gè)領(lǐng)域的評(píng)分信息，結(jié)果還是比較準(zhǔn)確的，說(shuō)明用戶(hù)在兩個(gè)領(lǐng)域的行為還是有一些相似之處的。

(5) 利用兩個(gè)領(lǐng)域重疊用戶(hù)的信息可以更好地解決用戶(hù)冷啟動(dòng)問(wèn)題。

(6) 模型可以分布式處理，時(shí)間復(fù)雜度是可控的。

4結(jié)語(yǔ)

本文提出了crossSVD&GBDT模型，利用重疊用戶(hù)數(shù)據(jù)可以更精確更穩(wěn)定地解決推薦系統(tǒng)中的用戶(hù)冷啟動(dòng)問(wèn)題，提出的假設(shè)能夠更好地符合真實(shí)數(shù)據(jù)的分布?；谏鲜龉ぷ?，未來(lái)的工作分為以下2個(gè)部分:

1) 引入標(biāo)簽信息，使用標(biāo)簽的相似度傳遞。標(biāo)簽相對(duì)于通過(guò)model得到特征更加精確，將標(biāo)簽特征加入到當(dāng)前特征體系。

2) 使用回歸樹(shù)模型得到很多個(gè)葉子節(jié)點(diǎn)。可以認(rèn)為每個(gè)葉節(jié)點(diǎn)上的用戶(hù)和物品是相似的，認(rèn)為他們之間可以使用協(xié)同過(guò)濾的思想解釋?zhuān)谟脩?hù)的協(xié)同過(guò)濾和基于物品的協(xié)同過(guò)濾思想都是適用的。即在這個(gè)子節(jié)點(diǎn)上，用戶(hù)喜歡某個(gè)物品，必然也喜歡這個(gè)子節(jié)點(diǎn)上和該物品最相似的物品，兩個(gè)用戶(hù)相似，則他們對(duì)某些物品的評(píng)價(jià)必然是一致的。這樣在每個(gè)葉子節(jié)點(diǎn)上使用傳統(tǒng)的推薦模型來(lái)預(yù)測(cè)分值，相當(dāng)于將一個(gè)大矩陣分成分解成若干個(gè)小矩陣，然后在每個(gè)小矩陣上使用矩陣分解的辦法或者其他辦法預(yù)測(cè)其他缺失的評(píng)分。

參考文獻(xiàn)

[1] Pan W,Yang Q.Transfer learning in heterogeneous collaborative filtering domains[J].Artificial Intelligence,2013,197(4):39-55.

[2] Pan W,Xiang E W,Yang Q.Transfer Learning in Collaborative Filtering with Uncertain Ratings[C]//AAAI,2012.

[3] Pan W,Xiang E W,Liu N N,et al.Transfer Learning in Collaborative Filtering for Sparsity Reduction[C]//AAAI,2010,10:230-235.

[4] Li B,Yang Q,Xue X.Can Movies and Books Collaborate? Cross-Domain Collaborative Filtering for Sparsity Reduction[C]//Paper presented at the IJCAI,2009.

[5] Li B,Yang Q,Xue X.Can Movies and Books Collaborate? Cross-Domain Collaborative Filtering for Sparsity Reduction[C]//IJCAI,2009,9:2052-2057.

[6] Li B,Yang Q,Xue X.Transfer learning for collaborative filtering via a rating-matrix generative model[C]//Paper presented at the Proceedings of the 26th Annual International Conference on Machine Learning,2009.

[7] Li B,Yang Q,Xue X.Transfer learning for collaborative filtering via a rating-matrix generative model[C]//Proceedings of the 26th Annual International Conference on Machine Learning.ACM,2009:617-624.

[8] Hu L,Cao J,Xu G,et al.Personalized recommendation via cross-domain triadic factorization[C]//Proceedings of the 22nd international conference on World Wide Web.International World Wide Web Conferences Steering Committee,2013:595-606.

[9] Shi Y,Larson M,Hanjalic A.Tags as bridges between domains:Improving recommendation with tag-induced cross-domain collaborative filtering[M]//User Modeling,Adaption and Personalization.Springer Berlin Heidelberg,2011:305-316.

[10] 張亮,柏林森,周濤.基于跨電商行為的交叉推薦算法[J].電子科技大學(xué)學(xué)報(bào),2013(1):154-160.

[11] Pan W,Xiang E W,Liu N N,et al.Transfer Learning in Collaborative Filtering for Sparsity Reduction[C]//AAAI,2010,10:230-235.

[12] Zhong E,Fan W,Wang J,et al.Comsoc:adaptive transfer of user behaviors over composite social network[C]//Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2012:696-704.

[13] Gemulla R,Nijkamp E,Haas P J,et al.Large-scale matrix factorization with distributed stochastic gradient descent[C]//Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2011:69-77.

[14] Koren Y.Factorization meets the neighborhood:a multifaceted collaborative filtering model[C]//Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2008:426-434.

[15] Ding C,Li T,Peng W,et al.Orthogonal nonnegative matrix t-factorizations for clustering[C]//Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2006:126-135.

[16] Jiang M,Cui P,Liu R,et al.Social contextual recommendation[C]//Proceedings of the 21st ACM international conference on Information and knowledge management.ACM,2012:45-54.

[17] Cremonesi P,Quadrana M.Cross-domain recommendations without overlapping data: myth or reality?[C]//Proceedings of the 8th ACM Conference on Recommender systems.ACM,2014:297-300.

[18] Chen W,Hsu W,Lee M L.Making recommendations from multiple domains[C]//Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2013:892-900.

CROSS RECOMMENDATION MODEL IN SOLVING COLD-START PROBLEM

Zhu Kunguang1,2Yang Da1,3Cui Qiang1,2Hao Chunliang1,2

1(NationalEngineeringResearchCenterofFundamentalSoftware,InstituteofSoftware,ChineseAcademyofScience,Beijing100190,China)2(UniversityofChineseAcademyofScience,Beijing100190,China)3(StateKeyLaboratoryofComputerScience,InstituteofSoftware,ChineseAcademyofScience,Beijing100190,China)

AbstractCold-start problem is a critical challenge for recommendation system. Traditional recommendation systems employ transfer learning techniques for this problem, i.e. to use rating/tags information in one domain to predict users and items rating in another domain. The above transfer learning model usually assumes that there aren’t the overlapping users and items between two domains. However, in many cases a system can obtain the data of same users from different domains, which differs from the above assumption. In light of such data, this paper proposes a new cold-start model for recommendation system-crossSVD&GBDT, called CSGT. It solves the cold-start challenge of user by effectively leveraging the information of overlapping users. More specifically, the proposed method extracts features from both the users and the items, and then constructs a GBDT model for training under the above assumption. Experimental data show that in Douban dataset, crossSVD&GBDT can gain the experimental result with higher performance and stronger robustness than the traditional methods.

KeywordsRecommendation systemTransfer learningUser cold startCross recommendation

收稿日期：2014-12-23。國(guó)家高技術(shù)研究發(fā)展計(jì)劃項(xiàng)目(2012AA 011206)；中國(guó)科學(xué)院戰(zhàn)略性科技先導(dǎo)專(zhuān)項(xiàng)(XDA06010600，91318301，91218302，61432001)。朱坤廣，碩士，主研領(lǐng)域：推薦系統(tǒng)。楊達(dá)，副研究員。崔強(qiáng)，博士。郝春亮，博士。

中圖分類(lèi)號(hào)TP3

文獻(xiàn)標(biāo)識(shí)碼A

DOI:10.3969/j.issn.1000-386x.2016.05.017