顧軍華,官 磊,張 建,高 星,張素琪
(1.河北工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與軟件學(xué)院,天津 300401; 2.天津商業(yè)大學(xué) 信息工程學(xué)院,天津 300134)
基于Hadoop的IPTV隱式評(píng)分模型
顧軍華1*,官 磊1,張 建1,高 星1,張素琪2
(1.河北工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與軟件學(xué)院,天津 300401; 2.天津商業(yè)大學(xué) 信息工程學(xué)院,天津 300134)
根據(jù)網(wǎng)路協(xié)定電視(IPTV)用戶收視行為數(shù)據(jù)中的隱式特性,提出一種新型的隱式評(píng)分模型。首先,介紹了IPTV用戶收視行為數(shù)據(jù)的主要特點(diǎn),提出一種新的用戶收視比值、用戶興趣偏置因子以及視頻類型影響因子相結(jié)合的多特征混合隱式評(píng)分模型; 然后,提出基于收視時(shí)長(zhǎng)和收視比值的收視行為篩選策略; 最后,設(shè)計(jì)并實(shí)現(xiàn)了基于Hadoop的分布式模型架構(gòu)。實(shí)驗(yàn)結(jié)果表明,所提模型有效提高了IPTV系統(tǒng)中推薦結(jié)果的質(zhì)量,同時(shí)提升了時(shí)間效率,對(duì)于大規(guī)模數(shù)據(jù)有良好的可擴(kuò)展性。
隱式反饋;分布式模型;興趣模型;網(wǎng)路協(xié)定電視
隨著互聯(lián)網(wǎng)和廣播電視網(wǎng)絡(luò)的不斷發(fā)展,具有互動(dòng)點(diǎn)播功能的網(wǎng)絡(luò)協(xié)定電視(Internet Protocol Television, IPTV)逐漸走進(jìn)了人們的生活。IPTV將數(shù)字技術(shù)、計(jì)算機(jī)技術(shù)、互聯(lián)網(wǎng)技術(shù)與廣播電視技術(shù)有機(jī)地結(jié)合在一個(gè)平臺(tái)中[1],向用戶提供了數(shù)字廣播電視、交互式娛樂平臺(tái)、資訊平臺(tái)以及電子商務(wù)等多種網(wǎng)絡(luò)服務(wù),并通過(guò)電視機(jī)、電腦等顯示終端呈現(xiàn)給用戶。隨著海量節(jié)目的引入,用戶面臨的選擇越來(lái)越多,為IPTV用戶進(jìn)行個(gè)性化推薦服務(wù)就顯得尤為重要。
個(gè)性化推薦是依據(jù)用戶的興趣特征或歷史行為,主動(dòng)評(píng)估用戶對(duì)于系統(tǒng)中物品的感興趣程度,并給出用戶最為合理的推薦[2],所以推薦結(jié)果的質(zhì)量取決于建立的評(píng)分模型是否能夠準(zhǔn)確地反映用戶的興趣特征。
建立評(píng)分模型的主要方式有兩種:顯式與隱式。顯式評(píng)分模型需要用戶主動(dòng)提供關(guān)于自己興趣的信息如網(wǎng)絡(luò)評(píng)分、調(diào)查問(wèn)卷等,其優(yōu)點(diǎn)是可以確保反饋的準(zhǔn)確性,缺點(diǎn)是需要用戶主動(dòng)配合收集反饋信息,可能導(dǎo)致數(shù)據(jù)量不足、稀疏度高等問(wèn)題。而隱式評(píng)分模型與之相反,通過(guò)數(shù)據(jù)挖掘等手段,分析用戶的行為數(shù)據(jù),間接得到用戶的偏好信息,其優(yōu)點(diǎn)是可以降低成本、大量獲取用戶偏好信息,缺點(diǎn)是信息的準(zhǔn)確度降低、存在噪聲等問(wèn)題[3]。
在IPTV實(shí)際應(yīng)用中,受到電視平臺(tái)的操作性和傳統(tǒng)用戶收視習(xí)慣等條件的影響,用戶往往不愿意給出直接反饋的評(píng)分和喜好等信息,因此隱式評(píng)分更適用于基于IPTV的視頻推薦系統(tǒng)。而隱式評(píng)分模型的優(yōu)劣會(huì)直接影響推薦算法的推薦結(jié)果質(zhì)量。
Claypool等[4]首先提出將隱式反饋應(yīng)用于推薦系統(tǒng)中,并將之應(yīng)用于挖掘用戶對(duì)網(wǎng)頁(yè)的興趣偏好。文獻(xiàn)[5-6]將隱式反饋信息應(yīng)用于電影推薦系統(tǒng)中以解決冷啟動(dòng)問(wèn)題。Uluyagmur等[7]驗(yàn)證了使用收視時(shí)長(zhǎng)作為電影隱式評(píng)分的可行性。Gadanho等[8]提出了基于收視時(shí)長(zhǎng)的多種隱式評(píng)分策略。Oard等[9]和Kelly等[10]先后提出了隱式評(píng)分的數(shù)據(jù)來(lái)源:1)用戶行為類型,包括瀏覽、保存、評(píng)論等;2)用戶的行為范圍,包括只瀏覽部分內(nèi)容或者整個(gè)對(duì)象等。文獻(xiàn)[11-12]中提出了基于視頻收視比值的隱式反饋評(píng)分模型,并利用矩陣分解法構(gòu)建推薦系統(tǒng)。這成為了眾多隱式反饋推薦系統(tǒng)算法研究的重要基礎(chǔ)。在此基礎(chǔ)上,文獻(xiàn)[13]使用神經(jīng)網(wǎng)絡(luò)自動(dòng)回歸模型建立了基于收視比值的隱式反饋協(xié)同過(guò)濾推薦算法;文獻(xiàn)[14]使用用戶選擇信息構(gòu)建了偏好排序,印鑒等[15]在偏好排序基礎(chǔ)上,結(jié)合了MapReduce工具實(shí)現(xiàn)了大規(guī)模并行化的隱式反饋推薦系統(tǒng);紀(jì)淑娟等[16]利用播放、快進(jìn)、快退等動(dòng)作作為輸入,將神經(jīng)網(wǎng)絡(luò)方法應(yīng)用于自動(dòng)生成隱式評(píng)分。
以往基于IPTV的隱式反饋推薦系統(tǒng)的應(yīng)用研究中,多數(shù)只是簡(jiǎn)單地將收視行為作為正向輸入,忽視了隱式評(píng)分的眾多特征信息;而基于隱式反饋特征的挖掘研究中,也缺少針對(duì)IPTV視頻收視行為的深入研究。因此本文從實(shí)際數(shù)據(jù)出發(fā),分析和討論IPTV收視行為隱式反饋的主要特征信息,并建立一種新的隱式評(píng)分模型。同時(shí),海量IPTV用戶收視行為數(shù)據(jù)決定了隱式評(píng)分模型的建立和應(yīng)用必須借助大數(shù)據(jù)技術(shù),因此本文提出了基于Hadoop的分布式多特征隱式評(píng)分模型。
本次研究的數(shù)據(jù)集來(lái)源于某市IPTV用戶數(shù)字機(jī)頂盒,數(shù)據(jù)是1 300名用戶從2016年12月— 2017年3月所產(chǎn)生的10 737 220條用戶收視日志數(shù)據(jù)。本文從用戶收視日志數(shù)據(jù)中提取能夠顯著反映用戶偏好的信息,包括用戶的行為類型、節(jié)目時(shí)長(zhǎng)、節(jié)目類型、用戶行為時(shí)長(zhǎng)等構(gòu)成用戶行為數(shù)據(jù)集,具體內(nèi)容如表1所示。其中,行為類型包括瀏覽、點(diǎn)播、直播、收藏、回看、收藏;節(jié)目所屬一級(jí)類別包括電視劇、電影、新聞、體育等;節(jié)目所屬二級(jí)類別包括愛情、動(dòng)作、喜劇等。
本文通過(guò)構(gòu)建隱式評(píng)分模型,將用戶收視行為數(shù)據(jù)轉(zhuǎn)化為用戶隱式評(píng)分?jǐn)?shù)據(jù),用于提高IPTV推薦系統(tǒng)的推薦質(zhì)量。

表1 IPTV用戶收視行為數(shù)據(jù)Tab. 1 IPTV user viewing behavior data
基于IPTV的隱式評(píng)分通常會(huì)考慮用戶觀看某節(jié)目的時(shí)長(zhǎng)和節(jié)目本身時(shí)長(zhǎng)的比值[17]。在此基礎(chǔ)上,本文制定了基于用戶收視比值、用戶興趣偏置因子、視頻類型影響因子的多特征隱式評(píng)分模型,計(jì)算公式如式(1)所示:

γ×h(i)(category)]
(1)
其中:score為用戶對(duì)視頻的隱式評(píng)分,scale是用戶對(duì)該視頻的收視比值,interest是用戶興趣偏置因子,category是視頻類型影響因子,α、β和γ是權(quán)重,f、g和h分別是收視比值、用戶興趣偏置因子和視頻類型影響因子的作用函數(shù),f(i)表示第i次觀看同一節(jié)目,如劇集類子集的作用函數(shù),n為用戶對(duì)同一節(jié)目觀看的次數(shù)。2.2節(jié)中給出了三種特征的作用函數(shù)。
2.2.1 收視比值作用函數(shù)
收視比值即收視時(shí)長(zhǎng)與節(jié)目本身時(shí)長(zhǎng)的比值,一般來(lái)說(shuō),收視比值越大,說(shuō)明用戶對(duì)視頻的偏好程度也越大,隱式評(píng)分越高。為進(jìn)一步研究收視比值對(duì)隱式評(píng)分的影響,本文統(tǒng)計(jì)了所有用戶的收視比值及收視行為數(shù)量并繪制了收視比值的分布圖,如圖1所示。

圖1 收視比值分布Fig. 1 Ratings ratio distribution
由圖1可知,收視比值分布呈現(xiàn)兩邊高中間低的特點(diǎn),這說(shuō)明在收視比值較高或較低的部分用戶偏好比較明顯,此時(shí)收視比值對(duì)隱式評(píng)分的作用比較大,比值居中部分的用戶偏好較為模糊,因此使用余弦函數(shù)表示,結(jié)合以往的研究[11],最終制定收視比值作用函數(shù)公式如式(2)所示:
(2)
其中,scale是收視比值,作用函數(shù)如圖2所示。由圖2可知:在收視比值為0~20%時(shí),f(scale)不斷增加,此時(shí),隨著用戶收視比值的增加反映出的用戶興趣程度也隨之增加; 當(dāng)收視比值在30%~50%左右時(shí)f(scale)存在明顯的回落,此時(shí),用戶收視比值與用戶興趣程度成反比例關(guān)系,越接近50%說(shuō)明用戶的偏好越模糊,對(duì)隱式評(píng)分的影響越低; 在大于50%后f(scale)逐漸升高,此時(shí),隨著用戶收視比值的增加反映出的用戶興趣程度也隨之增加。

圖2 收視比值函數(shù)圖像Fig. 2 Viewing ratio function image
2.2.2 用戶興趣偏置因子作用函數(shù)
用戶興趣偏置因子是按照用戶收視比值均值將用戶對(duì)視頻的喜好程度劃分為兩部分,用戶觀看某一視頻的收視比值高于平均收視比值的視為用戶喜歡該視頻;用戶觀看某一視頻的收視比值低于平均收視比值的視為用戶不喜歡該視頻。
根據(jù)以上定義,計(jì)算用戶興趣偏置因子如式(3)所示:
(3)

以上所計(jì)算出的用戶興趣偏置因子需要進(jìn)行歸一化處理才能作為最終結(jié)果,假定maxri表示用戶i最大用戶興趣偏置因子,minri表示用戶最小用戶興趣偏置因子。即:
歸一化后的用戶興趣偏置因子作用函數(shù)如式(4)所示:
(4)

2.2.3 視頻類型影響因子作用函數(shù)
視頻類型影響因子主要用于衡量不同視頻類型對(duì)用戶偏好的影響。一般而言,每個(gè)用戶都有自己喜歡的視頻類型,如果視頻屬于用戶喜歡的類型,則增加其隱式評(píng)分的值,有助于更加清晰地表現(xiàn)用戶對(duì)視頻的喜好程度。因此,加入視頻類型影響因子作用函數(shù),有助于提高推薦準(zhǔn)確率。計(jì)算公式如式(5)所示:
h(category)=lij/Li
(5)
其中:lij為用戶i觀看的和視頻j同一類型視頻的總時(shí)長(zhǎng),Li為用戶i觀看的所有類型視頻的總時(shí)長(zhǎng)。
對(duì)于多特征值問(wèn)題,本文使用熵權(quán)法來(lái)確定每一個(gè)偏好特征的權(quán)值,通過(guò)統(tǒng)計(jì)的方法獲得權(quán)重。將用戶i的偏好特征表示成n×3階矩陣B=(bij)n×3,其中bij表示用戶i第j個(gè)特征值。熵權(quán)法計(jì)算過(guò)程如下:
1)標(biāo)準(zhǔn)化數(shù)據(jù)處理,如式(6)所示:
(6)
其中:sij表示用戶i第j個(gè)特征值的大小, max (bij)與min (bij)分別是第j項(xiàng)特征權(quán)值的最大值和最小值。
2)計(jì)算各種偏好特征的熵值,如式(7)所示:
(7)
當(dāng)fij=0時(shí),有fijlnfij=0。
3)計(jì)算權(quán)重,如式(8)所示:
(8)
通過(guò)以上方法便可計(jì)算出用戶偏好模型中的每一種偏好特征的權(quán)值。
考慮到用戶收視行為數(shù)據(jù)中包含噪聲數(shù)據(jù),需要對(duì)數(shù)據(jù)進(jìn)行篩選以提高評(píng)分模型的準(zhǔn)確性,從而保證推薦的質(zhì)量。現(xiàn)有基于IPTV的隱式反饋推薦系統(tǒng)的研究中,通常選取較小的收視比值作為閾值,用來(lái)篩選用戶收視行為數(shù)據(jù)。但是,對(duì)于較長(zhǎng)視頻,雖然收視比值較小,但觀看時(shí)長(zhǎng)較大,也能體現(xiàn)用戶對(duì)該視頻的偏好,所以單純通過(guò)收視比值進(jìn)行篩選過(guò)于理想化;而且從圖1中可以看出,有大量的數(shù)據(jù)分布在收視比值比較小的區(qū)間,單一使用用戶收視比值來(lái)篩選用戶行為是不合適的。本文提出基于收視時(shí)長(zhǎng)和收視比值的篩選策略,通過(guò)線性回歸模型分析用戶收視時(shí)長(zhǎng)的規(guī)律,設(shè)定合適的閾值,再結(jié)合收視比值制定數(shù)據(jù)篩選的依據(jù)。
首先分析收視時(shí)長(zhǎng)的整體分布情況,統(tǒng)計(jì)結(jié)果如圖3。

圖3 用戶收視時(shí)間圖Fig. 3 User viewing time vs. number of behaviors
由圖可以看出,收視時(shí)長(zhǎng)與行為的個(gè)數(shù)總體呈現(xiàn)反比例函數(shù)關(guān)系,收視時(shí)長(zhǎng)較大用戶行為較少,依據(jù)線性回歸模型,本文假設(shè):
y=a1/t+a2
(9)
其中:y代表了收視行為個(gè)數(shù),t代表收視行為時(shí)長(zhǎng),a1、a2是所求的參數(shù)。由式(1)的假設(shè)可得到損失函數(shù)方程:
(10)
其中:m是收視行為的總個(gè)數(shù),損失函數(shù)J(a)代表了假設(shè)的回歸線與實(shí)際值之間的離散程度,通過(guò)計(jì)算最小化損失函數(shù)min(J(a)),就能求出回歸方程的形式。本文采用了梯度下降算法求解回歸方程。
經(jīng)過(guò)計(jì)算,得到了收視時(shí)長(zhǎng)與收視行為次數(shù)的函數(shù)關(guān)系如下:
y=234 145.9/t-67.8
回歸函數(shù)圖像如圖4中曲線所示。

圖4 用戶收視行為分布與回歸函數(shù)Fig. 4 Distribution and regression function of viewing behavior
通過(guò)分析收視時(shí)長(zhǎng)的分布,在收視時(shí)長(zhǎng)較短的區(qū)間內(nèi)存在較明顯的奇異點(diǎn),為了確定奇異點(diǎn)的范圍,本文需要分析回歸函數(shù)的殘差平方和,如式(11)所示:
(11)
Q越小,代表了回歸函數(shù)擬合度越好,本文依次排除從0~x秒(x=1,2,…)開始的行為次數(shù)數(shù)據(jù),觀察Q值變化,進(jìn)而制定篩選的閾值。Q值變化如圖5,可以看到從15 s之后的Q值趨于穩(wěn)定,因此本文選擇15 s作為收視時(shí)長(zhǎng)篩選的閾值。

圖5 回歸函數(shù)殘差平方和變化圖Fig. 5 Residual sum of squares of regression function
結(jié)合收視百分比的篩選方法,本文制定出的篩選策略為將收視百分比小于10%同時(shí)收視時(shí)長(zhǎng)小于15 s的收視行為數(shù)據(jù)篩選掉。這樣的篩選策略充分考慮了用戶收視時(shí)長(zhǎng)較短的行為數(shù)據(jù)。
Hadoop是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序,充分利用集群的威力進(jìn)行高速運(yùn)算和存儲(chǔ)。本文采用基于Hadoop平臺(tái)的編程設(shè)計(jì),將大規(guī)模用戶收視行為的數(shù)據(jù)轉(zhuǎn)化為用戶隱式評(píng)分。
基于Hadoop的IPTV隱式評(píng)分模型框架如圖6所示。由圖可以看出,隱式評(píng)分模型的生成分為三個(gè)部分:第一部分,分別計(jì)算f(scale)、g(interest)、h(category)特征作用函數(shù);第二部分,通過(guò)熵權(quán)法計(jì)算出特征作用函數(shù)的權(quán)重值α、β和γ,得到隱式評(píng)分模型;第三部分,計(jì)算出用戶的隱式評(píng)分。

圖6 IPTV隱式評(píng)分模型框架Fig. 6 Framework of IPTV implicit scoring model
此部分計(jì)算了用戶觀看各個(gè)分類視頻的百分比的值,Map階段將數(shù)據(jù)切割,提取用戶ID、視頻時(shí)長(zhǎng)、觀看時(shí)長(zhǎng)等關(guān)鍵信息。Reduce階段根據(jù)式(5)計(jì)算用戶對(duì)視頻類型的用戶興趣偏置因子,同時(shí)還計(jì)算了用戶平均收視比值,為下一部分的計(jì)算作準(zhǔn)備。本模塊的輸出數(shù)據(jù)全部存儲(chǔ)在Hadoop的HDFS上,其他模塊訪問(wèn)HDFS可獲得本次輸出數(shù)據(jù)。
實(shí)現(xiàn)方法如下所示。
Mapper方法:
輸入:
輸出:
Mapper(){
使用轉(zhuǎn)義字符" "切割數(shù)據(jù)
計(jì)算該視頻觀看時(shí)間比
percent=behave_len/item_len
輸出
}
Reducer方法:
輸入:
輸出:
Reducer(){
PercentAll=0,n=0
for(allvalues){
統(tǒng)計(jì)用戶觀看視頻總時(shí)長(zhǎng)time
統(tǒng)計(jì)十四個(gè)視頻分類每一個(gè)的用戶觀看總時(shí)長(zhǎng)TypeTime
統(tǒng)計(jì)用戶觀看比值的和,PercentAll=PercentAll+percent
n++
}
計(jì)算用戶觀看各個(gè)大分類的收視比值
TypePercent=TypeTime/Time
計(jì)算平均收視比值
AvePercent=PercentAll/n
輸出
}

Mapper方法:
輸入:
輸出:
Mapper(){
使用轉(zhuǎn)義字符" "切割數(shù)據(jù)
計(jì)算該視頻觀看時(shí)間比
percent=behave_len/item_len
輸出
}
Reducer方法:
輸入:
輸出:
Reducer(){
讀取上一段代碼的輸出,獲得mininterst,maxinterest,Aveintrerst,Avepercent,n=0
for(allvalues){
}
Aveintrerst=suminterest/n
輸出
}
此部分計(jì)算出用戶隱式評(píng)分3個(gè)特征作用函數(shù)的值,通過(guò)式(2)計(jì)算得到scale的值。得到的最終結(jié)果儲(chǔ)存在HDFS中。計(jì)算方法如下所示。
Mapper方法:
輸入:
輸出:
Mapper(){
使用轉(zhuǎn)義字符" "切割數(shù)據(jù)
計(jì)算收視比值percent=用戶觀看時(shí)長(zhǎng)/視頻時(shí)長(zhǎng)
計(jì)算用戶收視比值
讀文件,獲取用戶對(duì)本類視頻的觀看比值category
輸出
}
Reducer方法:
輸入:
輸出:
Reducer(){
讀取上一段代碼的輸出,獲得AvePercent,n=0
for(allvalues){
同時(shí)求得mininterst,maxinterest,suminterest;
n++;
}
Aveintrerst=suminterest/n
輸出
}
本文基于Hadoop分布式實(shí)驗(yàn)環(huán)境,將提出的隱式評(píng)分模型應(yīng)用于基于用戶的協(xié)同過(guò)濾算法進(jìn)行IPTV平臺(tái)視頻推薦,通過(guò)均方誤差(Mean Squared Error, MSE)和準(zhǔn)確率(precision)對(duì)視頻推薦結(jié)果進(jìn)行評(píng)估,與其他隱式評(píng)分模型進(jìn)行對(duì)比,證明該模型有效提高了IPTV系統(tǒng)中推薦結(jié)果的質(zhì)量。
通過(guò)調(diào)整Hadoop平臺(tái)的分布式節(jié)點(diǎn)設(shè)置,證明該模型對(duì)于大規(guī)模數(shù)據(jù)具有良好的可擴(kuò)展性。
本次實(shí)驗(yàn)的硬件環(huán)境如下:節(jié)點(diǎn)數(shù)量5個(gè),節(jié)點(diǎn)CPU為2核心,核心頻率1.9 GHz,節(jié)點(diǎn)內(nèi)存為4 GB,Hadoop版本為2.4.1。
本次實(shí)驗(yàn)將隱式反饋評(píng)分結(jié)果按1∶9的比值分為驗(yàn)證集合和測(cè)試集合,測(cè)試集合作為基于用戶的協(xié)同過(guò)濾算法的輸入數(shù)據(jù),推薦結(jié)果與驗(yàn)證集合進(jìn)行對(duì)比。
本文選取均方誤差(MSE)和準(zhǔn)確率(precision)為衡量推薦結(jié)果的指標(biāo)。均方誤差是衡量“平均誤差”的一種較方便的方法,可以評(píng)價(jià)數(shù)據(jù)的變化程度,準(zhǔn)確率代表推薦的正確結(jié)果占推薦結(jié)果的比重,形式如式(12):
precision=nfp/(ntp+nfp)
(12)
其中:nfp表示推薦系統(tǒng)推薦但用戶沒有收看的視頻數(shù)量,ntp表示推薦系統(tǒng)推薦且用戶收看的視頻數(shù)量。
本文使用熵權(quán)法計(jì)算權(quán)重大小,按照第4章中設(shè)計(jì)的分布式隱式評(píng)分模型進(jìn)行計(jì)算,最終得到的結(jié)果為α=0.010 6,β=0.627 2,γ=0.362 2,形成的隱式評(píng)分模型,如式(13):

0.627 2·g(i)(interest)+0.362 2·h(i)(category)]
(13)
將該隱式評(píng)分模型應(yīng)用于基于Hadoop平臺(tái)的并行協(xié)同過(guò)濾算法,計(jì)算推薦結(jié)果的準(zhǔn)確率、均方誤差。為驗(yàn)證模型的有效性,將推薦結(jié)果與直接使用收視比值的隱式評(píng)分模型、基于收視時(shí)長(zhǎng)和收視比值的隱式評(píng)分模型[18]進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表2所示。

表2 推薦結(jié)果對(duì)比表Tab. 2 Comparison of recommended results
通過(guò)表2可以看出,本文提出的多特征混合隱式評(píng)分模型在推薦系統(tǒng)應(yīng)用中的準(zhǔn)確率明顯高于傳統(tǒng)的基于收視比值的評(píng)分模型以及基于收視時(shí)長(zhǎng)與收視比值的模型,且推薦結(jié)果的均方誤差更小。實(shí)驗(yàn)表明本文提出的多特征混合隱式評(píng)分模型有效提高了IPTV系統(tǒng)中推薦結(jié)果的質(zhì)量。
為了驗(yàn)證模型的并行化可擴(kuò)展性,本文采用加速比作為模型可擴(kuò)展性的評(píng)價(jià)指標(biāo)。加速比能夠評(píng)估在相同的數(shù)據(jù)規(guī)模下調(diào)整分布式計(jì)算節(jié)點(diǎn)數(shù)對(duì)模型運(yùn)行性能的變化情況,如式(14)所示:
Sp=Ti/Tp
(14)
其中:Sp代表加速比,Ti代表使用1個(gè)節(jié)點(diǎn)時(shí)的算法執(zhí)行時(shí)間,Tp代表使用p個(gè)計(jì)算節(jié)點(diǎn)時(shí)的算法并行執(zhí)行時(shí)間。加速比的值越大,模型可擴(kuò)展性越強(qiáng)。
本文依據(jù)5.1節(jié)所給出的實(shí)驗(yàn)環(huán)境,將計(jì)算節(jié)點(diǎn)從1增加到5,并分別比較了在500用戶規(guī)模、1 000用戶規(guī)模下的加速比。實(shí)驗(yàn)結(jié)果如圖7所示。從圖中可以看出,在不同數(shù)據(jù)量下,加速比隨著節(jié)點(diǎn)個(gè)數(shù)的增加而不斷增長(zhǎng),類似線性增長(zhǎng),同時(shí),隨著用戶量的增加,加速比也隨之增加。由此得知,基于Hadoop的分布式模型在處理大數(shù)據(jù)集時(shí)具有很好的加速比,分布式計(jì)算節(jié)點(diǎn)越多,效果越好, 所以基于Hadoop的分布式隱式評(píng)分模型具有很好的可擴(kuò)展性。

圖7 隱式評(píng)分模型加速比Fig. 7 Speedup of implicit scoring model
本文從實(shí)際應(yīng)用中的用戶行為數(shù)據(jù)出發(fā),分析IPTV用戶歷史行為數(shù)據(jù),提出了一種衡量用戶偏好的隱式反饋方法。通過(guò)這種方法,本文可以結(jié)合更多的隱式反饋以構(gòu)建用戶隱式評(píng)分模型; 同時(shí),這種方法將來(lái)可以應(yīng)用于更多隱式反饋分析的場(chǎng)景中。
References)
[1] 郝蕓霞,金耀星.國(guó)內(nèi)外三網(wǎng)融合發(fā)展現(xiàn)狀研究及分析[J].信息通信技術(shù), 2011, 5(3): 51-55.(HAO Y X, JIN Y X. Research and analysis of triple play at home and abroad[J]. Information and Communications Technologies, 2011, 5(3): 51-55.)
[2] 崔永利.基于隱語(yǔ)義模型的IPTV上下文感知推薦算法[D].上海:華東師范大學(xué),2013.(CUI Y L. Latent factor model based iptv context-aware recommendation algorithms[D]. Shanghai: East China Normal University, 2013.)
[3] JOACHIMS T, GRANKA L, PAN B, et al. Accurately interpreting click through data as implicit feedback[C]// Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2005:154-161.
[4] CLAYPOOL M, LE P, WASEDA M, et al. Implicit interest indicators[C]// Proceedings of the 6th International Conference on Intelligent User Interfaces. New York: ACM, 2001: 33-40.
[5] LEUNG W K, CHAN C F, CHUNG F L. An empirical study of a cross-level association rule mining approach to cold-start recommendations[J]. Knowledge-Based Systems, 2008, 21(7): 515-529.
[6] POPESCUL A, PENNOCK D M, LAWRENCE S. Probabilistic models for unified collaborative and content-based recommendation in sparse-data environments[C]// Proceedings of the 17th Conference on Uncertainty in Artificial Intelligence. San Francisco, CA: Morgan Kaufmann Publishers Inc, 2001: 437-444.
[7] ULUYAGMUR M, CATALTEPE Z, TAYFUR E. Content-based movie recommendation using different feature sets[EB/OL].[2016- 11- 20]. http://www.iaeng.org/publication/WCECS2012/WCECS2012_pp517-521.pdf.
[8] GADANHO S C, LHUILLIER N. Addressing uncertainty in implicit preferences[C]// Proceedings of the 2007 ACM Conference on Recommender Systems. New York: ACM, 2007: 97-104.
[9] OARD D W, KIM J. Modeling information content using observable behavior[EB/OL].[2016- 11- 20]. http://terpconnect.umd.edu/~oard/pdf/asis01.pdf.
[10] KELLY D, TEEVAN J. Implicit feedback for inferring user preference: a bibliography[J]. ACM SIGIR Forum, 2003, 37(2): 18-28.
[11] HU Y, KOREN Y, VOLINSKY C. Collaborative filtering for implicit feedback datasets[C]// Proceedings of the 8th IEEE International Conference on Data Mining. Piscataway, NJ: IEEE, 2008: 263-272.
[12] KOREN Y, BELL R, VOLINSKY C. Matrix factorization techniques for recommender systems[J]. Computer, 2009, 42(8): 30-37.
[13] ZHENG Y, LIU C, TANG B, et al. Neural autoregressive collaborative filtering for implicit feedback[C]// Proceedings of the 1st Workshop on Deep Learning for Recommender Systems. New York: ACM, 2016: 1-6.
[14] GUO W, WU S, WANG L, et al. Personalized ranking with pairwise factorization machines[J]. Neurocomputing, 2016, 214:191-200.
[15] 印鑒,王智圣,李琪, 等.基于大規(guī)模隱式反饋的個(gè)性化推薦[J].軟件學(xué)報(bào),2014,25(9):1953-1966. (YIN J, WANG Z S, LI Q, et al. Personalized recommendation based on large-scale implicit feedback [J]. Journal of Software, 2014, 25(9): 1953-1966.)
[16] 紀(jì)淑娟,王理,梁永全,等.基于神經(jīng)網(wǎng)絡(luò)的用戶視頻評(píng)分自動(dòng)獲取方法[J].計(jì)算機(jī)科學(xué),2015,42(11):96-100.(JI S J, WANG L, LIANG Y Q, et al. Neural-network-based method for automatic acquisiton of user’s video rating[J]. Computer Science, 2015,42(11): 96-100.)
[17] KIM E, PYO S, PARK E, et al. An automatic recommendation scheme of TV program contents for IPTV personalization[J]. IEEE Transactions on Broadcasting, 2011, 57(3): 674-684.
[18] YUE J, GU J, ZHANG S. Spark-based distributed multi-features hybrid IPTV viewing implicit feedback scoring model[C]// Proceedings of the 2016 International Conference on Behavior Engineering. Macau: ISI, 2016: 97-104.
This work is partially supported by the Natural Science Foundation of Tianjin (15JCQNJC00600, 14JCYBJC15900).
GUJunhua, born in 1966, Ph. D., professor. His research interests include data mining, intelligent information processing, information acquisition and integration, intelligent computing and optimization, software engineering.
GUANLei, born in 1992, M. S. candidate. His research interests include intelligent information processing.
ZAHNGJian, born in 1993, M. S. candidate. His research interests include data mining.
GAOXing, born in 1992, M. S. candidate. Her research interests include business intelligence, soft computing.
ZHANGSuqi, born in 1980, Ph. D., lecturer. Her research interests include data mining.
IPTVimplicitscoringmodelbasedonHadoop
GU Junhua1*, GUAN Lei1, ZHANG Jian1, GAO Xing1, ZHANG Suqi2
(1.SchoolofComputerScienceandSoftware,HebeiUniversityofTechnology,Tianjin300401,China;2.SchoolofInformationEngineering,TianjinUniversityofCommerce,Tianjin300134,China)
According to the implicit characteristics of IPTV (Internet Protocol Television) user viewing behavior data, a novel implicit rating model was proposed. Firstly, the main features of IPTV user viewing behavior data were introduced, and a new mixed feature implicit scoring model was proposed, which combined with viewing ratio, user interest bias factor and video type influence factor. Secondly, the strategy of viewing behavior based on viewing time and viewing ratio was proposed. Finally, a distributed model architecture based on Hadoop was designed and implemented. The experimental results show that the proposed novel model effectively improves the quality of the recommended results in the IPTV system, improves the time efficiency, and has good scalability for large amounts of data.
implicit feedback; distributed model; interest model; Internet Protocol Television (IPTV)
2017- 05- 16;
2017- 07- 05。
天津市自然科學(xué)基金資助項(xiàng)目(15JCQNJC00600, 14JCYBJC15900)。
顧軍華(1966—),男,河北趙縣人,教授,博士,CCF會(huì)員,主要研究方向:數(shù)據(jù)挖掘、智能信息處理、信息采集與集成、智能計(jì)算與優(yōu)化、軟件工程; 官磊(1992—),男,河南信陽(yáng)人,碩士研究生,主要研究方向:智能信息處理; 張建(1993—),男,河北涿州人,碩士研究生,主要研究方向:數(shù)據(jù)挖掘; 高星(1992—),女,河北趙縣人,碩士研究生,主要研究方向:商務(wù)智能、軟計(jì)算; 張素琪(1980—),女,河北隆堯人,講師, 博士,CCF會(huì)員,主要研究方向:數(shù)據(jù)挖掘。
1001- 9081(2017)11- 3188- 06
10.11772/j.issn.1001- 9081.2017.11.3188
(*通信作者電子郵箱jhgu@hebut.edu.cn)
TP393.08
A