999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向評價數據中用戶偏好發現的證據理論方法*

2017-02-20 10:48:14郭心宇張彬彬
計算機與生活 2017年2期
關鍵詞:詞匯用戶評價

郭心宇,岳 昆+,李 勁,武 浩,張彬彬

1.云南大學 信息學院,昆明 650504

2.云南大學 軟件學院,昆明 650504

面向評價數據中用戶偏好發現的證據理論方法*

郭心宇1,岳 昆1+,李 勁2,武 浩1,張彬彬1

1.云南大學 信息學院,昆明 650504

2.云南大學 軟件學院,昆明 650504

海量評價數據;用戶偏好;D-S證據理論;證據融合;MapReduce

1 引言

隨著Web2.0技術的普及與發展,越來越多的用戶通過各種Web平臺(例如電子商務網站、評論網站和微博等)瀏覽、發布和轉發消息。淘寶和亞馬遜等電子商務應用中用戶對商品的評價,信息服務應用中用戶對旅游和金融等服務的評價,都是典型的例子。2011年美國Cone公司的調查指出,64%的用戶會通過閱讀商品的相關評論來了解商品信息,87%的用戶閱讀了肯定的評論后做出購買的決定,而80%的用戶閱讀了否定的評論后放棄購買的意向[1]。這些評價數據通常包括用戶ID、文本形式的評論內容(review),以及數值(例如分數)或非數值(例如星級)形式的評分(score)等,富含了用戶的興趣、觀點和偏好等行為信息。對用戶產生的海量評價數據進行分析和挖掘,可發現用戶的偏好和興趣,以及社會個體或群體的行為和心理傾向,識別行為的目標和意圖,進而更好地分析用戶行為的產生機制,并對用戶行為進行預測,為電子商務、社交網絡、網絡輿情監控和信息服務等各類典型的Web應用提供理論基礎和支撐技術[2-3]。從評價數據對用戶偏好的影響看,其中文本形式的評論內容,以及數值或非數值形式的評分都體現了用戶的偏好;同時,作為對于商品選擇傾向性的刻畫,用戶偏好也決定了用戶對商品給出的評論及評分。因此,本文同時考慮用戶評價中評論數據和評分數據中所蘊含的用戶偏好,旨在得到綜合全面的用戶偏好信息。

多年來,國內外研究人員基于不同的理論框架或從不同的角度,提出了許多用戶偏好的提取或建模方法。這些方法為用戶偏好發現的研究提供了許多可供借鑒的思路,但仍存在一些不足之處。例如,Hong等人[3]提出一種基于Agent和決策規則的上下文感知的偏好計算,并提供相應的個性化服務或商品的方法,但規則的確定具有一定的主觀性;Skillen等人[4]提出基于本體的偏好建模方法,但本體的設計很大程度上依賴于人的經驗;Yao等人[5]提出基于關聯規則的方法,但需要根據用戶反饋信息來更新用戶偏好,且計算復雜度較高;Zhang等人[6]討論了社交媒體對用戶購買行為的影響,基于樸素貝葉斯和支持向量機等算法,從社交媒體學習分類器來預測用戶可能購買的商品,但不能細致地描述用戶行為影響因素之間的依賴關系,且通用性較差;Tang等人[7]提出基于神經網絡的用戶偏好發現方法,但存在局部極小點,且對學習、結構和類型的選擇過分依賴于經驗;Harvey等人[8]針對協同過濾中的評分預測問題,用隱變量刻畫用戶興趣和商品主題,基于圖模型和概率推理技術來預測用戶對商品的評分。

一方面,將考慮用戶評價數據中評論和評分對用戶偏好的綜合影響,而如何有效地綜合考慮多個影響因素,是近年來影響用戶偏好因素多元化背景下保證用戶偏好準確性的前提。目前的方法首先給定各因素的權重,進而以各因素及其權重的加權平均作為度量標準[9]。然而人們預先給定的權重帶有一定的主觀性,未必能客觀地反映實際情況,也忽略了各因素之間的相互聯系,當權重未知的情況下難以度量最終的用戶偏好。

另一方面,用戶的評論數據中不同詞匯對其偏好的影響,用戶評論和評分數據對其偏好的綜合影響,面向單個商品的偏好對面向商品類別的偏好的影響,都具有不確定性,并且詞匯、評論和評分等不同影響因素可能來自不同的觀測空間,其不確定性也從某種意義上反映了它對用戶偏好影響的權重[10]。針對實際中不同的需求,可能需要得到不同層面的用戶偏好,例如,有時可能只需要得到用戶對某類商品的偏好就可滿足應用的需求。因此,本文考慮各層面因素的不確定性和它們之間的相互聯系,也考慮這些因素對用戶偏好影響的不確定性,研究支持以上3個層面用戶偏好發現的方法。

從用戶評價數據本身的特點看,以電子商務應用為例,根據Alexa統計及數據計算,淘寶網的日均訪問量達到了3.53億,除了用戶的日志記錄,也包含了用戶對商品的海量評價數據,即用戶的評價數據具有海量和非結構化的特征[2,11]。因此,本文利用現有的數據密集型計算技術對海量的評價數據進行分析計算。

具體而言,本文的主要研究工作概括如下:

(1)由Dempster提出,Shafer進一步發展起來的D-S證據理論[12-14],利用證據組合來計算不確定性,通過不確定性推理從不精確和不完整信息中得到可能性最大的結論,被廣泛用于信息融合、專家系統、情報與法律案件分析和多屬性決策分析等領域[15-16]。根據前述用戶偏好的影響因素的特點,用戶給出正面評論時未必就不會給出負面評論,因此本文基于D-S證據理論的基本思想,無需假設各影響因素不確定性的完備性,以評論中的各詞匯作為用戶評論對商品偏好的“證據”,以評論和評分作為用戶對商品偏好的“證據”,以用戶對一個類別中各商品的偏好作為對商品類別偏好的“證據”,討論用戶在以上3個層面的用戶偏好發現的關鍵技術。本文以第一個層面的偏好發現問題為代表,定義了相應的概率賦值函數和證據組合規則,得到不同證據對最終用戶偏好的聯合影響。

(2)Hadoop平臺下的MapReduce是支持數據密集型計算的并行編程模型[17],被廣泛用于云計算、數據挖掘等眾多領域[2,18]。因此,為了高效地從海量評價數據中發現用戶偏好,本文基于MapReduce編程模型對用戶評價數據進行分析處理,提出了實現從用戶評價信息發現用戶偏好的兩趟MapReduce算法。第一趟算法得到一條評論數據中各詞匯的統計結果,第二趟算法得到用戶對各商品的偏好。

(3)采用MovieLens[19]的用戶評價信息作為測試數據集,對本文所提出方法的正確性、加速比和并行效率進行了測試,實驗結果驗證了本文方法的有效性。

本文組織結構如下:第2章給出用戶偏好的表示;第3章給出基于D-S證據理論從海量評價數據中發現用戶偏好的方法;第4章給出實驗結果;第5章總結全文并展望將來的工作。

2 用戶偏好表示

2.1 用戶偏好定義

假設用戶對一個商品只有1條評價,表1中的示例給出了兩個用戶對4個類別中8個商品的評價信息。其中,“評論”是從用戶評論文本中所抽取的詞匯的集合。不難看出:

(1)由用戶1的評論“舒適,掉色”可知,用戶評論中的各詞匯可能反映的是相反的偏好,需要綜合考慮各詞匯對偏好的影響。

(2)綜合考慮用戶1的評論和評分可知,在服裝類商品中,用戶1更傾向于“長裙”;但用戶1比用戶2更傾向于服裝類商品,還是用戶2比用戶1更傾向于服裝類商品,需要綜合考慮這兩個用戶對服裝類中各商品的偏好。

Table 1 Ratings of users on products表1 用戶對商品的評價信息

根據以上觀察,下面給出用戶偏好的定義。

定義1(用戶偏好)若u表示一個用戶,給定商品集合P={p1,p2,…,pn}和商品類別集合C=(c1,c2,…,cm)(其中,n和m分別為商品數和商品類別數,m〈n),任意商品pi(1≤i≤n)只屬于類別cj(1≤j≤m)而不屬于C中其他類別。用戶u對商品的偏好定義為一個n維向量D=(d1,d2,…,dn),其中di(0≤di≤1)表示用戶u對商品pi的喜好程度;用戶u對商品類別的偏好定義為一個m維向量,其中(0≤≤1,1≤j≤m)表示用戶u對商品類別cj的喜好程度。

2.2 基于邊際效用的用戶偏好表示

利用信息檢索領域已有的關鍵詞抽取方法[20],可以從用戶的評論文本中抽取表征用戶喜好或態度的標識性詞匯,作為衡量評論數據對用戶偏好影響的依據,例如表1中的“舒適”和“漂亮”等正面詞匯,以及“不好”和“難看”等負面詞匯。關鍵詞的抽取不是本文研究的重點,在此不做贅述。

直觀地,在用戶對一個商品的評論中,正面詞匯出現頻度越高,負面詞匯出現頻度越低,說明用戶對該商品的喜好程度越高。根據社會學及經濟學領域的結論[21],可以基于效用(utility)來描述用戶通過消費行為使其欲望得到滿足的程度;而邊際效用(marginal utility)是指在一定時間內用戶增加商品或服務所帶來的新增效用,與消費的商品數量成反比,而與消費的欲望成正比。對于一個用戶而言,把用戶評論中的正面詞匯與消費的欲望進行類比,正面詞匯越多,對該商品的購買欲望越強(即喜好程度越高);用邊際效用刻畫評論數據對用戶偏好的貢獻。根據上述思想,下面定義用戶評論中正面詞匯/負面詞匯對用戶偏好的影響。

定義2(邊際效用函數)設r表示用戶的一條評價,r中評論數據所包含的詞匯集合為W,用T和F分別表示W中正面詞匯和負面詞匯的集合,W=T∪F。正面詞匯和負面詞匯對于r的邊際效用函數分別定義為fT(T)和fF(F),0≤fT(T),fF(F)≤1。

根據前述邊際效用的基本思想以及消費欲望與正面詞匯的類比關系,針對一條評價信息,定義2中邊際效用函數應該滿足如下性質:

(1)fT(T)的值隨著評論中正面詞匯數量的增加而增加,但增加的趨勢逐漸變緩;

(2)fF(F)的值隨著評論中負面詞匯數量的增加而減小,但減小的趨勢逐漸變緩;

(3)若評論中既有正面詞匯,又有負面詞匯,最終的效用函數值應為fT(T)和fF(F)的折衷,且小于fT(T)和fF(F)中的較大者。

結合邊際效用的“遞減”性和以上性質(1)~(3),下面基于指數函數來刻畫邊際效用函數值隨著評論中詞匯數量增加的變化趨勢:

其中,|T|和|F|分別表示正面詞匯和負面詞匯數量,0≤fT(T),fF(F)≤1。

基于此,可以得到fT(T)和fF(F),即用戶的一條評論中正面詞匯和負面詞匯對用戶偏好的貢獻。那么,如何進一步得到這條評論對用戶偏好的聯合貢獻(問題1)?如何將一條用戶評價中的評論與評分對其偏好的貢獻綜合起來考慮,得到這條評價信息對用戶偏好的綜合貢獻(問題2)?如何將用戶的多條評價對偏好的綜合貢獻綜合起來考慮,得到該用戶對各商品的偏好(問題3)?

(1)針對問題1,給出聯合算子⊕d,并在第3章給出基于D-S證據理論的計算方法。針對一條用戶評價r,以fT(T)和fF(F)作為r中評論數據對用戶偏好貢獻的“證據”,使用如下公式計算評論數據對用戶偏好的聯合貢獻(記為f(W)):

(2)針對問題2,用戶對商品的評分實際上已經給出了一個量化的偏好值,因此首先將評價r中的評分信息進行歸一化處理。若所有用戶評價中評分的最大值為S,則評分sr對用戶偏好的貢獻為sr/S(0≤sr/S≤1)。進而,可利用聯合算子⊕d計算f(W)⊕dsr/S,從而得到評價r中所蘊含的用戶偏好,記為pre(r) (0≤pre(r)≤1)。

(3)針對問題3,仍使用聯合算子⊕d,將用戶各條評價中所蘊含的偏好綜合考慮,得到定義1中描述的偏好向量D。進一步,以用戶評價中所涉及商品的偏好為“證據”,使用聯合算子⊕d將一類商品的各個偏好進行綜合考慮,得到用戶對商品類別的偏好。

因此,如何從給定的用戶評價數據計算聯合算子⊕d,是解決以上3個問題,得到3個層面的用戶偏好的基本任務,也是從評價數據發現用戶偏好的關鍵和本文研究的重點。

3 數據密集型的用戶偏好發現

如前所述,基于D-S證據理論,通過證據融合規則計算用戶偏好。下面以第2章中陳述的問題1為代表,分別討論聯合算子的定義及相應的計算方法。

3.1 基于D-S證據理論的聯合算子

下面基于D-S證據理論[11]給出辨識框架和基本概率分配函數(簡稱mass函數)的定義。

定義3(辨識框架)將一條用戶評價r的評論數據中正面詞匯(T)和負面詞匯(F)構成的集合定義為辨識框架,記為Θ={T,F},Θ的冪集2θ={{?},{T},{F}, {T,F}}對應于Θ的所有可能評論對用戶偏好的影響。

定義4(mass函數)函數m:2Θ→[0,1]稱為Θ上的mass函數,函數m1和m2分別為T和F對用戶偏好影響的mass函數,且滿足:

根據D-S證據理論,m稱為m1和m2的正交和,也稱為證據融合,記為m=m1(T)⊕m2(F),其中⊕為融合算子。進而,基于m討論式(2)中的聯合算子⊕d。事實上,用戶對商品給出正面評論的同時也會給出負面評論,給出正面評論,未必就不會給出負面評論。因此,針對正面評論T,用m1(Θ)表示該評論中除了T之外的可能評論的mass函數,且

同理,僅針對負面評論F,用m2(Θ)表示該評論中除了F之外的可能評論的mass函數,且

D-S證據理論中,Dempster證據組合規則[12-14]組合兩個mass函數,以產生一個新的mass函數,表示初始可能沖突的證據間的一致意見,通過僅僅對交集的mass函數值求和匯集一致意見,集合的交集表達了公共證據元素。根據Dempster證據組合規則的基本思想,基于式(3)~(5),得到:

進而,基于證據融合后的mass函數,⊕d可定義為包含T或F的mass函數值之和,即:

下面通過一個簡單的例子說明基于D-S證據理論的聯合算子的基本思想。對于表1中用戶2對“面包”的評論,T={味香},F={油膩,價高},根據式(1)、(3)、(4)和(5),可以得到m1(T)=0.6,m1(Θ)=1-m1(T)= 0.4,m2(F)=0.1,m2(Θ)=1-m2(F)=0.9。

基于式(6),以T和F作為該評論對用戶偏好影響的證據,組合結果如表2所示。

Table 2 Evidence combination ofTandF表2 T和F證據組合

基于式(7),可以得到:

基于式(8),式(2)的具體計算如下:

也就是說,用戶2的偏好向量中,商品“面包”維度的偏好值為0.61。

3.2 基于MapReduce的用戶偏好發現算法

針對海量的用戶評價信息,基于3.1節中給出的方法計算用戶評論數據對其偏好的聯合影響,本文設計了兩趟執行的MapReduce算法。第一趟算法(算法1)針對每一條評論數據,通過Map函數得到這條評論中正面詞匯及負面詞匯出現的次數,通過Reduce函數對這條評論中正面詞匯及負面詞匯的出現次數進行求和;第二趟算法(算法2)針對用戶對各商品的評論數據,通過Map函數得到用戶對一個商品(針對一條評論)的偏好,通過Reduce函數得到該用戶對所有商品的偏好向量。

算法1 Count_|T|_|F|

對于每條評論,將算法1的執行結果以〈key,value〉的形式存儲到中間結果文件W中,即用|T|和|F|來表示用戶的一條評論,以之作為用戶偏好計算的基礎。不難看出,算法1的執行代價主要取決于遍歷評論信息,并與已知標示性詞語集合匹配,若標示性詞語集合中有n個詞語,則算法1在最壞情況下時間復雜度為O(n2)。根據算法1,可以得到每一條用戶評論中關鍵詞的數量,方便對評論進行量化處理。下面給出從每一條評論發現其中所蘊含用戶偏好的算法,體現3.1節中的各個計算步驟。

算法2 Compute_Preference

不難看出,算法2的執行代價主要取決于遍歷每一條用戶評價信息的統計結果,利用算法1的統計結果,由算法2將用戶的評分和評論進行量化處理,從而得到最終的用戶偏好。若有n條評價信息,算法2的時間復雜度為O(n)。本文采用MapReduce算法通過并行計算的方式保證了算法較高的執行效率。

4 實驗結果

4.1 實驗設置

本文使用MovieLens[19]上用戶的真實評價數據作為測試數據集,包括229 060位用戶對27 303部電影的21 063 128條記錄。每個用戶至少為20部電影評分,平均每1 GB數據包含37 886 000條用戶記錄。數據集格式為UserId::MovieId::Rating::Tags,依次為用戶Id、電影Id、用戶評分和用戶對這部電影的評論標簽。實驗環境如下:運行Linux CentOs7系統和Hadoop-2.5.1平臺的6臺機器,Inter Core i3 3240處理器、3.4 GHz主頻和2 GB內存,每臺機器作為一個DataNode。為了測試本文方法的可行性,測試了從評論數據發現用戶偏好方法的有效性、執行時間、加速比和并行效率。

4.2 有效性測試

為了測試本文從用戶評價數據發現其偏好的方法的有效性,首先假設用戶評價中的評分數據反映了其真實的偏好,并以之作為衡量從評論數據發現用戶偏好的正確性標準。直觀地,若評分的最大值為5,則評分為4和5即為高分,相應地,評論中的正面詞匯數量應不少于負面詞匯數量。對此,針對評分為4或5的評價,通過多次實驗確定偏好閾值為0.63,可保證評分與評論具有上述的對應關系。對于各條評分為4或5的用戶評價,若基于本文方法從評論數據計算得到的用戶偏好值不低于該閾值,則說明基于本文方法得到的用戶偏好是正確的。從測試數據中隨機選擇10條評價,考慮從評論數據計算得到的用戶偏好與評分之間是否一致,如表3所示。不難看出,值為4或5的高評分所對應的用戶偏好大于0.63的占70%,即正確率為70%,這與人們的直觀理解基本相符,從一定程度上說明了本文方法的正確性。

Table 3 Comparisons between scores and user preference derived from reviews表3 評分與從評論得到的用戶偏好對比

進一步,對評分進行歸一化處理,對評論按照第3章給出的方法,分別得到從評分和評論數據中發現的用戶偏好(分別記為ds和dr),基于2.2節的基本思路,將評分和評論看作最終用戶偏好的證據,無需評分與評論的權重,得到綜合考慮評分和評論的最終結果(記為d)。隨機選擇10條評價數據,將d與基于ds和dr算術平均(記為da)的結果進行比較,如表4所示。通過前3條評價數據的結果對比可以看出,當ds不變時,d隨著dr的增加而增加,當dr不變時,d隨著ds的增加而增加,這一趨勢符合實際情況。對于第10條缺失評論的評價數據,基于本文方法得到的用戶偏好即為ds,基于算術平均方法得到的結果與實際不符。對這10條評價對應的d與da排序,除了第3條和第8條外,d與da趨勢一致,說明基于本文方法得到的用戶偏好可有效用于商品投放和用戶定向等基于用戶偏好的實際應用中。因此,基于本文方法,可在各影響因素權重未知的情況下考慮它們之間的內在聯系而得出符合實際情況的偏好排序,能以更符合人們直觀理解的方式,更合理地反映用戶對于商品的喜好程度。

Table 4 Comparisons between user preference by this paper method and that by arithmetic mean表4 基于本文方法與算術平均方法結果對比

接下來,再從另一個角度來說明本文方法的有效性。隨機選取3名用戶(記為A、B和C),同時隨機選取20部他們都評價過的電影作為測試數據,其中10部電影的評價信息作為訓練數據,剩下10部電影的評價信息作為對比數據。表5給出了3名用戶對10部電影的評分數據。

對比基于協同過濾算法[8]和基于本文方法得到的用戶偏好,以測試本文方法的有效性。實驗選定用戶B為目標用戶。首先假設用戶A和C只對ID為1~10的電影進行了評價,而用戶B對全部電影進行了評價;然后基于余弦相似度找出與用戶B相似的用戶集;將ID為11~20的電影按照B的喜好推薦給A或C。對比以上兩個結果,若用戶評分不小于4,則表示用戶喜歡此電影;基于余弦相似度可得到用戶A和用戶B相似度最高。表6給出了他們對后10部電影的評價信息。用戶A的評分數據通過協同過濾方法預測得到,通過與基于本文方法從評論中獲取的用戶偏好進行比較,可以看出,除了ID為13、15和19的電影,通過基于協同過濾方法預測得到的電影評分與使用本文方法從評論中得到用戶偏好結果基本一致,進而可得到用戶對電影的傾向性選擇,這在一定程度上說明了本文方法的正確性。

Table 5 Ratings of users on movies表5 用戶對電影的評分信息

Table 6 Comparions between userAand user B evaluation information表6 用戶A和用戶B評價信息對比

4.3 效率測試

為了測試本文方法的執行效率,選取了規模為2.5 GB、5 GB、10 GB、15 GB和20 GB的5組MovieLens數據,分別測試了不同DataNode數量情況下的執行時間、加速比和并行效率。其中執行時間包括對測試數據集中所有評價執行算法1的時間以及執行算法2的時間,每個測試結果取3次執行時間的平均值。

圖1給出了隨著評價數據規模增加,不同Data-Node數量時的執行時間??梢钥闯?,隨著評價數據規模增加,DataNode數量越多,執行時間增加越慢;當評價數據規模達到20 GB時,本文方法在當前實驗環境下仍能高效地得到用戶偏好。圖2給出了隨著DataNode數量增加,不同評價數據規模時的執行時間。可以看出,隨著DataNode增加,執行時間減少,且數據量越大這一趨勢越顯著,說明本文方法對于海量評價數據分析具有較好的可擴展性。

Fig.1 Execution time with the increase of rating data size圖1 隨著評價數據規模增加的執行時間

Fig.2 Execution time with the increase of DataNodes圖2 隨著DataNode增加的執行時間

并行算法的加速比是單節點情形下執行時間與多節點情形下執行時間的比值。圖3給出了隨著評價數據規模增加,不同DataNode數量時的加速比。圖4給出了隨著DataNode數量增加,不同評價數據規模時的加速比。可以看出,隨著評價數據量增加,Data-Node數量越多,加速比增加越快。

Fig.3 Speedup with the increase of rating data size圖3 隨著評價數據規模增加的加速比

Fig.4 Speedup with the increase of DataNodes圖4 隨著DataNode增加的加速比

并行算法的并行效率是加速比與節點數的比值。圖5給出了隨著評價數據規模增加,不同DataNode數量時的并行效率。可以看出,隨著評價數據規模增加,不同DataNode數量時并行效率都逐漸增加,但DataNode越多,并行效率越低。圖6給出了隨著DataNode數量增加,不同評價數據規模時的并行效率??梢钥闯?,隨著DataNode數量增加,不同評價數據規模時的并行效率都逐漸下降,同一Data-Node數量時數據量越大,并行效率越高,說明了本文方法對于海量評價數據規模具有較好的可擴展性。

Fig.5 Parallel efficiency with the increase of rating data size圖5 隨著評價數據規模增加的并行效率

Fig.6 Parallel efficiency with the increase of DataNodes圖6 隨著DataNode增加的并行效率

5 總結與展望

本文基于D-S證據理論和MapReduce編程模型,提出了從海量的用戶評價數據中發現用戶偏好的方法。本文提出的方法和思路:利用影響用戶偏好的各因素的不確定性和它們之間的相互關系,可得到基于用戶評論中正面詞匯和負面詞匯、基于用戶評論和評分、面向商品類別的3個層次的用戶偏好。本文方法可準確、快速地發現用戶偏好,可支持實際中商品推薦和用戶定向等應用。然而,作為一種初步的嘗試,本文從評論數據中抽取正面詞匯和負面詞匯時,未考慮評論中詞匯的語義,具有一定的主觀性;針對每個商品計算用戶的偏好,而實際中商品的數量較多,需要引入降維技術來提高計算的效率,也更符合實際情形,這些是將要開展的工作。

References:

[1]Lin Yuming,Zhu Tao,Wang Xiaoling,et al.Assembling and optimizing multiple classifiers for user opinion analysis[J]. Chinese Journal of Computers,2013,36(8):1650-1658.

[2]Wang Yuanzhuo,Jin Xiaolong,Cheng Xueqi.Network big data:present and future[J].Chinese Journal of Computers, 2013,36(6):1125-1138.

[3]Hong Jongyi,Suh E,Kim J,et al.Context-aware system for proactive personalized service based on context history[J]. Expert Systems withApplications,2009,36(4):7448-7457.

[4]Skillen K L,Chen Liming,Nugent C,et al.Ontological user profile modeling for context-aware application personalization[C]//LNCS 7656:Proceedings of the 6th International Conference on Ubiquitous Computing and Ambient Intelligence,Vitoria-Gasteiz,Spain,Dec 3-5,2012.Berlin,Heidelberg:Springer,2012:261-268.

[5]Yao Xiuli,Shu Huaying.Study on value-added service in mobile telecom based on association rules[C]//Proceedings of the 2009 10th ACIS International Conference on Software Engineering,Artificial Intelligences,Networking and Parallel/Distributed Computing,Daegu,Korea,May 27-29, 2009.Washington:IEEE Computer Society,2009:116-119.

[6]Zhang Yongzheng,Pennacchiotti M.Predicting purchase behaviors from social media[C]//Proceedings of the 22nd International Conference on World Wide Web,Rio,Brazil,May 13-17,2013.New York:ACM,2013:1521-1532.

[7]Tang Duyu,Qin Bing,Liu Ting,et al.User modeling with neural network for review rating prediction[C]//Proceedings of the 24th International Conference on Artificial Intelligence,Buenos Aires,Argentina,Jul 25-31,2015.Palo Alto, USA:AAAI Press,2015:1340-1346.

[8]Harvey M,Carman M J,Ruthven I,et al.Bayesian latent variable models for collaborative item rating prediction[C]// Proceedings of the 20th ACM Conference on Information and Knowledge Management,Glasgow,UK,Oct 24-28, 2011.New York:ACM,2011:699-708.

[9]Ma You,Wang Shangguang,Sun Qibo,et al.Web services QoS measure based on subjective and objective weight[C]// Proceedings of the 2013 IEEE International Conference on Services Computing,Santa Clara,USA,Jun 28-Jul 3,2013. Piscataway,USA:IEEE,2013:543-550.

[10]Yue Kun,Liu Weiyi,Wang Xiaoling,et al.An approach for measuring quality of Web services based on the superposition of uncertain factors[J].Journal of Computer Research and Development,2009,46(5):841-849.

[11]Shmueli-Scheuer M,Roitman H,Carmel D,et al.Extracting user profiles from large scale data[C]//Proceedings of the 2010 Workshop on Massive DataAnalytics on the Cloud,Raleigh,USA,Apr 26,2010.New York:ACM,2010:4.

[12]Dempster A.Upper and lower probabilities induced by a multivalued mapping[J].Annals of Mathematical Statistics, 1967,38(2):325-339.

[13]Shafer G.Mathematical theory of evidence[M].Princeton, USA:Princeton University Press,1976.

[14]Pearl J.Probabilistic reasoning in intelligent systems:networks of plausible inference[M].San Mateo,USA:Morgan Kaufmann Publishers,Inc,1988.

[15]Yang Jianping,Huang Hongzhong,Miao Qiang,et al.A novel information fusion method based on Dempster-Shafer evidence theory for conflict resolution[J].Intelligent Data Analysis,2011,15(3):399-411.

[16]Qiu Peiyuan,Lu Feng,Zhang Hengcai.Extracting traffic information from Web texts with a D-S evidence theory based approach[C]//Proceedings of the 21st International Conference on Geoinformatics,Kaifeng,China,Jun 20-22,2013. Piscataway,USA:IEEE,2013:1-5.

[17]Dean J,Ghemawat S.MapReduce:a flexible data processing tool[J].Communications of theACM,2010,53(1):72-77.

[18]Yue Kun,Fang Qiyu,Wang Xiaoling,et al.A parallel and incremental approach for data-intensive learning of Bayesian networks[J].IEEE Transactions on Cybernetics,2005,45 (12):2890-2904.

[19]MovieLens[EB/OL].(2015)[2015-09-28].http://grouplens. org/datasets/movielens/.

[20]Yue Kun,Liu Weiyi,Zhou Liping.Automatic keyword extraction from documents based on multi-perspective semantic measures[J].International Journal of Computer Systems Science and Engineering,2011,26(2):133-145.

[21]Gao Hongye.Mocroeconomics[M].5th ed.Beijing:China Renmin University Press,2010.

附中文參考文獻:

[1]林煜明,朱濤,王曉玲,等.面向用戶觀點分析的多分類器集成和優化技術[J].計算機學報,2013,36(8):1650-1658.

[2]王元卓,靳小龍,程學旗.網絡大數據:現狀與展望[J].計算機學報,2013,36(6):1125-1138.

[10]岳昆,劉惟一,王曉玲,等.一種基于不確定性因素疊加的Web服務質量度量方法[J].計算機研究與發展,2009,46 (5):841-849.

[21]高鴻業.西方經濟學(微觀部分)[M].5版.北京:中國人民大學出版社,2010.

GUO Xinyu was born in 1990.He is an M.S.candidate at School of Information Science and Engineering,Yunnan University.His research interests include massive data analysis and services.

郭心宇(1990—),男,河北石家莊人,云南大學信息學院碩士研究生,主要研究領域為海量數據分析與服務。

YUE Kun was born in 1979.He received the M.S degree in computer science from Fudan University in 2004,and received the Ph.D.degree in computer science from Yunnan University in 2009.Now he is a professor and Ph.D.supervisor at Yunnan University,and the member of CCF.His research interests include massive data analysis and services.

岳昆(1979—),男,云南曲靖人,2004年于復旦大學獲得計算機碩士學位,2009年于云南大學獲得計算機博士學位,現為云南大學教授、博士生導師,CCF會員,主要研究領域為海量數據分析與服務。

LI Jin was born in 1975.He received the Ph.D.degree in computer science from Yunnan University in 2012.Now he is an associate professor at Yunnan University,and the member of CCF.His research interests include massive data analysis and artificial intelligence.

李勁(1975—),男,云南大理人,2012年于云南大學獲得計算機博士學位,現為云南大學副教授,CCF會員,主要研究領域為海量數據分析與人工智能。

WU Hao was born in 1979.He received the Ph.D.degree in computer science from Huazhong University of Science and Technology in 2007.Now he is an associate professor at Yunnan University.His research interests include information retrieval,recommendation system and service computing.

武浩(1979—),男,河南平頂山人,2007年于華中科技大學獲得計算機博士學位,現為云南大學副教授,主要研究領域為信息檢索,推薦系統,服務計算。

ZHANG Binbin was born in 1982.She received the Ph.D.degree in computer science from Peking University in 2011.Now she is a lecturer at Yunnan University.Her research interests include virtualization and cloud computing.張彬彬(1982—),女,云南大理人,2011年于北京大學獲得計算機博士學位,現為云南大學講師,主要研究領域為虛擬化,云計算。

Evidence-TheoryApproach for Discovering User Preferences in Rating Data*

GUO Xinyu1,YUE Kun1+,LI Jin2,WU Hao1,ZHANG Binbin1
1.School of Information Science and Engineering,Yunnan University,Kunming 650504,China
2.School of Software,Yunnan University,Kunming 650504,China
+Corresponding author:E-mail:kyue@ynu.edu.cn

User rating on products or information services includes reviews and scores,and reflects user behavior information,such as interest,opinions and preferences.In order to represent the degrees of user preferences on products inherently and quantitatively,starting from the massive rating data,this paper defines user preference based on the idea of marginal utility.Then,this paper describes the uncertainties of relevant influence factors on user preferences and the mutual relationships among these factors based on the D-S evidence theory.Taking the vocabulary in a review, the vocabulary including positive/negative words and the score as the evidence of user preference respectively,this paper gives the operator for combining the relevant factors jointly,as well as the computation method and mechanism for discovering user preferences based on MapReduce.The experimental results on correctness,execution time,speedup and parallel efficiency verify the effectiveness of the method proposed in this paper.

massive rating data;user preference;D-S evidence theory;evidence fusion;MapReduce

10.3778/j.issn.1673-9418.1511023

A

TP311

*The National Natural Science Foundation of China under Grant Nos.61472345,61402398,61562090,61562091(國家自然科學基金);the Applied Basic Research Project of Yunnan Province under Grant Nos.2014FA023,2016FB110(云南省應用基礎研究計劃); the Program for the Second Batch of Yunling Scholar of Yunnan Province under Grant No.C6153001(第二批“云嶺學者”培養項目);the Program for Excellent Young Talents of Yunnan University under Grant No.XT412003(云南大學青年英才培養計劃).

Received 2015-11,Accepted 2016-04.

CNKI網絡優先出版:2016-04-01,http://www.cnki.net/kcms/detail/11.5602.TP.20160401.1614.002.html

GUO Xinyu,YUE Kun,LI Jin,et al.Evidence-theory approach for discovering user preferences in rating data. Journal of Frontiers of Computer Science and Technology,2017,11(2):231-241.

摘 要:用戶對商品和信息服務的評價包含評論和評分,富含了用戶的興趣、觀點和偏好等行為信息。以真實和量化地反映用戶對商品的喜好程度為目標,從海量的用戶評價數據出發,基于邊際效用定義用戶偏好,基于D-S證據理論描述影響用戶偏好的各影響因素的不確定性以及各因素之間的相互關系;以評論中的各詞匯、包含正面/負面詞匯的評論和評分作為用戶對商品偏好的“證據”,給出了綜合考慮各影響因素的聯合算子,以及基于MapReduce的計算方法和用戶偏好發現機制。針對正確性、執行時間、加速比和并行效率等指標進行實驗,結果驗證了所提出方法的有效性。

猜你喜歡
詞匯用戶評價
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
本刊可直接用縮寫的常用詞匯
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
基于Moodle的學習評價
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
本刊一些常用詞匯可直接用縮寫
主站蜘蛛池模板: 亚洲视频免费在线| 五月激激激综合网色播免费| 亚洲国产天堂久久综合| 久久综合五月| 国产成人免费视频精品一区二区| 亚洲人成人伊人成综合网无码| 中文字幕久久亚洲一区| 亚洲综合第一区| 亚洲无码视频一区二区三区| 国产在线精彩视频二区| 国内毛片视频| 日韩成人在线视频| 99在线小视频| 国产午夜无码片在线观看网站| 欧美午夜视频| 中文字幕首页系列人妻| 又大又硬又爽免费视频| 青草91视频免费观看| 亚洲欧州色色免费AV| 91av成人日本不卡三区| 亚洲国产亚洲综合在线尤物| 亚洲色图在线观看| 国产精品毛片在线直播完整版| 三上悠亚精品二区在线观看| 91成人免费观看在线观看| 国产精品极品美女自在线看免费一区二区| 国内嫩模私拍精品视频| 91福利一区二区三区| 亚洲精品视频免费观看| 青草午夜精品视频在线观看| 最新国产午夜精品视频成人| 亚洲色欲色欲www网| 国产在线精品美女观看| 激情视频综合网| 男女性色大片免费网站| 亚洲动漫h| 综合人妻久久一区二区精品| 四虎影视库国产精品一区| 97av视频在线观看| 国产靠逼视频| 92午夜福利影院一区二区三区| 亚洲va欧美va国产综合下载| 国产乱子精品一区二区在线观看| 欧美yw精品日本国产精品| 99在线观看精品视频| 亚洲丝袜中文字幕| 91偷拍一区| 网久久综合| 亚洲欧美不卡| 亚洲视频免费在线看| 欧美成人精品一级在线观看| 日本91在线| 欧美www在线观看| 中文字幕66页| 萌白酱国产一区二区| 久久无码高潮喷水| 国产成人亚洲综合A∨在线播放 | 久久综合久久鬼| 国产欧美日本在线观看| 伊人欧美在线| 亚洲AV色香蕉一区二区| 亚洲av色吊丝无码| 日韩无码精品人妻| 中文字幕亚洲综久久2021| 色综合五月| 久久精品国产亚洲麻豆| 少妇精品在线| 99热国产这里只有精品9九 | 刘亦菲一区二区在线观看| 黄色网在线免费观看| 国产乱论视频| 亚洲美女高潮久久久久久久| 免费xxxxx在线观看网站| 91丨九色丨首页在线播放| 欧美日韩另类在线| 国产精品自在拍首页视频8| 久久99国产综合精品女同| 孕妇高潮太爽了在线观看免费| 亚洲色欲色欲www在线观看| 久青草国产高清在线视频| 国产一区成人| 精品视频第一页|