999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于記憶曲線的數據密集型動態用戶行為建模*

2016-10-28 07:41:43尹子都付曉東劉惟一
計算機與生活 2016年10期
關鍵詞:記憶用戶模型

尹子都,岳 昆+,武 浩,付曉東,劉惟一

1.云南大學 信息學院,昆明 650504

2.昆明理工大學 信息工程與自動化學院,昆明 650504

基于記憶曲線的數據密集型動態用戶行為建模*

尹子都1,岳昆1+,武浩1,付曉東2,劉惟一1

1.云南大學 信息學院,昆明 650504

2.昆明理工大學 信息工程與自動化學院,昆明 650504

分析用戶行為的歷史數據,使用特定方法建立用戶的偏好模型,是目前研究的熱點和關鍵??紤]了數據產生的時序特征,以及具有時間特征的變量在用戶行為模型中的影響,以心理學中的記憶曲線模型為依據,從用戶的行為數據出發,給出了用戶偏好的表示,并為用戶的每個偏好建立一個記憶曲線模型,實時地表示用戶的偏好。針對海量的用戶行為數據,提出了基于MapReduce的模型參數增量更新算法和動態用戶偏好計算方法,從而使得模型能反映動態變化的用戶偏好。建立在真實數據上的實驗結果表明,提出的模型和算法具有高效性、正確性和可用性。

動態用戶行為模型;用戶偏好;記憶曲線;增量更新;MapReduce

1 引言

自媒體的產生與云計算的成熟,使用戶在互聯網中的作用不斷提升。用戶的行為會產生大量數據,獲取和分析這些用戶行為數據能得到用戶個人信息,可用于推薦、行為評判和預測等多個方面,因此以用戶行為數據為核心的應用越來越多,基于云計算的“數據即服務”也日益流行[1]。用戶偏好的表示與建模是數據分析的重點與研究的核心,用戶偏好可理解為用戶想與之交互或已經交互的對象,如某個商品、某條廣告或某種言論等,而交互可以是用戶的點擊、評論、購買與關注等,統稱用戶行為。分析用戶行為的歷史數據,使用特定的方法建立用戶的偏好模型(也稱用戶行為模型),成為當前研究的熱點和相關應用的基礎。

經典的用戶建模方法中,研究人員用形式化的結構表達用戶偏好,將用戶的偏好表示為對商品或新聞的喜好程度的向量[2-3],從而方便計算和處理。但是,這些方法往往基于一段時間內的用戶行為數據來構建用戶偏好模型,不區分數據生成的時間先后,對表達時間變量的影響關注較少。為了合理地表達時間特征,動態地反映用戶的偏好,已有越來越多的研究關注基于帶有時間特征的用戶行為數據來構建用戶行為模型。例如,Marin等人[4]利用用戶的交互行為,提出反饋型的用戶偏好模型,偏好隨用戶的交互行為改變,并提出一種自動檢測相關參數準確性的方法。Hawalah等人[5]提出一種動態表示用戶偏好的方法,考慮用戶偏好隨時間推移所產生的消減和去除特性,用Sugiyama等人[6]提出的方法給出用戶偏好的動態變化過程,這一思路為本文動態用戶行為模型的研究提供了參考。然而,鑒于數據本身不確定性、隨時間變化的特點,從帶有時間特征的數據出發的用戶行為模型要實現用戶偏好的合理表達,仍存在如下挑戰:

(1)用戶的偏好往往會隨著時間的推移而不斷變化,并且往往呈現出一定的規律,因此需要構建一個合理的模型來反映用戶偏好隨時間變化的特征。

(2)隨著用戶行為數據的不斷產生,需要根據新產生的數據,以增量的方式更新現有模型中的參數,使其能較好地反映新產生的數據對模型的影響。

(3)大量的用戶產生海量的行為數據,需要采用有效的數據密集型計算策略對這些海量行為數據進行處理分析,進而實現前述(1)和(2)中動態偏好的建模與增量更新。

針對用戶偏好隨著時間不斷變化的特征,邢春曉等人[7]為了及時反映用戶興趣變化,提出了基于時間和資源的數據權重,以及基于資源的協同過濾推薦算法。該方法考慮用戶偏好隨時間呈線性變化的情形,反映了用戶偏好建模中的時間特征。事實上,從心理認知角度,用戶偏好反映了其對特定對象(如商品、新聞和博客等)的欲望。已有研究針對用戶的心理特性,得出了用戶行為的特點以及用戶偏好隨時間變化的一般規律。例如,Khader等人[8]指出人的判斷大多基于記憶而得出,偏好作為人對事物的判斷同樣基于記憶,即記憶的變化將導致偏好的變化,且這種變化未必呈線性趨勢。由此,本文借鑒用戶心理與記憶描述及建模機制,討論從海量的行為數據中發現體現用戶心理特性的偏好模型及其增量更新機制。

艾賓浩斯記憶遺忘曲線(也稱記憶曲線)模型考慮用戶自然遺忘的客觀規律[9],近年來被廣泛用于數據分析領域,涉及協同過濾與推薦[10-11]、機器學習[12]和圖/網絡[13-15]等方面。特別地,在基于記憶曲線的用戶偏好建模方面,于洪等人[10]提出基于遺忘曲線的協同過濾推薦算法,根據記憶曲線將用戶偏好分為長期和短期偏好,從而匹配不同用戶間的偏好,進而完成協同過濾任務。印桂生等人[11]建立了遺忘曲線的協同過濾推薦模型。這些方法為基于記憶曲線的用戶偏好研究提供了參考,但是用戶的長期和短期偏好劃分并不容易,并且面向海量的用戶行為數據,這些方法仍需進一步擴展。

因此,針對挑戰(1)和(2),本文以記憶曲線為依據,從用戶行為數據出發,給出用戶偏好的表示,為用戶的每個偏好建立一個記憶曲線模型,實時地表示用戶的各個偏好。同時,針對新產生的用戶行為數據,本文提出了一種模型參數的增量更新方法,使新的模型能反映變化的用戶偏好。

MapReduce編程模型是眾所周知和業界公認的海量處理計算框架和編程模型[16-17],近年來廣泛應用于用戶建模領域。例如,Liang等人[18]討論并提出了一種高效的基于MapReduce的并行用戶建模方法;Shmueli-Scheuer等人[12]提出一種基于MapReduce實現的從大規模數據中建立用戶行為模型的方法。因此,針對挑戰(3),為了對海量的用戶行為數據進行處理和分析,本文給出了基于MapReduce的參數增量更新和動態用戶偏好建模的算法。

為了測試本文方法的有效性,爬取了新聞網站Engadget中國版[19]的真實用戶行為數據,使用基于Hadoop的MapReduce數據密集型計算平臺,編程實現并測試了本文提出的模型與算法。實驗結果表明,本文方法具有高效性、正確性和可用性。

本文組織結構如下:第2章給出動態用戶行為模型的表示;第3章給出從用戶行為數據構建動態行為模型的算法;第4章給出實驗結果;第5章總結全文并展望將來的工作。

2 動態用戶行為模型的表示

2.1用戶行為數據

本文用U={u1,u2,…,un}表示用戶的集合,其中ui(1≤i≤n)表示第i個用戶。用戶ui的行為將以某個對象為目標,例如用戶瀏覽新聞時會將一個新聞對象作為瀏覽的目標,用戶評論時會將一個評論對象作為目標。針對目標對象集合,為了反映用戶偏好的特點,可使用分布式近鄰傳播聚類方法[20](首先提取關鍵詞,再使用此聚類的方法將相似的對象歸為一類),并用一個代表性關鍵詞作為一類的標簽,從而得到由關鍵詞構成的標簽集合。例如,瀏覽新聞時每條新聞為一個對象,通過提取關鍵詞將相似的新聞歸為一類,并用其中一個關鍵詞作為這一類的標簽。用L={l1,l2,…,lm}表示用戶偏好標簽集合,其中lj(1≤j≤m)為第j個標簽,表示用戶瀏覽對象的第j個類別。

本文將從用戶行為數據構建用戶偏好模型,用戶行為數據包含用戶、時間和偏好。

定義1(用戶行為數據)用戶的一條行為數據記錄Item可表示為{ui,TB,lj},其中ui用以標識用戶,TB為瀏覽時刻,lj為用戶瀏覽的偏好對應的偏好標簽。

表1給出了定義1中用戶行為數據的示例。

Table 1 Example of user behavior data表1 用戶行為數據示例

2.2模型的基本思想

根據心理學相關研究,人對事物的遺忘過程可由記憶曲線模型描述,下面給出相關定義和概念。

定義2(記憶曲線模型)記憶曲線模型表示為[9]:

其中,Δx=x′-x,x′和x分別表示目標時刻和最近一次記憶對象的時刻;v為時刻x′的記憶強度,為正確記憶的信息占全部信息的比例;b為相對記憶強度(取正整數),長期記憶b值大于短期記憶的b值。

式(1)表示Δx隨著時間推移而增大,記憶的影響作用會下降,不同b值在區間[0,100]上的記憶曲線如圖1所示。Khader等人[8]指出人的偏好或判斷大多是基于記憶而得出的,不難看出,對于某個偏好而言,記憶過程可表達為偏好的強化過程;同時隨著記憶的衰減,用戶的偏好也會隨之遞減;偏好隨著?x的增加會下降,長期偏好與短期偏好的衰減速度不同,短期偏好對應短期記憶,較小的b值使偏好的影響作用下降較快;反之,長期偏好對應的b值較大,對應長期記憶,影響作用下降得慢。因此,將記憶對象與用戶的偏好進行類比,記憶曲線體現了用戶偏好隨著時間變化的動態性,可表示用戶偏好隨時間的衰減。

Fig.1 Forgetting curve with different b圖1 不同b值的記憶曲線

定義3(用戶行為模型)ui的用戶行為模型可表示為一個偏好的有序集合Pi={pi1,pi2,…,piz},pij(1≤j≤z)表示ui的第j個偏好。pij可表示為一個五元組,其中l為偏好標簽,x為最近一次用戶行為的時刻,b為相對記憶強度,c為用戶對偏好l的重復記憶次數,v為偏好l的影響作用(即偏好的強度),表達用戶某個時刻對偏好l的關注度。

定義3中的b和c值隨著用戶行為數據增長而動態更新,決定偏好變化速度的快慢,x和b用于生成用戶某個偏好的強度v,參數的計算將在第3章詳細討論。用戶行為模型的動態性包含如下兩個層面:(1)模型參數的動態性。偏好的記憶曲線模型中,參數會隨著用戶行為數據的增長而不斷改變,例如用戶的短期偏好可能隨著瀏覽行為逐漸成為長期偏好,使得b值增加,如圖2(a)所示。(2)偏好強度的動態性。當pia中的各個參數相對穩定時,偏好強度的大小會隨著時間的推移逐漸衰減,若產生一個時間增量?x,則偏好的強度將從v變為v′(變化量為?v),如圖2(b)所示。第3章將分別討論參數b和v的計算方法。

Fig.2 Dynamic preference model圖2 動態偏好模型

3 動態用戶偏好模型的構建

3.1模型參數的增量計算

如前所述,模型的參數決定了用戶偏好變化的特點,針對新產生的用戶行為數據,需要更新用戶偏好的相關參數,為用戶每個偏好確定新的記憶曲線,并有效地區分用戶的長期或短期偏好,為個性化服務奠定基礎。為了表示用戶偏好本身的變化,本節討論動態用戶行為模型中參數b的增量更新方法,即根據新數據Itemnew={ui,TB,lj},更新某個用戶ui對應的用戶偏好集Pi。用Label(pij)表示Pi中偏好pij的標簽,對于新的行為數據中所包含的用戶偏好lj,按照Pi中是否包含lj,可分為如下兩種情況:(1)不存在Label (pij)=lj,(2)存在Label(pij)=lj,分別對應初始情況和更新情況。下面分別討論這兩種情況下偏好模型參數的增量更新方法。

情況(1):對于ui來說,新出現的偏好不在Pi中,因此首先根據定義3建立一個新增偏好的五元組,并根據Itemnew中的lj確定該五元組中各參數的值。x為Itemnew中的TB,c=1代表一次記憶行為,平均記憶強度B是由經驗獲得的記憶曲線模型中b值的平均值,可在偏差較小的前提下表達大部分偏好的變化。根據實際中不同情形下偏好的強度可以對B賦予不同的值,一般地,若以“天”作為記憶強度的單位,B取值為10可以反映人對事物的平均記憶強度,因此也以此作為b的初值。

例如,從初始狀態開始,使用表1中記錄編號為1、2、4和6的4條記錄建立用戶u1、u2和u3的偏好模型,結果如表2所示。

情況(2):由于偏好lj在Pi中已存在,增量更新的目標為pij中的b值,該參數受到以下兩方面因素的影響:一是偏好記憶的深刻程度。該因素與記憶強度成反比,表示長時間不發生某事還能回憶的能力,兩次成功回憶之間的時間間隔(TB-x)越大,這種能力越強,v衰減越慢,與v成反比,比例為k,實驗顯示k取1可以得到較好的結果。二是偏好重復記憶次數c。用戶對重復越多的事往往印象也越深,因此重復次數越多,c增加越多,且越傾向為長期偏好。以上兩方面的因素相互獨立,因此總的b值應為上述兩部分之和,給出如下更新b值的方法:

針對海量的用戶行為數據本文基于MapReduce給出增量更新算法。Map函數并行地選取每個用戶的行為記錄到一個單獨的集合;Reduce函數首先按照時間先后對輸入的用戶行為數據記錄列表進行排序,依次處理,每條記錄對應一個偏好類別,從Pi中查找相同類別的元組,判斷Pi與新數據Itemnew的關系,若沒有找到,則用initTuple函數向Pi中添加新的五元組,否則用updateTuple函數更新此元組中b、x和c的值。算法1給出了以上思想。

例如,對于表2中的用戶偏好,若新增表1中編號為3和5的兩條記錄,需要更新u1和u2的偏好。根據算法1,在用戶u1對應的P1中使用findByLabel函數查找對應偏好為“5”的元組,發現已有元組存在,再使用updateTuple函數對記憶重復次數加1,得到c值為2。接著計算兩次行為之間的時間差為3。最后根據式(2)計算1/exp(-3/10)+2,得到b值為3.3956。類似得到u2和u3的偏好,參數更新后的用戶行為如表3所示。

Table 3 User behaviors after updating variables表3 參數更新后的用戶行為

由算法1可得到動態用戶行為模型中的各參數,算法的時間復雜度取決于Reduce函數,每個Reduce函數處理一個用戶的行為數據集。其中For循環執行次數為O(s),排序時間復雜度為O(s lb s),因此算法1的時間復雜度為O(s lb s),s為用戶的行為數據記錄數。

3.2動態偏好計算

根據3.1節對參數的計算結果,當前用戶偏好的強度v由目標時刻距離上次用戶行為的時間長度決定。因此,以式(1)為基礎,給出用戶偏好強度的定義。

定義4(用戶偏好強度)目標時刻用戶偏好強度的定義如下:

其中:v表示當前時刻偏好強度的大小;TD表示目標時刻,是x之后的某個時刻。

可知,用戶的偏好強度在模型參數確定之后,會隨時間遞減,最終趨于0,代表用戶的某一偏好被遺忘而消失。算法2實現了從海量用戶行為數據動態獲取用戶的偏好強度,其基本思想如下:遍歷U并找到其中每個ui對應的Pi,計算Pi中每個元素的v值。具體而言,算法中的Map函數獲取用戶偏好集合,Reduce函數并行地計算Pi中的v值。

算法2的時間復雜度為O(s),取決于Reduce函數,其中s為用戶的行為數據記錄數。

例如,基于算法2計算用戶偏好在2014-5-15時刻的強度。以計算p11為例,其最近一次用戶行為到此時刻的時間長度為15-7=8,再根據式(3)計算偏好的強度v=exp(-8/3.395 6)=0.094 7。同理計算其他用戶的偏好,如表4所示。

Table 4 User behaviors at 2014-5-15表4 2014-5-15時刻的用戶行為

動態用戶行為模型能表示偏好隨時間推移不斷變化的過程,體現偏好強度的動態性,并且模型的參數會根據新的行為數據不斷更新,體現參數的動態性,為個性化服務提供支持。

4 實驗結果

為了測試本文方法的有效性,從Engadget中國版[18]網站上隨機選取超過4 000名用戶,通過解析站內所有新聞頁面獲取用戶的評論信息。具體而言,收集了所有相關用戶從2014年1月1日到2015年5月1日共1 919 925條評論信息,作為本實驗中的用戶行為。實驗環境如下:1臺CPU主頻2.3 GHz,內存2 GB的機器作為主節點(NameNode),6臺CPU主頻3.4 GHz,內存 1 GB的機器作為計算節點(DataNode),路由器總帶寬450 Mb/s,基于此構建HadoopMapReduce環境。本文測試了所構建的動態用戶行為模型的有效性,以及算法1和算法2的執行時間、加速比和并行效率。實驗中對每個指標取多次測試結果的平均值。

4.1模型有效性測試

為了測試所構建模型的有效性,本文將所提出的動態用戶行為模型用于新聞推送。從歷史行為數據中計算得到的用戶行為,若偏好pij中的v大于給定閾值,則將l類的新聞推送給用戶ui;若用戶點擊瀏覽了推送的新聞,說明新聞推送成功。

本文使用50 000條用戶行為數據,70%用于建模,30%用于測試,對查準率(Precision)、查全率(Recall)和F值[21]進行了測試。為了對用戶偏好的建模及測試具有一致性,選取整段時間內對新聞都進行了評論的用戶(即前70%建模數據和后30%測試數據中都涉及到的用戶),進而選取這些用戶的行為數據,并且給定用戶偏好強度閾值,因此實驗中用戶數約為350。首先,對傳統的用戶點擊模型(不基于用戶行為歷史數據,稱為“靜態模型”)、文獻[7]提出的基于線性權重函數的用戶模型(稱為“線性模型”)以及基于本文所提出模型(稱為“動態模型”)得到的新聞推送結果,針對查準率和查全率進行了比較。其中,查準率定義為基于用戶偏好成功推送的新聞數占為用戶推送新聞總數的比例;查全率定義為基于用戶偏好成功推送的新聞數與用戶實際瀏覽新聞總數的比例。由于各模型下得到的測試結果差距較大,本文對查準率和查全率取對數刻度,分別如圖3和圖4所示。由于用戶對新聞的海量評論信息本身具有稀疏性(即用戶往往評論了給定新聞頁面集合中一個較小的部分),基于不同模型得到的查全率和查準率都不高,圖3和圖4中的結果與這一實際情形相吻合。不難看出,動態模型的查全率與查準率均高于靜態模型,具有較高的新聞推送成功率。

Fig.3 Precision圖3 查準率

Fig.4 Recall圖4 查全率

接著,比較了靜態模型和動態模型在進行新聞推送時的F值,F值計算公式如下:

兩種模型下F值(對數刻度)的比較如圖5所示??梢钥闯觯趧討B模型能得到與傳統靜態模型相同的穩定性,但基于動態模型的F值明顯高于基于靜態模型的F值。F值可以反映在新聞推送中推送成功的程度,即使提升很小的幅度,都會對全體用戶帶來較大的影響,因此動態模型遠優于靜態模型。

Fig.5 F score圖5 F值

4.2模型參數增量更新算法測試

本文使用855 MB、共7 679 700條用戶行為數據,在不同計算節點數情形下,對算法1的總執行時間(簡稱執行時間)進行了測試,結果如圖6所示。可以看出,算法1的執行時間隨著測試數據集增長呈對數趨勢增長,且數據量越大,計算節點越多,算法1的優勢越顯著。這說明算法1能針對海量用戶行為數據進行偏好模型參數的增量更新,具有較好的可擴展性。

Fig.6 AT ofAlgorithm1圖6 算法1的執行時間

進一步,對4個計算節點下隨著數據量增加算法1中Map函數的執行時間(MT)、Reduce函數的執行時間(RT)以及算法1執行時間(AT)進行了測試,結果如圖7所示。由于Hadoop平臺處理任務時性能存在波動性,從而可能導致算法執行時間上的波動性(如圖7中數據量為153 MB時的情況)??偟膩碚f,在絕大多數情形下,RT都大于MT。這說明算法1的執行時間主要來自其中Reduce函數的執行,與3.1節中的理論分析結論一致。

Fig.7 MT,RT andAT ofAlgorithm1圖7 算法1的MT、RT和AT

加速比(Speedup)是算法并行執行時間與串行執行時間的比值,算法1隨著測試數據集增大的加速比如圖8所示。可以看出,加速比隨著測試數據規模增加而增加,且逐漸接近理論最大值(機器數量),這進一步說明算法1具有較好的并行性和可擴展性。并行效率(parallel efficiency)是加速比與處理器數量的比值,算法1隨著測試數據集增大的并行效率如圖9所示??梢钥闯?,并行效率隨著測試數據集增加而增加,并穩定在0.8左右,這也說明算法1具有較好的并行性。

Fig.8 Speedup ratio ofAlgorithm1圖8 算法1加速比

Fig.9 Parallel efficiency ofAlgorithm1圖9 算法1的并行效率

4.3動態偏好計算算法測試

類似地,本文測試了算法2隨著測試數據集增加,在不同計算節點數情形下的執行時間,如圖10所示??梢钥闯?,在不同計算節點數下,算法2的執行時間基本呈線性趨勢,與3.2節中的理論分析結論一致,且數據量越大,計算節點越多,算法2的優勢越顯著。算法2執行時的MT、RT和AT如圖11所示,與算法1的MT和RT相比較,雖然存在如前所述由于Ha-doop平臺的特點而存在執行時間的波動性(如數據規模為390 MB時RT),絕大多數情形下MT和RT占AT的比例基本相同,這說明算法2的Map函數和Reduce函數的執行時間相差不大,計算量基本相當。

Fig.10 AT ofAlgorithm2圖10 算法2的執行時間

Fig.11 MT,RT andAT ofAlgorithm2圖11 算法2的MT、RT和AT

進一步,也測試了算法2隨著測試數據集增大的加速比和并行效率,分別如圖12和圖13所示??梢钥闯?,加速比隨著計算節點增加而提升,計算節點數越多,加速比越高;但隨著數據量的提升,并行效率隨著計算節點數增加而逐漸提升。

Fig.12 Speedup ratio ofAlgorithm2圖12 算法2的加速比

Fig.13 Parallel efficiency ofAlgorithm2圖13 算法2的并行效率

5 結束語

本文針對用戶行為模型的動態性,基于記憶曲線模型,提出了一種從海量的用戶行為數據中構建用戶偏好模型的方法,并給出了基于MapReduce的算法,最后通過建立在真實數據上的實驗結果驗證了本文方法的高效性、可擴展性和有效性。本文的研究為針對帶有時間特征的用戶行為數據分析和偏好發現提供了一種思路,但作為這一問題的初步探索,針對一段時間內多個時間片的用戶行為模型構建、用戶不同偏好之間的聯系,仍需進一步研究,也是人們將要開展的工作。

References:

[1]Vu Q H,Pham T V,Truong H L,et al.DEMODS:a description model for data-as-a-service[C]//Proceedings of the 2012 IEEE 26th International Conference on Advanced Information Networking and Applications,Fukuoka,Japan,Mar 26-29,2012.Piscataway,USA:IEEE,2012:605-612.

[2]Zhang Yongzheng,Pennacchiotti M.Predicting purchase behavior from social media[C]//Proceedings of the 22nd International World Wide Web Conference,Rio de Janeiro,Brazil,May 13-17,2013.New York:ACM,2013:1521-1532.

[3]Pennock D,Horvitz E,Lawrence S,et al.Collaborative filtering by personality diagnosis:a hybrid memory-and modelbased approach[C]//Proceedings of the 16th Conference on Uncertainty in Artificial Intelligence,Stanford,USA,Jun 30-Jul 3,2000.San Francisco,USA:Morgan Kaufmann Publishers Inc,2000:473-480.

[4]Marin L,Isern D,Moreno A.Dynamic adaptation of numer-ical attributes in a user profile[J].Applied Intelligence, 2013,39(2):421-437.

[5]Hawalah A,Fasli M.Dynamic user profiles for Web personalisation[J].Expert Systems with Applications,2015,42 (5):2547-2569.

[6]Sugiyama K,Hatano K,Yoshikawa M.Adaptive Web search based on user profile constructed without any effort from users[C]//Proceedings of the 13th International Conference on World Wide Web,New York,May 17-20,2004.New York:ACM,2004:675-684.

[7]Xing Chunxiao,Gao Fengrong,Zhan Sinan,et al.A collaborative filtering recommendation algorithm incorporated with user interest change[J].Journal of Computer Research and Development,2007,44(2):2547-2569.

[8]Khader P H,Pachur T,Meier S,et al.Memory-based decisionmaking with heuristics:evidence for a controlled activation of memory representations[J].Journal of Cognitive Neuroscience,2011,23(11):3540-3554.

[9]Ebbinghaus H.Memory:a contribution to experimental psychology[J].Annals of Neurosciences,1913,20(4):155-156.

[10]Yu Hong,Li Zhuanyun.A collaborative filtering recommendation algorithm based on forgetting curve[J].Journal of Nanjing University:Natural Science Edition,2010,46(5): 520-527.

[11]Yin Guisheng,Cui Xiaohui,Ma Zhiqiang.Forgetting curvebased collaborative filtering recommendation model[J]. Journal of Harbin Engineering University,2012,33(1):85-90.

[12]Shmueli-Scheuer M,Roitman H,Carmel D,et al.Extracting user profiles from large scale data[C]//Proceedings of the 2010 International Workshop on Massive Data Analytics over the Cloud,Raleigh,USA,Apr 26,2010.New York: ACM,2010:4.

[13]Feng Naiqin,Tian Yong,Wang Xianfang,et al.Logarithmic and exponential morphological associative memories[J]. Journal of Software,2010,33(1):157-166.

[14]Kudelka M,Horak Z,Snasel V,et al.Weighted co-authorship network based on forgetting[J].Future Information Technology:Communications in Computer and Information Science,2011,185:72-79.

[15]Ye Xiaoming,Lin Xiaozhu,Dai Xiaojuan.The ART2 network based on memorizing-forgetting mechanism[C]//LNCS 6675:Proceedings of the 8th International Symposium on Neural Networks,Guilin,China,May 29-Jun 1,2011.Berlin,Heidelberg:Springer,2011:60-67.

[16]Wang Shan,Wang Huiju,Qin Xiongpai,et al.Architecting big data:challenges,studies and forecasts[J].Chinese Journal of Computers,2011,34(10):1741-1752.

[17]Dean J,Ghemawat S.MapReduce:a fiexible data processing tool[J].Communications of theACM,2010,53(1):72-77.

[18]Liang H,Hogan J,Xu Y.Parallel user profiling based on folksonomy for large scaled recommender systems:an implementation of cascading MapReduce[C]//Proceedings of the 10th IEEE International Conference on Data Mining Workshops,Sydney,Australia,Dec 13,2010.Piscataway,USA: IEEE,2010:154-161.

[19]Engadget[EB/OL].(2015)[2015-06-28].http://cn.engadget. com/.

[20]Lu Weiming,Du Chenyang,Wei Baogang,et al.Distributed affinity propagation clustering based on MapReduce[J]. Journal of Computer Research and Development,2012,49 (8):1762-1772.

[21]Baeza-Yates R A,Ribeiro-Neto B.Modern information retrieval[M].[S.l.]:Addison Wesley,2011:75-79.

附中文參考文獻:

[7]邢春曉,高鳳榮,戰思南,等.適應用戶興趣變化的協同過濾推薦算法[J].計算機研究與發展,2007,44(2):296-301.

[10]于洪,李轉運.基于遺忘曲線的協同過濾推薦算法[J].南京大學學報:自然科學版,2010,46(5):520-527.

[11]印桂生,崔曉暉,馬志強.遺忘曲線的協同過濾推薦模型[J].哈爾濱工程大學學報,2012,33(1):85-90.

[13]馮乃勤,田勇,王鮮芳,等.對數-指數形態學聯想記憶[J].軟件學報,2010,33(1):157-166.

[16]王珊,王會舉,覃雄派,等.架構大數據:挑戰、現狀與展望[J].計算機學報,2011,34(10):1741-1752.

[20]魯偉明,杜晨陽,魏寶剛,等.基于MapReduce的分布式近鄰傳播聚類算法[J].計算機研究與發展,2012,49(8):1762-1772.

YIN Zidu was born in 1990.He is a Ph D.candidate at Yunnan University.His research interests include knowledge representation and reasoning,massive data analysis and services.

尹子都(1990—),男,甘肅天水人,云南大學博士研究生,主要研究領域為知識的表示與推理,海量數據分析與服務。

YUN Kun was born in 1979.He received the M.S.degree in computer science from Fudan University in 2004,and the Ph.D.degree in computer science from Yunnan University in 2009.Now he is a professor and Ph.D.supervisor of Yunnan University,and the member of CCF.His research interests include massive data analysis and services.

岳昆(1979—),男,云南曲靖人,2004年于復旦大學獲得計算機碩士學位,2009年于云南大學獲得計算機博士學位,現為云南大學教授、博士生導師,CCF會員,主要研究為海量數據分析與服務。

WU Hao was born in 1979.He received the Ph.D.degree in computer science from Huazhong University of Science and Technology in 2007.Now he is an associate professor at Yunnan University.His research interests include information retrieval,recommendation system and service computing.

武浩(1979—),男,河南平頂山人,2007年于華中科技大學獲得計算機博士學位,現為云南大學副教授,主要研究領域為信息檢索,推薦系統,服務計算。

FU Xiaodong was born in 1975.He received the M.S.degree in computer science from Kunming University of Science and Technology in 2000,and the Ph.D.degree in management from Kunming University of Science and Technology in 2008.Now he is a professor at Kunming University of Science and Technology,and the senior member of CCF.His research interests include service computing and intelligent decision.

付曉東(1975—),男,云南鎮雄人,2000年于昆明理工大學獲得計算機碩士學位,2008年于昆明理工大學獲得管理學博士學位,現為昆明理工大學教授,CCF高級會員,主要研究領域為服務計算,智能決策。

LIU Weiyi was born in 1950.He graduated from Huazhong University of Science and Technology in 1976.Now he is a professor and Ph.D.supervisor at Yunnan University,and the senior member of CCF.His research interests include artificial intelligence,data and knowledge engineering.

劉惟一(1950—),男,云南昆明人,1976年畢業于華中科技大學,現為云南大學教授、博士生導師,CCF高級會員,主要研究領域為人工智能,數據與知識工程。

Data Intensive Modeling of Dynamic User Behaviors Based on Forgetting Curve*

YIN Zidu1,YUE Kun1+,WU Hao1,FU Xiaodong2,LIU Weiyi1
1.School of Information Science and Engineering,Yunnan University,Kunming 650504,China
2.Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650504,China

E-mail:kyue@ynu.edu.cn

Analyzing historical user behavior data and establishing user preference model by some certain method is the critical subject with great attention.This paper considers the time series characteristics of data generation and the influence of the variables with temporal characteristics on user behavior models.Based on the forgetting curve in psychology,this paper starts from user behavior data and gives the representation of user p

.Thus,a forgetting curve model can be established for each preference and user preferences can be represented by real time manner. Aiming at massive user behavior data,this paper proposes the MapReduce-based algorithms for the incremental update of model parameters and the computation of dynamic user preferences.Thus,inherently dynamic user preferences can be reflected by the constructed user behavior model.The experimental results conducted on real data show that the proposed model and algorithms are efficient,correct and applicable.

dynamic user behavior model;user preference;forgetting curve;incremental update;MapReduce

用戶u 1u 2u 3偏好P1= { p11= <“i P h o n e”,2 0 1 4 -5 -4,1 0,1,0 >,p12= <“A M D顯卡”,2 0 1 4 -5 -6,1 0,1,0 > } P2= { p21= <“小米電視”,2 0 1 4 -5 -3,1 0,1,0 > } P3= { p31= <“智能手環”,2 0 1 4 -5 -9,1 0,1,0 > }

2015-08,Accepted 2015-11.

10.3778/j.issn.1673-9418.1508049

A

TP311

*The National Natural Science Foundation of China under Grant Nos.61472345,61163003,61462056,61562090(國家自然科學基金);the Natural Science Foundation of Yunnan Province under Grant Nos.2014FA023,2014FA028(云南省應用基礎研究計劃);the Yunnan Provincial Foundation for Leaders of Disciplines in Science and Technology under Grant No.2012HB004(云南省中青年學術和技術帶頭人后備人才培養計劃);the Program for Innovative Research Team in Yunnan University under Grant No.XT412011 (云南大學創新團隊培育計劃);the Program for Excellent Young Talents of Yunnan University under Grant No.XT412003(云南大學青年英才培養計劃).

CNKI網絡優先出版:2015-12-02,http://www.cnki.net/kcms/detail/11.5602.TP.20151202.1349.002.html

YIN Zidu,YUE Kun,WU Hao,et al.Data intensive modeling of dynamic user behaviors based on forgetting curve.Journal of Frontiers of Computer Science and Technology,2016,10(10):1376-1386.

猜你喜歡
記憶用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
記憶中的他們
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
兒時的記憶(四)
兒時的記憶(四)
主站蜘蛛池模板: 欧美精品一区在线看| 国产精品自拍合集| 国产网友愉拍精品| 97se亚洲综合| 国产玖玖玖精品视频| 国产美女精品一区二区| 免费中文字幕在在线不卡| 色呦呦手机在线精品| 丁香婷婷久久| 伊在人亞洲香蕉精品區| 国产美女在线观看| 亚洲精品视频免费| 日韩国产无码一区| 亚洲精品无码av中文字幕| 久久性视频| 99re热精品视频国产免费| 午夜日本永久乱码免费播放片| 91美女在线| 成人国产精品2021| 国产成人乱码一区二区三区在线| 一级毛片基地| 精品三级在线| 亚洲中文久久精品无玛| 国产精品永久免费嫩草研究院| 久久亚洲中文字幕精品一区| 国产精品女人呻吟在线观看| 狠狠做深爱婷婷久久一区| 国产另类视频| 国产专区综合另类日韩一区 | a级毛片免费网站| 国产一级在线观看www色 | 亚洲国产高清精品线久久| 亚洲娇小与黑人巨大交| 亚洲国产无码有码| 午夜福利无码一区二区| 国产又粗又猛又爽视频| 玖玖精品视频在线观看| 精品伊人久久大香线蕉网站| 91久久国产综合精品女同我| 67194在线午夜亚洲| 日本黄色不卡视频| 2020精品极品国产色在线观看 | 国产高清毛片| 真实国产乱子伦视频| 无码久看视频| 国产91精品调教在线播放| 高h视频在线| AV天堂资源福利在线观看| 国产尤物jk自慰制服喷水| 毛片在线播放a| 国产在线观看人成激情视频| a级高清毛片| yjizz国产在线视频网| 国产99视频免费精品是看6| 国产乱子精品一区二区在线观看| 在线观看国产小视频| 99精品免费欧美成人小视频 | 一本久道久综合久久鬼色| 又大又硬又爽免费视频| 狼友av永久网站免费观看| 亚洲中文字幕在线精品一区| 日韩精品一区二区三区中文无码| 亚洲性影院| 91精品国产无线乱码在线| 国产成人亚洲毛片| 老汉色老汉首页a亚洲| 亚洲一区网站| 国产福利不卡视频| 午夜免费视频网站| swag国产精品| 精品一區二區久久久久久久網站| 97在线国产视频| 色婷婷在线播放| 精品久久高清| 另类综合视频| 五月婷婷伊人网| 亚洲动漫h| 亚洲天堂网在线视频| 亚洲国产日韩视频观看| 亚洲黄色网站视频| 亚洲综合在线网| 青青青国产在线播放|