999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA-DeepHawkes模型的信息級聯(lián)預(yù)測*

2020-03-19 13:48:08王世杰周麗華周俊華
計(jì)算機(jī)與生活 2020年3期
關(guān)鍵詞:用戶信息模型

王世杰,周麗華+,孔 兵,周俊華

1.云南大學(xué) 信息學(xué)院,昆明650504

2.云南大學(xué) 公共管理學(xué)院,昆明650504

1 引言

Twitter、Facebook、微信和新浪微博等在線社交平臺(tái)的出現(xiàn)深刻地改變了用戶之間信息傳遞的方式,極大地促進(jìn)了信息的產(chǎn)生與傳遞。以新浪微博為例,截至2017年1月,中國網(wǎng)民規(guī)模達(dá)7.31 億,其中新浪微博注冊用戶已超過2.67 億[1]。如此巨量的消息中蘊(yùn)含著豐富的知識(shí),比如用戶的偏好、轉(zhuǎn)發(fā)行為及用戶間的關(guān)系。這些知識(shí)的挖掘在病毒式市場營銷、在線廣告投放、信息推薦和謠言控制等方面具有極其廣泛的應(yīng)用價(jià)值,因此具有非常重要的研究意義[2]。

信息級聯(lián)預(yù)測是基于信息早期的傳播特征來預(yù)測其未來的傳播范圍。然而,由于社交平臺(tái)通常是大規(guī)模的開放系統(tǒng)并且會(huì)受到外部因素的影響[3],比如網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、關(guān)注關(guān)系、用戶興趣、發(fā)布時(shí)間、隱私保護(hù)等,加之網(wǎng)絡(luò)用戶規(guī)模大,信息動(dòng)態(tài)擴(kuò)散,速度快,傳播的路徑和過程存在較大的隨機(jī)性,不同信息的“流行度”不均衡,因此信息級聯(lián)的準(zhǔn)確預(yù)測具有挑戰(zhàn)性[4]。

在信息級聯(lián)的預(yù)測中,目前的方法主要分為基于特征的方法[1-9]和生成方法[10-17],其中基于特征的方法首先基于人類的先驗(yàn)領(lǐng)域知識(shí)提取信息的各類特征,比如時(shí)間特征、結(jié)構(gòu)特征、內(nèi)容特征等,通過訓(xùn)練回歸/分類模型來預(yù)測信息在未來的流行度。這種方法特征選擇的難度較大,特征選擇的優(yōu)劣對于預(yù)測效果的影響也很大。雖然使用深度學(xué)習(xí)的方法能夠自動(dòng)學(xué)習(xí)流行度預(yù)測的特征[3],避免人工提取特征的困難,提高了預(yù)測精度,但是這些學(xué)到的特征缺乏清晰的可解釋性,難以理解信息受歡迎的具體原因。相反,生成方法致力于表征和建模一條信息引起注意的過程,使人們很容易理解控制信息流行動(dòng)態(tài)的基本機(jī)制。但是生成方法的預(yù)測能力不理想,因?yàn)樗鼈儧]有針對流行度預(yù)測進(jìn)行優(yōu)化[3]。比如,Hawkes過程通過模擬新事件的到達(dá)率建模消息流行的動(dòng)態(tài),通過用戶的影響(影響力大的用戶對新轉(zhuǎn)發(fā)的到達(dá)率的貢獻(xiàn)更大,影響力大的用戶轉(zhuǎn)發(fā)的推文往往轉(zhuǎn)發(fā)更多)、自我激勵(lì)機(jī)制(每次轉(zhuǎn)發(fā)都對未來新轉(zhuǎn)發(fā)的到達(dá)率有貢獻(xiàn))和時(shí)間衰減效應(yīng)(轉(zhuǎn)發(fā)的影響隨著時(shí)間的推移而衰減)三個(gè)關(guān)鍵因素很好地解釋觀察到的轉(zhuǎn)發(fā)。

為了克服流行度預(yù)測中基于特征的方法和生成方法的不足,Cao等人[3]使用消息的轉(zhuǎn)發(fā)量或轉(zhuǎn)發(fā)增量來度量消息的流行程度,將具有高理解性的Hawkes模型與具有高預(yù)測精度的深度學(xué)習(xí)相結(jié)合,提出了DeepHawkes 模型。DeepHawkes 模型不僅繼承了Hawkes 過程的高度可解釋性,而且具備深度學(xué)習(xí)方法的高準(zhǔn)確預(yù)測能力,彌合了信息級聯(lián)的預(yù)測與理解之間的間隙。然而,DeepHawkes 模型旨在對信息的傳播過程進(jìn)行建模,忽略了信息本身的文本內(nèi)容對于傳播的影響。事實(shí)上,信息的文本內(nèi)容對信息傳播的影響也很大,因?yàn)椴煌膬?nèi)容涉及不同的主題,不同的用戶對不同主題的興趣不同,涉及不同主題的信息往往具有不同的流行程度。因此在對信息傳播情況進(jìn)行預(yù)測時(shí),消息的文本內(nèi)容也是不可忽略的因素。

本文在DeepHawkes 模型的基礎(chǔ)上進(jìn)一步考慮了信息的文本內(nèi)容對于擴(kuò)散的影響,將LDA(latent Drichlet allocation)主題模型融入DeepHawkes 模型中,提出了LDA-DeepHawkes模型。該模型分析了信息文本內(nèi)容的主題,考慮了主題之間的自激機(jī)制,并將級聯(lián)和文本內(nèi)容的影響融合在一起。本文的主要貢獻(xiàn)包括:

(1)提出了考慮主題的DeepHawkes 模型,利用LDA 主題分類模型抽取消息文本內(nèi)容的主題,并用深度模型學(xué)習(xí)主題的表示向量,模擬主題之間的自激機(jī)制。

(2)提出了LDA-DeepHawkes 模型,該模型通過加和池進(jìn)行池化的方式將只考慮信息級聯(lián)的Deep-Hawkes 模型與LDA 主題分類模型相融合,使得預(yù)測模型既考慮了級聯(lián)的因素,又考慮了文本內(nèi)容的主題特征,從而更加全面地建模了信息擴(kuò)散過程,提高流行度預(yù)測的準(zhǔn)確度。

(3)在真實(shí)數(shù)據(jù)集上進(jìn)行了充分的實(shí)驗(yàn),對多個(gè)算法在不同條件下的預(yù)測結(jié)果進(jìn)行了比較,驗(yàn)證了所提方法的有效性。

2 相關(guān)工作

本章主要介紹信息流行度預(yù)測的方法,包括基于特征的方法、基于深度學(xué)習(xí)的方法、生成方法以及融合深度學(xué)習(xí)和生成方法的方法,同時(shí)簡介LDA 模型的應(yīng)用。

基于特征的方法通過人工提取各種與信息流行度相關(guān)的特征,如時(shí)間特征[1-3]、結(jié)構(gòu)特征[4-6]和內(nèi)容特征[7-9],將流行度預(yù)測任務(wù)視為一種回歸或分類問題。朱海龍等人[4]基于微博未來流行度與早期傳播趨勢變化之間存在的正相關(guān)關(guān)系,提出了傳播加速度的概念,并基于傳播加速度和早期流行度建立了一個(gè)多元線性回歸預(yù)測模型。劉瑋等人[5]提出了基于時(shí)間衰減的用戶興趣計(jì)算模型,有效地度量了用戶興趣及其變化特性對用戶轉(zhuǎn)發(fā)行為的影響程度。Pinto 等人[6]根據(jù)流行度的歷史信息對消息的未來流行度進(jìn)行了預(yù)測。Cheng 等人[7]發(fā)現(xiàn)在信息級聯(lián)預(yù)測研究中,時(shí)態(tài)和結(jié)構(gòu)特征是級聯(lián)大小的關(guān)鍵預(yù)測因素。Wang 等人[8]為了建模級聯(lián)動(dòng)態(tài),從觀察的級聯(lián)中學(xué)習(xí)兩個(gè)低維的用戶側(cè)(user-specific)矢量來捕捉用戶的影響和敏感性,避免了級聯(lián)動(dòng)態(tài)預(yù)測中的過擬合問題。曹玖新等人[9]基于用戶屬性、社交關(guān)系和微博內(nèi)容三類綜合特征,對微博用戶的轉(zhuǎn)發(fā)行為和轉(zhuǎn)發(fā)路徑進(jìn)行了預(yù)測。Tsur 等人[10]提出了一種基于線性回歸的有效混合方法,預(yù)測在給定時(shí)間范圍內(nèi)信息的傳播范圍,并發(fā)現(xiàn)內(nèi)容特征與時(shí)間和結(jié)構(gòu)特征的組合能最小化預(yù)測誤差。然而,這些方法的預(yù)測性能很大程度上取決于提取的特征,而這些特征通常是基于人類的先驗(yàn)知識(shí)監(jiān)督提取,面對復(fù)雜的問題和海量的數(shù)據(jù),人們很難系統(tǒng)地設(shè)計(jì)和度量能夠有效捕獲相關(guān)信息的復(fù)雜特征。

為了從復(fù)雜、海量的數(shù)據(jù)中自主提取特征,研究者將深度學(xué)習(xí)應(yīng)用于信息流行度預(yù)測。Trzcinski 等人[11]采用長時(shí)循環(huán)卷積網(wǎng)絡(luò)(long-term recurrent convolutional networks,LRCN)從視頻內(nèi)容中提取特征,然后使用提取的特征預(yù)測視圖數(shù)量。Li 等人[12]提出了一種端到端的神經(jīng)網(wǎng)絡(luò)框架DeepCas,將級聯(lián)圖表示為一組隨機(jī)游走路徑,通過詳細(xì)設(shè)計(jì)的GRU 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和注意機(jī)制來預(yù)測未來的級聯(lián)大小。但是,DeepCas 只使用了用戶網(wǎng)絡(luò)信息,并忽略了流行度預(yù)測的時(shí)態(tài)信息。Chen 等人[13]設(shè)計(jì)了一種使用雙向門控循環(huán)單元的流行預(yù)測模型,以數(shù)據(jù)驅(qū)動(dòng)的方式提取和融合文本內(nèi)容和時(shí)間序列的豐富信息,并引入注意力機(jī)制抑制數(shù)據(jù)中的噪聲。這些使用深度學(xué)習(xí)的方法雖然能夠自主學(xué)習(xí)流行度預(yù)測的特征,避免人工提取特征的困難,提高了預(yù)測精度,但是這些學(xué)到的特征缺乏清晰的可解釋性,難以幫助人們理解控制信息級聯(lián)流行動(dòng)態(tài)的潛在機(jī)制。

生成方法將信息的流行度累積視為用戶轉(zhuǎn)發(fā)行為的激勵(lì)過程,并對該過程進(jìn)行建模。Zhao 等人[14]在自激點(diǎn)理論的基礎(chǔ)上,設(shè)計(jì)了一個(gè)統(tǒng)計(jì)模型對信息流行度進(jìn)行預(yù)測。Yang 等人[15]通過觀察信息的傳播情況,用點(diǎn)激勵(lì)過程的混合概率模型預(yù)測消息未來的流行度。Zhou 等人[16]利用多維Hawkes 過程發(fā)現(xiàn)社會(huì)網(wǎng)絡(luò)中的隱藏特征并將其應(yīng)用于信息流行度預(yù)測。Wang 等人[17]利用時(shí)間窗口對信息擴(kuò)散級聯(lián)進(jìn)行建模,提出一種用于突發(fā)事件預(yù)測的算法。Shen等人[18]采用強(qiáng)化泊松過程對社會(huì)網(wǎng)絡(luò)中的三種因素(節(jié)點(diǎn)的影響力、信息熱度衰減過程以及“富者愈富”機(jī)制)進(jìn)行建模。隨后,文獻(xiàn)[18-20]利用Hawkes模型模擬了信息引起關(guān)注和轉(zhuǎn)發(fā)的過程,并采用深度學(xué)習(xí)技術(shù)對轉(zhuǎn)發(fā)情況進(jìn)行研究,使得關(guān)于信息級聯(lián)的流行動(dòng)態(tài)的潛在機(jī)制更易理解。雖然生成方法解釋性好,但其預(yù)測效果不夠理想。

DeepHawkes 模型[3]是霍克斯方法的延伸。原始的Hawkes 方法僅使用跟隨者的數(shù)量作為用戶特征,而DeepHawkes 使用用戶嵌入向量并采用門控循環(huán)神經(jīng)單元(gated recurrent unit,GRU)來編碼級聯(lián)路徑。GRU和長短時(shí)記憶模型(long short term memory,LSTM)都是循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的變體,用以緩解RNN 在學(xué)習(xí)過程中梯度爆炸和梯度消失的現(xiàn)象,從而解決RNN 網(wǎng)絡(luò)中的長期依賴問題。與LSTM 相比,GRU 的結(jié)構(gòu)更簡單,學(xué)習(xí)效率更高。DeepHawkes融合了基于深度學(xué)習(xí)方法的高預(yù)測性和生成方法的高解釋性,彌合了信息級聯(lián)的預(yù)測與理解之間的間隙,但該模型僅考慮了用戶信息和級聯(lián)路徑信息,忽略了信息內(nèi)容對信息流行度的作用。

因此,針對上述問題,本文提出了基于LDADeepHawkes 模型的信息級聯(lián)預(yù)測,該模型不僅融合了DeepHawkes 的高解釋性和高預(yù)測性能,還利用LDA 模型考慮了信息內(nèi)容對信息流行度的影響。

LDA 主題模型是一種主題生成技術(shù)[21],常用來識(shí)別大規(guī)模文檔集或語料庫中潛在的主題信息,Ramage 等人[22]針對信息傳播中的內(nèi)容特征,利用了主題分類模型,用主題特征描述消息內(nèi)容。張晨逸等人[23]提出了一種基于文本內(nèi)容關(guān)聯(lián)關(guān)系的主題模型,進(jìn)一步體現(xiàn)了主題特征在文本內(nèi)容中的代表性。最近幾年在信息預(yù)測中得到廣泛應(yīng)用。比如,Kang 等人[24]基于LDA 模型提出了一種融入社交網(wǎng)絡(luò)關(guān)注度的信息預(yù)測算法,用于預(yù)測信息的傳播情況。Liu 等人[25]通過擴(kuò)展LDA 模型,將n維特征整合為幾個(gè)潛在主題,提出一種新的概率主題模型來預(yù)測多個(gè)因素模型框架下的人格特征。Wang 等人[26]將標(biāo)簽傳播算法與LDA 模型結(jié)合,根據(jù)微博內(nèi)容、用戶之間的社交關(guān)系以及不同的興趣區(qū)域,提出了一種基于用戶交互行為的用戶影響力預(yù)測算法。

3 LDA-DeepHawkes模型

在介紹本文提出的LDA-DeepHawkes 模型之前,先對本文所使用到的符號(hào)進(jìn)行說明。

設(shè)在線社交平臺(tái)有M條消息M={mi}(1 ≤i≤M),mi的擴(kuò)散過程用級聯(lián)表示,其中元組對應(yīng)于消息mi的第j次轉(zhuǎn)發(fā),表示用戶轉(zhuǎn)發(fā)來自的消息是原始帖子和第j次轉(zhuǎn)發(fā)之間時(shí)間間隔。消息mi的流行度定義為時(shí)間t之前消息的轉(zhuǎn)發(fā)數(shù)量,即流行度的預(yù)測問題定義為:基于消息mi的文本內(nèi)容和時(shí)間窗口[0,T)中觀察到的級聯(lián),預(yù)測級聯(lián)Ci觀察到的流行度與最終流行度之間的增量文中符號(hào)概述如表1 所示。

Table 1 Overview of symbols表1 文中符號(hào)概述

LDA-DeepHawkes 模型包括關(guān)于級聯(lián)的Deep-Hawkes 組件、關(guān)于主題的DeepHawkes 組件及上述兩個(gè)組件的融合,其框架如圖1所示。LDA-DeepHawkes模型將信息級聯(lián)及消息的文本內(nèi)容作為輸入,將模型的輸出作為級聯(lián)轉(zhuǎn)發(fā)增量的預(yù)測值。

3.1 關(guān)于級聯(lián)的DeepHawkes組件

關(guān)于級聯(lián)的DeepHawkes 組件采用Cao 等人[3]所提的模型。組件以信息級聯(lián)作為輸入,將輸入的級聯(lián)轉(zhuǎn)換為一組擴(kuò)散路徑,每個(gè)擴(kuò)散路徑描繪了在觀察時(shí)間內(nèi)信息的轉(zhuǎn)發(fā)過程。組件通過用戶嵌入、轉(zhuǎn)發(fā)路徑編碼及時(shí)間衰減三個(gè)組成部分對Hawkes過程的可解釋因素進(jìn)行類比。

(1)用戶嵌入

用戶嵌入將用戶身份嵌入低維空間以表示用戶對信息擴(kuò)散的影響。通常,在線內(nèi)容在未來受歡迎的程度與參與用戶有關(guān)(參與者的影響力越大,收到的轉(zhuǎn)發(fā)就越多),并且在社交網(wǎng)絡(luò)中位置不同或興趣不同的用戶對信息擴(kuò)散產(chǎn)生的影響也可能不同。Cao 等人[3]在受監(jiān)督的流行度預(yù)測框架下學(xué)習(xí)用戶身份的表示,并用學(xué)習(xí)到的表示(對于流行度預(yù)測是最優(yōu)的)作為用戶影響的表達(dá)。

Fig.1 Frame of LDA-DeepHawkes圖1 LDA-DeepHawkes框架

(2)級聯(lián)轉(zhuǎn)發(fā)路徑編碼

級聯(lián)轉(zhuǎn)發(fā)路徑編碼通過循環(huán)神經(jīng)網(wǎng)絡(luò)(GRU)單元模擬級聯(lián)中每個(gè)用戶在當(dāng)前轉(zhuǎn)發(fā)之后對隨后的轉(zhuǎn)發(fā)產(chǎn)生的影響(影響傳遞)及用戶在級聯(lián)結(jié)構(gòu)中的重要性。影響的傳遞表示以前的參與者不僅影響其直接轉(zhuǎn)發(fā)者,而且還通過傳遞性的方式對間接轉(zhuǎn)發(fā)者產(chǎn)生影響。用戶在級聯(lián)結(jié)構(gòu)中的重要性通過用戶在多個(gè)轉(zhuǎn)發(fā)路徑中頻繁出現(xiàn)來表示。各個(gè)轉(zhuǎn)發(fā)路徑最后一個(gè)GRU 的輸出被傳送給融合組件,通過累加各種影響實(shí)現(xiàn)Hawkes 的自我激勵(lì)機(jī)制(每次轉(zhuǎn)發(fā)都會(huì)增加未來新轉(zhuǎn)發(fā)的到達(dá)率)。

(3)時(shí)間衰減效應(yīng)

時(shí)間衰減效應(yīng)表示轉(zhuǎn)發(fā)的影響隨著時(shí)間的推移而衰減。假設(shè)在時(shí)間T內(nèi)觀察到所有消息的擴(kuò)散,那么未知的時(shí)間衰減效應(yīng)?(t)是一個(gè)在[0,T)上連續(xù)變化的函數(shù)。Cao 等人[3]將時(shí)間長度T分割為多個(gè)不相交的區(qū)間來近似?(t),并使用非參數(shù)方法學(xué)習(xí)相應(yīng)的離散時(shí)間衰減效應(yīng)因子λl。

關(guān)于級聯(lián)的DeepHawkes 組件中用戶嵌入、路徑編碼及時(shí)間衰減的細(xì)節(jié)參見文獻(xiàn)[3]。

3.2 關(guān)于主題的DeepHawkes組件

關(guān)于主題的DeepHawkes 組件以信息的文本內(nèi)容作為輸入,通過LDA 主題模型抽取消息中的主題,構(gòu)建主題嵌入矩陣,將抽取的主題轉(zhuǎn)換為一組主題路徑并傳遞到循環(huán)神經(jīng)網(wǎng)絡(luò)GRU 進(jìn)行編碼,以模擬主題路徑中主題間的影響(影響傳遞)及主題在主題路徑結(jié)構(gòu)中的重要性。組件通過主題嵌入、主題路徑編碼及主題重要性衰減三個(gè)組成部分對Hawkes過程的可解釋因素進(jìn)行類比。

3.2.1 主題嵌入

不同的消息涉及不同的主題。本文通過LDA 主題模型抽取消息中的主題,并構(gòu)建主題信息嵌入矩陣。構(gòu)建過程如下:

分詞。由于微博文本內(nèi)容具有數(shù)據(jù)集較大,詞長較短的特點(diǎn),本文使用python 的結(jié)巴分詞包[27],采用精確分詞模式對消息內(nèi)容進(jìn)行分詞,并去除單字詞及標(biāo)點(diǎn)符號(hào)。

構(gòu)建文檔-詞頻矩陣。統(tǒng)計(jì)所有消息中的總詞數(shù)和各詞出現(xiàn)的次數(shù),構(gòu)建文檔-詞頻矩陣:若消息mi中包含詞wj,則文檔-詞頻矩陣中的元素xji為詞wj的出現(xiàn)次數(shù)在總詞數(shù)中的占比,即,否則xji=0。

LDA 主題建模。將文檔-詞頻矩陣輸入LDA 主題分類模型,構(gòu)建主題-詞頻矩陣和文檔-主題矩陣。主題-詞頻矩陣存儲(chǔ)各個(gè)主題生成不同詞的概率,文檔-主題矩陣存儲(chǔ)各個(gè)消息對應(yīng)到不同主題的概率。

LDA 模型是一個(gè)包含詞、主題和消息文檔的三層產(chǎn)生式全概率生成模型,模型結(jié)構(gòu)如圖2 所示,其基本思想是把文檔視為其隱含主題的混合,而每個(gè)主題則表現(xiàn)為跟該主題相關(guān)的詞的頻率分布。圖2中M為消息總數(shù),K為主題數(shù),每條消息的文本內(nèi)容由多個(gè)詞構(gòu)成,所有消息中包含的N個(gè)詞組成一個(gè)詞集。?k表示主題k中所有詞的概率分布,θi表示消息mi的所有主題的概率分布,θi和?k分別服從超參數(shù)α和β的狄利克雷先驗(yàn)分布。wi,n和zi,n分別表示消息mi中的第n個(gè)詞及第n個(gè)詞的主題。

Fig.2 LDA topic classification model圖2 LDA 主題分類模型

LDA 以M條消息的文本內(nèi)容作為輸入,將消息的文本內(nèi)容作為文檔,以主題-詞頻矩陣和文檔-主題矩陣作為輸出。主題-詞頻矩陣描述每個(gè)主題生成不同詞的概率,文檔-主題矩陣描述每條消息對應(yīng)到不同主題的概率。設(shè)nsw表示詞集中對應(yīng)于主題S的第W個(gè)詞的數(shù)目,Nw表示所有主題S詞的數(shù)目,則主題-詞頻矩陣中元素psw表示主題S的第W個(gè)詞的概率,設(shè)nij表示消息mi對應(yīng)第j個(gè)主題的詞的數(shù)目,則文檔-主題矩陣中元素Pij表示消息mi對應(yīng)第j個(gè)主題的概率

LDA 模型基于當(dāng)前的θi和?k,為一個(gè)消息中的一個(gè)單詞計(jì)算它對應(yīng)任意一個(gè)主題的概率:

根據(jù)各個(gè)對應(yīng)主題概率值的大小更新這個(gè)詞應(yīng)該對應(yīng)的主題。如果這個(gè)更新改變了這個(gè)詞所對應(yīng)的主題,則對θi和?k進(jìn)行更新。不斷迭代這個(gè)過程直至各個(gè)概率不再變化(模型收斂)。模型收斂后即可獲得主題-詞頻矩陣和文檔-主題矩陣。

構(gòu)建主題嵌入矩陣。采用Word2Vec 方法[28]生成各個(gè)詞的詞向量,然后取每個(gè)主題下所有關(guān)鍵詞的詞向量的平均作為該主題的表示向量。主題嵌入矩陣B∈RL′×K的每一列表示一個(gè)主題的表示向量,L′是主題表示向量的維度,K是主題數(shù)目。

例表2 所示的示例數(shù)據(jù)集包含了消息序號(hào)、消息內(nèi)容、消息的轉(zhuǎn)發(fā)路徑及轉(zhuǎn)發(fā)時(shí)間,其中第三列“轉(zhuǎn)發(fā)路徑及轉(zhuǎn)發(fā)時(shí)間”中“/”表示用戶之間的轉(zhuǎn)發(fā)關(guān)系,“:”后的數(shù)字代表轉(zhuǎn)發(fā)時(shí)間與消息發(fā)布時(shí)間的間隔(單位:s),比如第一行第三列的“1/2:2 700”表示用戶2 轉(zhuǎn)發(fā)了用戶1 發(fā)布的消息,轉(zhuǎn)發(fā)時(shí)間發(fā)生在用戶1 發(fā)布消息后的第2 700 s。

Table 2 Example of dataset表2 數(shù)據(jù)集示例

對表2 中第二列“消息內(nèi)容”進(jìn)行分詞,結(jié)果如表3 所示。

Table 3 Participle result of message text表3 消息文本的分詞結(jié)果

表4 和表5 分別統(tǒng)計(jì)了消息文本中各詞出現(xiàn)的次數(shù)及各詞在各個(gè)文檔中出現(xiàn)的頻率。

設(shè)每個(gè)主題取3個(gè)關(guān)鍵詞,則各個(gè)主題的關(guān)鍵詞如表6 所示,各條消息涉及的主題及各個(gè)主題在消息中的權(quán)重如表7 所示。

Table 4 Count of words表4 詞數(shù)統(tǒng)計(jì)

Table 5 Word frequency-document matrix表5 詞頻-文檔矩陣

Table 6 Keywords of each topic表6 各主題關(guān)鍵詞

Table 7 Topics covered by each message and weight of each topic表7 各條消息所涉及的主題及各個(gè)主題的權(quán)重

設(shè)主題表示向量的維度為3,則主題嵌入矩陣B如表8 所示。

Table 8 Topic embedding matrix B表8 主題嵌入矩陣B

3.2.2 主題路徑編碼

設(shè)消息mi涉及n個(gè)主題t1,t2,…,tn,這n個(gè)主題在當(dāng)前消息中所占的比重r1,r2,…,rn滿足r1>r2>…>rn,則這n個(gè)主題的子集稱為消息mi的主題路徑。每條主題路徑中的每個(gè)主題被表示為一個(gè)one-hot 矢量q′∈RK,其中K是主題總數(shù)。所有主題共享一個(gè)嵌入矩陣B∈RL′×K,其中L′是主題表示向量的維度。主題嵌入矩陣B將每個(gè)主題轉(zhuǎn)換為它的表示向量:

與用戶嵌入矩陣A類似,主題嵌入矩陣B也是在訓(xùn)練過程中在未來流行度的監(jiān)督下進(jìn)行學(xué)習(xí),因此學(xué)到的主題嵌入矩陣B對于流行度預(yù)測是最優(yōu)的。

主題路徑編碼通過循環(huán)神經(jīng)網(wǎng)絡(luò)GRU 模擬主題路徑中主題間的影響(影響傳遞)及主題在主題路徑結(jié)構(gòu)中的重要性。影響的傳遞表示權(quán)重大的主題對所有權(quán)重小的主題產(chǎn)生影響。主題在主題路徑結(jié)構(gòu)中的重要性通過主題在多個(gè)主題路徑中頻繁出現(xiàn)來表示。各個(gè)主題路徑最后一個(gè)GRU 的輸出被傳送給融合組件,通過累加各種影響實(shí)現(xiàn)Hawkes 的自我激勵(lì)機(jī)制。

使用GRU 為消息mi的每個(gè)主題,1 ≤j≤K進(jìn)行編碼時(shí),GRU 中第t個(gè)隱藏狀態(tài),其中輸出ht′∈RH,輸入是主題表示向量,RH是先前的隱藏狀態(tài),L′是主題嵌入的維度,H是隱藏狀態(tài)的維度。

重置門rt′∈RH的計(jì)算:

其中,σ(?)是sigmoid激活函數(shù),W′r′∈RH×L′,U′r′∈RH×H和b′r′∈RH是GRU 在訓(xùn)練過程中學(xué)到的參數(shù)。

其中,W′z′∈RH×L′,U′z′∈RH×H和b′z′∈RH。

3.2.3 主題重要性衰減效應(yīng)

不同的主題對于信息傳播的貢獻(xiàn)不同,通常相關(guān)性高的主題影響更大。本文使用LDA 獲得的消息-主題矩陣中各個(gè)主題在消息中的權(quán)重作為主題重要性衰減因子比如

3.3 融合組件

融合組件包含池化層、兩個(gè)全連接層和輸出層。池化層將關(guān)于級聯(lián)的DeepHawkes 組件和關(guān)于主題的DeepHawkes 組件的各個(gè)路徑(級聯(lián)路徑和主題路徑)的最后一個(gè)GRU 的輸出通過池化的方式融合在一起,綜合反映級聯(lián)和主題對于信息擴(kuò)散的影響。消息mi的級聯(lián)-主題表示定義為:

其中,Ki是消息mi涉及的主題數(shù)目。

池化層的輸出傳遞給全連接層作為其輸入,輸出層只有一個(gè)輸出單元,其輸出值為最小化目標(biāo)函數(shù)定義為,其中為消息mi的預(yù)測增量流行度,是真正的增量流行度,M是消息總數(shù)。由于平方損失容易受到異常值的影響,因此目標(biāo)函數(shù)對增量流行進(jìn)行對數(shù)變換。變換后的目標(biāo)函數(shù)的行為類似于平均絕對百分比誤差(mean absolute percentage error,MAPE),并且更容易優(yōu)化。

3.4 算法描述

LDA-DeepHawkes的算法描述如下:

DeepHawkesc(Ci)和DeepHawkesc(mi)分別表示關(guān)于級聯(lián)的DeepHawkes組件和關(guān)于主題的DeepHawkes組件,它們的輸入分別是級聯(lián)和消息的文本內(nèi)容。

LDA-DeepHawkes算法:

4 實(shí)驗(yàn)及結(jié)果

本章將介紹LDA-DeepHwakes 的實(shí)驗(yàn)評估。實(shí)驗(yàn)的操作系統(tǒng)為Linux(Ubuntu 16.0),硬件環(huán)境為Intel?CoreTMi7-7800k(3.4 GHz),RAM 為16 GB,顯卡為Nvidia 1080Ti(11 GB)。

4.1 實(shí)驗(yàn)準(zhǔn)備

(1)數(shù)據(jù)集。本文實(shí)驗(yàn)使用了兩個(gè)從新浪微博爬取的真實(shí)數(shù)據(jù)集。新浪微博是國內(nèi)最大的微博系統(tǒng),系統(tǒng)中用戶發(fā)博時(shí)間具有明顯的日分布和周分布模式,博文數(shù)目分布表現(xiàn)為威布爾分布,博文的轉(zhuǎn)發(fā)和評價(jià)行為具有很強(qiáng)的相關(guān)性,且博文轉(zhuǎn)發(fā)概率要高于評價(jià)概率[29]。數(shù)據(jù)集1 的爬取時(shí)間為2018年6月20日8:00 至2018年6月21日16:00,其中2018年6月20日8:00 至2018年6月20日16:00爬取微博消息及其轉(zhuǎn)播路徑,2018年6月20日16:00 至2018年6月21日16:00 只對已爬取的微博進(jìn)行轉(zhuǎn)發(fā)量的跟蹤,而不爬取新的微博消息。數(shù)據(jù)集2 的爬取時(shí)間為2018年10月22日19:00 至2018年10月23日19:00,其中2018年10月22日19:00 至2018年10月22日22:00 爬取微博消息及其轉(zhuǎn)播路徑,2018年10月22日22:00至2018年10月23日19:00 只對已爬取的微博進(jìn)行轉(zhuǎn)發(fā)量的跟蹤,而不爬取新的微博消息。爬取的數(shù)據(jù)包含消息ID、消息發(fā)布者ID、轉(zhuǎn)發(fā)者ID、消息轉(zhuǎn)發(fā)時(shí)間與消息發(fā)布時(shí)間的時(shí)間間隔(單位:s)和消息的內(nèi)容。數(shù)據(jù)集格式如表2 所示。

在爬取的數(shù)據(jù)中,有少量消息轉(zhuǎn)發(fā)量過少或過大。為了減少這些極端情況對于預(yù)測結(jié)果的影響,本文將收集的數(shù)據(jù)中轉(zhuǎn)發(fā)量小于10 或大于1 000 的微博消息刪除。兩個(gè)數(shù)據(jù)集的部分特征如表9 所示。

(2)Baseline 模型。采用Feature-linear、DeepCas和DeepHawkes 三種模型作為本文的Baseline 模型。Feature-linear[7]是一種基于時(shí)間特征、結(jié)構(gòu)特征和時(shí)間衰減等特征的級聯(lián)預(yù)測模型。DeepCas[14]是一種基于表示學(xué)習(xí)的級聯(lián)預(yù)測模型。DeepHawkes[3]是融合了深度學(xué)習(xí)和Hawkes模型的級聯(lián)預(yù)測模型。由于信息擴(kuò)散受多種因素的影響,為了分析不同因素對消息傳播的影響,除了Baseline 模型,本文還設(shè)計(jì)了如下幾種DeepHawkes和LDA-DeepHawkes的變體模型:

Table 9 Partial characteristics of datasets表9 數(shù)據(jù)集部分特征

DH-U:只使用用戶信息的DeepHawkes模型。

DH-P:只使用級聯(lián)路徑信息的DeepHawkes模型。

LDA-DH-S:只使用LDA 主題信息且只有一條主題路徑的LDA-DeepHawkes模型,如圖3(a)所示。

LDA-DH-M:只使用LDA 主題信息但有多條主題路徑的LDA-DeepHawkes模型,如圖3(b)所示。

LDA-DH-US:只使用用戶信息和主題信息且只有一條主題路徑的LDA-DeepHawkes 模型,如圖3(c)所示。

LDA-DH-UM:只使用用戶信息和主題信息但有多條主題路徑的LDA-DeepHawkes 模型,如圖3(d)所示。

LDA-DH-PS:只使用級聯(lián)路徑信息和主題信息且只有一條主題路徑的LDA-DeepHawkes 模型,如圖3(e)所示。

LDA-DH-PM:只使用路徑信息和主題信息但有多條主題路徑的LDA-DeepHawkes 模型,如圖3(f)所示。

(3)評價(jià)指標(biāo)。與文獻(xiàn)[3]類似,本文使用均方對數(shù)誤差(mean square log-transformed error,MSLE)[3]和中值平方對數(shù)誤差(median square log-transformed error,mSLE)[3]作為評價(jià)指標(biāo)。MSLE用于度量預(yù)測值和真實(shí)值之間的誤差,其定義為其中M是消息的數(shù)目,SLEi是消息mi的對數(shù)誤差,SLEi=分別為消息mi流行度的預(yù)測增量和真實(shí)增量。mSLE是SLEi(i=1,2,…,M)的中位數(shù),即mSLE=median(SLE1,SLE2,…,SLEM) 。mSLE能夠有效減輕離群點(diǎn)的影響。

4.2 參數(shù)設(shè)置

Fig.3 LDA-DeepHawkes variation model structure圖3 LDA-DeepHawkes變體模型結(jié)構(gòu)

(1)觀察時(shí)間。本文任務(wù)是根據(jù)觀察時(shí)間內(nèi)所觀察到的轉(zhuǎn)發(fā)情況來預(yù)測未來某個(gè)時(shí)間點(diǎn)的轉(zhuǎn)發(fā)增量,為了確定觀察時(shí)間,本文考察了不同時(shí)間的轉(zhuǎn)發(fā)數(shù)和所有消息轉(zhuǎn)發(fā)量占比的平均值與轉(zhuǎn)發(fā)時(shí)間之間的關(guān)系。一條消息在某一時(shí)刻的轉(zhuǎn)發(fā)量占比定義為這一時(shí)刻之前該消息的轉(zhuǎn)發(fā)量占消息最終轉(zhuǎn)發(fā)量的百分比。圖4 顯示了兩個(gè)數(shù)據(jù)集上轉(zhuǎn)發(fā)數(shù)對數(shù)值與時(shí)間的關(guān)系,圖5 顯示了數(shù)據(jù)集1 和數(shù)據(jù)集2 在24 小時(shí)內(nèi)所有消息轉(zhuǎn)發(fā)量占比的平均值與轉(zhuǎn)發(fā)時(shí)間的關(guān)系。從圖4 可見,微博的轉(zhuǎn)發(fā)行為具有周期性,并且不同時(shí)間段內(nèi)微博的轉(zhuǎn)發(fā)數(shù)有明顯差異,午夜2 點(diǎn)至早8 點(diǎn)用戶活躍度很低;上午10 點(diǎn)至晚上22 點(diǎn)左右,用戶活躍度很高。從圖5 可以看到,兩個(gè)數(shù)據(jù)集的轉(zhuǎn)發(fā)量隨時(shí)間變化的情況非常類似,在消息發(fā)出后的第1個(gè)小時(shí),其轉(zhuǎn)發(fā)量占到了消息最終轉(zhuǎn)發(fā)量的55%左右;在消息發(fā)布后的第2個(gè)小時(shí),其轉(zhuǎn)發(fā)量占到了消息最終轉(zhuǎn)發(fā)量的65%左右;在消息發(fā)出后的第3個(gè)小時(shí),其轉(zhuǎn)發(fā)量占到了消息最終轉(zhuǎn)發(fā)量的72%左右;在消息發(fā)出后的第24個(gè)小時(shí),消息的轉(zhuǎn)發(fā)量基本達(dá)到最大。為此,本文將觀察時(shí)間分別設(shè)為1 小時(shí)、2 小時(shí)和3 小時(shí),即分別通過55%、65%、72%的已觀察到的轉(zhuǎn)發(fā)情況來預(yù)測消息最終的轉(zhuǎn)發(fā)增量。在消息發(fā)出后的第24個(gè)小時(shí),消息的轉(zhuǎn)發(fā)量基本達(dá)到最大,因此將消息發(fā)布后的第24個(gè)小時(shí)的轉(zhuǎn)發(fā)增量設(shè)為消息的真實(shí)轉(zhuǎn)發(fā)增量。

Fig.4 Number of retweets圖4 轉(zhuǎn)發(fā)量

Fig.5 Weibo popularity圖5 微博流行度

(2)訓(xùn)練集、驗(yàn)證集和測試集。數(shù)據(jù)集1 的觀察時(shí)間從2018年6月20日13:00 開始,數(shù)據(jù)集2 的觀察時(shí)間從2018年10月22日19:00 開始。數(shù)據(jù)集的前70%設(shè)為訓(xùn)練集,中間15%設(shè)為驗(yàn)證集,最后15%設(shè)為測試集。各個(gè)訓(xùn)練集、驗(yàn)證集和測試集中級聯(lián)和轉(zhuǎn)發(fā)的具體數(shù)目如表10 所示。

Table 10 Segmentation of datasets表10 數(shù)據(jù)集的劃分

(3)主題數(shù)。本文利用困惑度指標(biāo)[30]確定主題K的數(shù)量。困惑度是一種評價(jià)語言模型優(yōu)劣的指標(biāo),較小的困惑度意味著模型對新文本有著較好的預(yù)測效果[30]。困惑度的定義為:

其中,D表示輸入到LDA 模型中的文檔集合,M是D中文檔的數(shù)量,Nd表示文檔d中的單詞數(shù),分母是所有詞數(shù)之和,不排重。wd表示文檔d中的一個(gè)詞,p(wd) 為文檔中詞wd產(chǎn)生的概率,p(wd)=p(z|d)×p(w|z),p(z|d)表示的是一個(gè)文檔中每個(gè)主題出現(xiàn)的概率,p(w|z)表示的是詞典中的每一個(gè)單詞在某個(gè)主題下出現(xiàn)的概率。

圖6 顯示了數(shù)據(jù)集1 和數(shù)據(jù)集2 取對數(shù)后的困惑度隨主題數(shù)K的變化而變化的情況。從圖6 中可以看到,當(dāng)主題數(shù)K分別為480、170 時(shí),兩個(gè)數(shù)據(jù)集的困惑度最低,因此在這兩個(gè)數(shù)據(jù)集中,主題數(shù)分別設(shè)為K1=480,K2=170。

(4)LDA 超參數(shù)。LDA 主題模型有兩個(gè)超參數(shù)α和β。圖7 顯示了兩個(gè)數(shù)據(jù)集上LDA 超參數(shù)α、β對主題分類準(zhǔn)確性的影響。圖7(a)分析了當(dāng)β分別取0.1、0.3、0.5、0.7 時(shí)α對困惑度的影響,α∈[0,1]。圖7(b)分析了當(dāng)α分別取0.1、0.3、0.5、0.7 時(shí)β對困惑度的影響,β∈[0,1]。從圖7 可以看出,當(dāng)α=0.3,β=0.1 時(shí),兩個(gè)數(shù)據(jù)集上的困惑度均最低,此時(shí)主題分類效果最好,因此本文設(shè)置LDA 模型的超參數(shù)為α=0.3,β=0.1。

(5)用戶(主題)向量維度。LDA-DeepHawkes 模型包含用戶嵌入矩陣和主題嵌入矩陣,其中用戶嵌入矩陣由用戶向量構(gòu)成,主題嵌入矩陣由主題向量構(gòu)成。本文設(shè)置主題向量的維度與用戶向量的維度相同。圖8 給出了MSLE隨用戶(主題)向量維度的變化而變化的情況,從圖中可以看出,主題向量維度為50 時(shí),MSLE達(dá)到最小。因此本文取用戶(主題)向量維度為50。

Fig.6 Perplexity varies with the number K of topics圖6 困惑度隨主題數(shù)K 的變化

Fig.7 Perplexity varies with α and β圖7 困惑度隨超參數(shù)α 和β 的變化

Fig.8 Influence of vector dimension on MSLE圖8 向量維度對MSLE 的影響

(6)時(shí)間衰減區(qū)間。轉(zhuǎn)發(fā)的影響隨著時(shí)間的推移而衰減,DeepHawkes 模型[3]通過非參數(shù)方法直接學(xué)習(xí)時(shí)間衰減因子λl。圖9 給出了將時(shí)間衰減區(qū)間長度分別設(shè)置為2 min、5 min、10 min 和20 min 時(shí)數(shù)據(jù)集1 上學(xué)到的衰減因子,圖10 給出了不同時(shí)間衰減區(qū)間長度下數(shù)據(jù)集1 和數(shù)據(jù)集2 的均方對數(shù)誤差(MSLE)。由圖10 可見,當(dāng)時(shí)間衰減區(qū)間長度設(shè)置為5 min 時(shí),兩個(gè)數(shù)據(jù)集的MSLE都較小,因此本文設(shè)置時(shí)間衰減區(qū)間長度為5 min。

(7)GRU 的學(xué)習(xí)率。本文基于不同的學(xué)習(xí)率分別對GRU 進(jìn)行訓(xùn)練。圖11 給出了兩個(gè)數(shù)據(jù)集上MSLE隨學(xué)習(xí)率的變化而變化的情況,從圖11 中可以看出,當(dāng)學(xué)習(xí)率介于1×10-4與1×10-3時(shí),MSLE較低。在[1×10-4,1×10-3]區(qū)間進(jìn)一步細(xì)化學(xué)習(xí)率,考察MSLE與學(xué)習(xí)率的關(guān)系,最終設(shè)置學(xué)習(xí)率為5.4×10-4。

Fig.9 Influence of time window on decay effect圖9 時(shí)間窗口對衰減因子的影響

Fig.10 Influence of time window on MSLE圖10 時(shí)間窗口對MSLE 的影響

Fig.11 Relationship between MSLE and learning rate圖11 MSLE 與學(xué)習(xí)率的關(guān)系

(8)其他參數(shù)。與文獻(xiàn)[3]類似,本文中每個(gè)GRU的隱藏層包含32個(gè)神經(jīng)元,兩個(gè)全連接層分別包含32 和16個(gè)神經(jīng)元,每次迭代的批處理大小設(shè)為32,梯度裁剪值value=0.1,更新門和重置門輸出限制為[0,1]。只要驗(yàn)證集的誤差在10 次連續(xù)迭代中沒有下降,訓(xùn)練過程就停止。

4.3 實(shí)驗(yàn)結(jié)果

本文分別在數(shù)據(jù)集1 和數(shù)據(jù)集2 上使用訓(xùn)練集訓(xùn)練模型,使用驗(yàn)證集調(diào)整模型參數(shù),使用測試集評價(jià)模型的性能。性能的評價(jià)包括與Basline 結(jié)果和與模型變體結(jié)果的比較。同時(shí),本節(jié)還考察了算法的收斂性。

4.3.1 性能評價(jià)

(1)與Baseline 模型的性能比較。表11 給出了Feature-linear、DeepCas、DeepHawkes 和LDA-Deep-Hawkes 四種模型在數(shù)據(jù)集1 和數(shù)據(jù)集2 測試集上的性能表現(xiàn)。

從表11 可以看到,基于深度學(xué)習(xí)的模型(Deep-Hawkes和LDA-DeepHawkes)比只使用特征的Featurelinear 預(yù)測精度高。DeepCas 雖然也使用了深度學(xué)習(xí),但模型考慮到的傳播因素較少,因此預(yù)測效果不如DeepHawkes和LDA-DeepHawkes,甚至不如Featurelinear。與DeepHawkes 模型相比,LDA-DeepHawkes模型誤差更小,精度更高,在兩個(gè)數(shù)據(jù)集上的平均精度分別提高了6%和10%。并且觀察時(shí)間越長,LDADeepHawkes 的預(yù)測效果越好。實(shí)驗(yàn)結(jié)果表明本文在DeepHawkes 模型的基礎(chǔ)上,進(jìn)一步考慮消息的文本內(nèi)容對于提高消息流行度的預(yù)測精度是有效的。

(2)與模型變體的性能比較。表12 給出了Deep-Hawkes 和LDA-DeepHawkes 及各種變體模型在數(shù)據(jù)集1 和數(shù)據(jù)集2 測試集上的性能表現(xiàn)。

從表12 可以看到:

①在兩個(gè)數(shù)據(jù)集的所有觀察窗口內(nèi)DH-U 的MSLE和mSLE都比DeepHawkes 高,除了在數(shù)據(jù)集1的2 h 和3 h 上DH-P 的mSLE比DeepHawkes低外,DH-P的MSLE和mSLE都比Deep-Hawkes 高,說明同時(shí)使用用戶信息和級聯(lián)路徑信息對提高消息流行度的預(yù)測精度是有益的。

②在兩個(gè)數(shù)據(jù)集的所有觀察窗口內(nèi)LDA-DH-S的MSLE都比LDA-DH-M 高,除了在數(shù)據(jù)集1的2h和數(shù)據(jù)集2的2h和3h上LDA-DH-S的mSLE比LDA-DH-M低外,LDA-DH-S的mSLE都比LDADH-M高,說明考慮主題的自激效應(yīng)對提高消息流行度的預(yù)測精度是有益的。

③LDA-DH-US、LDA-DH-UM、LDA-DH-P 和LDA-DH-PM 的性能表現(xiàn)說明,用戶信息或級聯(lián)路徑信息無論是與一條主題路徑結(jié)合,還是與多條主題信息結(jié)合都有助于提高消息流行度的預(yù)測精度。

④在兩個(gè)數(shù)據(jù)集的所有觀察窗口內(nèi)LDA-Deep-Hawkes 都取得了最好的MSLE和mSLE,說明綜合應(yīng)用用戶信息、級聯(lián)路徑信息及主題路徑信息是合理的。

Table 11 Performance of feature-linear,DeepCas,DeepHawkes and LDA-DeepHawkes表11 Feature-linear、DeepCas、DeepHawkes和LDA-DeepHawkes的性能表現(xiàn)

Table 12 Performance of DeepHawkes,LDA-DeepHawkes and their variation models表12 DeepHawkes和LDA-DeepHawkes及各種變體模型的性能表現(xiàn)

4.3.2 算法的收斂性

圖12 描述了數(shù)據(jù)集1 和數(shù)據(jù)集2 上算法在不同迭代步的MSLE和mSLE。可以看出在兩個(gè)數(shù)據(jù)集上MSLE(mSLE)變化趨勢相近,并且算法收斂很快,迭代60 次之后,MSLE(mSLE)開始穩(wěn)定。

Fig.12 Influence of the number of iterations on MSLE(mSLE)圖12 迭代次數(shù)對MSLE(mSLE)的影響

5 結(jié)束語

本文在DeepHawkes模型的基礎(chǔ)上進(jìn)一步考慮了信息的文本內(nèi)容對于擴(kuò)散的影響,將LDA 主題模型融入DeepHawkes 模型中,提出了LDA-DeepHawkes模型。該模型既考慮了級聯(lián)的因素,又考慮了信息的文本內(nèi)容,從而更加全面地建模了信息擴(kuò)散過程,在繼承DeepHawkes 高解釋性的同時(shí),進(jìn)一步提高了流行度預(yù)測的準(zhǔn)確度。真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了LDA-DeepHawkes模型的有效性。

本文利用神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)了用戶和主題的嵌入矩陣,這些矩陣中蘊(yùn)含了用戶的行為、偏好、主題間的關(guān)聯(lián)等信息。如何深入挖掘這些信息,為用戶提供更好的服務(wù)有待進(jìn)一步的研究。

猜你喜歡
用戶信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
展會(huì)信息
主站蜘蛛池模板: 国产情精品嫩草影院88av| 67194在线午夜亚洲| 亚洲国产精品无码久久一线| 青青草a国产免费观看| 九九这里只有精品视频| 中文字幕永久在线看| 亚洲欧美日韩另类在线一| 91精品专区| 91福利国产成人精品导航| 少妇人妻无码首页| 精品国产电影久久九九| 亚洲人成人伊人成综合网无码| 国产极品美女在线观看| www亚洲精品| 亚洲黄网在线| 午夜精品久久久久久久99热下载| 精品夜恋影院亚洲欧洲| 免费毛片视频| 久久夜色撩人精品国产| 欧美一区二区三区国产精品 | 一本一道波多野结衣av黑人在线| 成人午夜视频网站| 9久久伊人精品综合| 欧美一级片在线| 国产美女免费网站| 天天综合网亚洲网站| 97无码免费人妻超级碰碰碰| 欧美成人h精品网站| 国产本道久久一区二区三区| 亚洲色图在线观看| 综合色在线| 国产一区二区三区在线观看视频| 91av成人日本不卡三区| 国产精品嫩草影院av| h网站在线播放| 日本少妇又色又爽又高潮| 亚洲日本www| 亚洲浓毛av| 国产亚洲视频在线观看| 欧美成人精品高清在线下载| 日本91视频| 欧美日韩北条麻妃一区二区| 亚洲成人高清在线观看| 国产91小视频在线观看| 亚洲成人黄色网址| 国产成人精品2021欧美日韩| 国产凹凸视频在线观看| 999国产精品永久免费视频精品久久 | 国产www网站| 无码在线激情片| 国产精品区视频中文字幕| 91精品国产麻豆国产自产在线 | 亚洲天堂网站在线| 国产老女人精品免费视频| 久久综合亚洲鲁鲁九月天| 国产人成在线视频| 国产精品女同一区三区五区| 色综合手机在线| 欧美a在线| 男女猛烈无遮挡午夜视频| 久久中文字幕av不卡一区二区| 国产av剧情无码精品色午夜| 国产精品久久久久久久久kt| 91久久国产综合精品女同我| 日韩欧美中文| 午夜不卡视频| 天天操精品| 亚洲综合色婷婷| 国产va视频| 五月天福利视频| 91在线无码精品秘九色APP| 九九热精品在线视频| 亚洲精品无码不卡在线播放| 最新国产午夜精品视频成人| 国产美女无遮挡免费视频网站 | 亚洲熟女中文字幕男人总站| 97久久免费视频| 九九九精品视频| 国产人碰人摸人爱免费视频| 九色在线视频导航91| 国产免费a级片| 真人免费一级毛片一区二区|