基于卷積神經(jīng)網(wǎng)絡(luò)的評論文本興趣點推薦算法①

2022-08-25 02:52:22申晉祥鮑美英

計算機系統(tǒng)應(yīng)用 2022年8期

申晉祥, 鮑美英

(山西大同大學(xué) 計算機與網(wǎng)絡(luò)工程學(xué)院, 大同 037009)

1 引言

近年來, 隨著社交網(wǎng)絡(luò)、智能手機以及移動設(shè)備自動定位技術(shù)的發(fā)展, 使得基于位置的社交網(wǎng)絡(luò)(locationbased social networks, LBSN)得以快速發(fā)展[1], 典型的LBSN應(yīng)用有Foursquare、Yelp、Gowalla、Facebook、大眾點評和街旁等, 在LBSN中興趣點(point-of-interest,POI)推薦是目前研究的熱點.

POI推薦注重研究用戶和POI的相關(guān)信息對用戶行為的影響, 更好地了解用戶可能感興趣的地理位置及出行活動, 探索新的POI以便在正確的時間為用戶進行合適的推薦, 有效解決了大數(shù)據(jù)環(huán)境下“信息過載”的問題[2–5], 豐富用戶的生活體驗, 同時也對促進旅游發(fā)展、商家精準(zhǔn)營銷等, 提高經(jīng)濟收入具有重要意義.

基于LBSN的POI推薦已有大量研究[6–9], 其中大多數(shù)的研究都是考慮地理位置、用戶簽到行為、社交關(guān)系、興趣點類別、流行度、評論文本以及時間因素等, 融合多個因素進行POI推薦, 實驗證明推薦模型能夠提高POI推薦性能. 但仍然存在簽到數(shù)據(jù)稀疏、評論文本信息利用不夠充分等問題. 高榕等人[10]提出GeoSoRev模型, 融合興趣點的評論文本信息、用戶社交關(guān)聯(lián)以及地理位置信息3個因素進行POI推薦, 采用基于矩陣分解的主題模型挖掘評論文本中的隱藏“主題”, 模型在準(zhǔn)確率和召回率等多個指標(biāo)都有明顯提高. 王嘯巖等人[11]提出SoGeoCom模型, 融合興趣點評論文本信息、用戶社交網(wǎng)絡(luò)和地理位置信息進行POI推薦, 采用隱狄利克雷分布(latent Dirichlet allocation,LDA)從評論文本中獲取主題以及表征主題詞, 有效提高推薦準(zhǔn)確率和召回率. 但所述模型都是基于詞袋或文檔主題模型處理評論文本信息[12], 不能深度提取評論文本的潛在特征表示. 目前基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)技術(shù)已廣泛應(yīng)用于文本處理. 馮浩等人[13]提出MFM-HNN模型, 融合評論文本信息和用戶簽到信息以提高興趣點推薦性能,利用卷積神經(jīng)網(wǎng)絡(luò)處理評論文本信息提取特征表示,捕獲更精確的上下文特征, 具有更好的推薦性能, 但模型沒有能夠基于深度學(xué)習(xí)技術(shù)融合多種上下文信息.

基于上述原因, 提出RT-CNN模型, 通過CNN處理評論文本內(nèi)容深度提取上下文語義和情感信息, 深度挖掘用戶情感傾向、用戶興趣偏好以及位置興趣點屬性信息, 再融合簽到行為和地理影響因素進行POI推薦. 實驗證明模型能夠有效提高推薦性能.

2 基于CNN的評論文本興趣點推薦模型

在LBSN中有大量的歷史簽到數(shù)據(jù), 其中所包含的多源異構(gòu)信息為深入分析用戶興趣偏好進而為用戶推薦偏好的POI提供豐富的內(nèi)容. 主要有簽到的POI地理位置、時間、POI的類別、用戶的社交以及評論等信息, 推薦模型可以融合多個因素, 采用不同方法從簽到數(shù)據(jù)中提取相關(guān)信息以便準(zhǔn)確為用戶生成POI推薦. 為便于后敘內(nèi)容理解, 表1列出了所用符號解釋.

表1 符號解釋

2.1 地理位置建模

通常情況用戶更偏好距離自己活動空間較近的POI,正如Tobler地理學(xué)第一定律所講的任何事物都相關(guān),距離近的事物之間的相關(guān)性更大. 在實際生活中, 用戶在遠(yuǎn)離其生活空間的POI簽到概率較小, 因此地理位置的遠(yuǎn)近對用戶的簽到行為有很大影響. 為預(yù)測用戶ui對未簽到位置lj的簽到興趣, 可由以下優(yōu)化過程得到.

其中,H∈RM×N為簽到權(quán)重矩陣,Hij為1表示用戶ui在位置lj有簽到, 為0表示沒有簽到. 把矩陣參數(shù)U、L的兩個正則化項加入式(1)防止過擬合, 如式(2):

其中,λu、λl是正則化參數(shù),是Frobenius范數(shù), 其優(yōu)化問題采用梯度下降的方法獲得局部最優(yōu)解.

由事物相關(guān)性規(guī)則, 如果用戶對位置lj的鄰近若干位置感興趣則對位置lj感興趣的可能性也很大, 因此可以對矩陣分解模型中缺少的地理位置通過鄰近位置加權(quán)的方法加以補全, 目標(biāo)函數(shù)的最小化如式(3)所示:

其中,B=γULT+(1-γ)AT,A∈Rn×n, γ是鄰近位置影響是正則化項,sim(lj,lx)的權(quán)重參數(shù),是位置lj鄰近位置lx的地理權(quán)重, 采用高斯函數(shù)如式(4):

2.2 評論文本建模

充分利用評論文本信息能夠有效緩解簽到數(shù)據(jù)稀疏問題, 采用CNN能夠深度挖掘評論文本潛在特征,將其融入POI推薦有重要作用.

2.2.1 用戶情感傾向建模

利用CNN處理評論文本信息獲取用戶情感傾向模型, 以詞向量作為輸入數(shù)據(jù), 以情感傾向作為輸出數(shù)據(jù). 模型分為4層: 嵌入層、卷積層、池化層和輸出層.具體過程如下:

1)嵌入層: 將用戶ui的所有評論文本的單詞合并成一個文檔, 利用詞向量模型將每個單詞按照出現(xiàn)的先后順序映射為相應(yīng)的詞向量, 生成用戶ui詞序不變的詞向量矩陣. 如式(5)所示, 其中,wp表示第p個詞的詞向量表示.

2)卷積層: 把輸入的用戶詞向量矩陣Mi進行卷積操作提取新的特征, 每個神經(jīng)元Nq中對應(yīng)d×t的過濾器Fq,d表示嵌入維度,q表示卷積窗口大小, 每層有y個神經(jīng)元, 每個卷積對應(yīng)產(chǎn)生一個特征如式(6):

其中,f表示激活函數(shù)ReLU, ?表示卷積操作,bq是過濾器Fq對應(yīng)的偏置項.

3)池化層: 采用最大池化操作從上下文特征向量中提取最大的特征向量生成新的固定維度的特征, 最大池化操作能夠有效處理評論文本長度不同的問題,對特征進行壓縮減小其規(guī)模, 并且只提取主要特征, 即降低網(wǎng)絡(luò)計算的復(fù)雜度又避免過擬合的現(xiàn)象. 池化特征表示如式(7)所示:

4)輸出層: 將池化層中提取的評論文本情感特征向量輸入到Softmax函數(shù), 計算各情感的預(yù)測概率并和標(biāo)準(zhǔn)實驗數(shù)據(jù)對比獲得誤差, 采用梯度下降和反向傳播進行誤差傳遞來更新參數(shù).

模型最后輸出用戶情感傾向分為3種: 1、0、-1,1表示感興趣, 0表示一般, -1表示不感興趣. 結(jié)合簽到權(quán)重矩陣, 通過函數(shù)重構(gòu)使得情感評分S值在(-1, 1)范圍, 顯然用戶簽到行為與用戶情感分?jǐn)?shù)相關(guān).

2.2.2 用戶興趣與位置POI屬性建模

對于位置POI評論文本內(nèi)容通過CNN能夠深度提取其潛在特征, 采用Softmax邏輯回歸函數(shù)定義用戶發(fā)布評論的概率函數(shù)如式(8)所示:

其中, φil表示用戶ui是否發(fā)布了評論cl,cl是評論文本集合,C∈Rq×d是一個交互矩陣, 用來分析用戶ui是否發(fā)布了評論cl,CNN(W,Cl)表示通過CNN提取的評論文本特征,W是CNN的內(nèi)部權(quán)重. Softmax函數(shù)的輸出值相互關(guān)聯(lián), 其概率總和為1, 要獲取用戶潛在特征向量ui, 將概率函數(shù)式(8)轉(zhuǎn)換為目標(biāo)函數(shù)式(9)求解得到.

與此同理, 分析評論ck與位置lj的相關(guān)性概率函數(shù)如式(10)所示:

要獲取位置潛在特征向量lj, 將概率函數(shù)式(10)轉(zhuǎn)換為目標(biāo)函數(shù)式(11)求解得到.

3 RT-CNN模型優(yōu)化及算法實現(xiàn)

RT-CNN模型融合簽到行為R、地理位置影響B(tài)、用戶情感傾向S、用戶潛在特征U以及位置潛在特征L, 針對簽到數(shù)據(jù)R稀疏的問題, 通過卷積神經(jīng)網(wǎng)絡(luò)處理,充分挖掘和利用評論文本信息能夠有效緩解, 其中的S、U、L都是從卷積神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)得到的,W是卷積神經(jīng)網(wǎng)絡(luò)權(quán)重值,P是概率函數(shù). RT-CNN模型需要解決最大化優(yōu)化問題, 優(yōu)化問題利用梯度下降的方法學(xué)習(xí)目標(biāo)函數(shù)局部最優(yōu)解. 在詞向量模型中, 主要有Skipgram和CBOW兩種模型, 前者是給定文中的某個詞來預(yù)測上下文內(nèi)容, 而后者是給定上下文來預(yù)測上下文之間的結(jié)果. Skip-gram模型雖然預(yù)測次數(shù)要多于CBOW,但通過多次的預(yù)測、調(diào)整會使得詞向量更加準(zhǔn)確. 因此,通過Skip-gram模型獲取詞向量矩陣. 負(fù)抽樣不僅能夠減少訓(xùn)練過程的計算負(fù)擔(dān), 而且還能提高其結(jié)果詞向量的質(zhì)量, 采用負(fù)抽樣方法近似計算目標(biāo)函數(shù).

RT-CNN算法的偽代碼如算法1.

算法1. RT-CNN算法的偽代碼Cuiui∈U Cljlj∈L輸入: R, , , ,輸出: Top-N POI 1)隨機初始化W、U、L、P、C 2)采用CNN獲取用戶情感傾向S的值3)通過U和L計算B 4) While (not convergent) do?ξ?U?ξ?L?C?ξ?ξ?P?ξ?B 5)計算 , , , ,U←U+η?ξ?U 6)進行更新7) L、C、P、B分別類同6)依次進行更新8)通過反向傳播方法調(diào)整CNN中的參數(shù)9) End UTL 10)計算推薦Top-N POI給用戶

4 實驗結(jié)果與分析

4.1 實驗數(shù)據(jù)集

為了驗證RT-CNN模型的性能, 需要進行一次實驗. 選用Foursquare網(wǎng)站(https://download.csdn.net/download/weixin_41665541/10219398)數(shù)據(jù)集中紐約(NYC)和洛杉磯(LA)的簽到及評論數(shù)據(jù), 對兩個數(shù)據(jù)集進行預(yù)處理, 過濾掉簽到次數(shù)小于10的用戶和訪問次數(shù)小于10的POI, 實驗數(shù)據(jù)集統(tǒng)計如表2所示. 數(shù)據(jù)集分成3份, 80%作為訓(xùn)練集, 10%作為驗證集,10%作為測試集.

表2 實驗數(shù)據(jù)集統(tǒng)計

4.2 評價指標(biāo)的設(shè)定

使用精確率(Precision)和召回率(Recall)作為評價指標(biāo)評估算法的性能, 簡記為P@N、R@N, 對于一個用戶u, 其計算公式如式(12)和式(13).

其中,T(u)表示測試集中用戶u簽到過的POI列表,R(u)表示為用戶u推薦的POI列表.

4.3 不同模型比較

選擇較新的典型先進模型: SoGeoCom模型[9]、TGSC-PMF模型[12]和MFM-HNN模型[13]與RT-CNN模型比較, 設(shè)定N=1, 5, 10. 基于NYC數(shù)據(jù)集的實驗結(jié)果如圖1和圖2所示.

圖1 不同模型基于NYC數(shù)據(jù)集的精確率對比

圖2 不同模型基于NYC數(shù)據(jù)集的召回率對比

基于LA數(shù)據(jù)集的實驗結(jié)果如圖3和圖4. 由實驗結(jié)果分析得出, RT-CNN模型在兩個數(shù)據(jù)集上精確率和召回率都高于其他模型. 其中, SoGeoCom模型融合用戶社交、地理位置及POI評論文本進行推薦, 認(rèn)為用戶是否真正訪問某POI是由3方面因素決定, 分別是用戶對POI的興趣、用戶與POI之間的心理距離和物理距離. 興趣方面可通過對用戶的評論文本進行挖掘得到, 心理距離和物理距離則通過社交網(wǎng)絡(luò)關(guān)系建模和地理位置信息建模來獲得. 興趣越大、距離越近,訪問概率就越高, 對緩解簽到數(shù)據(jù)稀疏以及冷啟動方面有較好的效果. 但是, 模型使用LDA處理評論文本信息, 忽略了評論文本語義上下文信息, 因此表現(xiàn)最差.TGSC-PMF模型通過挖掘興趣點評論文本信息, 了解用戶的興趣意向, 采用一種自適應(yīng)帶寬核評估方法構(gòu)建興趣點之間的地理相關(guān)性, 通過分析用戶社會關(guān)系構(gòu)建用戶之間的社會相關(guān)性, 針對用戶的分類喜好和興趣點的流行度構(gòu)建分類相關(guān)性. 最后將各相關(guān)分?jǐn)?shù)進行匹配并融合到概率矩陣分解模型中. 也是使用LDA處理評論文本信息, 但模型融合了POI評論文本、地理、社交、分類與流行度信息, 并利用概率矩陣分解模型進行有效處理, 推薦性能高于SoGeoCom模型, 表明融合多種因素能提高推薦性能. MFMHNN模型融合評論信息與用戶簽到信息進行推薦, 通過CNN充分考慮詞序及上下文信息獲取評論文本潛在特征表示, 克服了LDA處理評論文本信息所存在的問題, 并利用深度堆棧降噪自動編碼器研究了特征矩陣的初始化問題, 推薦性能高于TGSC-PMF模型. 所提模型RT-CNN通過CNN深度挖掘評論文本信息,獲取用戶情感傾向、用戶興趣偏好以及位置POI屬性信息, 融合簽到行為以及地理位置影響進行推薦, 在簽到數(shù)據(jù)稀疏的情況下充分利用評論文本隱含的潛在語義和情感信息, 有效地提高了位置POI推薦性能, 實驗結(jié)果表明, RT-CNN模型具有最好的推薦效果.

圖3 不同模型基于LA數(shù)據(jù)集的精確率對比

圖4 不同模型基于LA數(shù)據(jù)集的召回率對比

通過不同模型在兩個數(shù)據(jù)集上精確率和召回率的實驗結(jié)果可以看出, 隨著推薦列表長度N值的增大, 推薦精確率P@N逐漸減小, 推薦召回率R@N逐漸增大.這是因為推薦列表中POI的數(shù)目越多, 用戶真正訪問的POI在推薦列表中的比例顯然會降低, 也就是說在推薦列表中有很多列出的POI并不是用戶真正訪問的POI, 從而導(dǎo)致推薦精確率下降. 然而隨著推薦列表中POI數(shù)目的增加, 則會有更多的用戶真正訪問的POI出現(xiàn)在推薦列表中, 使得推薦召回率增加.

5 結(jié)束語

為緩解位置POI推薦中簽到數(shù)據(jù)稀疏問題, 提出一種RT-CNN模型, 基于卷積神經(jīng)網(wǎng)絡(luò)深度提取評論文本內(nèi)容的隱含信息, 對位置POI和用戶進行建模, 同時融合簽到行為以及地理位置信息進行POI推薦. 通過實驗與其他模型對比, 結(jié)果表明模型提高了精確率和召回率, 具有更優(yōu)的推薦效果.