張晶晶 劉燁



摘? 要: 通過(guò)分析新聞傳播推薦技術(shù)現(xiàn)狀,發(fā)現(xiàn)傳統(tǒng)技術(shù)在相關(guān)分析計(jì)算時(shí),未處理缺省值,導(dǎo)致推薦結(jié)果覆蓋率低。為了解決這一問(wèn)題,提出基于在線評(píng)論和改進(jìn)LDA模型的新聞傳播推薦技術(shù)。運(yùn)用余弦距離計(jì)算法計(jì)算在線評(píng)論新聞傳播特征關(guān)聯(lián)度,再運(yùn)用LDA模型設(shè)定閾值,用于預(yù)測(cè)LDA新聞傳播主題相似度。完成上述操作后,選擇最大相似用戶群,并得到用戶群特征詞權(quán)值,再采用協(xié)同方法將該值代入到推薦模型當(dāng)中,生成推薦結(jié)果。由此,完成基于在線評(píng)論和改進(jìn)LDA模型的新聞傳播推薦技術(shù)設(shè)計(jì)。實(shí)驗(yàn)數(shù)據(jù)集選自DataCastle,將數(shù)據(jù)集分成訓(xùn)練集和測(cè)試集,每次實(shí)驗(yàn)都要從測(cè)試集中隨機(jī)抽取10組用戶,并選取最后傳播的15篇記錄作為實(shí)驗(yàn)數(shù)據(jù),最后,使用提出技術(shù)與傳統(tǒng)技術(shù)測(cè)試這10組數(shù)據(jù)集生成推薦結(jié)果的覆蓋率。實(shí)驗(yàn)結(jié)果顯示,提出技術(shù)的覆蓋率更好,且符合設(shè)計(jì)需求。
關(guān)鍵詞: 新聞傳播; 在線評(píng)論; LDA模型; 推薦結(jié)果生成; 相似度預(yù)測(cè); 關(guān)聯(lián)度計(jì)算
中圖分類號(hào): TN911.1?34; TP391.3? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2020)19?0115?03
Abstract: After analyzing the current situation of news propagation recommendation technology, it is found that the traditional technology did not process the default value in correlation analysis and calculation, which leads to low coverage rate of recommendation results. Therefore, the research of news propagation recommendation technology based on online comment and improved LDA (latent Dirichlet allocation) model is put forward. The cosine distance method is used to calculate the news propagation feature correlation degree based on online comment, and then the LDA model is used to set the threshold value for the prediction of topic similarity of LDA news propagation. After completing the above operations, the largest similar user group is selected to get the feature word weight of the user group, and then the weight is introduced into the recommendation model with the coordinative approach for the generation of recommendation results. On the basis of the above, the design of news propagation recommendation technology based on the online comment and improved LDA model is completed. The experimental data sets are selected from DataCastle and divided into training set and test set. In each experiment, 10 groups of users are randomly selected from the test set, and the last?propagated 15 records are selected as the experimental data. The coverage rate of the recommended results generated by the 10 groups of data sets is tested with both the proposed technology and the traditional technology. The experimental results show that the coverage rate of the proposed technology is better and can meet the design requirements.
Keywords: news propagation; online review; LDA model; recommendation result generation; similarity prediction; correlation degree calculation
0? 引? 言
新聞傳播推薦技術(shù)屬于數(shù)據(jù)挖掘與信息檢索等領(lǐng)域,學(xué)術(shù)界對(duì)于該技術(shù)的相關(guān)研究主要有主題檢測(cè)與跟蹤項(xiàng)目。跟蹤項(xiàng)目是通過(guò)識(shí)別新聞傳播數(shù)據(jù)流主題得到推薦結(jié)果,該技術(shù)具有兩種功能,可分析多語(yǔ)言文本和語(yǔ)音形式的新聞報(bào)道;可完成主題自動(dòng)跟蹤和檢測(cè)突發(fā)性新聞主題等相關(guān)任務(wù)。
常用的三種推薦技術(shù)有:
1) 基于協(xié)同過(guò)濾模型的推薦技術(shù),這是由Das提出的,先對(duì)用戶進(jìn)行聚類,在類內(nèi)確定目標(biāo)用戶,這樣可以有效提高該技術(shù)的可擴(kuò)展性。但該技術(shù)存在一個(gè)漏洞,在相關(guān)分析計(jì)算時(shí),無(wú)法很好地處理缺省值[1]。
2) 基于內(nèi)容的新聞傳播推薦技術(shù),通過(guò)分析用戶感興趣的項(xiàng)目,運(yùn)用相關(guān)算法得到推薦結(jié)果,再將相似度較高的項(xiàng)目推薦給用戶。但該技術(shù)存在一些無(wú)法規(guī)避的問(wèn)題,它只能推薦文本,無(wú)法推薦音樂(lè)和視頻。
3) 結(jié)合協(xié)同過(guò)濾模型和內(nèi)容的一種推薦技術(shù)。但該技術(shù)有一些固有缺陷,無(wú)法精準(zhǔn)地篩選出用戶感興趣的新聞主題。
為此,針對(duì)上述現(xiàn)狀,本文提出基于在線評(píng)論和改進(jìn)LDA模型的新聞傳播推薦技術(shù)。詳細(xì)設(shè)計(jì)過(guò)程如下。
1? 在線評(píng)論新聞傳播特征關(guān)聯(lián)度計(jì)算
首先獲取在線評(píng)論新聞傳播的突發(fā)情況,再計(jì)算特征關(guān)聯(lián)度,計(jì)算過(guò)程如下:
當(dāng)某一新聞事件發(fā)生時(shí),相關(guān)特征的軌跡上就會(huì)表現(xiàn)出一定程度的突發(fā)事件,若這些特征出現(xiàn)在同一新聞主題中,就要遵循以下兩個(gè)原則:
1) 新聞傳播特征、突發(fā)事件和突發(fā)軌跡具有一定相似性[2]。
2) 新聞傳播特征與特征軌跡所在文檔的重合度較高。
依據(jù)上述兩個(gè)原則,采用余弦距離計(jì)算法求新聞傳播特征與突發(fā)軌跡的關(guān)聯(lián)度,表達(dá)式為:
式中:[fi]表示第[i]個(gè)新聞傳播特征;[fj]表示第[j]個(gè)新聞傳播特征所在文檔的突發(fā)軌跡;[b]表示約束條件,文檔重合度為[t]的環(huán)境下的特征值[3]。
應(yīng)用式(1)計(jì)算新聞傳播特征與突發(fā)軌跡的相似性。記[Di]和[Dj]是[fi]和[fj]的文檔特征集合,定義[fi]和[fj]的集合最優(yōu)關(guān)系最小值為:
應(yīng)用式(2),在取得最小值的條件下,得到[fi]和[fj]的集合最優(yōu)關(guān)聯(lián)度[4?5]。
2? LDA新聞傳播主題相似度預(yù)測(cè)
基于在線評(píng)論得到的新聞傳播特征關(guān)聯(lián)度可能是稀疏的,為了提高新聞傳播特征關(guān)聯(lián)度,提出LDA模型預(yù)測(cè),這樣可以縮小兩個(gè)新聞傳播主題的相似度,擴(kuò)大兩者的集合范圍。
運(yùn)用LDA模型設(shè)定一個(gè)閾值,LDA模型框架圖如圖1所示。
將余弦切換法引入LDA模型當(dāng)中,用于切換不同的相似度:
式中:[a]表示相似度比重;[T]表示主題評(píng)分矩陣相似度;[u]表示評(píng)分?jǐn)?shù)量;[v]表示評(píng)價(jià)個(gè)數(shù)[6]。運(yùn)用式(3)得到新聞傳播主題評(píng)分矩陣的相似度,[a]是用來(lái)控制相似度所占比重的。在計(jì)算的過(guò)程中,若[a]的取值大于0.5,說(shuō)明得到的相似度矩陣是不可用的,無(wú)法完成切換;若[a]的取值為0,說(shuō)明得到的相似度矩陣是可用的,可以切換不同的新聞傳播主題;若[a]的取值為1,說(shuō)明未求解到合適的相似度矩陣,無(wú)法用于新聞傳播相似度預(yù)測(cè)[7]。
3? LDA新聞傳播推薦模型
基于在線評(píng)論計(jì)算新聞傳播特征關(guān)聯(lián)度,再根據(jù)關(guān)聯(lián)度定義公式,求得關(guān)聯(lián)度值[8]。因新聞傳播特征關(guān)聯(lián)度是稀疏的,會(huì)影響推薦結(jié)果,在LDA模型中引入余弦切換法預(yù)測(cè)新聞傳播主題相似度。最后,為解決上文所說(shuō)的缺陷,基于在線評(píng)論和改進(jìn)LDA模型構(gòu)建新聞傳播推薦模型[9],建模過(guò)程如下。
首先,通過(guò)式(1)求得目標(biāo)用戶與其他用戶的最優(yōu)關(guān)聯(lián)度作為相似度,選擇目標(biāo)用戶相似度中最大的相似用戶群[10]。再將所有的用戶興趣模型看作一個(gè)特征詞權(quán)值矩陣,用于計(jì)算目標(biāo)用戶的興趣度,由此,得到目標(biāo)用戶的潛在推薦模型,如圖2所示。
設(shè)目標(biāo)用戶相似用戶群為[U=v1,v2,…,vi],其中,[U]表示目標(biāo)用戶。設(shè)[w]表示任意用戶的相似度[11]。運(yùn)用式(4)計(jì)算[U]在推薦模型中的特征詞權(quán)值:
得到特征詞的權(quán)值后,采用協(xié)同方法構(gòu)建推薦模型為:
上述變量同式[12](2)。考慮到推薦模型中目標(biāo)用戶在多樣性上的需求,在推薦模型中選取最大的特征詞[13]。LDA新聞傳播推薦模型運(yùn)行流程如圖3所示。
得到LDA新聞傳播推薦模型后,用改進(jìn)的LDA模型生成推薦結(jié)果[14]。采用LDA模型中的余弦相似度計(jì)算公式,求得推薦模型與新聞傳播文本特征的相似度后,會(huì)得到兩種結(jié)果:一種是通過(guò)相似度排序得到的;另一種是根據(jù)先前的反饋得到的[15]。這兩種結(jié)果皆可使用。
由此,完成基于在線評(píng)論和改進(jìn)LDA模型的新聞傳播推薦技術(shù)研究。
4? 仿真實(shí)驗(yàn)
為測(cè)試所提的基于在線評(píng)論和改進(jìn)LDA模型的新聞傳播推薦技術(shù)設(shè)計(jì)的合理性,設(shè)置對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)過(guò)程如下。
4.1? 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)中所選取的數(shù)據(jù)集是DataCastle提供的,該數(shù)據(jù)集中包含10 000名用戶,在本次實(shí)驗(yàn)中,隨機(jī)選取這10 000名用戶在3月的新聞瀏覽記錄,記錄中包含用戶的編號(hào)和瀏覽時(shí)間等。數(shù)據(jù)集詳細(xì)內(nèi)容如表1所示。
在實(shí)驗(yàn)過(guò)程中要統(tǒng)一處理,將數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù)當(dāng)中,數(shù)據(jù)提取與推薦結(jié)果是使用Java語(yǔ)言編寫(xiě)程序完成的。將推薦結(jié)果導(dǎo)入數(shù)據(jù)庫(kù)后,要對(duì)比用戶實(shí)際瀏覽情況,實(shí)驗(yàn)指標(biāo)是采用改進(jìn)的LDA模型計(jì)算得出的。
4.2? 實(shí)驗(yàn)過(guò)程
將選取的數(shù)據(jù)集分割成兩個(gè)部分,分別為訓(xùn)練集和測(cè)試集,將新聞傳播數(shù)量大于15篇的用戶取出來(lái),作為測(cè)試集,剩下的作為訓(xùn)練集。每一次實(shí)驗(yàn)都要從測(cè)試集中隨機(jī)抽取10組用戶,一組包含400名用戶,實(shí)驗(yàn)選取這10組用戶最后傳播的15篇傳播記錄,將傳統(tǒng)的新聞傳播推薦技術(shù)與基于在線評(píng)論和改進(jìn)LDA模型的新聞傳播推薦技術(shù)推薦出來(lái)的結(jié)果相對(duì)比,得到所用技術(shù)與傳統(tǒng)技術(shù)的覆蓋率,實(shí)驗(yàn)次數(shù)設(shè)置為10次,實(shí)驗(yàn)結(jié)果取平均值作為最終的實(shí)驗(yàn)結(jié)果。覆蓋率越高,說(shuō)明該技術(shù)的推薦效果越好。
4.3? 實(shí)驗(yàn)結(jié)果
基于在線評(píng)論和改進(jìn)LDA模型的新聞傳播推薦技術(shù)與傳統(tǒng)的新聞傳播推薦技術(shù)覆蓋率對(duì)比結(jié)果,如圖4所示。
由圖4可知,使用本文提出的基于在線評(píng)論和改進(jìn)LDA模型的新聞傳播推薦技術(shù)相比傳統(tǒng)的新聞傳播推薦技術(shù)的覆蓋率更高,證明帶有LDA模型和在線評(píng)論的新聞傳播推薦技術(shù)的有效性。
5? 結(jié)? 語(yǔ)
通過(guò)概述新聞傳播技術(shù)的現(xiàn)狀,提出基于在線評(píng)論和改進(jìn)LDA模型的新聞傳播推薦技術(shù)。本文選用的LDA模型具有兩種個(gè)性化推薦功能:一種是自適應(yīng)導(dǎo)航功能;另一種是自動(dòng)推薦功能。故選用該模型設(shè)計(jì)新聞傳播推薦技術(shù)。基于在線評(píng)論和改進(jìn)LDA模型的新聞傳播推薦技術(shù)的主要貢獻(xiàn)在于:該技術(shù)可針對(duì)新聞傳播列表建立特征數(shù)據(jù)流集合;可檢測(cè)不同突發(fā)時(shí)間的特征和軌跡;可計(jì)算出新聞傳播特征與突發(fā)軌跡的關(guān)聯(lián)度;可以預(yù)測(cè)突發(fā)事件的相似度。
在設(shè)計(jì)過(guò)程中,發(fā)現(xiàn)本文技術(shù)依然存在以下幾個(gè)問(wèn)題:未考慮用戶興趣與時(shí)間變化的相關(guān)性;未考慮當(dāng)前時(shí)間與未發(fā)布時(shí)間的誤差;用戶矩陣的稀疏性仍然是一個(gè)很大的問(wèn)題,這會(huì)嚴(yán)重影響本文技術(shù)的推薦效率。在后續(xù)研究中,要針對(duì)上述問(wèn)題開(kāi)展進(jìn)一步研究。
參考文獻(xiàn)
[1] 蔣建洪,王珂.基于SA?LDA模型的美食熱點(diǎn)發(fā)現(xiàn)研究[J].美食研究,2017,34(4):32?37.
[2] 何旭峰,陳嶺,陳根才,等.基于LDA主題模型的分布式信息檢索集合選擇方法[J].中文信息學(xué)報(bào),2017,31(3):125?133.
[3] 劉暢,張一珂,張鵬遠(yuǎn),等.基于改進(jìn)主題分布特征的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型[J].電子與信息學(xué)報(bào),2018,40(1):219?225.
[4] 許騰騰,黃恒君.一種改進(jìn)的Supervised?LDA文本模型及其應(yīng)用[J].計(jì)算機(jī)工程,2018,44(1):69?73.
[5] 馮勇,屈渤浩,徐紅艷,等.融合TF?IDF和LDA的中文FastText短文本分類方法[J].應(yīng)用科學(xué)學(xué)報(bào),2019,37(3):378?388.
[6] 郭亞,宮葉云,張奇,等.基于主題模型的微博轉(zhuǎn)發(fā)行為預(yù)測(cè)[J].中文信息學(xué)報(bào),2018,32(4):130?136.
[7] 程磊,高茂庭.結(jié)合時(shí)間加權(quán)和LDA聚類的混合推薦算法[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(11):160?166.
[8] 盧竹兵,李玉州.基于網(wǎng)絡(luò)評(píng)論情感信任分析的推薦策略[J].計(jì)算機(jī)科學(xué),2019,46(6):75?79.
[9] 原淵.Mahout策略下礦井監(jiān)控視頻異常行為推薦[J].煤炭技術(shù),2017,36(10):218?220.
[10] 姚凱,涂平,陳宇新,等.基于多源大數(shù)據(jù)的個(gè)性化推薦系統(tǒng)效果研究[J].管理科學(xué),2018,31(5):3?15.
[11] 謝振平,金晨,劉淵.基于建構(gòu)主義學(xué)習(xí)理論的個(gè)性化知識(shí)推薦模型[J].計(jì)算機(jī)研究與發(fā)展,2018,55(1):125?138.
[12] 李樹(shù)青,莊光光,秦嘉杭,等.借閱場(chǎng)景下圖書(shū)專業(yè)性質(zhì)量測(cè)度方法和圖書(shū)個(gè)性化推薦服務(wù)方法[J].圖書(shū)情報(bào)工作,2018,62(11):53?63.
[13] 余永紅,高陽(yáng),王皓,等.融合用戶社會(huì)地位和矩陣分解的推薦算法[J].計(jì)算機(jī)研究與發(fā)展,2018,55(1):113?124.
[14] 李裕礞,練緒寶,徐博,等.基于用戶隱性反饋行為的下一個(gè)購(gòu)物籃推薦[J].中文信息學(xué)報(bào),2017,31(5):215?222.
[15] 丁夢(mèng)曉,畢強(qiáng),許鵬程,等.基于用戶興趣度量的知識(shí)發(fā)現(xiàn)服務(wù)精準(zhǔn)推薦[J].圖書(shū)情報(bào)工作,2019,63(3):21?29.