999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向輿情監(jiān)測(cè)的話題追蹤方法*

2021-09-15 08:34:56陳黎明黃瑞章秦永彬陳艷平劉麗娟
關(guān)鍵詞:文本方法

陳黎明 黃瑞章 秦永彬 陳艷平 劉麗娟

(1.貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 貴陽(yáng) 550025)(2.貴州省公共大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室 貴陽(yáng) 550025)(3.貴州師范學(xué)院 貴陽(yáng) 550018)

1 引言

如今各大新聞網(wǎng)站會(huì)對(duì)各種各樣的事件進(jìn)行報(bào)道,這些大量的新聞報(bào)道中既存在著正能量的有利信息,也可能隱藏著負(fù)面或者敏感的信息。一條普通新聞一旦被關(guān)注可在極短的時(shí)間傳播開來(lái),往往會(huì)從普通事件演變成爆點(diǎn)事件,繼而引發(fā)政府公信力下降等問題。因此,輿情監(jiān)管部門對(duì)新聞報(bào)道高度重視,要求加強(qiáng)監(jiān)測(cè)力度,密切關(guān)注事態(tài)發(fā)展。

話題檢測(cè)與跟蹤(Topic Detection and Tracking,TDT)[1]是一種面向新聞信息流的處理技術(shù),旨在自動(dòng)識(shí)別新話題和持續(xù)跟蹤已知話題,其中話題由一個(gè)種子事件以及與其直接相關(guān)的事件組成。話題追蹤作為TDT子任務(wù),其目的是依據(jù)給定的新聞集合或描述在后續(xù)辨認(rèn)出話題相關(guān)報(bào)道,能夠用于快速獲取話題信息,協(xié)助有關(guān)部門進(jìn)行輿情監(jiān)測(cè)和分析。

輿情監(jiān)測(cè)的對(duì)象為熱點(diǎn)或敏感話題,需要人為介入的機(jī)制,因此更傾向于使用一組關(guān)鍵詞來(lái)進(jìn)行話題追蹤,方便在追蹤過(guò)程中進(jìn)行調(diào)整。根據(jù)關(guān)鍵詞來(lái)進(jìn)行特定話題追蹤,有以下難點(diǎn):1)輿情新聞數(shù)據(jù)容易遺漏。使用關(guān)鍵詞進(jìn)行簡(jiǎn)單匹配會(huì)引入大量無(wú)關(guān)數(shù)據(jù),所以需要衡量詞語(yǔ)在文章中的重要性,常用來(lái)衡量詞語(yǔ)重要性的方法難以處理詞語(yǔ)出現(xiàn)頻率較低的情況,這會(huì)導(dǎo)致當(dāng)新聞中與話題相關(guān)的信息出現(xiàn)頻率較低時(shí)難以追蹤到此類新聞數(shù)據(jù)。2)用戶給定的關(guān)鍵詞可能不全,不足以全面描述話題,造成追蹤結(jié)果不理想。3)隨著時(shí)間的變化,話題重心也在變化,會(huì)產(chǎn)生話題漂移現(xiàn)象,話題關(guān)鍵詞也隨之變化,初始給定的關(guān)鍵詞需要?jiǎng)討B(tài)更新。

為了解決上述問題,本文提出了一種面向輿情監(jiān)測(cè)的話題追蹤方法,根據(jù)用戶給出的關(guān)鍵詞監(jiān)督信息進(jìn)行話題追蹤,充分考慮人為介入的應(yīng)用場(chǎng)景;針對(duì)輿情新聞數(shù)據(jù)容易遺漏的問題,本文通過(guò)對(duì)話題關(guān)鍵詞進(jìn)行加權(quán)的TextRank算法來(lái)提取有傾向的關(guān)鍵詞作為文本特征表示,進(jìn)而提升追蹤效果;針對(duì)關(guān)鍵詞不完全的問題,對(duì)輿情數(shù)據(jù)進(jìn)行分析,通過(guò)點(diǎn)互信息對(duì)話題關(guān)鍵詞進(jìn)行補(bǔ)全;針對(duì)話題漂移的現(xiàn)象,在話題追蹤過(guò)程中根據(jù)關(guān)鍵詞衰減指數(shù)[2]對(duì)話題關(guān)鍵詞進(jìn)行動(dòng)態(tài)調(diào)整。實(shí)驗(yàn)結(jié)果表明,本文方法在面向輿情監(jiān)測(cè)的話題追蹤任務(wù)上取得了較好的效果。

2 相關(guān)工作

話題追蹤是在后續(xù)新聞報(bào)道中辨認(rèn)出已知話題所相關(guān)的新聞報(bào)道[3],可以為新聞事件的追蹤及判斷決策提供輔助支持[4]。針對(duì)話題追蹤的研究集中在分類或聚類算法的選擇與融合、自適應(yīng)話題追蹤幾個(gè)方面。

基于分類的追蹤方法利用訓(xùn)練好的分類器來(lái)進(jìn)行話題相關(guān)性分析。文獻(xiàn)[5]使用SVM算法訓(xùn)練了一個(gè)是否相關(guān)的分類器,避免了需要類型標(biāo)簽的問題。文獻(xiàn)[6]在改進(jìn)型DF文本特征的基礎(chǔ)上,通過(guò)構(gòu)建樸素貝葉斯模型來(lái)實(shí)現(xiàn)話題追蹤。文獻(xiàn)[7]提出了一種基于改進(jìn)KNN的話題跟蹤算法,解決了由于數(shù)據(jù)不平衡和跟蹤代價(jià)較高的問題。雖然分類算法使用廣泛,但需要大量訓(xùn)練數(shù)據(jù)。此外隨著時(shí)間的發(fā)展,話題的重心在動(dòng)態(tài)變化,會(huì)產(chǎn)生話題漂移的現(xiàn)象,簡(jiǎn)單的分類算法已經(jīng)不能滿足動(dòng)態(tài)話題追蹤需求。

基于聚類的追蹤方法常見的是SinglePass算法以及K-means算法。文獻(xiàn)[8~10]使用了改進(jìn)的SinglePass算法來(lái)進(jìn)行話題追蹤,其主要研究在于選取不同的文本特征來(lái)提升聚類效果。雖然這類算法效率較高,但容易受輸入順序的影響。文獻(xiàn)[11]提出了一種改進(jìn)的K-means算法,基于新聞報(bào)道相似性選擇初始聚類中心點(diǎn),保證各新聞話題集群具有很好的區(qū)分度。文獻(xiàn)[12]根據(jù)K-means聚類結(jié)果對(duì)子話題向量集進(jìn)行動(dòng)態(tài)調(diào)整,能夠更精確地對(duì)話題繼續(xù)追蹤。但K-means算法又具有其局限性,如對(duì)初始中心點(diǎn)的選擇敏感和用戶必須自定義分組K等。

由于話題漂移現(xiàn)象的存在,自適應(yīng)話題追蹤得到了進(jìn)一步發(fā)展。此類算法在話題追蹤時(shí)將新特征融入至初始模型并對(duì)特征項(xiàng)權(quán)重進(jìn)行實(shí)時(shí)修正,進(jìn)而改進(jìn)追蹤效果。文獻(xiàn)[13]提出了一種基于詞匯相關(guān)性的自適應(yīng)追蹤方法。文獻(xiàn)[14]利用最小特征平均可信度閾值更新策略來(lái)完善話題模型。文獻(xiàn)[15]基于時(shí)間的分布屬性調(diào)整特征向量權(quán)重分配,實(shí)現(xiàn)話題模型的自適應(yīng)學(xué)習(xí)更新。文獻(xiàn)[16]根據(jù)報(bào)道時(shí)間特點(diǎn)研究了動(dòng)態(tài)閾值話題追蹤方法。文獻(xiàn)[17]提出一種基于關(guān)聯(lián)語(yǔ)義網(wǎng)絡(luò)的話題追蹤方法,解決了無(wú)法詳細(xì)描述話題追蹤趨勢(shì)的問題。文獻(xiàn)[18]利用了主題新穎性和消退概率來(lái)追蹤話題。

相比于上述方法,本文方法基于關(guān)鍵詞對(duì)特定話題進(jìn)行追蹤,更適用于輿情監(jiān)測(cè)的應(yīng)用場(chǎng)景。

3 方法介紹

3.1 方法概述

本文方法流程如圖1所示。待追蹤新聞?dòng)尚侣剺?biāo)題和正文組成,話題表示為一組關(guān)鍵詞,人為給定的關(guān)鍵詞監(jiān)督信息作為其初始值,用戶可以在追蹤的過(guò)程中進(jìn)行介入,修改話題關(guān)鍵詞。在每批待追蹤輿情新聞數(shù)據(jù)到來(lái)時(shí),追蹤流程按以下步驟進(jìn)行處理。首先,通過(guò)對(duì)話題關(guān)鍵詞進(jìn)行加權(quán)的TextRank算法提取新聞關(guān)鍵詞。其次,通過(guò)點(diǎn)互信息對(duì)話題關(guān)鍵詞進(jìn)行補(bǔ)全。最后,計(jì)算每篇新聞文本和話題的關(guān)鍵詞相似度,相似度大于閾值的新聞文本被判定為與話題相關(guān),并對(duì)話題關(guān)鍵詞進(jìn)行反饋更新。接下來(lái),將對(duì)這些步驟做詳細(xì)介紹。

圖1 話題追蹤方法流程

3.2 新聞關(guān)鍵詞提取

目前最常見的關(guān)鍵詞抽取算法為TextRank[19],它是一種基于詞匯圖模型的算法,把文檔看作是由詞匯構(gòu)成的圖結(jié)構(gòu),依靠文檔自身的結(jié)構(gòu)關(guān)系,即可實(shí)現(xiàn)關(guān)鍵詞抽取,簡(jiǎn)單有效,但傳統(tǒng)TextRank算法忽略了詞語(yǔ)本身的重要性信息[20]。當(dāng)在追蹤某個(gè)的特定話題時(shí),僅關(guān)心特定的一些詞語(yǔ),這些詞的重要程度比其他詞語(yǔ)高,比如話題關(guān)鍵詞。因此,本文對(duì)傳統(tǒng)TextRank算法進(jìn)行了改進(jìn),對(duì)話題關(guān)鍵詞加權(quán),提高話題關(guān)鍵詞在新聞中出現(xiàn)時(shí)被作為新聞文本關(guān)鍵詞提取出來(lái)的概率。

設(shè)G(V,E)是由給定文本的詞匯構(gòu)成的一個(gè)圖結(jié)構(gòu),那么對(duì)于該文本中任何一個(gè)詞語(yǔ)Vi,其基于加權(quán)TextRank算法的權(quán)值迭代公式為

式(1)中d為調(diào)節(jié)系數(shù),一般取0.85;I n(Vi)表示指向節(jié)點(diǎn)Vi的所有節(jié)點(diǎn)的集合;Out(Vj)表示節(jié)點(diǎn)Vj指向的所有節(jié)點(diǎn)的集合。wji為節(jié)點(diǎn)Vj的詞語(yǔ)重要性影響力傳遞到節(jié)點(diǎn)Vi的權(quán)重,其計(jì)算公式如下:

式(2)中I(vi)表示節(jié)點(diǎn)Vi的重要性取值,設(shè)λ為對(duì)詞語(yǔ)進(jìn)行加權(quán)的參數(shù),本文中λ取2,則I(vi)賦值如下:

基于式(1)~(4)進(jìn)行迭代運(yùn)算,當(dāng)式(1)兩次迭代結(jié)果之間的差異非常小時(shí)停止迭代運(yùn)算,該值一般取0.0001。然后按照大小對(duì)WS(V)進(jìn)行降序排序,選取前8個(gè)候選詞作為新聞文本關(guān)鍵詞。

3.3 相似度計(jì)算和話題追蹤

Jaccard相似度用來(lái)比較樣本集之間的相似性,Jaccard系數(shù)值越大,說(shuō)明相似度越高。設(shè)KT為話題關(guān)鍵詞集合,K N為新聞文本關(guān)鍵詞集合,則Jaccard系數(shù)計(jì)算如式(5)所示。

通過(guò)式(5)計(jì)算追蹤話題和新聞文本之間的相似度,相似度大于閾值α的新聞文本被判定為與話題相關(guān),相似度低于閾值的則判定為與話題不相關(guān)。

3.4 話題關(guān)鍵詞更新

為了充分補(bǔ)全話題關(guān)鍵詞,采用點(diǎn)互信息PMI(Pointwise Mutual Information)來(lái)挖掘潛在的關(guān)鍵詞。PMI被用來(lái)衡量?jī)蓚€(gè)關(guān)鍵詞之間的關(guān)系,PMI的大小代表了它們關(guān)系的強(qiáng)弱。PMI的計(jì)算公式如下:

通過(guò)式(6)計(jì)算出新聞文本關(guān)鍵詞對(duì)的PMI,挑選出PMI大于閾值μ的關(guān)鍵詞對(duì)。如果一個(gè)關(guān)鍵詞和任意兩個(gè)話題關(guān)鍵詞的PMI大于閾值,則添加該關(guān)鍵詞到話題關(guān)鍵詞集中,對(duì)話題關(guān)鍵詞進(jìn)行補(bǔ)全。

此外,針對(duì)話題漂移現(xiàn)象,需要融入新的話題特征,對(duì)話題關(guān)鍵詞進(jìn)行更新。當(dāng)一篇新聞被判定為與話題相關(guān)時(shí),采用基于關(guān)鍵詞衰減指數(shù)的算法來(lái)對(duì)話題關(guān)鍵詞進(jìn)行動(dòng)態(tài)更新,詳細(xì)描述如算法1所示。設(shè)話題候選關(guān)鍵詞向量為V(K)=(K1:w1,K2:w2,…,Kn:wn),其中K表示話題候選關(guān)鍵詞,w表示候選關(guān)鍵詞權(quán)重。第一次進(jìn)行更新時(shí),V(K)用話題關(guān)鍵詞進(jìn)行初始化,w的初始值為2。

算法1話題關(guān)鍵詞更新算法

輸入:

話題候選關(guān)鍵詞向量V(K)

新聞文本關(guān)鍵詞集合K N

衰減指數(shù)θ

輸出:

更新后的話題關(guān)鍵詞集合K Tupdated

更新后的話題候選關(guān)鍵詞向量Vupdated(K)

1)for每個(gè)關(guān)鍵詞Ki∈KNdo

2) ifKi i n V(K)then

3)wi←wi+0.5

4) else在V(K)中添加(Ki,0.5)

5)for每個(gè)關(guān)鍵詞Kj i n V(K)do

6) ifKj?KNthen

7)wj←wj*θ

8)輸出Vupdated(K)

9)Vupdated(K)按權(quán)重w大小進(jìn)行排序

10)初始化KTupdated為空

11)forKm i n Vupdated(K)do

12) 在KTupdated中添加Km

13) ifKTupdated的關(guān)鍵詞個(gè)數(shù)>8 then

14) break

15)輸出KTupdated

4 實(shí)驗(yàn)及分析

4.1 實(shí)驗(yàn)數(shù)據(jù)及評(píng)價(jià)標(biāo)準(zhǔn)

為了驗(yàn)證所提方法的有效性,本文從新浪、鳳凰、搜狐、網(wǎng)易等新聞網(wǎng)站收集了2018年11月~2019年1月共28125篇新聞作為實(shí)驗(yàn)原始數(shù)據(jù)。從原始數(shù)據(jù)中選取五個(gè)話題進(jìn)行追蹤,并對(duì)其進(jìn)行標(biāo)注,除五個(gè)話題外,其它數(shù)據(jù)均為反例。話題名稱和對(duì)應(yīng)的新聞數(shù)量如表1所示。

表1 數(shù)據(jù)集

實(shí)驗(yàn)使用準(zhǔn)確率P、召回率R和兩者綜合性能指標(biāo)F值三個(gè)指標(biāo)進(jìn)行量化考察,F(xiàn)值越高,話題追蹤性能越好。設(shè)TP為在追蹤結(jié)果中被判定屬于某話題且實(shí)際也屬于該話題的新聞數(shù)量,F(xiàn)P為在追蹤結(jié)果中被判定屬于某話題但實(shí)際不屬于該話題的新聞數(shù)量,F(xiàn)N為在追蹤結(jié)果中被判定為其它類別但實(shí)際屬于該話題的新聞數(shù)量。則準(zhǔn)確率P、召回率R和F值的計(jì)算公式如下:

4.2 話題追蹤對(duì)比實(shí)驗(yàn)

為了驗(yàn)證本文方法在話題追蹤上的效果,選取基于SinglePass的追蹤方法和文獻(xiàn)[2]方法作為對(duì)比方法。實(shí)驗(yàn)設(shè)置相似度閾值α為0.1,衰減指數(shù)θ為0.8,時(shí)間窗口為天,并選取兩篇種子新聞作為對(duì)比方法的初始類心,其中基于SinglePass的追蹤方法選取的文本特征表示方法是TF-IDF。實(shí)驗(yàn)結(jié)果如表2所示。

表2 話題追蹤方法實(shí)驗(yàn)結(jié)果

從表2可以看出,本文方法優(yōu)于基于Single-Pass的追蹤方法,原因是選取了有傾向的關(guān)鍵詞作為新聞文本特征表示,而基于SinglePass的方法選取的文本特征表示方法是TF-IDF,當(dāng)新聞中關(guān)鍵詞出現(xiàn)頻率比較低時(shí),其所占權(quán)重較小,導(dǎo)致聚類效果不理想,而有傾向的關(guān)鍵詞加大了重要詞的權(quán)重,能夠提取出關(guān)鍵詞出現(xiàn)頻率低的新聞。此外,本文方法和文獻(xiàn)[2]方法都有反饋更新話題關(guān)鍵詞的機(jī)制,然而本文方法在平均F值上比其高出2.32%,主要是因?yàn)楸疚睦肞MI對(duì)話題關(guān)鍵詞進(jìn)行了補(bǔ)全以及引入了話題關(guān)鍵詞候選向量,在反饋更新策略上做了改進(jìn),從而取得了較為優(yōu)越的結(jié)果。

4.3 話題關(guān)鍵詞分析

本文基于關(guān)鍵詞對(duì)輿情話題進(jìn)行動(dòng)態(tài)追蹤,關(guān)鍵詞的變化影響著話題自適應(yīng)追蹤的效果。表3展示了本文方法在追蹤“孟晚舟被捕”話題過(guò)程中關(guān)鍵詞的變化。從表中可以看出,話題發(fā)生了漂移現(xiàn)象,重心從“被捕”發(fā)展成為了“保釋”,這表明本文方法能夠有效地應(yīng)對(duì)話題漂移現(xiàn)象,對(duì)話題進(jìn)行自適應(yīng)追蹤。

表3“孟晚舟被捕”關(guān)鍵詞變化

5 結(jié)語(yǔ)

本文提出了一種面向輿情監(jiān)測(cè)的話題追蹤方法,根據(jù)給出的關(guān)鍵詞信息來(lái)進(jìn)行特定的話題追蹤,充分考慮到了輿情監(jiān)測(cè)需要人為介入的應(yīng)用場(chǎng)景,解決了輿情新聞容易遺漏、關(guān)鍵詞不完整、話題漂移的難點(diǎn),取得了較好的追蹤效果。在未來(lái)的工作中,擬研究如何根據(jù)追蹤到的新聞數(shù)據(jù)梳理話題發(fā)展脈絡(luò)。

猜你喜歡
文本方法
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
學(xué)習(xí)方法
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
可能是方法不對(duì)
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 欧美在线中文字幕| 国产区在线观看视频| 中文字幕佐山爱一区二区免费| 熟妇丰满人妻av无码区| 亚洲一区毛片| 亚洲αv毛片| 久久99热这里只有精品免费看| 欧美日韩另类国产| 国内丰满少妇猛烈精品播| 国产精品任我爽爆在线播放6080| 欧美激情视频一区| 五月天婷婷网亚洲综合在线| 国产精品jizz在线观看软件| 国产精品久久久久久久久久98| 亚洲色图另类| 一本大道AV人久久综合| 东京热高清无码精品| 免费国产小视频在线观看| 国产精品部在线观看| 亚洲国产天堂久久综合226114| 国产18在线播放| 亚卅精品无码久久毛片乌克兰 | 日韩无码视频网站| 国产真实乱子伦精品视手机观看 | 欧美日韩国产精品综合| 中国国产A一级毛片| 毛片免费网址| 日韩毛片免费观看| 九九热视频精品在线| 凹凸精品免费精品视频| 亚欧美国产综合| 凹凸精品免费精品视频| 精品人妻无码区在线视频| 天天色天天操综合网| 91网站国产| 婷婷开心中文字幕| 5388国产亚洲欧美在线观看| 视频二区国产精品职场同事| 精品少妇人妻无码久久| 国产精品无码翘臀在线看纯欲| 国产成人无码播放| 亚洲视频二| 免费大黄网站在线观看| 中文字幕亚洲乱码熟女1区2区| 国产精品成| 自拍偷拍欧美日韩| 精品人妻AV区| 亚洲人网站| a级毛片免费网站| 中文字幕在线看| 国产www网站| 欧美激情视频在线观看一区| 久久综合色视频| 国产美女免费网站| 国产大全韩国亚洲一区二区三区| 国产精品免费p区| 天堂网亚洲系列亚洲系列| 91久久天天躁狠狠躁夜夜| 国产精品久久自在自2021| 国产国模一区二区三区四区| 国产主播福利在线观看| 国产a在视频线精品视频下载| 国内老司机精品视频在线播出| 免费人成黄页在线观看国产| 五月激情婷婷综合| 国产成人在线小视频| 天堂岛国av无码免费无禁网站| 精品视频91| 国产激情国语对白普通话| 免费国产不卡午夜福在线观看| 999国产精品永久免费视频精品久久| 香蕉色综合| 色综合综合网| 国产精品吹潮在线观看中文| 久久婷婷国产综合尤物精品| 国产日韩欧美一区二区三区在线 | 欧美日韩国产在线人| 四虎永久在线视频| 久久美女精品国产精品亚洲| AV不卡无码免费一区二区三区| 国产精品九九视频| 国产资源站|