999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

話題演化研究綜述*

2021-02-14 03:52:30錢莉朱恒民魏靜
數(shù)字圖書館論壇 2021年11期
關(guān)鍵詞:文本模型研究

錢莉 朱恒民,2 魏靜

(1. 南京郵電大學(xué)管理學(xué)院,南京 210003;2. 江蘇高校哲學(xué)社會(huì)科學(xué)重點(diǎn)研究基地—信息產(chǎn)業(yè)融合創(chuàng)新與應(yīng)急管理研究中心,南京 210003)

根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)第48次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[1]顯示,截至2021年6月,中國(guó)網(wǎng)民數(shù)量已達(dá)10.11億人,可見(jiàn)互聯(lián)網(wǎng)已經(jīng)成為我國(guó)公民獲取新聞和發(fā)表意見(jiàn)的重要媒介。在網(wǎng)絡(luò)信息傳播中,新聞話題或突發(fā)事件的迅速擴(kuò)散,對(duì)政府相關(guān)職能部門構(gòu)成了嚴(yán)峻的挑戰(zhàn)。如何快速地跟蹤新聞話題或突發(fā)事件的后續(xù)事態(tài)發(fā)展,是亟需解決的問(wèn)題。

“話題”這一概念最早由TDT(Topic Detection and Tracking)評(píng)測(cè)會(huì)議提出,并對(duì)其進(jìn)行了定義:所謂話題(topic),就是一個(gè)核心事件或活動(dòng)以及與之直接相關(guān)的事件或活動(dòng)[2]。而一個(gè)事件(event)通常是由某些原因或條件引起的,涉及某些對(duì)象(人或物),在特定時(shí)間或地點(diǎn)發(fā)生,并可能伴隨某種必然結(jié)果。一般來(lái)說(shuō),話題就是若干件某事件相關(guān)報(bào)道的集合,主題則可以看作廣泛意義上的話題,即主題可以涵蓋多個(gè)類似的具體事件或根本不涉及任何具體事件[3]。例如,“社區(qū)防控”是一個(gè)主題,而“2020年2月10日湖北全省住宅小區(qū)實(shí)行封閉管理,共同做好疫情防控工作”是一個(gè)話題。在英文文獻(xiàn)中,話題與主題都有一個(gè)共同的表達(dá)方式,即“topic”,但是本文將“話題”與“主題”的概念區(qū)分開(kāi),即新聞事件的話題是由一系列的主題構(gòu)成。

話題隨著時(shí)間的推進(jìn)總是在不斷演化的,每個(gè)話題都會(huì)經(jīng)歷從擴(kuò)散到衰落的過(guò)程,話題之間也會(huì)產(chǎn)生漂移或滲透。從大規(guī)模網(wǎng)絡(luò)文本中獲取話題及其演化趨勢(shì),可以幫助人們掌握話題發(fā)展的“來(lái)龍去脈”,為監(jiān)管部門及時(shí)應(yīng)對(duì)網(wǎng)絡(luò)輿情提供科學(xué)依據(jù)。因此,話題演化研究具有現(xiàn)實(shí)的應(yīng)用背景。近年來(lái),國(guó)內(nèi)外學(xué)者對(duì)話題演化展開(kāi)了研究,主要包括話題強(qiáng)度演化和內(nèi)容演化兩條研究路線。話題強(qiáng)度演化是指話題所受關(guān)注的程度隨時(shí)間而變化,通常表現(xiàn)為與主題對(duì)應(yīng)的文檔數(shù)量;話題內(nèi)容演化是指文本集中覆蓋的主題范圍隨時(shí)間的變化,一般表現(xiàn)為與主題對(duì)應(yīng)的特征詞變化[4]。當(dāng)前,話題演化分析模型常用的方法是將文檔劃分為不同的時(shí)間切片,然后在每個(gè)切片中提取主題。然而,這種方法容易導(dǎo)致過(guò)多和零碎的主題,且難以判定主題演化方向,對(duì)主題演化分析不充分。因此,話題演化仍需進(jìn)一步探索,尤其是在網(wǎng)絡(luò)文本領(lǐng)域。此外,還有一些學(xué)者嘗試拓寬話題演化分析中的維度和深度。例如,Callon等[5]基于共詞分析提出用向心度(Centrality)和密度(Density)來(lái)分析話題的成熟度和關(guān)鍵性的觀點(diǎn),為話題演化研究提供了新的思路。盡管已有一些工作通過(guò)構(gòu)建話題生命周期來(lái)檢測(cè)話題所處階段[6],但將話題狀態(tài)引入話題演化過(guò)程中的研究還非常少。在面對(duì)這些問(wèn)題時(shí),厘清話題演化過(guò)程中的復(fù)雜性就顯得尤為迫切,尤其是話題之間的融合、分裂以及演化路徑的分析。

基于此,本文對(duì)國(guó)內(nèi)外話題演化相關(guān)研究進(jìn)行了系統(tǒng)調(diào)研與總結(jié)。首先,按照規(guī)范流程對(duì)近年來(lái)國(guó)內(nèi)外話題演化相關(guān)研究進(jìn)行分析、整合與展示;其次,根據(jù)已有研究歸納話題演化研究的基礎(chǔ);在此基礎(chǔ)上,從話題強(qiáng)度、話題狀態(tài)、話題內(nèi)容與演化路徑等多個(gè)方面探討話題演化研究維度,同時(shí)討論了話題演化趨勢(shì)預(yù)測(cè),并總結(jié)話題演化研究的不同方法;最后,指出現(xiàn)有研究的不足,并對(duì)今后的話題演化研究進(jìn)行展望。

1 數(shù)據(jù)和方法

本研究的數(shù)據(jù)來(lái)源分為國(guó)內(nèi)和國(guó)外兩部分。國(guó)內(nèi)數(shù)據(jù)來(lái)源于CNKI,為了保證論文的質(zhì)量,以“話題演化”“話題傳播”“主題發(fā)現(xiàn)”“話題檢測(cè)”為主題,以中文社會(huì)科學(xué)引文索引(CSSCI)來(lái)源期刊和中文核心期刊收錄為范圍進(jìn)行高級(jí)檢索。在搜索國(guó)外“話題演化”相關(guān)文獻(xiàn)時(shí),本研究首先選擇覆蓋多個(gè)學(xué)科領(lǐng)域的綜合性數(shù)據(jù)庫(kù)Web of Science、Science Direct以及Springer Link等連續(xù)動(dòng)態(tài)更新的大型數(shù)據(jù)庫(kù),然后分別以“topic evolution”“evolution path”“topic spreading”為關(guān)鍵詞開(kāi)展主題、標(biāo)題、摘要和關(guān)鍵字段的搜索;接著使用相同的關(guān)鍵詞在Google Scholar中進(jìn)行搜索,補(bǔ)充了未收錄進(jìn)以上數(shù)據(jù)庫(kù)的論文。此外,本研究還查看已有綜述文章納入分析的文獻(xiàn),對(duì)現(xiàn)有搜索結(jié)果進(jìn)行補(bǔ)充(如Zhou等[7]的研究),初步得到309篇論文。經(jīng)過(guò)去重獲得189篇可能與話題演化相關(guān)的論文,但還需要進(jìn)一步確定其是否符合本研究的綜述目標(biāo),因而以人工方式剔除條件不符(包括會(huì)議摘要、學(xué)者隨筆等)或信息不全的文獻(xiàn)。其次,僅提到該關(guān)鍵詞但與研究問(wèn)題不符的文獻(xiàn)也被排除在外。經(jīng)文獻(xiàn)篩選,一共得到符合本文所需的相關(guān)論文156篇。最后開(kāi)展質(zhì)量評(píng)估對(duì)每篇文獻(xiàn)進(jìn)行逐一判讀,以確保綜述對(duì)象的質(zhì)量,最終得到74篇高質(zhì)量研究論文。這些論文大多發(fā)表于近5年,主要為期刊論文,并且廣泛涉及圖書情報(bào)學(xué)、計(jì)算機(jī)科學(xué)與技術(shù)以及社會(huì)科學(xué)等多個(gè)領(lǐng)域,可見(jiàn)話題演化是一個(gè)跨學(xué)科的問(wèn)題且在近年來(lái)引起學(xué)術(shù)界廣泛討論。

從中外話題演化研究的發(fā)文量看,隨著近年來(lái)互聯(lián)網(wǎng)的快速發(fā)展,與之相關(guān)的話題演化文獻(xiàn)也呈逐年上升趨勢(shì)(見(jiàn)圖1)。首先,本文借鑒文獻(xiàn)計(jì)量學(xué)奠基人普賴斯提出的科技文獻(xiàn)增長(zhǎng)理論[8],將話題演化研究分為三個(gè)階段:第一階段為起步探索期(2001—2011年),文獻(xiàn)數(shù)量較少;第二階段是平穩(wěn)增長(zhǎng)期(2012—2017年),文獻(xiàn)數(shù)量呈穩(wěn)定增長(zhǎng)態(tài)勢(shì),雖然該時(shí)期部分年份發(fā)文量略有下降,但總體呈上升趨勢(shì);第三階段為快速發(fā)展期(2018—2020年),國(guó)內(nèi)外相關(guān)文獻(xiàn)數(shù)量增長(zhǎng)迅速,可見(jiàn)在今后的幾年內(nèi)該研究仍將保持較高的研究熱度以及較快的發(fā)展速度。其次,國(guó)內(nèi)發(fā)文量與國(guó)外呈現(xiàn)一致增長(zhǎng)趨勢(shì),這說(shuō)明話題演化研究受到世界各國(guó)學(xué)者的廣泛關(guān)注,且國(guó)內(nèi)與國(guó)外關(guān)于話題演化研究的發(fā)展趨勢(shì)是一致的。盡管外文文獻(xiàn)數(shù)量略高于中文文獻(xiàn),但有4篇外文文獻(xiàn)是國(guó)內(nèi)學(xué)者發(fā)文。

圖1 中外話題演化研究年度發(fā)文量對(duì)比

通過(guò)對(duì)74篇話題演化研究文獻(xiàn)的研讀分析,先是介紹話題演化研究的基礎(chǔ),以期對(duì)話題演化研究的基本理論與技術(shù)手段進(jìn)行了解。在此基礎(chǔ)上,探討話題演化分析維度,同時(shí)討論話題演化趨勢(shì)預(yù)測(cè),并從中總結(jié)話題演化的分析方法,旨在深化話題研究脈絡(luò)、探討未來(lái)研究思路。

2 話題演化研究的基礎(chǔ)

2.1 理論基礎(chǔ)

雖然話題演化最初是在跟蹤新聞報(bào)道的背景下產(chǎn)生的,但是其理論基礎(chǔ)可以追溯到20世紀(jì)30年代提出的“生命周期理論”(Life Cycle Theory)[9]。這一經(jīng)典理論認(rèn)為,任何事物都要經(jīng)歷誕生、成長(zhǎng)、成熟、衰退和死亡整個(gè)過(guò)程,也泛指事物的階段性變化及規(guī)律[4]。話題也具有生命周期的基本特征,生命周期理論勾勒了話題的演化軌跡。

Chen等[10]在生命周期的基礎(chǔ)上提出了衰老理論(Aging Theory)。該理論認(rèn)為,話題的生命周期與生物類似,生物擁有豐富的營(yíng)養(yǎng),即話題的相關(guān)文檔增多,生命周期就會(huì)延長(zhǎng);反之,當(dāng)營(yíng)養(yǎng)耗盡時(shí),一個(gè)生命或話題就會(huì)消失。換言之,當(dāng)一個(gè)話題剛出現(xiàn)時(shí),人們可能會(huì)對(duì)它感興趣,但隨著時(shí)間的推移,它的關(guān)注度逐漸下降。Fang等[11]基于衰老理論,結(jié)合話題相關(guān)的推文和用戶權(quán)威構(gòu)建了一個(gè)話題生命周期模型,并將話題劃分為嬰兒、成長(zhǎng)、成熟、衰退和消失五個(gè)階段。同樣,謝科范等[12]將網(wǎng)絡(luò)輿情分為潛伏期、萌動(dòng)期、加速期、成熟期、衰退期五個(gè)階段來(lái)分析網(wǎng)絡(luò)突發(fā)事件,并為相關(guān)部門的管理決策提供了理論指導(dǎo)。

2.2 技術(shù)基礎(chǔ)

近年來(lái),話題演化研究在信息檢索和數(shù)據(jù)挖掘等學(xué)術(shù)領(lǐng)域引起了廣泛的關(guān)注。最早的工作可追溯到美國(guó)國(guó)防部高級(jí)研究計(jì)劃局(Defense Advanced Research Projects Agency)于1996年提出的一種“話題檢測(cè)與追蹤”技術(shù),該項(xiàng)技術(shù)是指利用計(jì)算機(jī)技術(shù)從新聞專線或廣播新聞等新聞數(shù)據(jù)來(lái)源中自動(dòng)檢測(cè)話題,并采用話題相似度計(jì)算方法對(duì)后續(xù)新聞報(bào)道中話題的相關(guān)內(nèi)容進(jìn)行追蹤[13]。關(guān)于話題演化的研究起始于跟蹤具有時(shí)間信息的文檔的話題趨勢(shì)[14],但是早期的TDT研究并未有效地利用語(yǔ)料的時(shí)間信息來(lái)分析話題隨時(shí)間的變化[3]。目前,常見(jiàn)的話題演化分析技術(shù)路徑主要包括以下內(nèi)容。

(1)基于共詞分析的話題演化。共同出現(xiàn)在同一文檔或段落中的一對(duì)關(guān)鍵詞被視為具有共現(xiàn)關(guān)系,且共現(xiàn)強(qiáng)度等于關(guān)鍵詞的共現(xiàn)頻率[15]。共現(xiàn)強(qiáng)度越大,兩個(gè)詞之間的內(nèi)涵關(guān)聯(lián)性越強(qiáng),在話題上的一致性越高。計(jì)算大規(guī)模文檔集關(guān)鍵詞共現(xiàn)的關(guān)系網(wǎng)絡(luò)能夠反映研究話題的結(jié)構(gòu)和演化規(guī)律。

(2)基于文本挖掘的話題演化。該方法重在分解文檔內(nèi)容,關(guān)注文檔內(nèi)部的特征,實(shí)現(xiàn)對(duì)文檔粒度更小、層次更深、更全面的分析和研究[16]。隨著文本挖掘方法的興起,如何借助話題模型,研究話題隨時(shí)間的變化以及如何變化,成為話題演化研究熱點(diǎn)。LDA(Latent Dirichlet Allocation)話題模型是話題演化研究中最常見(jiàn)的技術(shù)[17]。它由Blei等首次提出,是一種混合概率模型,該模型通過(guò)最大化詞語(yǔ)共現(xiàn)概率來(lái)尋找詞語(yǔ)聚類,使用狄利克雷分布描述文檔生成過(guò)程,并對(duì)文檔的主題數(shù)量進(jìn)行限制。大量研究表明,LDA在不同領(lǐng)域研究熱點(diǎn)挖掘[18]、強(qiáng)度演化[19]、趨勢(shì)預(yù)測(cè)[20]等方面都取得了良好效果。

3 話題演化研究的脈絡(luò)

話題演化研究的脈絡(luò)如圖2所示。話題演化研究始于話題檢測(cè),即從給定文檔集中識(shí)別出覆蓋的話題,以及不同話題所占的比重,為話題演化分析提供基礎(chǔ)。根據(jù)收集到的文獻(xiàn)資料進(jìn)行分析歸納,本文認(rèn)為話題強(qiáng)度、話題狀態(tài)、話題內(nèi)容以及演化路徑是話題演化分析的主要維度且部分研究只是聚焦于其中的某個(gè)或某幾個(gè)方面。因此,本文將從這4個(gè)維度展開(kāi)深入分析。最后,話題演化研究的主要目的是發(fā)現(xiàn)話題演化規(guī)律并預(yù)測(cè)其未來(lái)發(fā)展趨勢(shì),為管理決策提供參考。

圖2 話題演化研究的脈絡(luò)

3.1 話題檢測(cè)

話題檢測(cè),也稱為“話題發(fā)現(xiàn)”或“話題識(shí)別”,旨在從大規(guī)模文檔集中找到具有一致語(yǔ)義關(guān)系的相同話題。話題檢測(cè)首先是在靜態(tài)文本中提出的,大多數(shù)靜態(tài)文本檢測(cè)方法是基于概率話題模型,如PLSA[21]和LDA[22]。LDA作為PLSA的貝葉斯擴(kuò)展,是話題演化研究中最流行的一個(gè)模型,解決了PLSA的兩個(gè)問(wèn)題。首先它的參數(shù)不會(huì)隨著文檔集增長(zhǎng)而線性增長(zhǎng),具有很好的泛化能力;其次,PLSA是對(duì)給定的文檔集進(jìn)行建模,但對(duì)于如何將已有的模型應(yīng)用于新的文檔沒(méi)有直接的辦法。

也有一些研究建立了基于機(jī)器學(xué)習(xí)的話題檢測(cè)方法。例如,Wartena等[23]通過(guò)關(guān)鍵詞的共現(xiàn)關(guān)系來(lái)聚類關(guān)鍵詞,從而發(fā)現(xiàn)話題。為了確定有意義的研究領(lǐng)域,Hurtado等[24]對(duì)文檔中含有動(dòng)詞的標(biāo)題進(jìn)行關(guān)聯(lián)規(guī)則分析,并通過(guò)刪除停用詞和動(dòng)詞來(lái)檢測(cè)話題。Chen等[25]提出了一種非參數(shù)模型(NPMM)并利用輔助詞嵌入來(lái)自動(dòng)確定給定文檔是否屬于已有主題,進(jìn)而推斷主題編號(hào)。此外,Lu等[26]檢測(cè)了來(lái)自共詞網(wǎng)絡(luò)中不同社區(qū)的詞,在這些社區(qū)中,來(lái)自某個(gè)特定社區(qū)的詞都屬于相同且相互獨(dú)立的主題。針對(duì)數(shù)據(jù)流連續(xù)、動(dòng)態(tài)變化的特征,許多學(xué)者提出了一系列有效的解決方案。黃云等[27]針對(duì)微博話題檢測(cè)中需要解決的高維數(shù)據(jù)、噪聲信息以及話題的快速演化等主要問(wèn)題,提出了一個(gè)微博在線話題檢測(cè)模型(DLM)。賀敏等[28]提出了一種基于時(shí)序分析的微博突發(fā)話題檢測(cè)方法。

話題檢測(cè)的通用技術(shù)包括話題概率模型以及機(jī)器學(xué)習(xí)等方法。其中LDA模型最流行,該模型可以從大規(guī)模文本中迅速識(shí)別主題。由于網(wǎng)絡(luò)自由文本中包含一些同義詞和近義詞,如何充分利用文本中詞的復(fù)雜語(yǔ)義提升話題檢測(cè)的質(zhì)量,仍需要進(jìn)一步探索。此外,互聯(lián)網(wǎng)充斥著海量信息,且更新速度很快,如何快速識(shí)別大規(guī)模文本數(shù)據(jù)中的話題,并跟蹤事件發(fā)展,成為急需解決的問(wèn)題。此外,社交媒體上包含大量帶有噪聲的數(shù)據(jù)(如廣告信息等),對(duì)話題檢測(cè)沒(méi)有實(shí)際意義,甚至給話題檢測(cè)結(jié)果帶來(lái)偏差,如何有效地從復(fù)雜多樣的數(shù)據(jù)中識(shí)別出有效的話題,是話題檢測(cè)的一大任務(wù)。

3.2 話題強(qiáng)度演化

話題強(qiáng)度演化表現(xiàn)為話題在不同時(shí)間切片中的流行程度,大多數(shù)基于LDA模型,將LDA應(yīng)用在整個(gè)文檔集合上,然后根據(jù)文檔的時(shí)間信息將文檔離散到相應(yīng)的時(shí)間片。對(duì)于一個(gè)特定的話題,可以在不同時(shí)間片中依次考察其話題強(qiáng)度,以顯示話題在整個(gè)時(shí)間軸中的變化情況。例如,F(xiàn)eng等[29]使用LDA來(lái)處理不同時(shí)間片中的文檔集合,計(jì)算每個(gè)博客上話題分布概率的平均值,從而確定話題的平均熱度。這種方法的優(yōu)點(diǎn)是簡(jiǎn)單、易于操作,但是由于模型假設(shè)文檔順序是可交換的,不能有效地將時(shí)間信息與模型結(jié)合起來(lái),因此未能充分利用時(shí)間信息,從而在同樣建模條件下,會(huì)出現(xiàn)困惑度值很高的情況。如Wang等[30]提出了一種不同于將時(shí)間離散化的主題演化模型(Topic Over Time,TOT),它不再使用馬爾科夫假設(shè),而是將每一個(gè)主題表示為一個(gè)關(guān)于時(shí)間變量的連續(xù)概率分布,每一個(gè)主題不僅與詞的共現(xiàn)相關(guān),還與文本的時(shí)間戳有關(guān),而且主題的內(nèi)容以及主題之間的關(guān)系也是隨著時(shí)間變化的。

一般而言,討論一個(gè)話題的文檔數(shù)量越多,這個(gè)話題就越受歡迎。由于與人們觀察到的文本信息相吻合,這種方法越來(lái)越受到重視。Liu等[31]利用過(guò)去不同時(shí)期話題的頻率累積來(lái)預(yù)測(cè)一個(gè)話題在未來(lái)一段時(shí)間內(nèi)是否會(huì)流行。Zhao等[32]提出話題的“成長(zhǎng)因子”來(lái)預(yù)測(cè)短期的話題趨勢(shì),并認(rèn)為話題文檔數(shù)量的增長(zhǎng)速度會(huì)影響“成長(zhǎng)因子”。但是,一篇文檔可以包含多個(gè)話題,同一特征詞或主題詞對(duì)不同話題的貢獻(xiàn)各不相同,因此在話題強(qiáng)度演化過(guò)程中,應(yīng)該考慮特征詞或主題詞對(duì)話題的貢獻(xiàn)。例如,李慧等[33]將特征詞熱度加入微博熱點(diǎn)話題演化模型中,可以發(fā)現(xiàn)微博熱點(diǎn)事件子話題的演化規(guī)律。

3.3 話題狀態(tài)演化

話題狀態(tài)是指研究話題在其演化生命周期中所處的階段。當(dāng)一個(gè)話題出現(xiàn)時(shí),人們可能會(huì)對(duì)它感興趣。隨著時(shí)間流逝,話題的演化狀態(tài)也在不斷變化,并展現(xiàn)出一定的特征,如新話題中的關(guān)鍵詞數(shù)量少,內(nèi)部關(guān)聯(lián)性弱,與其他話題相關(guān)性低;隨著話題的成長(zhǎng),內(nèi)部關(guān)鍵詞的數(shù)量增加,它們之間的關(guān)系增強(qiáng),與其他話題的相關(guān)性增加。因此,一些研究者就話題演化過(guò)程中的演化狀態(tài)進(jìn)行了研究。為了跟蹤一個(gè)話題的演化趨勢(shì),Du等[34]提出了一種熱門話題生命周期模型(HTLCM),并將HTLCM劃分為出生、成長(zhǎng)、成熟、衰退和消失五個(gè)階段。另外,Callon等[5]基于共詞分析提出了向心度和密度的概念,用來(lái)表示研究主題的關(guān)鍵性和成熟度。

上述工作多是回溯話題生命周期來(lái)識(shí)別話題的狀態(tài)。由于話題演化具有較大的不確定性,對(duì)正在傳播中的話題來(lái)判斷其所處的生命周期階段是非常困難的。少量工作通過(guò)設(shè)計(jì)指標(biāo)來(lái)描述話題當(dāng)前的狀態(tài),但是,如何設(shè)計(jì)出既能反映話題當(dāng)前狀態(tài)以及未來(lái)趨勢(shì),又能揭示話題潛在發(fā)展力的指標(biāo),是話題演化狀態(tài)監(jiān)測(cè)的難點(diǎn)。

3.4 話題內(nèi)容演化

話題內(nèi)容演化就是話題內(nèi)容隨著時(shí)間的推移而發(fā)生的變化,通常表現(xiàn)為特征詞在不同時(shí)間切片上的差異,而這種差異主要體現(xiàn)在語(yǔ)義關(guān)聯(lián)方面。Blei等[17]開(kāi)發(fā)了一個(gè)動(dòng)態(tài)LDA模型,該模型反映了主題內(nèi)容的時(shí)序變化。胡艷麗等[35]基于話題模型抽象描述文本內(nèi)容的隱含語(yǔ)義,進(jìn)而建立話題在時(shí)間序列上的內(nèi)容演化。余本功等[36]利用改進(jìn)的OLDA模型來(lái)應(yīng)對(duì)輿情監(jiān)控中的話題快速產(chǎn)生和消亡,并且分析得出話題內(nèi)容演化。陳興蜀等[37]基于OLDA模型對(duì)論壇中的熱點(diǎn)話題演化跟蹤做了研究。特征詞或主題詞在話題演化中的重要作用引起了學(xué)者的關(guān)注。例如,曹麗娜等[38]結(jié)合話題熱度(強(qiáng)度)變化和內(nèi)容變化兩方面研究天涯論壇,挖掘隨時(shí)間變化的動(dòng)態(tài)話題鏈,從詞語(yǔ)變化微觀角度分析熱門事件下公眾意見(jiàn)的變遷過(guò)程。

話題內(nèi)容演化是話題演化研究中的一個(gè)重要組成部分。隨著時(shí)間的推進(jìn)、網(wǎng)民的持續(xù)關(guān)注和熱烈討論,話題在不斷地變化著。若演化后的話題與原有話題在內(nèi)容上產(chǎn)生了較大的偏移,如何有效地探測(cè)和跟蹤話題發(fā)展過(guò)程中的內(nèi)容變化,是話題內(nèi)容演化分析的關(guān)鍵問(wèn)題。

3.5 話題演化路徑

演化路徑不同于話題內(nèi)容的演化,它是指研究主題在時(shí)間軸上的演化脈絡(luò),旨在呈現(xiàn)主題的漂移特征。網(wǎng)絡(luò)文本中的詞匯語(yǔ)義更豐富復(fù)雜,這給網(wǎng)絡(luò)文本話題演化路徑研究帶來(lái)了挑戰(zhàn),一些學(xué)者提出了相應(yīng)的解決方案。Gao等[39]提出了一種新的在線加權(quán)條件隨機(jī)場(chǎng)正則化相關(guān)主題模型(OCCTM),該模型利用語(yǔ)義相關(guān)性捕捉來(lái)自短文本的主要話題和相關(guān)子話題的演化路徑;張佩瑤等[40]利用K-means算法對(duì)主題詞向量聚類,得到融合后的主題,進(jìn)而建立文本集在時(shí)間片上的話題演化路徑;Li等[41]針對(duì)短文本語(yǔ)義稀疏問(wèn)題,通過(guò)引入維基知識(shí)庫(kù)對(duì)模型語(yǔ)義進(jìn)行擴(kuò)展,結(jié)果表明,改進(jìn)的主題漂移檢測(cè)方法能夠更有效跟蹤短文本流中的主題漂移。

對(duì)于話題演化的路徑分析,上述研究大多是把文檔劃分為不同的時(shí)間片,然后在每個(gè)切片中提取主題,再通過(guò)計(jì)算特征詞或主題詞之間的語(yǔ)義關(guān)聯(lián)情況來(lái)實(shí)現(xiàn)話題演化路徑分析。但是,時(shí)間的分割往往是主觀的,一些話題通常存在于多個(gè)甚至全部的時(shí)間切片中,這種方法將導(dǎo)致話題過(guò)多過(guò)雜。另外,由于網(wǎng)絡(luò)本身具有的發(fā)散性、滲透性和隨意性等特點(diǎn),使得事件在發(fā)展過(guò)程中可能朝任何一個(gè)方向轉(zhuǎn)換,這導(dǎo)致原有的話題可以衍生出多個(gè)與之相關(guān)的話題且話題的內(nèi)容產(chǎn)生較大偏移,而計(jì)算不同時(shí)間片話題之間相似度的方法難以揭示話題漂移的方向。

3.6 話題演化趨勢(shì)預(yù)測(cè)

話題演化趨勢(shì)預(yù)測(cè)是話題演化研究的一個(gè)拓展問(wèn)題,是指利用歷史數(shù)據(jù)預(yù)測(cè)未來(lái)的話題演化趨勢(shì),可用于挖掘潛在的熱點(diǎn)話題等多個(gè)方面。目前關(guān)于話題演化趨勢(shì)預(yù)測(cè)的研究工作主要集中在話題強(qiáng)度預(yù)測(cè)上。Wang等[42]在建模的時(shí)候引入用戶的情感,通過(guò)馬爾可夫隨機(jī)場(chǎng)和圖熵模型計(jì)算社區(qū)情感能量,然后基于社區(qū)情感能量和話題的傳播流行度之間的線性相關(guān)性來(lái)預(yù)測(cè)話題的流行度。部分研究開(kāi)始關(guān)注話題演化時(shí)間序列分析,但對(duì)于話題演化的時(shí)序分析,主要通過(guò)構(gòu)建話題演化時(shí)間序列模型。例如,裴可鋒等[43]對(duì)話題熱度時(shí)間序列進(jìn)行離散化的DTPM模型能夠有效提高話題熱度預(yù)測(cè)的精度。

對(duì)于已經(jīng)流行的話題是否會(huì)再次流行,Wang等[44]考慮了用戶朋友圈、話題類型和突發(fā)事件等因素,然后基于高斯混合分布計(jì)算在未來(lái)時(shí)間段內(nèi)話題再次流行的概率。然而,對(duì)話題內(nèi)容演化進(jìn)行預(yù)測(cè)的研究工作還非常少,常用方法是度量特征詞或主題詞之間的相似度進(jìn)行話題演化趨勢(shì)預(yù)測(cè),即語(yǔ)義相似度分析。該方法是對(duì)文本進(jìn)行向量表示,然后計(jì)算文本相似度,相似度越大,話題演化趨勢(shì)的可能性越大。因此,如何結(jié)合時(shí)序分析和語(yǔ)義分析進(jìn)行話題演化趨勢(shì)預(yù)測(cè),有待于進(jìn)一步深入研究。

4 話題演化分析方法的比較

話題演化分析方法是指在話題演化研究中所運(yùn)用的方法或者模型。目前話題演化分析方法,在話題強(qiáng)度、話題狀態(tài)、話題內(nèi)容以及演化路徑上有各自不同的特點(diǎn)。另外,時(shí)間因素也是不可忽視的重要元素,共有3種引入時(shí)間方式的不同方法:①將時(shí)間作為可觀測(cè)變量結(jié)合到模型中;②在整個(gè)文本集上運(yùn)用話題模型抽取主題,然后按文本的時(shí)間信息,后離散分析話題隨時(shí)間的演化;③將文本集合先按一定時(shí)間粒度離散到不同的時(shí)間片,在每個(gè)時(shí)間片上運(yùn)用話題模型來(lái)獲取話題隨時(shí)間的演化。

本節(jié)主要對(duì)第三部分提到的各種模型方法進(jìn)行總結(jié)比較,并根據(jù)話題演化分析的維度,我們選擇了代表模型、研究方法、引入時(shí)間方式、演化類型等方面來(lái)比較,見(jiàn)表1。

表1 話題演化分析方法比較

5 研究展望

本文綜述了關(guān)于話題檢測(cè),以及話題強(qiáng)度、話題狀態(tài)、話題內(nèi)容和演化路徑等相關(guān)研究工作,并對(duì)話題演化趨勢(shì)的預(yù)測(cè)進(jìn)行了探討。話題演化研究取得了一些進(jìn)展,但仍然存在一些挑戰(zhàn)性課題,同時(shí)這也是未來(lái)可能的研究方向。

首先,話題演化研究中挑戰(zhàn)性課題之一就是識(shí)別出貫穿時(shí)間周期內(nèi)的話題,在此基礎(chǔ)上實(shí)現(xiàn)話題強(qiáng)度、狀態(tài)、內(nèi)容和路徑的演化分析。目前,大多數(shù)方法是基于劃分時(shí)間片,通過(guò)計(jì)算不同時(shí)間片中話題的相似性來(lái)獲得演化的話題,這種方法會(huì)產(chǎn)生過(guò)多、不連貫的話題,且不能有效解決話題演化時(shí)的漂移現(xiàn)象。

其次,已有話題演化的相關(guān)研究常采用的詞共現(xiàn)分析并不能有效處理復(fù)雜語(yǔ)義的詞匯,也沒(méi)有考慮到不同特征詞對(duì)主題的貢獻(xiàn)度差異。此外,大多話題演化狀態(tài)研究是通過(guò)生命周期理論輔助進(jìn)行狀態(tài)識(shí)別,幾乎沒(méi)有對(duì)正在演化中的話題狀態(tài)進(jìn)行識(shí)別或預(yù)測(cè)。因此,充分挖掘自由文本中詞匯的豐富語(yǔ)義關(guān)系和重要程度,設(shè)計(jì)有效的話題檢測(cè)方法和演化狀態(tài)指標(biāo),是話題演化的未來(lái)研究方向之一。

最后,已有的話題演化趨勢(shì)預(yù)測(cè)相關(guān)工作多是預(yù)測(cè)話題強(qiáng)度,很少對(duì)話題內(nèi)容演化趨勢(shì)進(jìn)行預(yù)測(cè)。內(nèi)容演化趨勢(shì)預(yù)測(cè)是指對(duì)下一階段話題的漂移方向,甚至是新衍生的主題進(jìn)行預(yù)測(cè),這為相關(guān)部門有效監(jiān)控信息傳播提供了科學(xué)依據(jù),是話題演化研究的又一方向。但是,話題演化過(guò)程并沒(méi)有統(tǒng)一、通用的模式,受到諸多不確定因素的影響,給話題內(nèi)容演化預(yù)測(cè)帶來(lái)了巨大挑戰(zhàn)。

猜你喜歡
文本模型研究
一半模型
FMS與YBT相關(guān)性的實(shí)證研究
遼代千人邑研究述論
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
在808DA上文本顯示的改善
EMA伺服控制系統(tǒng)研究
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
主站蜘蛛池模板: 日本一区二区三区精品视频| a毛片在线| 国产专区综合另类日韩一区 | 国产福利小视频高清在线观看| 日韩亚洲综合在线| 毛片一级在线| 国产一国产一有一级毛片视频| 欧美视频二区| 国产区精品高清在线观看| 777午夜精品电影免费看| 茄子视频毛片免费观看| 99精品国产高清一区二区| 亚洲天天更新| 狠狠色综合网| 免费A级毛片无码免费视频| 无码视频国产精品一区二区| 精品无码日韩国产不卡av| 国产电话自拍伊人| 精品乱码久久久久久久| 色婷婷丁香| 老色鬼欧美精品| 99久久99视频| 亚洲一道AV无码午夜福利| yy6080理论大片一级久久| 亚洲无线观看| av一区二区三区高清久久 | 亚洲最猛黑人xxxx黑人猛交| 国产精品福利导航| 日韩成人在线视频| 欧美日韩在线成人| 成人精品区| 久久香蕉国产线| 免费人成在线观看视频色| 国产在线欧美| 狠狠色香婷婷久久亚洲精品| 99热这里都是国产精品| 亚洲精品动漫| 免费人成网站在线高清| 国内精品视频区在线2021 | 久久久无码人妻精品无码| 国产电话自拍伊人| 97久久精品人人| 国产极品美女在线播放 | 免费国产在线精品一区| 亚洲色图欧美激情| 欧美性猛交xxxx乱大交极品| 国产在线观看一区二区三区| 欧美国产成人在线| 亚洲欧美一区二区三区图片| 国产9191精品免费观看| 国产午夜福利亚洲第一| 国产美女在线免费观看| 无码AV高清毛片中国一级毛片| 欧美一区二区三区国产精品| 亚洲精品无码久久久久苍井空| 精品三级网站| 高潮爽到爆的喷水女主播视频| 久久婷婷综合色一区二区| 狠狠做深爱婷婷综合一区| 女人18毛片久久| 亚洲天堂成人| 麻豆精品在线| 91福利免费| 亚洲欧美日韩色图| 91午夜福利在线观看精品| 亚洲无码37.| 亚洲免费黄色网| 国产美女一级毛片| 亚洲中文字幕久久无码精品A| 国产麻豆另类AV| 在线观看无码av五月花| 国产欧美精品一区aⅴ影院| 亚洲黄色激情网站| 日本不卡在线播放| 成人欧美在线观看| 久久一本日韩精品中文字幕屁孩| 香蕉国产精品视频| 伊人天堂网| 亚洲欧美日韩高清综合678| 久久永久免费人妻精品| 欧美黄色网站在线看| 亚洲精品国偷自产在线91正片|