蔣明敏,王雪芬,劉 玥
(南京信息工程大學(xué) 當(dāng)代中國(guó)馬克思主義研究院,江蘇 南京 210044)
科學(xué)文獻(xiàn)的主題挖掘可以幫助情報(bào)服務(wù)機(jī)構(gòu)快速準(zhǔn)確地捕捉學(xué)科主題和脈絡(luò),分析主題演化路徑,并對(duì)學(xué)科未來(lái)的研究熱點(diǎn)和發(fā)展趨勢(shì)做出預(yù)測(cè)[1]。從知識(shí)結(jié)構(gòu)層面來(lái)看,研究主題屬于隱性層次,代表某個(gè)學(xué)科領(lǐng)域的研究方向,表現(xiàn)為若干個(gè)或一組關(guān)鍵詞的集合;科學(xué)文獻(xiàn)屬于顯性層次,是研究主題的外在表現(xiàn)和知識(shí)載體[2]。面對(duì)海量科學(xué)文獻(xiàn),如何有效挖掘隱性研究主題和潛在演化模式,是眾多研究學(xué)者關(guān)注的問(wèn)題。
主題模型可以在大規(guī)模的文獻(xiàn)數(shù)據(jù)中,通過(guò)主題的概率分布來(lái)表示數(shù)據(jù)集內(nèi)部的特征信息。既解決了傳統(tǒng)聚類算法的“維數(shù)災(zāi)難”問(wèn)題,又進(jìn)一步挖掘了科學(xué)文獻(xiàn)的潛在演化模式。其中,最為主流的主題模型是由Blei等提出的LDA模型(Latent Dirichlet Allocation)。然而,隨著文獻(xiàn)數(shù)量的急劇增長(zhǎng),研究人員已經(jīng)不滿足于靜態(tài)時(shí)間下研究主題的挖掘和分析。在研究主題的演化路徑中,“時(shí)間”維度是一個(gè)重要的標(biāo)簽,但傳統(tǒng)LDA模型并沒(méi)有考慮文獻(xiàn)時(shí)間這一維度,而現(xiàn)實(shí)情況是研究主題在時(shí)間序列趨勢(shì)下不斷演化。
基于此,本文以“網(wǎng)絡(luò)輿情”為研究對(duì)象,以CNKI數(shù)據(jù)庫(kù)中的文獻(xiàn)標(biāo)題和摘要為數(shù)據(jù)來(lái)源,結(jié)合多種停用詞表進(jìn)行中文分詞并提取領(lǐng)域術(shù)語(yǔ)。在LDA主題挖掘的基礎(chǔ)上,引入文獻(xiàn)時(shí)間信息,計(jì)算不同時(shí)間維度的研究主題概率分布相似度,分析研究主題隨時(shí)間的演化規(guī)律,為學(xué)科主題挖掘和演化分析研究提供新的思路和方法。……