席崇俊 劉文斌 丁楷
摘要:[目的/意義]主題識(shí)別研究對(duì)于理清領(lǐng)域內(nèi)的知識(shí)結(jié)構(gòu)與研究熱點(diǎn)非常重要,對(duì)領(lǐng)域主題進(jìn)行動(dòng)態(tài)識(shí)別,可以很好地幫助研究人員了解和掌握領(lǐng)域的發(fā)展態(tài)勢(shì)及未來走向。[方法/過程]利用張量的數(shù)據(jù)結(jié)構(gòu)形式,在詞共現(xiàn)矩陣中融入時(shí)間維度,只需一次聚類便可進(jìn)行動(dòng)態(tài)主題的識(shí)別。[結(jié)果/結(jié)論]張量結(jié)構(gòu)及非負(fù)張量分解算法為詞共現(xiàn)頻次變化視角下的動(dòng)態(tài)主題識(shí)別提供一種新的方法,該方法相較于傳統(tǒng)方法更為簡(jiǎn)單快捷,有效避免了信息的損失。
關(guān)鍵詞:關(guān)鍵詞共現(xiàn) ? ?非負(fù)矩陣分解 ? ?非負(fù)張量分解 ? ?動(dòng)態(tài)主題識(shí)別 ? ?知識(shí)管理
分類號(hào):G254.2
引用格式:席崇俊, 劉文斌, 丁楷. 詞共現(xiàn)頻次變化視角下的動(dòng)態(tài)主題識(shí)別研究[J/OL]. 知識(shí)管理論壇, 2022, 7(2): 197-208[引用日期]. http://www.kmf.ac.cn/p/281/.
1 ?引言
在信息時(shí)代背景下,隨著科技文獻(xiàn)數(shù)量的迅猛增長(zhǎng),研究人員無法在短時(shí)間內(nèi)吸收和掌握數(shù)以萬計(jì)的研究成果,即便是針對(duì)范圍狹窄的領(lǐng)域進(jìn)行密切關(guān)注、持續(xù)閱讀,仍難理清該領(lǐng)域的研究熱點(diǎn)和研究方向[1]。因此,對(duì)領(lǐng)域主題的挖掘與演化研究則顯得尤為重要,它可以很好地幫助研究人員了解和掌握領(lǐng)域的發(fā)展態(tài)勢(shì)及未來走向,也是解決信息大爆炸時(shí)代情報(bào)危機(jī)的有效方法[2-3]。本文基于詞共現(xiàn)頻次變化視角對(duì)動(dòng)態(tài)主題識(shí)別方法進(jìn)行探討,旨在為科技決策提供更好的支持。
2 ?研究現(xiàn)狀
主題識(shí)別與演化研究是利用文獻(xiàn)特征項(xiàng)之間的關(guān)聯(lián)關(guān)系對(duì)文獻(xiàn)集合進(jìn)行分析從而發(fā)現(xiàn)主題,并通過主題揭示文獻(xiàn)集合中蘊(yùn)涵的內(nèi)容,以了解當(dāng)前領(lǐng)域的研究熱點(diǎn)并預(yù)測(cè)未來的發(fā)展趨勢(shì)[4]。在主題識(shí)別與演化分析研究中,相關(guān)學(xué)者已經(jīng)開展了大量研究,根據(jù)研究對(duì)象由淺及深可分為基于文獻(xiàn)外部引用關(guān)系的方法、基于文獻(xiàn)內(nèi)部詞分析的方法、基于全文內(nèi)容文本挖掘的方法等。
基于文獻(xiàn)引用關(guān)系的分析方法可分為文獻(xiàn)共被引法、文獻(xiàn)耦合法以及文獻(xiàn)間的直接引用法等,主要是利用文獻(xiàn)之間的引用關(guān)系來判斷文獻(xiàn)之間的關(guān)聯(lián)程度,從而對(duì)文獻(xiàn)進(jìn)行劃分,達(dá)到主題聚類的目的[5-6]。例如祝清松等提出基于引文主路徑文獻(xiàn)共被引的主題演化分析方法,通過對(duì)引文主路徑上關(guān)鍵文獻(xiàn)的共被引分析來揭示學(xué)科領(lǐng)域的主題演化情況[7];黃福等通過核心文獻(xiàn)與其被引文獻(xiàn)進(jìn)行耦合分析,再通過核心文獻(xiàn)及其施引文獻(xiàn)進(jìn)行共被引分析,進(jìn)而分別構(gòu)建研究前沿領(lǐng)域[8];宋艷輝等以SCI和SSCI收錄的7種情報(bào)學(xué)期刊在2000-2010年間的數(shù)據(jù)為樣本,以作者文獻(xiàn)耦合分析方法為研究視角,探尋新世紀(jì)以來情報(bào)學(xué)的知識(shí)結(jié)構(gòu)[9]。
基于詞分析的方法主要分為詞頻分析法和詞共現(xiàn)分析法,詞頻分析法是通過統(tǒng)計(jì)文獻(xiàn)中關(guān)鍵詞出現(xiàn)頻次的高低變化來確定領(lǐng)域的研究重點(diǎn)及熱點(diǎn)[10],詞共現(xiàn)分析法則是通過統(tǒng)計(jì)一組詞共同出現(xiàn)的次數(shù)來分析詞之間的關(guān)聯(lián)關(guān)系,從而對(duì)詞進(jìn)行聚類得到主題[11]。例如奉國(guó)和等基于生命周期理論和詞頻分析方法,對(duì)學(xué)科領(lǐng)域發(fā)展過程進(jìn)行客觀合理的動(dòng)態(tài)跟蹤與分析[12];儲(chǔ)節(jié)旺等運(yùn)用詞頻分析法,通過對(duì)文獻(xiàn)關(guān)鍵詞的詞頻統(tǒng)計(jì),進(jìn)而對(duì)近10年來知識(shí)管理領(lǐng)域的研究熱點(diǎn)、應(yīng)用領(lǐng)域和研究方法進(jìn)行分析[13];姜鑫等利用CNKI數(shù)據(jù)庫通過詞頻分析法結(jié)合共詞分析法對(duì)2005-2016年我國(guó)科學(xué)數(shù)據(jù)領(lǐng)域的研究主題進(jìn)行演化分析[14];趙麗梅等以共詞分析為基本研究框架,揭示大數(shù)據(jù)背景下數(shù)字圖書館研究領(lǐng)域的主流研究范式,為后續(xù)研究提供內(nèi)容基礎(chǔ)和理論依據(jù)[15];唐果媛等采用人工判讀法提煉出基于共詞分析法的學(xué)科主題演化研究分析流程的5個(gè)步驟,并對(duì)每個(gè)步驟中研究人員使用的策略、分析手段和工具進(jìn)行歸納總結(jié)[16]。
基于文本挖掘的方法則是通過文本挖掘技術(shù)對(duì)主題進(jìn)行抽取,并用相關(guān)評(píng)價(jià)標(biāo)準(zhǔn)對(duì)主題進(jìn)行分類。例如胡吉明等構(gòu)建了適用于動(dòng)態(tài)文本內(nèi)容主題挖掘的LDA模型[17];楊超等構(gòu)建了基于“主語—行為—賓語”(subject-action-object, SAO)結(jié)構(gòu)的LDA主題模型,實(shí)現(xiàn)對(duì)專利文獻(xiàn)主題結(jié)構(gòu)的識(shí)別和分析[18];J. Kim等通過文本挖掘和決策樹的方法進(jìn)行技術(shù)預(yù)測(cè),從論文作者、期刊、所屬領(lǐng)域及專利的專利權(quán)人、所屬領(lǐng)域等字段中抽取能代表技術(shù)主題領(lǐng)域的特征[19]。
其中,基于詞共現(xiàn)分析的方法可以深入到文獻(xiàn)內(nèi)部,既關(guān)注詞出現(xiàn)的頻次大小,也考慮了詞間的語義關(guān)系,是當(dāng)前較為廣泛使用的一種方法。因此,本文考慮基于詞共現(xiàn)的分析方法對(duì)領(lǐng)域主題進(jìn)行挖掘。傳統(tǒng)基于詞共現(xiàn)分析對(duì)多個(gè)周期的主題進(jìn)行動(dòng)態(tài)識(shí)別時(shí),通常是基于二維數(shù)據(jù)——要么是根據(jù)各年份的詞頻變化矩陣進(jìn)行聚類;要么是先按年份對(duì)詞進(jìn)行時(shí)間切片,然后分別構(gòu)造詞共現(xiàn)矩陣進(jìn)行單獨(dú)多次聚類,從而實(shí)現(xiàn)動(dòng)態(tài)主題識(shí)別。前一種方法未考慮詞間的語義關(guān)系,后一種方法則需要進(jìn)行多次聚類,損失了大量信息。本文考慮借助張量的數(shù)據(jù)結(jié)構(gòu)形式,在詞共現(xiàn)矩陣上融入時(shí)間維度,構(gòu)造三維數(shù)據(jù),并基于非負(fù)張量分解算法只需一次聚類便可得到各年份的主題情況,有效減少了數(shù)據(jù)的損失。
3 ?研究思路
本文的具體研究思路如圖1所示:
為了在詞共現(xiàn)矩陣中融入時(shí)間維度,從詞共現(xiàn)頻次變化視角下進(jìn)行動(dòng)態(tài)主題識(shí)別,本文首先對(duì)詞共現(xiàn)矩陣的構(gòu)造方式、數(shù)據(jù)處理方式以及聚類方法進(jìn)行探討。①詞共現(xiàn)矩陣的構(gòu)建。文獻(xiàn)是關(guān)鍵詞的載體,而作者是科學(xué)研究的主體,二者所使用的關(guān)鍵詞集合對(duì)領(lǐng)域的知識(shí)結(jié)構(gòu)有著不同的反映,因此,本文考慮分別從文獻(xiàn)視角和作者視角構(gòu)建關(guān)鍵詞共現(xiàn)矩陣,并將兩種視角下的矩陣進(jìn)行融合,比較基于三種關(guān)鍵詞共現(xiàn)矩陣得到的主題識(shí)別結(jié)果的差異。 ? ?②詞共現(xiàn)矩陣的處理。在基于共現(xiàn)數(shù)據(jù)進(jìn)行研究時(shí),有學(xué)者指出直接在原始數(shù)據(jù)上進(jìn)行分析即可[20],有學(xué)者則認(rèn)為需要對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理后再進(jìn)行分析[21],在以往基于關(guān)鍵詞共現(xiàn)的主題識(shí)別研究中,關(guān)于共現(xiàn)矩陣是否需要以及如何進(jìn)行標(biāo)準(zhǔn)化處理尚無統(tǒng)一定論,因此,本文分別從對(duì)稱視角和非對(duì)稱視角對(duì)關(guān)鍵詞共現(xiàn)矩陣進(jìn)行標(biāo)準(zhǔn)化處理,對(duì)比是否進(jìn)行標(biāo)準(zhǔn)化操作以及不同的標(biāo)準(zhǔn)化處理操作方式對(duì)主題識(shí)別結(jié)果的影響。③詞共現(xiàn)矩陣的聚類方法。非負(fù)矩陣分解算法相較于傳統(tǒng)聚類算法(系統(tǒng)聚類法、主成分分析、奇異值分解等)可以有效避免關(guān)鍵詞與類團(tuán)的單屬性以及權(quán)重值為負(fù)等不足,而非負(fù)張量分解是非負(fù)矩陣分解在高維空間的拓展,因此,本文首先明確非負(fù)矩陣分解算法相對(duì)傳統(tǒng)聚類算法的有效性,然后比較非負(fù)分解算法與非負(fù)張量分解算法在動(dòng)態(tài)主題識(shí)別中的優(yōu)劣性。
4 ?數(shù)據(jù)集及研究方法
4.1 ?數(shù)據(jù)集
4.1.1 ?數(shù)據(jù)集的構(gòu)建
本文在Web of Science數(shù)據(jù)庫中以“knowledge management”為主題詞檢索了國(guó)外知識(shí)管理領(lǐng)域相關(guān)文獻(xiàn),文獻(xiàn)類型限定為“article”,文獻(xiàn)時(shí)間為“2017-2021年”,共檢索到4 898篇文獻(xiàn),包含11 343個(gè)關(guān)鍵詞字段和12 178個(gè)作者字段,通過對(duì)數(shù)據(jù)字段進(jìn)行清理,去除本位詞“knowledge management”的影響,選擇頻次大于1的關(guān)鍵詞進(jìn)行研究,并按如下三種方式構(gòu)建本文所需的關(guān)鍵詞共現(xiàn)矩陣:
(1)文獻(xiàn)視角下的關(guān)鍵詞共現(xiàn)矩陣構(gòu)建。假設(shè)KTm×p為關(guān)鍵詞—文獻(xiàn)共現(xiàn)矩陣,其中m為關(guān)鍵詞數(shù),p為文獻(xiàn)數(shù),矩陣元素為關(guān)鍵詞在文獻(xiàn)中出現(xiàn)的次數(shù),顯然KTm×p為0-1值矩陣,則基于文獻(xiàn)的關(guān)鍵詞共現(xiàn)矩陣ATm×m可定義為:
ATm×m=KTm×p*(KTm×p)T ? ? ? ? ?公式(1)
(2)作者視角下的關(guān)鍵詞共現(xiàn)矩陣構(gòu)建。同樣地,假設(shè)KRm×q為關(guān)鍵詞—作者共現(xiàn)矩陣,其中m為關(guān)鍵詞數(shù),q為作者數(shù),矩陣元素為作者使用關(guān)鍵詞的次數(shù),則基于作者的關(guān)鍵詞共現(xiàn)矩陣ARm×m可定義為:
ARm×m=KRm×q*(KRm×q)T ? ? ? ? ?公式(2)
(3)融合文獻(xiàn)和作者雙視角下的關(guān)鍵詞共現(xiàn)矩陣構(gòu)建。考慮到無論是基于文獻(xiàn)還是基于作者的關(guān)鍵詞共現(xiàn)本質(zhì)上都是計(jì)算關(guān)鍵詞共同出現(xiàn)的次數(shù),區(qū)別在于一個(gè)從文獻(xiàn)視角考慮,一個(gè)從作者視角考慮。對(duì)同一個(gè)領(lǐng)域來說,某一時(shí)間段內(nèi)其所包含的研究成果是一定的,由于科技文獻(xiàn)是研究成果的載體,而作者是科學(xué)研究的主體,二者互為補(bǔ)充,從不同視角對(duì)領(lǐng)域內(nèi)的研究情況進(jìn)行了劃分,因此本文考慮同時(shí)結(jié)合這兩個(gè)視角,融合文獻(xiàn)和作者的關(guān)鍵詞共現(xiàn)矩陣ATRm×m可定義為:
ATRm×m=ATm×m+ARm×m ? ? ? ?公式(3)
4.1.2 ?數(shù)據(jù)處理
(1)對(duì)稱視角下的標(biāo)準(zhǔn)化處理。2009年,N. J. van ECK等指出在對(duì)共現(xiàn)數(shù)據(jù)進(jìn)行分析時(shí)需要利用相似性度量來標(biāo)準(zhǔn)化數(shù)據(jù),并對(duì)比了幾種常用的相似性度量方法(關(guān)聯(lián)強(qiáng)度、余弦相似度、包含指數(shù)、Jaccard指數(shù)),發(fā)現(xiàn)基于概率的相似性度量方法(關(guān)聯(lián)強(qiáng)度)效果要好于基于集合論的度量方法(余弦相似度、包含指數(shù)、Jaccard指數(shù))[22]。因此,本文將利用關(guān)聯(lián)強(qiáng)度計(jì)算公式對(duì)關(guān)鍵詞共現(xiàn)矩陣進(jìn)行標(biāo)準(zhǔn)化處理。以融合文獻(xiàn)和作者的關(guān)鍵詞共現(xiàn)矩陣ATRm×m為例,記矩陣ATRm×m第i行第j列的元素為atrij,按公式(4)對(duì)其進(jìn)行相似化處理后得到矩陣ATR'm×m。
公式(4)
(2)非對(duì)稱視角下的標(biāo)準(zhǔn)化處理。上述方法是在對(duì)稱視角下對(duì)關(guān)鍵詞共現(xiàn)矩陣進(jìn)行了標(biāo)準(zhǔn)化處理,雖然兩個(gè)關(guān)鍵詞的共現(xiàn)頻次是唯一的,但是受單個(gè)關(guān)鍵詞出現(xiàn)頻次的影響,高頻關(guān)鍵詞與很多詞存在關(guān)聯(lián),而低頻詞只與少數(shù)詞存在關(guān)聯(lián),因此從高頻詞視角下計(jì)算的關(guān)聯(lián)度與從低頻詞視角下計(jì)算的關(guān)聯(lián)度是不同的,本文考慮利用公式(5)對(duì)矩陣ATRm×m進(jìn)行非對(duì)稱視角下的相似性度量得到矩陣ATR''m×m。
公式(5)
4.2 ?研究方法
4.2.1 ?非負(fù)矩陣分解
非負(fù)矩陣分解起源于主成分分析,最早由P. Paatero等[23]提出,被稱為正矩陣分解,其基本思想是將一個(gè)非負(fù)的矩陣分解為左右兩個(gè)非負(fù)矩陣的乘積。對(duì)于關(guān)鍵詞共現(xiàn)矩陣來說,m表示關(guān)鍵詞數(shù),利用上述介紹的非負(fù)矩陣分解算法將其分解為,其中矩陣V r×m的行可以解釋為r個(gè)主題,每行元素表示為詞表中m個(gè)關(guān)鍵詞在該主題中的非負(fù)權(quán)重,因此可以對(duì)詞表的每一行按權(quán)重值大小進(jìn)行排列,從而得到每個(gè)主題所包含的關(guān)鍵詞種類,并根據(jù)關(guān)鍵詞的權(quán)重值大小對(duì)主題進(jìn)行命名[24]。
4.2.2 ?非負(fù)張量分解
張量是一個(gè)多維數(shù)組,最常用的張量分解方法有CP分解和Tucker分解[25]。CP分解是將一個(gè)n階張量分解成多個(gè)秩為1的張量的和的形式[26],Tucker分解則是將其分解成一個(gè)核心張量與若干個(gè)因子矩陣乘積的形式,核心張量可以看成原張量的濃縮形式[27],當(dāng)核心張量是一個(gè)對(duì)角的張量時(shí),Tucker分解則退化成了CP分解[28-30](見圖2)。非負(fù)張量分解則是非負(fù)矩陣分解在高維空間中的拓展,它既保留了張量的優(yōu)點(diǎn),又避免了負(fù)元素的出現(xiàn),被廣泛應(yīng)用于圖像處理、音頻分類文本挖掘等領(lǐng)域。
在利用非負(fù)張量分解進(jìn)行主題識(shí)別時(shí),首先需要構(gòu)建一個(gè)合適的張量,以三階張量為例,由于本文是基于關(guān)鍵詞共現(xiàn)頻次變化視角進(jìn)行動(dòng)態(tài)主題識(shí)別,因此本文構(gòu)建了
<關(guān)鍵詞,關(guān)鍵詞,年份>的三階張量XI×I×K,如圖3所示,其中關(guān)鍵詞共現(xiàn)矩陣中的黑色圓圈代表關(guān)鍵詞之間的共現(xiàn)強(qiáng)度,對(duì)該張量進(jìn)行非負(fù)張量分解便可得到因子矩陣AI×R、BR×I、CK×R,以及核心張量ΛR×R×R,其中I代表關(guān)鍵詞種類數(shù),K代表年數(shù),R代表聚類個(gè)數(shù),與非負(fù)矩陣分解算法結(jié)果類似,非負(fù)張量分解算法中的因子矩陣AI×R、BR×I均可解釋為R個(gè)主題以及每個(gè)主題下包含的關(guān)鍵詞種類及權(quán)重值大小,且兩個(gè)因子矩陣下的聚類結(jié)果一致,此外因子矩陣CK×R還可解釋為R個(gè)主題在各個(gè)年份所占的權(quán)重值即主題研究熱度,核心張量ΛR×R×R則可解釋為R個(gè)主題的綜合強(qiáng)度,由此便將<關(guān)鍵詞,關(guān)鍵詞,年份>的三階張量降維成了<主題,年份>的二階矩陣,從而可以進(jìn)行主題的動(dòng)態(tài)識(shí)別,如圖3所示,主題框中的黑色圓圈大小代表主題在該年份所出現(xiàn)的強(qiáng)度大小。
5 ?結(jié)果分析
基于詞共現(xiàn)頻次變化視角進(jìn)行動(dòng)態(tài)主題識(shí)別時(shí),首先需要構(gòu)造合適的詞共現(xiàn)矩陣,因此本文首先對(duì)幾種詞共現(xiàn)矩陣的構(gòu)造方式及數(shù)據(jù)處理方法進(jìn)行對(duì)比,然后選擇合適的方法進(jìn)行張量的構(gòu)造與動(dòng)態(tài)主題的識(shí)別。本文首先進(jìn)行了兩組對(duì)照實(shí)驗(yàn),第一組實(shí)驗(yàn)對(duì)比了基于文獻(xiàn)的關(guān)鍵詞共現(xiàn)矩陣、基于作者的關(guān)鍵詞共現(xiàn)矩陣以及融合文獻(xiàn)與作者的關(guān)鍵詞共現(xiàn)矩陣在主題識(shí)別結(jié)果上的差異;第二組實(shí)驗(yàn)在第一組實(shí)驗(yàn)結(jié)果的基礎(chǔ)上,選擇一種數(shù)據(jù)集構(gòu)建方式,對(duì)比了共現(xiàn)矩陣進(jìn)行相似化處理操作對(duì)主題識(shí)別結(jié)果的影響。
5.1 ?數(shù)據(jù)集構(gòu)建組實(shí)驗(yàn)結(jié)果分析
通過多次實(shí)驗(yàn)發(fā)現(xiàn):當(dāng)類團(tuán)數(shù)多于5類時(shí),會(huì)出現(xiàn)部分類團(tuán)中的關(guān)鍵詞高度重疊的情形,因此本文將類團(tuán)數(shù)定為5類,三種關(guān)鍵詞共現(xiàn)矩陣下的非負(fù)矩陣分解聚類結(jié)果見表1。可以看出,非負(fù)矩陣分解算法下的聚類結(jié)果中各類團(tuán)里的關(guān)鍵詞權(quán)重值大小均非負(fù),彌補(bǔ)了主成分分析中權(quán)重值可正可負(fù)的不足,各類團(tuán)中的關(guān)鍵詞種類也有重復(fù),彌補(bǔ)了系統(tǒng)聚類法中一個(gè)關(guān)鍵詞只屬于一個(gè)類團(tuán)的不足,與現(xiàn)實(shí)情況相吻合。具體來看,三種關(guān)鍵詞共現(xiàn)矩陣下的聚類結(jié)果既存在相同之處也呈現(xiàn)出差異:
首先,三種關(guān)鍵詞共現(xiàn)矩陣下每個(gè)類團(tuán)中的主導(dǎo)詞(權(quán)重值最高的關(guān)鍵詞)基本一致,這些主導(dǎo)詞可以輔助于類團(tuán)的命名,由此說明不管是在文獻(xiàn)視角下還是作者視角下,國(guó)外知識(shí)管理領(lǐng)域近5年的研究熱點(diǎn)基本相同,主要有Knowledge Sharing、Innovation、Intellectual capital、Knowledge、Organizational performance、SEMs等;不同之處在于每個(gè)大主題下的研究方向有所差異(即每個(gè)類團(tuán)中權(quán)重值低的關(guān)鍵詞種類有所差異),如文獻(xiàn)視角下的Innovation主題中的關(guān)鍵詞按權(quán)重值排序依次為SMEs、Performance、Dynamic capabilities、Entrepreneurship等,作者視角下Innovation主題中的關(guān)鍵詞按權(quán)重值排序依次為SMEs、Dynamic capabilities、Organizational performance、Information technology等,兩種視角下的創(chuàng)新主題研究都聚焦于企業(yè),但文獻(xiàn)視角下的企業(yè)創(chuàng)新側(cè)重于企業(yè)家精神,而作者視角下的企業(yè)創(chuàng)新側(cè)重于信息技術(shù)。
此外,通過jaccard相似度算法計(jì)算出每種聚類結(jié)果下各主題之間的關(guān)聯(lián)度,得到關(guān)聯(lián)度均值、極差和標(biāo)準(zhǔn)差等統(tǒng)計(jì)數(shù)據(jù)(圖4-圖6)。可以看出,基于文獻(xiàn)視角的聚類結(jié)果中每個(gè)主題與該聚類結(jié)果下其他主題的關(guān)聯(lián)度均值都是最高,且極差和標(biāo)準(zhǔn)差最小;基于作者視角的聚類結(jié)果中每個(gè)主題與該聚類結(jié)果下其他主題的關(guān)聯(lián)度均值都比較低,且極差和標(biāo)準(zhǔn)差都較大;而融合兩種視角下關(guān)鍵詞共現(xiàn)矩陣的聚類結(jié)果的主題關(guān)聯(lián)度統(tǒng)計(jì)數(shù)據(jù)介于單視角結(jié)果之間。由此說明,作者視角下的聚類結(jié)果中各主題之間的區(qū)分度比文獻(xiàn)視角下的聚類結(jié)果主題區(qū)分度更為明顯,這是由于文獻(xiàn)數(shù)量遠(yuǎn)多于作者數(shù)量,文獻(xiàn)視角下的聚類結(jié)果可以對(duì)領(lǐng)域主題進(jìn)行深入的挖掘,而作者視角下的聚類結(jié)果可以對(duì)領(lǐng)域主題進(jìn)行全面的識(shí)別。結(jié)合三種聚類結(jié)果下各主題所包含的關(guān)鍵詞個(gè)數(shù)(見圖7)可知,文獻(xiàn)視角下的每個(gè)主題所包含的關(guān)鍵詞種類較作者視角下的關(guān)鍵詞種類更多,即主題內(nèi)容挖掘得更為深入細(xì)致。因此,融合了文獻(xiàn)和作者的關(guān)鍵詞共現(xiàn)矩陣相較于單一視角下的關(guān)鍵詞共現(xiàn)矩陣聚類結(jié)果既能全面地反映領(lǐng)域內(nèi)的研究情況,又能對(duì)研究?jī)?nèi)容進(jìn)行深入細(xì)致的挖掘。
該組實(shí)驗(yàn)結(jié)果表明:文獻(xiàn)是新知識(shí)、新技術(shù)的載體,代表了一個(gè)領(lǐng)域的最新研究成果,隨著知識(shí)大爆炸時(shí)代的來臨,文獻(xiàn)數(shù)量迅猛增長(zhǎng),基于文獻(xiàn)的關(guān)鍵詞共現(xiàn)矩陣聚類結(jié)果可以表征一個(gè)領(lǐng)域內(nèi)的熱門研究主題與研究前沿,且由于文獻(xiàn)數(shù)量遠(yuǎn)遠(yuǎn)多于作者數(shù)量,文獻(xiàn)視角下的關(guān)鍵詞共現(xiàn)矩陣可以對(duì)領(lǐng)域內(nèi)的研究情況進(jìn)行更為細(xì)致深入的挖掘;而作者則是長(zhǎng)期耕耘在某一研究方向上的創(chuàng)造者,基于作者的關(guān)鍵詞共現(xiàn)矩陣聚類結(jié)果可以表征領(lǐng)域內(nèi)的經(jīng)典研究主題,且對(duì)領(lǐng)域內(nèi)的研究情況進(jìn)行全面的反映。融合了文獻(xiàn)和作者的關(guān)鍵詞共現(xiàn)矩陣的聚類結(jié)果既能全面又能深入細(xì)致地反映領(lǐng)域內(nèi)的研究情況。
5.2 ?數(shù)據(jù)集處理組實(shí)驗(yàn)結(jié)果分析
第一組實(shí)驗(yàn)結(jié)果表明:基于融合文獻(xiàn)和作者雙視角的關(guān)鍵詞共現(xiàn)矩陣的主題識(shí)別結(jié)果能更好地反映領(lǐng)域內(nèi)的研究情況,因此本文以該矩陣為例繼續(xù)進(jìn)行下一步分析。首先對(duì)融合文獻(xiàn)和作者雙視角下的關(guān)鍵詞共現(xiàn)矩陣在對(duì)稱視角下和非對(duì)稱視角下進(jìn)行標(biāo)準(zhǔn)化處理,然后利用非負(fù)矩陣分解算法對(duì)經(jīng)標(biāo)準(zhǔn)化操作處理前后的關(guān)鍵詞共現(xiàn)矩陣進(jìn)行聚類,聚類結(jié)果見表2。
可以看出,未經(jīng)標(biāo)準(zhǔn)化處理的共現(xiàn)矩陣聚類結(jié)果與在非對(duì)稱視角下進(jìn)行標(biāo)準(zhǔn)化處理的共現(xiàn)矩陣聚類結(jié)果存在部分主題的主導(dǎo)詞相同的情況(如Knowledge sharing、Innovation、Knowledge等),而在對(duì)稱視角下進(jìn)行標(biāo)準(zhǔn)化處理的共現(xiàn)矩陣聚類結(jié)果則差異較大,通過查看原始數(shù)據(jù)發(fā)現(xiàn),未經(jīng)標(biāo)準(zhǔn)化操作和在非對(duì)稱視角下進(jìn)行標(biāo)準(zhǔn)化操作的聚類結(jié)果中各主題下的主導(dǎo)詞一般為高頻關(guān)鍵詞,且類團(tuán)中的關(guān)鍵詞權(quán)重值差異明顯,而在對(duì)稱視角下進(jìn)行標(biāo)準(zhǔn)化操作的聚類結(jié)果中各主題下的關(guān)鍵詞出現(xiàn)的頻次都比較低,且各類團(tuán)中的關(guān)鍵詞權(quán)重差異不大,這是因?yàn)閷?duì)稱視角下的標(biāo)準(zhǔn)化可以消除高頻關(guān)鍵詞的影響。此外,在非對(duì)稱視角下的標(biāo)準(zhǔn)化處理操作后的聚類結(jié)果除了將高頻關(guān)鍵詞聚攏,也將一部分低頻關(guān)鍵詞進(jìn)行聚攏,這是由于一些關(guān)鍵詞雖然出現(xiàn)的頻次不高,但是每一次出現(xiàn)都伴隨著其他詞一起出現(xiàn),這些詞的關(guān)聯(lián)度非常高,因而被聚為一類,而其他兩種聚類結(jié)果則不具這一特點(diǎn)。
該組實(shí)驗(yàn)結(jié)果表明:使用原始關(guān)鍵詞共現(xiàn)矩陣或?qū)ζ溥M(jìn)行非對(duì)稱視角下的標(biāo)準(zhǔn)化處理,可以分析領(lǐng)域內(nèi)的熱點(diǎn)研究主題,因?yàn)楦哳l關(guān)鍵詞往往能代表某一領(lǐng)域的研究重點(diǎn)與熱點(diǎn),其中經(jīng)非對(duì)稱標(biāo)準(zhǔn)化處理后的關(guān)鍵詞共現(xiàn)矩陣聚類結(jié)果除了可以研究高頻關(guān)鍵詞的類團(tuán),也涵蓋了低頻關(guān)鍵詞的聚攏情況,可以更加全面地分析領(lǐng)域內(nèi)的研究情況。使用對(duì)稱視角下標(biāo)準(zhǔn)化處理的關(guān)鍵詞共現(xiàn)矩陣可以分析領(lǐng)域內(nèi)的最新前沿研究動(dòng)向,在對(duì)稱視角下進(jìn)行標(biāo)準(zhǔn)化處理后的聚類結(jié)果既消除了高頻關(guān)鍵詞的影響,也未割除關(guān)鍵詞之間的關(guān)聯(lián)性。
5.3 ?動(dòng)態(tài)主題識(shí)別結(jié)果分析
基于前兩組的實(shí)驗(yàn)結(jié)果,第三組實(shí)驗(yàn)仍以融合了文獻(xiàn)和作者雙視角下的關(guān)鍵詞共現(xiàn)矩陣數(shù)據(jù)為例,并進(jìn)行非對(duì)稱視角下的標(biāo)準(zhǔn)化處理操作,然后對(duì)比非負(fù)矩陣分解算法和非負(fù)張量分解算法在動(dòng)態(tài)主題識(shí)別過程中的優(yōu)劣性。由于非負(fù)矩陣分解算法處理的數(shù)據(jù)是矩陣形式,因此需要對(duì)2017-2021年期間的關(guān)鍵詞共現(xiàn)矩陣按年進(jìn)行時(shí)間分片,共需進(jìn)行5次聚類,每年聚類的數(shù)據(jù)集為當(dāng)年出現(xiàn)的所有關(guān)鍵詞之間的共現(xiàn)矩陣;非負(fù)張量分解算法可以處理高維數(shù)據(jù)形式,因此可以直接對(duì)2017-2021年的所有關(guān)鍵詞進(jìn)行整體聚類,首先構(gòu)造一個(gè)三階張量,按年份維度可劃分為5片,每片為2017-2021年期間出現(xiàn)的所有關(guān)鍵詞在某一年份中的共現(xiàn)矩陣。非負(fù)矩陣分解算法和非負(fù)張量分解算法的聚類結(jié)果見表3。
可以看出,非負(fù)矩陣分解算法下的聚類結(jié)果,在2017-2021年期間各年份的主要研究熱點(diǎn)大致相同(每個(gè)類團(tuán)中的主導(dǎo)關(guān)鍵詞大致相同),但每個(gè)研究熱點(diǎn)下的研究方向與研究細(xì)度略有差異(每個(gè)類團(tuán)中的關(guān)鍵詞數(shù)量及種類有所差異),而非負(fù)張量分解只對(duì)2017-2021年期間的關(guān)鍵詞進(jìn)行了一次聚類,聚類結(jié)果與非負(fù)矩陣分解算法的結(jié)果整體較為吻合(非負(fù)張量分解的聚類結(jié)果中的各主導(dǎo)詞為非負(fù)矩陣分解聚類結(jié)果5年內(nèi)出現(xiàn)較多的主導(dǎo)詞)。
非負(fù)矩陣分解算法對(duì)2017-2021年期間的關(guān)鍵詞共現(xiàn)矩陣進(jìn)行了逐年多次聚類,而非負(fù)張量分解算法則是利用五年間關(guān)鍵詞聯(lián)系及演化得到五年間主題的識(shí)別與演化,即它所聚類出的主題為這5年間出現(xiàn)的所有主題,然后利用分解后核心張量的結(jié)果,得到這所有主題在每年出現(xiàn)的概率或是研究強(qiáng)度,從而實(shí)現(xiàn)了只需一次聚類便可進(jìn)行分析多年研究情況的動(dòng)態(tài)主題識(shí)別。但是由于非負(fù)張量分解只進(jìn)行了一次聚類,所以各年份出現(xiàn)的相同主題的研究?jī)?nèi)容都保持不變,相對(duì)綜合,而非負(fù)矩陣分解是對(duì)各年分別進(jìn)行單獨(dú)聚類,因此不同年份可能主題相似,但內(nèi)容有所差異,即非負(fù)矩陣分解在動(dòng)態(tài)主題識(shí)別時(shí)對(duì)各主題的研究?jī)?nèi)容刻畫得更為細(xì)致。
此外,通過對(duì)非負(fù)矩陣分解下的各年份聚類結(jié)果利用jaccard相似度算法計(jì)算主題相似度,得到主題演化脈絡(luò)圖(見圖8),而非負(fù)張量分解下的聚類結(jié)果可以利用核心張量得到各年份主題的研究強(qiáng)度圖(見圖9),這種主題研究強(qiáng)度并非以主題的關(guān)鍵詞數(shù)量或者頻次來衡量,而是通過各年份關(guān)鍵詞之間的共現(xiàn)變化關(guān)系而得出的主題演化強(qiáng)度,非負(fù)矩陣分解則較難實(shí)現(xiàn)這點(diǎn)。
圖8 ?2017-2021年知識(shí)管理領(lǐng)域主題演化(非負(fù)矩陣分解)
圖9 ?2017-2021年知識(shí)管理領(lǐng)域主題強(qiáng)度(非負(fù)張量分解)
該組實(shí)驗(yàn)結(jié)果表明:如果想對(duì)領(lǐng)域內(nèi)的研究情況進(jìn)行大致的分析,可以采用非負(fù)張量分解算法,該算法簡(jiǎn)單快捷,只需一次聚類便可得到各年份的研究主題及研究強(qiáng)度等信息,大大降低了算法的復(fù)雜度,也減少了信息的損失。如果想細(xì)致地分析領(lǐng)域內(nèi)各年份的研究情況可以采用非負(fù)矩陣分解進(jìn)行逐年分析,這樣可以得到各年份主題的具體研究?jī)?nèi)容及變化,也可以得到不同年份之間的主題演化情況,不足之處在于需要進(jìn)行多次聚類及數(shù)據(jù)處理,且難以觀察由于關(guān)鍵詞共現(xiàn)演化帶來的主題演化情況。
綜上,在利用關(guān)鍵詞共現(xiàn)數(shù)據(jù)進(jìn)行領(lǐng)域主題識(shí)別時(shí),選擇融合文獻(xiàn)和作者雙視角下的關(guān)鍵詞共現(xiàn)矩陣數(shù)據(jù)更能全面地反映領(lǐng)域內(nèi)的研究情況;在利用共現(xiàn)數(shù)據(jù)進(jìn)行主題識(shí)別時(shí),需要對(duì)共現(xiàn)數(shù)據(jù)利用相似度度量進(jìn)行標(biāo)準(zhǔn)化處理,其中在對(duì)稱視角下進(jìn)行標(biāo)準(zhǔn)化處理可以消除高頻關(guān)鍵詞的影響,分析領(lǐng)域內(nèi)的前沿動(dòng)向,在非對(duì)稱視角下進(jìn)行標(biāo)準(zhǔn)化處理可以研究領(lǐng)域內(nèi)的熱點(diǎn)問題;在進(jìn)行動(dòng)態(tài)主題識(shí)別過程中,非負(fù)張量分解算法可以簡(jiǎn)單快速地獲取領(lǐng)域內(nèi)的研究主題及其在各年的研究強(qiáng)度,而非負(fù)矩陣分解則可以更為細(xì)致深入地刻畫主題以及主題的演化脈絡(luò),但是需要進(jìn)行多次操作。
6 ?結(jié)束語
本文針對(duì)傳統(tǒng)基于詞共現(xiàn)矩陣的動(dòng)態(tài)主題識(shí)別研究中需要進(jìn)行多次聚類的不足,提出一種新的數(shù)據(jù)構(gòu)建方式及處理方法,基于張量結(jié)構(gòu)的數(shù)據(jù)形式可以在詞共現(xiàn)矩陣中融入時(shí)間維度,盡可能地保留數(shù)據(jù)的原始信息,基于非負(fù)張量分解算法的動(dòng)態(tài)主題識(shí)別只需進(jìn)行一次聚類便可得到各年份的主題情況,有效避免了信息的損失。此外,本文還對(duì)幾種詞共現(xiàn)矩陣的構(gòu)造方式及矩陣處理方法進(jìn)行了探討:在數(shù)據(jù)集的構(gòu)建方式上,分別從文獻(xiàn)視角、作者視角以及融合文獻(xiàn)和作者雙視角構(gòu)建了關(guān)鍵詞共現(xiàn)矩陣;在數(shù)據(jù)處理方式上,分別從對(duì)稱視角和非對(duì)稱視角利用相似性度量對(duì)共現(xiàn)矩陣進(jìn)行了標(biāo)準(zhǔn)化操作,并對(duì)比了標(biāo)準(zhǔn)化操作對(duì)主題識(shí)別結(jié)果的影響。實(shí)驗(yàn)結(jié)果表明:融合文獻(xiàn)和作者雙視角下的關(guān)鍵詞共現(xiàn)矩陣可以更全面地反映領(lǐng)域內(nèi)的知識(shí)結(jié)構(gòu),對(duì)稱視角下的標(biāo)準(zhǔn)化處理與非對(duì)稱視角下的標(biāo)準(zhǔn)化處理在分析研究熱點(diǎn)與研究前沿上各具優(yōu)勢(shì)。本文旨在為基于關(guān)鍵詞共現(xiàn)的主題識(shí)別研究提供一些方法和流程上的參考,提高主題識(shí)別精度,為科技決策提供更好的支撐。
參考文獻(xiàn):
[1] BUSH V. As we may think[J]. The Atlantic monthly, 1945 (7): 1-2 .
[2] 劉向, 馬費(fèi)成, 陳瀟俊, 等.知識(shí)網(wǎng)絡(luò)的結(jié)構(gòu)與演化——概念與理論進(jìn)展[J].情報(bào)科學(xué), 2011, 29(6): 801-809.
[3] 巴志超, 楊子江, 朱世偉, 等.基于關(guān)鍵詞語義網(wǎng)絡(luò)的領(lǐng)域主題演化分析方法研究[J].情報(bào)理論與實(shí)踐, 2016, 39(3): 67-72.
[4] 王莉亞.主題演化研究進(jìn)展[J].情報(bào)探索, 2014(4): 29-32.
[5] 邵作運(yùn), 李秀霞.引文分析法與內(nèi)容分析法結(jié)合的文獻(xiàn)知識(shí)發(fā)現(xiàn)方法綜述[J].情報(bào)理論與實(shí)踐, 2020, 43(3): 153-159.
[6] 鄒麗雪, 王麗, 劉細(xì)文.利用引文構(gòu)建的主題模型研究進(jìn)展[J].圖書情報(bào)工作, 2019, 63(23): 131-138.
[7] 祝清松, 冷伏海.基于引文主路徑文獻(xiàn)共被引的主題演化分析[J].情報(bào)學(xué)報(bào), 2014, 33(5): 498-506.
[8] 黃福, 侯海燕, 任佩麗, 等.基于共被引與文獻(xiàn)耦合的研究前沿探測(cè)方法鄰選[J].情報(bào)雜志, 2018, 37(12): 13-19, 35.
[9] 宋艷輝, 武夷山.基于作者文獻(xiàn)耦合分析的情報(bào)學(xué)知識(shí)結(jié)構(gòu)研究[J].圖書情報(bào)工作, 2014, 58(1): 117-123.
[10] 張潔, 王紅.基于詞頻分析和可視化共詞網(wǎng)絡(luò)圖的國(guó)內(nèi)外移動(dòng)學(xué)習(xí)研究熱點(diǎn)對(duì)比分析[J].現(xiàn)代遠(yuǎn)距離教育, 2014(2): 76-83.
[11] 葉春蕾, 冷伏海.基于共詞分析的學(xué)科主題演化方法改進(jìn)研究[J].情報(bào)理論與實(shí)踐, 2012, 35(3): 79-82.
[12] 奉國(guó)和, 孔泳欣.基于時(shí)間加權(quán)關(guān)鍵詞詞頻分析的學(xué)科熱點(diǎn)研究[J].情報(bào)學(xué)報(bào), 2020, 39(1): 100-110.
[13] 儲(chǔ)節(jié)旺, 錢倩.基于詞頻分析的近10年知識(shí)管理的研究熱點(diǎn)及研究方法[J].情報(bào)科學(xué), 2014, 32(10): 156-160.
[14] 姜鑫, 王德莊, 馬海群.關(guān)鍵詞詞頻變化視角下我國(guó)“科學(xué)數(shù)據(jù)”領(lǐng)域研究主題演化分析[J].現(xiàn)代情報(bào), 2018, 38(1): 141-146, 161.
[15] 趙麗梅, 張花.我國(guó)大數(shù)據(jù)時(shí)代數(shù)字圖書館研究前沿分析——基于共詞分析的視角[J].情報(bào)科學(xué), 2019, 37(3): 97-104.
[16] 唐果媛, 張薇.基于共詞分析法的學(xué)科主題演化研究進(jìn)展與分析[J].圖書情報(bào)工作, 2015, 59(5): 128-136.
[17] 胡吉明, 陳果.基于動(dòng)態(tài)LDA主題模型的內(nèi)容主題挖掘與演化[J].圖書情報(bào)工作, 2014, 58(2): 138-142.
[18] 楊超, 朱東華, 汪雪鋒, 等.專利技術(shù)主題分析: 基于SAO結(jié)構(gòu)的LDA主題模型方法[J].圖書情報(bào)工作, 2017, 61(3): 86-96.
[19] KIM J, HWANG M, JEONG D H, et al. Technology trends analysis and forecasting application based on decision tree and statistical feature analysis[J]. Expert systems with applications, 2012, 39(16): 12618-12625.
[20] WALTMAN L, VANECK N J. Some comments on the question whether co-occurrence data should be normalized[J]. Journal of the American Society for Information Science and Technology, 2007, 58(11): 1701-1703.
[21] LEYDESDORFF L. Should co-occurrence data be normalized? a rejoinder[J]. Journal of the American Society for Information Science and Technology, 2007, 58(14): 2411-2413.
[22] van ECK N J, WALTMAN L. How to normalize cooccurrence data? an analysis of some well-known similarity measures[J].Journal of the American Society for Information Science and Technology, 2009, 60(8): 1635-1651.
[23] PAATERO P, TAPPER U. Positive matrix factorization: a nonnegative factor model with optimal utilization of error estimates of data values[J]. Environmetrics, 1994, 5(2): 111-126.
[24] 章祥蓀, 張忠元. 非負(fù)矩陣分解: 模型、算法和應(yīng)用[J].重慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013, 30(6): 1-8.
[25] 吳繼冰, 黃宏斌, 鄧蘇.網(wǎng)絡(luò)異構(gòu)信息的張量分解聚類方法[J].國(guó)防科技大學(xué)學(xué)報(bào), 2018, 40(5): 146-152, 170.
[26] 熊李艷, 何雄, 黃曉輝, 等.張量分解算法研究與應(yīng)用綜述[J].華東交通大學(xué)學(xué)報(bào), 2018, 35(2): 120-128.
[27] 程齊凱, 王曉光.一種基于共詞網(wǎng)絡(luò)社區(qū)的科研主題演化分析框架[J].圖書情報(bào)工作, 2013, 57(8): 91-96.
[28] LUO J, GWUN O. A comparison of sift PCA-SIFT and SURF[J]. International journal of image processing, 2009, 3(4): 143-152.
[29] CICHOCKI A, ZDUNEK R, PHAN A H, et al. Nonnegative matrix and tensor factorizations:applications to exploratory multi-way data analysis and blind source separation[M]. Hoboken: Wiley Publishing, 2009.
[30] 熊李艷, 何雄, 黃曉輝, 等.張量分解算法研究與應(yīng)用綜述[J].華東交通大學(xué)學(xué)報(bào), 2018, 35(2): 120-128.
作者貢獻(xiàn)說明:
方 ?潔:提出研究思路,進(jìn)行論文指導(dǎo)及修訂;
崔蘭蘭:進(jìn)行數(shù)據(jù)采集、研究思路設(shè)計(jì)、數(shù)據(jù)分析、論文撰寫及修訂。
Research on Dynamic Topic Recognition Based on the Change of Word Co-Occurrence Frequency
Xi Chongjun ?Liu Wenbin ?Ding Kai
Institute of Science and Technology Information of China, Beijing 100038
Abstract: [Purpose/Significance] The research on topic recognition is very important to clarify the knowledge structure and research hotspots in the field. Dynamic identification of domain topics can help researchers understand and master the development trend and future trend of the field. [Method/Process] Using the data structure form of tensor, this paper integrated the time dimension into the word co-occurrence matrix, and only needed one clustering to identify the dynamic topic. [Result/Conclusion] Tensor structure and non-negative tensor decomposition algorithm provide a new method for dynamic topic recognition from the perspective of word co-occurrence frequency change. Compared with traditional methods, this method is simpler and faster, and effectively avoids the loss of information.
Keywords: keyword co-occurrence ? ?non-negative matrix factorization ? ?non-negative tensor factorization ? ?dynamic topic recognition ? ? knowledge management
作者簡(jiǎn)介:席崇俊,碩士研究生,E-mail:xicj7465@163.com;劉文斌,碩士研究生;丁楷,碩士研究生。
收稿日期:2021-10-22 ? ? ? ?發(fā)表日期:2022-03-24 ? ? ? ?本文責(zé)任編輯:劉遠(yuǎn)穎