袁 潤(rùn) 李 瑩 王 琦 王婧怡(江蘇大學(xué)科技信息研究所,江蘇 鎮(zhèn)江 212013)
網(wǎng)絡(luò)是相互連接的事物的集合。為了科學(xué)地研究網(wǎng)絡(luò),數(shù)學(xué)家利用圖(Graph)這一術(shù)語(yǔ)來(lái)形式化地描述網(wǎng)絡(luò),從而派生了網(wǎng)絡(luò)分析理論。網(wǎng)絡(luò)分析的萌芽可以追溯到1735年歐拉對(duì)著名的柯尼斯堡七橋問(wèn)題的求解。此后,網(wǎng)絡(luò)分析便在很多領(lǐng)域得到了應(yīng)用和發(fā)展。科尼希系統(tǒng)地奠定了網(wǎng)絡(luò)分析的數(shù)學(xué)基礎(chǔ);基爾霍夫利用網(wǎng)絡(luò)分析解決了復(fù)雜電路的計(jì)算和分析難題;凱萊借助網(wǎng)絡(luò)分析理論開(kāi)展了分子結(jié)構(gòu)的研究工作[1]。與此同時(shí),社會(huì)學(xué)家利用網(wǎng)絡(luò)展現(xiàn)社會(huì)群體中的互動(dòng)關(guān)系,運(yùn)用網(wǎng)絡(luò)分析量化研究社會(huì)結(jié)構(gòu)問(wèn)題,從此產(chǎn)生了社會(huì)網(wǎng)絡(luò)分析這一獨(dú)特的學(xué)術(shù)領(lǐng)域。
20世紀(jì)90年代以來(lái),由于統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)兩個(gè)領(lǐng)域研究者的推動(dòng),復(fù)雜網(wǎng)絡(luò)分析和建模得到快速發(fā)展。統(tǒng)計(jì)學(xué)家提出了“復(fù)雜系統(tǒng)”這個(gè)概念,網(wǎng)絡(luò)分析成為解決復(fù)雜系統(tǒng)問(wèn)題的重要途徑。計(jì)算機(jī)科學(xué)家的研究解決了網(wǎng)絡(luò)分析中的概念化問(wèn)題,提出了有效的解決大型網(wǎng)絡(luò)的計(jì)算、存儲(chǔ)、可視化等問(wèn)題的理論和方法,在互聯(lián)網(wǎng)和社交網(wǎng)絡(luò)的開(kāi)發(fā)和應(yīng)用當(dāng)中發(fā)揮了關(guān)鍵作用。
網(wǎng)絡(luò)分析在很多不同領(lǐng)域的復(fù)雜系統(tǒng)問(wèn)題的研究中都被證明是有效的。例如,計(jì)算生物學(xué)對(duì)基因、蛋白質(zhì)、化合物相互作用系統(tǒng)的研究;工程學(xué)研究如何更好地部署傳感器網(wǎng)絡(luò);金融學(xué)利用網(wǎng)絡(luò)模型分析銀行之間的相互影響;營(yíng)銷領(lǐng)域運(yùn)用“疾病的傳播”模型推銷產(chǎn)品;神經(jīng)科學(xué)利用網(wǎng)絡(luò)分析探索與癲癇有關(guān)的腦電變化規(guī)律;政治學(xué)研究一個(gè)群體的投票偏好在面對(duì)內(nèi)外部影響時(shí)如何變化;公共衛(wèi)生領(lǐng)域借助于網(wǎng)絡(luò)模型研究傳染病在人群中的蔓延,以及如何最有效地進(jìn)行傳染病控制。
網(wǎng)絡(luò)分析在文獻(xiàn)計(jì)量學(xué)中也有著廣泛的應(yīng)用。邱均平等[2]運(yùn)用網(wǎng)絡(luò)分析法研究博客之間的社會(huì)網(wǎng)絡(luò)關(guān)系;袁潤(rùn)等[3]利用社會(huì)網(wǎng)絡(luò)分析方法研究了圖書館學(xué)論文的合著現(xiàn)象;趙麗娟[4]介紹了社會(huì)網(wǎng)絡(luò)分析的基本理論及其在情報(bào)學(xué)中的應(yīng)用;趙蓉英等[5]開(kāi)展了基于社會(huì)網(wǎng)絡(luò)分析方法的國(guó)內(nèi)外信息計(jì)量比較研究,從文獻(xiàn)計(jì)量和社會(huì)網(wǎng)絡(luò)分析的視角對(duì)社會(huì)化推薦研究進(jìn)展與發(fā)展趨勢(shì)演化進(jìn)行了研究;陳揚(yáng)森[6]等基于關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)分析了國(guó)內(nèi)外社交媒體研究熱點(diǎn)。網(wǎng)絡(luò)分析可以發(fā)現(xiàn)隱藏在真實(shí)關(guān)系網(wǎng)背后的關(guān)系,它對(duì)于了解一個(gè)研究主題的成熟度、知識(shí)結(jié)構(gòu)、研究規(guī)模等狀況具有十分重要的意義[7]。
本文運(yùn)用社會(huì)網(wǎng)絡(luò)分析理論,借鑒關(guān)鍵詞共現(xiàn)分析方法,采用R語(yǔ)言編程創(chuàng)建了關(guān)鍵詞集共現(xiàn)網(wǎng)絡(luò),繪制了期刊關(guān)鍵詞集共現(xiàn)網(wǎng)絡(luò)圖,開(kāi)展了基于關(guān)鍵詞集的知識(shí)發(fā)現(xiàn)探索性研究。
關(guān)鍵詞源于英文“Keyword”,最初特指單個(gè)媒體在制作使用索引時(shí)所用到的詞匯。關(guān)鍵詞是學(xué)術(shù)論文不可缺少組成部分,是論文主要內(nèi)容的濃縮,是作者精煉出的概括論文主題的詞匯,通過(guò)“關(guān)鍵詞”讀者可以迅速地了解論文的主要內(nèi)容。關(guān)鍵詞是表達(dá)文獻(xiàn)主題概念的自然語(yǔ)言詞匯,在正式發(fā)表的學(xué)術(shù)論文中一般都附有關(guān)鍵詞。一篇學(xué)術(shù)論文的關(guān)鍵詞一般有3~8個(gè),這些關(guān)鍵詞既反映了研究成果的核心內(nèi)容,又提供了重要的檢索途徑[8]。
關(guān)鍵詞集是關(guān)鍵詞集合的簡(jiǎn)稱。為了開(kāi)展文獻(xiàn)計(jì)量研究,通常按照一定的原則收集關(guān)鍵詞,從而形成關(guān)鍵詞集合。關(guān)鍵詞集是一定數(shù)量文獻(xiàn)的所有關(guān)鍵詞的集合,是這些文獻(xiàn)精華的濃縮。李文蘭等[9]在《中國(guó)情報(bào)學(xué)期刊論文關(guān)鍵詞詞頻分析》一文中認(rèn)為,“學(xué)術(shù)研究領(lǐng)域較長(zhǎng)時(shí)域內(nèi)的大量學(xué)術(shù)研究成果的關(guān)鍵詞的集合,可以揭示研究成果的總體內(nèi)容特征、研究?jī)?nèi)容之間的內(nèi)在聯(lián)系、學(xué)術(shù)研究的發(fā)展脈絡(luò)與發(fā)展方向等”,關(guān)鍵詞集值得深入研究。
已有學(xué)者在學(xué)術(shù)論文中將一定數(shù)量的關(guān)鍵詞定義為關(guān)鍵詞集,并利用關(guān)鍵詞集開(kāi)展相關(guān)研究。例如,閔超等[10]在《基于關(guān)鍵詞交集的學(xué)科交叉研究熱點(diǎn)分析——以圖書情報(bào)學(xué)和新聞傳播學(xué)為例》一文中將兩個(gè)學(xué)科的核心期刊論文規(guī)范化的關(guān)鍵詞的交集定義為1個(gè)關(guān)鍵詞集,從該關(guān)鍵詞集中獲取兩個(gè)學(xué)科的高頻交叉關(guān)鍵詞及其共詞矩陣,在此基礎(chǔ)上通過(guò)詞頻分析和社會(huì)網(wǎng)絡(luò)分析探討兩個(gè)學(xué)科交叉研究熱點(diǎn)領(lǐng)域的整體特征。蘇新寧等[11]在《2000-2009年我國(guó)數(shù)字圖書館研究主題領(lǐng)域分析——基于CSSCI關(guān)鍵詞統(tǒng)計(jì)數(shù)據(jù)》一文中將2000-2009年數(shù)字圖書館研究論文的關(guān)鍵詞集合成1個(gè)關(guān)鍵詞集,并進(jìn)行了聚類分析。李綱等[12]將兩個(gè)作者關(guān)鍵詞集合的交集稱為作者合作關(guān)鍵詞集,除去合作關(guān)鍵詞集,稱為作者私有關(guān)鍵詞集。可以看出,關(guān)鍵詞集是某一特定時(shí)間內(nèi),依據(jù)檢索條件得到的文獻(xiàn)全部關(guān)鍵詞的集合,反映了該檢索條件下得到的文獻(xiàn)內(nèi)容的總和。
目前,學(xué)術(shù)界對(duì)關(guān)鍵詞集并沒(méi)有明確的定義。為了便于討論,本文將關(guān)鍵詞集定義為某一特定檢索條件下得到文獻(xiàn)的全部關(guān)鍵詞的集合。隨著檢索策略、檢索路徑、檢索時(shí)間等的不同,所得到的關(guān)鍵詞集也有所區(qū)別。為此,本文對(duì)該定義作進(jìn)一步推論,即以某一作者為檢索條件,該作者的全部學(xué)術(shù)論文的關(guān)鍵詞集合稱為作者關(guān)鍵詞集;以某一期刊名稱作為檢索條件,該期刊的全部學(xué)術(shù)論文的關(guān)鍵詞集合稱為期刊關(guān)鍵詞集;以某一研究機(jī)構(gòu)作為檢索條件,該研究機(jī)構(gòu)的全部學(xué)術(shù)論文的關(guān)鍵詞集合稱為該研究機(jī)構(gòu)的關(guān)鍵詞集;以某一學(xué)科為檢索條件,該學(xué)科的全部學(xué)術(shù)論文的關(guān)鍵詞集合就是該學(xué)科的關(guān)鍵詞集。
關(guān)鍵詞集對(duì)知識(shí)發(fā)現(xiàn)而言應(yīng)該具有特別的信息價(jià)值。例如,在電子商務(wù)活動(dòng)中,消費(fèi)者的購(gòu)物信息關(guān)鍵詞可以從某一方面表征該消費(fèi)者的興趣特征[13]。此外,在推薦系統(tǒng)應(yīng)用方面,用戶的行為信息關(guān)鍵詞有助于發(fā)現(xiàn)用戶興趣[14]。同理,表征學(xué)科領(lǐng)域信息的關(guān)鍵詞集也可以表征該學(xué)科的研究熱點(diǎn)和發(fā)展趨勢(shì)等。巴志超等[15]在《基于語(yǔ)言網(wǎng)絡(luò)的研究興趣相似度量方法》一文中敘述了基于關(guān)鍵詞的分析更能直觀地反映出文獻(xiàn)內(nèi)容和作者的研究興趣,利用作者發(fā)表文獻(xiàn)的關(guān)鍵詞集可以揭示作者的研究興趣。
關(guān)鍵詞集比較全面的、客觀的揭示出研究領(lǐng)域的微觀結(jié)構(gòu)以及研究主題發(fā)展的歷史脈絡(luò)、研究熱點(diǎn),知識(shí)結(jié)構(gòu)等。在科學(xué)研究領(lǐng)域,學(xué)者的研究成果在一定程度上揭示了該學(xué)者的研究興趣[16],因此作者關(guān)鍵詞集最能代表該作者的主要研究?jī)?nèi)容,期刊關(guān)鍵詞集則能夠反映該期刊的載文偏好,機(jī)構(gòu)關(guān)鍵詞集可以揭示該研究機(jī)構(gòu)的研究特色,學(xué)科關(guān)鍵詞集應(yīng)該可以表征該學(xué)科領(lǐng)域研究的總體內(nèi)容特征、研究?jī)?nèi)容之間的內(nèi)在聯(lián)系、學(xué)術(shù)研究的發(fā)展脈絡(luò)與發(fā)展方向等許多重要課題。因此,開(kāi)展關(guān)鍵詞集知識(shí)發(fā)現(xiàn)探索研究,對(duì)發(fā)展文獻(xiàn)計(jì)量理論和方法及其在知識(shí)發(fā)現(xiàn)中的應(yīng)用具有重要意義。
本文按照“學(xué)科—期刊—論文—關(guān)鍵詞”的邏輯關(guān)系采集關(guān)鍵詞集。以圖書情報(bào)學(xué)科的18種CSSCI源刊為研究對(duì)象,采集近10年以來(lái)的數(shù)據(jù),每一種期刊每一年的全部載文題錄保存為一張Excel表格,共計(jì)得到180張表格,這是開(kāi)展關(guān)鍵詞集分析的第一步,采集數(shù)據(jù)。
第二步,封裝數(shù)據(jù)。在R語(yǔ)言編程環(huán)境(RStudio Version 1.1.453)下通過(guò)編寫R程序自動(dòng)讀取Excel表格,將全部數(shù)據(jù)封裝成數(shù)據(jù)框(paper.dat),關(guān)鍵代碼如下:
library(readxl) #加載貢獻(xiàn)包(package)
InFilesPath<-c(″D:/KWSet/Journal/″) #設(shè)置輸入文件存放路徑
OutFilePath<-c(″D:/KWSet/Journal/″) #設(shè)置輸出文件存放路徑
code_Journals<-read_excel(″D:/KWSet/Journal/code_Journals.xlsx″) #數(shù)據(jù)文件的名稱代碼表
paper.dat<-data.frame() #定義數(shù)據(jù)框
for(k in 1:nrow(code_Journals)){ #循環(huán)讀取數(shù)據(jù)
infile<-code_Journals$FilesName[k]
infile<-paste(InFilesPath, infile, sep=″″)
infile<-paste(infile,″xlsx″,sep=″.″)
mydata<-read_excel(infile)
mydata<-cbind(mydata,FI=code_Journals$FilesName[k])
paper.dat<-rbind(paper.dat,data.cleaning(mydata))
}
names(paper.dat)<-c(″TI″,″AU″,″OR″,″JN″,″KY″,″FD″,″YE″,″FI″)
save(paper.dat,file=″paper_dat.RData″)
第三步,提取數(shù)據(jù)子集。根據(jù)分析目的,可以從數(shù)據(jù)集paper.dat當(dāng)中方便地提取作者關(guān)鍵詞集、期刊關(guān)鍵詞集、機(jī)構(gòu)關(guān)鍵詞集或主題關(guān)鍵詞集,R代碼如下:
retrieve<-c(″中國(guó)圖書館學(xué)報(bào)″)
mydata<-subset(paper.dat,grepl(retrieve,(paper.dat$JN)))
第四步,拆分關(guān)鍵詞。題錄數(shù)據(jù)包含Title-題名、Author-作者、Organ-單位、Source-文獻(xiàn)來(lái)源、Keyword-關(guān)鍵詞、Fund-基金、Year-年7個(gè)字段,其中關(guān)鍵詞字段中的多個(gè)詞由“;”區(qū)分開(kāi)來(lái),因此,需要通過(guò)如下代碼將其拆分。
kws<-data.frame(unlist(strsplit(mydata$KY,″;″,fixed=TRUE)))
第五步,創(chuàng)建網(wǎng)絡(luò)。將關(guān)鍵詞視為網(wǎng)絡(luò)節(jié)點(diǎn),同一篇論文當(dāng)中的多個(gè)關(guān)鍵詞視為共現(xiàn)關(guān)系,使用igraph package當(dāng)中的函數(shù)可以十分方便地創(chuàng)建網(wǎng)絡(luò),在此基礎(chǔ)上開(kāi)展網(wǎng)絡(luò)分析。
本文分析的數(shù)據(jù)集概況如表1所示。

表1 CSSCI收錄的圖書情報(bào)學(xué)科的18種期刊載文情況

表1(續(xù))
igraph是一個(gè)特別有用的網(wǎng)絡(luò)分析的R語(yǔ)言擴(kuò)展包(Package),包含了一系列數(shù)據(jù)類型和函數(shù),能夠方便地創(chuàng)建網(wǎng)絡(luò),執(zhí)行各種算法并實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)可視化。在igraph中,可以用鄰接列表、邊列表、鄰接矩陣3種方法創(chuàng)建網(wǎng)絡(luò)。
邊列表(Edge List)是一個(gè)簡(jiǎn)單的兩列列表,給出了所有的邊連接的節(jié)點(diǎn)對(duì)。關(guān)鍵詞節(jié)點(diǎn)對(duì)通過(guò)拆分關(guān)鍵詞再兩兩配對(duì)生成。
除了邊列表創(chuàng)建網(wǎng)絡(luò)之外,本文還嘗試了另外一種關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)的創(chuàng)建方式,稱之為增量式創(chuàng)建網(wǎng)絡(luò),該方法的基本思路是,將一篇學(xué)術(shù)論文中的若干關(guān)鍵詞用graph.full()函數(shù)創(chuàng)建一個(gè)全網(wǎng)絡(luò),不限制3~8個(gè)關(guān)鍵詞,這也是與邊列表創(chuàng)建網(wǎng)絡(luò)的最大區(qū)別。接下來(lái),通過(guò)for循環(huán)執(zhí)行g(shù)raph.union(g1,g2)指令處理n篇論文的關(guān)鍵詞。用該方法創(chuàng)建網(wǎng)絡(luò)最大的優(yōu)勢(shì)是可以動(dòng)態(tài)觀察網(wǎng)絡(luò)圖的變化。
為了便于開(kāi)展研究工作,本文將創(chuàng)建關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)及其可視化功能用R語(yǔ)言編寫成函數(shù),取名make.keyword.igraph()和plot.keyword.igraph()(限于篇幅,代碼省略)。
創(chuàng)建關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)使用函數(shù)graph_from_data_frame(d,directed=TRUE,vertices=NULL),該函數(shù)需要給出邊列表(d)和網(wǎng)絡(luò)節(jié)點(diǎn)(vertices)。
為了不失一般性,本文將數(shù)據(jù)集定義為R語(yǔ)言的數(shù)據(jù)框結(jié)構(gòu),包括題名(TI)、作者(AU)、單位(OR)、期刊(JN)、關(guān)鍵詞(KY)、基金(FD)、年份(YE)等字段內(nèi)容。其中,關(guān)鍵詞字段(KY)包含若干個(gè)(3~8)關(guān)鍵詞,由“;”分隔,因此,需要將這些關(guān)鍵詞拆分,拆分結(jié)果用矩陣保存,再將矩陣的列兩兩配對(duì)構(gòu)成邊列表。
函數(shù)make.keyword.igraph()在創(chuàng)建網(wǎng)絡(luò)的同時(shí),還完成了相關(guān)計(jì)算,例如,計(jì)算了全部關(guān)鍵詞(節(jié)點(diǎn))的詞頻、詞長(zhǎng)、點(diǎn)度中心度、中介中心度、接近中心度、網(wǎng)絡(luò)密度、網(wǎng)絡(luò)直徑、網(wǎng)絡(luò)平均路徑長(zhǎng)度、網(wǎng)絡(luò)聚集系數(shù)等,這些參數(shù)作為網(wǎng)絡(luò)屬性被保存下來(lái),再通過(guò)函數(shù)plot.keyword.igraph()繪制網(wǎng)絡(luò)圖時(shí)一同輸出。
函數(shù)make.keyword.igraph()需要提供4個(gè)參數(shù),其中,參數(shù)mydata是包含關(guān)鍵詞字段的數(shù)據(jù)框,也就是分析對(duì)象(數(shù)據(jù)集),參數(shù)pos=5表示取數(shù)據(jù)框第5列數(shù)據(jù)(關(guān)鍵詞),參數(shù)main=c(″Graph Titel″)是關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)的圖名(變量),myfile=c(″Graph File name″)是關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)的圖文件名(變量)。
繪圖函數(shù)plot.keyword.igraph()用jpeg()指令將關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖以JPEG格式輸出到指定文件夾目錄,這樣,循環(huán)調(diào)用該函數(shù)可以批量輸出圖文件。
運(yùn)行結(jié)果如圖1和圖2所示。圖中信息分為以下7個(gè)部分:1)圖名信息,位于圖的中間頂部;2)以不同大小和顏色表示節(jié)點(diǎn)及其聚類分布的網(wǎng)絡(luò)關(guān)系圖,位于圖的中央;3)帶有標(biāo)號(hào)的節(jié)點(diǎn)信息位于圖的左邊;4)節(jié)點(diǎn)中心性參數(shù)位于圖的右邊;5)節(jié)點(diǎn)縮放比例、網(wǎng)絡(luò)密度和網(wǎng)絡(luò)聚集系數(shù)位于圖的左上角;6)R語(yǔ)言版本、硬件環(huán)境和計(jì)算時(shí)間等信息位于圖的右上角;7)關(guān)鍵詞聚類信息位于圖的底部。
圖1實(shí)現(xiàn)了關(guān)鍵詞集的主題聚類,反映了期刊載文的主題信息。類似地,還可以創(chuàng)建作者關(guān)鍵詞集網(wǎng)絡(luò)(如圖2所示)、機(jī)構(gòu)關(guān)鍵詞集網(wǎng)絡(luò)、主題關(guān)鍵詞集網(wǎng)絡(luò)等。
從圖1中可以清晰地發(fā)現(xiàn),“數(shù)據(jù)分析”是2016年度《中國(guó)圖書館學(xué)報(bào)》載文的主題。該年度共計(jì)刊載論文52篇,涉及數(shù)據(jù)分析的大約有12篇,主要關(guān)鍵詞有開(kāi)放數(shù)據(jù)、大數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)、科研數(shù)據(jù)、數(shù)據(jù)管理、數(shù)據(jù)共享、數(shù)據(jù)館員、數(shù)據(jù)獲取、數(shù)據(jù)加值服務(wù)、數(shù)據(jù)治理數(shù)據(jù)重用等,這些關(guān)鍵詞相互之間關(guān)聯(lián)形成了一個(gè)聚類,反映了研究?jī)?nèi)容的相關(guān)性。
點(diǎn)度中心度較大的節(jié)點(diǎn)有術(shù)語(yǔ)服務(wù)、圖書館等,這兩個(gè)關(guān)鍵詞的接近中心度和中介中心度也比較大。術(shù)語(yǔ)服務(wù)并非是一個(gè)常用的關(guān)鍵詞,為什么具有如此高的中心性?分析發(fā)現(xiàn),涉及該關(guān)鍵詞的論文有2篇,這兩篇論文分別設(shè)置了7和8個(gè)關(guān)鍵詞,它們兩兩結(jié)合導(dǎo)致其具有了較高的中心度。
從圖2中可以發(fā)現(xiàn)一些更有價(jià)值的信息,即那些連接兩個(gè)或多個(gè)聚類的節(jié)點(diǎn)關(guān)鍵詞,由于其詞頻不高,所以通常的詞頻分析方法很難發(fā)現(xiàn)這類關(guān)鍵詞。例如,圖2當(dāng)中的19號(hào)節(jié)點(diǎn)(公共文化服務(wù)),26號(hào)節(jié)點(diǎn)(公共數(shù)字文化資源整合)等,表明肖希明教授在多個(gè)研究方向涉及該主題。深入研究表明,這一現(xiàn)象具有一定的普遍性,本文將這類關(guān)鍵詞稱為核心關(guān)鍵詞,這是關(guān)鍵詞集共現(xiàn)網(wǎng)絡(luò)分析的一個(gè)重要結(jié)論,對(duì)發(fā)展中頻關(guān)鍵詞計(jì)量分析理論具有一定的學(xué)術(shù)價(jià)值。
雖然圖1的網(wǎng)絡(luò)密度較低,但其聚類系數(shù)較高,且不同年度的期刊關(guān)鍵詞網(wǎng)絡(luò)呈現(xiàn)出一定的規(guī)律。表2是按年度計(jì)算的18種期刊關(guān)鍵詞集網(wǎng)絡(luò)密度,可以看出,有些期刊的關(guān)鍵詞集網(wǎng)絡(luò)密度和聚類系數(shù)呈現(xiàn)逐年增長(zhǎng)的趨勢(shì),反映期刊論文主題更為集中或者更為突出,這一點(diǎn)也許可以表明學(xué)術(shù)期刊的"核心期刊"特征,但尚需進(jìn)一步作較大樣本的深入研究。

表2 按年度計(jì)算的期刊關(guān)鍵詞集網(wǎng)絡(luò)密度
表3是按年度計(jì)算的18種期刊關(guān)鍵詞集聚類系數(shù),可以反映期刊載文主題的聚類情況。一般而言,主題越突出,聚類系數(shù)越大。

表3 按年度計(jì)算的期刊關(guān)鍵詞集聚類系數(shù)

表3(續(xù))
關(guān)鍵詞共現(xiàn)分析的思想來(lái)源于文獻(xiàn)計(jì)量學(xué)的引文耦合與共被引,當(dāng)兩個(gè)或兩個(gè)以上的關(guān)鍵詞同時(shí)出現(xiàn)在同一篇文獻(xiàn)中時(shí),則稱這兩個(gè)或兩個(gè)以上的關(guān)鍵詞之間存在共現(xiàn)關(guān)系。
本文將邏輯上相關(guān)的若干文獻(xiàn)的全部關(guān)鍵詞的集合稱為關(guān)鍵詞集。關(guān)鍵詞集在時(shí)空域上具有封閉特征,也就是說(shuō),研究對(duì)象是某一學(xué)科領(lǐng)域(空間域)在某一段時(shí)間范圍(時(shí)間域)內(nèi)的全體,這一點(diǎn)有別于傳統(tǒng)的文獻(xiàn)計(jì)量分析。根據(jù)這一思路,本文按照"學(xué)科-期刊-論文-關(guān)鍵詞"的邏輯關(guān)系收集整理數(shù)據(jù)集,研究步驟主要包括:采集期刊論文題錄數(shù)據(jù)、封裝數(shù)據(jù)集、提取數(shù)據(jù)子集、分析數(shù)據(jù)子集、可視化分析結(jié)果、對(duì)分析結(jié)果做必要的討論。
關(guān)鍵詞集共現(xiàn)網(wǎng)絡(luò)分析是一件非常復(fù)雜的工作,本文采用R語(yǔ)言編程實(shí)現(xiàn)了關(guān)鍵詞集網(wǎng)絡(luò)的創(chuàng)建和可視化,相較于常用的文獻(xiàn)分析工具而言更加靈活,能滿足多種算法的數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)、文獻(xiàn)計(jì)量、網(wǎng)絡(luò)計(jì)量等分析研究工作的需要。
關(guān)鍵詞集網(wǎng)絡(luò)揭示了關(guān)鍵詞集的分布、聚類和關(guān)系特征,可以更為直觀的揭示分析對(duì)象的主題內(nèi)容及其關(guān)聯(lián)關(guān)系,量化的網(wǎng)絡(luò)特征參數(shù)對(duì)進(jìn)一步的數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)具有一定的參考價(jià)值,這一點(diǎn)尚有待更為深入和系統(tǒng)的研究。