關鍵字:知識圖譜;數據挖掘;共被引分析;CiteSpace
摘要:文章以從CSSCI下載的有關“數據挖掘在圖書館中的應用”的題錄信息為研究對象,使用CiteSpace從機構、作者、共被引文獻、關鍵詞等角度分別繪制了相關聚類視圖和共被引網絡視圖,以可視化圖譜的形式來展示國內圖書館數據挖掘的知識譜系,分析機構群特征、作者群特征、知識基礎、研究熱點和趨勢,以期對該領域研究達到全面、整體的認識與把握。
中圖分類法:G251文獻標識碼:A文章編號:1003-1588(2014)11-0118-03
收稿日期:2014-08-01
作者簡介:廖文果(1982-),阿壩師范高等??茖W校圖書館館員。
*本文系四川省教育廳課題“基于數據挖掘的圖書館個性化服務研究”階段性成果之一,編號:13SB0070。知識圖譜始現于20世紀90年代末,其融合了信息技術、可視化技術及文獻計量學等多種學科,在21世紀初得到了快速發展,現已成為計量學領域研究新方向[1]。知識圖譜提供了理順知識脈絡的可視化體系網絡,借以了解某個知識領域的動態、熱點,預測和把握知識發展的前沿[2]。筆者利用知識圖譜對有關數據挖掘在圖書館中應用等相關文獻進行分析,旨在全面把握該領域研究的現狀、發展、特點和規律。
1數據來源及研究方法
中文社會科學索引(CSSCI)是國內人文社會科學研究方面的專業性和權威性的數據庫,有著廣泛的影響和極高的聲望。在中文社會科學引文索引來源數據庫按“篇名=數據挖掘or 關鍵詞=數據挖掘”并限定學科類別為圖書、情報和文獻學,文獻類型為“論文”,檢索1998年到2013年所有文獻共648條記錄。選擇陳超美博士的軟件CiteSpace3.8可視化分析工具,從機構(Institution)、作者(Author)、共被引文獻(Cited Reference)、關鍵詞(Keyword)等角度分析期間“數據挖掘在圖書館中的應用”相關文獻的機構群特征、作者群特征、知識基礎、研究熱點和趨勢,繪制相關聚類視圖和共被引網絡視圖,以可視化圖譜的形式來展示國內圖書館數據挖掘的知識譜系,以期對該領域研究達到全面、整體的認識與把握。
2可視化分析與結果
2.1機構群、作者群特征
2.1.1機構群特征
對來源機構研究不但可以了解該領域的研究力量分布,核心機構的分布,而且為科學研究的文獻搜集方向提供有效的依據[3]。筆者發現發文機構圖譜中圓點越大表示所屬機構發文越多,排在前五位的分別是南京大學信息管理系、武漢大學信息管理學院、武漢大學信息資源研究中心、吉林大學管理學院、廈門大學經濟學院,發文量均達到十篇以上,顯示該領域較強的研究力量。節點之間的直線表示兩機構之間的合作關系,各機構之間聯系比較稀疏,說明合作較少。
2.1.2作者群特征
筆者從作者的網絡圖譜中統計出謝邦昌、張玉峰、朱建平貢獻最大,達到十篇以上,是本領域的核心作者。從聚點可以看出,存在以謝邦昌、張玉峰、朱東華、潘有能、邱長波為中心幾個較大的聚類簇,表明行成以該幾名作者為中心的團隊,團隊成員合作成果較多。
2.2知識基礎分析
領域內的知識基礎一般是由該領域內的早期奠基性文獻和來源于共被引頻次和中心性都比較高的關鍵文獻組成[4]。繪制共被引網絡圖譜用來描述知識領域的基本構成和研究動態,是CiteSpace用來展示學科的知識基礎與研究前沿的重要方法。節點類型(Node Types)選擇共被引文獻(Cited Reference),設置合適的閾值參數(Threshold Interpolation),其他策略不變,運行軟件后得到共被引奠基性文獻的時間序列圖譜。
共被引奠基性文獻的時間序列圖譜中每個圓形的節點代表一篇共被引文獻,節點的大小與共被引用頻次正相關,節點不同顏色的年環表示不同年份共被引的引文時間,年環厚度與該年份的共被引次數成正比。筆者從圖譜中發現該領域研究從1980年代開始出現,一直是研究的熱點,早期的文獻基本上都來自國外。一篇奠基性文獻是QUINLAN,J.R.于1986在Machine Learning(機器學習)第一期上發表的Induction of Decision Trees(決策樹介紹)。通過引文歷史(Citation History)折線圖,得到該文的歷史被引軌跡。該文在2005年和2008年分別達到4次。
一個研究領域的知識基礎與研究熱點會隨著時間的變化而不斷地演化遞進,在每個時間段行成不同的高被引文獻簇,代表著一個學科的核心文獻集合。圖譜中每個圓形的節點代表一篇共被引文獻,節點的大小與引用頻次成正比,年環的不同顏色代表不同的被引時間,其厚度與該年份被引次數成正比。通過共引文獻分析,位列前茅的是Han JiaWei,中文名為韓家煒,其所著為《數據挖掘:概念與技術》第二版是本領域的核心著作。
點的中心性是一個用以量化點在網絡中地位重要性的圖論概念。中間中心性是常用來進行中心性測度的指標,它是指網絡中經過某點并連接這兩點的最短路徑占這兩點之間的最短路徑線總數之比[5]。中間中心性高的點往往位于連接兩個不同聚類的路徑上。表1選取是被引頻率較高,中心較高的幾種文獻或著作。中心性最高的是邵峰晶的2003年中國水利水電出版社出版的專著《數據挖掘原理與算法》,該文獻在系統闡述數據挖掘產生歷史、相關概念、原理、基本方法的基礎上,對關聯、分類、聚類、序列等數據挖掘算法和技術進行了剖析,并結合自己的實際研究,分類論述數據挖掘的應用問題[6]。中心性排在第二位趙丹群在現代圖書情報技術2000年第6期上發表的論文《數據挖掘:原理、方法及其應用》,文中首先介紹了數據挖掘的基本概念和處理過程,然后分別分析了數據挖掘所發現的主要知識類型和使用的技術方法,最后對基于Web的幾個數據挖掘應用系統進行了較為細致的剖析,并指出數據挖掘技術和搜索引擎技術的結合對網絡信息的發現、搜集和管理、利用具有巨大的發展前景[7]。廖文果:知識圖譜視角下數據挖掘在圖書館中的應用分析*廖文果:知識圖譜視角下數據挖掘在圖書館中的應用分析*表1中心性排在前幾位的共被引文獻endprint
FreqCentralityAuthor題名來源130.59邵峰晶數據挖掘原理與算法中國水利水電出版社,2003年50.5趙丹群數據挖掘:原理、方法及其應用現代圖書情報技術,2000年第6期50.48林杰斌數據挖掘與OLAP理論與務實清華大學出版社,2003年50.48Kantardzic Mehmed數據挖掘——概念、模型、方法和算法清華大學出版,2003年80.47晏創業智能檢索中的網絡數據挖掘技術探索中國圖書館學報,2002年第3期230.46Han JiaWei90.45韓家煒數據挖掘:概念與技術機械工業出版社,2001年60.33王實Web數據挖掘計算機科學,2000年第4期2.3研究熱點和前沿分析
“研究前沿”用它來描述研究領域熱點的隨時間變化的演進過程,是通過被引用的文章的關鍵詞來體現的。文獻題錄中的關鍵詞是對主題的高度概括和集中描述,可以用于確定某領域的研究熱點和主流方向,出現頻次較高的關鍵詞在可視化圖譜中顯示為較大的節點。
FreqKeywordFreqKeyword879數據挖掘30數據挖掘技術76關聯規則29web挖掘52數據倉庫28電子商務50數字圖書館27web數據挖掘47知識發現26競爭情報44客戶關系管理26信息服務38圖書館22個性化服務38聚類分析18神經網絡32決策樹17個性化信息服務31知識管理17文本挖掘表2顯示的是高頻關鍵詞共現的聚類數據。每個關鍵詞代表一個研究熱點,出現的頻次越大,即該節點的受關注度越高?!皵祿诰颉薄瓣P聯規則”“數據倉庫”“知識發現”“數字圖書館”“客戶關系管理”“圖書館”“聚類分析”“決策樹”“知識管理”“電子商務”“數據挖掘技術”“web挖掘”“信息服務”“web數據挖掘”“個性化服務”“競爭情報”“個性化信息服務”“神經網絡”“文本挖掘”受關注度高,是研究的熱點。其中,“數據挖掘”是通用的概念,幾乎每篇有關數據挖掘的文章都有該關鍵詞,因此詞頻最高。而“關聯規則”“聚類分析”“決策樹”“神經網絡”是指應用的數據挖掘技術,表明是在圖書館應用的最常見的數據挖掘方法?!皵祿}庫”“web挖掘”“競爭情報”“電子商務”“客戶關系管理”“文本挖掘”“數字圖書館”或者“圖書館”是指數據挖掘技術的應用領域,說明可以常對這些對象或領域進行數據挖掘?!爸R管理”“個性化服務”“個性化信息服務”是指數據挖掘技術的應用目的是提高圖書館的知識管理、信息服務水平和個性化服務。從高頻關鍵詞解讀出數據挖掘技術在圖書館應用非常廣泛,重點是采用“關聯規則”“聚類分析”“決策樹”“神經網絡”等多種挖掘技術,用于提高圖書館的知識管理水平,提供更個性化的服務。
3結論
通過機構分析、作者分析、文獻共被引分析、關鍵詞聚類分析,筆者以知識圖譜的方式展示了“數據挖掘在圖書館中的應用”的研究力量分布、學術代表人物、重要學術文獻分布、熱點和前沿趨勢,并得出以下結論。從機構分布來看,南京大學信息管理系、武漢大學信息管理學院、武漢大學信息資源研究中心、吉林大學管理學院、廈門大學經濟學院是研究該領域的中堅力量,展現較強的科研實力。但機構間合作有待加強。從作者分布來看,謝邦昌、張玉峰、朱建平發文量較大,且各自行成了合作網絡。其他作者比較分散。從共被引文獻來看,奠基性文獻主要來自國外。Han JiaWei,中文名為韓家煒,其專著《數據挖掘:概念與技術》共被引最大。邵峰晶的《數據挖掘原理與算法》,趙丹群的《數據挖掘:原理、方法及其應用》等國內文獻的被引量和中心性都很高,構成了該領域的核心文獻。④從研究熱點和前沿分析來看,研究熱點可概括為三方面:一是以“關聯規則”“聚類分析”“決策樹”“神經網絡”等為主的數據挖掘技術;二是以“數據倉庫”“web”“競爭情報”“電子商務”“客戶關系管理”“數字圖書館”為主的數據挖掘對象;三是以“知識管理”“個性化服務”“個性化信息服務”為主的數據挖掘目的。從研究趨勢為看,“個性化服務”“xml”“聚類分析”“競爭情報”“神經網絡”“社會網絡分析”“數據處理”是近年來研究的方向和前沿。
參考文獻:
[1]廖勝姣.基于文獻計量的科學知識圖譜繪制研究[D].北京:中科院研究生院,2009:1-7.
[2]劉則淵,王賢文,陳超美.科學知識圖譜方法及其在科技情報中的應用[J].數字圖書館論 壇,2009(10):14-34.
[3]徐瑾,楊思洛.基于知識圖譜的數字圖書館研究現狀與趨勢分析[J].圖書館,2011(6):41-44,51.
[4]趙蓉英,王菊.圖書館學知識圖譜分析[J].中國圖書館學報,2011(2):42-52.
[5]陳超美.CiteSpace II:科學文獻中新趨勢與新動態的識別與可視化[J].情報學報,2009(3):401-402.
[6]邵峰晶.數據挖掘原理與算法[M].北京:中國水利水電出版社,2003.
[7]趙丹群.數據挖掘:原理、方法及其應用.現代圖書情報技術[J].2000(6):41-44.
(編校:嚴真)endprint
FreqCentralityAuthor題名來源130.59邵峰晶數據挖掘原理與算法中國水利水電出版社,2003年50.5趙丹群數據挖掘:原理、方法及其應用現代圖書情報技術,2000年第6期50.48林杰斌數據挖掘與OLAP理論與務實清華大學出版社,2003年50.48Kantardzic Mehmed數據挖掘——概念、模型、方法和算法清華大學出版,2003年80.47晏創業智能檢索中的網絡數據挖掘技術探索中國圖書館學報,2002年第3期230.46Han JiaWei90.45韓家煒數據挖掘:概念與技術機械工業出版社,2001年60.33王實Web數據挖掘計算機科學,2000年第4期2.3研究熱點和前沿分析
“研究前沿”用它來描述研究領域熱點的隨時間變化的演進過程,是通過被引用的文章的關鍵詞來體現的。文獻題錄中的關鍵詞是對主題的高度概括和集中描述,可以用于確定某領域的研究熱點和主流方向,出現頻次較高的關鍵詞在可視化圖譜中顯示為較大的節點。
FreqKeywordFreqKeyword879數據挖掘30數據挖掘技術76關聯規則29web挖掘52數據倉庫28電子商務50數字圖書館27web數據挖掘47知識發現26競爭情報44客戶關系管理26信息服務38圖書館22個性化服務38聚類分析18神經網絡32決策樹17個性化信息服務31知識管理17文本挖掘表2顯示的是高頻關鍵詞共現的聚類數據。每個關鍵詞代表一個研究熱點,出現的頻次越大,即該節點的受關注度越高?!皵祿诰颉薄瓣P聯規則”“數據倉庫”“知識發現”“數字圖書館”“客戶關系管理”“圖書館”“聚類分析”“決策樹”“知識管理”“電子商務”“數據挖掘技術”“web挖掘”“信息服務”“web數據挖掘”“個性化服務”“競爭情報”“個性化信息服務”“神經網絡”“文本挖掘”受關注度高,是研究的熱點。其中,“數據挖掘”是通用的概念,幾乎每篇有關數據挖掘的文章都有該關鍵詞,因此詞頻最高。而“關聯規則”“聚類分析”“決策樹”“神經網絡”是指應用的數據挖掘技術,表明是在圖書館應用的最常見的數據挖掘方法。“數據倉庫”“web挖掘”“競爭情報”“電子商務”“客戶關系管理”“文本挖掘”“數字圖書館”或者“圖書館”是指數據挖掘技術的應用領域,說明可以常對這些對象或領域進行數據挖掘?!爸R管理”“個性化服務”“個性化信息服務”是指數據挖掘技術的應用目的是提高圖書館的知識管理、信息服務水平和個性化服務。從高頻關鍵詞解讀出數據挖掘技術在圖書館應用非常廣泛,重點是采用“關聯規則”“聚類分析”“決策樹”“神經網絡”等多種挖掘技術,用于提高圖書館的知識管理水平,提供更個性化的服務。
3結論
通過機構分析、作者分析、文獻共被引分析、關鍵詞聚類分析,筆者以知識圖譜的方式展示了“數據挖掘在圖書館中的應用”的研究力量分布、學術代表人物、重要學術文獻分布、熱點和前沿趨勢,并得出以下結論。從機構分布來看,南京大學信息管理系、武漢大學信息管理學院、武漢大學信息資源研究中心、吉林大學管理學院、廈門大學經濟學院是研究該領域的中堅力量,展現較強的科研實力。但機構間合作有待加強。從作者分布來看,謝邦昌、張玉峰、朱建平發文量較大,且各自行成了合作網絡。其他作者比較分散。從共被引文獻來看,奠基性文獻主要來自國外。Han JiaWei,中文名為韓家煒,其專著《數據挖掘:概念與技術》共被引最大。邵峰晶的《數據挖掘原理與算法》,趙丹群的《數據挖掘:原理、方法及其應用》等國內文獻的被引量和中心性都很高,構成了該領域的核心文獻。④從研究熱點和前沿分析來看,研究熱點可概括為三方面:一是以“關聯規則”“聚類分析”“決策樹”“神經網絡”等為主的數據挖掘技術;二是以“數據倉庫”“web”“競爭情報”“電子商務”“客戶關系管理”“數字圖書館”為主的數據挖掘對象;三是以“知識管理”“個性化服務”“個性化信息服務”為主的數據挖掘目的。從研究趨勢為看,“個性化服務”“xml”“聚類分析”“競爭情報”“神經網絡”“社會網絡分析”“數據處理”是近年來研究的方向和前沿。
參考文獻:
[1]廖勝姣.基于文獻計量的科學知識圖譜繪制研究[D].北京:中科院研究生院,2009:1-7.
[2]劉則淵,王賢文,陳超美.科學知識圖譜方法及其在科技情報中的應用[J].數字圖書館論 壇,2009(10):14-34.
[3]徐瑾,楊思洛.基于知識圖譜的數字圖書館研究現狀與趨勢分析[J].圖書館,2011(6):41-44,51.
[4]趙蓉英,王菊.圖書館學知識圖譜分析[J].中國圖書館學報,2011(2):42-52.
[5]陳超美.CiteSpace II:科學文獻中新趨勢與新動態的識別與可視化[J].情報學報,2009(3):401-402.
[6]邵峰晶.數據挖掘原理與算法[M].北京:中國水利水電出版社,2003.
[7]趙丹群.數據挖掘:原理、方法及其應用.現代圖書情報技術[J].2000(6):41-44.
(編校:嚴真)endprint
FreqCentralityAuthor題名來源130.59邵峰晶數據挖掘原理與算法中國水利水電出版社,2003年50.5趙丹群數據挖掘:原理、方法及其應用現代圖書情報技術,2000年第6期50.48林杰斌數據挖掘與OLAP理論與務實清華大學出版社,2003年50.48Kantardzic Mehmed數據挖掘——概念、模型、方法和算法清華大學出版,2003年80.47晏創業智能檢索中的網絡數據挖掘技術探索中國圖書館學報,2002年第3期230.46Han JiaWei90.45韓家煒數據挖掘:概念與技術機械工業出版社,2001年60.33王實Web數據挖掘計算機科學,2000年第4期2.3研究熱點和前沿分析
“研究前沿”用它來描述研究領域熱點的隨時間變化的演進過程,是通過被引用的文章的關鍵詞來體現的。文獻題錄中的關鍵詞是對主題的高度概括和集中描述,可以用于確定某領域的研究熱點和主流方向,出現頻次較高的關鍵詞在可視化圖譜中顯示為較大的節點。
FreqKeywordFreqKeyword879數據挖掘30數據挖掘技術76關聯規則29web挖掘52數據倉庫28電子商務50數字圖書館27web數據挖掘47知識發現26競爭情報44客戶關系管理26信息服務38圖書館22個性化服務38聚類分析18神經網絡32決策樹17個性化信息服務31知識管理17文本挖掘表2顯示的是高頻關鍵詞共現的聚類數據。每個關鍵詞代表一個研究熱點,出現的頻次越大,即該節點的受關注度越高?!皵祿诰颉薄瓣P聯規則”“數據倉庫”“知識發現”“數字圖書館”“客戶關系管理”“圖書館”“聚類分析”“決策樹”“知識管理”“電子商務”“數據挖掘技術”“web挖掘”“信息服務”“web數據挖掘”“個性化服務”“競爭情報”“個性化信息服務”“神經網絡”“文本挖掘”受關注度高,是研究的熱點。其中,“數據挖掘”是通用的概念,幾乎每篇有關數據挖掘的文章都有該關鍵詞,因此詞頻最高。而“關聯規則”“聚類分析”“決策樹”“神經網絡”是指應用的數據挖掘技術,表明是在圖書館應用的最常見的數據挖掘方法?!皵祿}庫”“web挖掘”“競爭情報”“電子商務”“客戶關系管理”“文本挖掘”“數字圖書館”或者“圖書館”是指數據挖掘技術的應用領域,說明可以常對這些對象或領域進行數據挖掘?!爸R管理”“個性化服務”“個性化信息服務”是指數據挖掘技術的應用目的是提高圖書館的知識管理、信息服務水平和個性化服務。從高頻關鍵詞解讀出數據挖掘技術在圖書館應用非常廣泛,重點是采用“關聯規則”“聚類分析”“決策樹”“神經網絡”等多種挖掘技術,用于提高圖書館的知識管理水平,提供更個性化的服務。
3結論
通過機構分析、作者分析、文獻共被引分析、關鍵詞聚類分析,筆者以知識圖譜的方式展示了“數據挖掘在圖書館中的應用”的研究力量分布、學術代表人物、重要學術文獻分布、熱點和前沿趨勢,并得出以下結論。從機構分布來看,南京大學信息管理系、武漢大學信息管理學院、武漢大學信息資源研究中心、吉林大學管理學院、廈門大學經濟學院是研究該領域的中堅力量,展現較強的科研實力。但機構間合作有待加強。從作者分布來看,謝邦昌、張玉峰、朱建平發文量較大,且各自行成了合作網絡。其他作者比較分散。從共被引文獻來看,奠基性文獻主要來自國外。Han JiaWei,中文名為韓家煒,其專著《數據挖掘:概念與技術》共被引最大。邵峰晶的《數據挖掘原理與算法》,趙丹群的《數據挖掘:原理、方法及其應用》等國內文獻的被引量和中心性都很高,構成了該領域的核心文獻。④從研究熱點和前沿分析來看,研究熱點可概括為三方面:一是以“關聯規則”“聚類分析”“決策樹”“神經網絡”等為主的數據挖掘技術;二是以“數據倉庫”“web”“競爭情報”“電子商務”“客戶關系管理”“數字圖書館”為主的數據挖掘對象;三是以“知識管理”“個性化服務”“個性化信息服務”為主的數據挖掘目的。從研究趨勢為看,“個性化服務”“xml”“聚類分析”“競爭情報”“神經網絡”“社會網絡分析”“數據處理”是近年來研究的方向和前沿。
參考文獻:
[1]廖勝姣.基于文獻計量的科學知識圖譜繪制研究[D].北京:中科院研究生院,2009:1-7.
[2]劉則淵,王賢文,陳超美.科學知識圖譜方法及其在科技情報中的應用[J].數字圖書館論 壇,2009(10):14-34.
[3]徐瑾,楊思洛.基于知識圖譜的數字圖書館研究現狀與趨勢分析[J].圖書館,2011(6):41-44,51.
[4]趙蓉英,王菊.圖書館學知識圖譜分析[J].中國圖書館學報,2011(2):42-52.
[5]陳超美.CiteSpace II:科學文獻中新趨勢與新動態的識別與可視化[J].情報學報,2009(3):401-402.
[6]邵峰晶.數據挖掘原理與算法[M].北京:中國水利水電出版社,2003.
[7]趙丹群.數據挖掘:原理、方法及其應用.現代圖書情報技術[J].2000(6):41-44.
(編校:嚴真)endprint