[摘要]引證網絡是以節點文獻為中心,通過文獻之間的引用關系將相關文獻鏈接為一個網絡。本文利用h-b指數選擇了知識服務研究領域的30高被引文獻,利用聚類方法其引證網絡的6個指標數據進行分析。研究發現,這些文獻的6個指標數據呈現出4種不同類型的數據分布情況,這反映出高被引文獻在知識的吸收和傳播中具有不同的特點。
〔關鍵詞〕引證網絡;高被引文獻;聚類分析;h-b指數;知識服務
DOI:10.3969/j.issn.1008-0821.2011.03.029
〔中圖分類號〕G250 〔文獻標識碼〕B 〔文章編號〕1008-0821(2011)03-0117-05
An Empirical Research on the Highly Cited
Documents Based on the Citation NetworkWei Ruibin Chen Dandan
(School of Management Science and Engineering,Anhui University of Finance Economics,Benbu 233030,China)
〔Abstract〕Citation network was formed through the citation relationship focused on the node document.The paper used the h-b index to select the highly cited paper and colleted 30 documents on knowledge service and analyse the six indexes from the citation network.Research showed that the data of the highly cited paper appear different distribution and it showed that the paper had different features when the highly cited paper absorb and communication knowledge.
〔Keywords〕citation network;highly cited document;clustering analysis;knowledge service;h-b Index;knowledge service
引文是作者、編者根據其認可的學術理念和規范對相關文獻的閱讀、篩選、取舍、利用的產物,是有利于表述、尤其是支撐其研究成果的他人文獻或成果,是引用者自己認為“有用”的資料[1]。自從19世紀正式形成論文標引制度以來,因其獨特而又深刻且容易刻畫出科學論文之間的內在聯系的網絡,一向被學術界和廣大研究者所重視。
高被引文獻是一個相對且主觀性較強的概念。國內高被引文獻的定量選擇方法目前主要有4種方式。一是研究者主觀判定一個被引的閥值。如文獻[2-6]采用這種方法選擇了研究過程中所需要的高被引文獻。第二種方式是根據文獻對整體引用的累積貢獻率來確定高被引文獻。如文獻[7]利用這種方式選擇了國內競爭情報領域62篇高被引期刊論文。第三種方式是借鑒核心作者的普賴斯定律來選擇高被引文獻。文獻[8]利用這種方法選擇情報專題研究領域的299篇高被引文獻作為其研究對象。第四種方式是對于來自不同數據源的引用數據分別打分并加權得到一個排序,然后再確定一個閥值來確定高被引論文。如文獻[9-10]分別利用這種方法確定了國內法學和新聞傳播學高被引文獻。這4種方式本質上都是依據文獻被引頻次來選擇高被引文獻,不同之處在于被引頻次所取閥值的選擇方法有差異。這些研究數據主要來自CNKI的中國引文數據庫(CCD)和南京大學的中文社會科學引文數據庫(CSSCI)兩大索引數據庫。
本文借鑒文獻[11]的思路,嘗試將主題h指數作為某研究領域或主題高被引文獻選擇的一個標準。在一個特定研究主題論文形成的集合當中,有h篇論文被引次數至少為h,其他論文中每一篇的被引次數都≤h,那么這個主題的h指數就為h。本文將被引次數大于等于h次的文獻確定為某一研究領域的高被引文獻。
1 引證網絡
1.1 引證網絡的概念
1965年,借助于《科學引文索引》,普賴斯在“Science”上發表了1篇著名的論文“Networks of Science Papers”。在這篇論文中,他創造性地研究了科學論文之間的引證和被引證的關系,以及由此形成的所謂“引證網絡”。這種復雜的網絡展示了論文引用之間的復雜關系[12]。
圖1以直觀方式顯示了引證網絡的結構。以節點文獻(A)為中心,參考文獻與引證文獻與其有直接關聯,前者是其研究基礎,后者是其研究的發展。二級參考文獻是參考文獻研究的基礎;二級引證文獻是引證文獻的后續研究成果;共引文獻是與節點文獻有同樣研究基礎的成果;同被引文獻是與節點文獻對后續研究共同產生影響的成果。引證網絡把這些文獻有機地聯系在一起,使研究者能夠了解節點文獻在某研究領域的學術價值及相關內容研究的來龍去脈。圖1 文獻A的引文網絡圖[12]
1.2 引證網絡數據的獲取
目前,國內只有CNKI的中國學術期刊全文數據庫為用戶提供每篇論文的引文網絡中的所有相關信息。圖2是筆者檢索的張曉林《走向知識服務:尋找新世紀圖書情報工作的生長點》一文的引證網絡。從圖中不僅可以看到節點文獻相關的參考文獻、引證文獻等文獻數量,了解到這些文獻的時間分布,而且CNKI還建立了鏈接,用戶可以很方便地找到原文信息。同時,用戶還能了解到節點文獻相關的相似文獻、同行關注文獻、相關作者文獻、相關機構文獻等信息。圖2 CNKI節點文獻引證網絡圖實例
2 基于引證網絡的高被引文獻聚類分析
2.1 高被引文獻的遴選
筆者以“知識服務”為實證對象,從CNKI檢索到1 001篇相關文獻(2000-2009年,檢索時間2010-05-28),按被引頻次排序,然后根據論文的h指數(即某一主題的研究論文,至少有h篇論文每篇獲取不少于h次的引文數),得到了30篇高被引文獻(表1)。從表1看,這些文獻87%發表CSSCI圖書館、情報與文獻學的來源期刊,95%發表在圖書情報學期刊上。這表明被引頻次較高的文章多發表在高質量期刊上,同時也反映出知識服務研究集中在圖書情報學。從時間上看,95%的文獻發表在2006年之前。這反映了高被引文獻被引次數與發文時間長短有較強的關聯性。
表1 國內“知識服務”高被引文獻
序號篇名第一作者刊 名發文時間1走向知識服務:尋找新世紀圖書情報工作的生長點張曉林中國圖書館學報20002知識服務之運營方式探索李桂華圖書館20013圖書館知識服務研究綜述靳 紅情報雜志20044試論圖書館從信息服務走向知識服務田 紅情報理論與實踐20035論知識服務與信息服務姜永常情報學報2001 續表1
序號篇名第一作者刊 名發文時間6開發支持知識服務的現代圖書情報機構組織管理機制黨躍武中國圖書館學報20017論知識服務的營銷戰略問題李桂華中國圖書館學報20018高校圖書館學科化知識服務模式研究徐愷英圖書情報工作20079知識服務的特征及模式研究李家清情報資料工作200410中國知識服務業發展問題探析金雪軍軟科學200211圖書館知識服務的影響因素及其發展戚建林圖書館工作與研究200312信息服務向知識服務轉變的探析黎 艷圖書情報工作200313論數字圖書館的知識服務劉維丹圖書情報知識200214知識服務——互聯網上合作設計的基礎謝友柏中國機械工程200215面向21世紀的圖書館知識服務李慧敏情報雜志200316構建知識服務的技術平臺曾民族情報理論與實踐200417高校圖書館開展知識服務探討劉崇學圖書館學研究200418高校圖書館開展知識服務的探索何坤振情報科學200219CNKI數字圖書館知識服務研究姜永常情報學報200420網絡環境下圖書館服務理念的整合安月英情報雜志200221論圖書情報機構的信息服務與知識服務戚建林河南圖書館學刊200322高校圖書館知識服務模式的比較研究靳 紅中國圖書館學報200423新世紀圖書館需要知識管理和知識服務柯 平新世紀圖書館200524基于圖書館2.0構建學科知識服務平臺任樹懷大學圖書館學報200725論信息服務與知識服務柴永紅情報雜志200426知識創新與知識服務姜永常圖書與情報200127基于圖書館知識管理的知識服務龐愛國圖書館學刊200528知識服務與圖書館的核心能力王均林圖書情報工作200229知識、知識管理與網絡信息知識服務孫成江情報資料工作200230高校圖書館開展知識服務的運營思路和方式之探討羅彩冬情報雜志2004
2.2 高被引文獻的引證網絡信息
利用CNKI提供的每篇論文的引證網絡,將30篇高被引文獻的相關數據匯總如下(見表2)。在檢索過程中,筆者發現,這些引文網絡數據并不全面。引文網絡中的相關文獻記錄來自《中國學術期刊網絡出版總庫》、《中國博士學位論文全文數據庫》、《中國優秀碩士學位論文全文數據庫》、《中國重要會議論文全文數據庫》、《中國圖書全文數據庫》等不同數據庫。如果文獻沒有被這些數據庫收錄,則引文網絡數據就不會統計。文獻1參考文獻一共有17條記錄,除了表2顯示的7條外,其它參考文獻是一些外文文獻、碩士論文等。文獻19引用的是網絡文獻和CNKI報導;文獻21和23引用的文獻是圖書,這些網絡文獻和圖書未被數據庫收錄,因此其參考文獻數都是0。另外就是原文中如果沒有參考文獻信息,則參考文獻數量也顯示為0,如文獻16和文獻21。
12739535172D1127(17)4033 1695393 024注:序號內的字母代表圖3聚類結果;參考文獻括號內數字是論文實際參考文獻數字。2.3 高被引文獻的引文網絡信息的聚類分析
從表2看,參考文獻、共引文獻等數量不在同一個數量級,為了進行對比研究,本文將表中數據進行了歸一化處理(每一列的數據除以每列的最大值),然后利用SPSS聚類后得到圖3。根據聚類結果,將這些高被引文獻分為四類(A、B、C和D類),另外利用Excel得到4類文獻引文網絡相關數據歸一化之后的各個指標的曲線圖(圖4~7)。
盡管這些文獻對知識服務領域的后續研究都有一定的影響力,但從聚類結果看:這4類文獻呈現出具有不同的特點:
(1)A類文獻有13篇,占總數的43%。從圖4看,大部分A類文獻六個指標呈現一個M型的分布,即此類文獻的參考文獻和同被引文獻的數量較多。A類文獻的特點是前期研究成果和同期相關研究成果較為豐富。
(2)B類文獻有14篇,占總數的47%。從圖5看,大部分B類文獻有一個峰谷呈現為一個倒V型分布,即此類文獻的共引文獻數量較多,其它指標的數量較少。B類文獻的特點是有同樣研究基礎的相關研究成果較為豐富。
(3)C類文獻有2篇,占總數的7%。從圖6看,C類文獻則是前3個指標的數量與后3個指標數量有明顯的差別。C類文獻的特點是前期研究成果較為豐富,而對后續研究的影響力相對較弱。
(4)D類文獻有1篇,占總數的3%。這篇文獻被479篇期刊論文、3篇博士論文、46篇碩士論文和15篇會議論文引用。引用文獻分布在138種期刊上。從圖8看,這篇文獻自發表之后,其被引的次數一直處于一個上升的趨勢(2010年數據不全,圖中最后一個點的下降很快)。這表明它被知識服務研究領域的同行普遍認可,是一篇非常經典的文獻,對后續的研究有非常重要的參考價值。
圖3 高被引文獻引文網絡信息的聚類圖
圖4 A類文獻指標曲線圖
圖5 B類文獻指標曲線圖
圖6 C類文獻指標曲線圖
圖7 D類文獻指標曲線圖
注:圖4,5,6,7中的橫軸數字1~6代表節點文獻的二級參考文獻、參考文獻、共引文獻、同被引文獻、引證文獻和二次引證文獻6個指標,縱軸表示節點6個指標的歸一化數值。圖8 引用文獻1的期刊論文的時間分布
3 結束語
本文對利用h-b指數選擇的知識服務領域的高被引文獻從參考文獻等6個指標進行了聚類分析,從分析結果看,盡管研究對象數量較少,但這些高被引文獻仍然呈現出不同的特點。這些特點對于從引證網絡的視角分析研究成果的學術價值有一定的參考意義。但由于知識服務領域的發文數量較多,而被引次數較高的文獻較少,從而導致研究對象的數量較少。因此,這些高被引文獻特點的分析結果在一定局限性,有待利用進一步深入研究。
參考文獻
[1]葉繼元.引文的本質及其學術評價功能辨析[J].中國圖書館學報,2010,(1):35-39.
[2]酈金華,蘇新寧.近5年我國圖書館學情報學研究之影響[J].情報學報,2004,(5):515-523.
[3]葉協杰.我國圖書情報學高被引論文熱點分析[J].圖書情報工作,2007,52(12):138-141.
[4]趙麗紅.基于高被引論文的情報學研究現狀分析[J].現代情報,2008,(12):157-160.
[5]李云霞.情報學核心期刊高被引論文研究[J].農業圖書情報學刊,2009,21(11):168-169,179.
[6]湯敏華.兒科學2000-2002年度高被引文獻和作者分析[J].中國醫藥導報,2009,6(4):131-132.
[7]田大芳.國內競爭情報領域高被引期刊論文的定量分析[J].現代情報,2009,29(7):20-23.
[8]劉雪立,王兆軍.2004-2008年我國情報專題研究高被引論文的統計與分析[J].情報雜志,2010,29(1):64-67.
[9]徐劍,何淵.中國法學研究的歷史回顧與反思——基于CSSCI、CNKI(1978-2007)的高被引論文分析[J].上海交通大學學報:哲學社會科學版,2009,17(2):49-57.
[10]徐劍.中國新聞傳播學高被引論文分析——基于CSSCI、CNKI兩個主流引文數據庫的研究[J].上海交通大學學報:哲學社會科學版,2009,17(1):63-70.
[11]JUDIT BAR-ILAN.The h-index of h-index and of other informetric topics[J].Scientometrics,2008,75(3):591-605.
[12]袁軍鵬.科學計量學高級教程[M].北京:科學技術文獻出版社,2010:123.