胡利勇
基于普賴斯定律的圖書情報領域高被引論文核心要素測評
胡利勇
(廣東省委黨校圖書館,廣東廣州 510053)
以中國知網期刊全文數據庫為數據源,利用書目共現分析系統對2011-2015年圖書情報領域論文的核心要素進行提取、統計,借鑒普賴斯定律,確定圖書情報領域高被引論文,進而分析其核心作者、核心單位、核心期刊,并繪制知識圖譜進行社會網絡分析,揭示當前圖書情報領域的科學研究特點。
圖書情報;普賴斯定律;高被引;社會網絡分析;統計分析
高被引論文是指被引用次數較高的論文。對圖書情報領域高被引論文進行統計,分析高被引論文的要素特點,有助于我們了解和掌握近期圖書情報領域的發展脈絡、研究熱點和發展趨勢。文獻計量學中,普賴斯定律被用來確定高產和高影響力作者[1]。多數情況下,高產作者和高被引論文的分布具有相同或相似的規律,可以借用普賴斯定律確定高被引論文[2-3]。
1.1文獻來源
利用中國知網期刊全文數據庫,采用高級檢索方式,時間期限設定為“2011年1月1日”到“2015年12月31日”,選擇“圖書情報與數字圖書館”作為學科領域,跨庫選擇“期刊”“博士”“碩士”“特色期刊”“國際會議”“國內會議”“學術輯刊”7個論文數據庫作為文獻來源庫,共檢索出124 567篇文獻,按照被引次數倒序排列,單篇最大被引次數為171,借鑒普萊斯確定核心作者的方法[4],確定高被引論文最低被引次數:,取整數10,即累計被引10次或者以上的論文作為核心候選文獻,由于在中國知網檢索列表中,2 000條以后就不再顯示被引次數,而被引排序第2 000位的論文,被引次數為11,與高被引論文候選范圍相當接近,因此將被引排名前2 000的論文確定為高被引候選文獻。這2 000篇論文總共被引43 369次,篇均被引21.68次,取整數22作為高被引論文指數,即被引次數大于或等于22的論文作為本文所研究的高被引文獻,共578篇,去掉重復文章3篇,共計575篇,占候選論文總數的28.75%。其中,博士學位論文2篇,碩士學位論文4篇,期刊論文569篇,基金論文233篇。這些高被引論文總被引次數為22 587,占候選文獻總被引次數52.08%,篇均被引39.28次,h指數為66。
1.2研究方法和步驟
首先,利用中國知網的參考文獻導出功能,選擇Note first方式,將575篇高被引論文的題名、作者、關鍵詞等元數據導出為XML格式TXT文件保存。其次,將TXT書目共現分析系統Bicomb2軟件打開[5],提取575篇文獻關鍵字段信息并進行統計分析。再次,利用普賴斯定律確定高被引論文的核心期刊、核心作者和核心發文單位。最后,在Bicomb2中生成共現矩陣,利用Ucinet軟件和NetDraw工具,繪制核心作者、核心單位知識圖譜[6],進而總結圖書情報領域的研究現狀和特點。
2.1年份分布統計
2011年入圍高被引范圍的圖書情報領域論文最多,達274篇,約占高被引論文總數的一半,入圍的高被引論文數量逐年減少,2012-2014年分別為164、99、38篇,2015年最少,沒有一篇達到高被引論文的最低引用頻次。發表越早,高被引論文數量比例越高,表明論文累積被引次數與發表時間有關,發表時間越早,累積被引次數越大,高被引論文數量比例越高。
2.2高被引文章主題分析
從575篇高被引文獻中,被引排名前20的論文(見表1),最高被引171次,最低被引97次,總被引2 578次,篇均被引128.9次。其中作者獨著論文13篇,合著論文7篇,占比分別為65%和35%。2011年最多,有9篇,占了將近一半比例;2012年7篇;2013年3篇;2014年只有1篇。說明被引次數排在前列,需要一定的時間積累。但達到被引最多的論文有兩篇,分別出現在2011年和2013年,都是被引171次,張曉林和王世偉兩位作者,都有兩篇論文入圍被引前20,表明這兩位學者研究的是圖書情報學領域的前沿問題。

表1 2011-2015年圖書情報領域被引頻次最高的20篇論文
從被引次數排名前20的論文主題來看,智慧圖書館和大數據為3篇,移動圖書館、讀者決策采購、微博、微信為2篇,數字圖書館、信息挖掘、閱讀推廣、關聯數據、知識服務、慕課分別為1篇,這些高被引論文的主題,在一定程度上,都代表著圖書情報領域當前的研究熱點。
2.3核心期刊統計分析
575篇高被引論文發表在59種不同的期刊上,其中《圖書情報工作》論文最多,有66篇。利用普萊斯公式,確定核心期刊:,取整數7,即發文7篇或以上的刊物,作為高被引論文的核心刊物,共計20種(見表2),占刊物總數的33.90%,累計發表高被引論文509篇,約占高被引論文總數的88.52%,被引篇均被引20 045次,占高被引論文總被引次數的88.75%,篇均被引39.38次,說明這20種刊物是高被引論文期刊中的絕對核心。其中,只有《現代情報》和《圖書館理論與實踐》這兩個刊物未被列入《中國人文社會科學核心期刊要覽(2013年版)》,這與實際情況相一致。

表2 2011-2015年圖書情報領域高被引論文核心期刊
2.4核心作者統計分析
575篇高被引論文共計857位作者,共計發表論文1 109人次,篇均作者1.93人次,作者合作情況見表3。合著論文308篇,占53.57%,表明高被引論文作者合作程度高。

表3 2011-2015年圖書情報領域高被引論文作者合作情況
857位作者中,參與發表論文量最高的是邱均平(9篇),同樣利用普萊斯公式,確定核心作者:,取整數3,即以發表論文3篇或以上的作者為高頻被引文獻的核心作者,共計56位,累計出現210次,占總頻次的18.94%。如前所述,合作論文比例高,作者累計被引9 188次,同一篇論文有幾個作者,被引次數就會累計幾次。因此,它包含多個作者重復計算,這遠遠高于論文被引次數。
575篇高被引論文的第一作者共463位,仍然是邱均平發文最多(9篇)。以第一作者發表論文3篇或以上的共計23人,累計以第一作者發表論文90篇,占高被引論文的15.65%,人均以第一作者發文3.91篇,累計被引4 165次,人均被引181.09次,篇均被引46.28次。
2.5核心單位統計分析
575篇高被引論文作者單位共計434家,單位累計出現794次,篇均單位1.38次,表明高被引論文單位合作緊密。出現頻次最多的是武漢大學信息管理學院,為34次,同樣利用普萊斯公式,確定發文核心單位:,取整數5,即出現5次及以上單位為高頻被引文獻的發文核心單位,共計28家,占單位數的6.45%,累計出現238次,約占單位頻次的29.97%。核心單位前五位分別是武漢大學信息管理學院、中國科學院國家科學圖書館、北京大學信息管理系、清華大學圖書館、上海圖書館。
分析2011-2015年圖情領域研究熱點,主要利用Bicomb2軟件分別得到高被引論文的核心作者共現矩陣、核心單位共現矩陣以及高頻關鍵詞共現矩陣,然后利用社會網絡分析軟件Ucinet 6.0[7]和可視化繪圖工具NetDraw[8],繪制出基于中介中心度(Betweenness)分析和K-cores分析[9]的高被引論文核心作者、核心單位、社會網絡關系圖譜。圖中圓形點代表高頻關鍵詞節點,節點越大,代表該節點在整個關鍵詞網絡中的作用越大、控制其他節點共現的能力也越強;節點之間的關系用實線連接,實線越粗,代表相互之間的關系越強[10]。K-cores分析則是通過顏色來區分關鍵詞在整個網絡中的核心程度,紅色表示節點關鍵詞在網絡中處于核心地位[11]。
3.1核心作者關系圖譜
提取核心作者的共現矩陣,繪制核心作者合作關系圖譜(見圖1)。可以看出,圖情領域高被引論文核心作者之間的合作并不緊密。最大的合作圈是以劉煒和錢國富為中心形成的,包括了8位作者,圈中多位作者與兩個中心有多次合作。只有一個4人創作團隊,三個3人團隊,兩個分別以儲節旺和鄭成銘為節點的單線合作團體,剩余6個都是兩兩合作的小團體。需要說明的是,本文僅從作者間合發論文的情況,來分析核心作者間的合作關系。

圖1 高被引論文核心作者關系圖譜

圖2 發文2篇以上的作者關系圖譜
如前文所述,575篇高被引論文,合著論文308篇,占53.57%,那么155位發文2篇以上的作者的合作情況如何呢?生成155位作者共現矩陣,繪制作者間關系圖譜(見圖2)。圖中的數字就是作者的序號(按照發文數從高低排列),圖中左側紅點,是沒有與別的作者合作的作者節點,有40位。其余115位作者,都跟其他作者有過合著論文的情況,有的還不止合作一次。這說明圖書情報領域學術交流活躍,科研合作頻繁,這與合著論文占比超過一半以上的結論是一致的。可見,學術合作對于高質量科研成果的產生極為重要。
那么,575篇高被引論文的全部857位作者之間的合作關系又如何呢?同樣提取作者共現矩陣,繪制社會網絡關系圖譜(圖3),圖書情報領域高被引論文作者間的合作關系一目了然,完全可以用縱橫交錯、紛繁復雜來形容。這充分說明,圖情領域的學術交流頻繁,作者間的合作也異常廣泛,正是由于這一點,才造就了這一領域年均近2.5萬篇學術論文的繁榮景象。
3.2核心單位關系圖譜
圖4為高被引論文核心單位關系圖譜,可以看出,高被引論文的作者單位以武漢大學信息管理學院為中心,形成了包括中國科學院國家圖書館、中國科學技術信息研究所、北京大學信息管理系和南京大學信息管理系等在內的、涵蓋2/3以上核心單位的合作關系網。從這個角度來看,武漢大學信息管理學院代表中國圖書情報教育的最高水平。此外,還有7家單位在高被引論文中,與其他單位并無合作關系。

圖3 高被引論文作者關系圖譜

圖4 高被引論文核心單位關系圖譜
上文從高被引論文的主題、期刊、作者、發文單位幾個方面,對高被引論文的核心要素進行了分析和測評,通過分析,可以得出以下結論:(1)論文的累積被引次數與發表的時間長短有關,發表時間越長,累積被引用次數越大。一般來說,被引用次數沒有的峰值出現一般至少需要一到兩年的時間。(2)被引頻次從一定程度上代表著論文和作者的學術影響力,高被引論文的主題在某種程度上代表了學科的前沿和熱點,關聯數據、知識服務、慕課、智慧圖書館、大數據、信息挖掘是圖書情報領域的前沿課題,移動圖書館、讀者決策采購、微博、微信、數字圖書館、閱讀推廣是圖書情報領域研究的熱點問題。當然,從高被引論文關鍵詞的共詞聚類的情況來分析會更加準確地反映學科熱點和發展態勢,由于文章篇幅所限,只能留作另文分析。(3)核心期刊是圖書情報領域的主要學術平臺,其刊載的論文代表了我國圖書情報領域整體的研究層次和學術水平。(4)核心作者、核心單位對圖書情報領域的影響力巨大,他們的科研成果,指引著圖書情報領域的科研發展方向;作者間的科研合作,單位間的學術交流,對科研水平的提高,有著巨大的促進作用。
[1]邱均平.信息計量學[M].武漢:武漢大學出版社,2007:192-195.
[2]劉雪立.基于Web of Science和ESI數據庫高被引論文的界定方法[J].中國科技期刊研究,2012(6):975-978.
[3]劉雪立,王兆軍.2004~2008年我國情報專題研究高被引論文的統計與分析[J].情報雜志,2010(1):64-67.
[4]鐘文娟.基于普賴斯定律與綜合指數法的核心作者測評——以《圖書館建設》為例[J].科技管理研究,2012(2):57-60.
[5]崔雷,劉偉,閆雷,等.文獻數據庫中書目信息共現挖掘系統的開發[J].現代圖書情報技術,2008(8):70-75.
[6]王佑鎂,陳慧斌.近十年我國電子書包研究熱點與發展趨勢——基于共詞矩陣的知識圖譜分析[J].中國電化教育,2014(5):4-10.
[7]卜彩麗.翻轉課堂的研究熱點、主題與發展趨勢解析——基于共詞分析的可視化研究[J].現代教育技術,2016(1):73-79.
[8]王運鋒,夏德宏,顏堯妹.社會網絡分析與可視化工具NetDraw的應用案例分析[J].現代教育技術,2008(4):85-89.
[9]姜鑫.我國微博研究主題的共詞可視化分析[J].現代情報,2013(11):108-113.
[10]肖明.知識圖譜工具使用指南[M].北京:中國鐵道出版社,2014:37-38.
[11]周志超.基于國內知識圖譜領域高被引作者的社會網絡分析[J].現代情報,2012(8):97-100.
Analysis of Highly Cited Papers in Library and Information Science Based on Price's Law
HU Li-yong
(Library of Party School of Guangdong Committee of the CPC,Guangzhou 510053,China)
According to the result of searching highly cited papers of library and information field from 2011 to 2015 in the China Academic Journal Network Publishing Database of CNKI,this paper extracts the keywords and makes statistics by Bicomb2.Using Price's law as a reference to confirm high frequency keywords of the highly cited papers,this paper makes social network analysis by SPSS,Ucinet and NetDraw to reveal the developing conditions and hot topics of library and information science.
library and information science;Price's law;highly cited;social network analysis;statistics analysis
G350
G350
A
2095-5197(2016)04-0113-05
胡利勇(1980-),男,館員,碩士,研究方向:文獻計量學、學科服務。
2016-05-25 (編發:王域鋮)