陳斯斯+邱宇紅+許丹+徐爽+韓爽
摘要:[目的/意義]構建一個利用ESI和InCites進行機構對標分析的模式,為全方位、量化公開的對比分析對標機構的國際發文表現,提供一個可行的途徑。[方法/過程]利用ESI、InCites發文數量、被引頻次以及學科規范化的引文影響力指標,根據作者對文獻貢獻力的不同,提出機構全部發文、主導發文、參與發文三個概念,提出衡量機構發文實力的新指標——參與影響率。對兩所國際發文排名實力相當的機構總體發文、所屬作者、合作機構、發文期刊模塊進行對標分析。[結果/結論]本文使用的用于描述機構發文數量的指標是發文數量,描述機構發文質量的有學科規范化的引文影響力、高被引論文。結果顯示,A高校發文數量占優,總體被引頻次占優,B高校發文質量占優。所屬作者數據分析結果顯示,B高校所屬頂尖作者的國際發文影響力較大,排名較靠前。合作機構數據分析結果顯示,B高校最佳合作機構的合作雙方收獲效益更高,雙方通過合作使得國際排名更靠前。發文期刊模塊分析顯示,B高校的發文期刊影響因子水平居上,這可能是其發文質量占優的一個主要原因。
關鍵詞:ESI InCites 主導發文 參與影響率 學科規范化的引文影響力
分類號:G250
引用格式:陳斯斯, 邱宇紅, 許丹, 等. 利用ESI和InCites數據庫進行機構對標分析[J/OL]. 知識管理論壇, 2017, 2(4): 304-317[引用日期]. http://www.kmf.ac.cn/p/1/150/.
1 引言
自2012年起,國內眾多機構引進了基本科學指標數據庫(Essential Science Indicators,ESI)[1]和InCites[2]兩個數據庫,對機構的十年期國際發表論文(文獻類型為Article和Review)進行分析。ESI數據庫是一個基于Web of Science數據庫分析型研究工具,用來衡量科學研究績效、跟蹤科學發展趨勢,ESI數據庫僅收錄Web of Science核心合集(SCI/SSCI)收錄的期刊,且文獻類型為Article和Review,提供最近10多年的滾動數據。InCites數據庫中集合了近30年來Web of Science核心合集七大索引數據庫的數據,擁有多元化的指標和豐富的可視化效果。 探究國內學者關于ESI和InCites的相關論文,大致可分為4類:①機構發文情況統計分析[3-4],如全國性、省市級的,其研究目的在于分析某一區域內進入ESI的入圍情況;②預測分析[5],通常是科研機構潛力學科預測;③對比分析[6],如國內國外的一組機構進行對比,全國不同區域的對比分析;④對發文期刊或者發文作者等InCites模塊的統計分析[7-8]。
利用ESI和InCites兩個數據庫做論文產出分析,目的是得到一個量化的、客觀的、可對比的分析結果。然而,現有的研究中還存在一些問題:①使用的分析指標較少;②絕大部分作者默認了ESI和InCites設定的作者不論排名順序貢獻力相等這一前提,沒有對作者的貢獻力做進一步區分;③缺少對兩個具體機構進行對標分析,即缺少針對性的機構競爭力分析。
ESI和InCites數據庫提出了眾多對比性的指標,如學科基準值、百分位、學科規范化的引文影響力、期刊規范化的引文影響力、相對于全球平均水平的影響力等,這些對比性的指標能夠量化機構的發文成果。公開的、易獲得的、量化的機構成果分析,使機構對標分析的效果顯著。機構的對標分析對各種資源分配具有客觀的指導作用。筆者認為機構對標分析將成為相關人員使用ESI和InCites數據庫的主要工作內容。
筆者根據作者對文獻貢獻力的不同,提出機構全部發文、主導發文、參與發文三個概念,提出衡量機構發文實力的新指標——參與影響率。結合ESI和InCites發文數量、被引頻次以及學科規范化的引文影響力指標,對實力相近的兩所醫學院校的總體發文、所屬作者、合作機構、發文期刊模塊進行對標分析,認定機構的優勢學科,探討機構國際發文競爭力提升的關鍵問題。
2 工具和方法
筆者使用ESI數據庫2016年更新的數據,統計文獻時間跨度為2006年至2016年。進入ESI主頁,選擇數據指標菜單,在左側檢索欄限定檢索結果為研究領域,篩選條件選擇機構,輸入A/B大學的英文名稱,將檢索結果以XLS的格式下載到本地。本文3.1和3.2均利用以上方法檢索得出的數據進行對比分析。
進入InCites主頁,選擇分析菜單,分別進入人員、機構、研究方向、期刊以及圖書、會議錄文獻四個模塊進行具體分析。在左側檢索欄數據集設定為InCites Dataset,篩選條件均設置機構名稱輸入A/B大學,為了和ESI的統計時間和統計文獻類型保持一致,筆者將InCites時間限定為2006年至2016年,文獻類型限制為Article和Review。將檢索結果以CSV的格式下載到本地進行對比分析。本文3.1主要利用機構模塊分析數據;3.3利用研究方向模塊分析數據;3.4利用人員模塊分析數據;3.5利用機構模塊分析數據;3.6利用期刊、圖書、會議錄文獻模塊分析數據。
筆者通過對從InCites數據庫中下載的兩校發文進行分析,區分得出通訊作者或者第一作者的發文。將通訊作者或者第一作者的發文WOS號,輸入到Web of Science進行高級檢索,將檢索結果保存到InCites。進入InCites,改變數據集設定,改為檢索結果數據集,重復上述InCites檢索方法,獲取兩校通訊作者或者第一作者的數據進行具體分析。
3 結果分析
3.1 國內醫學院校的國際發文排名情況
中國進入世界前1%的機構數為606個,提取獨立設置的醫學院校27個。由于綜合性大學醫學院部的發文產出不能作為獨立機構被ESI數據庫統計得出,筆者統計這27所醫學院校在ESI 22個學科的產出情況。將每個院校的學科按照其發文被引次數由高到低排序,截取累積被引次數占總被引次數百分比達到90%的學科,得出9個學科,具體是:生物學與生物化學27次,臨床醫學26次,藥理學與毒理學25次,分子生物與遺傳學23次,神經科學與行為學19次,化學12次,工程學1次,材料科學1次,微生物學1次。取出現次數大于18次的5個學科,利用InCites數據庫查詢這5個學科在中國大陸的學術機構發文情況。結果得出,共計428個學術機構在這5個學科里有所貢獻,將428個機構按被引頻次由高到低排序,截取累積被引頻次占總被引頻次34%(約1/3)為第一區間。依次截取之后的33%(約1/3)為第二區間,剩余機構自動劃為第三區間。endprint
第一區間有上海交通大學、北京大學、復旦大學、中山大學、浙江大學、四川大學、華中科技大學、首都醫科大學,共8個。第二區間有山東大學、南京醫科大學、第二軍醫大學、第四軍醫大學、中南大學、清華大學、南京大學、武漢大學、中國醫科大學、第三軍醫大學、哈爾濱醫科大學、蘇州大學、西安交通大學、同濟大學、南方醫科大學、天津醫科大學、吉林大學、重慶醫科大學、中國農業大學、中國科學技術大學、東南大學、北京師范大學、南開大學,共23個,處于第二區間中間位置。第三區間共計397個,前十位為溫州醫科大學、安徽醫科大學、廈門大學、鄭州大學、中國醫藥大學、沈陽藥科大學、暨南大學、華中農業大學、廣州醫學院、南京農業大學。
筆者選取實力相近的A高校(位列第六)和B高校(位列第八)兩所院校進行對標分析。
3.2 兩校InCites概況
首先利用ESI數據庫查詢兩校進入全球前1%的情況。A高校進入全球1%的學科數為4個,B高校為3個。A高校的發文數量、被引頻次、頂尖論文、世界排名以及中國排名占優,篇均被引頻次較低。如表1所示:
InCites學科規范化的引文影響力[9](Category Normalized Citation Impact,CNCI)是一個十分有價值且無偏的影響力指標,它排除了出版年、學科領域與文獻類型的影響,因此使用它可以進行不同規模、不同學科混合的論文集的比較。如果CNCI的值等于1,說明該組論文的被引表現與全球平均水平相當;CNCI大于1,表明該組論文的被引表現高于全球平均水平;CNCI小于1,則表明該組論文的被引表現低于全球平均水平;CNCI等于2,表明該組論文的平均被引表現為全球平均水平的2倍。
考慮到文獻第一作者和通訊作者的貢獻力在全部作者中較大,筆者對機構發文進行區分: ①有機構所屬人員參與的發文,即全部發文; ②機構所屬人員為第一作者或者通訊作者的發文,稱為主導發文;③機構所屬人員不為文獻的第一作者或通訊作者的發文,稱為參與發文。全部發文數量=主導發文數量+參與發文數量。
筆者在區分三種發文的基礎上提出參與影響率(P),將參與發文對全部發文在具體指標表現的影響量化,如某機構全部發文被引頻次為N,參與被引頻次為M,那么被引頻次的參與影響率P=N/M*100%。參與影響率越大,說明某機構參與發文對該機構全部發文在該指標的表現影響越大。筆者對部分指標計算參與影響率,如發文數量、學科規范化的引文影響力和高被引論文,結果見表2。
A高校全部發文和主導發文在發文數量和被引頻次均占優,B高校在學科規范化的引文影響力方面均占優。對于高被引論文A高校全部發文占優,主導發文較低。A高校的參與影響率除發文數量以外,其余指標的參與影響率均大于B高校。
3.3 兩校優勢學科
學科閾值(ESI Thresholds)[10]主要是指近10年,某一ESI學科被引次數排在前1%的作者和機構,或排在前50%的國家或期刊的最低被引次數。學科閾值、機構某學科的被引頻次、該學科被引頻次與學科閾值的比值(下文簡稱“閾值比值”)情況如表3所示:
A高校除進入前1%的4個學科外(臨床醫學、神經科學與行為學、生物學和生物化學、藥理學和毒理學),分子生物學和遺傳學以及免疫學閾值比值得分位列1、2。B高校除進入的3個學科外(臨床醫學、生物學與生物化學、藥理學與毒理學),分子生物學和遺傳學以及神經科學與行為學閾值比值得分位列1、2。筆者認為臨床醫學、神經科學與行為學、分子生物學和遺傳學、生物學和生物化學、藥理學與毒理學、免疫學,為兩校的既定與潛在優勢學科。
筆者對兩校全部發文及6個既定與潛在優勢學科的全部發文和主導發文數量、被引頻次以及學科規范化的引文影響力3個指標10年(2006年-2015年)發展情況繪制趨勢圖,見圖1-圖21。
A高校發文數量及被引頻次占優,B高校學科規范化的引文影響力占優。對比分析可以得出,A高校的數量優勢學科有臨床醫學、神經科學與行為學、藥理學和毒理學以及免疫學。B高校的數量優勢學科有分子生物學和遺傳學。A高校的影響力優勢學科包括免疫學,B高校的影響力優勢學科包括臨床醫學和生物學與生物化學,兩校表現較為一致的學科為藥理學與毒理學。另外,兩校6個學科全部發文和主導發文數量均逐年提高,臨床醫學、神經科學與行為科學、藥理學與毒理學的發文影響力總體呈上升趨勢。分子生物學和遺傳學的論文影響力在2006年和2007年達到高峰之后,經2008年下跌后,逐年上升。
3.4 兩校所屬作者發文分析
兩校全部發文和主導發文所屬作者按照發文數量分布情況見表4。
兩校全部發文和主導發文所屬作者按照發文被引頻次分布情況見表5。
對于全部發文和主導發文的所屬作者發文數量分布,A高校在100及以上、10-99區間分布人數占優;對于所屬作者發文被引頻次分布,B高校全部區間均占優。
筆者提取兩校所屬作者全部發文被引頻次500及以上區間的前10位作者,稱為兩校全部發文頂尖作者,見表6。
筆者提取兩校所屬作者主導發文被引頻次500及以上區間的前10位作者,稱為兩校主導發文頂尖作者,如表7所示:
在全部發文和主導發文頂尖作者方面,B高校被引頻次、影響力、高被引論文均數占優;A高校發文數量均數占優。
3.5 兩校合作機構發文分析
A高校全部發文數為8 517篇,主導發文數量為6 484篇;B高校全部發文數為7 207篇,主導發文論文數量為5 119篇。合作率指本機構合作發文占本機構全部發文的百分率,表示機構的合作程度。B高校在全部論文和主導論文的國內國外合作率方面占優,如表8所示:
兩校全部發文和主導發文合作機構按照發文數量分布情況,如表9所示:endprint
兩校全部發文和主導發文合作機構按照發文被引頻次分布情況,如表10所示:
對于全部發文和主導發文合作機構發文分布,B高校50及以上分布機構數占優;對于合作機構被引頻次分布,B高校500及以上分布機構數占優。在全部發文合作機構發文被引分布500及以上的機構數方面,兩校差距約550個,B高校平均被引仍占優。
筆者提取兩校合作機構全部發文被引頻次500及以上區間的前10機構,稱為兩校全部發文最優合作機構,如表11所示:
筆者提取兩校合作機構主導發文被引頻次排名前10的機構,稱為兩校主導發文最優合作機構,如表12所示:
B高校在全部發文最優合作機構被引頻次、影響力均數方面占優,A高校在發文數量、高被引論文均數方面占優。B高校在主導發文的全發文數量、高被引論文及影響力均值占優。
3.6 兩校發文期刊影響因子分析
IF取值來源為2015年Journal Citation Reports(JCR),若未查到,選取最近一年JCR的影響因子值。按照期刊影響因子大于6、介于3和6之間和小于3,將發文期刊的影響因子分為3個區間段,即高、中和低水平段。兩校全部發文和主導發文影響因子分布情況,如表13所示:
A高校的高水平段發文參與影響率均值為0.7,B高校為0.63。中低水平段發文參與影響率均值不足0.4。對兩校全部發文和主導發文發文期刊影響因子分區做2006-2015年發展趨勢圖,見圖22-23。
如圖3和表13所示, A高校與B高校發文期刊3個水平段的文獻數量均逐年遞增。在高水平段,B高校自2010開始占優,10年總體數量高于A高校。在中水平段,每年的發文數量兩校交替占優勢,10年總體數量B高校占優。在低水平段,A高校每年的發文數量和10年總體數量居上。
對兩校全部發文和主導發文發文期刊影響因子分區占比做發展趨勢圖,見圖24-25。
如圖4和表13所示,對于兩校全部發文和主導發文的高水平段占比,B高校自2010年開始居上,10年總體占比占優。B高校與A高校在中水平段的文獻占比呈現出增長的趨勢,B高校自2011年開始占優,上升趨勢更加明顯,10年總體占比高于A高校。B高校與A高校低水平段的文獻占比有所降低,A高校自2011年居上,10年總體占居上。兩校發文期刊低水平段占比均較大。
4 討論
筆者使用的指標有發文數量、被引頻次、學科規范化的引文影響力以及高被引論文。以上指標用于描述機構發文數量的有發文數量,描述機構發文質量的有學科規范化的引文影響力、高被引論文。發文質量實質上指發文影響力,質量越高表明影響力越大。另外,發文質量是一個均值,表示發文的平均影響力。被引頻次指標涉及了發文數量和發文質量,是一個綜合指標,被引頻次影響國際排名。筆者提出參與影響率這一引申指標,認為機構主導發文能力能夠更加真實地體現機構的科研發文實力,即不借助“外力”的情況下,機構的科研論文產出能力。參與影響率是衡量機構參與發文對機構全部發文指標的影響程度,即機構ESI/InCites指標表現借助“外力”的程度。
本文的研究結果表明:① A高校進入全球前1%學科數比B高校多一個,全部學科及進入ESI學科的ESI排名較靠前。②兩校InCites指標顯示,A高校全部發文和主導發文的發文數量占優,被引頻次居高。B高校全部發文和主導發文的發文質量占優。參與論文對A高校發文質量影響較大,對B高校發文數量影響較大。③兩校在臨床醫學、神經科學與行為學、分子生物學和遺傳學、生物學和生物化學、藥理學與毒理學、免疫學方面的發文數量或質量呈上升狀態,近10年發展較為樂觀。
所屬作者模塊的分析是對標機構競爭力分析的核心內容。人才是一個機構最為靈活的競爭力構成,對機構的分析實質上是對機構人才的分析。本文對標機構的所屬作者分析顯示,在全部發文和主導發文方面,兩校所屬人員分布情況表現一致:A高校在數量上占優,B高校在質量上占優。B高校在綜合指標被引頻次上占優。在全部發文和主導發文頂尖作者方面A高校數量占優,B高校質量占優,B高校在被引頻次上占優。這意味著,B高校所屬頂尖作者的國際發文影響力較大,排名較靠前。
合作機構模塊分析涉及到當代學術領域提倡的合作精神。本文對標機構的合作機構分析顯示,在全部發文和主導發文方面,B高校的合作率均較大。合作機構發文數量和被引頻次分布,B高校全部論文的合作情況是發文數量和被引頻次均在50及以上分布段領先。B高校主導論文的合作情況是發文數量和被引頻次在500及以上、10-499水平段領先,說明其合作較深入的機構數量占優。對于全部發文合作機構發文被引分布500及以上的機構數,兩校差距約550個,B高校在平均被引上仍占優,說明B高校全部發文合作機構對其發文質量的影響積極。對于主導發文最優合作機構,B高校的數量、質量、被引頻次均占優。對于全部發文最優合作機構,A高校數量占優,B高校質量占優,B高校在被引頻次上占優。同樣意味著,B高校最佳合作機構的合作雙方收獲效益更高,雙方通過合作使得國際排名更靠前。
影響因子是國內眾多學術領域關注的問題。絕大多數機構認定,影響因子高的期刊刊載的論文更有價值。本文對標分析的兩個機構,B高校全部發文與主導發文均是高、中水平段占優。對于全部發文和主導發文占比情況,兩校在中水平段逐年提升,在低水平段雖然占比過6成,但有下降的趨勢;在高中水平段B高校占優,且參與發文對總體發文期刊影響因子在6以上的分布影響率達到70%。B高校的發文期刊水平居上,這可能是其發文質量占優的一個主要原因。因此筆者認為提倡向影響因子較高的期刊投稿,是提升機構發文質量的一個途徑。
在未來的工作中,筆者計劃進一步對機構對所屬作者進行分析,引入更多合適的ESI、InCites指標,針對性地解決人才引進、機構人員績效分析的問題。endprint
參考文獻:
[1] Essential Science Indicators[EB/OL]. [2016-11-05]. http://ipscience-help.thomsonreuters.com/InCitesLiveESI/ESIGroup/overviewESI.html.
[2] InCites help[EB/OL]. [2016-11-05]. http://ipscience-help.thomsonreuters.com/InCites2Live/overviewGroup/overviewInCites.html.
[3] 劉虹, 徐嘉瑩. 上海市高校學科國際影響力評價——基于InCites數據庫學科映射的文獻計量分析[J]. 復旦教育論壇, 2014, 12(4): 29-34.
[4] 梁木生, 王秉中. 中國高等院校進入ESI前1‰學科分析研究[J]. 圖書館工作與研究, 2016(5): 71-77.
[5] 顧東蕾, 武瑩, 邱家學, 等. 基于WOS的學科發展預測研究[J]. 現代情報, 2014, 34(6): 32-40.
[6] 何培, 鄭忠, 何德忠, 等. C9高校與世界一流大學群體學科發展比較——基于ESI數據庫的計量分析[J].學位與研究生教育, 2012(12): 64-69.
[7] 張莉, 朱慶華, 徐孝娟. 國際科技人才成長特征及演變規律分析——基于文獻計量的分析[J]. 情報雜志, 2014, 33(9): 64-71.
[8] 顧東蕾, 邱家學. 基于ESI的中日俄韓科技期刊競爭力比較研究[J]. 中國科技期刊研究, 2014, 25(12): 1504-1508.
[9] Category Normalized Citation Impact[EB/OL]. [2016-11-05]. http://ipscience-help.thomsonreuters.com/InCites2Live/indicatorsGroup/aboutHandbook/usingCitationIndicatorsWisely/normalizedCitationImpact.html.
[10] Citation Thresholds- ESI Threshold[EB/OL]. [2016-11-05]. https://esi.InCites.thomsonreuters.com/ThresholdsAction. action.
作者貢獻說明:
陳斯斯:論文設計與撰寫,數據分析,圖表制作;
邱宇紅:數據統籌分析;
許 丹:數據下載預處理;
徐 爽:數據下載預處理;
韓 爽:論文設計與修改。
Abstract: [Purpose/significance] This paper aims to build a model for benchmarking analysis of two institutions by using ESI and InCites databases. It provides a feasible approach for comprehensive, quantitative and public comparison and analysis of the international delivery performance of benchmarking institutions. [Method/process] We used the index provided by ESI and InCites, including Web of Science documents, citation times, category normalized citation impact. According to the different literature contribution, we proposed three new concepts, all documents, leading documents and not-leading documents. We put forward a new index—participation rate to measure the paper competitiveness of the agencies. We compared the general paper competitiveness, the affiliated author, the cooperative organization and the publication of journals of two universities. [Result/conclusion] In this paper, Web of Science documents are used to describe the quantity of the document issued by the organization. The category normalized citation impact and citation times are used to describe the quality of the document issued by the organization. For A university, the number of documents is dominant, and for B university quality is dominant. According to the authors data analysis, Bs top authors of international publications have greater influence, ranking in the front row. According to the data analysis of the cooperation institution, the cooperation between the best cooperation institutions in B is more efficient, and the cooperation between the two sides makes the international ranking more advanced. It is the main reason for the quality of published papers of B university that the impact factors of the periodicals where papers of B university published are much higher.
Keywords: ESI InCites leading documents participation rate category normalized citation impactendprint