●俞 青(國家圖書館,北京 100081)
基于文獻計量分析的科研評價,主要可以從數量和質量兩個方面來進行。
論文數量指標是指個人或單位在一定時間內發表的論文總數,它主要以一些大型數據庫收錄的期刊論文作為統計源,最常用的有SCI(科學引文索引)、EI(工程索引)和ISTP(會議論文)。論文數是對科研生產力的直接反映。由于SCI論文絕大部分屬于基礎科學研究成果,因此為多數國家所認可和使用。但是,僅僅根據論文數量無法測度論文的重要性和影響力,而且SCI所收的數千種學術期刊良莠不齊,學科收錄情況也有較大差距,在期刊收錄地域上也偏重于對歐美國家期刊的收錄,如果片面強調SCI論文的收錄數量容易被某些使用者鉆空子或產生不公正。[1]
而引證數則是直接反映論文影響力的重要指標。所謂引證數即論文被引用次數,是指已發表論文在發表后的一段時間內被引用的次數之和。引證數能夠在很大程度上測度研究成果對科學發展所做的貢獻,因此比論文數指標更為客觀和準確。但是,由于各期刊的質量和影響力差別較大,使得論文引證數的分布很不對稱,存在“80/20現象”,即80%的引證數來自于20%的論文,所以這個現象是這個指標的明顯硬傷。
為了克服前兩個指標的缺陷,20世紀60年代后,文獻計量學又開發出期刊的“影響因子”指標。開發影響因子的初始目的是作為管理論文集合的一個工具,但是一經出現,就立刻被用于對科學研究成果或作者進行定量評價,而且一直主宰著文獻計量學的評價指標體系。所謂影響因子,就是先統計出期刊在連續兩年內發表的論文在隨后一年中被引用的總次數,再用這個總引證數除以該期刊在這兩年內發表的論文總數,所得結果即為影響因子。如果一個期刊的影響因子高,則它發表的論文被引用的平均次數多,也就表明該期刊的影響力大,在科學界的地位和受關注程度也就高。但對影響因子是否能夠完全反映期刊的檔次,科學界一直存在爭議。如:即使能反映,也不能把期刊的影響力和具體一篇論文的影響力等同起來;一篇發表在影響因子高的期刊上的論文很少被人引用,而一篇發表在影響因子低的期刊上的論文被高度引用的情況時有發生。
2005年赫希提出的h指數為人們進行文獻計量開拓了新的視野,并很好地解決了文獻被引次數與期刊聲望的關系問題。該指數將發表在“低影響力”期刊上的高引證數論文納入了評價體系。h指數是把論文引證數作為衡量研究工作的內在指標,而數量作為參考指標,并在這兩種指標之間取一個平衡值。具體算法是:一個人的h指數就是指他發表的所有論文中,有h篇論文分別被引用了至少h次。與傳統評價指標相比,h指數的最大優勢在于把論文數與引證數有機地聯系起來,綜合考察論文的數量和影響力。正因為如此,對于論文數量多而引證數不高的研究者,或是只有極少數高引證論文的作者,其h指數都不會高。只有論文數量較多,且多數論文具有較高引證數時,才能獲得較高的h指數。因此,用h指數評價科研人員的績效,可以遏制片面追求論文數量的不良傾向。即便如此,h指數仍存在缺陷,如不適宜對年輕學者的評價,不適宜對歷史學者的評價,且指數與研究領域關系很大,不適合跨學科比較。與SCI影響因子相比,h指數的較大優勢就是h指數不能通過自引來提高。
SCI是傳統的文獻計量工具,也是最常用的綜合性文獻計量工具,由美國科學信息研究所(ISI)于1964年正式發行,共收錄期刊3600種左右,涵蓋150多個學科領域。隨著網絡的發展,ISI開始發行網絡版SCI,即SCIE。它既是網絡版,也是擴展版,收錄的期刊數量也上升到6000種以上。它不僅可以從文獻引證的角度評估文章的學術價值,還可以迅速地組建研究課題的參考文獻網絡。發表的學術論文被SCl收錄或引用的數量,已被世界上眾多科研機構和高校作為評價學術水平的一個重要標準。ISI的另一產品JCR(期刊引證分析報告)的影響因子,常與SCIE收錄數據一起作為科研評價的參考指標。SCI不僅提供13個字段的文獻收錄檢索,而且可以從作者、來源文獻、被引年份等3條線索來查尋文獻被引用的情況。目前SCI只提供期刊文獻的收錄檢索,但引用不限于期刊文獻,會議文獻及書等的引用也可查到。[2]
SCI是基于文獻計量的分析工具,可以客觀地對科研進行分析評價。對檢索結果,SCI可以從作者、會議標題、國家/地區、文獻類型、基金資助機構、授權號、機構名稱、語種、出版年、來源出版物、學科類別等11個角度對收錄或引用情況進行分析,并根據記錄數(論文數量或引用次數)或字段形成明確的百分數及柱狀圖,可方便地了解不同情況下文獻計量的情況。除此之外,還可以提供創建引文報告的功能(10000篇以上文章的檢索不提供此功能),即對收錄的每篇文獻各年的引用情況及所有檢索到的文獻以圖表的形式一目了然地反映出收錄文獻被引用的情況。引文報告首先以柱狀圖的形式反映出每年出版的文獻數量,然后仍以柱狀圖的形式反映每年的引用情況,最后以表格的方式顯示每篇文獻各年被引用的具體數量、引用總數、及每年的平均引用次數。該表格默認以被引頻次進行排序,也可按更新日期、第一作者、來源出版物、出版年及會議標題進行排序。同時顯示被引頻次總計、每項平均引用次數、h指數等,還可點擊查看施引文獻和去除自引后的引文報告,去除自引后的引文報告所顯示的實際是不包含作者自引的其它施引文獻。
雖然SCI提供了多角度的分析,但由于收錄檢索時可檢索的字段中沒有學科分類,因此很難直接反映個人或機構在某學科的情況。只能通過主題詞來查,但主題詞不能等同于學科分類,而且SCI不提供規范的主題詞庫,所謂主題詞,也是人為給出的。另外,用SCIE去除自引,需經兩三個步驟方可實現,同時檢索時也無第一作者字段,所以對一些特殊要求的檢索不能實現。
Scopus是Elsevier于2004年底推出的號稱世界最大的綜合性文摘和引文(A&I)數據庫,所收錄的數據包含超過5000余家出版社出版的18000余種學術期刊、500余種會議錄(收錄電子工程、計算機等領域重要論文)、600種商業出版物,以及超過125種的叢書,收錄總量已經達到4100余萬條。還收錄來自全球5大專利組織的2200萬條專利摘要信息和4億條互聯網絡科技資源。Scopus數據庫收錄的學科范圍比SClE廣,而且收錄中國期刊350多種,是SCIE的4-5倍。但引文回溯年限不如SCIE長,一般只到1966年,而SCIE可回溯到1900年。Scopus沒有專門的引文檢索,需要點“Cited By”按鈕來查看具體的引用情況。但Scopus設置的檢索路徑比較多,一般檢索可從17個線索入手進行,在高級檢索選項中,更是提供了極為細致的65項檢索路徑以供檢索。通過這些細致的檢索路徑可以較為方便地對某一地區的某個學者或機構進行學科分析,也可建立以單篇文獻的“被引頻次”為核心的評價體系,來評價某一作者在特定時間、特定區域內的學科成績或該篇論文的質量。而SCI由于沒有學科檢索項,只能對已檢索出的結果進行學科限定,所以無法進行像Scopus一樣的特定作者在特定學科與區域的檢索與評價,更難進行以單篇為評價核心的檢索。同時,Scopus有第一作者檢索,而SCI沒有,只能通過對檢索結果的肉眼識別來判定。Scopus還可比較方便地對檢索結果進行排除自引,而SCI則需要比較復雜的過程才能排除自引。其他檢索與引用分析與SCI基本相同。[3]
隨著科研人群的不斷擴大及國家和相關機構對科研成果的日益重視,基于文獻計量的科研評價也越來越多地被引入各種科研評審與考核之中。以往所采用的文獻計量評價,就此兩數據庫來說,主要是對論文被收錄數量(可規定時段)及論文被引用的頻次來進行評價,頂多加上論文所載期刊的影響因子,或在被引頻次中分出他引頻次、第一作者他引頻次等,雖能比較客觀地反應具體作者或機構的論文發表數量及引用情況,但受學科及地域影響,數據有較大偏差。如針對中國大陸來說,SCIE收錄各學科的中文期刊不到百種(七八十種),Scopus雖收錄350種左右,但仍不能完全代表各學科的實際情況。所以引入其他評價指標非常必要。現就本館所做過的以文獻計量為依據進行科研評價的兩個實例進行介紹和探討。
案例一: SCI特定狀態下的作者排名
具體內容:(檢索報告)
檢索課題:某某2004-2010年發表學術論文在SCI數據庫中(diorganotin*or(organotin*)ANDantitumo*主題下的作者排名及在該類文獻總量中所占的百分比
委托單位:××××大學
委 托 人:×××
檢索工具:ScienceCitation Index Expanded(SCIE)1900-pre
檢索時間:2010年3月3日
檢 索 式:Topic=((diorganotin*)or(organotin*))AND Topic=(antitumo*)ANDYear Published=(2004-2010)
檢索結果:根據委托人提供的檢索要求,使用以上檢索式,在SCI數據庫中檢索到180篇文獻,按作者排序由系統對檢索結果進行分析,在該限定主題下×××共發表的論文12篇,按文獻記錄數排名第4,占該主題文獻總量的6.6667%。排名、百分比及12篇文獻的詳細信息詳見附件。
特此證明!
國家圖書館科技查新中心(蓋章)
2010年3月5日
上面顯示的是檢索報告的主要內容,在附件中尚有由SICE中導出的作者排名及文獻數量的百分比格式。應作者要求并附上了作者所發表的文獻題錄12篇。
從檢索策略與結果可看出,由于SCIE未提供直接學科及學科細分的檢索,只能按檢索者提供的主題詞來進行檢索,而該主題詞是否規范、有無同義詞等,都會對檢索結果有較大的影響,因此檢索報告只能進行如實描述,對該文獻計量的數據及分析對特定作者或機構在特定區域及學科或學科細類中地位的評判的參考作用就會大打折扣。
案例二:單篇文獻被引頻次的學科排名
具體內容:(檢索報告)
檢索課題:×××2006年發表的1篇學術論文在SCOPUS數據庫Earth and Planetary Sciences(地球行星科學)-EART(該主題的數據庫代碼) 主題下被引用次數排名
委托單位:××××研究所
委 托 人:×××
檢索工具:SCOPUS---1847-pre
檢索時間:2009年11月23日
檢索年限:2006-2009年
檢索式:SUBJAREA(eart)ANDAFFILCOUNTRY(china)AND(LIMIT-TO(PUBYEAR,2009)ORLIMIT-TO(PUBYEAR,2008)OR LIMIT-TO(PUBYEAR,2007)OR LIMIT-TO(PUBYEAR,2006))
檢索結果:根據委托人提供的論文要求,使用以上檢索式,在SCOPUS數據庫中檢索到46984篇文獻,其中×××發表的論文“××××××………”被引用49次,在檢索到的論文中按被引次數排在第24位(詳見附件1),經過對排名前24名論文作者單位的核實,該論文被引情況在第一作者單位為中國大陸地區的論文中排名第13位(詳見附件2)。
特此證明!
國家圖書館科技查新中心(蓋章)
2009年11月23日
該檢索需求的起因是Scopus在2009年初在中國的“科學網”上推出的中國大陸各學科單篇文獻被引次數排名前20名的活動。檢索委托者的同事被列入大陸地區某學科的前20名榜單中,并對績效評估產生了直接的影響。本例檢索所查的主題范圍為數據庫提供的規范主題,以數據庫給出的主題代碼作為主要檢索詞,并限定區域與年限,在高級檢索中進行檢索,對檢索結果采用“Cited By”按鈕進行排序,最終得出結論。同理,可根據需求設定不同的檢索策略,得出不同的檢索結果,由于數據庫提供了多達65個檢索入口,并對每個檢索條件進行了說明與舉例,而且重要的檢索條件均進行了規范化,使得檢索結果更加可信,進行的排序的基數也更大。從上兩例我們不難看出,第一例所設定的主題在2004到2010年間,只檢出文獻180篇,而第二例檢出的文獻數是46984篇,且限定了國家為China,第一例則未做此限定。雖然兩例所檢主題范圍相去甚遠,但至少可看到第二例的主題范圍要較第一例的主題范圍大的多,因此,第二例所進行的文獻計量在特定主題、特定區域、特定時段的檢索效果,要好于第一例。當然,第一例以一定時段發表的文獻數量作為文獻計量評價參數,而第二例則以單篇文獻的引用次數為文獻計量參數,所以沒有真正的可比性,但從兩例仍可看出檢索及檢索結果的方便與否。由于Scopus可限定區域、可對規范化主題等進行檢索,所以也可像第一例一樣以文獻數量進行排序,但屬于自然排序,不具備SCI分析后的正式格式。因此,在對發表的文獻數量進行分析的功能上,Scopus弱于 SCI。
以文獻計量來評價科研成就,通過對發表文獻數量的計量及影響因子來參考評價科研量,通過對發表文獻的引用情況、引用分析來評定文獻的質量,是一般通行的做法。近幾年更是引進了h指數來進一步評價科研情況,該指數把割裂的文獻數量與引用次數組合起來給出了綜合性的文獻計量參數。但目前國內通過文獻計量對科研的評價,仍以傳統方法為主,利用具有引文分析的檢索工具除對文獻數量及引用資料進行借鑒外,也同時利用分析數據的不多。建議大專院校、科研院所對自身科研人員及機構的文獻評價,不再局限于文獻數量及引用次數兩組簡單的數字上,而應把引用分析、文獻數量排名分析及h指數等也綜合納入科研評價體系,同時,在特定的時段內,借鑒并利用構筑的以單篇文獻“被引頻次”的評價體系,實際上,Scopus近幾年一直在發布以單篇文獻被引次數為主要依據的“季度熱點文獻”榜,可按學科查至2004年下半年。
[1]劉輝峰.h指數與科研評價的新視野[J].中國科技論壇,2008(5):24-27.
[2]傅立云,等.SCIE和Scopus引文功能的評價分析 [J].高校圖書館工作,2009(6):54-56.
[3]張玲,鼻曉鵬.Scopus在情報研究與科研評價中的應用[J].數字圖書館論壇,2009(10).