[摘要] 分析Schubert- Glanzela期刊h指數(shù)模型可能存在的問(wèn)題,通過(guò)實(shí)際統(tǒng)計(jì)回歸得出期刊h指數(shù)經(jīng)驗(yàn)?zāi)P停ㄟ^(guò)實(shí)例驗(yàn)證其模型的準(zhǔn)確性。在分析模型變化規(guī)律的基礎(chǔ)上,對(duì)模型進(jìn)行修正與描述。通過(guò)實(shí)例驗(yàn)證,指出經(jīng)驗(yàn)?zāi)P蛯?duì)機(jī)構(gòu)h指數(shù)同樣具有較高的解釋力度。
[關(guān)鍵詞] 期刊h指數(shù) 經(jīng)驗(yàn)?zāi)P?機(jī)構(gòu)h指數(shù) 驗(yàn)證
2005年美國(guó)物理學(xué)家赫希 (J. E. Hirsch) 提出了主要用于評(píng)價(jià)科學(xué)家個(gè)人學(xué)術(shù)成就的一項(xiàng)新指標(biāo)——h指數(shù) (h-index)。該指標(biāo)一經(jīng)提出,便迅速得到國(guó)際科學(xué)界的高度關(guān)注,成為科學(xué)計(jì)量學(xué)與科學(xué)評(píng)價(jià)領(lǐng)域的國(guó)際熱點(diǎn)問(wèn)題。匈牙利信息科學(xué)與計(jì)量學(xué)研究中心、《科學(xué)計(jì)量學(xué)》(Scientometrics) 主編布勞恩 (T. Braun) 等人將h 指數(shù)加以擴(kuò)展并應(yīng)用于期刊影響力評(píng)價(jià)中 , 創(chuàng)立了期刊 h 指數(shù),即: 對(duì)于一種期刊, 如果它發(fā)表的全部論文中有h篇文章 , 每篇被引用數(shù)至少為 h,同時(shí)要滿足這個(gè)自然數(shù)為最大,那么該值即為該期刊的h指數(shù)[1]。A. Schubert與W. Glanzela在假設(shè)期刊文獻(xiàn)被引分布規(guī)律遵循Lotka定律的基礎(chǔ)上,推導(dǎo)出期刊h指數(shù)與載文量、篇均被引量的理論數(shù)學(xué)模型,如公式(1)所示:
…………(1)[2]
(h為h指數(shù),c為常數(shù),N為載文量,IF為影響因子,S為篇均被引量,a為L(zhǎng)otka指數(shù))
并設(shè)Lotka指數(shù)a=2時(shí),對(duì)其進(jìn)行了驗(yàn)證,驗(yàn)證結(jié)果常數(shù)c約為0.75,且不存在學(xué)科差異。公式中涉及了載文量(N)、影響因子(IF)與h指數(shù)3個(gè)指標(biāo)量,影響因子代表了期刊論文的質(zhì)量,因此,該公式巧妙地將期刊h指數(shù)和載文數(shù)量與質(zhì)量聯(lián)系在一起,極富創(chuàng)意地解釋了期刊h指數(shù)的內(nèi)涵。但公式在推導(dǎo)過(guò)程中畢竟經(jīng)過(guò)了多次的近似轉(zhuǎn)換,尤其是公式中的常數(shù)c的取值,筆者也認(rèn)為是1,從理論上來(lái)說(shuō)也應(yīng)該為1(當(dāng)N=1、IF=1時(shí),h=1),但作者在驗(yàn)證時(shí)得出常數(shù)c的取值約為0.75。筆者在仔細(xì)分析作者的驗(yàn)證結(jié)果后認(rèn)為常數(shù)c小于1的結(jié)果是對(duì)載文量(N)或篇均引文量(S)的冪總體上高估了,為此,筆者從實(shí)例統(tǒng)計(jì)出發(fā),力求對(duì)公式(1)作出修正,使得模型與實(shí)際誤差更小、更精確。
1 期刊h指數(shù)模型的實(shí)證與驗(yàn)證
筆者利用《中國(guó)引文數(shù)據(jù)庫(kù)》作為統(tǒng)計(jì)源,利用《中國(guó)期刊全文數(shù)據(jù)庫(kù)》中的期刊導(dǎo)航分類目錄,按類統(tǒng)計(jì)不同專業(yè)不同時(shí)間段載文量及分別至統(tǒng)計(jì)時(shí)的被引量與h指數(shù),并以公式(2)回歸。
…………(2)
先后共統(tǒng)計(jì)回歸了45個(gè)不同樣本,回歸結(jié)果均遵循公式(2),這說(shuō)明公式(1)中的常數(shù)確實(shí)為1,根據(jù)公式(1)可知N與S的冪的和為1( ,對(duì)45個(gè)樣本回歸結(jié)果為:0.997< <0.804,均小于1,平均約在0.9左右,這充分說(shuō)明了公式(1)在推導(dǎo)過(guò)程中,由于經(jīng)過(guò)多次的近似轉(zhuǎn)換,使得N與S的冪比實(shí)際的大,在驗(yàn)證時(shí),使得常數(shù)c小于1。各類統(tǒng)計(jì)樣本回歸的 與 有一定的差別,但也有一定的規(guī)律性,通過(guò)對(duì) 與 直線回歸后得到如下結(jié)果:
…………………… (3)
…………(4)
……………… (5)
為了驗(yàn)證所得模型的準(zhǔn)確性,分別取 為0.32、0.33、0.34、0.35、0.36, 分別為0.688、0.635、0.582、0.529、0.476,對(duì)所統(tǒng)計(jì)的樣本逐一驗(yàn)證,并與公式(1)(a=2)對(duì)比,為了能夠清楚地表達(dá)模型的準(zhǔn)確性,本文使用統(tǒng)計(jì)學(xué)中的解釋力度概念:
………… (6)
(h表示實(shí)際統(tǒng)計(jì)的h值, 表示模型估算的h值, 表示實(shí)際統(tǒng)計(jì)的h值平均數(shù))
以《中國(guó)期刊全文數(shù)據(jù)庫(kù)》中導(dǎo)航目錄提供的數(shù)學(xué)類目錄為樣本,載文時(shí)間為2000-2001年,統(tǒng)計(jì)時(shí)間為2010年6月17日,如表1所示。
驗(yàn)證結(jié)果為: , ,即公式(3-5)對(duì)統(tǒng)計(jì)樣本的解釋力度為97.80%,公式(1)在c=1、a=2時(shí)對(duì)統(tǒng)計(jì)樣本的解釋力度為78.28%,取c=0.82時(shí),公式(1)的解釋力度為92.56%,這時(shí)已接近最大值。其他樣本驗(yàn)證結(jié)果基本一致,公式(3-5)在 取不同的值時(shí),對(duì)其他44個(gè)統(tǒng)計(jì)樣本的解釋力度均大于公式(1)在c取最佳值時(shí)的解釋力度,且均大于92%。結(jié)果表明,公式(3-5)對(duì)各種學(xué)科及不同時(shí)間段的期刊h指數(shù)均有更高的解釋力度,模型具有較高的可信度。
2 對(duì)公式(3-5)的解讀與驗(yàn)證
為了直觀地表達(dá)公式(3-5)在 取不同值時(shí)的變化,筆者設(shè)N=1 000,S分別取0.1-10.1,再分別以 取0.32、0.33、0.34、0.35、0.36, 分別取0.688、0.635、0.582、0.529、0.476,通過(guò)這5組數(shù)據(jù)分別計(jì)算h值,結(jié)果如圖1所示。圖中系列1- 5分別表示 取0.32-0.36。
從圖1可以清楚地發(fā)現(xiàn),當(dāng)S在3.5-3.7之間、h在20-25之間時(shí),5組曲線基本重疊,在S<5時(shí),差異較小,當(dāng)N取值增大時(shí),重疊點(diǎn)的S值也相應(yīng)增加,當(dāng)N每增加1 000時(shí),交叉點(diǎn)的S值約增加0.2-0.3,反之當(dāng)N取值減小時(shí),重疊點(diǎn)的S值相應(yīng)減小,因此,對(duì)于S較小的統(tǒng)計(jì)樣本, 取值變化對(duì)解釋力度影響并不明顯,對(duì)于S值比較大的統(tǒng)計(jì)樣本, 取值變化對(duì)解釋力度影響比較明顯。基于上述分析可以做出如下解讀:①在統(tǒng)計(jì)樣本回歸時(shí),如果S值較小,很小的隨機(jī)誤差就可能使得回歸所得的系數(shù)發(fā)生變化,如果S較大時(shí),回歸系數(shù)變化較小,但統(tǒng)計(jì)的樣本中由于樣本量本身不大,而S值較大的樣本只是整個(gè)樣本中極少數(shù),這使得隨機(jī)誤差很可能向同一方向偏離,使回歸系數(shù)發(fā)生變化。筆者認(rèn)為這是統(tǒng)計(jì)樣本無(wú)法得到統(tǒng)一方程的主要原因。②在對(duì)統(tǒng)計(jì)樣本進(jìn)行驗(yàn)證時(shí),決定 取值的主要是S值較大的點(diǎn)。③對(duì)于樣本量較小,少數(shù)S值又較大的樣本,由于隨機(jī)誤差使得h值同時(shí)偏向一方,使 的取值發(fā)生變化,但如果是一個(gè)大樣本, S值較大的樣本數(shù)量較多,同時(shí)偏向一方的可能性極小,應(yīng)該是在中間值上下正態(tài)分布,所以,樣本驗(yàn)證時(shí)的最佳 的取值為中間值0.34。因此,可以認(rèn)為 取值范圍是由于統(tǒng)計(jì)樣本較小,隨機(jī)誤差造成的,實(shí)際 的取值應(yīng)該是0.34,即期刊h指數(shù)(h)與載文數(shù)量(N)、篇均被引量(S)的曲線為:
…………(7)
為了進(jìn)一步驗(yàn)證上述推斷,以《中文社會(huì)科學(xué)引文索引(CSSCI)》2010-2011年來(lái)源期刊中經(jīng)濟(jì)學(xué)期刊目錄為統(tǒng)計(jì)樣本,通過(guò)《中國(guó)引文數(shù)據(jù)庫(kù)》分別統(tǒng)計(jì)不同載文時(shí)間段載文量及至2010年7月18日的被引量與h指數(shù),統(tǒng)計(jì)樣本驗(yàn)證結(jié)果如表2所示。
再以2008年《中文核心期刊要目總覽》中提供的作物、植保、林業(yè)、園藝、畜牧、水產(chǎn)類共80種農(nóng)業(yè)期刊為統(tǒng)計(jì)目錄,通過(guò)《中國(guó)引文數(shù)據(jù)庫(kù)》分別統(tǒng)計(jì)不同載文時(shí)間段載文量及至2010年7月20日的被引量與h指數(shù),統(tǒng)計(jì)樣本驗(yàn)證結(jié)果如表3所示。
以《中國(guó)引文數(shù)據(jù)庫(kù)》提供的高被引期刊統(tǒng)計(jì)表(統(tǒng)計(jì)時(shí)間為2010年6月10日),共提供了4 268種自然科學(xué)類期刊從收錄年起的載文量、被引量與統(tǒng)計(jì)時(shí)的h指數(shù),驗(yàn)證結(jié)果為:
=0.34, =0.582,
驗(yàn)證結(jié)果表明上文的推斷基本正確,以2008年《中文核心期刊要目總覽》中提供的作物、植保、林業(yè)、園藝、畜牧、水產(chǎn)類共80種農(nóng)業(yè)期刊為統(tǒng)計(jì)樣本,與以《中國(guó)引文數(shù)據(jù)庫(kù)》提供的高被引期刊統(tǒng)計(jì)表提供的4 268種自然科學(xué)類期刊樣本均以 =0.34時(shí)解釋力度最高,以《中文社會(huì)科學(xué)引文索引(CSSCI)》2010-2011年來(lái)源期刊中經(jīng)濟(jì)學(xué)期刊目錄為統(tǒng)計(jì)樣本最高解釋力度時(shí) 的取值與統(tǒng)計(jì)時(shí)的載文時(shí)間段存在明顯的相關(guān)性,隨著載文時(shí)間段與被引時(shí)間段的時(shí)間差逐步擴(kuò)大, 的取值逐步由0.32趨向0.34。筆者認(rèn)為這種情況是由于載文時(shí)間段與被引時(shí)間段的時(shí)間差較小,后期刊發(fā)論文實(shí)際上對(duì)h指數(shù)并沒(méi)有多大的貢獻(xiàn),但這段時(shí)間相應(yīng)的載文量增加,篇均被引量相應(yīng)減少,這一增加與減小打破了公式(7)的平衡,便利 取值偏小,但并不是所有的樣本都是這樣,如2008年《中文核心期刊要目總覽》中提供的作物、植保、林業(yè)、園藝、畜牧、水產(chǎn)類共80種農(nóng)業(yè)期刊為統(tǒng)計(jì)樣本中2004-2009年的統(tǒng)計(jì)結(jié)果并沒(méi)有打破公式(7)的平衡。
綜上所述,期刊h指數(shù)與載文數(shù)量(N)、篇均被引量(S)的關(guān)系可以描述為:
#61548;當(dāng)載文時(shí)間段與被引時(shí)間段有一定時(shí)間差時(shí)(2-3年),曲線基本遵循公式(7)的變化;
#61548;當(dāng)載文時(shí)間段與被引時(shí)間段差距較小時(shí),公式(3-5)中的 取值可能較小,但當(dāng)載文時(shí)間段與被引用時(shí)間段差距逐漸擴(kuò)大, 的取值也逐步從0.32趨向0.34,即公式(7);
#61548;考慮到實(shí)際的隨機(jī)誤差,當(dāng)載文時(shí)間段與被引時(shí)間段有一定差距(2年以上),曲線的波動(dòng)范圍為 。
3 公式(3-5)對(duì)機(jī)構(gòu)h指數(shù)的驗(yàn)證
以萬(wàn)錦堃等發(fā)表的《中國(guó)部分重點(diǎn)大學(xué)h指數(shù)的探討》[3]一文中表1提供的利用美國(guó)ISI Web of Science中的SCI、SSCI和AHCI 數(shù)據(jù)庫(kù)計(jì)算得到的,國(guó)內(nèi)50所高等院校在2001- 2003年中發(fā)表的論文在2001年1月至2006年12 月間在ISI 各數(shù)據(jù)庫(kù)中的被引頻次與h指數(shù)樣本的驗(yàn)證結(jié)果為:
=0.34, =0.582,
以劉穎發(fā)表的《利用h指數(shù)及衍生h指數(shù)評(píng)價(jià)省級(jí)公共圖書館學(xué)術(shù)影響力》[4]一文表1中提供的國(guó)內(nèi)省級(jí)圖書館統(tǒng)計(jì)數(shù)據(jù)為樣本,數(shù)據(jù)來(lái)源于《中國(guó)引文數(shù)據(jù)庫(kù)》與美國(guó)ISI Web of Science平臺(tái),檢索時(shí)間為2009年3-4月,發(fā)文時(shí)間段為1998-2008年,驗(yàn)證結(jié)果為:
=0.33, =0.635,
以趙基明等發(fā)表的《一種新的科學(xué)計(jì)量指標(biāo)——h指數(shù)及其應(yīng)用評(píng)述》[5]一文中表2提供的h指數(shù)前20位國(guó)家的統(tǒng)計(jì)數(shù)據(jù)為樣本,數(shù)據(jù)主要來(lái)源于美國(guó)《基本科學(xué)指標(biāo)(ESI)》數(shù)據(jù)庫(kù),統(tǒng)計(jì)的發(fā)文時(shí)間段為1996年1月l日至2006年8月8日,驗(yàn)證結(jié)果為:
=0.34, =0.582,
驗(yàn)證結(jié)果表明,公式(3-5)不僅對(duì)期刊h指數(shù)有較高的解釋力度,對(duì)樣本量較大的機(jī)構(gòu)h指數(shù)同樣具有較高的解釋力度。
4 結(jié)語(yǔ)
Schubert- Glanzela期刊h指數(shù)模型從理論上解釋了h指數(shù)作為期刊載文數(shù)量與質(zhì)量的綜合性指標(biāo)的內(nèi)涵,揭示了期刊h指數(shù)與載文數(shù)量與篇均被引量的冪函數(shù)關(guān)系。筆者在這一理論模型的啟迪下通過(guò)實(shí)證方法得出了期刊h指數(shù)的經(jīng)驗(yàn)?zāi)P停⑶曳治隽擞绊懫诳痟指數(shù)模型變化的因素。通過(guò)實(shí)例驗(yàn)證,經(jīng)驗(yàn)?zāi)P蛯?duì)機(jī)構(gòu)h指數(shù)同樣具有較高的解釋力度。
參考文獻(xiàn):
[1] Braun T,Glanzel W. A hirsch-type index for journals. Scientometrics , 2006, 69(1) : 169-173.
[2] Schubert A, Glanzela W. A systematic analysis of hirsch-type indices for journals. Journal of Informetrics, 2007,1(2):179-184.
[3] 萬(wàn)錦堃,花平寰,趙呈剛.中國(guó)部分重點(diǎn)大學(xué)h指數(shù)的探討.科學(xué)觀察,2007(3):9-16.
[4] 劉穎.利用h 指數(shù)及衍生h 指數(shù)評(píng)價(jià)省級(jí)公共圖書館學(xué)術(shù)影響力.圖書館建設(shè),2009(11):77-81.
[5] 趙基明,邱均平,黃凱,等.一種新的科學(xué)計(jì)量指標(biāo)——h指數(shù)及其應(yīng)用評(píng)述.中國(guó)科學(xué)基金,2008(1):23-32.
[作者簡(jiǎn)介]汪躍春,男,1964年生,副研究館員,發(fā)表論文20余篇。