[摘要] 通過66種經濟學樣本與10個不同學科驗證樣本的統計與曲線擬合,期刊被引頻次分布基本遵循布拉德福定律,大部分期刊中存在少量的被引頻次與整體變化不一致的高被引論文,其比例占被引論文的0%-1%不等,平均約為0.5%,各樣本均存在不同程度的“格魯斯下垂”,下垂誤差平均為1.07,在適當截除少量(0%-1%)的高被引論文后均能以萊姆庫勒函數的修正公式擬合,截除高被引論文后布拉德福系數與最高被引頻次、總被引量、總被引論文數為高度相關冪函數關系。經驗證,不同學科期刊均遵循同樣的規律。被引0頻次論文比例與篇均被引量為負冪函數關系,即篇均被引量越高,無被引記錄的論文比例越小。
[關鍵詞] 期刊 被引頻次 曲線擬合 布拉德福定律 萊姆庫勒函數 格羅斯下垂
期刊被引頻次作為期刊定量評價的重要指標備受關注,但研究與應用主要集中于期刊整體層次,如期刊的總被引量、篇均被引量、影響因子等,但隨著h指數的提出,人們將目光轉移到期刊被引頻次在其刊載論文中的分布情況,如Egghe , L.與Schubert, A.等對h指數與載文量、被引量關系理論模型推導時均以洛特卡(Lotka)分布為前提[1-2],且模型通過了實例驗證。但關于期刊被引頻次在其載文中分布的系統研究,目前筆者并沒有見到相關的報道,筆者以學科為統計對象對其被引頻次分布曲線擬合進行研究,得出被引頻次分布基本遵循布拉德福定律,并用萊姆庫勒函數的修正公式進行了擬合,結果在刪除0.5%的高被引論文后,統計的不同學科及同一學科不同時間段的46個樣本曲線擬合均通過檢驗水平 的K-S檢驗*。萊姆庫勒函數的修正式為:
(1)
( 為“格羅斯下垂”的誤差修正系數,當 時, = , 時, )
同一學科論文因來源于不同層次的期刊,論文層次差別明顯,被引頻次分布具有集中分散規律易于理解,基于一種期刊,論文層次差別程度明顯減弱,被引頻次分布規律是否也存在集中分散規律,需進一步系統地統計分析。為此,筆者以國內經濟學66種期刊為例,通過實例統計的方法探究其存在的基本規律,研究中的不足之處請同行指正。
1樣本統計
樣本統計以《中文社會科學引文索引2010-2011年來源期刊目錄》中經濟學期刊為基礎,選擇其中66種期刊為統計對象,以中國知網(CNKI)中《中國學術期刊網絡出版總庫》為統計源,統計時間限定為2002-2005年,并從統計結果中刪除目錄、通知及簡訊等,統計不同被引頻次(p)的文獻數量(m),再以被引頻次由高到低統計累積文獻數量(n)與累積被引頻次(S(n)),以《宏觀經濟研究》為例,統計結果見表1,66種期刊的總體統計情況見表2。
注:表中 =n/N,N表示總被引論文數, = S(n)/S,S為總被引量, 為曲線擬合的對應 值, = - , 、 、 、 表示截除高被引論文后對應 、 、 、 的值。
注:表中L表示載文量、M表示最高被引頻次, 為“格羅斯下垂”的誤差修正系數, 為 最大值, 表示 的擬合殘差率,計算公式為 , 與 為截除高被引論文后對應的 與 值,a表示被截除的高被引論文數,a/N表示被截除高被引論文占總被引論文數的比例,其他指標含意與表(1)相同,表中由于表格空間原因沒有列出檢驗水平 時 與截除高被引論文后的 , , ,也沒有列出 , 。
2曲線擬合
2.1擬合模型選擇
各樣本統計結果表明期刊被引頻次分布均存在集中與分散的現象,為了能夠準確地選擇擬合模型,以《宏觀經濟研究》2002-2005年統計結果為例,分別對lnp-lnm、lnp-lnn、lnn-S(n)作散點圖,見圖1-圖3,圖1散點分布表明lnp-lnm并不是簡單的直線關系,散點的頭部存在明顯的彎曲,即被引頻次的分散明顯小于洛特卡定律描述的分散程度,因此使用洛特卡方程無法擬合曲線。圖2散點分布表明lnp-lnn也不是簡單的直線關系,而是一條弧形曲線,同樣無法以齊夫方程擬合。圖3散點分布表明lnn-S(n)曲線與布拉德福曲線基本一致。總體情況與以學科為單位的統計結果基本一致,曲線擬合選擇公式(1)。
2.2曲線擬合方法
以《宏觀經濟研究》2002-2005年統計結果為例,具體步驟如下:
#61548;曲線擬合不考慮被引頻次為0的論文。
#61548;修正圖3尾部的 “格羅斯下垂”。通過半對數曲線粗步估算“格羅斯下垂”的誤差,確定修正系數 的取值,修正方法為:在 范圍內的觀測點乘以 。圖3通過 =1.06修正后的結果見圖4。
#61548;依據修正后的數值,根據布拉德福的分區方法,劃分成3個區,計算每個區的論文數量,分別記作 、 、 ,設 , , ,k為布拉德福系數。
#61548;根據公式(2)計算 值。
(2)[3]
#61548;將公式(2)計算結果代入方程(1),《宏觀經濟研究》2002-2005年樣本的擬合結果如表(1)中“ ”所示。
#61548;K-S檢驗。計算各觀測點的誤差(D),計算結果如表(1)中“D”,并找出 最大的值,即為 =0.0258,在檢驗水平 時, =0.05208[4],,回歸方程通過K-S檢驗。
按照上述方法與步驟對66種期刊擬合結果見表2。66種期刊中僅《經濟經緯》一種期刊沒有通過檢驗水平 時K-S檢驗,其他均通過檢驗水平 時K-S檢驗。但大部分統計樣本的核心區存在明顯的偏離,為了能夠清楚地表達核心區存在的偏差,筆者設 ( 殘差率),如表1中的Z=0.5628,即實際的 是預測結果的2.29倍,由于 的數值本身較小,即使實際值與擬合值相差數倍也可通過K-S檢驗,這是K-S檢驗對萊姆庫勒函數檢驗的缺陷,同時也說明期刊論文中會經常出現少量的引文頻次與總體論文被引頻次變化不相一致的情況。從表2可知,Z>0.25(即實際的 是預測結果的1.5倍以上)的有51種,占總數的72.27%。為了能夠獲得更加精確的擬合結果,筆者采用對被引頻次高得比較特別的少量論文進行截除處理,如表1中前2篇論文的被引頻次相對后面的論文被引頻次變化明顯不連續,將這2篇論文截除后再以上述的6個步驟重新擬合,結果Z=0.1502,核心區的擬合結果得到明顯優化,擬合結果見圖6。對全部統計樣本作同樣截除處理后,擬合結果見表2,不僅全部樣本通過檢驗水平 時K-S檢驗,且 與Z值都明顯優化。截除處理時,根據具體情況,對66個統計樣本中的58個樣本作了不同程度的截除,有8個樣本不需要作截除處理,截除論文的比例范圍約為被引論文數的0%-1%,截除后的Z值均小于0.18。
3被引0頻次論文比例分析
被引0頻次論文是指統計中沒有被引用過的論文,在本文統計的66種期刊中均存在被引0頻次論文。從理論上說,每篇論文都有可能被引用,但論文被引用的機制是復雜的,加菲爾德總結出15種不同引用機制,并歸納為贊同、否定、歸譽、借鑒、質疑等[5]。一篇文獻在一定時間與范圍內不被引用的機制同樣十分復雜,但主要因素有4個方面:一是文獻內容,二是論文質量,三為被引時間,四是引文來源的范圍。統計被引時間與引文來源的范圍在本文統計的66個樣本是完全相同的,相互之間不存在差別,有的論文由于相關性研究或繼承性研究少,被引用的可能性就小,使得在一定時間內無被引記錄,如本文統計的《經濟研究》中沒有被引用的論文均為相關人物與文獻評論,但這種論文各刊中或多或少都有可能存在,因此,被引0頻次論文比例的大小主要是由于期刊質量決定的,篇均被引量作為期刊質量評價的一項重要定量指標應該與被引0頻次論文比例相關,即篇均被引量越高,在一定時間與范圍內統計的被引0頻次論文比例越小,反之,則越大。為了證實上述推斷,筆者對統計的66種期刊的被引0頻次論文的百分比與期刊的篇均被引量作相關性回歸:
設r為期刊的篇均被引量,q是被引0頻次論文的百分數,則:
(2)
(3)
根據公式(2)與公式(3)對表2中的統計數據計算后得到的r與q的散點分布。
結果表明:被引0頻次論文的百分數與篇均被引量之間為負冪函數關系。
4K值變化規律分析
K值大小是表達期刊被引頻次分布集中與分散程度的量化指標,K值越大,集中與分散程度越強,反之則越弱。66種期刊中,截除少量高被引論文后的 值在1.9445-3.3566之間,平均值為2.6326,其中94%的期刊 值在2-3之間。
根據曲線回歸,截除高被引論文后, 值與最高被引頻次( )、總被引量( )、總被引論文數( )相關,當總被引量與總被引論文數一定時,最高被引頻次越高, 值越大,反之則越?。划斪罡弑灰l次與總被引論文數一定時,總被引量越大, 值越小,反之則越大;當最高被引頻次與總被引量一定時,總被引論文數越大, 值越大,反之則越?。粸榱蓑炞C其推斷,以表2中的相關值回歸,結果如公式(6)所示:
(6)
( ,F值=172.378,P值=0.000)
化簡得:
(7)
值與相關指標呈良好的冪函數關系。
通過公式(7)對 值的估算值與實際統計的 值散點分布如圖8所示:
5公式(7)的通用性驗證
公式(7)是根據本文統計的66種經濟學期刊回歸得到的,這一公式是否對其他學科的期刊也同樣有效,需要通過實證加以檢驗。筆者選用了包括經濟學在內的10種不同學科的期刊,從2002年開始抽樣,根據發文量的大小適當增加或減小抽樣的時間段,根據引文頻次分布確定截除的論文,依據截除少量高被引論文后的相關統計值,先確定 =1.07,利用公式(7)計算各樣本的 值,并計算擬合值,根據擬合結果與實際統計值的偏差調整 的取值,重新計算 值并擬合,直到擬合曲線 與 達到較為理想值為止。通過上述方法擬合后,10個驗證樣本均通過了檢驗水平 時的K-S檢驗, 值也均小于0.18,具體結果如表3所示:
驗證結果表明公式(7)具有普遍性,不同學科期刊論文被引頻次分布都可以通過公式(7)估算其 值,且 值的變化在2.2-3之間,平均值為2.6551,與66種經濟學期刊變化基本一致。同時,截除的高被引文比例也基本一致,在0%-1%之間, 取值有2種期刊小于1.05,其他均在1.05-1.10之間,這說明不同學科之間各指標值基本一致,即遵循著 值略有區別的相同曲線。
6曲線擬合中的其他參數
是“格魯斯下垂”的修正參數,其大小總體上由“格魯斯下垂”所造成的與直線誤差大小決定的,統計樣本結果表明均存在一定程度的“格魯斯下垂”,截除高被引論文前 的取值在1.05-1.08之間,平均值為1.06. 截除高被引論文后,由于總被引相對減小, 的取值略有增加,表(2)中 的取值在1.05-1.10之間,平均值為1.07。在實際擬合時,因 的取值會直接影響到K值的大小,并影響到曲線頭部、尾部與實際值的誤差程度,因此在擬合過程中對 的取值是綜合考慮曲線頭部與尾部的誤差來決定的。
高被引論文的截除,各刊存在明顯的差異,被截除論文占總被引論文的比例在0%-1%之間,平均值約為0.5%,在實際截除時,高被引論文被引頻次不連續可能不止一個分界點,本文在擬合時,通過從少到多的高被引論文截除,使得擬合后的Z值小于0.18。
7結語
通過本文中66種經濟學期刊樣本與對公式(7)驗證的10個不同學科期刊樣本的統計與曲線擬合,期刊被引頻次分布基本遵循布拉德福定律,大部分期刊中存在少量的被引頻次與整體變化不一致的高被引論文,其比例占被引論文的0%-1%不等,平均約為0.5%,在適當截除少量(0%-1%)的高被引論文后均能以公式(1)擬合,各樣本均存在不同程度的“格魯斯下垂”,下垂誤差平均為1.07,截除高被引論文后 值與最高被引頻次( )、總被引量( )、總被引論文數( )為高度相關的冪函數關系,且可通過公式(7)進行估算。綜上所述,期刊被引頻次分布遵循著 值略有差異布拉德福分布,被引0頻次論文比例與篇均被引量為負冪函數關系,即篇均被引量越高,無被引記錄的論文比例越小。
參考文獻:
[1] Egghe L, Rousseau R. An informetric model for the Hirsch-index. Scientometrics , 2006(1):121-129.
[2] Schubert A, Glnzel W. A systematic analysis of Hirsch-type indices for journals. Journal of Informatics, 2007(2):179-184.
[3] 埃格希,魯索.情報計量學引論.田蒼林,葛趙青,譯.北京:科學技術文獻出版社,1992:328-330,334.
[4] 管于華.統計學. 北京:高等教育出版社,2005:184-185.
[5] 劉瑞興.期刊引文分析.北京:中國統計出版社,1995:22.
[作者簡介] 汪躍春,男,1964年生,研究館員,發表論文24篇。
胡敏,女,1963年生,館員,發表論文9篇。