王 惠
(淮陰工學院圖書館,江蘇 淮安 223003)
1927年,Gross等人首次提出被引頻次的引文分析概念,最早作為評價科研成果的重要指標,后廣泛應用于期刊、單位和學者排名以及績效、薪資、晉升、任期和招聘等各個領域[1],它的價值和功效也被國內的科研機構和評估工作者所重視[2]。由于國內學術界對被引頻次的研究機制仍不完善,有些科研管理者會將被引頻次等同于論文質量,導致盲目推崇被引頻次,這無疑是扭曲了科學研究的根本目的[3]。因此,研究論文被引頻次的影響因素作用機制極具現實意義。
已有文獻在研究論文被引頻次的影響因素時,從論文的外部和內部信息來闡釋,我們將其稱為“外在因素”和“內在因素”,前者指機構權威性、作者學術地位、期刊影響因子等間接信息,后者指論文自身所表達的信息(如論文篇幅、是否獲得基金資助、參考文獻等)[4]。相比較而言,內在因素的影響更隱晦,對外在因素影響的研究更常見。
Borsuk和Budden等[5]采取廣義線性模型研究作者數量、論文語言和第一作者性別對被引頻次的影響,結果表明論文語言和第一作者性別沒有通過顯著性統計檢驗,作者數量具有較大的影響。Barbara和Aurelie[6]在研究論文被引頻次的影響因素時考慮了腳本情況、學科、地理位置、總方程數量、微分方程數量、摘要長度、參考文獻數量、作者數量、頁碼數等指標,發現參考文獻數量和頁碼數即論文長度是最重要的影響因素,方程數量、作者國籍、學科領域也對論文被引頻次產生顯著影響。Finardi[7]認為絕大部分情況下被引次數與期刊影響因子及其年度變化的關系不大。Didegah[8]等指出刊登在高等級、高影響力期刊上的學術論文更容易得到關注,成為高被引論文可能性更大。Didegah[9]等研究顯示參考文獻平均被引數量、期刊影響因子對論文被引頻次的影響最大。此外,論文作者尤其是第一作者的聲望,一定程度上會在學術圈內形成“光環效應”“追隨現象”,從而影響被引頻次[10]。
從上述研究來看,國外學者對論文被引頻次影響因素的討論已有一定積累,相比較而言,國內研究的深度和廣度亟待擴展。大多數學者考察單一因素對論文被引頻次的作用機制,如黃雪梅[11]、侯京淮[12]、俞立平[13]等學者分別討論科研合作、論文下載量以及作者數與論文被引頻次的關系,認為這些因素都對論文被引頻次產生顯著影響。也有部分學者對論文被引頻次的影響因素進行系統分析,陳仕吉[14]等選取Web of Science數據庫2000年以來發表的所有論文,采用Tobit多元回歸模型分析被引頻次的影響因素,指出參考文獻數量和作者機構數都顯著影響論文被引頻次。孟凡蓉[15]等分析5本高被引科技管理核心期刊,研究發現期刊影響因子、論文下載次數以及作者是否合作等與論文被引頻次存在顯著正相關。
總體看來,國內關于論文被引頻次影響因素系統性的實證研究較少,缺乏系統梳理和總結,研究方法多以簡單繪圖分析和統計描述居多。因此,本研究在自變量的選取上力求更加多元和全面,進一步增強模型的解釋力。同時鑒于論文總被引頻次的影響因素與其關系可能不是簡單的線性關系,對論文被引頻次影響因素內在作用機制的研究,需要從方法論角度建立一種范式。
據此,筆者以中文社會科學引文索引CSSCI(2021—2022)收錄的圖書館、情報學期刊論文為研究對象,將論文總被引頻次作為切入點,引入核密度函數估計刻畫論文總被引頻次絕對差異及動態演進態勢。考慮到學術期刊論文被引頻次與影響因素的關系較為復雜,作者在已有成果的基礎上,結合數據的可獲取性,選取了平均作者數、海外論文比、基金論文比、學科擴散、載文量和影響因子指標作為自變量,論文總被引頻次作為因變量,綜合運用相關系數分析、面板分位數回歸明確論文總被引頻次與影響因素的關系,找出可能潛在的問題,以期引發科學管理人員和學術界更多的關注,為學術期刊高質量發展給予方向性的指導啟示。
2.1.1 核密度估計
核密度估計即Kernel密度估計,是一種非參數概率估計方法,此方法不太依賴模型,穩健性強,是采用平滑的峰值函數對所取樣本觀測數據進行擬合,其連續的密度曲線更加直觀描繪隨機變量分布形態[16]。采用核密度估計展示期刊論文總被引頻次的分布延展性、分布位置、極化趨勢、分布態勢,便于觀測期刊論文總被引頻次的分布動態及演進規律。假設f(x)為樣本學術期刊的總被引頻次y密度函數:
式1中,xi為獨立同分布觀測值,h為帶寬,k(·)為核函數,n為觀測值個數。在非參數核密度估計中,核函數和帶寬的選擇關系到核密度估計的質量。依據核密度核函數的不同,可分為高斯核、伽馬核、三角核和均勻核[17],筆者采用比較常用的高斯核函數,最佳帶寬的選取遵循了均方誤差最小的原則。
2.1.2 面板分位數回歸
1978年,Bassett和Koenker最早提出分位數回歸,一種基于因變量Y的條件分布來擬合自變量X的線性函數均值拓展回歸方法,根據不同分位點數據進行分析,使得研究更加翔實,彌補了最小二乘法的諸多不足:a.當數據出現異方差時,最小二乘法的估計結果會有所偏差;b.最小二乘法反映的是因變量Y的均值受自變量X的影響,不能反映一個分布的全部情況;c.當數據存在異常點,最小二乘法估計會受到干擾,使得估計不穩定[18]。2004年,Koenker將截面分位數回歸拓展至面板數據的參數估計中,構建面板數據分位數回歸模型[19]:
估計參數可以通過求解下述最小化問題:
筆者以基金論文比(fund)、海外論文比(overseas)、平均作者數(author)、影響因子(factor)、載文量(document)以及學科擴散因子(subject)作為自變量,論文總被引頻次(cited)作為因變量,綜合采用面板分位數回歸和普通最小二乘法進行實證檢驗,對所涉及的變量都進行對數化處理,有效消除異方差的影響。需要說明的是,影響因子、載文量等文獻計量指標通常不服從正態分布,分位數回歸對此并不敏感。
中文社會科學引文索引(CSSCI)是由南京大學中國社會科學研究評價中心開發研制,收錄的期刊編輯規范、學術型強,刊登的學術論文在一定程度上代表該領域研究熱點與趨勢[20]。考慮到數據的延續性和可獲得性,選取圖書館、情報學共17種CSSCI期刊作為研究對象,相關數據來源于2018—2020年的《中國科技期刊引證報告(核心版)社會科學卷》。
筆者分別選取2017年、2018年和2019年3個時間截面(見圖1),各條核密度曲線將隨著時間推進逐漸由虛線變為實線,方便讀者觀察變量時序上的分布演進過程。分布位置展現圖書館、情報學CSSCI期刊論文總被引頻次的高低;分布延展性顯示論文總被引頻次最高期刊與其他期刊的數值差異,拖尾愈長,差異愈大;分布態勢體現期刊論文總被引頻次的個體差異及極化趨勢,其中波峰數量刻畫極化趨勢,波峰的高度和寬度反映差異大小。

圖1 圖書館、情報學CSSCI期刊論文總被引頻次的核密度
圖1的縱軸為核密度,橫軸為論文總被引頻次。在樣本期內,隨著時間推移,圖書館、情報學CSSCI期刊論文總被引頻次整體水平的核密度曲線并未呈現明顯地向右或向左變化趨勢,表明論文總被引頻次并未出現大幅增加或減少。核密度曲線的主峰下降,寬度日益延展,說明期刊個體之間的論文總被引頻次絕對差異擴大。此外,核密度曲線波峰數量減少,右尾逐漸平緩,一方面,意味著盡管不同期刊的論文總被引頻次數量存在較大差異,但極化效應并不凸顯;另一方面,表明論文總被引頻次數量可觀的學術期刊越來越多。
先分析多種影響因素的相關關系,再挑選出哪些影響因素進入面板分位數回歸模型。由表1可知,除了海外論文比與總被引頻次的相關性系數沒有通過顯著性統計檢驗,其他變量都在10%的水平下通過統計檢驗,即所選取的論文總被引頻次影響因素具有一定可信度,可以進行回歸分析。海外論文比(overseas)這一指標是來源期刊中海外作者發表論文占全部論文的比例,用來衡量期刊國際化交流程度。經檢查原始數據發現,2019年海外論文比數值為0的期刊有《現代情報》《中國圖書館學報》《圖書與情報》《圖書館學研究》《圖書館建設》和《大學圖書館學報》,且絕大部分期刊論文的海外論文比數據都為零,反映出圖書館、情報學CSSCI學術期刊刊登的海外論文偏少。關鍵原因就是樣本期刊均為中文期刊,即使刊登了少量海外論文,絕大部分也為海外華人撰寫。

表1 被引頻次影響因素的相關系數矩陣
平均作者數與影響因子、學科擴散因子、基金論文比表現為正相關性,相關系數分別為0.35、0.72和0.70。載文量與影響因子、海外論文比與學科擴散因子表現為負相關性,這說明載文量高低不一定會對學術期刊的影響因子產生作用機制。據《中國學術期刊國際引證年報》近幾年的數據顯示,科技期刊國際化引他總被引頻次持續增長,但我國各學科被引頻次所占份額差別較大,學科發展不平衡,“圖書館、情報與文獻學”學科國際影響力亟待增強,加強國際文化交流,擴大學術期刊知名度,為我國圖書館、情報與文獻學學術期刊盡快走向世界的關鍵所在。此外,載文量與平均作者數和基金論文比的相關系數并不顯著,說明載文量與兩者關聯程度很弱。
由于傳統最小二乘法回歸本質上是一種均值回歸,只能宏觀分析論文被引頻次影響因素,當面對數據分布異常、數據樣本較小等問題處理比較麻煩,面板分位數回歸模型能夠刻畫論文被引頻次在不同水平上的影響因素狀況,給出更為全面的解讀。
將論文總被引頻次作為自變量,影響因素作為因變量,采用雙對數模型進行回歸分析,獲得具有彈性性質的回歸系數。結果發現,海外論文比系數沒有通過10%的水平下進行統計檢驗,其余變量都通過且模型的擬合優度較高,也佐證了表1的結果,說明平均作者數、學科擴散因子、基金論文比、影響因子和載文量5個變量能很好地解釋論文總被引頻次的信息,若從學術期刊評價的角度而言,這5個指標更為重要。
為了進一步解讀期刊論文總被引頻次在不同水平下受其他因素影響的大小,鑒于數據量不大,將總被引頻次分為3個分位(τ=0.25、0.50、0.75),采用分位數回歸進行估計。相比較傳統的面板數據模型,面板數據分位數模型可以不假設數據分布服從正態分布,有效避免受到離群值的影響,該方法能清楚地刻畫影響因素對學術期刊論文的總被引頻次在不同分位點的邊際影響,結果見表2。隨著τ值由0.25增大至0.75,R2從0.763提高到0.792,屬于中等水平相關,5個影響因素對論文總被引頻次較低的期刊解釋程度要弱于論文總被引頻次較高的期刊。

表2 各個影響因素對論文總被引頻次的作用效果
在τ=0.25、τ=0.50和τ=0.75時,影響因子的彈性系數通過1%的顯著性水平統計檢驗,與傳統回歸所得彈性系數差距不大,也就是影響因子對論文總被引頻次具有正向作用。論文總被引頻次在條件分布不同位置發生變動,影響因子對論文總被引頻次的彈性系數也出現規律性變化,彈性系數由0.25分位點時最高0.711,下降至0.50分位數最低0.588,在0.75分位點升至0.710。該變化說明,當論文總被引頻次處于條件分布低分位點時,影響因子的正向作用最為明顯,但隨著分位點上升逐漸變弱,達到一定的閾值,杠桿效應又會增強,究其原因可能是高影響因子期刊的編輯部在征稿時,并沒有刻意強調論文的引文數量或質量,低影響因子的期刊在這方面有所訴求。
平均作者數的估計系數隨著分位數增加而先降低再升高,說明隨著論文總被引頻次的提高,平均作者數的增加對其貢獻先減少后增加,當分位數較低(τ=0.25、τ=0.50)論文總被引頻次較少時,平均作者數的彈性系數并沒有通過10%的顯著性水平統計檢驗;當分位數較高(τ=0.75)論文總被引頻次較大時,平均作者數的正向作用才顯著,且彈性系數超過了傳統的回歸系數。因此,從理論角度來講,對于論文總被引頻次較少的學術期刊,其平均作者數對論文總被引頻次并沒有產生太大的影響;對于論文總被引頻次較高的期刊,其論文總被引頻次更易受到平均作者數的影響。
從傳統回歸看,學科擴散因子對論文總被引頻次的彈性系數為正數,彈性系數為0.385,在5%的水平下通過統計檢驗,從分位數回歸結果來看,當論文總被引頻次較高(τ=0.75)時,論文總被引頻次與學科擴散因子關系不大。當論文總被引頻次數值處于較低或中等時,學科擴散因子的彈性系數分別為0.262和0.438,表明學科擴散因子對論文總被引頻次的影響存在門檻效應,也就是說,當論文總被引頻次達到一定數值后,即便學科擴散因子再增加,也無法提高論文總被引頻次。分位數面板回歸結果驗證了學科擴散因子對論文總被引頻次影響效果分布特征存在差異,這也是前期研究采用傳統回歸模型無法展現的信息。
載文量對論文總被引頻次的影響在各個分位數均存在顯著的正向影響,說明載文量越高,論文總被引頻次也越高。具體而言,載文量的彈性系數隨著分位數增加而下降,說明隨著期刊論文總被引頻次的增加,載文量的增加對其貢獻越來越小。當分位數較高(τ=0.75)論文總被引頻次較大時,載文量的彈性系數較小;當分位數較低(τ=0.25)論文總被引頻次較小時,載文量的彈性系數較大。從理論角度來講,對于低論文總被引頻次的期刊,提高載文量對增加論文總被引頻次的貢獻較大;對于高論文總被引頻次的期刊,提高載文量對增加論文總被引頻次的貢獻較小。圖書館、情報學CSSCI期刊總體上屬于學術質量很高的期刊,近年來學科所有期刊的載文量并沒有明顯增加,說明此類期刊更加注重論文質量,這與金碧輝[21]等人的研究結論并不完全一致,可能與所選樣本有關。
基金論文比與論文總被引頻次顯著負相關,當論文總被引頻次在0.25分位時,基金論文比的彈性系數為-0.364,隨著論文總被引頻次的增加,或分位的提高,基金論文比對論文總被引頻次的擠出效應變大。這點需要引起編輯部的關注,通過官方渠道告知投稿作者撰寫的論文主題應與標注的資助基金項目標題相符合,不能因為希望論文被錄用就掛一些風馬牛不相及的項目。
從圖書館、情報學CSSCI來源期刊的論文總被引頻次核密度估計曲線可以看出,樣本期間內此類期刊的論文總被引頻次并沒有出現太大的變化。近些年,期刊的評價機構和科研單位已把論文總被引頻次作為衡量期刊學術水平的重要指標,但圖書館、情報學CSSCI來源期刊編輯部并沒有為了提高論文總被引頻次而采用一些非正常手段,“爆引”和“聚引”現象并不存在。在對權威核心期刊進行學術評價時,不僅需要關注論文總被引頻次,還需要參考影響因子和擴散因子等指標,防止惡意引用現象。
筆者基于圖書館、情報學CSSCI學術期刊2017—2019年的面板數據,綜合運用傳統回歸方法和面板分位數回歸方法重點反映平均作者數量、基金論文比、載文量、海外論文比、學科擴散因子和影響因子對論文總被引頻次在各個分位點處的作用機制,并揭示彈性系數在不同分位點處的分布特征和變化規律,指出平均作者數量、學科擴散因子、載文量和影響因子與論文總被引頻次呈正相關關系。另外,研究結論也證實了論文層面的一些要素,海外論文比與論文總被引頻次總體無關,基金論文對論文總被引頻次沒有起到正向作用,論文質量才是主要原因。
平均作者數僅對論文總被引頻次高的期刊產生影響,與論文總被引頻低的期刊無關,增加平均作者數并沒有提高此類期刊的論文總被引頻次數,導致這一結果的原因是多方面的,“偽合作”行為也弱化了論文被引頻次與作者數的密切程度。對于論文總被引頻次高的75%的期刊,增加平均作者數可以提高論文總被引頻次,即平均作者數每增加1%,論文總被引頻次可以提高0.67%。然而此統計分析結果,并不具有實際的操作意義。某種程度上論文研究內容決定了作者數的多少,期刊編輯部并不會對論文獨著或合著有特殊的要求,論文一旦刊登,作者也無法預料文章將來的被引頻次。
基金論文比并未對論文總被引頻次具有積極貢獻。提高載文量對論文總被引頻次具有正向作用,分位數回歸結果表明,載文量對論文總被引頻次高的期刊正向影響要弱于論文總被引頻次低的期刊。一般而言,載文量在一定程度上體現學術期刊的知識存儲和信息量水平,載文量的增加對知識與信息的傳播具有積極作用。但載文量是把雙刃劍,實踐表明前幾年許多期刊為了擴大影響力盲目追求增加載文量,并沒有增加論文總被引頻次,也沒有提高期刊的影響因子。提高期刊辦刊質量,規范審稿流程,論文被引頻次自然增加。
對于論文總被引頻次數值處于中等偏下的期刊,其學科擴散因子對論文總被引頻次產生正向影響;論文總被引頻次與影響因子具有顯著的“U”型關系,論文被引情況容易受到所刊登的期刊影響。僅僅采用傳統的最小二乘法回歸分析有時會掩蓋兩者真實關系,有必要從多視角進行考查。由此可見,論文總被引頻次的影響因素比較復雜,就單個期刊而言,受研究選題、論文類型、創新程度、期刊偏好、下載方式等多種因素的影響。需要說明的是,雖然由于期刊差異、學科不同,研究結論可能存在差異,但作為一種研究范式,本項研究依然具有一定的參考價值。