許林玉 楊建林











DOI.10.3969/j.issn.1008-0821.2021.12.013
[中圖分類號]G250.252 [文獻標識碼]A [文章編號]1008-0821(2021)12-0131-13
學術界普遍認為高被引論文的質量較高,對領域知識具有重要的貢獻作用。自2018年以來,中共中央辦公廳、國務院辦公廳等機構先后印發了關于深化項目評審、人才評價、機構評估等措施及指導意見,其中反復提到科研領域要關注“標志性、代表性成果”。在這樣的背景下,探索學科領域高活躍度和高影響力的高被引論文將會是國內學術界持續關注的研究對象。
誠如喬納森所言,“承認是科學王國的基本通貨”,引用行為是學術成果被承認的體現。在規范引用前提下,排除負面或不正當等引用行為,學術論文的被引頻次越高,代表其科學影響力越高,其對科學進步、領域知識的貢獻就越大。因此,基于被引頻次的評價成為學術論文影響力最具代表性、最簡單的評價方式。
為促進更多的高被引論文產出,學界對高被引論文的特征及產出規律進行了研究,研究成果主要集中于此類論文的作者、期刊及機構等屬性的分布特征以及高被引論文的引文模式,部分研究成果被用于科學評價與研究熱點預測。高被引論文具有較長的統計時間窗口,體現了被引頻次的累積過程。學者們提出的“睡美人”“白天鵝”“黑天鵝”等引文模式,揭示了部分高被引論文的引文累積在確定的時間窗口內隨時間變化的規律。盡管學界對高被引論文的特征進行了研究,但是沒有進一步揭示這些特征對引文累積過程發揮影響時所具有的規律性,而細化的研究結果對高被引論文的預測更具有參考價值。
1相關研究
學界多從論文自身和外部指標來探討論文被引頻次的影響因素,本文參考前人研究將高被引論文的特征分為內部特征和外部特征:內部特征主要包括標題、摘要、關鍵詞、基金資助、合作規模(作者、國家)、參考文獻、文章長度等指標;外部特征主要涉及刊載期刊、作者聲譽及數據庫平臺等因素,如發表期刊質量、開放獲取等指標。
1.1內部特征研究
Aksnes D W研究發現,與非高被引論文相比,高被引論文具有作者數量較大、跨國合作等特征;Noorhidawati A等通過觀察馬來西亞的ESI高被引論文,發現這些論文普遍具有國家資助、隸屬于研究型大學以及跨國合作等特征;Dorta-Gonzalez P等研究發現,高被引論文具有作者數量較多、篇幅更長、參考文獻較多、標題稍短以及摘要較長等特征;張壘以新聞學與傳播學領域的高被引論文為研究對象,發現時間累積是論文高被引的必要條件,高被引論文具有作者影響力高、首次被引時間較快、傾向于引用高影響力論文等特征,參考文獻的數量、研究內容的新穎性與高被引之間并不存在明顯的相關性;Webster G D等研究發現,高被引論文的參考文獻數量較多;Liang G等提出知識廣度、知識新近度和學科是影響高被引論文“起飛”時間的重要因素;馬榮康等運用Finan-cial Times TOP 45商學院數據,基于論文被引量探索最佳科研合作規模,發現多作者合作的論文成為高被引論文的概率更高;Chen S J等深入探索跨學科性與高被引論文被引量的關系,認為高被引論文具有較高的學科多樣性和學科差異性,學科平衡性較低;Zhang J等以太陽能領域論文為研究對象,基于論文知識元耦合網絡,發現科學關聯度較低的論文更有可能被高度引用。
1.2外部特征研究
梁春慧等研究發現,高被引論文更傾向于引用聲望高、影響因子高的期刊論文;Wang M等研究發現,期刊聲譽和第一作者研究能力是高被引論文最相關的預測因子:Dorta-Gonzalez P等研究發現,刊載高被引論文期刊的影響因子較高:Wang F等運用APS和Nobel數據開展研究,發現第一作者的科學影響、潛在領袖的科學影響力、研究團隊的科學影響、作者現有論文的相關性這4個因素與論文的科學影響力顯著正相關,其中潛在的領導者因素短期內發揮更重要的作用,研究團隊的科學影響因素長期發揮更重要的作用。
近年來,研究者開始越來越關注補充計量學指標對被引量的影響,如趙婉忻發現高被引論文被引量與下載量、學術型社交媒體閱讀量等呈顯著正相關;Cho J亦認為被引量與閱讀量顯著相關;學者們還發現高被引論文的其他一些外部特征,如自引率低、多發表在科學出版物的前1/4以及研究基礎較扎實(從引文網絡中提?。┑?。此外,Newman M E探討了論文的先動優勢,研究表明,如果一篇論文是某領域的首篇論文,無論其內容如何,其引用率都將高于其后發表的其他論文?;仡櫱叭说南嚓P工作可以發現,現有研究主要探討高被引論文的特征與其長期被引量的相關性,沒有進一步揭示這些特征對引文累積過程發揮影響時所具有的規律性。因此,本文基于引用時間視角對前人的研究工作進行深化,主要將引用時間細化為初始被引量、長期被引量、歷年引用量及引文累計速度等,主要研究內容包括:①高被引論文的內外部特征與其初始被引量、長期被引量的關系:②高被引論文的內外部特征與歷年被引量的關系:③高被引論文的內外部特征與引文累積速度的關系。
2研究數據與方法
2.1數據的采集及預處理
2.1.1數據采集
本文參照科睿唯安官網,將高被引論文定義為“在10年內發表且其引用頻次處于該研究領域同一出版年前1%的研究成果”。Web of Seience(WOS)數據庫是世界范圍內較為核心且權威的數據庫,其認定的高被引論文在一定程度上具有權威性,因此,本文選取該數據庫的全學科高被引論文作為研究對象。為了保障研究數據的覆蓋率及充足的引用時間窗口,本文選擇WOS數據庫的2010年高被引論文的題錄數據和歷年引文數據作為研究數據。
數據下載流程如下:首先選擇WOS核心合集數據庫,在高級檢索框中輸入“PY=2010”(出版年為2010年)的檢索條件進行搜索,并將文獻類型選定為“ARTICLE(論文)和PROCEEDINGS PA-PER(會議論文)”,選中“領域中的高被引論文”,并以純文本格式導出文獻題錄的全記錄;在導出題錄數據的基礎上導出2010年高被引論文的歷年被引頻次數據。其中,題錄主要包括Authors(作者)、Article Title(標題)、Source Title(期刊名稱)、Key-words(關鍵詞)、Abstmct(摘要)、Addresses(地址)以及Funding Orgs(資助機構)等字段。檢索時間為2020年7月27日,一共得到8956篇高被引論文的數據。
2.1.2數據預處理
1)數據刪除
為了保證下文回歸結果的準確性,本文剔除少量缺失“標題”“作者”“摘要”“關鍵詞”及“期刊”等關鍵信息的數據,這部分數據總量相對較小,直接刪除幾乎對整體結果沒有影響,最終得到8 008條研究數據。
2)數據匹配
為了探討題錄特征與被引量的關系,需要對題錄和歷年被引頻次數據進行識別匹配。本文主要根據“DOI”字段進行匹配,匹配率100%。
3)數據清洗
直接獲得的研究數據具有一定的瑕疵,因此需要對部分研究變量進行處理。本文基于“Addres-ses”字段獲取地址中國家信息,清洗、去重后最終獲得作者國家數量,作為國家合作規模指標值。WOS數據庫的期刊影響因子的更新會滯后1年,本文在填充影響因子字段時,根據期刊名稱匹配論文出版年前一年所對應的WOS平臺“Joumal Cita-tion Reports”公布的期刊影響因子,并填充到相應字段。
2.2變量的選取及定義
2.2.1因變量
為了進一步探究高被引論文內外部特征在引文累積過程發揮影響所具有的規律性,本文將被引量細分為初始被引量、長期被引量、2010—2019年各年份的被引量以及引文累積速度,引文累積速度借鑒Wang J的研究,由累積被引量與引文時間計算得來。被引量表征的是論文某個時間段引文的總體存量,而引文累積速度衡量論文吸引引文的速度。故而本文的因變量為被引量及其基于引用時間的衍生變量:引文累積速度。
1)被引量
已有研究顯示,外文文獻從出版到被利用的平均時間大約是兩年,高被引文獻的被引行為一般從第2年開始,到第30年結束。如表2所示,本文采集的數據也表明很多論文在出版年內得到的關注較少(出版年被引量的眾數為0,占高被引論文的23.4%)。因此,本文使用論文發表前兩年總被引頻次來表征初始被引量,使用論文出版年到2019年總被引頻次來表征長期被引量:2010—2019年各年被引量即為各年份的當年被引量。
為了了解被引量的數據分布情況,本文選取初始被引量和長期被引量構建兩變量邊緣箱圖,如圖1所示。圖1的兩變量邊緣箱圖由3部分組成:中間是表征變量關系的散點圖:頂部為初始被引量分布圖;右部分為長期被引量分布圖。由圖1可看出,初始被引量和長期被引量均表現出明顯的偏態結構,即被引量較少的高被引論文所占比例較大,而被引量較多的論文占比較少,這在很多文獻中都有類似的結論闡述,歷年被引量亦有此偏態結構。
2)引文累積速度
論文吸引引文的速度存在差異,有些文獻發表后快速積聚引文,而后引文積聚緩慢:有些文獻前期被引量較少,后期被引量有較大幅度的上升,如“睡美人”文獻等。為刻畫這種現象,Wang J提出了引文累積速度(Citatuin Speed),其取值范圍為區間[0,1],值越接近1,引文累積越快;反之,引文累積越慢。
其中,n是指出版年到2019年的總時長(單位:年);C是文獻發表第i年的累積引文數量。
本文計算2010年高被引論文的引文累積速度并作引文累積速度頻數頻率分布圖,如圖2所示。圖中橫坐標表示引文累計速度,左邊縱坐標表示頻數,右邊縱坐標為頻率。由圖2折線圖可看出,高被引論文的引文累積速度值大多集中于區間[0.3,0.5],占總論文篇數的80.22%,右上角的累積百分比有著相同的結論。
2.2.2自變量
本文在前人研究的基礎上,基于高被引論文內外部特征選取自變量,其中內部特征定義為論文本身的因素,即論文在成文之時便有的特征,主要包括標題長度、作者合作規模、國家合作規模、關鍵詞數量、摘要長度、基金資助、學科數量、參考文獻數量以及文章篇幅:考慮到指標的可量化及可得性,本文將外部特征定義為論文發表期刊和平臺的特征,主要為期刊質量、開放獲取,各變量的選取及定義如表1所示。近些年,論文使用數據得到學者們的關注,部分文章將論文使用量納入論文外部特征來考察其對被引量的影響。然而,論文的使用量與論文的被引量具有正相關性,且都是一定時間窗口內的累積量,具有動態性,因此本文認為,使用與論文被引量同一時間節點的論文使用量來考察論文使用量對高被引效應的影響并不合適。故而本文沒有將論文使用量指標加入待考察的外部特征集。
2.3統計方法及模型
2.3.1模型方法選擇:負二項回歸
高被引論文的被引量屬于離散數據,不服從正態分布。以長期被引量為例,構建長期被引量各種數據變換下的直方圖與正態分布曲線,如圖3所示。從圖3可看出,長期被引量的自身(identity)、立方(cubic)、平方(square)等變換不服從正態分布。該種離散數據適用于計數模型,常用的回歸方法主要為泊松回歸和負二項回歸,但是泊松回歸要求“均等分散”,即被解釋變量的期望和方差相等,而由表2可知,本文長期被引量的期望為435.0999,方差為256409.5642(標準差為506.369),其方差明顯大于期望,存在“過度分散”,不適用于泊松回歸模型,故而使用負二項回歸模型更為合理。本文使用Statal5.1對研究數據進行負二項回歸分析。
3結果
3.1描述性統計
表2為描述性統計指標,可以大體反映高被引論文的特征分布情況:標題長度為9的高被引論文篇數最多:3位作者合作模式更易獲得施引者青睞:關鍵詞數量為10的論文篇數最多:摘要長度高發區間為[145,154];大部分高被引論文得到基金資助:學科數量中單個學科的情況更多:參考文獻數量的高發區間為[32,39];高被引論文頁碼的高發區間為[4,12];高被引論文中沒有獲得開放獲取的比例較多等。
3.2回歸結果分析
3.2.1高被引論文的內外部特征與其初始及長期被引量的相關性
1)以長期被引量為因變量的回歸模型
本文以長期被引量為因變量,以高被引論文內外部特征為自變量構建負二項回歸模型,考察高被引論文內外部特征對長期被引量的影響,如表3模型(1)。以長期被引量為因變量的回歸模型中,除了作者合作規模、關鍵詞數量、摘要長度、基金資助及文章篇幅等特征變量沒有通過顯著性檢驗,其余特征指標均通過了顯著性檢驗,其中,國家合作規模、學科數量、參考文獻數量、期刊質量以及開放獲取等特征對長期被引量具有顯著的正向影響:而標題長度對長期被引量具有顯著的負向影響。
可見長期引用過程中,施引者更傾向于精煉的標題:國家合作規模對高被引論文具有顯著的正向影響,這與Noorhidawali A等的研究相一致;雖然有文章認為跨學科研究被認為專業度不足,但是本文結果及大量文章證明跨學科對被引量的正向影響作用;參考文獻數量對長期被引量有顯著的正向影響,參考文獻體現了作者的研究廣度,多參考文獻一方面反映該篇文獻較為扎實的研究基礎,另一方面也為施引者開展該領域的相關研究提供了向前追溯的便利,故受到施引者的追捧:高影響因子對論文長期被引量具有顯著的正向促進作用,由表2可得,期刊影響因子的平均值為9.69693,可見高被引論文大多刊載于高影響因子期刊。在目前同行評議審查體系下,論文發表于高影響因子期刊表征論文質量較高。故而一篇論文的質量越高,越能發表在高水平、有聲望的期刊,擁有更高的可見度和閱讀量。由模型(1)的回歸系數可得,開放獲取是高被引論文長期被引量最重要的特征,開放獲取使得研究者能夠便捷地下載論文,進而從全文中把握該篇論文的研究思路、核心觀點、研究假設、論述依據、研究結論等要素。該結論與xiaJ等的研究具有一致性,他們指出開放獲取將擴大論文的可見性,從而為其創造更多被發現和引用的可能??梢姡陂L期引用過程中,高被引論文內外部特征共同影響被引量。其中,內部特征,如簡潔的標題、多國合作、多學科數量、參考文獻數量多等對高被引論文引用具有積極的促進作用:高影響因子期刊及開放獲取等外部特征亦對高被引論文長期被引量具有顯著的正向影響。
2)初始與長期被引量回歸模型結果對比分析
在以長期被引量為因變量回歸模型的基礎上,本文以初始被引量為因變量構建負二項回歸模型,如表3中模型(2)。由表3中模型(1)和模型(2)對比可得,高被引論文內外部特征對初始被引量和長期被引量的影響具有顯著的差異性。初始被引量回歸模型中標題長度、作者合作規模、關鍵詞數量、摘要長度等特征沒有通過顯著性檢驗:而在長期被引量回歸模型中,作者合作規模、關鍵詞數量、摘要長度、基金資助及文章篇幅等特征變量沒有通過顯著性檢驗,可見基金資助對初始被引量具有顯著的正向影響:文章篇幅對初始被引量具有顯著的負向影響:標題長度對長期被引量具有顯著的負向影響;國家合作規模、學科數量、參考文獻數量、期刊影響因子以及開放獲取等特征變量對初始被引量和長期被引量均具有顯著的促進作用:基金資助是影響高被引論文初始被引量最核心的特征:而開放獲取是高被引論文長期被引量的核心特征。
負二項回歸模型的解釋能力主要依靠Log Pseudolikelihood值來體現,值越大,負二項回歸模型的解釋能力越強。由表3可得,在樣本觀測值相同的情況下(obs=8008),模型(2)的解釋能力比模型(1)強很多,且具有更多的特征變量通過了顯著性檢驗,可見論文內外部特征對初始被引量的作用更大,而對長期被引量的影響較小。隨著時間的增長,論文有了一定的被引量和關注度,獲得了一定的學術影響力,施引者對論文的引用偏好已經不局限于論文本身、期刊及平臺等特征,而有其他更重要的因素影響施引者的引用偏好。
3.2.2高被引論文內外部特征與歷年被引量的相關性
為了更深入了解高被引論文內外部特征對歷年引文時間窗口的被引量發揮影響時所具有的規律性,本文構建了高被引論文內外部特征與歷年被引量的負二項回歸模型,并將其結果展現如表4所示。
為了更直觀展現高被引論文內外部特征對歷年被引量影響的規律性,本文在表4的基礎上作高被引論文特征與歷年被引量關系強弱圖,如圖4所示。圖中各個節點處紅色點表征該特征在該引文年份通過顯著性檢驗,黑色點表明未通過顯著性檢驗,由圖4可看出,大部分特征變量都呈下降趨勢,可見論文本身及平臺特征變量對后期被引量的影響在逐漸減弱,這與上文結論一致。對被引量影響較大的特征變量是開放獲取、學科數量、基金資助、國家合作規模以及影響因子,其余特征變量折線在0值附近波動,對被引量影響較小,且規律性不明顯,故而本文不做詳細闡述。對被引量影響較大的特征變量中,影響因子和國家合作規模對各個引文時間窗口下的被引量始終具有正向的影響,且其影響較為穩定:學科數量除了對出版年被引量的影響沒有通過顯著性檢驗,其余年份均對被引量具有顯著的正向影響,且其影響逐年遞增,可見施引者越來越青睞于跨學科的論文;基金資助特征對初期被引量始終具有顯著的正向影響,且影響較大:但其對被引量的影響一直下降,在引文后期變為顯著的負向影響:開放獲取特征對被引量的影響呈現先下降后上升的“U型”規律,雖然該特征對被引量的影響總體數值有些許的下降,但始終是影響歷年被引量最核心的特征變量。這可能因為論文發表初期,基金資助、開放獲取及高影響因子期刊等特征是論文較大的“標簽”,這些“標簽”極大地增加了論文的可見性,而在論文發表后期,論文憑借自身的高質量有了一定的引文量,獲得一定的學術影響力,這些標簽的影響力就慢慢減弱,故而基金資助、影響因子對被引量的影響處于下降態勢:而開放獲取決定論文的可獲得性,只有論文可獲取才可能被引用,故而開放獲取對被引量始終具有重要的影響。
3.2.3高被引論文的內外部特征與引文累積速度的相關性
本文采用多元線性回歸方法探究高被引論文內外部特征與引文累積速度的關系,該方法的有效性建立在變量無異方差及無多重共線性的基礎上,因而需要對變量進行異方差與多重共線性的檢驗。
1)異方差檢驗
殘差圖和懷特檢驗(White Test)通常被用來檢驗數據是否存在異方差。殘差在數理統計中指實際值與估計值(擬合值)之間的差值,通過構建殘差(Fitted Values)與擬合值(Residuals)的散點圖可以了解殘差與因變量擬合值的變化情況,如圖5所示,若殘差隨著擬合值的變化而變化,則認為存在異方差:若殘差固定在某個值上下波動,則認為不存在異方差。由圖5可看出,殘差隨著擬合值的波動較為劇烈,故而可直觀判定數據存在異方差。
在殘差圖的基礎上,本文通過懷特檢驗的方法進一步檢驗變量是否存在異方差,懷特檢驗的原假設為:變量為同方差。引文累積速度進行懷特檢驗的結果P值為0.0000(P=0.0000),該結論非常顯著地拒絕了同方差的原假設,可判定數據存在異方差,故而下文應采取穩健的標準差對數據進行多元線性回歸以消除異方差的影響。
2)多重共線性的檢驗
統計學中多用方差膨脹因子(VIF)來檢驗變量之間是否存在多重共線性。方差膨脹因子通常以10作為判斷邊界,當VIF<10,認為不存在多重共線性;VIF>10,存在多重共線性。本文對該回歸模型進行多重共線性檢驗,得出回歸模型的平均VIF(Mean VIF=1.28)值為1.28,遠遠小于合理值10,故而認為該回歸模型不存在多重共線性問題。
3)以引文累積速度為因變量的多元線性回歸模型及結果分析
上文已證明變量存在異方差,因而本文采用穩健的標準差對高被引論文內外部特征與引文累積速度進行多元線性回歸,以克服異方差的影響,回歸結果如表5所示。
引文累積速度反映研究成果在科學界傳播的速度,引文累積速度越快,其在科學界傳播速度越快。由表5回歸結果可得,除了關鍵詞數量和摘要長度,其余特征變量均對引文累積速度具有顯著的影響,其中標題長度、作者合作規模、國家合作規模、基金資助、參考文獻數量、影響因子及開放獲取等特征對引文累積速度具有顯著的正向影響:而學科數量和文章篇幅對引文累積速度具有顯著的負向影響。其中,長標題、跨國合作、基金資助、高影響因子期刊、開放獲取等特征變量對引文累積速度具有較大的促進作用。
4研究結論
本文以高被引論文為研究對象,運用WOS數據庫的2010年高被引論文題錄及歷年引文數據,在對被引量進行過度分散檢驗的基礎上,選擇負二項回歸及多元線性回歸方法探究高被引論文內外部特征與被引量的關系,研究結果表明:
1)高被引論文內外部特征共同影響被引量。多國合作、多學科數量、參考文獻數量、高影響因子以及開放獲取等內外部特征對高被引論文長期被引量具有顯著的正向影響:論文內外部特征對初始被引量的作用更大,而對長期被引量的影響較?。洪_放獲取是影響高被引論文長期被引量最核心的正向特征指標。
2)高被引論文內外部特征對歷年被引量的影響具有差異:開放獲取、學科數量、基金資助、國家合作規模以及期刊質量等特征變量對歷年被引量具有較大影響,且具有一定的規律性。引文累積速度快的論文,較早地擁有了一定的被引量和關注度,研究者可以從跨國合作、基金資助、高影響因子、開放獲取等方面快速提高論文在學術界的傳播速度,進而提高關注度和影響力。
隨著時間的增長,論文有了一定的被引量、關注度及影響力之后,施引者對論文的引用偏好已經不局限于論文本身、期刊及平臺等特征,因而對于高被引論文影響因素的探索不能僅僅限于此類特征因素,識別影響高被引論文其他核心因素是今后探索研究的重點:此外,本研究僅就WOS數據庫高被引論文全學科視角的研究分析,而未分學科對高被引論文特征進行差異性探討,不同學科下高被引論文特征對被引量的影響可能存在差異,留待后續研究。
(責任編輯:孫國雷)