●郭 強,趙 瑾
(1.鄭州大學 信息管理系,鄭州 450001;2.中國人民解放軍炮兵學院 軍事運籌教研室,合肥 230031)
在對科技論文進行描述與評價的過程中,需要建立相關的指標或指標體系來對論文的某種側面特征或是其整體特性進行衡量,由此來獲得科技論文相關性質的近似表征或度量,如論文的學術影響力、研究內容的創新性與前沿性等。由于論文的被引次數具有相對較高的可靠性、客觀性,同時引文數據的獲取具有其便捷性,使得論文的被引次數成為較為基本的描述指標有了其理論及實際基礎,從而能夠建立基于論文被引次數的復合指標,如期刊的影響因子以及作者的h指數等。本文希望在被引次數及其復合指標的基礎上考慮論文的下載次數,并由此來進一步探討相應的論文影響力的多屬性描述,從而考察在論文被引次數的基礎上納入下載次數對于評價指標體系差異性以及全面性的影響,進而也能夠利用所得到的指標體系對h指數以及影響因子等進行考察,一方面可以對相關的復合指標進行多屬性的探討,另一方面也可以對這種多屬性描述的可行性進行考察以及對其有效性進行檢驗。
科技論文多屬性描述的已有研究側重于論文的學術質量、論文的學術影響力評價指標體系的建立與應用,具體內容涉及對指標體系的合理性、可靠性、可用性的考察;對指標權重的確定,以及對所建指標體系的實踐檢驗等。其中論文的被引次數以及論文所屬期刊的影響因子往往會成為指標體系構建的基礎,究其原因是由于利用被引次數對學術質量或是影響力進行描述具有其客觀性,同時經驗考察的結果往往會顯示,期刊的影響因子與論文的學術水平以及論文的影響力等也具有較高的正相關性。
以被引次數與影響因子為基礎能夠構造出相關的評價指標,用以反映論文質量及其影響力的不同側面特征。在這個過程中,為了盡可能滿足描述體系的全面性,是否也需要考慮以文獻的被引情況作為判斷依據的描述指標,如是否存在能夠作為對論文影響力以及重要性的側面反映,而該類指標及其取值并不完全或者是直接建立于該論文的被引情況上的。
除了考慮綜合指標體系的構建外,針對論文質量或者是其影響力的復合指標由于往往不涉及指標權重的確定過程,所以能夠帶來描述體系中的計算量的減少,如論文引證系數建立在論文被引情況與期刊影響力之間關系的考察基礎上。考慮到論文的自引以及不同學科相互之間的差異,直接使用被引次數與影響因子進行描述可能會帶來與論文實際影響力的偏差,由此需要對被引次數以及期刊的影響因子進行修正或是優化,并將修正后的論文被引情況與期刊的影響因子相乘來建立論文實際影響力的表征,[1]再如利用影響因子分數平均值來對論文進行評價時則是側重于不同學科之間論文質量或是影響力的可比性。[2]
如果僅對論文影響力的多屬性描述進行考察,從直觀上,文獻的被引用情況能夠體現出該文獻所具有的學術影響力,同時經驗考察與同行評議的結果也均能表明文獻的被引次數與其影響力之間的顯著相關,盡管這種相關性是建立在統計意義的基礎上,但是并不妨礙利用被引頻次對文獻的影響力進行表征的合理性,而這種合理性也是引文分析具有可行性的基礎。但是如果所考察的論文均具有相近的被引次數,并且各論文所屬期刊的影響因子等期刊影響力指標值也能夠較為接近,那么這些論文具有相似的影響力是否也會是必然。如果不是,那么是否意味著在利用被引情況對文獻影響力進行描述的基礎上還存在著其它的論文影響力評價指標,畢竟從直觀上綜述性論文與一般的研究論文在滿足被引情況與所屬期刊影響力較為相近的情況下,兩類論文的影響力是否也能夠較為相近至少并不顯然。其次,論文的被引情況與影響力之間的高度正相關也意味著在統計意義上前者對論文影響力的變化行為能夠進行相當部分的解釋。另外,作者在其研究過程中往往并非是將其所閱讀或者是所使用過的文獻全部列入到論文的參考文獻當中,那么可以假設在所有可能被引用的文獻當中最終被作者引用的文獻應當具有某種最優性,然而對于在研究過程中使用但是未獲得最終引用的文獻的影響力應該如何來描述,或者說未被引用的文獻的學術影響力并沒有完全反映到該類文獻的被引次數當中。因此,對于文獻被使用但未被引用的情況在目前較難獲取的情況下,能否考慮將文獻的下載次數作為對文獻影響力的側面表征。畢竟從直觀上論文的下載次數能夠與該論文的被使用情況或者是受利用的程度相對應,從而與文獻的被引情況等一起納入到指標體系中用以對論文的影響力進行描述。當然,前提是要以文獻資源的數字化以及網絡環境作為基礎,并且論文的下載數據也能夠獲取。將論文的下載次數作為對論文的質量以及影響力的評價指標已有研究,已有的研究還包括對期刊、論文的下載指標與被引指標的關系,特別是兩者的不一致性所進行的考察等。[3-4]
下載情況與被引情況具有同一性的基礎,兩種類型指標均是對描述對象的內在價值的側面反映,已有的研究對論文或是期刊的被引情況與下載情況之間的差異進行了考察,如在考察年度被下載以及被引用的論文的年代分布,下載次數與被引次數以及有關復合指標在期刊中的分布狀況,期刊或者論文按照被引次數與下載次數以及有關復合指標等的排序相關性。[4]仍將CNKI的鏡像站版作為數據來源,并以圖書情報類的期刊論文為例,假設圖書情報類文獻的最大引文年限為3年。由于從直觀上,在最大引文年限之后文獻的受利用程度會隨著時間呈現下降的趨勢,那么不嚴格地,如果選取考察時長為5年,則該時段能夠大致反映文獻被引情況的主要部分,從而對該文獻的受利用程度進行基本的表征,或者說認為該時段足夠長以至于近似體現論文被引情況的統計性質,再考慮文獻的下載情況作為對文獻影響力的側面反映,與被引情況相比往往會具有較短的延時性,而且從直觀上論文的下載情況隨時間的衰減速率也會相對較高,[4]所以仍然選取上述的考察時長來近似體現論文下載情況的統計性質。由此選取2004年與2005年6月份出版的圖書情報類期刊論文作為考察對象,同時需要指出,由于選取的考察時長是建立在能夠對文獻的被引情況以及下載情況進行近似表征的假設基礎上,所以在這里忽略由起始考察時間的不同所帶來的文獻考察時段的差異,以近似滿足所得原始數據之間的可比性要求。
對于所選取的論文樣本集,由于在上述考察時段內每篇論文均具有與其對應的被引總量與下載總量,所以能夠得到這兩個指標的隨機樣本對。將這些論文的被引總量與下載總量分別由小到大進行排序,根據依次得到的各個指標值的等級,能夠給出論文的被引總量與下載總量之間的等級相關系數為0.7011,其中當指標值相同時取相應的指標值等級為其平均等級,同時從總體上假設檢驗的結果為在0.05水平下論文的下載總量與被引總量之間存在等級相關關系,同樣地可以得到論文的年均被引次數與其年均下載次數之間的等級相關系數為0.7008,并且在0.05水平下論文的年均被引量與年均下載量之間也存在等級相關關系。進一步地,將論文的年均被引量與年均下載量分別除以相同發表年度的論文的年均被引量與年均下載量的算術平均值,則可以得到論文的相對年均被引量以及相對年均下載量,那么類似地可以得到該兩相對量之間的等級相關系數為0.7058,而且在0.05水平下論文的相對年均被引量與相對年均下載量之間同樣存在等級相關關系。這些從直觀上反映了論文的下載情況與被引情況之間所具有的同一性,同時也能夠注意到兩者等級相關的密切程度均接近于一般意義下的強相關范圍,其中數據統計的時間為2011年10月。

圖1 論文指標的累積量與論文累積量之間的關系圖
另外,將論文分別按照被引次數以及下載次數進行降序排列,則能夠得到論文的被引次數累積量以及下載次數累積量與論文累積數之間的關系如圖1所示,其中n為論文的累積數,縱軸為論文被引量或是下載量的單位的倍數,在這里單位分別取為6次以及100次,單位的選取是任意的,目的只是為了能夠將這兩個指標的變化情況納入圖中,兩曲線的相對位置并不絕對。從直觀上被引次數與下載次數在論文中均具有布拉德福分布的特征,假設取分區數為3,對于論文的被引次數可以取其核心區的論文數為190篇,各分區的累積被引次數的平均值為5795,標準差僅約為4,同時各論文分區的論文數相繼比的平均值為3.049,標準差為0.866,如果不嚴格地,則認為論文被引次數的分布近似滿足布拉德福分布的分區描述。同樣對于論文的下載次數,其核心區論文數為318篇,各論文分區的論文數相繼比的平均值為2.610,標準差僅為0.485,與被引次數相比,這也是下載次數在論文中的分布更為分散的側面反映。由于在末尾分區處格魯斯下垂的出現,那么大量的論文具有相對較低的指標值,從而使得論文數相繼比會在末尾分區處出現異常,而由于下載次數的分布相對較為分散,所以與被引次數相比能夠在一定程度上減弱末尾相繼比偏高的狀況,從而相繼比的標準差也會相對較低。在圖1中看出在論文累積數的末端,對于下載次數與被引次數,格魯斯下垂都能夠有所顯現,所以在靠后的分區處均會出現相繼比的異常,例如取分區數等于5,對于下載次數與被引次數分別有各分區的論文數的相繼比為1.909,1.625,1.670,2.989以及1.878,1.536,1.546,2.508。同時,被引次數在論文樣本中的分布也能夠與布魯克斯公式相一致,其核心區以及非核心區的擬合方程分別為c=120.03n0.7477與c=4937.7Lnn-20340,判定系數分別為0.9976以及0.9939,類似地對于下載次數在論文中的分布可以得到其擬合方程為d=1567.9n0.7222與d=93582Lnn-452058,判定系數分別達到0.9992以及0.9961。從直觀上下載次數與被引次數在論文樣本中均具有布拉德福分布的特征,能夠注意到與下載次數的分布相比,在分區數相同的情況下被引次數具有相對較少的核心區論文數,從而在一定程度上反映了下載次數在論文中的分布可能會更為分散。
圖2中考察論文指標累積值的相對量,此時兩指標曲線能夠進行相互比較,其中橫軸為論文數的累積比重,縱軸為論文下載次數與論文被引次數的累積比重。當論文累積百分比由坐標原點變化至點A時,下載累積比重均位于被引累積比重的下方,說明在該范圍內對應于相同的論文累積比重,被引累積百分比會相對較高,從而被引次數在論文中的分布也會相對較為集中。而在點A至點(1,1)的范圍內下載曲線位于被引曲線的上方,反映了與下載次數相比被引次數更多的集中于排序相對靠前的論文,而且在該范圍內兩曲線之間的相對位置也是由于兩曲線段具有相同的端點 (0,0)與 (1,1)的緣故。

圖2 論文指標的累積比重與論文累積比重之間的關系圖
圖1與圖2是以圖書情報類的期刊論文作為考察對象,需要改變學科的屬性以及時間范圍以對所得認識的一般性進行檢驗。在上述對論文下載次數進行考察的基礎上,采用在文獻[6]中所建立的論文學術影響力評價指標體系,選取論文影響力的描述指標分別為論文截至數據統計時間的被引總量,論文的年均被引量,論文在發表后三年中的被引總量,論文在發表后的最大年度被引次數,論文所屬期刊的影響因子,論文的相對年均被引量,論文所屬期刊的相對影響因子;論文在發表后三年中的相對被引總量,論文截至數據統計時間的下載總量,論文的年均下載量,以及論文的相對年均下載量,其中相對指標的取值是采用絕對指標值與對應絕對指標的算術平均值相除來得到。
仍然采用上述的論文樣本,由于從直觀上所選取的考察時長能夠對論文的被引情況與下載情況的主要部分進行基本的反映,所以將論文從其發表到統計時間之內的被引次數與下載次數作為對論文被引總量與下載總量的大致表征,而且發表后三年中的論文的被引及下載情況也包含在考察時段內??疾煺撐牡淖畲竽甓缺灰螖禃r需要確定論文的考察時長,在這里采用論文所屬研究領域的期刊的被引半衰期作為衡量的指標,其假設是認為在被引半衰期之后論文的被使用次數會相對較少。如果將2011年圖書情報領域期刊的被引半衰期的平均值取為5年,那么意味著期刊在5年前發表的文獻在考察年度會相對較少的被引用,或者該領域文獻的最大被引年度在通常情況下應當包含于5年內,所以仍然選取考察時間為2011年10月,同時論文的發表年度取為2004年與2005年,相應地取該6-7年內的最大引用年度的被引次數來近似表征論文自發表后的最大年度被引次數。另外,期刊的被引半衰期會隨時間發生變化,由于圖書情報領域的發展,所以該領域期刊被引半衰期的逐年增長,但是從直觀上由于是對期刊的整體反映從而隨時間具有其相對的慣性,所以被引半衰期的增長往往沒有年份增加的速率快,那么對于所選取的2004年與2005年的文獻,在通常情況下,如果將考察時段進行延長,則論文樣本的發表時間仍然沒有包含在相應考察年度的被引半衰期內,這也意味著在延后的考察年度中所選取的論文樣本依然會相對較少被引用。所以盡管被引半衰期會有所增加,但是這并不影響將考察時間取為上述的2011年。進一步地,在所得數據的基礎上對論文影響力的描述指標進行主成分分析,由此對各指標的權重進行確定并對論文的影響力進行描述,同時根據影響力的描述值也可以對上述描述指標的全面性進行考察。
在指標的相關系數矩陣中,可以看出期刊的影響因子與期刊的相對影響因子之間的顯著相關,并且這兩個指標與其余指標之間的相關系數的變化范圍為0.376至0.396,其余指標之間的相關系數的最小值為0.566,那么從直觀上僅由指標間的相關系數出發,可能需要提取兩個主成分來替代已有的描述指標,分別對期刊類與論文類指標進行反映,前者包括期刊的影響因子以及期刊的相對影響因子,后者則與其余的指標相對應,由此主成分的結構關系以及各指標的歸類情況均能夠與已有研究較為吻合。[1]另外,期刊類或論文類指標相互之間的顯著相關性也是在這里進行主成分分析的原因。
在總方差解釋表中,由于前兩個主成分所對應的相關系數矩陣的特征值均大于1,分別為7.827與1.598,并且這兩個主成分所對應的方差累積百分比達到了85.682%。如果只考慮這兩個主成分,那么利用成分矩陣中各指標與這兩個主成分之間的簡單相關系數可得各指標的公因子方差分別為0.961,0.963,0.912,0.904,0.864,0.962,0.864,0.910,0.700,0.680,0.704,此時公因子方差的平均值為0.857且標準差僅為0.110,由此提取這兩個主成分。由于論文下載類指標的公因子方差均相對較小,所以只選取這兩個主成分時對于論文的下載情況的反映可能會有其不足。在成分矩陣中,論文類指標與第一主成分之間的簡單相關系數均相對較高,變化范圍為0.801至0.956,與第二主成分的相關系數的絕對值均在0.253以下,期刊類指標則與第二主成分高度正相關,相關系數均為0.760,與第一主成分的相關系數均為0.536。由此各指標均能按照所提取的兩個主成分進行大致的歸類,主成分的結構與僅從指標間相關系數出發得到的認識也相一致。
由這兩個主成分所對應的矩陣特征值以及在成分矩陣中各指標與所提取的主成分之間的相關系數可得這兩個主成分F1與F2的表達式,分別為F1=0.341z1+0.342z2+0.329z3+0.331z4+0.192z5+0.341z6+0.192z7+0.329z8+0.290z9+0.286z10+0.291z11;F2=-0.177z1-0.176z2-0.199z3-0.170z4+0.601z5-0.177z6+0.601z7-0.200z8+0.160z9+0.156z10+0.161z11,其中zi為Z標準化后的指標值,進而有論文影響力的得分表達式為w=0.253z1+0.254z2+0.240z3+0.246z4+0.261z5+0.253z6+0.261z7+0.239z8+0.268z9+0.264z10+0.269z11。
按照該得分表達式以及指標在標準化后的取值能夠得到論文樣本的影響力分值,將論文按照其對應分值進行降序排列,則能夠得到論文的累積分值與論文的累積量之間的關系,從而對論文分值在論文中的分布狀況進行反映。如果不考慮論文的下載總量與論文的年均下載量以及論文的相對年均下載量來進行類似的考察,以前8項指標的原始數據經過標準化后進行主成分分析時,所得到的指標間的相關系數矩陣并不是正定矩陣,從矩陣元素來看,究其原因是由于在所統計的數據的基礎上,部分指標之間具有偏高的相關系數,去除后3項指標更增加了矩陣中這些指標對應列之間的一致性,從而使得指標的相關系數矩陣能夠近似為不滿秩,由此導致了該矩陣的非正定。當然這并不意味著這部分指標之間的絕對重疊,出現這種情況僅僅是針對這里的原始數據而言,另外所選取的論文樣本數為3179,也超過了一般情況下所要求的指標數量的5倍。因此可以去除部分相關程度較高的指標使得矩陣為正定,而且去除部分相對系數較高的指標,也能夠在一定程度上避免對論文影響力的反映的不足。
由剩余的7項指標重新進行考察,類似地可以得到期刊的影響因子與期刊的相對影響因子與其余指標之間的相關系數為0.383至0.391,而這兩個指標之間仍然呈顯著相關,其余指標之間的相關系數的最小值為0.922。所以按照相關系數可能仍然需要提取兩個主成分分別與期刊類指標與論文類指標相對應,在總方差解釋表中,前兩個主成分所對應的特征值分別為5.257與1.539,相應的方差累積百分比為97.092%,同時這7個指標的公因子方差分別為0.969,0.970,0.963,0.931,0.999,0.999,0.963,公因子方差的平均值為0.971,標準差僅為0.024。所以提取這兩個主成分,在成分矩陣中所有的論文類指標與第一個主成分的相關系數在0.947至0.965之間進行變化,與第二個主成分之間的相關系數的絕對值則相對較低,且均在0.202以下,而且兩個期刊類指標與這兩個主成分的相關系數分別均為0.571以及0.821,由此按照成分矩陣各指標均能夠進行大致的歸類。進一步地,由主成分所對應的特征值以及成分矩陣中的相關系數可以得到兩個主成分F3與F4以及論文影響力的得分表達式,分別為F3=0.421z1+0.421z2+0.419z3+0.413z4+0.249z5+0.249z7+0.419z8;F4=-0.157z1-0.157z2-0.163z3-0.148z4+0.662z5+0.662z7-0.162z8,以及w1=0.290z1+0.290z2+0.287z3+0.286z4+0.342z5+0.342z7+0.287z8。
根據論文影響力的得分表達式以及標準化后的數據能夠得到每篇論文的影響力描述并得到各論文影響力分值排序的變化情況,如圖3所示。

圖3 論文影響力分值排序的變化情況
將論文按照其w1值進行降序排列,能夠得到每篇論文的排序值r1,同時每篇論文有與其對應的w分值以及相應的排序值r,由此可得每篇論文的排序變化為r1-r。在圖3中,橫軸為論文影響力排序值r1的各個取值區間,縱軸為對應區間中論文排序變化的平均值,從整體上能夠注意到排序相對靠后的論文的影響力會有所提升,相應地則有排序靠前的論文的影響力平均值的下降,從而反映了論文的下載情況對于論文得分的影響,而這種影響則來源于網絡及數字環境所帶來的論文獲取的便捷性。
進一步地,還可以考察論文影響力的累積分值與論文的累積數量之間的關系,如采用兩者的相對量來反映論文的影響力分值在論文中的集中或是分散程度。由于在經過指標數據的標準化后,部分論文的影響力分值會取為負值,所以可以考慮將各論文的分值分別加上常數以求分值的累積和。需要指出的是,盡管加上常數不會改變影響力分值所服從的分布,但是會影響影響力分值在論文中的集中或是分散的程度,由此需要對兩種論文分值所加上的常數分別進行選取,使得所加常數對于兩種分值在論文中的分布情況的影響盡可能相等,從而能夠在此基礎上對所得到的兩種分值累積量進行比較,或者可以考慮對指標數據的標準化方法進行調整,從而使得最終的論文影響力分值為正,由此對論文的得分情況進行進一步的考察。
[1]鐘文一,陳云鵬.基于引證系數的論文影響力評價方法研究 [J]. 情報科學,2011,29(5):706-712.
[2]郭紅,潘云濤.影響因子分數平均值:一個評價學術論文質量的新指標[J].編輯學報,2006,18(6):475-477.
[3]張玉華,等.科技論文評估方法研究[J].編輯學報,2004,16(4):243-244.
[4]萬錦堃,等.期刊論文被引用及其Web全文下載的文獻計量分析[J].現代圖書情報技術,2005(4):58-62.