摘要:特征因子算法是評價期刊質(zhì)量的一種重要方法,文章在特征因子算法基礎(chǔ)上通過改進(jìn)構(gòu)造出一種作者影響力評價的新算法。首先對特征因子算法原理進(jìn)行簡單介紹。然后通過分析作者引用相較期刊引用的特殊性,對特征因子算法進(jìn)行了改進(jìn),并對其實(shí)現(xiàn)步驟進(jìn)行了詳細(xì)說明。最后,選擇國內(nèi)圖情學(xué)作者引用網(wǎng)絡(luò)進(jìn)行應(yīng)用研究,得到了這些作者的影響力排名,并與傳統(tǒng)的被引次數(shù)進(jìn)行了比較。
關(guān)鍵詞:作者影響力;特征因子算法;改進(jìn)
中圖分類號:G350文獻(xiàn)標(biāo)志碼:A文章編號:10085831(2015)02010604隨著信息經(jīng)濟(jì)時代向知識經(jīng)濟(jì)時代的發(fā)展,知識溝通顯得尤為重要,文獻(xiàn)是知識傳播的主要載體,而作者是文獻(xiàn)的創(chuàng)作者,所以作者已經(jīng)成為知識創(chuàng)造的力量源泉和知識傳播的主要承載者。作者影響力的評價一直是科研管理界和學(xué)者們關(guān)注的焦點(diǎn)問題,不少學(xué)者對此進(jìn)行了一系列研究,產(chǎn)生了眾多影響力較大的成果,主要集中在如下三個方面:一是被引次數(shù)。美國信息學(xué)家E.Garfield曾編制《科學(xué)引文索引》,首次系統(tǒng)化地對作者之間的引用進(jìn)行研究,并提出用被引次數(shù)對作者的影響力進(jìn)行評估[1];二是h指數(shù)。美國物理學(xué)家J.E. Hirsch將作者的發(fā)文量和被引次數(shù)進(jìn)行綜合考量,提出h指數(shù)對作者進(jìn)行評價研究[2];三是改進(jìn)的pagerank算法。如美國印地安那大學(xué)的Ying Ding考慮到作者引用與網(wǎng)頁鏈接之間的相關(guān)性,于是提出對pagerank算法進(jìn)行改進(jìn)以對作者影響力進(jìn)行評價[3]。以上研究中前兩方面都是僅圍繞作者的絕對被引次數(shù)展開,第三個方面的研究雖然在考慮作者被引次數(shù)的同時也將施引作者的影響力考慮進(jìn)去,但對一些參數(shù)的處理方面還有可改進(jìn)之處。隨著對期刊評價的一種新算法——特征因子算法的提出,該算法在考慮期刊引用之間的被引次數(shù)和施引期刊的影響力之外,將其引用的方向性和多次引用情況都考慮進(jìn)去[4],這樣對于評價期刊的影響力更具有科學(xué)性和說服力。D. Jevin考慮到期刊評價與作者評價之間有非常明顯的相似性,開始嘗試將該算法運(yùn)用到對作者影響力評價中[5],而國內(nèi)有不少學(xué)者只是針對特征因子算法自身的原理等進(jìn)行探究[6-8],目前尚未有學(xué)者將該算法應(yīng)用到對作者的評價研究中。
本文試圖將特征因子算法拓展到對作者影響力的評價研究中,并且根據(jù)作者影響力評價研究自身的特殊性對該算法進(jìn)行改進(jìn),提出一種對作者影響力評價的新算法,這樣不僅是對作者影響力評價研究領(lǐng)域的補(bǔ)充,也為該方面的研究提供了一個新的視角。
一、特征因子的基本算法
影響因子在計算期刊的引用次數(shù)時,對于不同期刊的引用都平等對待,只統(tǒng)計引用次數(shù),而事實(shí)上,不同期刊的價值有很大的差別,如Nature和Science這樣影響力非常大的期刊,顯然不能和一些普通期刊的引用份量同等對待,兩篇文章分別被Nature引用和被一個不知名的期刊引用,則這兩篇文章的質(zhì)量相差很大。基于這樣的現(xiàn)實(shí)情況,于是就引入特征因子(Eigenfactor)這個指標(biāo),該指標(biāo)的制定考慮了引用該期刊的期刊源的權(quán)重,通過期刊之間的引用情況構(gòu)建期刊引用網(wǎng)絡(luò),從而對期刊的重要性進(jìn)行評價。特征因子算法工作原理具體如下:首先選擇一個期刊,并任意選擇該期刊中一個參考文獻(xiàn)鏈接到另一個期刊,然后在之前鏈接到的那個期刊中再任意選出一個參考文獻(xiàn),再繼續(xù)鏈接到對應(yīng)的下一個期刊,依此類推,不停地重復(fù)這個行為,于是發(fā)現(xiàn)被鏈接到次數(shù)越多的期刊,其影響力越大,鏈接到該期刊的概率值的百分位數(shù)就是該期刊的特征因子值。
特征因子算法主要包括兩大步驟,首先對期刊引用矩陣進(jìn)行規(guī)范化處理,即:Mij=ZijkZkj,其中Zij表示期刊j來自期刊i的被引次數(shù), kZkj表示期刊j的總被引次數(shù);然后構(gòu)建過渡矩陣,即:P=αM′+(1-α)A,其中α表示期刊引用過程中的阻尼系數(shù),一般取0.85,M′表示矩陣M經(jīng)懸點(diǎn)處理后的隨機(jī)矩陣,A表示期刊發(fā)文量向量對應(yīng)的單位向量,即A=a·eT;最后通過計算過渡矩陣的最大特征值得到期刊的特征因子得分[5]。
二、改進(jìn)的特征因子算法
重慶大學(xué)學(xué)報(社會科學(xué)版)2015年第21卷第2期
馬瑞敏,等基于特征因子算法改進(jìn)的作者影響力評價研究
作者之間的引用與期刊之間的引用情況非常相似,但兩者也有一定的區(qū)別。通常,一個期刊的被引用情況與其所承載的論文數(shù)量有很大關(guān)系,承載論文數(shù)量越多的期刊越有機(jī)會得到其他期刊的引用,而作者之間的引用受作者自身被引次數(shù)的多少影響較大,受作者的發(fā)文量的影響相對較小。因此在如下兩方面進(jìn)行改進(jìn):第一,將特征因子算法中的A改進(jìn)為作者被引次數(shù)向量對應(yīng)的單位向量;第二,在構(gòu)建隨機(jī)矩陣M′時,用作者被引次數(shù)向量代替懸點(diǎn)向量,從而對矩陣M進(jìn)行改進(jìn)后的懸點(diǎn)處理。改進(jìn)后作者影響力算法的具體步驟如下。
(1)構(gòu)建作者引用網(wǎng)絡(luò)矩陣。考慮作者引用與期刊引用的相似性,可以根據(jù)特征因子對期刊評價的原理與思路,模仿期刊引用網(wǎng)絡(luò)矩陣構(gòu)建的方法來構(gòu)建作者引用網(wǎng)絡(luò)矩陣。矩陣中第一行的作者表示被引作者,第一列的作者表示引用作者,矩陣中的元素表示被引次數(shù)。由于排除了自引,所以矩陣對角線上全為0,矩陣Z即為n個作者的作者引用網(wǎng)絡(luò)矩陣,元素Ci,j表示矩陣中作者之間的引用次數(shù)。
(2)對第(1)步中所構(gòu)建的作者引用網(wǎng)絡(luò)矩陣進(jìn)行規(guī)范化處理,即用每列被引次數(shù)除以該列被引次數(shù)的總和,矩陣中相應(yīng)元素可以用如下的公式表示:Hi,j=Ci,jni=1Ci,j
(3)懸點(diǎn)的處理。由于發(fā)現(xiàn)有些作者從來沒有引用過其他作者,因此在所構(gòu)建的作者引用網(wǎng)絡(luò)矩陣中就會有這些作者對應(yīng)的列全為0的現(xiàn)象出現(xiàn),于是稱之為懸點(diǎn)。用1對應(yīng)該矩陣中懸點(diǎn)所在的列,用0對應(yīng)該矩陣中非懸點(diǎn)所在的列,則由1和0組成的行向量就可以表示該矩陣。假設(shè)第二個作者從來沒有引用過其他作者,則在作者引用矩陣中第二列的值全為0,如下所示的向量d即可以表示該作者引用矩陣:d=(010…0)。
(4)計算作者被引次數(shù)向量。每個作者的被引次數(shù)除以所有作者總的被引次數(shù),這樣的一個列向量即為作者被引次數(shù)向量,則作者被引次數(shù)向量中的元素可以用如下的公式表示:ai,1=(5)將所構(gòu)建的作者引用網(wǎng)絡(luò)矩陣中的懸點(diǎn)用被引次數(shù)向量代替,構(gòu)建出一個隨機(jī)矩陣,該隨機(jī)矩陣對應(yīng)作者在科學(xué)文獻(xiàn)引用中的隨機(jī)漫游過程。此時與特征因子有所不同,特征因子是用文章向量來代替期刊引用網(wǎng)絡(luò)矩陣中的懸點(diǎn),而本文在對作者的引用網(wǎng)絡(luò)進(jìn)行研究時選擇了用被引次數(shù)向量來代替懸點(diǎn),這里主要考慮了在對期刊的引用時其隨機(jī)性主要受期刊中文章數(shù)量的影響,而對作者的引用主要是受作者的被引次數(shù)的影響,與作者所發(fā)文章數(shù)的關(guān)系相對較小,故在本文中選擇用被引次數(shù)向量來替代作者引用網(wǎng)絡(luò)矩陣中的懸點(diǎn)。如第(3)步中作者引用矩陣中第二列的元素可以用如下公式表示:Hi,2=nj=1Ci,jni=1nj=1Ci,j。
(6)構(gòu)建過渡矩陣。定義過渡矩陣P=αM′+(1-α)A, 即P=αM′+(1-α)a·eT,其中α為阻尼系數(shù),仍然取0.85,M′為第(5)步中構(gòu)建出的隨機(jī)矩陣,a為第(4)步中的作者被引次數(shù)向量。在此基礎(chǔ)上,再定義π為作者影響力向量,π由過渡矩陣的最大特征值所對應(yīng)的那個向量表示。
(7)計算作者影響力值。作者影響力值向量的計算與特征因子值向量的計算相似,是對應(yīng)作者引用網(wǎng)絡(luò)矩陣和第(6)步中π的點(diǎn)積,經(jīng)過規(guī)范化處理后乘以100,換算為百分值所得。
(8)用Matlab軟件編寫程序進(jìn)行迭代計算,計算出最終結(jié)果。
三、應(yīng)用研究
(一)數(shù)據(jù)的收集與處理
本文選擇中國圖書情報領(lǐng)域內(nèi)的所有作者在2010-2012年的引用情況作為研究對象。為了保證收集數(shù)據(jù)的可靠性與科學(xué)性,我們選擇中國社會科學(xué)引文索引(CSSCI)數(shù)據(jù)庫作為本次研究的數(shù)據(jù)來源。另外,在高級檢索處,選擇發(fā)文年代:2010-2012年;文獻(xiàn)類型:論文;學(xué)科類別:圖書館、情報與文獻(xiàn)學(xué);學(xué)位類別:圖書館、情報與檔案管理(一級),其他都為默認(rèn)的選擇。最終得到文獻(xiàn)記錄為24 041條,作者數(shù)為27 036個。構(gòu)建27036×27036矩陣,然后利用Matlab自編程序進(jìn)行數(shù)據(jù)清理和計算。
(二)結(jié)果分析
基于改進(jìn)算法,得到這27 036位作者的影響力得分。首先,對所有作者的影響力的分布進(jìn)行分析,結(jié)果呈現(xiàn)出非常明顯的偏斜現(xiàn)象(圖1),符合長尾分布特征。
圖1作者影響力的偏斜分布圖
從圖1中可以看出,只有極少數(shù)作者的影響力較高,大部分作者的影響力都很低,并且有不少作者的影響力為0。另外,從圖中作者影響力的偏斜程度看,影響力較高的作者之間波動也相對較大,呈現(xiàn)出明顯的下滑趨勢,可見該領(lǐng)域內(nèi)高影響力的學(xué)者偏少,作者間影響力強(qiáng)弱差距較大。也從一個側(cè)面可以看出本文所提出的方法能夠較好地區(qū)分作者之間的影響力。
為了更好地觀察結(jié)果,下面對前50名作者進(jìn)行研究。被引次數(shù)是當(dāng)前評價作者影響力非常重要的指標(biāo),雖然h指數(shù)提出這么多年,但是仍然不能取代被引次數(shù)在作者影響力評價中的獨(dú)特地位。下面就本文所提方法結(jié)果和被引次數(shù)進(jìn)行比較,表1給出的是前50名作者的影響力與作者被引次數(shù)的具體分布情況。
可以看出運(yùn)用新算法所得的作者影響力評價結(jié)果的排名與作者被引次數(shù)的排名呈現(xiàn)非常明顯的正相關(guān)性。從表1中也可以看出運(yùn)用新算法評價出的作者影響力排名中前3名作者的被引次數(shù)排名完全相同,其余大部分作者運(yùn)用新算法所得的排名和被引次數(shù)排名的差距也基本在±5名內(nèi)。由此可見,本文提出的方法所得結(jié)果和被引次數(shù)很相關(guān),是被引次數(shù)的有益補(bǔ)充。
另外,從原理看,改進(jìn)的特征因子算法不僅考慮了作者的絕對被引次數(shù),而且將施引作者的影響力也考慮進(jìn)去,使對作者影響力的評價更有說服力,這在對圖情學(xué)學(xué)者的評價中也有所體現(xiàn)。如邱冠華、賴茂生、孟廣均等作者,他們都是該學(xué)科領(lǐng)域內(nèi)的精英或者某個方面的帶頭人,通過查閱原始數(shù)據(jù)發(fā)現(xiàn)他們的被引次數(shù)相對不是很高,排名稍靠后,但是施引作者的影響力都相對較強(qiáng),那么這些作者的影響力排名靠前是可以解釋通的。從這點(diǎn)出發(fā),本文提出的方法在原理上有一定的優(yōu)越性,得到的結(jié)果也符合實(shí)際。
四、結(jié)語
作者影響力評價是當(dāng)前科學(xué)計量學(xué)研究的熱點(diǎn),不同學(xué)者提出了不同的解決方案。本文受特征因子這一期刊質(zhì)量評價方法的啟迪,對其進(jìn)行了改進(jìn),使其更符合作者引用網(wǎng)絡(luò)的特征。文章詳細(xì)介紹了實(shí)現(xiàn)新算法的步驟,并將該方法應(yīng)用在中國圖情學(xué)學(xué)者影響力評價上,發(fā)現(xiàn)該方法能夠較好地區(qū)分作者的影響力,其分布符合長尾分布特征。與作者引用次數(shù)——一種經(jīng)典的作者影響力評價指標(biāo)相比,本文提出的新方法不僅原理上較為科學(xué),而且在結(jié)果呈現(xiàn)上和作者被引次數(shù)所得排序高度等級相關(guān),但兩者也有一定差別。通過實(shí)例分析可證實(shí)本方法較符合實(shí)際,切實(shí)可行,能夠成為作者影響力評價方法的有益補(bǔ)充。
參考文獻(xiàn):
[1]邱均平.信息計量學(xué)[M].武漢:武漢大學(xué)出版社,2007.
[2]HIRSCH J E. An index to quantify an individual’s scientific output[J]. Proceedings of the National Academy of Sciences of the United States of America, 2005, 102 (46):16569-16572.
[3]YING D. Applying weighted ragerank to author citation networks[J]. Journal of the American Society for Information Science and Technology, 2011, 62(2):236-245.
[4]BERGSTROM C T, WEST J D, et al. The eigenfactor metrics[J]. The Journal of Neuroscience, 2008, 28(45):11433-11434.
[5]JEVIN D W.Authorlevel eigenfactor metrics: Evaluating the influence of authors, institutions, and countries within the social science research network community[J]. Journal of the American Society for Information Science and Technology, 2013(4):787-801.
[6]劉艷華,華薇娜.期刊評價新指標(biāo)——特征因子[J].情報雜志,2010(7):122-126.
[7]米佳,濮德敏.特征因子原理及實(shí)證研究[J].大學(xué)圖書館學(xué)報,2009(6):63-68.
[8]任勝利.特征因子( Eigenfactor):基于引證網(wǎng)絡(luò)分析期刊和論文的重要性[J].中國科技期刊研究,2009,20(3):415-418.