江永眾 ,陶虹琳,杜彥璞,b
(成都理工大學(xué)a.管理科學(xué)學(xué)院;b.四川省數(shù)學(xué)地質(zhì)重點(diǎn)實(shí)驗(yàn)室,成都 610059)
Garfield[1]開創(chuàng)文獻(xiàn)計(jì)量學(xué)以來(lái),期刊評(píng)價(jià)指標(biāo)的選擇問(wèn)題一直是一個(gè)重要的研究問(wèn)題。期刊是科學(xué)研究中的重要學(xué)術(shù)資源,在科學(xué)研究中發(fā)揮著非常重要的作用。期刊的使用者集中在高校師生,圖書館選購(gòu)部門以及期刊愛好者等。隨著期刊名目的逐漸增加,學(xué)者們將面臨從數(shù)量眾多、內(nèi)容繁雜的期刊名目中選擇符合自身研究方向或感興趣的期刊的難題,從而經(jīng)常陷于如何高效選購(gòu)、閱讀相關(guān)刊物以及在何種期刊上發(fā)表論文的困境。期刊評(píng)價(jià)體系來(lái)源于Eugene Garfield的《科學(xué)引文索引》(Science Citation Index,簡(jiǎn)稱SCI),目前引文索引已經(jīng)成為評(píng)價(jià)期刊質(zhì)量的重要指標(biāo)。國(guó)內(nèi)最早源于1992年北京大學(xué)圖書館出版的《中文核心期刊要目總覽》,對(duì)期刊評(píng)價(jià)進(jìn)行了研究。現(xiàn)階段國(guó)內(nèi)多家機(jī)構(gòu)對(duì)期刊都開展了評(píng)價(jià)工作,對(duì)期刊評(píng)價(jià)指標(biāo)的選擇方法在我國(guó)已有少量研究[2-9]。本文基于現(xiàn)有國(guó)內(nèi)期刊評(píng)價(jià)指標(biāo)體系,首先對(duì)套索方法做了簡(jiǎn)要的介紹,通過(guò)統(tǒng)計(jì)學(xué)研究中的Lasso方法,解決指標(biāo)間的多重共線性,把它運(yùn)用于期刊評(píng)價(jià)指標(biāo)選擇的實(shí)證研究中,通過(guò)定量分析的方法篩選主要評(píng)價(jià)指標(biāo),使科研人員,特別是一些跨學(xué)科研究人員,例如勞動(dòng)關(guān)系研究人員可以選擇合適的期刊進(jìn)行發(fā)表,也可以使圖書館結(jié)合實(shí)際選購(gòu)合適的期刊。
Lasso方法是Tibshirani建立在Breiman[10]于1995年提出的非負(fù)絞除法(NNG)的基礎(chǔ)上,對(duì)NNG不足之處做了改進(jìn)。非負(fù)絞除法的預(yù)測(cè)誤差相對(duì)較小并且由于非負(fù)絞除法去除了模型中很多接近0但非0的特征,從而增強(qiáng)了模型的解釋性。在高維數(shù)據(jù)分析中,非負(fù)絞除法由于對(duì)高維特征進(jìn)行了壓縮,模型簡(jiǎn)化了計(jì)算過(guò)程并且增強(qiáng)了重要特征的解釋性。但是非負(fù)絞除法的缺點(diǎn)是其運(yùn)算結(jié)果要依賴于最小二乘估計(jì)的符號(hào)和數(shù)值大小。并且存在過(guò)擬合和多重共線性情況時(shí),由于最小二乘估計(jì)效果不好而會(huì)影響預(yù)測(cè)準(zhǔn)確性。
對(duì)于一般線性回歸模型見式(1):

其中β是pn×1維列向量,εi是獨(dú)立同分布的。在一般的回歸模型中,常常認(rèn)為觀測(cè)值彼此獨(dú)立或者被解釋特征Yi在給定解釋特征xij的條件下相互獨(dú)立。同時(shí)假設(shè)xij是經(jīng)過(guò)標(biāo)準(zhǔn)化之后得到的,即當(dāng)訓(xùn)練集維數(shù)和樣本量幾乎相等或者超過(guò)樣本量時(shí),有些回歸系數(shù)是稀疏的即有些元素為0,這時(shí)傳統(tǒng)的最小二乘法將不再適用,需要尋找其他的相關(guān)方法比如正則化方法或者懲罰方法來(lái)代替。常用的有嶺回歸和Lasso方法,但是,通過(guò)嶺回歸得到的模型包含全部的特征,不能進(jìn)行特征選擇。和嶺回歸不同的是Lasso方法采用L1范數(shù),而嶺回歸是L2范數(shù)Lasso算法的參數(shù)估計(jì)見式(2):

式(2)中λ∈[0,+∞)作為調(diào)和參數(shù),能夠通過(guò)對(duì)它進(jìn)行控制從而使回歸系數(shù)總體變小。若令為回歸參數(shù)的最小二乘估計(jì)值,這樣將會(huì)讓一些回歸系數(shù)縮小并逐漸趨近于0,有些甚至?xí)扔?。式(1)的第一部分表示的是模型擬合的優(yōu)良性,第二部分表示的是對(duì)參數(shù)的懲罰。如果調(diào)和系數(shù)λ越小,那么模型的懲罰力度就會(huì)越小,從而保留的特征就會(huì)越多;反之則特征就會(huì)減少。由此,Lasso方法經(jīng)常被用來(lái)特征選擇,它有兩個(gè)優(yōu)點(diǎn)。其一,Lasso方法在特征選擇的過(guò)程中是連續(xù)的且很穩(wěn)定;其二,對(duì)于高維數(shù)據(jù)而言,Lasso方法使其時(shí)間復(fù)雜度較低
在期刊評(píng)價(jià)中,各個(gè)指標(biāo)代表回歸模型中的自變量,所研究的目標(biāo)變量定義為因變量。對(duì)于Lasso方法的求解,Tibshirani[11]提出使用二次規(guī)劃方法,但Efron認(rèn)為這種求解方法較為復(fù)雜,后來(lái)兩個(gè)合作共同提出了的最小角回歸算法,極大加快了計(jì)算速度。利用該方法求解Lasso,得到Lasso中未知參數(shù)的求解變化路徑。對(duì)于Lars算法,在R和Python中均提供了相應(yīng)的計(jì)算工具包,比如R中的lars和glmnet以及Python的Scikit-learn軟件程序包。
本次實(shí)驗(yàn)平臺(tái)為R-3.2.4,R語(yǔ)言是一種免費(fèi)的開源語(yǔ)言,并提供了大量可以調(diào)用的接口函數(shù),對(duì)于一般的統(tǒng)計(jì)實(shí)驗(yàn)均可用R實(shí)現(xiàn)。同時(shí),為了確保實(shí)驗(yàn)結(jié)果的可靠性,將利用同樣的數(shù)據(jù)信息通過(guò)Python環(huán)境進(jìn)行了一次實(shí)驗(yàn)。Python語(yǔ)言同樣擁有非常豐富的數(shù)據(jù)分析、處理的工具,可以輕松完成本文提到方法的實(shí)現(xiàn)。實(shí)驗(yàn)數(shù)據(jù)來(lái)源于中國(guó)知網(wǎng)CNKI2015年的年度統(tǒng)計(jì)報(bào)告,選取了圖書情報(bào)領(lǐng)域41種期刊作為研究對(duì)象見表1所示。表2為本文待選擇的評(píng)價(jià)指標(biāo)。

表1 41種圖書情報(bào)領(lǐng)域的期刊

表2 待選擇的指標(biāo)說(shuō)明
其中中國(guó)圖書館學(xué)報(bào)、情報(bào)理論與實(shí)踐、圖書情報(bào)知識(shí)等18種期刊在中國(guó)知網(wǎng)CNKI期刊評(píng)價(jià)中暫被列為核心期刊,本文選擇的41種期刊中,核心期刊占比為43.90%。
影響力指數(shù)CI值即學(xué)術(shù)期刊影響力指數(shù)(簡(jiǎn)稱CI)作為一個(gè)綜合指標(biāo),它反應(yīng)的是一組期刊中各個(gè)期刊影響力的大小。在本文中,將CI值作為因變量,其他變量作為自變量,分析各自變量之間的多重共線性問(wèn)題。限于篇幅,表3列出了5種期刊的實(shí)驗(yàn)數(shù)據(jù)。另外,由于各個(gè)指標(biāo)的計(jì)算方式不盡相同,因此,在采用Lasso方法之前,首先需要對(duì)指標(biāo)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。

表3 部分實(shí)驗(yàn)數(shù)據(jù)
對(duì)于Lasso方法中的調(diào)和參數(shù)λ的確定是非常重要的,一般采用交叉驗(yàn)證的的辦法求得λ的最優(yōu)值,即當(dāng)交叉驗(yàn)證取最小值時(shí)λ為最優(yōu)值λmin。為了取得模型的最優(yōu)精度,需要選擇合適的λ,使得模型的預(yù)測(cè)誤差降低到最小值。本文使用AIC/BIC準(zhǔn)則確定模型大小,一般當(dāng)AIC/BIC越小時(shí)表示該模型越精確。AIC準(zhǔn)則其實(shí)是BIC準(zhǔn)則的一個(gè)特殊形式,具體解釋見文獻(xiàn)[12]。實(shí)驗(yàn)采用5折交叉驗(yàn)證[13]的方法,即首先將數(shù)據(jù)隨機(jī)分為5份,然后依次將其中一份用于計(jì)算誤差,剩余4份用于擬合模型,這樣可以得到5個(gè)預(yù)測(cè)誤差,最后取這5個(gè)誤差的平均值。圖1(見下頁(yè))為AIC/BIC信息準(zhǔn)則用于模型選擇的變化圖,圖2(見下頁(yè))為L(zhǎng)asso的系數(shù)解路徑,可以看出當(dāng)約束λ最大時(shí)所有特征被選入模型,隨著約束的減少,特征逐漸減少。

圖1 AIC/BIC準(zhǔn)則用于模型選擇

圖2 Lasso系數(shù)解路徑圖
本文利用AIC準(zhǔn)則確定模型最優(yōu)解,根據(jù)Lasso回歸參數(shù)估計(jì)結(jié)果,發(fā)現(xiàn)在第9步時(shí),AIC達(dá)到最小值并最終選擇了12個(gè)特征,由表4(見下頁(yè))可以看出指標(biāo)x2,x4,x5,x6,x8,x12,x17,x19,x21,x22,x23,x24的系數(shù)為 0 ,其他均不為 0。因此,選取了可被引文文獻(xiàn)量、基金論文比、引用期刊數(shù)、他引總引比、互引指數(shù)、web即年下載率、量效指數(shù)、影響力指數(shù)CI值、復(fù)合總被引、復(fù)合影響因子、復(fù)合5年影響因子、綜合總被引共計(jì)12個(gè)指標(biāo)作為最終的評(píng)價(jià)指標(biāo)體系。對(duì)系數(shù)表進(jìn)一步觀察可以看出,對(duì)前三位重要指標(biāo)排序依次是復(fù)合5年影響因子、復(fù)合總被引、量效指數(shù)。這與實(shí)際聯(lián)系是一致的,比如在研究人員論文投稿時(shí)一般會(huì)關(guān)注其5年影響因子,如果比較高可以認(rèn)為是比較優(yōu)秀的期刊。通過(guò)對(duì)原始數(shù)據(jù)的5年影響因子倒序排序得到了在41種圖書情報(bào)領(lǐng)域中有較大影響力的三大比較優(yōu)秀的期刊,他們分別是:《大學(xué)圖書館學(xué)報(bào)》、《中國(guó)圖書館學(xué)報(bào)》、《情報(bào)學(xué)報(bào)》。這進(jìn)一步應(yīng)證了本文應(yīng)用方法的合理性。

表4 Lasso系數(shù)表
目前我國(guó)較為權(quán)威且得到多數(shù)人認(rèn)可的期刊評(píng)價(jià)體系是由中國(guó)科技信息研究所通過(guò)層次分析法得到的,首先由專家打分確定權(quán)重,對(duì)不同的學(xué)科期刊進(jìn)行綜合評(píng)價(jià)。這樣做的優(yōu)點(diǎn)主要是避免了單一指標(biāo)的局限性,缺點(diǎn)主要是評(píng)價(jià)結(jié)果受專家打分的個(gè)人主觀因素的影響。本文通過(guò)實(shí)際數(shù)據(jù)分析,采用科學(xué)的計(jì)算方法最終得到關(guān)鍵指標(biāo),具有一定的說(shuō)服力。
針對(duì)指標(biāo)數(shù)量增多所帶來(lái)的諸多問(wèn)題,本文從在以往期刊評(píng)價(jià)方法研究的不足出發(fā),利用套索方法減少期刊評(píng)價(jià)因子,提取關(guān)鍵指標(biāo),通過(guò)科學(xué)的計(jì)算過(guò)程避免了專家打分的個(gè)人主觀性,另一方面套索方法可以降低期刊評(píng)價(jià)中的多重共線問(wèn)題,以提高期刊的評(píng)價(jià)效率。
套索方法在期刊評(píng)價(jià)中指標(biāo)因子選擇方面具降低多重共線性等優(yōu)點(diǎn),利用套索方法的連續(xù)性和穩(wěn)定性,使對(duì)不重要的指標(biāo)懲罰更加合理。通過(guò)研究,套索方法可以達(dá)到指標(biāo)選擇的作用,為有關(guān)人員提供另一種參考標(biāo)準(zhǔn)。比如本文使用的24個(gè)指標(biāo)中篩選了12個(gè)指標(biāo),這樣讀者和研究人員可以僅根據(jù)可被引文文獻(xiàn)量、基金論文比、引用期刊數(shù)、他引總引比、互引指數(shù)、web即年下載率、量效指數(shù)、影響力指數(shù)CI值、復(fù)合總被引、復(fù)合影響因子、復(fù)合5年影響因子、綜合總被引這12個(gè)指標(biāo)來(lái)選擇合適的期刊閱讀、發(fā)表、購(gòu)買等。對(duì)于跨學(xué)科研究來(lái)說(shuō),應(yīng)該對(duì)多學(xué)科期刊進(jìn)行綜合考量。針對(duì)后續(xù)的研究,同樣可以利用本文的方法,一方面可以檢驗(yàn)新的指標(biāo)因子的合理性,另一方面為構(gòu)建新的指標(biāo)提供理論依據(jù)。