劉蓮花
(海南醫學院公共衛生學院,海南 海口 571199 )
主成分聚類分析法在數學中文核心期刊綜合評價中的應用
劉蓮花
(海南醫學院公共衛生學院,海南 海口 571199 )
指出了目前主成分分析法在期刊綜合評價中的誤用情況,并采用主成分分析法對17種數學中文核心期刊進行了綜合評價,當第一主成分方差貢獻率不夠時,采用了主成分聚類分析法進行排名,給出了第一主成分、綜合主成分及主成分聚類法的排名,最后分析了主成分聚類方法的有效性。
主成分聚類分析;綜合評價;數學期刊
學術期刊評價是通過對學術期刊的發展規律和增長趨勢進行定量分析以反映期刊的學術水平與影響力,為優化學術期刊的使用與科技評價提供重要參考,同時可以提高學術期刊的內在質量,促進學術期刊的健康成長和發展。因此,客觀公正地對學術期刊進行評價,反映學術期刊的真實水平與影響力越來越受到學者們的重視。
目前,國內不少學者將主成分分析法[1~3]、因子分析法[4]、屬性識別法[5]等綜合評價方法應用于科技期刊評價中,其中主成分評價方法應用得最多,但不少文章存在誤用的情況,如沒有進行主成分分析適用性檢驗,反向指標沒有進行正向化處理,還有的誤將因子得分當成主成分得分等。并且利用主成分分析法進行期刊綜合評價時,大部分學者都是利用綜合主成分得分進行綜合評價,然而數理統計學界一般都主張采用第一主成分進行綜合評價,如孟生旺[6]從幾何投影角度闡明在多指標綜合評價中只有第一主成分綜合原始數據的信息最多;蘇為華[7]認為只有第一主成分才是揭示“評價信息”,其他主成分只是“形態因子”,不具有綜合評價功能;徐雅靜[8]、張虎[9]、王學民[10]等也都認為只能用第一主成分進行綜合評價。因此,在用主成分方法進行期刊綜合評價時,應該只采用第一主成分得分進行評價。徐雅靜還提出如果第一主成分方差貢獻率不夠高,可采用“主成分聚類分析法”進行綜合評價。鑒于以上分析,筆者對17種數學中文核心期刊采用主成分聚類分析法進行了綜合評價,并與第一主成分和綜合主成分排序結果進行比較,希望能對提高數學期刊的綜合質量有所幫助。
以《中文核心期刊要目總覽》(2012年版)刊登的17種數學中文核心期刊為對象,以科學技術文獻出版社《2013年版中國期刊引證報告(擴刊版)》[11]提供的7項計量指標為原始數據進行分析評價。該7項指標的含義如表1所示,具體數據如表2所示。
1)指標的正向化[12]。因為被引半衰期x6是反向指標,采用倒數化進行正向化處理,正向化后的指標設為y6。
2)指標的標準化。為了消除原始數據數量級和量綱的差異,將原始數據進行標準化,標準化后的變量記為zi。

表2 17種數學核心期刊的7項計量指標原始數據
進行主成分分析首先要進行KMO和Bartlett檢驗,KMO取值在0~1,該值越大,表明數據越適合做主成分分析,且一般要求該值大于0.5。研究中采用SPSS19.0進行檢驗,KMO值為0.651,符合主成分分析要求,且Bartlett檢驗的顯著性水平遠小于0.05,所以說明相關矩陣不是單位陣,2種檢驗結果都表明原始數據適合于進行主成分分析。
利用SPSS 19.0的Factor Analyze 進行分析,通過計算,可得各指標相關系數矩陣的特征值和方差及累計貢獻率,如表3所示。由表3可知,前3個主成分累計貢獻率為88.327%,根據累計貢獻率大于85%的原則,故選取前3個主成分。其初始因子載荷如表4所示,將表中的每一列向量除以其對應的特征值的平方根,就得到相應的主成分的系數向量。
利用主成分系數,可得各主成分表達式如下:
F1=0.484z1+0.274z2+0.484z3+0.143z4+0.484z5+0.179z6+0.412z7
(1)
F2=-0.153z1+0.486z2-0.133z3+0.536z4-0.133z5-0.598z6+0.243z7
(2)
F3=0.014z1-0.301z2-0.067z3+0.819z4-0.067z5+0.458z6-0.140z7
(3)
取前3個主成分各自的方差貢獻率為權重,可得綜合主成分表達式如下:
F=0.56265F1+0.22115F2+0.09948F3
(4)

表5 前3個主成分得分及綜合得分
將各期刊標準化后的數據帶入式(1)~(4),即可得每種期刊的前3個主成分得分和綜合主成分得分,如表5所示。
因為第一主成分方差貢獻率僅為56.265%,一般只有當第一主成分貢獻率較高(85%以上)時,才可以僅按第一主成分得分進行綜合排序評價,否則會有片面性,此時可以將主成分分析與聚類分析2種統計方法結合起來,采用“主成分聚類分析法”。聚類分析是將樣品或變量按照它們性質上的親疏相似程度進行分類的一種方法,這樣通過聚類分析就可以將期刊按照它們的相近程度進行分類,但是并不能得到各類優劣程度的排序。主成分聚類即先主成分分析,再取若干主成分對樣品進行聚類分析,然后結合第一主成分得分對樣品進行分類排序,由此得到一種新的綜合評價方法,具體步驟如下:
1)按照累計貢獻率選定前r個主成分,計算主成分得分;
2)對選定的主成分矩陣(F1,F2,…,Fr)進行系統聚類分析;
3)計算各類中第一主成分得分的平均值確定類間排序;
4)根據類中各樣品的第一主成分,確定每類中樣品排序,得到綜合排序。對表5中的3個主成分得分矩陣(F1,F2,F3)進行系統聚類分析,聚類方法采用最小方差法,距離度量選擇歐式平方距離。聚類結果如下:
第1類:數學的實踐與認識;
第2類:中國科學、模糊系統與數學;
第3類:數學學報、應用數學學報、系統科學與數學、工程數學學報、數學物理學報、數學進展;
第4類:計算數學、高校應用數學學報A輯、數學年刊A輯;
第5類:數學雜志、應用數學、應用概率統計、高等學校計算數學學報、運籌學學報。
進一步按主成分聚類方法進行類間與類內排序,最終主成分聚類排名和第一主成分及綜合主成分排名如表6所示。

表6 各種方法的綜合評價排序結果
從表6可知,基于第一主成分分析的綜合排名與基于主成分聚類分析法的綜合排名比較接近,而綜合主成分排名的差異則較大。如無論按照第一主成分方法還是主成分聚類分析法排名,模糊系統與數學的排名都在數學學報的前面,但是綜合主成分排名卻相反,觀察原始數據可以看出,模糊系統與數學在5個指標方面都優于數學學報,只有“總被引頻次”和“學科影響指標”低于數學學報,理應排在數學學報的前面,數學物理學報和計算數學也是類似的情況,因此進一步說明了綜合主成分排名是不合理的。第一主成分分析排名與主成分聚類分析排名在計算數學與數學進展這2種期刊上的排名有差異,分析原始數據發現數學進展在5項指標上都優于計算數學,理當排在計算數學之前,同理,高校應用數學A輯也應排于數學雜志之前。也即用主成分聚類分析方法所得的排名比用第一主成分分析方法所得的排名更加合理。
采用主成分分析法對17種數學中文核心期刊進行了綜合評價,并且當第一主成分方差貢獻率不夠時,采用了主成分聚類分析法進行排名。結果表明,利用主成分聚類方法進行期刊綜合評價是行之有效的,具有科學性和可操作性。
[1]張弘,趙惠祥,劉燕萍,等.基于主成分分析法的科技期刊評價方法[J].編輯學報,2008,20(1):87~90.
[2] 辛督強.基于主成分分析的13種力學類中文期刊綜合評價[J].中國科技期刊研究,2012,2(2):224~227.
[3] 李紅.基于主成分分析法的上海科技期刊排序研究[J].中國科技期刊研究,2009,20(1):57~62.
[4] 辛督強,韓國秀.因子分析法在科技期刊綜合評價中的應用[J].數理統計與管理,2014,33(1):116~121.
[5] 林春艷, 莫琳. 自然科學學術期刊質量指標體系的屬性數學綜合評價模型[J].數學的實踐與認識,2004,(5):1~7.
[6] 孟生旺.用主成分分析法進行多指標綜合評價應注意的問題[J].統計研究,1992,(4):67~68.
[7] 蘇為華.多指標綜合評價理論與方法問題研究[D].廈門大學,2000.
[8] 徐雅靜,汪遠征.主成分分析應用方法的改進[J].數學的實踐與認識,2006,36(6):68~75.
[9] 張虎,劉吉普.主成分分析方法用于系統評估的若干問題研究[J].統計與決策,2009,(13):11~13.
[10] 王學民.對主成分分析中綜合得分方法的質疑[J].統計與決策,2007,4:31~32.
[11] 中國科學技術信息研究所. 2013年版中國期刊引證報告(擴刊版)[M].北京:科學技術文獻出版社,2013.
[12] 俞立平,潘云濤,武夷山.學術期刊綜合評價數據標準化方法研究[J].圖書情報工作,2009,53(53):136~139.
[編輯] 張濤
2016-07-27
海南省教育廳科學研究項目(Hnky2016-30)。
劉蓮花(1983-),女,碩士,講師,現主要從事綜合評價理論及應用方面的研究工作;E-mail:26734799@qq.com。
O212
A
1673-1409(2016)31-0009-04
[引著格式]劉蓮花.主成分聚類分析法在數學中文核心期刊綜合評價中的應用[J].長江大學學報(自科版),2016,13(31):9~12.