王嚴鑫 張 芳
(1.江蘇大學計算機科學與通信工程學院 鎮江 212013)
(2.南陽理工學院計算機與信息工程學院 南陽 473004)
引文分析是利用數學及統計學的方法和比較、歸納、抽象、概括等邏輯方法,對科學期刊、論文、著者等各種分析對象的引證與被引證現象進行分析,進而揭示其中的數量特征和內在規律的一種文獻計量分析方法[1]。根據對引文分析著重的角度不同,可分為基于引文著錄的引文分析法和基于全文信息的引文分析法[2]。
由于引文分析學,是一門交叉學科,與圖書館學,情報學以及信息學有著密切的聯系[3]。因此,信息技術的發展同時也推動著引文分析學的發展。由此為出發點,通過文本挖掘,自然語言處理,語義分析等方法與技術,假設原始文獻與引用文獻之間的相關性可以通過對原始文獻和引用文獻的文本特征進行定量分析,并通過相關性的判斷,對其進行加權計算,不再簡單地同等對待所有引用,而是通過語義的相似度計算,區分程度較深的引用和程度較淺的引用。
PageRank 算法是Lawrence Page 和Sergey Brin提出的[4],用于進行網頁排序的算法,但在引文分析領域,極大地推動了對于引文網絡的分析發展,成為一種有效分析引文網絡的手段。
引文網絡之間存在引用關系,以此為基礎形成了引文網絡,與網絡有著相同的性質,因此,使用網絡的方法對引文網絡進行分析成為了新的研究熱點。近年來,將PageRank 算法應用于引文分析領域,取得了一定的進展,以PageRank 算法為基礎的研究在實驗中獲得了更好的性能。
近年來,學者們基于PageRank 算法提出了很多引文分析的算法。
Zhiwei W 等[6]根據PageRank算法的性質,綜合考慮主題間的相關性、文獻流動價值、文獻活躍度,提出了多維檢索排序法。劉俊婉等[7]基于Word2Vec 和TF-IDF 提出了一種根據學術相似度的改進PageRank 算法,目的是合理地為學者的學術影響力排序。Zhang Y 等[8]提出了一種集體主題的管道模型,目的是將論文文本內容與PageRank算法結合,對論文進行排序。
Erjia Yan 等[9]提出的一種使用加權引用技術來衡量一篇文章的聲望的算法,該技術通過考慮引用期刊和引用時間間隔的影響,為每個參考分配不同的權重。Jianlin Zhou 等[10]提出的一種基于相似性優先機制的SPRank算法。其基本思想是考慮節點之間的相似性:不同節點之間的連接更可能是虛假連接。
對于一個n 篇文獻的文獻集合D={d1,d2,…,,根據PageRank算法,有:

其中,PageRank(di)是文獻di的PageRank 得分,N是全部參與計算文獻的數目,q 是一個阻尼系數,Mdi是指引用了文獻di的文獻集合,dj是屬于Mdi中的一篇文獻,L(dj)是文獻dj引用的其他文獻的數量。
本文采用詞向量技術[12~13]對該科學文獻di進行表示。首先抽取該文獻集合D 中所有文獻的標題以及摘要作為文獻集合語料庫Dcorpus,去除停用詞后使用word2vec[13~15]對Dcorpus語料庫進行訓練,并得到關于Dcorpus的 |V |*m 維的詞向量矩陣WVec,其中,V 表示Dcorpus語料庫的詞典向量,|V|表示Dcorpus語料庫的長度,詞向量矩陣WVec 表示單詞Vi在m 維向量空間的向量表示:

其中,eiT表示第i 個分量為1的單位向量。
對于一篇科學文獻di,根據文本空間向量模型,該文獻的語義模型可以使用一組文本特征來表征:

其中fi為文本特征,t 為不同文本特征的數目。首先統計該科學文獻di中出現的所有詞項{w1,w2,…,wt} 以 及 對 應 詞 項 出 現 的 詞 頻{df1,df2,…,dft},此時,對于任一篇文獻di的第i個文本特征fi可以用( wi,dfi)的一個詞項-詞頻二元組來表示:


最終得到了一篇科學文獻di在一個向量空間的映射,以此為基礎,計算其文檔間的相似度Simlarity(di,dj)。
以文獻間的相似度為基礎,結合以往經過驗證對于PageRank 算法有提升效果的時間以及會議因素,提出基于文獻間相似度的PageRank 算法,其描述如下:

其中,對于其中任一個引文鏈接,引用文獻為被引用文獻貢獻權重的計算方式為

1)相關性因素的得分
本文使用存在引用關系的引用文獻di和被引用文獻dj的相似度,直接作為該引文鏈接相關性因素的得分,作為加權PageRank 算法中相似度為被引用文獻dj提供的權重。
2)時間因素的得分
引用時間間隔會影響文章的聲望[9]。當年的引用將具有更大的價值。因此不能將每個引用文章視為同等重要,而是將其引用期刊的文章影響力分數與引用時間與發布時間的差值相乘。根據時間間隔與引用次數獲得時間因素的擬合函數。

圖1 時間因素的擬合函數
3)會議因素的得分:

算法1(基于詞向量的PageRank算法STVRank)
輸入:文獻集合D,文獻集合語料庫Dcorpus,引文網絡A,相關性系數sij,時間系數tij,會議系數vij,詞向量矩陣WVec。
輸出:STVRank算法排序結果列表R
/*第一部分,構建文檔向量空間模型Φ*/
1 用詞向量技術訓練Dcorpus中文檔,得到詞向量矩陣WVec
/*第二部分,計算相關性權重,時間權重,會議權重*/
2 for each di∈D do
5 end for
6 for each Aij∈A do
10 end for
/*第三部分,綜合三個因素排序*/11 for error <min Error do
12 for each d ∈Ddivand d ∈Cido
15 end for
16 end for
17 按PageRank 值從大到小順序為所有科學文獻排序,得到排序列表R
18 return R
α,β,γ 分別為相似度因素,時間因素,會議因素對應的權重,且約束條件為α+β+γ=1。
本文使用ACL 選集網絡語料庫(ACL Antholo?gy Network,AAN)作為基準數據集[15]。ANN包含了由ACL(Association of Computational Linguistics)所出版的計算機語言學文獻的完整集合。本文使用的是2014 版的ANN 語料庫,其統計數據如表1 所示,ANN 選集網絡語料庫包含了共19892篇科學文獻,作者15379 名,會議361 個,引用鏈接124741條。

表1 實驗數據集統計信息
金標準文檔集合(GoldP)[16]包含了93 篇至少被著名的教科書以及十五個世界知名的大學科學文獻引用兩次及以上的文獻,其統計信息如表2 所示。

表2 金標準集合的統計信息
由于有了黃金標準文檔集合的推薦等級計數,我們采用常見的分類指標和分級相關性指標來評估排名有效性。本節采用的分類指標是精確率(Precision),采用的分級相關性指標是標準化折扣累積增益(NDCG)。
精確率的定義為

其中,reli表示結果列表第i 篇文檔是否相關。
α-NDCG的定義為

其中,gradei表示結果列表第i 篇文檔的相關等級,idealgradei表示理想結果列表的第i 篇文檔的相關等級。
圖2 顯示了不同的α,β和γ值的STVRank 精度。X 軸表示α的值,Y 軸表示β值。由于α+β+γ總是等于1,所以在熱圖中的任何一點,γ的值都是1-α-β(地圖的右上角三角形是空的,因為α,β的總和,和γ不能超過1)。 熱圖中的溫度越高,效果越好。
STVRank 的 最 高 NDCG@20 得 分 是 在α=0.375, β=0.125,γ=0.5 時獲得的。本章采用PageRank 算法作為基線,對比基于PageRank 的引文分析算法最新研究成果WC 和SPRank,SPRank算法中,選取效果最佳的θ=0.1。STV 算法的參數設置為α=0.375,β=0.125,γ=0.5。

圖2 不同參數α,β(γ=1-α-β)設置下的STVRank算法的NDCG@20得分
本節采用P@K和NDCG@K兩種指標作為評價標準,實驗對比結果如表3及表4所示。

表3 在P@K指標中各算法的性能對比

表4 在NDCG@K指標中各算法的性能
從表3、4 中可以發現,在基于結果列表評價的兩種指標,分別對應著對于高質量文獻的分類以及分級評估的性能,STVRank算法明顯優于PageRank算法。最佳狀態下的STVPageRank 算法,相較于SPRank和WC算法,對于高質量文獻的分類性能提高了29.9%、7.4%,對于高質量文獻的分級評估性能明顯優于SPRank 算法,相較于WC 算法提升了22%。在各項指標中,STVPageRank 算法都有著優良的表現。實驗證明,考慮文檔間相似度的STVRank 算法,可以提升PageRank 算法對于科學文獻排名的有效性。
設計的排名算法必須能夠抵抗這些惡意操縱行為。我們進一步研究了STVRank 算法對惡意操縱的穩定性。首先基于ANN 數據集,構建正確的引文網絡。之后,隨機選取被引用次數為0 的文獻作為嘗試去提升名次的目標文獻。標記目標文獻節點的起始排名R0,然后向引文網絡中隨機添加n個文獻節點,每個文獻節點帶有m條指向之前已經存在的文獻節點的鏈接,其中一條鏈接指向目標文獻節點,剩下m-1條鏈接隨機指向引文網絡內的節點。在經過h 次添加節點并迭代網絡達到收斂后的目標文獻節點的排名為Rh,我們使用ΔRh=R0-Rh,作為排序算法排名變化的描述。當帶有動機不當的鏈接進入引文網絡時,目標文獻節點的變化幅度越小,說明該算法的穩定性越高。

圖3 當作弊節點輻射鏈接為20的時候,各算法作弊節點排名的提升
實驗設置為每篇新建文獻節點的鏈接數,實驗結果取100次獨立實驗的平均值。
圖3 是穩定性實驗的實驗結果。通過圖4 發現,WC 算法對于操縱引文網絡的引文不當行為比PageRank 算法更為敏感,而SPRank 算法,STV 算法均比PageRank 算法更為穩定,相較于PageRank 算法,穩定性提升分別為13.2%、24.3%。實驗證明,考慮文檔間相似度的STVRank算法,可以提升Pag?eRank算法對于科學文獻排名的穩定性。
客觀地評價科學出版物的質量是科學計量學中長期存在的挑戰。雖然現在引用計數被廣泛用對科學文獻質量的近似評估,但這種計數方法并不公平。PageRank 現在通常被認為是比引用計數更好的排序方法,因為它在對節點進行排名時會考慮網絡的全局信息。
在本文中,我們結合自然語言處理的最新進展詞向量,考慮存在鏈接關系的兩個科學文獻在語義上的相似性,最后在考慮引用期刊因素與引用時間間隔因素,對該模型進行擬合,提出了一種新的迭代排序算法,它結合了文獻節點語義相似性的貢獻。最終發現,新方法不僅可以顯著提高最終排名的穩定性,而且在識別有影響力的論文上也具有突出的效果。