隨著互聯網的快速發展,網絡上的信息資源越來越豐富,搜索引擎的性能越來越強大,讀者獲取文獻資源越來越方便,但也帶來了更為棘手的問題,即如何從海量文獻中快速鎖定最需要的文獻。圖書館員為讀者準確推薦所需文獻是學科服務中面臨的巨大難題。已有學者關注這方面的內容[1-2],指出在大數據環境下文獻推薦的必要性,也有關于科研機構內部的推薦方案,如構建個人知識庫或機構知識庫[3]。因此建立適應各個學科的自動文獻篩選算法是十分必要的。
關于自動文獻篩選算法研究有很多,如根據關聯規則[4-5]或內容相似性[6-7]進行文獻推薦的算法,根據用戶特征進行個性化推薦的算法[8-10],根據引文網絡中的引證關系進行文獻推薦的算法。這些推薦算法的共同點是對推薦內容進行特征提取、建模分析,并根據用戶進行特征匹配,然后根據匹配程度為用戶推薦相應的文獻。推薦算法主要分為內容推薦[7]和協同過濾推薦[11]兩種,都有相應的優缺點,內容推薦方法的推薦準確率高一些,但計算量過大。當前內容推薦的主要算法是通過關鍵詞計算,但文章的主要特征很難靠關鍵詞全面反映,使用關鍵詞不能做到全面、準確的推薦,還需要考慮使用全文內容,如摘要、結論等,這會使計算量大大增加。有很多相關的算法研究[12-17]。因此需要對推薦的目標內容做多層次的簡化分析[7-9],將相關度不高的各個方向內容分別做剪枝處理,得到比較簡化的模型。在多層次分析中,先對期刊引用數據進行分析和篩選,列出引用概率比較大的一些期刊,再進行語義分析或內容推薦等,會大大提高計算效率,有助于進行海量數據分析。當前進行期刊數據分析和篩選的算法精度都比較低,嚴重限制了算法的應用。
對統計分布的研究有效地簡化了文獻推薦算法,對期刊的計量指標的精確描述影響很大。當前關于引文統計分布的研究結果表明,統計分布偏離了布拉德福定律描述的冪律分布。本文對引用過程和物理中的擴散過程進行類比,建立能夠描述偏離冪律分布的文獻引用模型,應用文獻引用模型對文獻推薦模型中的期刊優化部分進行建模,然后對吉林大學農學部的發文數據進行分析,并用2018年發表文章中的引用數據進行驗證,為文獻推薦服務做準備。
為了能更好地解釋和利用引文的概率分布,需要建立準確的模型和擬合公式。本文以吉林大學農學部發文的引文概率分布為例,對發文中引用的期刊進行統計分析,得到其統計分布,歸一化后得到其概率分布。為了能得到精確的概率分布公式,需要對引文分布進行建模分析。通過類比擴散過程建立引文概率模型,并給出引用概率分布的擬合方程(相當于考慮了各個期刊之間被引用的相關概率),可以用于優化文獻推送模型,有望增加當前文獻推送結果的精度或者減少當前推算法的計算量,緩解當前各種高精度優化算法計算量過大的問題。
本文數據來源于Web of Science(WOS)核心合集,數據采集時間為2018年12月9日,采用高級檢索的方式,檢索并下載吉林大學農學部被SCI核心合集收錄的論文2 071篇,導出包括引文題錄信息的文獻作為原始數據集。對這些記錄中2017年12月31日前發文的引用文獻做統計,共下載2 071條發表記錄、68 363條引用記錄,通過文字匹配分析提取出所有文獻的發表時間及包括引文的期刊名稱和發表年代的引文信息。將被引文獻按期刊和年代分類,統計期刊分布和時間分布。2018年發表的265篇文章用來驗證文獻推送。
本文以WOS中吉林大學農學部發表文章中的引文數據為研究對象,經過統計可以得到按期刊區分的概率分布,其中高被引文獻在一定程度上反映了研究領域的學術影響力和經典文獻[18]。引文分布也能為學科服務研究提供幫助,包括文獻保障、文獻傳遞、文獻支持、文獻推送等。對獲取的研究數據進行進一步的統計分析,并對期刊的數量按被引期刊的降序排列,可以得到引文的期刊分布是略偏離Zipf的冪律分布的(圖1)。圖中藍圈是數據統計結果,紅線是根據冪律分布擬合結果,綠線是擬合殘差。圖1(a)是正常坐標下的統計分布模型。從圖中可以看出,隨著文章序號的增加被引量急劇減小,也就是說單一學科中的引用一般都發生在少數期刊中。為了更準確地看出被引數量的分布情況,我們對期刊排名序號和被引量都取對數,得到圖1(b)的結果,從圖中可以看出,數據結果是偏離直線分布的,直線分布對應著Zipf的冪律分布。為了更精確地描述期刊被引分布,本文類比隨機擴散的模型,建立了文獻引用模型,并給出了統計分布的解析公式,用它對吉林大學農學部發表文章的統計數據進行擬合分析。為了更好地解釋和利用引文的概率分布,需要建立符合引用過程的微觀描述模型,列出可以用來擬合數據的概率分布公式,以便進行后續的研究和應用。

圖1 期刊引用概率的統計分布
本文通過類比物理中的隨機擴散過程來建立引用模型。
科技論文完成過程主要包括思路構建、實驗過程、數據分析等,每個過程都需要查找相應的文獻進行參考和支持。對于同一個研究方向的課題,不同的人有不同的想法,需要的文獻也不同,引用的文獻也不同,發表時間也有較大的隨機性,又因為科研單位總體發文的引文是所有個人引用行為的總體統計,所以科研單位總體發文中的引文也具有隨機性。
同樣,某個期刊被引用的次數也是一個隨機變量,這和粒子在溶液中的擴散行為比較像,因此可以類比溶液擴散的行為建立引文的概率分布函數。
把引用過程類比成物理中的隨機擴散過程,擴散過程描述的是在溶液中隨機分散一些均勻粒子,粒子可以在溶液中做隨機擴散運動。由于粒子周圍各個方向上受力不同,而會向各個方向做隨機的布朗運動。在這個擴散體系中如果只觀察一個很小的區域,看是否有粒子通過,由于粒子運動的隨機性,那么這個觀測信號的時間序列也是隨機的,也就是說,在這個區域內觀察,我們會看到粒子隨機地出現在這個區域。但由于大量粒子的統計性,每兩個粒子出現的時間間隔會有一定的相關性。相關性代表著當一個粒子出現以后,另一個粒子在間隔t時間出現的概率,p(t)是一個統計意義上的常數。不同時間間隔對應的概率不同,物理上可以通過求解擴散方程和相應相關方程得到p(t)的曲線,也就是對應的自由擴散的方向。被研究的科研單位中的每個科研人員都在搜索文獻,相當于溶液中自由粒子的擴散行為,當某個期刊被引用,相當于在觀測區域觀察到這個粒子。
因此,對研究對象單位總體的引用行為可以類比成這個擴散行為,所以可以用如下的擴散方程來描述。文獻引用概率模型如公式(1)所示。
(1)
公式(1)中,A是概率密度的歸一化常數;V是觀測體積,在文獻引用模型中代表用戶對某個具體問題檢索時能精確到的范圍;nD是擴散系數,代表用戶在檢索文獻時在文獻之間選擇的能力;n是引用期刊的序號。
對吉林大學農學部發文中的引用記錄按照期刊進行統計,得到其統計分布(圖2)。
圖2中藍圈是數據統計結果,紅線是本文建立模型的擬合結果,綠線是擬合殘差。
用本文建立的引文概率模型對統計分布數據進行擬合可以得到如圖2(a)所示的結果。從圖2(a)中可以看出擬合的整體效果很好,擬合結果對應的殘差也在0附近波動,說明該模型應用到引用分布中是合理的。
為了查看更精細的擬合效果,在圖2(b)中給出了雙對數坐標下的擬合結果。從圖2(b)中可以看出,在雙對數坐標下整體的擬合效果都很好,殘差也一直在0附近波動,說明應用本模型可以準確擬合偏離Zipf的冪律分布的引用概率分布。

圖2引用期刊的統計分布及擬合結果
為了將引文概率模型應用到實際的文獻推送中,需要對參數的物理意義及其對統計分布的影響進行詳細分析。通過計算不同參數對應的統計分布和比較統計分布形狀的變化規律,有助于我們理解引文概率模型。分別改變nD和V的值,計算的統計分布結果如圖3所示。圖3(a)中給出了擴散系數變化對統計分布的影響。為了能更精確地反映曲線的變化趨勢,這里直接采用雙對數坐標表示趨勢的變化。從圖3可以看出,隨著擴散系數的增加,引用排名靠前的文獻數量減少,引用排名靠后的文獻數量增加。也就是說隨著擴散系數的增加,文獻的引用概率向著均勻分布進化,這和我們的直觀感覺一致。當所有文獻都能快速進入讀者的觀察視野內時,會增加其被引用的概率,引用也將會變得更加均勻。圖3(b)中給出了觀測體積對引用概率分布的影響。隨著觀測體積的增加,引用概率分布更加集中,原因可能是由于讀者可以在比較大的文獻群體內選擇文獻。因此對應選擇的文獻將更加準確,反映在統計分布曲線上是對應統計分布將更加集中。

圖3 擬合參數變化對引用分布曲線形狀的影響
本文建立的文獻引用模型能為當前許多推薦算法進行期刊推薦篩選。為了驗證本文建立的文獻引用模型對文獻的推送效果,本文選擇概率推送模型做驗證。根據擬合得到的概率密度隨機選擇期刊推送給用戶,并根據2018年發文計算推薦準確率,參比結果是通過完全隨機推送得到的推薦準確率。根據本文擬合的概率模型推送的結果如圖4所示。圖中橫坐標代表一次推薦文獻數量,圖中的不同顏色代表推薦準確率。準確率是指推薦的文獻在發表文章中被引用的比例,是通過2018年發表的文獻中的引用記錄為標準計算的。縱坐標是群體推薦準確率,是根據推薦的文獻計算2018年發表文章中超過指定準確率的比例。從圖4中可以看出,隨著推薦文獻數量的增加,推薦準確率會先增加再減小,并且隨著準確率的增加文獻推薦人群的準確率逐漸降低。目前測試的推薦只是通過概率計算對單位內所有人群的整體推薦。如果配合其他推薦算法[19],那么針對個人或者比較小的課題組,準確率或者推薦算法的計算量會大大減少。在文獻推薦的過程中,不同的人群有不同的喜好,有不同的推薦準確率需求。如有人喜好被推薦比較全的文獻,即使推薦準確率差一些也可以;有些人喜好被推薦幾率最高的幾篇文獻。這個概率模型推送算法可以很容易設置這樣的推薦參數。從圖4中可以看出,不同的準確率對應不同的群體推薦準確概率的結果,所以這個準確率可以作為用戶個性化參數,可以進行精確的群體推薦準確率的調控。

圖4 概率推薦準確率結果
為了對比本文中所用的概率推薦模型,本文還給出了完全隨機模型的推薦結果(圖5)。從圖5中可以看出,完全隨機模型也有圖4所示中的變化規律,隨著推薦文獻數量的增加,群體的推薦準確率急劇下降。但整體的推薦準確率都特別低,可見應用本文所建立的模型,只是通過簡單的概率分布就能給出很明顯的推薦準確率增加的結果。這個推薦算法很容易擴展到其他推薦算法內,用于多層次推薦分析,增加推薦準確率和減少一般推薦算法的計算量。

圖5 完全隨機模型推薦準確率結果
本模型是通過對引文的概率分布的統計分析得到目標群體(學院或者課題組)的需求特征參數,通過這個特征參數簡化已有的文獻推薦算法或者直接進行概率模型推薦。該算法應用簡單,計算量少,與其他算法的兼容性強,沒有嚴格的樣品量限制,只需要得到比較好的統計分布的擬合結果即可。通過設置用戶推薦喜好參數進行推薦期刊準確率的篩選,可以大大減少其他推薦算法的初始計算樣品量,彌補當前推薦算法計算量過大甚至無法完成計算的不足。
本文通過對吉林大學農學部發文的引文進行統計,并按照期刊引用的多少排序,得出期刊引文分布是偏離冪律分布的,已經從布拉德福定律[20]和冪律分布[21]逐漸出現偏離的情況。建立了通用的引文概率分布模型進行數據擬合,得到擬合參數,分析了參數變化對引用概率分布的影響。考慮了各個期刊之間的相關概率,得到了比較好的擬合效果,可以用于完善文獻推送模型,使文獻推送結果更加精確。
傳統的文獻推送,只能對引用分布中比較高的和比較低的部分進行擬合,會帶來一些推薦偏差。期刊引用數量的多少不代表它的重要程度,因此無論忽略哪個部分,對文獻推送的效果影響都會很大。采用本文的引用文獻分布模型,可以更加精確地描述引用文獻分布,根據用戶期望推薦準確率進行數據篩選,有助于簡化當前各種文獻推薦算法,減少其計算量。和簡單的隨機推薦比較,概率模型推薦能夠很好地提升群體推薦準確率。