劉富康,茍震宇,黃文彬,步 一
一般認為科學文獻的生命力取決于其他文獻對該文獻的引用,而科學文獻的使用頻率會隨文獻年齡增長而下降,該現象稱為“科學文獻老化”或“文獻老化”(Literature obsolescence)[1]。文獻老化這一概念最早于1927 年由情報學家Gross提出。通過對期刊Chemical Literature的引用數據進行分析,Gross發現文獻在發表15年后引用數量達到總引用次數一半[2-4]。1943 年Gosnell對文獻老化展開更深入的理論研究[5],從老化速率角度分析三份高校圖書館藏書清單,提出知識載體會隨著時間推移逐漸失去價值。此后文獻老化研究迅速發展,并大量引入定量研究方法。1958年Bernal在國際科學信息會議上首次提出使用“半衰期”衡量科技文獻的老化速率[1-2];1960年Burton等對科學文獻“半衰期”進行深入研究,提出經典的引文老化負指數模型——Burton-Kebler 模型[6];1971 年 Price 提出普賴斯指數(Price Index)用以衡量各學科領域文獻老化程度[7]。此后的研究主要針對這些經典模型和指標進行進一步拓展。國內文獻老化研究集中于Burton-Kebler方程等老化模型及其一系列修正式和普賴斯指數、引文半衰期指標的實證性研究[8],關注這些模型、指標在特定學科的應用。隨著網絡技術發展,文獻老化研究開始更多關注網絡信息的老化問題[9-10]。
科學文獻老化既是一種客觀的社會現象,又是一個復雜的動態過程。通過對科學文獻老化問題的深入研究,圖書情報學領域的學者、圖書館和情報所工作人員可以理解文獻傳播的動態規律,用以指導文獻采購、剔舊;對未來科學文獻的利用情況作出預測,為文獻情報的組織管理提供指導,還能為科學計量學、科學學及科技史研究提供定量依據和建模途徑。邱均平將文獻老化研究分為三類:文獻老化理論研究、關于研究方法和定量描述方法的研究以及應用研究[11],其中應用研究包含館藏文獻老化研究、網絡文獻老化研究和學科文獻的老化研究[12]。本文從理論模型、影響因素、現象特征和實踐應用4個方面綜述國內外科學文獻老化的研究方法和定量描述方法及應用研究,為后續研究提供參考。
根據研究者時序視角的差異,文獻老化理論模型分為基于共時法和基于歷時法兩類[13]。基于共時法模型關注的是某焦點文獻的參考文獻,一般按照時間倒序研究,也叫“回溯法”;基于歷時法的理論模型關注的是某焦點文獻的施引文獻,研究該文獻在整個生命周期的引用頻次,也叫“前瞻法”。在過去,計量學者提出許多文獻老化理論模型,并引入各種指標對文獻老化程度進行測算。這些經典研究成果關注不同層次的文獻老化現象。例如,普賴斯指數適用于學科、期刊和文獻三個層面[14-17];Brookes 負指數模型、Burton-Kebler模型及其修正式、引文半衰期指標等主要適用于學科層面[18],從期刊和文獻層面開展的研究較少,剩余有益性指標主要關注期刊層面;基于知識元的文獻老化模型[19]、Ye模型[20]和文獻老化編碼模型[21]則從文獻層面進行研究。文獻老化理論模型成果豐富。一方面半衰期和普賴斯指數等傳統模型仍受到青睞;另一方面,基于文獻生命周期視角的研究近年興起[21-24]。與此同時,一些學者不僅提出創新性的知識元模型[19],還吸收、借鑒其他學科研究成果,如從生物學領域引入Ye模型進行老化研究[20]。圖1對目前主要的文獻老化理論模型進行分類梳理,表1對目前模型細節、優缺點等進行了詳細梳理。

表1 文獻老化理論模型比較

圖1 文獻老化理論模型體系
(1)基于半衰期計算文獻老化程度的模型包括負指數模型和概率模型:負指數模型以Burton-Kebler模型[6]為核心,但未考慮引用延遲對老化的影響。莫德列夫修正式[25-26]將引用延遲因素引入Burton-Kebler方程以提高模型的準確性;丁學東[27]提出了分段模型用以描述引文數量隨時間的變化,其本質是基于Burton-Kebler模型的級數模擬,在特定參數下,丁學東模型可以轉化為Burton-Kebler模型。概率模型則通過使用不同的概率分布(包括但不限于使用正態分布[28-29]、對數正態分布[30]、伽馬分布[31]和泊松分布[32]等)對引用數據進行擬合,獲得對應參數的估計值。
(2)普賴斯指數[7]是Price1971年提出的衡量各學科文獻老化程度的指標,適用范圍廣、計算較簡單,仍受到學者的青睞。但普賴斯指數采用固定五年引文窗口,不完全適用于不同學科領域文獻老化的計算。
(3)文獻生命周期模型關注文獻發表后的生命歷程。Bouabid提出基于論文被引次數的文獻生命周期模型[22],使用二階導數計算文獻初始被引次數增長和減少的最快速率以識別文獻老化與否,該模型也可以用來預測未來剩余被引率并計算引文的生命周期長度;Gou 等[21]完善了Bailón-Moreno 等提出的文獻老化過程GMAV模型[33],創新性地提出文獻老化編碼模型,通過對文獻老化字符串的統計分析,揭示不同學科老化現象的特點和規律,為文獻老化研究提供新的方向。林輝等[23]、Wang等[24]也從文獻生命周期理論出發提出適用范圍不同的老化模型。
(4)基于知識元的文獻老化模型[19]認為科學文獻老化速度本質上是知識元在新老文獻中轉移的速度,文獻的知識元全部轉移則表示該文獻已經完全老化,但“知識元”的概念如何操作化仍需進一步研究。陳京蓮等人將生物學領域中描述植物在光抑制條件下光合作用的響應模型——Ye模型引入到文獻老化領域[20],發現相較于負指數模型等,Ye模型的擬合效果更好,理論結果與實際值具有高度一致性。
學界對文獻老化的影響因素及各因素的影響程度沒有達成一致,但對文獻老化現象達成基本共識:文獻老化只表明特定文獻的引用頻次的降低,是文獻本身(載體)的老化而非知識的老化。文獻老化的影響因素主要包括:文獻數量增長、學科類型、學科發展階段、學科需求、信息技術的發展、語言、文獻質量等[14,25,34-37],前四點主要是從學科和期刊層面解釋文獻老化現象的發生,最后兩點主要從期刊和文獻個體層面進行解釋。
李慧總結邱均平和徐恩元的研究[11,34-35],將影響文獻老化的因素歸納為:一是文獻數量增長:科學文獻老化的根本原因是科學知識的增長和更新,一般而言(新)文獻增長越快,(舊文獻)老化越快。二是文獻的學科特點:文獻所屬學科領域的差異會導致文獻老化速率差異。三是學科的發展階段:在學科發展初期,由于原始文獻較少,文獻數量呈指數增長,文獻老化速率較快,隨著學科發展成熟,文獻數量不再保持指數增長態勢,文獻老化速率較慢[34]。四是文獻的類型和性質:如同一學科的圖書、期刊、學位論文、標準文獻等不同類型的文獻老化速率不同[25]。五是用戶需求和信息環境:從需求看,不同類型用戶對文獻的需求不同,科研骨干人員對最新文獻更感興趣,而剛剛進入科研崗位的人員需要了解歷史背景文獻資料[34];從信息環境看,數據庫、檢索系統和搜索引擎等技術的發展導致較老的文獻通過這些技術數字化后,其被發現和使用的概率會增加[14-15]。
劉茜等[37]認為引文動機也會影響文獻老化速率計算的準確性,在計算文獻老化速率時需要考慮“引文不均等”現象,也即通過引文動機區分不同引文的重要性。施引文獻的引用行為可能包含多種引用動機,其作者的引用目的和態度不盡相同,單純使用文獻被引頻次來計算文獻老化速率可能存在偏差,但問題有待進一步探討。
文獻本身的質量、撰寫的語言也是影響文獻老化的重要因素。Burton等[6]認為在某個學科領域,研究熱點的迅速變化會縮短半衰期,即加速文獻老化。在某種程度上,較快的老化速度可能源于文獻本身信息質量差,許多文獻在發表之初就有一種內在的“過時性”,導致這些文獻在發表后迅速老化。Alvarado[1]認為語言可能是影響文獻老化的重要因素,他對2007-2010年發表的86篇研究洛特卡定律的文獻進行分析,發現這些文獻最常見的是英語、葡萄牙語和西班牙語,并且使用這些語言撰寫的文獻老化速度更慢,而使用中文、德文等撰寫的文獻被所謂的國際社會使用或引用的頻次會更少,老化速度相對更快。
不同學科領域的引文膨脹速率不同,一般認為引文膨脹具有延緩文獻老化的作用。Galiani等[38]從引文膨脹的角度出發研究文獻老化影響因素,構建了一個包含12 個領域近6 萬篇文獻、500萬條引用關系的數據集,發現經濟學、金融學、數學、政治學、心理學、社會學和統計學受引文膨脹的影響較大,文獻生命周期更長,老化速率更慢。Higham等[39]也認為引文膨脹會延緩文獻老化的速度。
國內外其他研究對文獻老化的影響因素也多有涉獵[40-44],或可歸入上述七類影響因素,或可通過上述影響因素間接解釋。
文獻老化實證研究主要關注圖書和論文文獻的老化。多數學者認為,無論是論文還是圖書,如果從學科這一層次來研究文獻老化速度,結論總體來看和Price提出的“硬科學的老化速率較高,軟科學的老化速率較低”[7]的觀點一致,但在具體的學科分類中可能會有細微差別。
對圖書老化規律的研究發現,人文社科的圖書老化速率明顯低于自然科學,這一現象與學科特點有關:人文社科研究更新迭代速度較慢,而自然科學對文獻的研究時效性有較高要求,更新迭代速度較快。Walker等[45]對康奈爾大學2002年、2004年、2006年、2008年的圖書使用情況進行研究,發現2002年圖書使用率最高的學科是歷史和醫學;2002-2008年政治、教育、數學和計算機科學、軍事科學等老化速率最快;老化速率較慢的是通用圖書及歷史、藝術、農業和圖書館學等領域的專業圖書,其中通用類型圖書使用率相對更高,每年超過9%。O’Neill等[46]、Fry[47]分別使用OhioLink數據集中不同時間的數據,都發現生物科學等自然科學的圖書老化速率最快,文學、歷史等領域的圖書老化速率相對較慢,圖書老化速率最慢的是藝術與娛樂領域。
論文文獻老化研究集中于學科之間老化速率對比研究或特定學科的老化現象研究。總體看,文獻老化速率在逐漸變慢[1,4,27,48],且社會科學文獻老化速率低于自然科學。
Alvarado[1]分析 2007-2010 年發表的 86 篇研究洛特卡定律的文獻,發現這些文獻老化速率非常慢,平均老化年齡為17.4年,且老化速率以每年9%下降。Bouabid等[48]基于發達國家(六國集團,G6)和新興國家(金磚國家,BRICS)在Web of Science(WoS)中收錄的文獻數據,也發現各學科文獻老化速率降低,而且不同學科的文獻預期壽命差異很大。Finardi[49]使用1999-2010年JCR學科分類中管理學和化學(多學科)兩種類別的文獻,研究其老化特征的區別,發現化學文獻從發表后第二年就開始老化,而管理學文獻在10年的時間窗口中較少出現老化現象。Zhang和Gl?nzel[14-15]使用 WoS 核心合集 1992 年 74.9 萬篇和2014年173.3萬篇文獻,利用普賴斯指數對文獻老化程度進行度量,發現社會科學文獻的老化速率最慢-,物理學和生物化學文獻的老化速率較快;物理學和生物化學文獻老化特點的相似性在Vieira等[50]研究其引文分布特點時也有發現,Parolo等[51]在研究生物學、化學、醫學和物理學文獻的老化速率時也得到了相似的結論。
國內不少研究也關注期刊文獻老化現象的學科差異問題。邱均平等[12]以CSSCI 2006-2008年收錄的近30 萬篇文獻及其引文數據為樣本,基于共時法對比分析人文社會科學七大學科門類的老化規律,發現歷史學科的老化并不嚴格遵循負指數函數規律,人文學科比社會學科文獻老化速率慢,且人文社會學科目前最大引文年限為3年,比普賴斯提出的2年更長一些。李瓊等[52]發現西夏學文獻對“檔案性”文獻的依賴性強,這和邱均平等提出的歷史學和哲學兩類學科對“檔案性”文獻依賴大的觀點[12]是一致的。游毅等[4]使用SCI/SSCI中數學、經濟學、計算機科學和歷史學4門學科中各40種期刊在1980-2009年的期刊發文和被引數據,發現文獻老化總體趨勢變緩,且新興學科老化速率高于傳統學科。
綜合相關實證研究還發現,實驗數據集的時間窗口、覆蓋范圍對于文獻老化研究的結論有重要影響。王富國[53]基于CSSCI 2006-2009年間管理學和圖書情報與文獻學學科領域的引文數據,對兩個學科的文獻進行負指數老化模型分析、老化指標分析,發現圖書情報與文獻學的老化速度比管理學快,并近似計算出該階段這兩個學科的半衰期分別為4.6年、5.3年。這一結論和黃利平對圖書情報和管理學的文獻老化研究成果略有差異:黃利平[54]認為圖書情報學的被引半衰期為3年,管理學領域的被引半衰期為3-5年;但在圖書情報學的老化速率高于管理學這一點上,兩者的結論一致。研究結論的差異可能和二人所使用的數據集有關,兩人均使用CSSCI管理學和圖書情報與檔案學的部分期刊引用數據,但王富國使用的引用數據平均時間晚于黃利平,計算出圖書情報和管理學的文獻半衰期也更短。前述O’Neill等[46]和Fry[47]的研究結果的差異也是使用不同時段的OhioLink數據集所導致。
鐘晶晶、俞立平等學者在特定學科領域也曾進行學科老化現象的實證研究[55-63]。此外,楊思洛等[64]對中國引文數據庫中1994-2013年標準類引文數據進行計量分析,發現大部分社會學科的標準引用量為零,自然科學的標準引文數量和被引頻次相對較高。
科學文獻老化現象特征研究成果豐富,對典型文獻(發表后短時間內即達到引用峰值,而后引用逐年減少)的引用老化特征研究較完善,針對非典型文獻的研究近年逐漸興起。He 等[65]使用1900-2015年WoS數據和部分APS數據對非典型的文獻進行研究,根據引用年齡分布特點將其分為喚醒型文獻(awakened articles)、第二行為型文獻(second-actarticles)和以上二者的綜合型文獻(second-act awakened articles)三類。Li等[66-67]也研究了該類具有雙峰特征的延遲承認文獻的引用特點,并提出此類文獻的識別方法。此外,Yin 等[13]從時間的維度對引用行為進行研究,建立理論框架,找到“回溯法”和“前瞻法”的年齡分布之間的數學轉換關系,為未來文獻老化研究提供更堅實的實證和理論基礎。
另一方面,隨著網絡技術進步,信息爆炸增長,網絡信息老化受到關注。一些學者在研究時將文獻老化理論“移植”在網絡信息老化研究上[68-69],也有學者從傳播學理論出發,結合已有文獻老化理論,建立新的網絡信息老化模型[70-72]。目前網絡信息老化研究熱點集中在微博[68-69,71-73]、Twitter[74-75]等社交平臺的信息老化上,對其他方面的網絡老化信息關注較少。而且當前網絡信息老化研究仍然集中于老化速率描述及不同類型、平臺的網絡信息老化速率比較,對新的模型、方法的探索研究相對不足。
文獻老化的應用主要體現在圖書館等知識服務組織的管理和文獻推薦與排序活動中。文獻剔舊源于信息資源數量增長帶來的藏書空間緊張問題,是圖書館和其他知識服務組織管理工作的重要部分。文獻剔舊需根據藏書容量和類型執行多樣化的標準。蔡曉麗[18]針對這一問題,基于文獻老化現象中不同學科之間的差異性,為自然科學和社會科學分別制定不同的剔舊標準,并且強調社會科學由于老化速率較慢和本身的文獻的特殊性,需要結合其他統計指標共同構建剔舊標準。蔡迎春[76]以圖書引用半衰期和圖書借閱次數兩個指標為主,輔以定性分析,以館藏經濟類圖書為例進行了藏書復選的實證分析。謝明詮[77]認為不能將老化文獻直接剔除出圖書館,而應當將老化文獻轉移至儲存圖書館,這有利于文獻的長期保存、保障圖書館資源的完整性。李卓卓等[78]提出了基于布拉德福常數和半衰期的文獻老化分布象限圖,指出不同象限內的文獻在剔舊時應當使用不同的策略。
在文獻推薦與排序的實踐應用中,將文獻老化特征融入原有推薦系統中是當前學者的主要研究方向。鄧齊強等[79]從書目推薦入手,通過降低老化圖書的關聯支持度,減少老化圖書中較弱的關聯規則,以實現從推薦書目中剔除老化程度較高的文獻的目的。王玉斌等[80]將信息老化量度與協同過濾推薦算法結合,通過實驗分析發現,與傳統的協同過濾算法相比,新的協同過濾算法的推薦結果具備更好的時效性。Wang等[81]在文獻重要性排名中引入老化特征,將老化特征加入PageRank算法中,并使用美國物理學會APS數據集進行實驗。結果表明,加入老化特征后PageRank算法在論文和作者排名精度方面的性能有了顯著的提升。熊回香等[82]在進行學術論文推薦時,借助文獻老化指標,加入不同類型論文的時間價值特征,獲得了更好的推薦效果。
自20世紀上半葉被正式提出以來,文獻老化領域取得了豐富的研究成果。然而梳理近年來國內外關于文獻老化的新近研究成果后,發現顛覆性、創新性研究較少,多為圍繞已有經典模型進行的補充性、實證性研究。部分研究關注文獻老化理論模型的優化改進,如基于概率統計模型提出對數正態分布模型、泊松分布模型和伽馬分布模型,但這些模型不僅計算復雜度高,而且效果也需更為廣泛數據集的驗證[20];基于知識元[19]和老化編碼[21]的模型在創新性上有了一定的突破,但將其應用于實踐中仍需更多探索。
現有研究將文獻老化的影響因素歸納為文獻數量的增長、學科類型、學科發展階段、學科需求、信息技術的發展、語言、質量。對前四點因素而言,以往研究已經進行大量質性和量化的分析;但針對后三點影響因素的探索仍顯不足。比如,不同學者就信息技術的發展對文獻老化的影響得到了相矛盾的觀點[14-15,51]:技術發展使得老舊的經典文獻更容易獲取,這表現為文獻的老化速率減慢;但又使得大量具有替代性的新文獻涌現,這可能導致文獻的老化速率提升。另一方面,語言因素關乎學者獲取信息的認知、行為、特點。語言對文獻老化的影響可進一步衍生為學術群體信息行為特點對文獻老化的影響,因此文獻的載體形式、內容表達形式等可能同樣對文獻的老化速率有著重要影響[1,35],這些也有待于更深入的研究。但目前的定性研究缺乏實際調研[18],定量分析則大多停留于現象描述層面,缺乏機制或因果層面的分析。
學者很關注文獻老化問題的實證性研究。從較為傳統的論文文獻[50-63,83-87]和圖書文獻的老化程度實證研究[1,8,45-47,88],到非典型老化特征文獻研究[65]和網絡信息的老化特征研究[9,68-75],實證研究起到了檢驗已有理論成果、增進對老化規律的認識、指導管理實踐的重要作用。但現有的實證性研究往往是應用已有的模型、指標對某一特定集合的文獻的老化速率進行計算,較少有根據實踐活動的實際經驗對已有的模型、指標提出改進或應用建議,少有能夠根據實踐反饋結果促進相關理論的進一步發展。同時,實證研究還多存在結論局限性大、部分結論存在矛盾等問題,這是由研究數據對象的限制所引發的。
文獻老化應用研究集中在圖書館剔舊、書目及信息推薦和排序領域。從目前研究來看,大多數學者仍停留在“建議”層次,缺乏對圖書館現有剔舊標準的實際考察,較少提出詳細、具有可行性的剔舊標準。顯然,不同圖書館應當根據其藏書容量和藏書類型設置不同的剔舊標準[18,76-77],這要求研究者們進一步將其研究成果“落地”,切合實踐之需要。相較其他研究而言,文獻老化研究成果的應用研究已邁入一個更廣闊的天地。除剔舊外,相關研究成果還廣泛應用于推薦、評價等其他與文獻相關的活動中。比如,在設計圖書館書目推薦系統時,除考慮到用戶需求與圖書內容的匹配程度外,還需要考慮到圖書自身的老化程度[79];在進行與文獻相關的學術評價時,不僅考慮評價對象本身的價值、意義,還考慮到評價對象的老化特征[81],有針對性地對不同類型的文獻使用不同的評價標準。
文獻老化不僅是文獻計量學的子領域,而且被泛化為一種思想,即從時間維度觀察事物的一種思維方式。這使得在進行很多研究時,研究者或多或少地會以文獻老化的視角思考問題。例如,在期刊、論文影響力評價時,評價者需要考慮文獻的老化特征和引文時間窗口[80-81];在知識服務組織中,管理者需要考慮文獻的老化程度[18,76-79,88-89];在文獻和信息的發布、獲取、利用過程中,用戶需要考慮到文獻和信息老化過程[14-15,68-69,71-72,74-75]。當信息日益成為一種生產要素,文獻成為學術和相關實踐活動的必要資源,文獻老化及其相關問題的研究就愈發體現其價值。近年來文獻老化相關研究繼承了經典的研究成果,并在此基礎上做出改進、優化和發展;但另一方面,這些研究多數囿于以往的研究模型,相對缺乏新的研究模式和視角。文獻老化研究已有近百年歷史,如何在新的時代環境、技術背景下挖掘文獻老化研究的新價值,探索新的研究范式;如何借助文獻老化研究的思想成果,將其融入更廣泛的研究問題領域中,還有待于更多具有創新性、顛覆性的深入研究。最后,本文列舉以下值得關注的問題,以期引起學界更多的探討。
(1)如何利用復雜網絡的理論與方法,將文獻老化的量化模型從“數數”變為“建網”,從而對焦點文獻和施引文獻之間形成的引用網絡結構及其互動、交叉、衍化等諸多復雜關系在時序維度下的變化進行表達和描述[90]?
(2)隨著結構化全文數據資源可獲得性的不斷提高和自然語言處理技術進步,如何將文獻老化研究從基于題錄數據全面轉向基于全文本數據的研究,以細化文獻老化研究的粒度,提高文獻老化研究的精度?譬如,基于對引文句內容、引用句位置、引用動機的分析,剔除偽引,設置引用權重,從而“修正”原始的引文曲線,提高文獻老化研究結論的準確度。
(3)如何進一步拓寬文獻老化研究的應用場景,挖掘潛在的理論、實踐和政策意義,更好地服務于學術評價、信息服務和情報工作?以學術評價為例,學術評價總是需要在及時性與準確性之間做出平衡[91],一方面需要更長的時間以獲取足夠的信息進行恰當的評價;另一方面,需要在盡可能短的周期內完成評價以指導后續實踐。因此,研究時間維度下文獻信息價值變化的文獻老化有著重要的潛在價值,這仍有待于未來作出更深入的探討和研究。