多源數據的文獻計量功能發展及其比較研究

2019-11-12 08:02:22孫濟慶華東理工大學科技信息研究所

圖書館理論與實踐 2019年10期

朱雯，陳榮，孫濟慶（華東理工大學科技信息研究所）

1 引言

20 世紀中葉，人們就已經意識到信息研究的關鍵是準確地度量信息，而文獻計量學作為與信息科學關聯的定量研究領域，［1］其與科學計量學、信息計量學、網絡計量學和知識計量學既有聯系又有區別。［2-4］文獻計量學是信息計量學的基礎，科學計量學的成果形成了信息計量學的重要內容和發展基礎，網絡計量學和知識計量學是文獻計量學在新時代的發展。目前，文獻計量學在數字文獻資源應用、信息檢索等方面已得到廣泛應用，［5-9］一方面，提高了文獻檢索的效率和效果，為學術影響力的評價提供數據支持；另一方面，有力助推了學術檢索系統的大數據技術的繁榮發展。在此時代背景下，學術文獻檢索系統作為信息時代的產物，人們對其提出了更高的要求。

Morris 等人指出基于某種關系的科學計量方法只能從某一方面反映出對科學領域的有限認識。［10］伴隨著科技文獻數量的爆炸式增長以及文獻類型的不斷豐富，來自新渠道、新載體的新的數據類型源源不斷的產生，拓展了可供科學計量分析的關系類型，而如何充分利用當前多類型的數據和多種計量關系，并對多源數據的文獻計量功能進行優化，則成為提高科學計量分析能力的重要突破方向之一。

目前，多源數據還沒有一個較為統一的概念，參照化柏林［11］、許海云［12］等人的研究，筆者認為多源數據是指不同類型的來源信息或關系數據。在此基礎上，將學術數據庫和學術搜索引擎作為多源數據的研究對象。這里的學術數據庫是指在計算機可讀介質上，使用一定方法將學術類信息組織起來的信息集合，［13］其研究主要集中在檢索方法、收錄范圍、檢索結果分析比較等方面；［14-17］而學術搜索引擎是指通過組織、管理和維護網絡中的學術信息，用戶經一個檢索入口，便能快速獲取網絡學術信息，［18］其研究主要探討文獻來源、檢索功能、檢索結果以及其與傳統數據庫的差別。［19-22］

綜觀多源數據的相關研究發現，目前的研究較多聚焦于利用多源數據的文獻數據進行文獻計量分析，［23-26］而對其文獻計量功能的研究涉及較少。本文以學術搜索引擎（谷歌學術、百度學術）和學術數據庫（Web of Science、Scopus、中國知網和維普數據庫）為研究對象，在研究多源數據的文獻計量功能發展歷程的基礎上，從數據來源、計量內容、計算方法和結果呈現方式四個方面比較學術搜索引擎與學術數據庫的文獻計量功能，分析文獻計量功能的發展特點及其差異，旨在促進學術搜索引擎和學術數據庫完善文獻計量功能，提高用戶的使用效率，為學術研究提供更為科學準確的文獻計量結果。

2 多源數據的文獻計量功能發展歷程

從20 世紀80 年代第一次出現文獻計量功能——“檢索結果排序”起，學術搜索引擎和學術數據庫的文獻計量功能已經發展了近40 年，大致可以分為三個階段。① 簡單排序計量階段（20 世紀80－90 年代）。20 世紀80 年代，光盤數據庫出現，單一的檢索功能已不能滿足用戶需求，出現文獻發表年份排序等功能，方便用戶篩選出所需文獻。此時的文獻計量功能為簡單計量階段，主要表現為相關性排序、發表年份排序等。②指數化和模型化階段（20 世紀90 年代末－2009 年左右）。20 世紀90 年代末，網絡版檢索系統出現，用戶可以在短時間內檢索到全球的文獻，系統實現了簡單文獻分析功能，如索引詞分析等。此時的文獻計量功能從簡單排序計量轉向簡單分析計量，計量內容不斷完善。隨著學科的不斷成熟，評價學術影響力的需求越來越大，不同數據源開始利用自身數據資源優勢，構建了各種復雜的評價指標模型，如影響因子、h 指數等。③ 可視化和智能化階段（2009 至今）。［27］知識經濟的發展以及可視化技術的成熟，不同數據源更加重視知識語義的挖掘，在結果呈現方面更加多樣化。如利用可視化技術顯示某領域論文發展數量年度分布、關鍵詞共現網絡等。

2.1 學術數據庫的文獻計量功能發展歷程

從學術數據庫文獻計量功能發展歷程看，主要經歷了簡單排序計量、簡單分析、復雜的評價指標分析以及可視化和智能化分析幾個階段，目前文獻計量功能發展到第三階段。

隨著文獻數據量的不斷擴大，數據庫的檢索功能日益完善。如檢索結果排序功能，以列表的形式將檢索到的文獻按照文獻的類型、文獻的作者、刊載文獻的出版物等內容進行排序，供用戶篩選。

評價分析功能是指學術數據庫利用自身引文數據等評價期刊或作者等的學術影響力，如Web of Science中的期刊影響因子、中國知網的作者h 指數、維普數據庫的平均引文率、Scopus 的CiteScore 等。

隨著知識經濟時代的到來，文獻的內容價值受到學者們的重視，學術數據庫憑借著深厚的數據資源，對文獻的關鍵詞、主題詞等進行計量分析，計量結果的顯示方式從單一的列表方式向可視化方式發展，如中國知網的關鍵詞共現網絡圖等。

2.2 學術搜索引擎的文獻計量功能發展歷程

與學術數據庫相比，學術搜索引擎起步較晚，目前學術搜索引擎的文獻計量功能也已發展到第三階段。學術搜索引擎在學術數據庫已有的文獻計量功能基礎上，不斷完善計量內容，開發了具有自身特色的計量產品。

谷歌學術是谷歌旗下免費的學術搜索平臺，2004年11 月發布了第一個Beta 版，2006 年1 月擴展到中文學術文獻領域，2012 年推出谷歌學術計量，用來評價各個領域雜志的影響力。該系統主要包括h 指數、h核心（h-core）、h 中值（h-median）等。［28］

百度學術是百度旗下的免費學術搜索平臺，旨在將資源檢索技術和大數據挖掘分析能力運用于學術研究，自2014 年成立以來推出了研究點分析、相關熱搜詞分析，具有深入計量文獻的內容特征。

3 多源數據的文獻計量功能比較

本文從數據來源、計量內容、計算方法、結果呈現方式四個方面對多源數據的文獻計量功能進行比較。

（1）數據來源是文獻計量功能的基礎，不同的數據來源是導致文獻計量結果產生差異的重要原因之一。本文主要從文獻種類、文獻數量、學科范圍、時間范圍和國家范圍五個方面比較學術搜索引擎和學術數據庫的數據來源，旨在探析導致文獻計量差異的原因。

（2）計量內容是文獻計量功能的重要組成部分，主要根據文獻的外部特征和內容特征進行計量。文獻的外部特征計量是基于文獻的機構、作者、出版單位、來源等進行計量，主要有簡單計數統計和評價指標統計兩種統計方式。簡單計數統計是指學術搜索引擎或學術數據庫對文獻數量、下載量、被引量等的計數統計；評價指標統計是指學術搜索引擎或學術數據庫利用特定數理模型進行計量分析，評價對象一般為作者和期刊。文獻的內容特征計量是基于關鍵詞、主題詞、摘要等的計量。通過計量文獻內容特征，可以了解某篇文獻的重點研究內容以及相關研究點的研究進展等。

（3）計算方法是文獻計量內容的基礎，其主要包含兩種計算方法：① 利用相關計算機軟件進行統計發文量、被引量、詞頻等計數統計；② 利用文獻信息計量學基本規律的數學表達式和相關計算機軟件建立數學模型。［27,29］

（4）結果呈現方式是學術搜索引擎或學術數據庫將計量得到的結果呈現出來的方式，而可視化是呈現計量分析結果的關鍵性技術路徑。［30］除可視化方式外，還包含表格方式。表格方式是利用表格顯示特定數據，以列表呈現的計量內容主要有時間分布、語言分布、資源類型分布、學科分布、來源分布、作者分布、機構分布、國家/地區分布、各參考文獻、引證文獻、相關文獻等?？梢暬绞绞峭ㄟ^圖形和圖像的方式顯示特定的數據，并進行相應的交互處理。［31］根據可視化圖形圖像描述的信息特征關系不同，可視化分為縱向可視化、橫向可視化和交叉可視化三種主要形式。［32］縱向可視化表現的是某一計量內容隨時間變化的狀態，用柱狀圖、條形圖、折線圖、散點圖等表示；橫向可視化表現的是在同一時間狀態下不同計量內容之間的相互關系，用柱狀圖、條形圖、網絡圖等表示；交叉可視化表現的是縱向可視化與橫向可視化相結合后的總體數據的狀態，用網絡圖或知識圖譜表示。

3.1 數據來源

本文對學術搜索引擎和學術數據庫收錄的數據來源進行檢索查詢，檢索截止時間為2018 年4 月1 日，結果見表1。從表1 中可以看出學術搜索引擎中的引文數據來源大于學術數據庫，谷歌學術和百度學術收錄的文獻數量較大，學科、時間以及國家覆蓋范圍廣于學術數據庫。原因是學術搜索引擎是網絡中學術文獻信息的第三方集成平臺，僅提供網址鏈接，不提供文獻全文，所以數據來源廣泛；而學術數據庫是數據庫商與出版社等建立合作關系，將這些機構出版的期刊、圖書等資源進行數字化處理，集成在數據庫內部，其數據來源少于學術搜索引擎。

表1 學術搜索引擎和學術數據庫的數據來源

3.2 計量內容

從表2 中可以看出，① 簡單計數統計方面，學術搜索引擎和學術數據庫均計量資源數量、發文量、被引量等，但學術數據庫的計量內容種類多于學術搜索引擎，除此之外，Scopus 計量數據庫之外的文獻閱讀量，如提供文獻社交媒體的閱讀量；② 評價指標統計方面，學術搜索引擎和學術數據庫均包含期刊和作者等影響力的計量；③ 中國知網注重提供合作作者網絡圖等計量內容，百度學術提供了研究點分析等計量內容；④ 在內容特征計量方面，谷歌學術不涉及內容特征計量，中國知網和維普數據庫重視挖掘各關鍵詞之間的關系，并提供專利研究熱點氣泡圖等。

3.3 計算方法

由于內容特征計量涉及的數學模型較復雜，故本文僅探討學術搜索引擎和學術數據庫中簡單計數統計和評價指標統計的計算方法。研究發現，學術數據庫的簡單計數統計和評價指標統計的主要方法與學術搜索引擎相似，但也存在一些不同點。

表2 學術搜索引擎和學術數據庫的計量內容

（1）共同點主要有三個方面。①目的相同，均是評價學術影響力或為學術研究提供數據支持。②評價指標的數據主要來源于被引次數。③計算公式主要有三種：一是簡單求和的計算方式，如期刊被引量等；二是計算平均數，如影響因子等；三是計算中位數，如h 指數等。

（2）不同點主要有兩個方面。① 引文數據來源不同。學術搜索引擎統計的引文數量多于學術數據庫，如，維普數據庫中學者h 指數的數據來源于期刊；而百度學術學者h 指數的數據來源于期刊論文、學位論文、會議論文、圖書、專利等。② 評價指標統計時間范圍不同。如，百度學術的影響因子是期刊前2 年發表的文獻在當年百度學術中的篇均被引次數；Web of Science 中的立即指數是期刊當年發表的文獻在當年Web of Science 中的篇均被引次數；Scopus 中的CiteScore 是期刊前3 年發表的文獻在當年Scopus 中的篇均被引次數。

3.4 結果呈現方式

學術搜索引擎和學術數據庫的結果呈現方式也各異（見表3）。① 學術搜索引擎和學術數據庫的結果呈現均包含表格方式。② 學術數據庫結果呈現的可視化方式多于學術搜索引擎。如，谷歌學術不包含可視化方式；而學術數據庫中的四大研究對象均包含可視化方式。百度學術包含縱向、橫向和交叉可視化方式，可視化形式多樣；Web of Science 和Scopus 以縱向可視化為主，可視化形式較單一；而中國知網和維普數據庫還注重知識圖譜的構建，維普數據庫將領域、作品、機構、作者、主題等放于同一張知識圖譜中，直觀地顯示了各結點之間的關系，同時在任意一個結點，還可以發現與之有關系的結點（見下圖）。

表3 學術搜索引擎和學術數據庫的結果呈現方式

圖維普數據庫的交叉可視化方式

4 總結與建議

4.1 總結

本文以多源數據——學術搜索引擎（谷歌學術、百度學術）和學術數據庫（Web of Science、Scopus、中國知網和維普數據庫）為研究對象，從計量功能發展歷程和功能比較兩個方面分析學術搜索引擎與學術數據庫文獻計量功能的特點及其差異，發現目前學術數據庫和學術搜索引擎的文獻計量功能已發展至可視化和智能化階段，而學術數據庫的文獻計量功能優于學術搜索引擎。

（1）計量功能的發展歷程。學術數據庫的計量功能起步較早，經歷了簡單排序計量、指數化和模型化、可視化和智能化三個階段，結果呈現方式則從單一的表格呈現方式發展到可視化的呈現方式。相對而言，由于學術搜索引擎起步較晚，在學術數據庫已有的文獻計量功能基礎上，其著重于深入挖掘文獻內容，為評價學術影響力推出一系列評價指標。

（2）計量功能的比較。① 數據來源。學術搜索引擎的數據來源多于學術數據庫，但數據來源質量有待考量。②計量內容。一方面，學術數據庫的計量內容種類多于學術搜索引擎，二者也越來越重視在大眾社交類（如社交媒體的文獻閱讀數）、使用統計類（如下載次數）數量的計量；另一方面，學術數據庫與學術搜索引擎不斷完善影響因子和h 指數的缺點，提出了5 年影響因子、h5 指數、半衰期、CiteScore等。③計算方法。學術數據庫在簡單計數統計和評價指標統計方面與學術搜索引擎相似，但在引文數據來源和評價指標統計時間范圍與學術搜索引擎不同。④結果呈現方式。學術搜索引擎與學術數據庫在表格呈現方式方面無差異，但在可視化顯示方面存在顯著差異。如，谷歌學術不包含可視化方式，而維普數據庫包含縱向、橫向以及交叉三種可視化方式。

4.2 建議

（1）加強社交媒體使用量的計量，以彌補被引量延遲問題。隨著互聯網的普及以及各種社交媒體軟件的廣泛使用，單一形式的文獻傳播方式已不能滿足人們的需求，出現了多種形式的文獻傳播方式，如微信、微博、Twitter 等。因此，不能使用單一的被引次數來評價學術影響力，學術搜索引擎與學術數據庫應加強社交媒體使用量等的計量，以此來彌補被引量延遲等問題，為全面地評價學術影響力提供數據支持。

（2）構建具有社會影響力的計量內容，深入探討主體間的相關關系。學術搜索引擎與學術數據庫均提供了一些計量內容，但某些計量內容在學術界并沒有得到廣泛使用，如百度學術的研究點分析。因此，學術搜索引擎與學術數據庫需要構建具有社會影響力的計量內容，如，學術搜索引擎網羅文獻信息的各個社交媒體使用數據（如微博等網站的閱讀數），優先提供文獻的社會影響力評價指標，為全面評價學術影響力提供數據支持；而學術數據庫深入挖掘作者合作網絡關系，為探討新型作者合作模式提供參考借鑒。

（3）深入挖掘文獻知識語義，優化可視化方式。目前可視化技術比較成熟，但在學術搜索引擎中的應用范圍較窄。未來學術搜索引擎需要加強可視化方式，多元化呈現計量結果，學術數據庫要不斷完善可視化技術，深入挖掘文獻的知識語義，將可視化技術運用于顯示各個知識元之間的相互關系，有利于系統更好地為用戶提供知識服務以及幫助用戶發現更多相關研究點，以拓寬研究思維。