999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多源數據的文獻計量功能發展及其比較研究

2019-11-12 08:02:22孫濟慶華東理工大學科技信息研究所
圖書館理論與實踐 2019年10期
關鍵詞:搜索引擎可視化數據庫

朱 雯,陳 榮,孫濟慶(華東理工大學科技信息研究所)

1 引言

20 世紀中葉,人們就已經意識到信息研究的關鍵是準確地度量信息,而文獻計量學作為與信息科學關聯的定量研究領域,[1]其與科學計量學、信息計量學、網絡計量學和知識計量學既有聯系又有區別。[2-4]文獻計量學是信息計量學的基礎,科學計量學的成果形成了信息計量學的重要內容和發展基礎,網絡計量學和知識計量學是文獻計量學在新時代的發展。目前,文獻計量學在數字文獻資源應用、信息檢索等方面已得到廣泛應用,[5-9]一方面,提高了文獻檢索的效率和效果,為學術影響力的評價提供數據支持;另一方面,有力助推了學術檢索系統的大數據技術的繁榮發展。在此時代背景下,學術文獻檢索系統作為信息時代的產物,人們對其提出了更高的要求。

Morris 等人指出基于某種關系的科學計量方法只能從某一方面反映出對科學領域的有限認識。[10]伴隨著科技文獻數量的爆炸式增長以及文獻類型的不斷豐富,來自新渠道、新載體的新的數據類型源源不斷的產生,拓展了可供科學計量分析的關系類型,而如何充分利用當前多類型的數據和多種計量關系,并對多源數據的文獻計量功能進行優化,則成為提高科學計量分析能力的重要突破方向之一。

目前,多源數據還沒有一個較為統一的概念,參照化柏林[11]、許海云[12]等人的研究,筆者認為多源數據是指不同類型的來源信息或關系數據。在此基礎上,將學術數據庫和學術搜索引擎作為多源數據的研究對象。這里的學術數據庫是指在計算機可讀介質上,使用一定方法將學術類信息組織起來的信息集合,[13]其研究主要集中在檢索方法、收錄范圍、檢索結果分析比較等方面;[14-17]而學術搜索引擎是指通過組織、管理和維護網絡中的學術信息,用戶經一個檢索入口,便能快速獲取網絡學術信息,[18]其研究主要探討文獻來源、檢索功能、檢索結果以及其與傳統數據庫的差別。[19-22]

綜觀多源數據的相關研究發現,目前的研究較多聚焦于利用多源數據的文獻數據進行文獻計量分析,[23-26]而對其文獻計量功能的研究涉及較少。本文以學術搜索引擎(谷歌學術、百度學術)和學術數據庫(Web of Science、Scopus、中國知網和維普數據庫)為研究對象,在研究多源數據的文獻計量功能發展歷程的基礎上,從數據來源、計量內容、計算方法和結果呈現方式四個方面比較學術搜索引擎與學術數據庫的文獻計量功能,分析文獻計量功能的發展特點及其差異,旨在促進學術搜索引擎和學術數據庫完善文獻計量功能,提高用戶的使用效率,為學術研究提供更為科學準確的文獻計量結果。

2 多源數據的文獻計量功能發展歷程

從20 世紀80 年代第一次出現文獻計量功能——“檢索結果排序”起,學術搜索引擎和學術數據庫的文獻計量功能已經發展了近40 年,大致可以分為三個階段。① 簡單排序計量階段(20 世紀80-90 年代)。20 世紀80 年代,光盤數據庫出現,單一的檢索功能已不能滿足用戶需求,出現文獻發表年份排序等功能,方便用戶篩選出所需文獻。此時的文獻計量功能為簡單計量階段,主要表現為相關性排序、發表年份排序等。②指數化和模型化階段(20 世紀90 年代末-2009 年左右)。20 世紀90 年代末,網絡版檢索系統出現,用戶可以在短時間內檢索到全球的文獻,系統實現了簡單文獻分析功能,如索引詞分析等。此時的文獻計量功能從簡單排序計量轉向簡單分析計量,計量內容不斷完善。隨著學科的不斷成熟,評價學術影響力的需求越來越大,不同數據源開始利用自身數據資源優勢,構建了各種復雜的評價指標模型,如影響因子、h 指數等。③ 可視化和智能化階段(2009 至今)。[27]知識經濟的發展以及可視化技術的成熟,不同數據源更加重視知識語義的挖掘,在結果呈現方面更加多樣化。如利用可視化技術顯示某領域論文發展數量年度分布、關鍵詞共現網絡等。

2.1 學術數據庫的文獻計量功能發展歷程

從學術數據庫文獻計量功能發展歷程看,主要經歷了簡單排序計量、簡單分析、復雜的評價指標分析以及可視化和智能化分析幾個階段,目前文獻計量功能發展到第三階段。

隨著文獻數據量的不斷擴大,數據庫的檢索功能日益完善。如檢索結果排序功能,以列表的形式將檢索到的文獻按照文獻的類型、文獻的作者、刊載文獻的出版物等內容進行排序,供用戶篩選。

評價分析功能是指學術數據庫利用自身引文數據等評價期刊或作者等的學術影響力,如Web of Science中的期刊影響因子、中國知網的作者h 指數、維普數據庫的平均引文率、Scopus 的CiteScore 等。

隨著知識經濟時代的到來,文獻的內容價值受到學者們的重視,學術數據庫憑借著深厚的數據資源,對文獻的關鍵詞、主題詞等進行計量分析,計量結果的顯示方式從單一的列表方式向可視化方式發展,如中國知網的關鍵詞共現網絡圖等。

2.2 學術搜索引擎的文獻計量功能發展歷程

與學術數據庫相比,學術搜索引擎起步較晚,目前學術搜索引擎的文獻計量功能也已發展到第三階段。學術搜索引擎在學術數據庫已有的文獻計量功能基礎上,不斷完善計量內容,開發了具有自身特色的計量產品。

谷歌學術是谷歌旗下免費的學術搜索平臺,2004年11 月發布了第一個Beta 版,2006 年1 月擴展到中文學術文獻領域,2012 年推出谷歌學術計量,用來評價各個領域雜志的影響力。該系統主要包括h 指數、h核心(h-core)、h 中值(h-median)等。[28]

百度學術是百度旗下的免費學術搜索平臺,旨在將資源檢索技術和大數據挖掘分析能力運用于學術研究,自2014 年成立以來推出了研究點分析、相關熱搜詞分析,具有深入計量文獻的內容特征。

3 多源數據的文獻計量功能比較

本文從數據來源、計量內容、計算方法、結果呈現方式四個方面對多源數據的文獻計量功能進行比較。

(1) 數據來源是文獻計量功能的基礎,不同的數據來源是導致文獻計量結果產生差異的重要原因之一。本文主要從文獻種類、文獻數量、學科范圍、時間范圍和國家范圍五個方面比較學術搜索引擎和學術數據庫的數據來源,旨在探析導致文獻計量差異的原因。

(2) 計量內容是文獻計量功能的重要組成部分,主要根據文獻的外部特征和內容特征進行計量。文獻的外部特征計量是基于文獻的機構、作者、出版單位、來源等進行計量,主要有簡單計數統計和評價指標統計兩種統計方式。簡單計數統計是指學術搜索引擎或學術數據庫對文獻數量、下載量、被引量等的計數統計;評價指標統計是指學術搜索引擎或學術數據庫利用特定數理模型進行計量分析,評價對象一般為作者和期刊。文獻的內容特征計量是基于關鍵詞、主題詞、摘要等的計量。通過計量文獻內容特征,可以了解某篇文獻的重點研究內容以及相關研究點的研究進展等。

(3)計算方法是文獻計量內容的基礎,其主要包含兩種計算方法:① 利用相關計算機軟件進行統計發文量、被引量、詞頻等計數統計;② 利用文獻信息計量學基本規律的數學表達式和相關計算機軟件建立數學模型。[27,29]

(4)結果呈現方式是學術搜索引擎或學術數據庫將計量得到的結果呈現出來的方式,而可視化是呈現計量分析結果的關鍵性技術路徑。[30]除可視化方式外,還包含表格方式。表格方式是利用表格顯示特定數據,以列表呈現的計量內容主要有時間分布、語言分布、資源類型分布、學科分布、來源分布、作者分布、機構分布、國家/地區分布、各參考文獻、引證文獻、相關文獻等??梢暬绞绞峭ㄟ^圖形和圖像的方式顯示特定的數據,并進行相應的交互處理。[31]根據可視化圖形圖像描述的信息特征關系不同,可視化分為縱向可視化、橫向可視化和交叉可視化三種主要形式。[32]縱向可視化表現的是某一計量內容隨時間變化的狀態,用柱狀圖、條形圖、折線圖、散點圖等表示;橫向可視化表現的是在同一時間狀態下不同計量內容之間的相互關系,用柱狀圖、條形圖、網絡圖等表示;交叉可視化表現的是縱向可視化與橫向可視化相結合后的總體數據的狀態,用網絡圖或知識圖譜表示。

3.1 數據來源

本文對學術搜索引擎和學術數據庫收錄的數據來源進行檢索查詢,檢索截止時間為2018 年4 月1 日,結果見表1。從表1 中可以看出學術搜索引擎中的引文數據來源大于學術數據庫,谷歌學術和百度學術收錄的文獻數量較大,學科、時間以及國家覆蓋范圍廣于學術數據庫。原因是學術搜索引擎是網絡中學術文獻信息的第三方集成平臺,僅提供網址鏈接,不提供文獻全文,所以數據來源廣泛;而學術數據庫是數據庫商與出版社等建立合作關系,將這些機構出版的期刊、圖書等資源進行數字化處理,集成在數據庫內部,其數據來源少于學術搜索引擎。

表1 學術搜索引擎和學術數據庫的數據來源

3.2 計量內容

從表2 中可以看出,① 簡單計數統計方面,學術搜索引擎和學術數據庫均計量資源數量、發文量、被引量等,但學術數據庫的計量內容種類多于學術搜索引擎,除此之外,Scopus 計量數據庫之外的文獻閱讀量,如提供文獻社交媒體的閱讀量;② 評價指標統計方面,學術搜索引擎和學術數據庫均包含期刊和作者等影響力的計量;③ 中國知網注重提供合作作者網絡圖等計量內容,百度學術提供了研究點分析等計量內容;④ 在內容特征計量方面,谷歌學術不涉及內容特征計量,中國知網和維普數據庫重視挖掘各關鍵詞之間的關系,并提供專利研究熱點氣泡圖等。

3.3 計算方法

由于內容特征計量涉及的數學模型較復雜,故本文僅探討學術搜索引擎和學術數據庫中簡單計數統計和評價指標統計的計算方法。研究發現,學術數據庫的簡單計數統計和評價指標統計的主要方法與學術搜索引擎相似,但也存在一些不同點。

表2 學術搜索引擎和學術數據庫的計量內容

(1)共同點主要有三個方面。①目的相同,均是評價學術影響力或為學術研究提供數據支持。②評價指標的數據主要來源于被引次數。③計算公式主要有三種:一是簡單求和的計算方式,如期刊被引量等;二是計算平均數,如影響因子等;三是計算中位數,如h 指數等。

(2)不同點主要有兩個方面。① 引文數據來源不同。學術搜索引擎統計的引文數量多于學術數據庫,如,維普數據庫中學者h 指數的數據來源于期刊;而百度學術學者h 指數的數據來源于期刊論文、學位論文、會議論文、圖書、專利等。② 評價指標統計時間范圍不同。如,百度學術的影響因子是期刊前2 年發表的文獻在當年百度學術中的篇均被引次數;Web of Science 中的立即指數是期刊當年發表的文獻在當年Web of Science 中的篇均被引次數;Scopus 中的CiteScore 是期刊前3 年發表的文獻在當年Scopus 中的篇均被引次數。

3.4 結果呈現方式

學術搜索引擎和學術數據庫的結果呈現方式也各異(見表3)。① 學術搜索引擎和學術數據庫的結果呈現均包含表格方式。② 學術數據庫結果呈現的可視化方式多于學術搜索引擎。如,谷歌學術不包含可視化方式;而學術數據庫中的四大研究對象均包含可視化方式。百度學術包含縱向、橫向和交叉可視化方式,可視化形式多樣;Web of Science 和Scopus 以縱向可視化為主,可視化形式較單一;而中國知網和維普數據庫還注重知識圖譜的構建,維普數據庫將領域、作品、機構、作者、主題等放于同一張知識圖譜中,直觀地顯示了各結點之間的關系,同時在任意一個結點,還可以發現與之有關系的結點(見下圖)。

表3 學術搜索引擎和學術數據庫的結果呈現方式

圖 維普數據庫的交叉可視化方式

4 總結與建議

4.1 總結

本文以多源數據——學術搜索引擎(谷歌學術、百度學術) 和學術數據庫(Web of Science、Scopus、中國知網和維普數據庫)為研究對象,從計量功能發展歷程和功能比較兩個方面分析學術搜索引擎與學術數據庫文獻計量功能的特點及其差異,發現目前學術數據庫和學術搜索引擎的文獻計量功能已發展至可視化和智能化階段,而學術數據庫的文獻計量功能優于學術搜索引擎。

(1)計量功能的發展歷程。學術數據庫的計量功能起步較早,經歷了簡單排序計量、指數化和模型化、可視化和智能化三個階段,結果呈現方式則從單一的表格呈現方式發展到可視化的呈現方式。相對而言,由于學術搜索引擎起步較晚,在學術數據庫已有的文獻計量功能基礎上,其著重于深入挖掘文獻內容,為評價學術影響力推出一系列評價指標。

(2) 計量功能的比較。① 數據來源。學術搜索引擎的數據來源多于學術數據庫,但數據來源質量有待考量。②計量內容。一方面,學術數據庫的計量內容種類多于學術搜索引擎,二者也越來越重視在大眾社交類(如社交媒體的文獻閱讀數)、使用統計類(如下載次數) 數量的計量;另一方面,學術數據庫與學術搜索引擎不斷完善影響因子和h 指數的缺點,提出了5 年影響因子、h5 指數、半衰期、CiteScore等。③計算方法。學術數據庫在簡單計數統計和評價指標統計方面與學術搜索引擎相似,但在引文數據來源和評價指標統計時間范圍與學術搜索引擎不同。④結果呈現方式。學術搜索引擎與學術數據庫在表格呈現方式方面無差異,但在可視化顯示方面存在顯著差異。如,谷歌學術不包含可視化方式,而維普數據庫包含縱向、橫向以及交叉三種可視化方式。

4.2 建議

(1)加強社交媒體使用量的計量,以彌補被引量延遲問題。隨著互聯網的普及以及各種社交媒體軟件的廣泛使用,單一形式的文獻傳播方式已不能滿足人們的需求,出現了多種形式的文獻傳播方式,如微信、微博、Twitter 等。因此,不能使用單一的被引次數來評價學術影響力,學術搜索引擎與學術數據庫應加強社交媒體使用量等的計量,以此來彌補被引量延遲等問題,為全面地評價學術影響力提供數據支持。

(2)構建具有社會影響力的計量內容,深入探討主體間的相關關系。學術搜索引擎與學術數據庫均提供了一些計量內容,但某些計量內容在學術界并沒有得到廣泛使用,如百度學術的研究點分析。因此,學術搜索引擎與學術數據庫需要構建具有社會影響力的計量內容,如,學術搜索引擎網羅文獻信息的各個社交媒體使用數據(如微博等網站的閱讀數),優先提供文獻的社會影響力評價指標,為全面評價學術影響力提供數據支持;而學術數據庫深入挖掘作者合作網絡關系,為探討新型作者合作模式提供參考借鑒。

(3) 深入挖掘文獻知識語義,優化可視化方式。目前可視化技術比較成熟,但在學術搜索引擎中的應用范圍較窄。未來學術搜索引擎需要加強可視化方式,多元化呈現計量結果,學術數據庫要不斷完善可視化技術,深入挖掘文獻的知識語義,將可視化技術運用于顯示各個知識元之間的相互關系,有利于系統更好地為用戶提供知識服務以及幫助用戶發現更多相關研究點,以拓寬研究思維。

猜你喜歡
搜索引擎可視化數據庫
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
基于Nutch的醫療搜索引擎的研究與開發
主站蜘蛛池模板: 久久久久国色AV免费观看性色| 99这里精品| 欧美五月婷婷| 久久久久亚洲av成人网人人软件| 国产亚洲欧美在线中文bt天堂| 亚洲欧美另类视频| 91久久偷偷做嫩草影院精品| 久久伊人色| 久久精品一品道久久精品| 久久夜色精品| 国产精品视频999| 五月婷婷中文字幕| 国产成人成人一区二区| 在线a视频免费观看| 欧美日韩国产高清一区二区三区| 婷婷亚洲综合五月天在线| 麻豆精品视频在线原创| 久草青青在线视频| 暴力调教一区二区三区| 2018日日摸夜夜添狠狠躁| 国产精彩视频在线观看| 亚洲精品国产自在现线最新| 欧美成人午夜视频免看| 亚洲第一中文字幕| 九九热精品免费视频| 国产H片无码不卡在线视频| 久久久久久国产精品mv| 欧美第九页| 99国产在线视频| 亚洲AV无码乱码在线观看裸奔| 特级aaaaaaaaa毛片免费视频 | 国产成人AV综合久久| 国产精品一区二区不卡的视频| 综合人妻久久一区二区精品 | 亚洲精品国产首次亮相| 亚洲床戏一区| 新SSS无码手机在线观看| 国产sm重味一区二区三区| 国产男女免费完整版视频| 91探花在线观看国产最新| 日韩无码视频网站| 国产精品入口麻豆| 蜜桃臀无码内射一区二区三区| 久久6免费视频| 91精品福利自产拍在线观看| 综合色区亚洲熟妇在线| a级毛片在线免费| 亚洲69视频| 久久黄色一级片| 又爽又黄又无遮挡网站| 自偷自拍三级全三级视频| 国产精品太粉嫩高中在线观看| 超清人妻系列无码专区| 在线欧美日韩国产| 国产精品美女自慰喷水| 亚洲天堂视频在线观看免费| 亚洲免费播放| 好吊妞欧美视频免费| 国产一区二区福利| 欧美日韩va| 国产尤物视频在线| 毛片最新网址| 免费不卡视频| 欧美、日韩、国产综合一区| 欧美日韩91| 精品久久香蕉国产线看观看gif| 精品国产福利在线| 日韩免费无码人妻系列| 国产无码精品在线| 人妻无码中文字幕第一区| 久久国产热| 国产成人av一区二区三区| 国产高清国内精品福利| 中文成人无码国产亚洲| 国产精品极品美女自在线| 国产激情无码一区二区APP| 啪啪啪亚洲无码| 久久精品视频一| 欧美黑人欧美精品刺激| 国产无码制服丝袜| 欧美天堂久久| 国产真实乱了在线播放|