999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于引用的科學數據評價研究*

2014-04-14 08:52:30丁楠黎嬌李文雨澤白晉銘潘有能
圖書與情報 2014年5期
關鍵詞:評價研究

丁楠黎嬌李文雨澤白晉銘潘有能

(1.浙江大學圖書館 浙江杭州 310027)

(2.浙江大學公共管理學院信息資源管理系 浙江杭州 310058)

·信息分析與科學評價·

基于引用的科學數據評價研究*

丁楠黎嬌李文雨澤白晉銘潘有能

(1.浙江大學圖書館 浙江杭州 310027)

(2.浙江大學公共管理學院信息資源管理系 浙江杭州 310058)

科學研究離不開數據的支持,科學數據評價是對科學數據實施有效管理、促進數據共享與重用的基礎。文章借鑒引文分析方法,選取數據發布量、數據被引量、數據平均被引頻次及h指數等指標,構建了基于引用的數據評價體系,并以DCI中的人口調查數據為例進行了實證研究。研究發現通過數據引用可以有效地對科學數據的發布及存儲機構的影響力進行評估,而DCI雖然由于建立時間較短而不夠成熟,但仍可為科學數據的定量評價提供強有力支持。

數據共享數據引用數據評價引文分析

1 引言

現代科學經過數百年的發展,產生了數量龐大而又結構復雜的科學數據,在這些已有數據的基礎上開展進一步研究是科學研究的一種重要模式。從某種程度上來說,基礎數據的質量直接決定了研究的質量,因此科學數據的評價具有重要意義。然而目前國內外學界尚缺乏統一的數據引用規范,也沒有完整的科學數據評價標準,這為科學數據的評價帶來了很大的困難,也影響到了作者和機構共享數據的積極性。本項研究試圖借鑒傳統的引文分析,探討基于引用的科學數據評價方法,選擇合理的評價指標,從而達到對科學數據及相應的機構和數據倉儲進行客觀、有效地評價的目的,促進數據的共享與利用。圖書情報學領域的專家學者在引文分析研究中已經積累了寶貴的經驗并形成了一些較為成熟的方法,這些經驗與方法可為數據引用分析提供借鑒。但數據引用分析與引文分析仍有明顯區別,引文分析的對象主要是文獻,而數據引用分析的對象是原始數據或派生數據,在科研素材體系中處于更底層的位置,其粒度也相對更細。對數據引用進行分析可以從更原始、更基礎的層面上了解科研產出情況,從而提供一個新的對科研機構或學者進行評價的視角。

2 數據評價概述

目前專門針對科學數據評價的研究尚不多見,絕大部分的相關研究都是直接針對“數據”這一概念,大致可以分為兩種類型:一種是如何評價一般開放數據,即對數據本身的評價;另外一種則是如何評價特定數據環境中的數據,即將數據置身于數據庫或信息系統中進行評價。

(1)對數據本身的評價。對數據本身的評價方法可分為單維度準確性評估和基于多維度指標的評價等。在單維度準確性評估中,針對總量數據,可采用邏輯規則檢驗、經驗參數比對、相關指標變動趨勢對比、基于模型的異常數值識別與參數穩定性分析等方法,針對個體數據,則可采用統計分布檢驗與基于統計分布的異常數值識別、基于事后重復調查的偏差估計、誤差效應的測量及其模型建構等方法。基于多維度指標的評價方法通常在給出精確性(給定數據集合與相應正確實際的相符程度)、可達性(數據可以得到的程度)、一致性(數據能以相同格式表達的程度)、完整性(數據無缺失的程度)、時效性(數據的時間特性對應用的滿足程度)等指標的定義和計算方法的基礎上,對計算結果進行再加工。

(2)對特定數據環境中的數據的評價。根據所處數據環境的不同,該類評價方法又可細分為基于數據庫的評價和基于信息系統的評價。在基于數據庫的評價中,依照用戶的不同可將評價指標分為數據使用質量和數據質量兩方面。數據使用質量包括數據查詢率、安全性、敏捷性、可響應性、可使用性(可采集到的數據是否在數據超市中得到應用)、有效性(數據的更新頻率);對數據質量的評價存在于數據倉庫其他模塊對數據的操作當中,是反映數據倉庫物理層數據的固有屬性,包括完整度(非法空值記錄的條數)、可信度、正確度(缺省值的記錄條數)、一致性、唯一性等。在基于信息系統的評價中,數據被視為有生命周期的產品,從數據表示質量、數據值質量、數據模型質量和數據體系結構質量4個維度,對數據質量進行評價。

以上兩種方法在進行數據評價時,盡管針對層面和開展角度有所不同,但都需要建立一個評價體系并設立各種指標,此外還需確定指標的權重,從而不可避免地具有較大的主觀性。更為重要的是,該類評價方法的適應性在復雜的數據環境中將遭受極大的考驗,正如很難有一套指標體系直接對各個學科中的論文質量進行評價一樣。因此,本項研究將摒棄直接對數據質量進行評價的思路,而試圖通過科學數據被引用的情況來評價其影響力,并從側面反映數據的質量及重要程度,從而保證了該評價方法的客觀、有效及廣泛的適用性。

3 基于引用的科學數據評價

數據引用類似于文獻引用,是指作者在論文中以參考文獻、腳注或文中注等方式,對其所引用的數據提供來源出處的做法。與文獻引用類似,數據被引用意味著數據進入了交流領域被獲取和使用,并產生影響。數據引用不但意味著使用者對被引用數據及其所有者的認可,還可在數據管理與共享中起到重要作用。首先,科研工作者可通過數據引用信息定位并獲取數據,從而促進數據的共享與重用;其次,科研人員或管理者可通過數據引用獲取科學研究的原始數據,重現研究過程,從而對其結果進行驗證;最后,數據引用可以增強數據生產者的被認同感,激勵研究人員進行科研創造和共享。

目前,基于文獻引用的引文分析方法在長期發展中已趨于完善和成熟,并被廣泛應用于各個層面的測度評價研究,包括微觀層面(作者個人、研究小組)、中觀層面(機構、期刊)和宏觀層面(國家、跨國區域)。常用的引文分析指標則有發文量、被引量、篇均被引次數、影響因子、h指數等,其中發文量和被引量是兩個基本的測度,篇均被引次數和影響因子主要用于衡量機構或期刊論文的平均影響力。由于影響因子可以消除由于載文量不同和論文質量參差不齊所造成的對期刊被引率的影響,從而能夠在不同期刊間進行比較,目前已在引文分析和期刊評價中得到廣泛應用。h指數是近年新出現的一種評價指標,綜合考慮到了論文發表的數量和質量,在各個層面的測度評價中具有較強的適應性。因為數據引用與文獻引用之間的相似性,這些指標也可以被數據引用分析所借鑒。參照引文分析方法,并綜合考慮數據評價的特點與可行性,本項研究擬選取微觀層面的團體作者和中觀層面的數據倉儲作為研究對象,統計其數據發布量、數據被引量、數據平均被引頻次及h指數。其中,數據發布量即一定時間段內某研究團體或數據倉儲發布的總數據量,發布數據是被引用的前提,所以該指標是基于引用的數據質量評價的基本指標;數據被引量即發布的所有數據被引用的總次數,用于衡量某研究團體或數據倉儲所發布數據的總體影響;數據平均被引頻次即數據被引量除以數據發布量,該指標用于衡量某研究團體或數據倉儲所發布數據的平均影響;h指數則綜合考慮數據的質和量,某個研究團體或數據倉儲的h指數為n是指其發布的數據中至少有n條數據每條被引了至少n次。

2012年10月,全球領先的信息供應商湯森路透旗下的知識產權與科技事業部宣布推出數據引用索引(Data Citation Index,DCI),并將其作為Web of Knowledge平臺上一個新的研究資源,旨在推動對數據的檢索、引用與評價,并把這些數據與Web of Knowledge中的文獻連接起來。借鑒SCI、SSCI等引文索引系統的成功經驗,數據引用索引試圖為數據的管理、共享、評價提供強有力支持。使用者只需在數據引用索引中進行檢索,便可獲得所需要數據的元數據信息,包括數據的創建者、機構、標題、創建日期等,還可鏈接到所在數據倉儲(Data Repository)中。數據倉儲是數據的實際存儲地,其中包含數據研究(Data Study)和數據集(Data Set)。一個數據研究中往往包含了若干個數據集,例如某數據倉儲中存有大量人口普查數據,所有這些數據可作為一個數據研究,而這些數據又可分為20世紀70年代的人口數據、20世紀80年代的人口數據等,這些不同年代的人口數據即是多個數據集。對數據倉儲來說,數據引用索引的出現不但能提高其數據的被引率,還完善了其元數據,提供了引用信息,讓數據生產者知道有哪些作者或機構利用了其數據,也讓數據使用者了解到哪些數據屬于高被引數據。數據引用索引的出現有利于建立有效的數據評價機制,激發數據生產者和擁有者共享數據的積極性。

4 應用實例

4.1 方法與數據

考慮到數據的相對全面性和完整性,本項研究選擇Web of Science的DCI數據庫作為數據來源。因為DCI目前所收錄的數據量還較為有限,其中圖書情報學領域的數據尤為少見,本項研究選取了和圖書情報學同屬于社會科學大類的人口調查領域進行研究,即在主題檢索中輸入Population Survey進行查詢,時間范圍為1900~2014年,共獲得13796條數據,然后將數據以txt形式下載并導入Excel中進行處理及統計分析。需要注意的是,不同于Web of Science核心合集,DCI目前的功能尚不完善,平均被引頻次及h指數等均需下載數據后自行計算,而作者及機構信息也需進一步精煉。

4.2 數據倉儲引用分析

經統計,人口調查領域被引次數排名前10的數據倉儲如表1所示。

可以看出,英國國家數據倉儲(UK Data Archive,UKDA)和美國高校校際政治與社會研究聯盟(Inter University Consortium for Political and Social Research,ICPSR)的總被引次數和h指數均遙遙領先。其中UKDA是英國最大的人文社會科學數據收藏機構,由英國埃塞克斯大學(University of Essex)、經濟與社會研究會(Economic and Social Research Council,ESRC)和國家檔案局(National Archives)等機構合作建設,其數據收錄范圍涵蓋了人文社會科學及環境保護中的各個領域,資源豐富、類型多樣。而ICPSR是全球最大的社會科學數據中心,成立于1962年,隸屬于美國密歇根大學。ICPSR擁有涵蓋約6000個主題的50余萬種數據資料,主要以會員制的形式提供服務,目前已有約700家學術機構會員遍布全球,包括中國的北京大學、中國人民大學等。UKDA和ICPSR中均收錄有大量的人口調查數據,并得到了廣泛應用。

UKDA和ICPSR之所以能在社會科學領域產生如此大的影響,其原因不但在于收錄的數據量較大,還和這兩個機構非常重視服務與推廣有關。例如,UKDA自1975年起便發行數據通報,2007年起發行電子報,2010年開始舉辦數據使用案例的征集活動。ICPSR同樣也非常重視數據的有效使用,自1963年開始便在每年暑假舉行社會科學定量研究方法培訓班,近年來均吸引到全球近千名青年教師與學生前往學習與交流。

澳大利亞南極數據中心(AUSTRALIAN ANTARCTIC DATA CENTRE,AADC)雖然被DCI收錄的數據只有41條,但總被引達3082次,平均被引頻次達到75.17,說明這些數據的權威性和認可度較高。而Figshare是創立于2012年的為科研人員提供發布各類研究產出的平臺,其理念是可發現(discoverable)、可共享(shareable)和可引用(citable),數據是其主要的發布形式之一,任何用戶均可在Figshare上面發布數據。因為數據發布者的分散性和成立時間較短,目前Figshare上的數據被引較少。

表1 被引次數排名前10的數據倉儲

綜合來看,目前DCI中人口調查領域具有較大影響力的數據倉儲主要是UKDA和ICPSR,而Figshare由于其先進的理念和廣泛的用戶群,有望在數據引用領域產生更大的影響。

4.3 機構引用分析

經統計,人口調查領域被引次數排名前10的機構如表2所示。

表2 被引次數排名前10的機構

可以看出,數據被引次數排名前十的機構中大部分為政府機構,其中英國的政府機構占據4席,包括被引次數最多的英國國家統計署(Office for National Statistics,ONS),英國國家統計署成立于1996年,由原英國中央統計署(Central Statistical Office,CSO)和人口普查與調查署(Office of Population Censuses and Surveys,OPCS)合并而成,而CSO和OPCS在合并前的數據引用次數分別排在第6和第8。美國的政府機構占據3席,其中美國商務部(United States Department of Commerce)的數據被引次數僅次于英國國家統計署,主要原因在于其下屬的美國人口調查局(United States Census Bureau)負責全美的人口普查,并提供除人口數目之外的經濟指標、商業統計等數據。此外,美國衛生和公眾服務部(United States Department of Health and Human Services)以及美國司法部(United States Department of Justice)也在人口調查數據領域具有較大的影響。除英美兩國的機構外,澳大利亞就業部(Department of Employment)雖然發布的數據量不大,但其數據平均被引頻次遠遠高于其他機構,體現出較強的影響力。

除政府機構外,英國的倫敦大學學院(University College London)及英國國家社會研究中心(National Centre for Social Research)也具有較強的影響力,二者發布的數據量較小,但總被引次數較高,數據平均被引頻次均超過10。

5 討論

從上述案例可以看出,通過數據引用可以有效地對科學數據的發布及存儲機構的影響力進行評估。對人口調查領域的數據引用現狀進行分析后發現,該領域的被引數據主要集中于UKDA和ICPSR這兩個著名的數據倉儲,其h指數遠遠超過其他數據倉儲。而數據被引次數較多的機構大多為英美等發達國家的政府機構,這也從一個側面說明這些國家的政府信息公開度較高,政府機構發布的數據也得到了較為廣泛的應用。綜合來看,h指數作為一個兼顧數量和質量的指標,可以較好地用于評價科學數據的影響力。

同時,由表1和表2中可以看出,基于數據引用h指數體現出的一些特征與基于文獻引用的h指數相類似:如果數據發布量和總被引次數較大,那么h指數也相對較大,但是h指數的大小同時還極大地受到被引次數結構的影響,換而言之,高被引數據集的數量決定了數據引用h指數的大小。

DCI是數據引用分析與評價的重要工具,但目前仍存在一定的問題:首先,DCI目前收錄的數據量較小,且主要來自于較為知名的數據倉儲,其他大部分數據倉儲及更多的未進入到倉儲中的數據尚未被收錄;其次,DCI目前所收錄數據的地區及學科分布不均衡,其數據主要來源于英國和美國,且集中在生命科學、物理學和社會科學;第三,DCI目前的檢索與分析功能較弱,機構及作者甄別功能的缺失增加了數據篩選的難度,h指數等評價指標也需手工計算。

更重要的是,DCI至今尚未正式公布其工作機理,如數據來源如何甄選、數據如何搜集、數據被引情況(是否被引及被引次數)如何甄別等,事實上,這些問題至關重要。對數據引用進行檢索、利用與評價,總體上來說可以從兩個方面進行:一是建設數據引用數據庫,類似于目前較為成熟的引文數據庫,將每篇論文的數據引用情況進行統計和標引,使用時直接檢索獲取。由于數據引用長期以來一直未形成統一規范的格式,各個學科或期刊根據自己的特點和要求提出了不同規范,而這些規范在形式和嚴格程度上均有較大區別。面對甄別數據引用現象時可能出現的各種復雜情況,目前的計算機程序尚無法獨立完成數據標引工作,必須加以人工干預。因此,數據引用數據庫的發展和完善將需要較長時間。另一種方式是建設數據引用搜索引擎,即利用現有的數據庫,根據用戶要求通過對引文(甚至原文)的檢索獲取某個數據倉儲、機構或個人的數據被引情況。這種方式的優點在于可以利用現有成熟且豐富的引文和全文數據庫資源,而無需專門建設數據引用數據庫。但如何判斷某條引文乃至某處正文屬于數據引用是一個待解決的難題,需要綜合運用文本挖掘技術和引文分析技術以提高準確度。

盡管有種種不足,但DCI畢竟是新推出的數據庫產品,所涉及到的又是全新的研究領域,有SCI、SSCI等引文索引成功案例在前,憑借湯森路透強大的經濟實力和技術支持,相信DCI將日趨完善,并為科學評價與分析發揮重大作用。

6 結語

本文參照引文評價方法,選取數據發布量、數據被引量、數據平均被引頻次及h指數等指標,構造了一個基于引用的數據評價體系,該體系既適用于數據生產者(作者、團體作者),也適用于數據儲存者(數據倉儲)。為驗證該評價方法的可行性,本文利用Web of Knowledge平臺新推出的DCI數據庫中的人口調查主題數據進行了實驗,發現雖然由于DCI數據庫的建立時間較短、不夠成熟,其功能相較Web of Science核心數據集合有較大缺失,但仍可為科學數據的定量評價提供強有力的支持,從而促進科學數據的共享與重用。

[1]Hailey M.,Mark P.The anatomy of a data citation:Discovery,reuse,and credit[J].Journal of Librarianship and Scholarly Communication,2012,1(1):1035.

[2]侯經川,方靜怡.數據引證研究:進展與展望[J].中國圖書館學報,2013,39(1):112-118.

[3]墨愚.數據引用的學術規范[J].編輯學刊,2004,(3):68-69.

[4]王華,金勇進.統計數據準確性評估:方法分類及適用性分析[J].統計研究,2009,26(1):32-37.

[5]袁滿,張磊.數據質量多屬性加權評價算法[J].齊齊哈爾大學學報(自然科學版),2010,26(1):26-28.

[6]丁海龍,徐宏炳.數據質量分析及應用[J].計算機技術與發展,2007,17(3):236-237.

[7]孟巍.數據倉庫數據質量評價研究及其應用[D].河北:河北工業大學,2004.

[8]向上.信息系統中的數據質量評價方法研究[J].現代情報,2007,27(3):67-70.

[9]丁楠,潘有能.數據引用索引工作機理與應用現狀綜析[J].情報理論與實踐,2014,37(6):59-62.

Scientific Data Evaluation based on Data Citation

Data is the footstone of science research.The evaluation of scientific data can promote the management of scientific data,then facilitate the sharing and reuse of data.Based on themethod of citation analysis,the authors propose a scientific data evaluation system which includes indices such as data publication,data citation,citation per data and hindex.An experiment is implemented w ith the data of population survey in DCI.The result shows this system is useful for the evaluation of institutions which published and stored scientific data.The result also shows DCI can provide strong support to the quantitative evaluation of scientific data.

data sharing;data citation;data evaluation;citation analysis

G250.25

:A

:1003-6938(2014)05-0095-05

丁楠(1980-),女,浙江大學圖書館館員;黎嬌,女,浙江大學公共管理學院信息資源管理系本科生;李文雨澤,女,浙江大學公共管理學院信息資源管理系本科生;白晉銘,女,浙江大學公共管理學院信息資源管理系本科生;潘有能(1977-),男,博士,浙江大學公共管理學院信息資源管理系副教授。

*本文系浙江省哲學社會科學規劃項目“社會科學數據引用行為與評價機制研究”(項目編號:13NDJC130YB)和國家自然科學基金項目“基于關聯數據的信息聚合模型與實現研究”(項目編號:71273225)研究成果之一。

2014-09-05;責任編輯:劉全根

猜你喜歡
評價研究
FMS與YBT相關性的實證研究
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
2020年國內翻譯研究述評
遼代千人邑研究述論
中藥治療室性早搏系統評價再評價
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
新版C-NCAP側面碰撞假人損傷研究
基于Moodle的學習評價
關于項目后評價中“專項”后評價的探討
主站蜘蛛池模板: 国产精品13页| 中文字幕资源站| 欧美天天干| 婷五月综合| 精品久久久久久久久久久| 熟女视频91| 欧美无专区| 欧美成人一级| 欧美一级在线看| 亚洲国产日韩欧美在线| 欧美激情第一区| 日韩在线永久免费播放| 久久77777| 亚洲国语自产一区第二页| 四虎永久在线精品影院| 午夜国产在线观看| 福利小视频在线播放| 国产精品久久久久久影院| 人妻精品全国免费视频| 欧美激情,国产精品| 久久人人97超碰人人澡爱香蕉 | 久久综合丝袜长腿丝袜| 草草影院国产第一页| 国产黄在线免费观看| a级毛片毛片免费观看久潮| 久久精品无码一区二区国产区| 婷婷六月天激情| 久久精品无码中文字幕| 无码专区国产精品一区| 亚洲成a人片| 成人福利在线免费观看| 国产成人8x视频一区二区| 99re热精品视频中文字幕不卡| 在线视频一区二区三区不卡| 露脸国产精品自产在线播| 久青草国产高清在线视频| 国产乱子伦一区二区=| 精品综合久久久久久97超人| 国产激情第一页| 精品无码专区亚洲| 亚洲国产精品一区二区高清无码久久| 免费一极毛片| 亚洲av无码久久无遮挡| 国产午夜无码片在线观看网站 | 国产网站黄| 国产成人精品一区二区三区| 亚洲天堂视频网站| 亚洲日本一本dvd高清| 婷婷亚洲天堂| 精品五夜婷香蕉国产线看观看| 精品午夜国产福利观看| 亚洲无码91视频| 2021国产乱人伦在线播放| 国产永久免费视频m3u8| 999精品视频在线| 国产视频 第一页| 色悠久久久久久久综合网伊人| 免费啪啪网址| 国产成人精品2021欧美日韩| 国产亚洲高清在线精品99| 广东一级毛片| 久久青青草原亚洲av无码| 色吊丝av中文字幕| 日韩欧美国产三级| 久久99蜜桃精品久久久久小说| 91po国产在线精品免费观看| 激情综合图区| 日本高清有码人妻| 欧美日韩在线亚洲国产人| 欧美成一级| 蝌蚪国产精品视频第一页| 亚洲AV无码乱码在线观看裸奔| 国产成人AV综合久久| 久久香蕉国产线| 中国美女**毛片录像在线| 欧洲欧美人成免费全部视频| 欧美性精品| 中文字幕欧美日韩高清| 激情爆乳一区二区| 亚洲人免费视频| 在线亚洲小视频| 无码在线激情片|