999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于元數據的數據發現和數據評價

2015-09-08 01:36:23周國民
現代情報 2015年4期
關鍵詞:科學標準資源

趙 華 周國民 王 健

(中國農業科學院農業信息研究所,北京 100081)

?

·信息資源開發與利用·

基于元數據的數據發現和數據評價

趙 華 周國民 王 健

(中國農業科學院農業信息研究所,北京 100081)

元數據在信息資源發現過程中發揮了重要作用。科學數據元數據也不例外,它為用戶發現、評價和再利用科學數據提供了依據。本文在闡述科學數據和科學數據元數據內涵的基礎上,對科學數據的用戶需求進行了分析,重點分析了用戶查找與發現科學數據的過程,此外,本文針對如何完善科學數據元數據提出建議,以促進用戶對科學數據的發現和使用。

元數據;數據發現;數據評價;用戶需求;認知

科學數據作為一類重要的科技資源,在人們從事科學研究和進行管理決策時是不可缺少的。科學數據的開放與共享在各領域得到了強烈的支持。然而科學數據共享問題十分復雜,宏觀上涉及數據共享政策法規、共享制度和共享平臺以及組織體系等多個方面,微觀上涉及數據標準、元數據標準以及用戶信息需求等角度。科學數據共享的核心問題是用戶能夠及時發現和有效利用科學數據,因此數據發現是關鍵。在信息管理領域,信息發現的研究一直占有重要的地位,同樣在科學數據共享方面,數據發現和數據利用也是用戶最為關注的話題。眾所周知,元數據作為發現信息和共享信息的有效工具,在科學數據的共享中發揮著重要作用。本文結合科學數據元數據的內容構成,對用戶的數據需求和用戶查找數據的過程展開分析,旨在闡明元數據在科學數據發現過程中發揮的作用,并對現有科學數據元數據的不足之處進行分析,并提出相應的解決措施。

1 科學數據概述

科學數據是指科技活動或通過其它方式所獲取到的反映客觀世界的本質、特征、變化規律等的原始數據,以及根據不同科技活動需要,進行系統加工整理的各類數據集,用于支撐科研活動的科學數據的集合[1]。可見科學數據與科學研究活動密切相關,既來源于科學研究活動,又可用于科學研究活動。隨著人類從事的科研活動的廣度與深度的增長,加之各種先進科學儀器的誕生,科學數據的數量正以指數數量級猛增。

科學數據分類方法有多種,可以按照學科進行分類,如物理數據、化學數據,人文科學數據;也可以按照數據收集方法進行分類,如觀察數據、計算機模擬數據、統計數據等。美國國家科學委員會把科學數據分為三類[2]:第一類是可重復數據,只要把與數據產生相關的方法以及變量、參數等進行存檔,這類數據是可再次產生的,實驗研究數據通常屬于這類數據,這也正是科學研究活動中產生的最多的一類數據。第二類是觀察數據,這類數據產生于特定的時間和空間,是不可再生的,通常生態領域和生物多樣性領域的數據屬于觀察數據。這類數據只能收集1次,難以驗證。第三類是統計數據,這類數據往往來自自下而上的統計,統計數據最重要的就是統計的方法、標準,以及統計的時效性。

科學數據作為高度結構化的信息資源,盡管不同學科領域的數據在存儲、格式、數據處理、方法和數據需求上存在很大的區別。但科學數據具有幾個共同的特點:(1)科學數據來源規范。科學數據的產生源于人們從事的科學研究活動,不論是原始數據,還是經過加工處理的數據,都是源于某項科學研究活動的開展。(2)科學數據產生方式規范。不論是觀測數據,還是科學實驗數據,都具備科學的數據產生方法。(3)科學數據的內容和形式具有規范性。不管是哪個學科領域的科學數據,其內容、組織與結構必定是結構化的,盡管數據的結構與形式不同,但都遵循了研究領域制定的規則。(4)科學數據具有存儲和使用價值。科學數據的產生,注入了科研工作者的勞動成果,具有可再利用的價值。

2 科學數據元數據

元數據是“關于數據的數據”,作為描述信息資源的一種工具,對信息資源的內容、屬性以及特征進行說明與解釋,具有定位、發現、證明、評估、選擇信息資源等功能[3]。元數據除了對信息資源本身進行描述外,還包括了對信息資源獲取方式、元數據維護信息的描述。國際上通用的DC元數據[4],對資源的描述角度包括資源內容、知識產權和外部屬性3個方面,其中資源內容描述的元素包含題名、主題、描述、來源、語言、關聯和覆蓋范圍,知識產權描述包含創作者、出版者和其他參與者與權限管理,外部屬性描述包括日期、類型、格式和標識。

用于描述科學數據資源的元數據,稱之為科學數據元數據。元數據對科學數據的描述應遵循于科研人員查找科學數據的過程,立足于回答幾個問題:有什么數據?數據怎么樣?如何組織?如何獲取?怎么使用?與之相關的其他數據如何?[5]Keith Jeffery提出科學數據元數據描述分為3個層次,第一層通常是對科學數據的一般描述;第二層元數據是科學情境元數據,反映數據的多方面屬性;第三層元數據的描述粒度更細,也涵蓋了科學數據更為詳細的信息[6]。Jian Qin等把元數據對科學數據的描述劃分的更為詳細,包括9大類[7]:管理類,包括元數據自身信息和數據存檔信息;情境類,包括與數據集相關研究項目、數據收集方法、設備等信息;描述類,體現數據來源、發布及相關信息;空間地理信息;通用信息;標識信息,便于用戶識別數據的標識符和名稱等;語義信息,用于描述數據內容的術語和主題分類信息;時間信息,數據內容覆蓋的時間信息、數據加工處理的時間信息;技術類信息,描述數據格式以及使用的參數、模型和測量方法等信息。由于科學數據相比其他信息資源更具復雜性,因此,科學數據元數據的內容也必定更為復雜。目前,國際上已經建立多個元數據標準,比較常見的包括地理學科領域FGDC元數據標準[8]和ISO/TC 211標準[9],生物多樣性領域的Darwin Core元數據標準[10],生態學領域的Ecological Metadata Language(EML)[11],氣象領域元數據標準CF(Climate Forecast)[12]和社會科學領域的元數據標準Data Documentation Initiative(DDI)[13]。其中FGDC元數據標準最有影響力,使用最廣泛。對上述元數據標準的內容進行分析后,可以發現元數據對科學數據的描述涵蓋了三部分內容:物理特性描述,數據內容方面描述,科學數據情境方面描述。物理特征描述是指科學數據資源的大小、格式、作者、狀態、存儲位置、使用限制、安全限制等方面信息;數據內容方面的描述包含了資源題目、摘要、描述、所屬領域、領域主題以及術語、產生方法、產生工具等信息;數據情境方面的描述包含數據來源、與之相關的研究項目信息、與之相關的學術出版物等信息。不論哪個領域的科學數據,也不論其數據存儲、格式和使用存在著多大的差異,其元數據描述內容都基于這些角度。

3 科學數據用戶需求分析

科學數據的用戶群體包括普通大眾、管理者以及科研工作人員,其中科研工作者是科學數據的主要用戶。通過共享科學數據,公眾和管理者可以很容易地了解公共資助的科學研究結果,而科研人員則可以實現科學數據的再生產和再利用,也可以讓其他研究人員對數據提出新問題。科學數據共享的最終目的不僅是讓其他人利用這些數據,更是讓別人不再走彎路,從而提高科研效率、節約科研成本,從而促進全社會科學研究的創新與發展。用戶通過文獻查找,往往會伴隨著科學數據的發現,但已經發表的文獻通常是對科學數據進行歸納、分析和總結的結果,是作者科研水平和知識水平的反映,屬于抽象化的知識。對于學術文章所涉及到的原始數據,用戶同樣具有需求,這些數據不會隨著學術文章的發表而終結自己的價值,相反,這些原始數據對于數據用戶而言是無價之寶,來自不同領域的用戶對該原始數據的再利用將會產生更大的價值。由此看來,用戶查找科學數據的意圖包括幾個方面:(1)以數據作為研究對象,通過查找相關科學數據,對數據進行分析,產生新的研究成果,或者用于支撐自身的科研工作。(2)通過數據的查找,發現相關的研究團隊、研究機構,為自身尋找潛在的合作者。(3)了解相關領域數據研究動態與趨勢,開辟新的研究領域,同時還能學習到先進的數據分析方法為己所用。出于不同的目的需要,用戶在理解科學數據時的側重點也會不同。Greenberg分析了醫藥科學領域最知名的數據倉儲Dryad的需求層次模型[14],該模型與馬斯洛需求層次模型相對應,需求由低到高包括存儲數據、發現數據、使用和分析數據3個層次,其中數據存儲是最低層次的需求。對于數據用戶來說,數據發現是基本需求,隨著需求層次的提高,用戶對數據的需求發展為使用和分析數據。當用戶需求處于分析和使用數據層次時,用戶需要了解數據最全面的信息。

4 科學數據用戶查找和評價數據的過程分析

科學數據查找屬于信息檢索問題,由于科學數據屬于一類特殊的信息,雖海量、分散但并非到處可見,因此用戶發現數據的途徑通常包括從數據生產者處或者同行處查找,從數據中心或者圖書館進行檢索,從數據出版商處查找等。用戶查找數據的過程,與用戶查找其他信息資源的過程一樣,是一個查找與評價的循環過程,用戶根據需要設定查詢條件進行查詢,并對查到的數據進行評價,根據查詢結果,不斷地縮小自己的查找范圍,以至于最終找到適合的數據資源。用戶的整個查找過程實際上是不斷地對數據資源進行評價與選擇的過程。

用戶可以通過數據目錄、元數據等工具查找科學數據,而當用戶對查詢到的數據進行評價時,往往更多地依賴于描述科學數據的元數據內容。因此用戶在獲取數據之前,發現和評價科學數據都需要元數據的支持。支持用戶查找科學數據的元數據元素包括,數據集的名稱、作者、出版日期、資源鏈接、數據集摘要、關鍵詞、資源類型、文件格式、使用限制、時間空間覆蓋、與之相關數據集和出版物以及一些重要的時間日期等信息[15]。這些元數據元素大部分集中在標識信息部分,這部分元數據對科學數據集的基本信息進行了描述,通過這些信息,用戶能夠對科學數據集獲得大致的了解。其中數據集關鍵詞、數據集標題和數據集摘要等內容,不僅僅幫助用戶發現數據集,還幫助用戶對數據集是否滿足需要做出初步的判斷。

用戶判斷科學數據是否可用的過程,實際上是對科學數據的相關性做出判斷的過程。“相關性”是信息檢索領域一個基本的概念,目前已經出現了對于文本、音樂、影像等信息的用戶相關性標準方面的研究,但對于用戶評價科學數據時所用的標準,目前還正處于研究探索階段。可以確定的是用戶判斷科學數據相關性的依據就來自于元數據元素。科學界普遍認為,描述科學數據的元數據內容越豐富越有利于用戶發現有用的數據,考慮到元數據編著的成本,以及用戶查找數據的時間和精力等因素的限制,元數據元素并非是越多越好,其描述內容也并非是越詳細越好。按照人類認知事物的普遍規律來看,通常會先從整體上對數據擁有大致的了解,用戶首先關注于數據集標題、關鍵詞、摘要、生產者、大小、格式、狀態等元數據元素之外,如果這些信息不足以確定數據是否有用時,用戶會進一步選擇查看更為詳細的元數據內容。此時用戶對元數據的關注點會依據數據類型的不同而發生相應的改變,如對于科學實驗數據,用戶往往會更關心數據產生的相關方法以及變量和參數等,用戶可能會對數據進行驗證和分析,因此描述數據產生方法方面的元數據成了用戶的關注點。對于觀察數據,用戶關注的是提供描述數據產生的時間和空間以及數據采集儀器等元數據內容,而對于統計數據,用戶關注更多的是統計機構的權威性和統計數據的可靠性。此外,由于相關性的判斷具有主觀性,用戶在判斷數據是否相關時,還會受到個人偏好、知識水平、表達能力和判斷能力等因素的影響。相比數據來源的可靠性,也許有的用戶更青睞于把數據集更新程度作為一個判斷標準,也可能有的用戶會把數據集是否容易獲取作為判斷標準。科學數據作為一種重要的信息資源,有必要借鑒其他信息資源領域相關性標準的研究方法與理論,對用戶判斷數據相關性的標準以及判斷機制進行深入的探討,在此基礎上,針對用戶的需求,完善科學數據資源組織,促進數據的發現與使用。

5 科學數據元數據改進與完善

科學數據元數據具有管理數據、發現數據、評價和使用數據的功能。數據用戶通過檢索數據中心或者圖書館的數據資源,查詢到一系列的信息,這些信息均以元數據元素的組合形式呈現在用戶面前,為用戶判斷元數據所描述的數據是否符合自己的信息需求提供參考。因此對用戶而言,元數據主要發揮數據發現和數據評價的功能。因此為滿足用戶的信息需求,提高用戶發現數據和利用數據的效率,需要從完善與改進科學數據元數據上著手。

(1)對于科學數據屬性的描述不夠全面,例如并不是在所有的標準中都涉及到了數據集使用信息,有的標準只是提到了使用限制和使用方法。其實在用戶對數據集可用與否做出判斷時,還會參考數據的使用歷史和引用信息等。還比如大部分元數據標準中沒有包含對數據采集的描述,有的標準中雖有提及,但該項內容并不是必選項,也有的元數據標準只是把數據采集信息揉合于數據集摘要信息的描述中,這對于用戶從海量的信息中,提取出這個信息較為困難,遠不如把數據采集單列出來呈獻給用戶效果好。

(2)由于科學數據元數據本身復雜于文本信息元數據,元數據元素數量多,用戶往往只能先通過查看核心元數據來判斷目標數據集是否相關,是否可用。當用戶檢索到的元數據記錄較多時,往往不會瀏覽每個元數據元素,因此元數據元素的排列順序顯得尤為重要,此時需要把關鍵的元數據元素放在靠前的位置,通常指能夠反映數據集內容和質量的元數據元素置于靠前的位置,如數據集題目、摘要、關鍵詞、關于數據集的說明等信息。

(3)缺乏第三方元數據。元數據的產生通常由專業的信息資源專家來完成,或者由信息資源的作者自己完成,不論是信息管理專業人員還是信息資源的作者,他們理解信息資源的角度與用戶必定存在不同之處,且他們的認知過程存在著很大的差別。由此,由用戶來完善元數據、改進元數據已經成為一種趨勢。目前在圖書館領域元數據中,專門出現了評價類元數據,其內容涉及了同行專家對信息資源的評價、用戶使用信息后的反饋與評價信息等,尤其是在教育信息資源方面,用戶在評價和選擇資源時往往很依賴這些評價類元數據內容,也叫第三方元數據或注釋類元數據[16]。而在科學數據元數據中,還沒有出現這些內容。實際上,不少科學數據是以數據產品的形式出現,同行專家評價信息和用戶對資源的使用評價,在用戶做出選擇使用數據前通常也會發揮著一定的作用。

6 總 結

用戶通過元數據發現數據和評價數據過程,也是用戶對科學數據的認知過程。因此在整合科學數據資源時,對元數據的完善僅僅從科學數據的資源特性角度著手遠遠不夠,還需要從分析用戶對科學數據的認知點著手,明確用戶判斷數據相關性的標準,分析用戶對元數據的關注點,按照這個原則來對元數據內容進行完善。本文的研究只是借鑒了人類現有的對其他類型信息資源的認知研究,而對于人們對科學數據的認知方面的探討,更多地需要大量的實證研究來支持,以探明用戶對這類特殊信息資源的認知規律,這正是此方面研究今后的努力方向。

[1]中華人民共和國科學技術部.SDS/T1003-2004,科學數據共享工程技術標準[S].

[2]Willis,C.,Greenberg,J.,& White,H..Analysis and synthesis of metadata goals for scientific data[J].Journal of the American Society for Information Science and Technology,2012,63(8):1505-1520.

[3]劉嘉.元數據導論[M].北京,華藝出版社,2002.

[4]陳彩紅.國內外元數據標準宏觀比較[J].河北科技圖苑,2011,24(1):65-67.

[5]W.K.Michener et al.Non-Geospatial Metadata for the Ecological[J].Sciences.Ecological Applications,1997,7:330-342.

[6]Boyd,David.CERIF tutorial and UK data surgery.Blog posted on February 16,2012.Retrieved,June 28,2012,from http:∥data.blogs.ilrt.org/2012/02/16/cerif-tutorial-and-uk-data-surgery/.

[7]Qin J,Li K.How Portable Are the Metadata Standards for Scientific Data?A Proposal for a Metadata Infrastructure[EB].http:∥dcevents.dublincore.org/IntConf/index/pages/view/2013-peerAbstracts#Qin,2013-10-28.

[8]Di L.The development of remote-sensing related standards at FGDC,OGC,and ISO TC 211[C].Geoscience and Remote Sensing Symposium,2003.IGARSS’03.Proceedings.2003 IEEE International.IEEE,2003,1:643-647.

[9]Federal Geographic Data Committee.FGDC Metadata Quick Guide[EB].https:∥www.fgdc.gov/metadata/documents/MetadataQuickGuide.pdf,2006-04-24.

[10]Wieczorek.J.et al.Darwin Core:An evolving community-developed biodiversity data standard[J].PLoS ONE,2012,7(1):1-7.

[11]Eric H Fegraus,Andelman S,Jones M Bet al.Maximizing the Value of Ecological Data with Structured Metadata:An Introduction to Ecological Metadata Language(EML)and Principles for Metadata Creation Read[J].Bulletin of the Ecological Society of America,2005,86(3):158-168.

[12]Gregory J.The CF metadata standard[J].CLIVAR Exchanges,2003,8(4):1-5.

[13]Ryssevik J.The Data Documentation Initiative(DDI)metadata specification[OL].Ann Arbor,MI:Data Documentation Alliance,2001.Retrieved from http:∥www.ddialliance.org/sites/default/files/ryssevik_0.pdf,2014-01-01.

[14]Greenberg.J,White.H.C,Carrier.S,Scherle.R..A metadata best practice for a scientific data repository[J].Journal of Library Metadata,2009,9(3-4):194-212.

[15]Ball A.Metadata for Data Citation and Discovery[J].Describe,Disseminate,Discover:Metadata for Effective Data Citation,2012.

[16]You S.Evaluative Metadata in Educational Digital Libraries:How Users Use Evaluative Metadata in the Process of Document Selection[J].TCDL Bulletin,2010,4(2):1-11.

(本文責任編輯:郭沫含)

Data Discovery and Evaluation Based on Metadata

Zhao Hua Zhou Guomin Wang Jian

(Agricultural Information Institute,CAAS,Beijing 100081,China)

Metadata plays an important role in the process of information resource discovery.Scientific metadata is no exception,which helps users to find,evaluate and re-use scientific data.This paper analysed user needs based on describing scientific data and metadata.It focused on analyzing the process of users search and discovery scientific data,meanwhile the paper put forward some suggestions to improve scientific metadata in order to help user to discover and re-use data.

metadata;data discovery;data evaluation;user needs;cognition

2014-09-19

中央公益性科研院所基本科研業務費專項基金“科學數據元數據認知評價方法研究”(項目編號:2015-J-03)和國家社會科學基金項目“科學數據用戶相關性標準與使用模式實證研究”(項目編號:14BTQ056)。

趙 華(1980-),女,助理研究員,碩士,研究方向:信息管理、科學數據共享,發表文章5篇。

10.3969/j.issn.1008-0821.2015.04.014

G250.73

A

1008-0821(2015)04-0065-04

猜你喜歡
科學標準資源
2022 年3 月實施的工程建設標準
基礎教育資源展示
一樣的資源,不一樣的收獲
科學大爆炸
小小藝術家(2019年6期)2019-06-24 17:39:44
忠誠的標準
當代陜西(2019年8期)2019-05-09 02:22:48
美還是丑?
資源回收
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
科學
一家之言:新標準將解決快遞業“成長中的煩惱”
專用汽車(2016年4期)2016-03-01 04:13:43
主站蜘蛛池模板: 天天综合网色| 免费毛片视频| 欧美日韩91| 99尹人香蕉国产免费天天拍| 欧美一区二区三区国产精品| 丁香六月激情婷婷| 国产乱人乱偷精品视频a人人澡 | AV在线天堂进入| 伊人久久大香线蕉影院| 欧美一级大片在线观看| 亚洲第一成年人网站| 国产精品永久不卡免费视频| av免费在线观看美女叉开腿| 欧美色图第一页| 色亚洲成人| 国产一区二区三区在线观看视频| 亚洲第一黄色网址| 国产欧美自拍视频| 2020国产免费久久精品99| 国产精品所毛片视频| 一级毛片在线播放免费| 国产亚洲高清视频| 欧美一区二区福利视频| 99视频在线免费| 国产精品白浆在线播放| 视频二区国产精品职场同事| 国产视频 第一页| 欧美成人影院亚洲综合图| 99精品国产自在现线观看| 白浆视频在线观看| 亚洲男人的天堂在线观看| a级毛片免费看| 99一级毛片| a级毛片免费看| 永久天堂网Av| 91青草视频| 国产一区二区三区免费| 亚洲第一黄色网| 精品一区国产精品| 伊在人亚洲香蕉精品播放| 高清不卡毛片| 2048国产精品原创综合在线| 狠狠五月天中文字幕| 国产精品.com| 亚洲精品中文字幕午夜| lhav亚洲精品| 粉嫩国产白浆在线观看| 欧美亚洲欧美区| 毛片网站观看| 青青网在线国产| 97成人在线观看| 波多野结衣一区二区三区88| 性欧美在线| 露脸真实国语乱在线观看| 午夜不卡视频| 在线日韩日本国产亚洲| 久久网欧美| 久久黄色一级视频| 无码福利日韩神码福利片| 一本大道视频精品人妻| 九九热精品在线视频| 毛片免费在线视频| 亚洲日韩国产精品无码专区| 亚洲性网站| 国产99热| 91福利国产成人精品导航| 久久96热在精品国产高清| 91免费精品国偷自产在线在线| 国产一级视频在线观看网站| 毛片在线区| 国产午夜精品鲁丝片| 午夜啪啪福利| 精品一区二区三区波多野结衣| 国产91透明丝袜美腿在线| 亚洲欧美h| 亚洲午夜国产精品无卡| 日韩AV无码一区| 亚洲v日韩v欧美在线观看| 亚洲啪啪网| 国产人成在线观看| 亚洲黄色片免费看| 国产微拍精品|