賈歡 李澤鋒 劉越男



摘? 要:科學數據的元數據是開展數據描述組織、加工、出版、利用與服務的重要基礎,因而是科學數據倉儲建設的核心環節之一。從多學科的角度,參考國際數據倉儲認證機構re3data,選取5種科學數據倉儲的元數據標準,在概述各種元數據標準的基礎上,分別對元數據的基礎信息、元數據元素、元數據應用舉例以及元數據標準的映射四個方面進行調查及比較分析,以期為我國的科學數據倉儲元數據標準的構建及應用提供借鑒。
關鍵詞:科學數據;數據倉儲;元數據
Abstract: The metadata of scientific data is an important basis for the organization, processing, publication, utilization and service of data description, so it is one of the core links in the construction of scientific data warehousing. Combined with re3data, an international data warehousing certification organization, this paper selects five metadata standards for scientific data repository from a multidisciplinary perspective. On the basis of summarizing various metadata standards, the basic information of metadata, metadata elements, metadata application examples and the mapping of metadata standards are investigated and compared respectively in order to provide reference for the construction and application of metadata standards for scientific data repository in my country.
Keywords: Scientific data; Data repository; Metadata
1 引言
科學數據(又稱科研數據),指在自然科學、工程技術科學等領域,通過基礎研究、應用研究、試驗開發等產生的數據,以及通過觀測監測、考察調查、檢驗檢測等方式取得并用于科學研究活動的原始數據及其衍生數據。[1]科學數據倉儲是為科學數據提供存儲空間,以促進數據集開放訪問和利用的平臺。[2]元數據是科學數據倉儲建設的核心環節之一,可用于描述科學數據的內容及形式等特征,是對科學數據開展描述、組織、出版等工作的重要工具。[3]
隨著學科分化與融合的不斷加劇,交叉學科在科學突破和創新中的作用越來越凸顯。據統計,最近25年交叉研究獲得諾貝爾獎的比例已接近一半(49.07%)。科學數據是交叉科學研究的重要原材料,交叉學科涉及多個學科。因此,從多學科的視角研究科學數據倉儲中的元數據方案,為我國相關科學數據倉儲元數據方案的制定提供借鑒至關重要。
2 國內外相關研究現狀
國內外學者主要從科學數據倉儲出發選擇元數據標準和直接選取元數據標準兩方面進行研究。
2.1 從科學數據倉儲出發選擇元數據標準。如Greenberg J等介紹了Dryad存儲庫的元數據最佳實踐[4];Prabhune A提出基于NoSQL數據庫的自適應元數據管理框架MetaStore[5];Dietrich D描述DataStaR 的元數據體系結構,重點關注促進元數據重用和根據多種標準創建元數據的語義Web組件[6];Curdt C研究地球科學項目數據存儲庫中的元數據管理[7];Loffler F等研究生物多樣性研究中的數據集搜索問題,即數據存儲庫中的元數據是否反映了學術信息需求[8];Marc DT等評估健康科學數據倉儲的元數據質量[9];黃如花和邱春艷從元數據標準的選擇、元數據記錄的創建、元數據的收割以及元數據的復用等元數據生命周期的不同階段對Dryad科學數據倉儲的元數據管理進行分析[10];完顏鄧鄧選取DataCite、Harvard Datavers、3TU.Datacentrum等8個國外科學數據倉儲,從元數據標準選擇、元數據元素設置、元數據創建方式、元數據質量控制4個方面調查分析國外科學數據倉儲的元數據實踐[2];胡芳從功能目標、元數據元素和元數據方案特點三個維度,分析四個國外典型的科學數據倉儲(DataCite、GBIF、DataStaR和OTA)的元數據方案[11]。
2.2 直接選取元數據標準。崔佳偉等對國外現有科學數據倉儲相關的元數據標準(選取3個通用的科學數據倉儲元數據標準,分別為Dublin Core、DataCite和Dataverse科學數據倉儲元數據標準,以及3個生物醫學領域科學數據倉儲元數據標準,分別為DatA Tag Suite、W3C HCLS Dataset Description和Dryad)的內容設計及實際應用情況進行系統梳理與深入探究。[12]國本文從多學科的角度,調查分析科學數據倉儲元數據標準方案。
3 科學數據機構知識庫建設調查研究
3.1 調查對象。re3data由德國研究基金會(German Research Foundation,DFG)資助,于2012年秋季上線,截至2022年1月,已有2782個數據倉儲在re3data上注冊,是全球范圍內應用最廣泛、發展最快和最“年輕”的國際數據倉儲認證機構,[13]本文搜集到包括Dublin Core、DataCite Metadata Schema、Data Documentation Initiative 等在內的元數據標準共27種,如表1所示。結合英國數字化監管中心(Digital Curation Centre,DCC)列舉的主要研究領域的科學數據元數據標準,選出以下5種元數據標準(分別為綜合、社會與人文、自然科學)作為研究對象,如表2所示。[14,15]
3.2 科學數據元數據標準概述
3.2.1 Dublin Core。都柏林核心(Dubin Core)的第一屆研討會于1995年3月1日—1995年3月3日在美國俄亥俄州的Dublin召開。在都柏林核心元數據倡議的贊助下,都柏林核心于2009年2月作為ISO標準15836發布[16,17]DC包含15個元素,DC中的每個元素都是可選的、可重復的。
3.2.2 DataCite Metadata Schema。DataCite Metadata Schema是由國際聯盟The DataCite Consortium制定,此聯盟于2009年底成立,現在遍及全球,從歐洲和北美到亞洲和澳大利亞。DataCite的目的是提供與領域無關的服務,以使各學科的學者受益。[18]
3.2.3 DDI-Data Documentation Initiative。數據文檔倡議(DDI)是一個國際標準,用于描述社會、行為、經濟和健康科學中的調查和其他觀察方法產生的數據[19]。
3.2.4 ISO19115。ISO19115元數據標準于2003年完成,由ISO技術委員會(Technical Committee)的地理信息/地球信息科學(Geographic information/Geomatics)專業委員會制定,在2010年被聯邦地理數據委員會(Federal Geographic Data Committee,GFDC)認可。[20]ISO19115:2003的狀態為撤銷狀態,[21]已經被修訂為ISO19115-1:2014,即Geographic information--Metadata--Part1:Fundamentals。ISO19115-1:2014適用于各類信息資源、信息交流中心活動的編目和數據集與服務的描述。[22]
3.2.5 EML-Ecological Metadata Language。生態元數據語言(EML)是專門為生態學科開發的元數據規范。版本EML2.1.1于2011年發布,是由社區維護的規范。EML定義了用于記錄研究數據的綜合詞匯表和可讀的XML標記語法。[23]
3.3 科學數據元數據標準比較分析。本文從元數據的基礎信息、元數據元素、元數據應用舉例以及元數據標準的映射四個方面對科學數據元數據的標準進行分析。為了行文簡潔,下文以簡稱代替全稱,表2中的5種元數據標準的簡稱分別DC、DataCite、DDI、ISO19115和EML。
3.3.1 基礎信息。元數據標準的基礎信息如表3所示。
發布國家為多國和美國,如DataCite成員來自10個國家的11個圖書館和研究機構。[11]元數據的標準需要不斷修訂,DataCite、DDI和ISO19115的修訂更為及時,分別為2021、2020和2019年。元數據的版本也在不斷更新,如DataCite,最新版本為4.4;EML,最新版本為2.2.0。
3.3.2 元數據元素。元數據元素的總數如表4所示。
綜合學科的元數據總數較少,如Dublin Core1有5個,DataCite Metadata Schema有20個。社會與人文、地球科學和生態學的元數據元素較為復雜,如DDI3.0包括12個元數據元素模塊。[24]
ISO19115包括13個元數據包,每個元數據包中又有眾多元素。在元數據級別方面,有的元數據無級別劃分,如DC;有的有級別劃分,如DataCite Metadata Schema,分為必選、推薦、可選三種,如表5所示。
3.3.3 元數據應用舉例。表6為5種元數據在科學數據倉儲中的應用實踐舉例。有的科學數據倉儲不僅使用一種元數據標準,如Dublin Core和DataCite Metadata Schema兩種元數據在OpenAIRE倉儲中都有應用。
(1)Dublin Core在UK ADS-UK Archeology Data Service中的應用。其元數據分為3種類型,分別為項目級元數據、資源級元數據和文件級元數據。其中項目級元數據的常用格式是Dublin Core,其包含了許多描述性和資源發現的重點元素,提供整個項目的詳細概述,包括地理覆蓋范圍、時間日期、方法、紀念碑和證據類型。ADS的項目元數據、描述以及所對應的DC元素如表7所示,[25]ADS項目元數據元素和DC元素相比,除了微小的差別,即用詞的不完全一致,如類似ADS項目的版權(Copyright)對應DC的權限管理(rights)之外,所表述的內涵一致
(2)DDI在ICPSR中的應用。美國高校政治與社會研究聯盟(Inter-university Consortium for Political and Social Research,ICPSR)是1962年在美國密歇根大學社會研究所(Institute for Social Research,ISR)建立的高校科研數據機構庫聯盟。[26]ICPSR是目前世界上最大的高校科研數據機構庫聯盟,也是世界上最大的社會科學數據與定量研究方法教學資料儲存中心,擁有超過250000個社會和行為科學的數據檔案。
ICPSR嚴格執行國際DDI元數據標準。[27]ICPSR根據數據存儲者和其他來源提供的信息使用DDI創建研究級元數據記錄(study-level metadata),包括Version(版本)、Study Title(研究標題)、Alternate Title(備用標題)、Funding Agencies(資助機構)、Geographic Coverage Areas(地理覆蓋范圍)、Collection Dates and Time Frames(收集日期和時間范圍)等在內的31種元數據元素。[28]
(3)ISO19115在GRIIDC中的應用。GRIIDC團隊為墨西哥灣研究人員生成的科學數據構建數據管理系統。GRIIDC數據管理系統為研究人員提供了多種工具來幫助其在項目的整個生命周期中管理數據,它提供ISO19115-2元數據編輯器。[29]
3.3.4 元數據標準的映射。映射是實現元數據互操作的主要方法。映射適合于在元數據記錄被創造出來之前,在項目創建的初始階段應用,是對現有元數據的派生和修改,也可從根本上提高互操作的范圍。[30]映射的實質是為一種元數據格式的元素和修飾詞在另一種元數據格式里找到相同功能或含義的元素和修飾詞。[31]
已與6種元數據建立映射的元數據如表8所示,其中綜合學科(DC和DataCite)和社會與人文學科(DDI)之間元數據關系更加密切,如DC和DataCite、DC和DDI、DataCite和DDI之間互相建立了映射關系,ISO19115分別與同為地球科學領域的兩個元數據標準(FGDC/CSDGM和DIF)建立了映射。
4 結論與啟示
研究發現,相比綜合學科,社會與人文、地球科學和生態學的元數據元素較為復雜,部分元數據有級別上的劃分,應用實踐廣泛,綜合學科和社會與人文學科之間元數據關系更加密切,互相建立映射關系。研究得出兩點啟示:一是交叉學科背景下多學科科學數據元數據互操作性有待加強。2020年國家自然科學基金委員會增設交叉科學部,2021年初國務院學位委員會、教育部增設“交叉學科”門類。應加強綜合學科、社會科學和自然科學之間科學數據元數據的互操作性;二是注重元數據語義互操作方法的多樣化。為增強元數據之間的互操作性,可選擇通用性強的元數據如DC,將其作為中間格式,實現其他元數據到它的映射。除了映射之外,語義互操作方法還包括應用規范、元數據注冊系統等,應注重元數據語義互操作方法的多樣化。
*基金項目:本文系2021年度教育部人文社會科學研究青年基金項目“多領域科學數據元數據互操作方法研究”(項目號:21YJC870005)的研究成果之一。
參考文獻:
[1]國務院辦公廳關于印發科學數據管理辦法的通知[EB/OL].[2022-1-18].http://www.gov.cn/gongbao/content/2018/content_5283177.htm.
[2]完顏鄧鄧.國外科學數據倉儲元數據實踐調查及啟示[J].新世紀圖書館,2016(05):81-84.
[3]黃如花,邱春艷.國內外科學數據元數據研究進展[J].圖書與情報,2014(06):102-108.
[4]Greenberg J,White H C,Carrier S,et al.A Metadata Best Practice for a Scientific Data Repository[J].Journal of Library Metadata,9(3-4):194-212.
[5]Prabhune A,Ansari I,Keshav A,et al.MetaStore:A Metadata Framework for Scientific Data Repositories[C]IEEE.,2016.3026-3035.
[6]Dietrich D.Metadata Management in a Data Staging Repository[J].Journal of Library Metadata,2010,10(2-3):79-98.
[7]Curdt C.Metadata Management in an Interdisciplinary,Project-Specific Data Repository:A Case Study from Earth Sciences[C]Communications in Computer and Information Science.2016.357-368.
[8]F L,V W,B K,et al.Dataset search in biodiversity research:Do metadata in data repositories reflect scholarly information needs?[J].PLOS ONE,2021,16(03)
[9]Marc D T,Beattie J,Herasevich V,etal.Assessing Metadata Quality of a Federally Sponsored Health Data Repository.[J].Annual Symposium proceedings,2016:864-873.
[10]黃如花,邱春艷.Dryad數據倉儲的元數據管理[J].圖書館雜志,2014(01):68-73.
[11]胡芳.國外典型科學數據倉儲實施的元數據方案及啟示[J].圖書與情報,2015(01):117-121.
[12]崔佳偉,吳思竹,鄔金鳴,等.科學數據倉儲元數據標準研究與啟示[J].數字圖書館論壇,2019(06):19-28.
[14]List of Metadata Standards[EB/OL].[2022-1-22].https://www.dcc.ac.uk/guidance/standards/metadata/list.
[15]劉峰,張曉林.科學數據元數據標準述評及其通用化設計研究[J].現代圖書情報技術,2015(12):3-12.
[16]Dublin Core[EB/OL].[2022-1-23].https://www.dcc.ac.uk/resources/metadata-standards/dublin-core.
[17]Dublin Core? Metadata Element Set,Version1.1:Reference Description[EB/OL].[2022-1-23].https://www.dublincore.org/specifications/dublin-core/dces/.
[18]DataCite Metadata Schema Documentation for the Publication and Citation of Research Data and Other Research Outputs[EB/OL].[2022-2-6].https://schema.datacite.org/meta/kernel-4.4/doc/DataCite-MetadataKernel_v4.4.pdf.
[19]Document,Discover and Interoperate[EB/OL].[2022-2-6].https://ddialliance.org/.
[20]ISO GEOSPATIAL METADATA STANDARDS[EB/OL].[2022-2-7].http://www.fgdc.gov/metadata/iso-standards.
[21]ISO19115:2003 Geographic information-Metadata[EB/OL].[2022-2-7].https://www.iso.org/standard/26020.html.
[22]ISO19115-1:2014 Geographic information--metadata--part1:fundamentals[EB/OL].[2022-2-7].https://www.iso.org/standard/53798.html.
[23]Ecological Metadata Language(EML)[EB/OL].[2022-2-7].https://eml.ecoinformatics.org/.
[24]朱玲.基于內容結構視圖的研究數據元數據標準比較研究[J].大學圖書館學報,2019,37(06):78-84.
[25]Archaeology Data Service / Digital Antiquity[EB/OL].[2022-1-25].https://guides.archaeologydataservice.ac.uk/g2gp/CreateData_1-2.
[26]劉堯,司莉.美國高校政治與社會研究聯盟(ICPSR)發展經驗借鑒——基于1995—2017年年報的深度分析[J].國家圖書館學刊,28(03):12-24.
[27]黃國彬,屈亞杰,王舒.UKDA和ICPSR社科數據發布平臺數據管理功能剖析[J].圖書情報工作,2017,61(21):40-48.
[28]Metadata[EB/OL].[2022-1-25].https://www.icpsr.umich.edu/web/pages/datamanagement/lifecycle/metadata.html.
[29]ISO19115-2 Metadata Editor[EB/OL].[2022-1-25].https://data.gulfresearchinitiative.org/metadata-editor-start.
[30]宋琳琳,李海濤.大型文獻數字化項目元數據互操作調查與啟示[J].中國圖書館學報,2012,38(05):27-38.
[31]孔慶杰,宋丹輝.元數據互操作問題技術解決方案研究[J].情報科學,2007,25(05):754-758.
(作者單位:賈歡、李澤鋒,鄭州航空工業管理學院;劉越男,中國人民大學 來稿日期:2022-04-20)