林芳芳,趙 輝(中國科學技術信息研究所,北京 100038)
?
數據溯源模型與DC元數據的映射研究
林芳芳,趙輝
(中國科學技術信息研究所,北京 100038)
PROV是關于數據溯源的一系列規范,與DC元數據存在密切的聯系。在數字圖書館領域,數據溯源成為一種趨勢,如何利用DC元數據建立數據溯源體系就成為研究重點之一。本文從DC元數據和PROV概念入手,比較分析其關系,探討兩者之間的映射,得出若要滿足數據溯源要求,DC元數據需增加描述活動、關系、代理相關字段的結論。
數據溯源;PROV;DC元數據;映射;數字圖書館
在大數據背景下,數據成為重要的資產。人們希望能夠像實物資產一樣,在數據使用過程中,一旦出現質量問題,可以根據溯源信息,找到數據產生和生產環節中可能出現問題的地方,提高數據生產和使用的效率和效益。因此,“數據溯源”的概念應運而生。“數據溯源”也叫數據起源、數據族系,是對數據的追本溯源,不僅強調數據溯源追蹤技術,實現對歷史數據的重現,更強調從原始數據到數據產品衍生的過程。PROV作為2013年W3C出的數據溯源標準,提供以數據溯源模型(PROV-DM)文檔為核心的12個系列文檔(包括4個推薦標準),實現對數據的溯源及規范化表達。其實現原理是通過捕捉溯源所需的相關數據,利用數據溯源模型(PROV-DM)和數據溯源本體(PROV-O)分別進行組織及表達。數字圖書館中包含大量的數據資源,是科研工作者在創新活動中要使用的不可或缺的資源。數字圖書館引入數據溯源標準,進一步加強對數字資源的管理,將更有利于數據資源的開發和利用。……