宋秀芬 周茜 李立睿等



DOI:10.3969/j.issn.1008-0821.2021.10.010
[中圖分類號]G250.76 [文獻標識碼]A [文章編號]1008-0821(2021)10-0083-10
協(xié)同科學環(huán)境下的數(shù)據(jù)量和數(shù)據(jù)豐富度呈爆炸式增長,數(shù)據(jù)再利用量顯著落后于快速增長的數(shù)據(jù)存儲量,產(chǎn)生這種現(xiàn)象的原因之一是數(shù)據(jù)再利用性(Data Reusability)不高。數(shù)據(jù)共享性(Shareability)、可用性(Availability)與再利用性(Reusability)共同影響數(shù)據(jù)再利用(Data Reuse)活動。數(shù)據(jù)再利用性已成為開放科學實踐的顯著特征,是數(shù)據(jù)再利用活動產(chǎn)生的必要條件。因此,如何實現(xiàn)數(shù)據(jù)再利用性最大化已成為當前數(shù)據(jù)再利用實踐領域亟待解決的問題。
近幾年,國內(nèi)學者已著手研究數(shù)據(jù)再利用相關主題,但涉及數(shù)據(jù)再利用性的科研成果較少。國外學者關于數(shù)據(jù)再利用性研究成果主要集中出現(xiàn)在近幾年,研究主題主要體現(xiàn)在3個方面:①數(shù)據(jù)再利用性影響因素與評估要素,其中影響因素如相關性、可理解性、可信度等;評估要素如元數(shù)據(jù)完整性、溯源質(zhì)量、數(shù)據(jù)質(zhì)量、數(shù)據(jù)文檔、數(shù)據(jù)原則FAIR等;②數(shù)據(jù)再利用性技術維度:語法與語義異質(zhì)性表示、工具與應用軟件開發(fā)、機器自動化識別技術等;③數(shù)據(jù)再利用性提升策略與措施:元數(shù)據(jù)質(zhì)量、數(shù)據(jù)用戶需求與期望識別、透明化科研過程、數(shù)據(jù)原則FAIR遵循、服務流程優(yōu)化、開放數(shù)據(jù)文化、數(shù)據(jù)監(jiān)護人員協(xié)同工作等。
基于現(xiàn)有國內(nèi)外文獻,目前數(shù)據(jù)再利用性研究僅從單一維度(如技術、數(shù)據(jù)監(jiān)護人員等)展開,鮮有從多維度研究數(shù)據(jù)再利用性。鑒于此,相較于已有研究成果,本文研究的特點體現(xiàn)在以下3方面:①闡述了數(shù)據(jù)再利用性的理論基礎;②剖析了數(shù)據(jù)再利用性的五大維度,構建了數(shù)據(jù)再利用性的五維度模型;③從數(shù)據(jù)再利用性的五維度模型中提煉出數(shù)據(jù)再利用性的提升策略與措施。另外,值得注意的是,本文數(shù)據(jù)再利用性中的“數(shù)據(jù)”(Re-search Data或Scientific Data)專指科研數(shù)據(jù)。
1數(shù)據(jù)再利用性相關概念
1.1數(shù)據(jù)再利用
數(shù)據(jù)再利用(Data Reuse)又稱為數(shù)據(jù)復用或數(shù)據(jù)重用,是基于不同研究背景對現(xiàn)有數(shù)據(jù)二次使用的過程,數(shù)據(jù)再利用概念包含兩層含義:一是利用現(xiàn)有數(shù)據(jù)解決新問題的研究過程;二是通過新的數(shù)據(jù)分析方法(二次分析或再分析)解決原始問題。數(shù)據(jù)再利用就是在原始研究數(shù)據(jù)基礎上解決新問題的研究過程,或采用新數(shù)據(jù)分析方法解決原始問題的過程。再利用的數(shù)據(jù)包括原始數(shù)據(jù)、算法、工具、工作流等。
1.2數(shù)據(jù)再利用性
學術界對數(shù)據(jù)再利用性(Data Reusabilicy或Research Data Reusability)定義還未達成統(tǒng)一共識,典型數(shù)據(jù)再利用性定義如表1所示。
從以上數(shù)據(jù)再利用性定義分析得出,其定義體現(xiàn)了5個方面的關鍵詞:數(shù)據(jù)監(jiān)護人員、政策、法律、經(jīng)濟、技術,具體如下:
①數(shù)據(jù)監(jiān)護人員方面:維護數(shù)據(jù)再利用性涉及的數(shù)據(jù)監(jiān)護人員之間的數(shù)據(jù)可用性關系;②政策方面:創(chuàng)建數(shù)據(jù)再利用文化環(huán)境,第三方(數(shù)據(jù)用戶、領域?qū)<摇⑵诳庉嫛㈨椖抠Y助者等)根據(jù)數(shù)據(jù)屬性與再利用意愿等來評估數(shù)據(jù)再利用性;③法律方面:解決數(shù)據(jù)再利用性涉及的版權、隱私問題、訪問許可、敏感數(shù)據(jù)等法律問題;④經(jīng)濟方面:解決數(shù)據(jù)再利用性涉及的成本與效益(如科研過程透明與再現(xiàn)、科研成果驗證、科研效率提升、開放數(shù)據(jù)文化營造等)平衡問題;⑤技術方面:豐富數(shù)據(jù)再利用性的數(shù)據(jù)屬性(如數(shù)據(jù)文檔、數(shù)據(jù)適用性、數(shù)據(jù)作者可信性與可靠性、數(shù)據(jù)質(zhì)量、研究嚴謹性)與特征來滿足數(shù)據(jù)再利用者特定數(shù)據(jù)需求與期望。
1.3數(shù)據(jù)再利用、數(shù)據(jù)再利用性、數(shù)據(jù)可用性三者關系
數(shù)據(jù)可用性(Data Availability)是指數(shù)據(jù)具有便利使用的狀態(tài)或?qū)傩裕赐ㄟ^必要管理程序、基礎設施、技術、策略等向數(shù)據(jù)用戶提供及時、便利數(shù)據(jù)訪問的保障程度,數(shù)據(jù)作者或提供者很大程度上影響數(shù)據(jù)可用性。
數(shù)據(jù)再利用影響因素:數(shù)據(jù)共享性、數(shù)據(jù)可用性與數(shù)據(jù)再利用性。換句話說,數(shù)據(jù)再利用的基本特征為數(shù)據(jù)共享性、數(shù)據(jù)可用性、數(shù)據(jù)再利用性,三者缺一不可,共同作用于數(shù)據(jù)再利用。因此,數(shù)據(jù)共享性、數(shù)據(jù)可用性、數(shù)據(jù)再利用性是數(shù)據(jù)再利用的必要條件。
2數(shù)據(jù)再利用性理論基礎
2.1數(shù)據(jù)原則FAIR
數(shù)據(jù)原則FAIR(Findable,Accessible,Interop-erable,Reusable)為開放數(shù)據(jù)可發(fā)現(xiàn)性、可訪問性、互操作性和再利用性提供數(shù)據(jù)監(jiān)護指南,強調(diào)通過自動化技術處理復雜數(shù)據(jù)及元數(shù)據(jù)解決共享數(shù)據(jù)的質(zhì)量問題,提升數(shù)據(jù)再利用性與數(shù)據(jù)可用性。
數(shù)據(jù)原則FAIR與數(shù)據(jù)再利用性關系表現(xiàn)為:一方面,數(shù)據(jù)原則FAIR是數(shù)據(jù)再利用性的測量指標(FAIR原則遵循、數(shù)據(jù)溯源質(zhì)量與元數(shù)據(jù)完整性)之一,是保障發(fā)布數(shù)據(jù)具有再利用性的規(guī)范指南;另一方面,數(shù)據(jù)再利用性是數(shù)據(jù)原則FAIR的組成部分,數(shù)據(jù)知識庫(Scientific Data Re-positories,SDRs)需遵循數(shù)據(jù)原則FAIR來滿足數(shù)據(jù)用戶對數(shù)據(jù)和元數(shù)據(jù)的個性化需求。
2.2數(shù)據(jù)可用性關系
一方面,數(shù)據(jù)集自身無法單獨被理解和使用,需要元數(shù)據(jù)增強數(shù)據(jù)理解性,實現(xiàn)不同科研環(huán)境下的數(shù)據(jù)遷移,因此,元數(shù)據(jù)質(zhì)量是數(shù)據(jù)再利用性的重要影響因素;另一方面,關系思維方法有助于選擇和組織元數(shù)據(jù)信息(來源、環(huán)境、質(zhì)量、不確定性信息),消除研究社區(qū)之間的語義和語用障礙,增強數(shù)據(jù)理解性和再利用性。采用關系思維方法建立數(shù)據(jù)作者與數(shù)據(jù)用戶之間的數(shù)據(jù)關系以支持數(shù)據(jù)應用于不同科研環(huán)境。
數(shù)據(jù)再利用性涉及數(shù)據(jù)作者(Data Author)與數(shù)據(jù)用戶(Data User),后二者之間的數(shù)據(jù)可用性關系(Usability Relationships)表現(xiàn)為認可關系、驗證關系、發(fā)現(xiàn)關系,其中認可關系表現(xiàn)為數(shù)據(jù)用戶從數(shù)據(jù)作者創(chuàng)建的數(shù)據(jù)中找到符合需求或期望的數(shù)據(jù);驗證關系表現(xiàn)為數(shù)據(jù)用戶收集數(shù)據(jù)作者創(chuàng)建的數(shù)據(jù)來驗證科研成果;發(fā)現(xiàn)關系表現(xiàn)為數(shù)據(jù)用戶根據(jù)數(shù)據(jù)作者創(chuàng)建的數(shù)據(jù)提出新見解。
3種數(shù)據(jù)可用性關系的特征表現(xiàn)為關系差異、關系依存、關系變遷。其中關系差異表現(xiàn)為數(shù)據(jù)作者與數(shù)據(jù)用戶的年齡、地理區(qū)域、研究文化、學科規(guī)范等差異影響數(shù)據(jù)再利用性;關系依存表現(xiàn)為數(shù)據(jù)作者與數(shù)據(jù)用戶相互依賴,數(shù)據(jù)作者的數(shù)據(jù)共享意愿與接受程度影響數(shù)據(jù)用戶對數(shù)據(jù)的理解性與再利用性;關系變遷表現(xiàn)為隨著時間變化,數(shù)據(jù)作者與數(shù)據(jù)用戶之間的關系差異與關系依存不斷變化與交互,需實時更新維護二者之間的關系。
2.3數(shù)據(jù)監(jiān)護活動
根據(jù)對數(shù)據(jù)監(jiān)護生命周期模型(Curation Life-cycle Model)與數(shù)據(jù)再利用性理論基礎的分析,數(shù)據(jù)再利用性的監(jiān)護活動表現(xiàn)為:數(shù)據(jù)創(chuàng)建、數(shù)據(jù)處理與分析、數(shù)據(jù)發(fā)布、數(shù)據(jù)維護與評估、數(shù)據(jù)再利用,如圖1所示。數(shù)據(jù)再利用性的數(shù)據(jù)監(jiān)護流程是具有高效、漸進、自適應特征的科學生態(tài)系統(tǒng),系統(tǒng)不斷維護數(shù)據(jù)價值。
①數(shù)據(jù)創(chuàng)建。數(shù)據(jù)作者在科學研究過程中創(chuàng)建數(shù)據(jù),其類型包括觀測數(shù)據(jù)、計算數(shù)據(jù)、實驗數(shù)據(jù)、派生數(shù)據(jù)。平臺數(shù)據(jù)監(jiān)護人員(包含數(shù)據(jù)經(jīng)理、數(shù)據(jù)科學家、數(shù)據(jù)館員)從研究早期就協(xié)助數(shù)據(jù)作者及時記錄數(shù)據(jù)來源、生成方法、實驗環(huán)境等描述信息以免數(shù)據(jù)丟失;②數(shù)據(jù)處理與分析。一方面,平臺數(shù)據(jù)監(jiān)護人員指導數(shù)據(jù)作者規(guī)范化處理與分析數(shù)據(jù),生成原始數(shù)據(jù)集、元數(shù)據(jù)、數(shù)據(jù)文件以及支撐材料等;另一方面,人員、技術、環(huán)境以及其他因素影響數(shù)據(jù)質(zhì)量(原始數(shù)據(jù)集、元數(shù)據(jù)、數(shù)據(jù)文件以及支撐材料等質(zhì)量)與數(shù)據(jù)知識庫質(zhì)量(FAIR遵循、認證標準支持等);③數(shù)據(jù)發(fā)布。數(shù)據(jù)發(fā)布的3種途徑分別為:數(shù)據(jù)作為獨立文件通過數(shù)據(jù)知識庫發(fā)布、數(shù)據(jù)作為數(shù)據(jù)論文通過數(shù)據(jù)期刊發(fā)布、數(shù)據(jù)作為文獻支撐材料通過出版物(期刊、報告、著作等)發(fā)布。數(shù)據(jù)知識庫是數(shù)據(jù)期刊與出版物的基石,數(shù)據(jù)知識庫中數(shù)據(jù)關聯(lián)了數(shù)據(jù)期刊的數(shù)據(jù)論文、出版物的文獻,數(shù)據(jù)期刊的數(shù)據(jù)論文是對出版物中文獻成果的驗證。因此,3種數(shù)據(jù)發(fā)布途徑互為補充、互為關聯(lián),共同支持數(shù)據(jù)可見性與再利用性;④數(shù)據(jù)維護與評估。數(shù)據(jù)作者更新數(shù)據(jù)、數(shù)據(jù)經(jīng)理提供技術支持、數(shù)據(jù)科學家優(yōu)化資源配置、數(shù)據(jù)用戶再現(xiàn)研究與反饋問題,不同崗位的數(shù)據(jù)監(jiān)護人員協(xié)同更新與維護數(shù)據(jù),增強數(shù)據(jù)再利用的共享性、可用性、再利用性,這3種數(shù)據(jù)再利用特征由第三方(數(shù)據(jù)用戶、領域?qū)<摇⑵诳庉嫛㈨椖抠Y助者等)根據(jù)數(shù)據(jù)屬性、標準化、實踐要求、個性化需求等要素來綜合評估;⑤數(shù)據(jù)再利用。一方面,數(shù)據(jù)監(jiān)護人員在數(shù)據(jù)監(jiān)護生態(tài)系統(tǒng)中起主導作用,通過建立數(shù)據(jù)作者與數(shù)據(jù)用戶之間的數(shù)據(jù)可用性關系進一步提升數(shù)據(jù)再利用性,為數(shù)據(jù)再利用活動產(chǎn)生奠定基礎;另一方面,數(shù)據(jù)再利用活動建立數(shù)據(jù)與衍生出版物的關聯(lián),進一步提升數(shù)據(jù)再利用性。
3數(shù)據(jù)再利用性的五維度模型構建
3.1數(shù)據(jù)再利用性的五維度分析
3.1.1數(shù)據(jù)監(jiān)護人員維度
數(shù)據(jù)再利用性涉及的數(shù)據(jù)監(jiān)護人員(Data Cu-rator)包括數(shù)據(jù)作者、數(shù)據(jù)科學家、數(shù)據(jù)經(jīng)理、數(shù)據(jù)館員、數(shù)據(jù)用戶,數(shù)據(jù)作者主要負責數(shù)據(jù)創(chuàng)建與更新,數(shù)據(jù)科學家主要負責財物管理,數(shù)據(jù)經(jīng)理主要負責技術支持,數(shù)據(jù)館員主要負責數(shù)據(jù)服務定制,數(shù)據(jù)用戶主要負責及時反饋問題、合法引用與使用數(shù)據(jù)等。
數(shù)據(jù)監(jiān)護人員在數(shù)據(jù)再利用性方面發(fā)揮主導作用,其影響數(shù)據(jù)再利用性的個體主客觀因素為:協(xié)同能力、知識技能、態(tài)度信仰、感知風險、學科規(guī)范、領悟能力、年齡資歷等。其中協(xié)同能力尤為重要,不同崗位的數(shù)據(jù)監(jiān)護人員承擔著不同職責與任務,這就要求不同崗位的數(shù)據(jù)監(jiān)護人員加強溝通、協(xié)同工作。因此,在數(shù)據(jù)監(jiān)護實踐中需不斷增強數(shù)據(jù)監(jiān)護人員參與度和協(xié)同創(chuàng)新能力。數(shù)據(jù)作者與平臺數(shù)據(jù)監(jiān)護人員的協(xié)同能力直接或間接影響數(shù)據(jù)用戶對數(shù)據(jù)的可信度,可信度又是影響數(shù)據(jù)再利用性的重要因素,原因是數(shù)據(jù)再利用性的構成要素包括相關性(Relevance)、可理解性(Understand-ability)、可信度(Trustworthiness),例如:
1)協(xié)同能力在知識技能整合方面增強數(shù)據(jù)可信度。實踐中數(shù)據(jù)作者缺乏數(shù)據(jù)監(jiān)護技能,平臺數(shù)據(jù)監(jiān)護人員缺乏專業(yè)領域知識,平臺數(shù)據(jù)監(jiān)護人員或數(shù)據(jù)作者如單獨從事數(shù)據(jù)監(jiān)護活動會導致數(shù)據(jù)監(jiān)護不到位或不完整,數(shù)據(jù)再利用性差,數(shù)據(jù)用戶無法有效再利用數(shù)據(jù)。因此,需要平臺數(shù)據(jù)監(jiān)護人員充當數(shù)據(jù)作者與數(shù)據(jù)用戶之間的交流媒介以提升用
2)協(xié)同能力在數(shù)據(jù)描述方面增強數(shù)據(jù)可信度。數(shù)據(jù)作者獨立從事數(shù)據(jù)描述時存在數(shù)據(jù)環(huán)境(Data Context)信息或數(shù)據(jù)文件不足等問題,造成數(shù)據(jù)用戶不能完整理解數(shù)據(jù),需要平臺數(shù)據(jù)監(jiān)護人員從研究早期參與到科研過程中,協(xié)助數(shù)據(jù)作者及時記錄數(shù)據(jù)環(huán)境信息與補充數(shù)據(jù)生命周期各個階段的數(shù)據(jù)文件以適應不同科研環(huán)境下的數(shù)據(jù)遷移。
3)協(xié)同能力在數(shù)據(jù)增值方面增強數(shù)據(jù)可信度。數(shù)據(jù)記錄、存儲、發(fā)布等過程是數(shù)據(jù)監(jiān)護人員共同職責,平臺數(shù)據(jù)監(jiān)護人員參與數(shù)據(jù)作者科研過程中的增值活動,包括清理、驗證、組織與記錄已接收的數(shù)據(jù),增強數(shù)據(jù)長期再利用性,維護數(shù)據(jù)價值性。
3.1.2政策維度
數(shù)據(jù)再利用性涉及的政策包括數(shù)據(jù)共享政策、數(shù)據(jù)使用政策、數(shù)據(jù)治理政策、經(jīng)費資助政策、隱私政策等,清晰的、標準化的政策內(nèi)容有助于增強數(shù)據(jù)影響力和可見性。鑒于目前數(shù)據(jù)共享范圍小且程度較低,因此在數(shù)據(jù)共享政策方面,政府機構、基金組織、出版發(fā)行機構與科研機構已制定并實施數(shù)據(jù)共享政策,對數(shù)據(jù)再利用性產(chǎn)生積極影響,共同推動開放科學發(fā)展:
1)政府機構的數(shù)據(jù)共享政策。國務院辦公廳于2018年3月印發(fā)了《科學數(shù)據(jù)管理辦法》,該辦法界定了數(shù)據(jù)利益相關者的權利與義務,創(chuàng)建開放數(shù)據(jù)文化環(huán)境,增強科研人員對數(shù)據(jù)再利用價值的認識,促進數(shù)據(jù)再利用。政府機構制定的數(shù)據(jù)共享政策為數(shù)據(jù)再利用性提升奠定了堅實基礎。
2)基金組織的數(shù)據(jù)共享政策。自2011年開始,美國國家科學基金會NSF(National Science Foundation)規(guī)定申請人須提交項目申報書與數(shù)據(jù)管理計劃(Data Management Plans,DMP)。數(shù)據(jù)管理計劃是一種支持數(shù)據(jù)再利用性的工具,其內(nèi)容包括創(chuàng)建數(shù)據(jù)內(nèi)容、創(chuàng)建數(shù)據(jù)方式、共享和保存計劃、數(shù)據(jù)訪問權限設置、研究項目名稱、數(shù)據(jù)創(chuàng)建組織、數(shù)據(jù)可用性方案等。其中數(shù)據(jù)可用性方案尤為重要,其內(nèi)容包括:①識別數(shù)據(jù)作者與潛在數(shù)據(jù)用戶之間的數(shù)據(jù)可用性關系;②將數(shù)據(jù)生成過程中積累的顯性與隱性知識轉(zhuǎn)換為遷移知識;③定義適
3)出版發(fā)行機構的數(shù)據(jù)共享政策。《Nature》《Cognition》等期刊強制要求數(shù)據(jù)作者提交期刊論文的支撐材料、數(shù)據(jù)集等,同時要求發(fā)布數(shù)據(jù)具有長期有效性。《Nature》《Cognition》等出版發(fā)行機構的數(shù)據(jù)共享政策實踐表明,強制型開放數(shù)據(jù)政策在一定程度上增強了數(shù)據(jù)可用性與再利用性。針對目前數(shù)據(jù)再利用性面臨的問題,如:數(shù)據(jù)共享效用低、錯誤報告阻礙研究再現(xiàn)、數(shù)據(jù)共享質(zhì)量低等,出版發(fā)行機構的數(shù)據(jù)共享政策需從兩方面改進:一方面,出版發(fā)行機構需完善出版物數(shù)據(jù)共享政策指南;另一方面,出版發(fā)行機構的數(shù)據(jù)共享政策需明確要求科研人員的科研過程透明化,同時要求科研人員具有完整清晰記錄數(shù)據(jù)結構的技能。
4)科研機構的數(shù)據(jù)共享政策。國內(nèi)外科研機構(含高校)數(shù)據(jù)監(jiān)護平臺的數(shù)據(jù)共享政策大多采用自愿共享原則來提升數(shù)據(jù)可見度,如明尼蘇達大學數(shù)據(jù)知識庫(The Data Repository for University of Minnesota)。、復旦大學社會科學數(shù)據(jù)共享平臺(Fudan University Dataverse Network)、北京大學開放研究數(shù)據(jù)平臺(Peking University Open Research Data)等的“數(shù)據(jù)資源共享合作協(xié)議”鼓勵科研機構或科研人員開放共享有價值的數(shù)據(jù)。科研機構數(shù)據(jù)共享政策對數(shù)據(jù)再利用性產(chǎn)生的影響表現(xiàn)為:第一,平臺數(shù)據(jù)監(jiān)護人員協(xié)助數(shù)據(jù)作者描述數(shù)據(jù),通過提升數(shù)據(jù)集質(zhì)量、元數(shù)據(jù)質(zhì)量、數(shù)據(jù)文件質(zhì)量來增強數(shù)據(jù)再利用性;第二,數(shù)據(jù)共享政策鼓勵數(shù)據(jù)作者與數(shù)據(jù)用戶加強溝通,通過再現(xiàn)研究增強數(shù)據(jù)理解性,降低數(shù)據(jù)二次使用難度;第三,數(shù)據(jù)共享政策提升機構數(shù)據(jù)資產(chǎn)的可見性、學術影響力及機構聲譽,從而提升數(shù)據(jù)可信度。
科研機構數(shù)據(jù)知識庫的數(shù)據(jù)共享政策制定工具通過規(guī)范化、個性化政策內(nèi)容明確了數(shù)據(jù)利益相關者的權利與義務,增強數(shù)據(jù)再利用性。例如:全球開放存取知識庫目錄(The Directory of Open Access Repositories,OpenDOAR)網(wǎng)站提供數(shù)據(jù)知識庫平臺政策制定工具(Policy Tools),以網(wǎng)頁形式或純文本形式生成限制型(禁止商業(yè)再利用)與非限制型兩套數(shù)據(jù)共享政策方案,其政策詳細內(nèi)容包括元數(shù)據(jù)政策、數(shù)據(jù)政策、內(nèi)容政策、提交政策、保存政策,同時政策制定工具滿足不同數(shù)據(jù)知識庫平臺政策個性化制定需求(如專門術語使用)。
3.1.3法律維度
數(shù)據(jù)再利用性的法律維度包括:數(shù)據(jù)許可(使用許可、訪問許可等)、知識產(chǎn)權、保密規(guī)定、隱私權等,其中數(shù)據(jù)知識庫的數(shù)據(jù)許可按數(shù)據(jù)權限從高到低依次分為:寬松許可、公共版權、限制許可、專用許可、版權、未知許可。第三方通過數(shù)據(jù)許可評估標準(許可條款類型與可發(fā)現(xiàn)性、許可范圍與完整性、數(shù)據(jù)訪問能力、數(shù)據(jù)再利用類型、數(shù)據(jù)再利用限制)來衡量數(shù)據(jù)再利用性。
數(shù)據(jù)許可(Data Licensing)相對于其他法律因素具有靈活性與擴展性。一方面,清晰的數(shù)據(jù)訪問許可協(xié)議明確了數(shù)據(jù)利益相關者的權利與義務,促進數(shù)據(jù)可用性、開放性、再利用性等,鼓勵數(shù)據(jù)再利用;另一方面,缺乏許可、非標準化許可、限制性或非兼容許可條款等阻礙數(shù)據(jù)互操作性與再利用性。
3.1.4經(jīng)濟維度
數(shù)據(jù)再利用性經(jīng)濟維度的影響因素表現(xiàn)為:數(shù)據(jù)共享成本、數(shù)據(jù)再利用成本、風險管理、財務可持續(xù)性等,其中共享成本如清理數(shù)據(jù)、創(chuàng)建文件與元數(shù)據(jù)、檢查數(shù)據(jù)完整性與一致性等工作耗費時間與精力;財務可持續(xù)性包括:①收益、投資與支出等分析;②財務透明性、經(jīng)費監(jiān)控;③運營計劃、經(jīng)營計劃、審計計劃、財務預測、技術基礎設施投資計劃等。
從經(jīng)濟維度具體要素來看,需從人員與工具兩個角度合理配置資源,降低成本,提高科研效率。數(shù)據(jù)再利用性經(jīng)濟維度的工具重點關注成本效益平衡問題,例如:數(shù)據(jù)審計框架(Data Audit Frame-work,DAF)是審計機構數(shù)據(jù)資產(chǎn)工具,有利于優(yōu)化利用機構資源,實現(xiàn)數(shù)據(jù)訪問與再利用價值;此外,基于區(qū)塊鏈的數(shù)據(jù)驅(qū)動流程重組工具增強數(shù)據(jù)靈活性、降低科研成本,增強數(shù)據(jù)利益相關者之間的信任。
3.1.5技術維度
數(shù)據(jù)再利用性的技術維度包括元數(shù)據(jù)建模技術、領域本體技術、數(shù)據(jù)發(fā)現(xiàn)技術、數(shù)據(jù)互換技術、數(shù)據(jù)與出版物關聯(lián)技術、數(shù)據(jù)標準化技術。
1)元數(shù)據(jù)建模技術。元數(shù)據(jù)是關于數(shù)據(jù)的描述性信息,用于解釋所測量的數(shù)據(jù)屬性,不受版權保護。面向目標的元數(shù)據(jù)模型使用對數(shù)據(jù)再利用性至關重要,需要在數(shù)據(jù)收集過程與派生過程中對其詳細清晰地描述以提升數(shù)據(jù)理解性。元數(shù)據(jù)信息包括數(shù)據(jù)溯源信息、數(shù)據(jù)環(huán)境信息、數(shù)據(jù)不確定性信息、數(shù)據(jù)質(zhì)量信息。元數(shù)據(jù)建模技術包括數(shù)據(jù)溯源建模技術、數(shù)據(jù)環(huán)境建模技術、數(shù)據(jù)不確定性建模技術、數(shù)據(jù)質(zhì)量建模技術:
①數(shù)據(jù)溯源建模技術。溯源元數(shù)據(jù)記錄數(shù)據(jù)獲取來源與數(shù)據(jù)更新頻率,數(shù)據(jù)溯源是關于數(shù)據(jù)對象來源、數(shù)據(jù)訪問方式、數(shù)據(jù)作者等信息,用于解釋、驗證、再計算、再現(xiàn)研究;②數(shù)據(jù)環(huán)境建模技術。數(shù)據(jù)環(huán)境元數(shù)據(jù)記錄數(shù)據(jù)與環(huán)境的關系,環(huán)境信息包括數(shù)據(jù)集屬性(數(shù)據(jù)來源、數(shù)據(jù)收集方法、數(shù)據(jù)創(chuàng)建與發(fā)布過程)、實驗過程與特性、數(shù)據(jù)來源、物理組織、項目組織、科學組織、任務、用戶社區(qū)等,數(shù)據(jù)環(huán)境信息實現(xiàn)跨學科數(shù)據(jù)遷移,將數(shù)據(jù)作者創(chuàng)建的數(shù)據(jù)遷移到數(shù)據(jù)用戶的研究環(huán)境中,數(shù)據(jù)環(huán)境的描述增強數(shù)據(jù)理解性與再利用性;③數(shù)據(jù)不確定性建模(Data Uncertainty Model-ing)技術。數(shù)據(jù)不確性建模技術是定量評估由系統(tǒng)誤差或隨機誤差產(chǎn)生的不確定性。數(shù)據(jù)不確定性是科學研究調(diào)查報告的重要組成部分,被稱為不明確、概率、模糊、近似、不完整、不精確等。目前,數(shù)據(jù)庫軟件不支持數(shù)據(jù)不確性管理,這是數(shù)據(jù)經(jīng)理亟待解決的技術難題;④數(shù)據(jù)質(zhì)量建模技術。數(shù)據(jù)質(zhì)量包括數(shù)據(jù)集質(zhì)量、元數(shù)據(jù)質(zhì)量、數(shù)據(jù)文件質(zhì)量等,其中元數(shù)據(jù)與數(shù)據(jù)具有同等價值,元數(shù)據(jù)質(zhì)量是實現(xiàn)數(shù)據(jù)再利用性的重要因素。數(shù)據(jù)質(zhì)量維度包括準確性、完整性、可訪問性、一致性、及時性、互操作性等,利用全球通用元數(shù)據(jù)標準規(guī)范化描述與解釋數(shù)據(jù)以增強其互操作性和再利用性。
2)領域本體技術。領域本體是由一組概念、公理、關系構成,是關于跨領域數(shù)據(jù)再利用活動內(nèi)容的協(xié)議,如知識表示術語等。領域本體是為了提高數(shù)據(jù)理解性與可用性,促進數(shù)據(jù)再利用。領域本體的特征為:一致性、動態(tài)性、模塊性和環(huán)境性等,其中一致性對于數(shù)據(jù)再利用性至關重要,跨領域本體的一致性是通過一組映射規(guī)則指定各種實體(如對象、概念、關系和實例)之間的對應關系來實現(xiàn)。
3)數(shù)據(jù)發(fā)現(xiàn)技術。數(shù)據(jù)發(fā)現(xiàn)性是指根據(jù)研究需求精準識別與查找數(shù)據(jù)的能力。數(shù)據(jù)發(fā)現(xiàn)技術包括:數(shù)據(jù)配準(Data Registration)、數(shù)據(jù)引用、數(shù)據(jù)分類、數(shù)據(jù)字典、元數(shù)據(jù)注冊表(Metadata Reg-istry)。其中數(shù)據(jù)配準為數(shù)據(jù)分配唯一數(shù)據(jù)對象標識符,提供一種永久且可操作數(shù)據(jù)識別系統(tǒng);數(shù)據(jù)引用提供數(shù)據(jù)引用指南與引用參考格式,數(shù)據(jù)引用6要素:創(chuàng)建者、標題、年份、標識符、版本號、數(shù)據(jù)集內(nèi)部格式;數(shù)據(jù)分類是為了有效使用數(shù)據(jù),對數(shù)據(jù)進行分類。
4)數(shù)據(jù)互換技術。數(shù)據(jù)互換性是指數(shù)據(jù)作者與數(shù)據(jù)用戶互相交換有意義數(shù)據(jù)的能力,是數(shù)據(jù)再利用的必要條件。當數(shù)據(jù)作者與數(shù)據(jù)用戶分屬于不同學科時,數(shù)據(jù)交換存在3種類型的異質(zhì)性:查詢語言異質(zhì)性(語法互換)、數(shù)據(jù)模型異質(zhì)性(結構互換)、領域術語異質(zhì)性(語義互換),數(shù)據(jù)互換技術通過解決語法、語義、結構互換問題支持不同學科數(shù)據(jù)遷移。
5)數(shù)據(jù)與出版物關聯(lián)技術。數(shù)據(jù)與出版物關聯(lián)包括數(shù)據(jù)與出版物、數(shù)據(jù)與數(shù)據(jù)、出版物與出版物、數(shù)據(jù)與數(shù)據(jù)文件等鏈接,數(shù)據(jù)關聯(lián)內(nèi)容包括:統(tǒng)一數(shù)據(jù)模型、標準訪問機制、基于超鏈接的數(shù)據(jù)發(fā)現(xiàn)。數(shù)據(jù)與出版物建立關聯(lián)的益處有:促進數(shù)據(jù)發(fā)現(xiàn)、增強數(shù)據(jù)理解性、提升數(shù)據(jù)作者學術聲譽、提高數(shù)據(jù)的可用性。數(shù)據(jù)與出版物關聯(lián)工具如:文獻數(shù)據(jù)集推薦工具支持研究再現(xiàn),提升數(shù)據(jù)再利用性。
6)數(shù)據(jù)標準化技術。數(shù)據(jù)標準化技術提高數(shù)據(jù)再利用性與理解性,數(shù)據(jù)標準分為:元數(shù)據(jù)模型標準、查詢語言標準、元數(shù)據(jù)標準、數(shù)據(jù)標識標準、傳輸協(xié)議標準等。標準化(Standardization)是指跨障礙(如空間、時間、文化障礙等)數(shù)據(jù)再利用時將局部知識轉(zhuǎn)化為公共知識的能力,避免因原始數(shù)據(jù)收集與數(shù)據(jù)再利用的障礙對同一數(shù)據(jù)造成認知差異與理解差異。
3.2數(shù)據(jù)再利用性的五維度模型分析
本文通過對數(shù)據(jù)再利用性的5個維度分析,構建了數(shù)據(jù)再利用性的五維度模型,如圖2所示。模型中數(shù)據(jù)監(jiān)護人員維度側(cè)重于人員的數(shù)據(jù)素養(yǎng)提升問題,法律與政策維度側(cè)重于數(shù)據(jù)開放存取問題,經(jīng)濟維度側(cè)重于數(shù)據(jù)再利用性的成本效益平衡問題,技術維度側(cè)重于數(shù)據(jù)互操作問題(如物理與語義障礙)。數(shù)據(jù)監(jiān)護人員維度、政策維度、法律維度、經(jīng)濟維度與技術維度共同構成數(shù)據(jù)再利用性的五大支柱,五大支柱缺一不可,五維一體共同發(fā)展提升數(shù)據(jù)再利用性。從數(shù)據(jù)再利用性的五維度模型分析得出以下結論:
1)數(shù)據(jù)監(jiān)護人員在數(shù)據(jù)再利用性的五維度模型中起主導作用。數(shù)據(jù)監(jiān)護人員的主觀因素(如態(tài)度信仰、感知風險等)與客觀因素(如知識技能、學科規(guī)范等)影響數(shù)據(jù)再利用性;此外,數(shù)據(jù)監(jiān)護人員通過在政策維度、經(jīng)濟維度、技術維度、法律維度的相關活動影響數(shù)據(jù)再利用性。
2)數(shù)據(jù)再利用性的五維度模型中5個維度融為一體,共同發(fā)展。數(shù)據(jù)監(jiān)護人員維度、政策維度、法律維度、經(jīng)濟維度、技術維度相互作用、相互依存。模型中每個維度都不是獨立的,當其中某一個或幾個維度提升時會影響其他維度并共同作用于數(shù)據(jù)再利用性。例如:政策維度中良好的政策環(huán)境促進技術維度中的技術(發(fā)現(xiàn)技術、互換技術等)進步,降低經(jīng)濟維度中科研人員的數(shù)據(jù)共享成本,提升數(shù)據(jù)監(jiān)護人員維度中協(xié)同能力等;此外,數(shù)據(jù)監(jiān)護人員維度中協(xié)同能力的提升促進技術維度中的技術進步,降低經(jīng)濟維度中的數(shù)據(jù)共享成本等。
3)數(shù)據(jù)再利用性的五維度模型構成要素之間相互交叉、互為補充。例如:①技術維度的數(shù)據(jù)標準化要素也體現(xiàn)在政策維度與數(shù)據(jù)監(jiān)護人員維度中,如:從政策維度制定數(shù)據(jù)標準政策促進數(shù)據(jù)標準化,從數(shù)據(jù)監(jiān)護人員維度要求數(shù)據(jù)利益相關者遵守數(shù)據(jù)標準政策,開發(fā)數(shù)據(jù)標準化技術來提升數(shù)據(jù)再利用性;②政策維度與法律維度中隱私問題(如敏感數(shù)據(jù)、私有數(shù)據(jù)保護)側(cè)重點不同,二者均涉及數(shù)據(jù)監(jiān)護人員維度。其中,政策維度的隱私要素側(cè)重于對數(shù)據(jù)用戶自覺約束,法律維度隱私要素側(cè)重于對數(shù)據(jù)用戶的強制約束,數(shù)據(jù)監(jiān)護人員維度在隱私要素中發(fā)揮主導作用,三者共同解決數(shù)據(jù)再利用性的隱私問題。從以上分析得出,數(shù)據(jù)再利用性的五維度模型中各構成要素不是孤立的,要素之間相互交叉,共同影響數(shù)據(jù)再利用性。
4)科研機構與數(shù)據(jù)監(jiān)護人員以模型的技術維度為突破口提升數(shù)據(jù)再利用性。一方面,數(shù)據(jù)監(jiān)護人員維度、政策維度、法律維度、經(jīng)濟維度在數(shù)據(jù)再利用性實踐中面臨的問題主要體現(xiàn)在數(shù)據(jù)技術維度的技術障礙上;另一方面,數(shù)據(jù)監(jiān)護人員維度、政策維度、法律維度、經(jīng)濟維度支撐并促進技術維度的技術進步,技術進步提升數(shù)據(jù)質(zhì)量,直接或間接影響數(shù)據(jù)再利用性提升。因此,將技術維度實踐作為突破點,解決數(shù)據(jù)再利用性的五維度模型中其他維度的相關問題,提升數(shù)據(jù)再利用性。
5)模型中數(shù)據(jù)再利用性是數(shù)據(jù)再利用活動產(chǎn)生的必要條件。數(shù)據(jù)具有再利用性,數(shù)據(jù)再利用活動不一定產(chǎn)生;反之,數(shù)據(jù)再利用活動產(chǎn)生的前提條件是數(shù)據(jù)具有再利用性,開放科學的最終目標是促進數(shù)據(jù)再利用。總之,數(shù)據(jù)再利用性是數(shù)據(jù)再利用活動的基礎。
4結論與展望
4.1研究結論
本文在數(shù)據(jù)監(jiān)護人員維度、政策維度、法律維度、經(jīng)濟維度、技術維度基礎上,構建了數(shù)據(jù)再利用性的五維度模型,分析得出以下結論:
1)模型中數(shù)據(jù)監(jiān)護人員維度側(cè)重于數(shù)據(jù)再利用性中數(shù)據(jù)監(jiān)護人員的數(shù)據(jù)素養(yǎng)提升。數(shù)據(jù)監(jiān)護人員在數(shù)據(jù)再利用性模型中起主導作用,其個體主觀因素(如態(tài)度信仰、領悟能力等)是影響再利用性的不可控因素,數(shù)據(jù)監(jiān)護人員的協(xié)同能力在數(shù)據(jù)再利用性方面尤為重要。
2)模型中法律與政策維度側(cè)重于數(shù)據(jù)再利用性的數(shù)據(jù)開放存取。例如:①政策維度中數(shù)據(jù)共享政策創(chuàng)建數(shù)據(jù)開放存取環(huán)境,目前政策機構、出版發(fā)行機構、基金組織、科研機構已制定并實施數(shù)據(jù)治理、使用、隱私保護、經(jīng)費資助、數(shù)據(jù)共享方面的政策,提升科研人員對數(shù)據(jù)價值認識,對數(shù)據(jù)再利用性產(chǎn)生積極影響;②法律維度中數(shù)據(jù)許可界定了數(shù)據(jù)開放存取相關權利,開放清晰的數(shù)據(jù)許可明確了數(shù)據(jù)利益相關者的職責與義務,促進數(shù)據(jù)再利用性提升。
3)模型中經(jīng)濟維度側(cè)重于數(shù)據(jù)再利用性的成本效益平衡。從人與工具兩個角度解決成本效益平衡問題,其中人占主導地位,因此需開發(fā)成本效益類工具,有效管理短期(數(shù)據(jù)共享成本、數(shù)據(jù)再利用成本等)、長期(財物可持續(xù)性)成本效益平衡問題。
4)模型中技術維度側(cè)重于數(shù)據(jù)再利用性的數(shù)據(jù)互操作。數(shù)據(jù)再利用性技術維度涉及元數(shù)據(jù)建模技術、領域本體技術、數(shù)據(jù)發(fā)現(xiàn)技術、數(shù)據(jù)互換技術、數(shù)據(jù)與出版物關聯(lián)技術、標準化技術,這些技術解決跨領域、跨學科科研環(huán)境的數(shù)據(jù)遷移難題,實現(xiàn)科研人員跨系統(tǒng)、跨平臺再利用數(shù)據(jù)。
4.2研究展望
本文構建了數(shù)據(jù)再利用性的五維度模型,但還存在一定局限性:未采用定量方法研究數(shù)據(jù)再利用性的五維度模型中影響因素的相互關系及其作用效果。筆者下一步將采用系統(tǒng)動力學工具,通過量化方法研究數(shù)據(jù)再利用性系統(tǒng)五大要素模塊(數(shù)據(jù)監(jiān)護人員、政策、經(jīng)濟、法律、技術)中具體影響因素的因果關系,對數(shù)據(jù)再利用性系統(tǒng)動力學模型的敏感因素作用效果與變化趨勢進行擬合。
(責任編輯:郭沫含)