涂志芳 (中國科學院文獻情報中心 北京 100190)
劉茲恒 (北京大學信息管理系 北京 100871)
科學數據或研究數據是產生或收集后有待進一步檢查并作為推理、討論或計算基礎的信息,尤其是事實或數字信息,如統計數據、實驗結果、測量結果、實地觀察記錄、調查結果、訪談記錄和圖像等[1],也是學術資源開放存取的重要組成部分和大數據時代數據開放共享的重要內容范疇??茖W數據出版(data publishing)是學術共同體中的學術期刊、學術機構或學術社群等主體從科學研究的角度對研究人員產生的科學數據及相關信息進行同行評審、編輯加工等,使之符合一定規范和標準并能為學術界方便地獲取和利用的過程[2]。較之于一般的數據開放和數據管理活動,數據出版在促進數據開放、共享的基礎上明確數據知識產權、保障數據質量并建立數據與出版物的關聯[2]。
研究者們通常將數據出版劃分為3種模式,即獨立的數據出版、作為論文輔助資料的數據出版、數據論文出版[3]?!蔼毩⒌臄祿霭妗笔菍祿鳛楠毩⒌男畔ο筇峤坏綌祿鎯ο到y進行處理、發布、傳播和利用,即本文所指的數據知識庫模式下的數據出版。數據知識庫(data repository)是為具有研究價值的數字對象提供長期監護的存檔服務,一般遵循開放檔案信息系統(Open Archival Information System,簡稱OAIS)參考模型的標準(ISO 14721:2003)[4]。數據質量控制是使得數據知識庫模式下的數據出版達到“出版”標準的最有效方式之一,質量控制貫穿于數據出版的全過程。
本研究擬對數據質量及數據質量控制相關的概念、內容、方法以及數據知識庫的質量控制實踐進行研究回顧,然后以數據質量控制的技術性、科學性、管理性3個層面為框架,分析數據知識庫內容接收標準與用戶服務條款,從技術、科學層面以及管理和其他層面研究數據知識庫模式的數據出版質量控制實踐,以期對國外數據知識庫模式的數據出版質量控制實踐動態進行較為系統的梳理和揭示,為我國科學數據開放、數據知識庫發展及數據出版質量控制等的研究與實踐提供參考。
數據質量是一個多維度概念,可被描述為一組質量特征的集合,也通常取決于對最終用戶目標實現產生的價值大小[5]。從質量特征視角理解,數據質量是數據所擁有的一系列與質量相關的內在與外在特征,如Gordon認為數據質量是使數據適合特定用途的完整性、有效性、一致性、及時性和準確性的狀態[6]。從數據利用視角理解,數據質量是滿足目標用戶的數據利用需求所具備的特點和由此所產生的價值,如Peer等將數據質量定義為“對已知的數據重用而言數據的可獨立理解性”[7]。
數據質量包含多個維度的內容,對應不同的數據標準,可采用不同的研究思路與方法。一方面,可從全局角度構建數據質量框架再確定框架內每一維度的質量特征,如Wang和Strong構建的數據質量框架的4個維度及其質量因素為:①內在數據質量,包括可信度、準確性、客觀性、聲譽;②語境數據質量,包括增值性、相關性、時效性、完整性、適量性;③可表現性數據質量,包括可解釋、易于理解、一致性、表達簡潔;④可訪問性數據質量,包括可訪問性、訪問安全[8]。另一方面,也可從某一特定角度識別數據質量的必備因素,如Hense等從數據管理角度總結數據質量的3個關鍵因素為聲譽、可靠性和程序規范[9];英國皇家學會從開放科學事業的全局視角認為可獲取、可理解、可評估和可利用是開放數據必須具備的數據質量[10]。另外,還有學者認為數據質量受所使用數據標準的質量(quality of data standards)影響,即提高某些數據標準的質量便可能提高根據標準創建的數據質量,并提出將完整性和相關性作為數據標準質量的兩個重要元素[11]。
數據質量控制是使得數據達到特定標準、需求、期望的系列過程。例如,加拿大研究數據組織(Research Data Canada)認為“質量保證”(Quality Assurance,簡稱QA)是用于測量和確保產品質量的過程,而“質量控制”(Quality Control,簡稱QC)是滿足消費者期望的產品和服務過程[4]。兩者的主要區別在于QA是過程導向,側重質量建設以防止錯誤,是用正確的方式做正確的事;而QC是產品導向,側重質量測試(如檢測錯誤),是確保所做的結果符合預期[12]。然而,在數據出版實踐過程中,人們往往并不對QA和QC進行嚴格區分[13],本研究所指“數據質量控制”是在數據出版過程中采用一系列的方法建設、增強數據質量或對數據質量進行測試、改善以達到數據可以有效地被驗證和利用的狀態。
數據質量控制圍繞數據出版各項可能的內容而展開,并且可以通過多種方法來實現。針對數據質量控制的內容,從數據出版流程看,涵蓋對數據計劃、收集、處理、分析、保存、出版/發表等生命周期環節的質量控制,如Pampel等認為可從數據創建、數據管理及其計劃、數據質量評估3個環節進行質量控制[14];從數據質量對象看,包含數據計劃、元數據、數據及其他數據相關文檔的質量控制,如Austin等認為包含對元數據的準確性、數據文件與文檔的充分性、計算與分析結果的準確性等進行的評估[15];從數據質量維度看,包含技術性質量(technical quality)、科學性質量(scientific quality)以及管理性質量(curatorial quality)等主要維度[15],技術性質量表現為數據格式的標準化、兼容性及元數據的完整性、準確性、真實性等特征,科學性質量強調數據收集方法的評價、數據的合理性和再使用的價值,管理性質量關注管理活動、水平、效果對數據知識庫質量的影響,這3個維度的數據質量控制也成為本文行文的參考框架。數據質量控制方法包括數據評審、數據審查、數據確認、數據驗證等,可借助計算機技術、統計軟件、圖表工具或參照一般原理、科學邏輯、數據標準等實現。
目前,學者們已經對數據知識庫質量控制的內容、方法、問題等進行了研究。有的研究者通過案例分析歸納數據知識庫的質量控制內容及其存在的問題,如張靜蓓、任樹懷選取通用型知識庫Dryad、Dataverse、figshare和學科型知識庫ICPSR、SSDA、ISPS Data Archive進行分析,發現質量控制的內容包括文件整體質量控制、文檔說明質量控制、科學數據本身質量控制、源代碼質量控制等4個方面[16];而Gordon對Dryad的創建者、日期、類型這3個元數據元素進行統計分析,發現存在同一創建者姓名表述不統一、日期表達方式不統一、資源類型與事實不相符等問題,并建議加強對數據知識庫的元數據質量控制[6]。
有的研究者對3種數據出版模式的質量控制分別進行研究,其中數據知識庫的質量控制主要集中在技術層面,管理層面次之,科學層面的質量控制較少。例如,王丹丹研究發現數據知識庫主要從技術標準層面對數據及數據文檔進行完整性的控制[17];孔麗華認為數據知識庫模式的數據出版主要從元數據、數據格式方面進行質量控制,但目前相當一部分數據知識庫不進行同行評審或只進行內部評審[18];屈寶強、王凱認為對數據知識庫進行技術審查能起到認證作用,對數據知識庫進行同行評審可以確認數字資產的完整性、評價數據集的完整性并評估數據文檔的完整性[19]。
數據知識庫的數據質量控制已經引起了相當的關注與研究,但因數據本身的格式、學科差異等而導致的復雜性,現有標準、技術的欠缺或不完善,數據審查需要大量時間、精力投入等原因,數據知識庫模式的數據出版質量控制仍存在一定的問題與困難,需要繼續思考研究和探索實踐。
數據知識庫通常被劃分為通用型和學科型兩種類型,前者如figshare、Dryad、Zenodo等,后者如GenBank、ICPSR、IQSS Dataverse Network等。在接收數據、提供服務之前,數據知識庫往往面向用戶定義相關術語、公開數據選擇標準、發布內容管理規則、說明利益相關方的權利與義務、公開收費標準、聲明隱私政策、說明遵循的版權許可、說明可能的質量管理與控制辦法、提出可能面臨的問題與解決方案。
Dryad源于進化生物學、生態學領域部分重要期刊和科學團體的倡議,現面向各個學科領域接收數據并提供服務,實現提供基礎設施、促進數據重用的使命[20]。
Dryad在闡明其理念、定位、功能的基礎上,制定了面向所有用戶的服務條款[21],其中與數據內容接收相關的說明包括:①內容必須與已發表的學術研究文檔相關聯;②數據提交者必須是創建者、擁有者或擁有足夠的權利將數據在CC0 許可協議下被公開;③數據提交者聲明并保證所提交的數據符合對應的格式和發布準則;④盡管Dryad也接收來自非同行評審出版物相關的數據,但接收的大部分還是與同行評審出版物相關的數據 ;⑤數據內容的主要語言必須是英語,以便Dryad管理員進行有效評審和管理[22]。
Dryad向提交者承諾在數據發布前后對數據進行審查和管理,主要包括[23-24]:①確認數據文件安全;②保障數據文件的學術性;③確認數據文檔元數據技術正確性;④確認管理元數據;⑤確認所評審的數據文件是正確版本并檢查數據文件及元數據的更新情況;⑥確認提交的數據內容適用于相應的豁免規定或付款計劃;⑦注冊數據DOIs;⑧在內容發布后解決引起管理者注意的問題。另外,Dryad還說明了其沒有義務但可以進行的審查,如個人信息、敏感信息、與CC0許可協議相沖突的內容等,同時還明確表示不會進行的審查,如除必要的格式轉換外的其他內容修改[23-24]。
政治與社會學研究校際聯盟(Inter-university Consortium for Political and Social Research,簡稱ICPSR)[25]始建于20世紀60年代,是世界知名的社會科學文獻網站和社會科學數據知識庫。
ICPSR同樣遵循OAIS參考模型,對數據本身的價值判斷、數據選擇與評估有明確的標準[26]:(1)ICPSR要求提交的數據對社會科學研究有重要意義,包括對教學和研究的實質價值、持久的檔案價值或數據本身具有獨特性,具體表現為:①數據應有其使命;②數據屬于社會科學核心領域;③數據對當前和新興研究以及統計技術有用;④數據支持定量或定性的社會科學研究技術。(2)基于以上標準,ICPSR重點關注的數據及其特點為:①多樣性數據,有助于加強對美國種族、少數族裔及其他邊緣化群體了解的數據;②復雜數據,來自縱向研究、調查研究和非標準類型的數據,如生物數據、管理記錄、視頻數據、空間數據、遙感數據及關系數據等;③混合方法數據,如可同時支持定性分析和定量分析的數據,混合研究方法設計產生的數據;④跨學科數據,即來自跨學科研究的數據以及使用多學科研究方法進行研究所得的數據;⑤國際數據,即來自美國以外的研究數據和支持跨國比較的數據,尤其是來自歸檔、傳播和保存功能不完善的國家或地區的研究數據。(3)符合以上標準和特點的數據將由ICPSR的工作人員進一步審查,并將具有以下便于公共獲取利用特點的數據優先存檔:①數據在其他地方不可獲得或難以獲得;②數據屬于公共領域;③數據版權明確;④數據版權所有者同意ICPSR的傳播政策;⑤數據遵守隱私政策的保密標準;⑥數據技術文檔完整;⑦數據格式便于使用。
數據知識庫本身并不產生數據,而是與期刊出版商、學術社群、研究機構、圖書館、資助機構、研究團隊、個人等合作,接收來自這些合作方的數據并對元數據、數據格式、數據文檔等進行篩選與審查,以便后續的數據管理、存儲和發布。
科學數據元數據是關于科學數據內容、質量、條件狀態及其他特征的描述,具有數據管理(如元數據自動或半自動生成、互操作、安全)、數據質量控制(如保障可驗證、可復制、可再生的質量特征)、數據發現(如保障數據可發現、可識別、可選擇、可獲取)、數據利用(如可互通、可分析、可視化)等的功能[27]。數據知識庫接收到數據后,對照所采用的元數據標準方案對元數據進行檢查、修正和完善。
數據出版所采用的元數據包括通用元數據標準和特定學科/行業的元數據標準,都柏林核心元數據(ISO 15836)[28]是國際上廣泛應用的通用元數據標準,具有很強的擴展性和移植性,現有各類元數據方案大多參考其元素而設計;國外特定學科領域的元數據標準較為豐富,如社會科學領域的“數據文檔計劃”(Data Documentation Initiative,簡稱DDI)國際標準[29],地球學科領域的“地球空間數據資產元數據”美國國家標準[30],地理信息領域的“地理信息元數據”國際標準(ISO 19115)[31],農業科學領域的“農業元數據元素集”國際標準[32]等,廣泛應用于各對應領域的數據出版。例如,ICPSR及其成員采用DDI作為元數據規范,澳大利亞海洋數據網絡門戶、英國地質調查局國家地球科學數據中心采用以ISO 19115為基礎的元數據方案[33]。
數據知識庫在接收數據時,往往對元數據進行檢查、評審、驗證、完善等工作,以保障元數據完整、準確、科學并與所描述的數據事實相匹配。ICPSR依照其采用的DDI元數據標準為接收到的沒有元數據的數據集創建元數據記錄;而美國地質調查局(United States Geological Survey,簡稱USGS)[34]則對元數據進行評審與驗證。其中,USGS一方面為數據作者提供部分具有自動驗證元數據功能的元數據編輯工具(如USGS Online Metadata Editor),另一方面提供元數據二次驗證和元數據評審服務,元數據二次驗證需借助元數據解析器(USGS Metadata Parser)[35]來驗證與美國國家地理空間數據標準(FGDC)兼容的元數據記錄且可生成錯誤報告。另外,USGS依據“評審指南”對數據及其元數據的匹配性、元數據與數據/出版物的鏈接、元數據標準術語、數據處理步驟/方法及相關資源元數據、元數據與數據使用、元數據與訪問權限、元數據與數據格式等內容進行說明或規定[36]。
數據格式兼容性最大化才能最大程度地方便用戶獲取和利用,因此數據知識庫也十分重視對數據格式的要求、檢查和轉換工作。
數據所采用的格式及軟件取決于研究人員如何收集、分析數據,通常依照特定標準和慣例而選擇最適合的一種或幾種;在完成數據分析與處理后進行數據存儲時則需要將其轉換為標準的、常用的、可轉換的、持久的且用戶友好的格式以保障長期利用。數據知識庫(如UK Data Archive)還根據學科范圍、數據類型特點,為定量數據、定性數據、地理空間數據、圖像、視音頻、文檔和腳本等數據類型分別推薦常用的和非常用但可接受的數據格式[37],如定量數據推薦sav、dta等格式,文本性定性數據推薦xml、rtf、txt、html、doc等格式,音頻數據推薦mp3、aif、wav格式。
對于未達到數據利用便利程度最大化的數據格式,數據知識庫往往在不改變數據內容的前提下對數據進行格式轉換。例如,ICPSR將印本形式的數據轉換為電子形式,將軟件依賴型數據文檔格式轉換為常用的PDF格式,針對某些特定數據生成多種格式以便進行傳播和保存[38]。Zenodo表示接收所有格式的數據(甚至不友好的格式),但會盡可能將其轉換為友好的格式以便長期保存和利用[39]。
長久以來,數據存儲基礎設施的缺乏使得獨立出版和引用數據非常困難,因此科學數據也一直未曾得到和科學論文同等的學術認可[40],數據標識符在這樣的需求下應運而生。數字對象標識符(Digital Object Identifier,簡稱DOI)、統一資源名稱(URN)、開放鏈接(OpenURL)、句柄系統(Handles)等是目前應用較多的數字標識符,其中尤以DOI的應用和研究最為廣泛。
DOI是用于識別數字環境下對象的知識產權的字符串[41],自1998年成立且于2012年成為“信息與文獻”領域的一項標準(ISO 26324)以來,廣泛應用于數字化圖書、期刊、數據等類型內容的學術出版。DOI自分配后便貫穿數據存儲、出版、傳播及長期保存的全過程,DOI用于數據出版便于數字版權管理、元數據動態更新、數據規范引用[42],可提高數據的可發現性、可獲得性和可利用性。
在實際的數據出版中,DOI由注冊代理機構及其成員機構負責分配,如中國知網、Crossref、DataCite[43]等。例如,DataCite是會員式、非營利的研究數據DOI服務機構,由英國國家圖書館、丹麥信息技術中心、德國國家科學圖書館等7個創始單位聯合創建于2009年,其成員現已覆蓋歐洲、亞洲、澳大利亞、北美和非洲等地區的大學和研究機構[44],哈佛大學圖書館、英國數字監護中心(Digital Curation Center,簡稱DCC)、figShare、ICPSR、北京大學開放研究數據平臺等均通過與DataCite合作為數據分配DOI。
一方面,如前所述,與作為論文輔助資料的數據出版以及數據論文出版的質量控制不同,目前數據知識庫的數據質量控制主要集中在技術審查,對數據本身的科學性評審開展得相對較少且以基礎性的科學評審為主,如審查數據是否符合一般邏輯、一般原理等。另一方面,數據出版實踐中數據知識庫通常融合不同的內容與方法[15]、協同不同審查主體的角色[45],對數據進行綜合的審查和全面的質量控制,如英國數據檔案(UK Data Archive)、地球數據觀測網絡(Data Observation Network for Earth,簡稱DataONE)、DCC、ICPSR等。
(1)數據檢驗
數據檢驗是對數據進行編輯、清洗、交叉檢查和驗證等的過程。UK Data Archive是英國人文與社會科學領域數據量最大的數據知識庫之一,采用多種方法對數據進行綜合檢驗[46],包括:①仔細檢查或觀察響應的編碼及超出范圍的值;②檢查數據的完整性;③在適當的位置添加變量和值標簽;④根據原始數據驗證數字化數據的隨機樣本;⑤雙重輸入數據;⑥對頻率、均值、范圍或聚類等數據進行統計分析以監測錯誤和異常值;⑦糾正數據轉錄過程可能產生的錯誤;⑧同行評審。
(2)保障數據真實性
數字化數據能夠被輕易復制和更改,因此保障數據的真實性、防止未經授權的訪問導致未經授權的數據更改變得非常重要。UK Data Archive保障數據真實性的最佳實踐包括[47]:①保留數據的單個主文件;②將數據主文件的監護責任分配給單個項目的團隊成員;③規范對數據文件主版本的寫入訪問;④維護舊的主文件以防新的主文件發生錯誤;⑤定期對主文件進行備份并保存;⑥開發銷毀主文件的正式程序。
DataONE從多個方面對數據出版進行質量審查,筆者以“quality”和“data quality”為標簽搜索DataONE最佳實踐庫,發現與數據質量控制高度相關的實踐做法有[48]:①重視數據質量(說明數據質量控制信息元數據、描述質量控制方法、設置可疑數據標簽) ;②確認數據及描述數據的元數據相互匹配;③在數據整合之前確認數據的兼容性;④制定質量控制計劃;⑤復查所輸入的數據;⑥確保數據符合邏輯和一般原理(如濃度不小于0) ;⑦在數據備份時確保數據的完整性和可用性;⑧借助數據工具識別異常值;⑨對根據實際值產生的估計值進行標記 ;⑩進行數據版本管理和控制;?用數據標簽標記數據質量(如“0”標記未檢查數據、“-1”標記有潛在問題的數據、“1”標記高質量數據)。
根據永久訪問科學網絡記錄聯盟(Alliance for Permanent Access to the Records of Science Network,簡稱APARSEN)發布的科學數據同行評審報告,數據知識庫認證與審計對數據質量控制影響突出,不同數據知識庫的質量控制方法因數據形式、范圍、學科而異[14];歐盟“地平線2020”項目資助的“人文科學研究數據開放存取出版”調查報告指出,信任是影響數據知識庫與其相關主體之間關系的關鍵因素,而注冊、審計與認證是對數據知識庫進行質量控制從而提高可信度的有效方法[49]。
數據知識庫注冊系統便于用戶通過目錄對數據知識庫的建設、注冊與發展情況進行統計分析,從而對數據知識庫的可信賴性、可用性作出判斷,數據知識庫注冊事實上也成為了用戶選擇與評價數據質量的一個重要參考。目前,常用數據知識庫注冊系統有re3data.org、FAIRsharing、Registry of Open Access Repository(ROAR)[50]和OpenDOAR[51]等。
其中,re3data.org是由德國研究基金資助并由德國、美國多家機構聯合運行的數據知識庫注冊與目錄系統,目前已有1 981個注冊登記的數據知識庫(截至2017年11月28日),如Dryad、figShare、GenBank以及北京大學開放研究數據平臺、中國地震數據中心等[52]。FAIRsharing是跨學科領域數據標準、數據知識庫和數據政策注冊與關聯查詢的門戶(其前身BioSharing聚焦生命科學領域),致力于推動科學數據的可發現(Findable)、可訪問(Accessible)、互操作(Interoperable)和可重用(Reusable)[53]。目前已注冊數據標準共708條,數據知識庫1 000個、數據政策98項(截至2017年11月28日),用戶查詢其中任意一項內容均能顯示相關的其他兩項,GenBank、Death Domain Database、Gene Wiki等生命科學領域的數據知識庫也都登記在該系統[53]。
一方面,從基礎設施建設、數字對象管理、安全風險管理等方面對數據知識庫進行審計與評估,有利于及時監測、報告數據知識庫的風險并提供有效的解決辦法;另一方面,對達到審計與評估標準的數據知識庫進行認證并授予認證標識,有利于增強數據知識庫的辨識度和可信度。目前,常用的數據知識庫審計與認證工具有“DRAMBORA”“DSA”“TRAC”與“Nestor”(DIN31644/ISO16363標準的基礎)等。
“DRAMBORA”即“基于風險評估的數據知識庫審計方法(2007)”(Digital Repository Audit Method Based On Risk Assessment,簡稱DRAMBORA)[54],主要對知識庫所面臨的風險及其嚴重性進行可量化的監測并提供報告風險的有效手段;“DSA”即數據認可印章(Data Seal of Approval,簡稱DSA)[55],制定了數據知識庫可信賴性認證的16條核心要求[56]并對達到要求的數據知識庫授予認證標識?!癟RAC”與“Nestor”即“可信賴知識庫審計與認證(2007)”(Trusted Repositories Audit & Certification,簡稱TRAC)[57]與“可信任數據知識庫標準Nestor目錄(2006)”(Nestor Catalogue of Criteria for Trusted Digital Repositories)[58],兩者均從組織基礎設施、數字對象管理、技術設施與安全3個方面進行審計與認證。在此類方法、工具及其廣泛應用的基礎上,數據知識庫審計與認證形成了較為成熟的方法體系,并進一步發展成為國內外普遍認可的標準(如DIN31644/ISO 16363),形成了從基礎認證、擴展認證到正式認證的遞進式認證框架(如歐盟可信賴數字倉儲審計與認證框架[49])。
根據re3data.org的統計(截至2017年11月28日),目前已有56個數據知識庫獲得了DSA的認證,包括ICPSR、UK Data Archive、Norwegian Centre for Research Data、World Data Center for Climate等;已有1個數據知識庫明確表示遵循DIN31644標準,即荷蘭數據存檔與網絡服務(Data Archiving and Networked Services,簡稱DANS)的在線存儲系統EASY[59];1個數據知識庫遵循TRAC方法,即美國加利福尼亞大學系統的數字化研究數據知識庫Merritt[60]。
數據引用是數據作為一種學術成果進行傳播從而發揮其價值的重要階段,也是承認數據作者的貢獻、保障數據管理者與出版者權益的一種有效方式。
2014年,數據引用綜合組(Data Citation Synthesis Grroup)聯合其他多個數據引用工作組發布了“數據引用原則聯合聲明”,并在www.force11.org發布了8條數據引用共同原則[61]:①重要性:數據應是合法的、可引用的研究性產品,數據引用與其他學術成果的引用具有同等重要性;②信譽和歸屬:數據引用應有助于為數據貢獻者帶來信用、聲譽和產權歸屬;③論據:學術文獻中任何依賴數據之處都應進行數據引用;④唯一標識:數據引用應包含持久的、機器可操作的、全球唯一的、廣泛使用的標識符;⑤便于訪問:數據引用應便于訪問數據本身及其相關的元數據、文檔、代碼和其他材料;⑥長久性:唯一標識符和描述數據的元數據以及其位置應長久存在,甚至可以超出數據本身的壽命;⑦明確性和可驗證性:數據引用應有助于識別、訪問和驗證支持特定觀點的具體數據,數據引用應包含充分的出處信息以便驗證其他版本、粒度的特定數據;⑧互操作性和靈活性:數據引用方法應足夠靈活以適應不同學術社群的具體實踐,不同數據引用不應存在本質差異以便保障不同數據引用實踐的互操作。FORCE11社區現有來自出版社、研究機構、研究資助機構、數據管理與出版機構、圖書館及圖書館協會、信息與技術中心、特定研究項目等的活躍成員2 300多名[62],為FORCE11社區貢獻內容并推動科學數據的規范引用;多個學術社群在遵循該基本原則的基礎上和在技術更新發展的條件下推動數據引用的最佳實踐,如美國地球物理聯盟(A G U)、Dataverse等均明確表示支持并遵循該原則。
目前,國內外學術論文(包括數據論文)的引用格式相對統一,而數據(集)的推薦引用格式因數據知識庫不同而呈現差異,沒有相對統一的標準,但都包含作者、年份、數據集題名、(包含DOI的)數據集獲取地址等關鍵要素,并且還盡可能反映數據集版本和數據檢索時間。例如:
(1)Dryad的推薦引用格式為:“作者(年份).Data from:數據集題名.數據知識庫名.DOI URL”,舉例“Tsunoda T,Krosse S,van Dam N (2017) Data from: Root and shoot glucosinolate allocation patterns follow optimal defence allocation theory.Dryad Digital Repository.http://dx.doi.org/10.5061/dryad.hd3s3”。
(2)figShare的推薦引用格式為:“作者(年份):數據集題名.數據知識庫名.DOI URL (自動生成的)檢索時間”,舉例“Halfaker,Aaron; Kim,Meen Chul; Forte,Andrea;Taraborelli,Dario (2017): Citations with contexts in Wikipedia.figshare.https://doi.org/10.6084/m9.figshare.5588842.v1 Retrieved: 06:41,Dec 02,2017 (GMT)”。
(3)北京大學開放研究數據平臺的推薦數據引用格式為:“作者,年份,“數據集題名”,DOI URL,數據知識庫名,數據集版本”,舉例:“黃悅勤,2016,‘中國居民健康與疾病負擔調查2013’,http://dx.doi.org/10.18170/DVN/O5PS2H,北京大學開放研究數據平臺,V1”。
從研究與實踐情況來看,數據出版質量控制有實質性的發展,但仍存在一定的問題和困難:①數據龐大、復雜且增長迅速,數據出版及其質量控制高度依賴計算機的輔助,對相關人員的技能有較高要求;②數據質量控制需要良好的科學研究與數據共享環境,需要來自研究資助機構、研究機構、學術社區等的協同支持和作者、管理者、用戶的協同努力;③數據質量控制的投資回報率較難保證,可持續發展機制尚不成熟;④最佳實踐的做法還不普及,數據質量控制水平參差不齊。
目前,無論是基于數據知識庫的數據出版,還是作為論文輔助資料的數據出版以及數據論文出版,我國的數據出版及其質量控制雖處于探索階段但已初具成效。例如,圖書情報領域期刊《數據分析與知識發現》從2016年起要求所有投稿論文提交支撐論文結論的科學數據并通過適當方式供研究共同體或社會公眾共享[63];2015年12月,北京大學開放研究數據平臺正式上線,匯集了來自國內極具影響力的精品調查數據,現有28個數據空間和153個數據集并提供開放共享[64](截至2018年1月);2016年6月,中國科學院主辦的《中國科學數據》開始了國內首份數據期刊出版的探索實踐,該刊實行嚴格的評審制度(責編初審、數據初審、同行評議/大眾評議、責編委復審、編委會投票等),已成為中國科學引文數據(CSCD)核心庫的來源期刊(2017-2018)[65]。2017年底,《信息技術科學數據引用》國家標準(GB/T35294-2017)[66]正式發布,為規范引用、傳播科學數據提供國家層面的保障。
展望未來,科學數據出版質量控制可能聚焦于:首先,對數據出版質量控制的理論、方法、工具、實踐等進行系統而綜合的研究,重點探討數據質量控制的困難和挑戰;其次,不斷優化現有數據標準與工具并推動其在更大范圍內的普及和應用;另外,進一步探索針對不同學科、不同類型數據的科學性評審及其可持續發展機制。誠然,我國數據出版質量控制在理論探索、政策制定、標準研制、系統開發、工具應用等方面都還有進一步提升的空間。可以預見,未來我國還將繼續重視對科學數據管理與出版的頂層設計與政策統籌,在機構層面加快推進數據政策、標準的研討和制定,在機構與個體層面促進數據工具的推廣和使用,而圖書館也能夠參與其中適時適當地發揮作用。
[1]European Commission.Horizon 2020[EB/OL].[2017-10-01].http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-pilot-guide_en.pdf.
[2]吳立宗,王亮緒,南卓銅,等.科學數據出版現狀及其體系框架[J].遙感技術與應用,2013,28(3):383-390.
[3]Lawrence B,Jones C,Matthews B,et al.Citation and Peer Review of Data: Moving Towards Formal Data Publication [J].International Journal of Digital Curation,2011,6(2):4-37.
[4]Research Data Canada.Original RDC Glossary[EB/OL].[2017-09-16].https://www.rdc-drc.ca/glossary/original-rdc-glossary/.
[5]Wuest T,Tinscher R,Porzel R,et al.Experimental Research Data Quality in Materials Science[J].Computer Science,2014,4(6):1-18.
[6]Gordon K.Principles of Data Management[EB/OL].[2017-09-15].http://bcs.org/upload/pdf/data-management-chapter1.pdf.
[7]Peer L,Green A,Stephenson E.Committing to Data Quality Review[J].International Journal of Digital Curation,2014,9(1):1-27.
[8]Wang R Y,Strong D M.Beyond Accuracy: What Data Quality Means to Data Consumers[J].Journal of Management Information Systems,1996,12(4):5-33.
[9]Hense A,Quadt F.Acquiring High Quality Research Data[J].DLib Magazine,2011,17(1-2):1-7.
[10]The Royal Society.Science as an Open Enterprise[R/OL].[2017-10-11].https://royalsociety.org/~/media/policy/projects/sape/2012-06-20-saoe.pdf.
[11]Zhu H,Fu L.Towards Quality of Data Standards: Empirical Findings from XBRL[C].International Conference on Information Systems,Arizona:Association for Information Systems Electronic Library,2009:1-8.
[12]U.S.Geological Survey.Data Management: Manage Quality--What is QA/QC?[EB/OL].[2017-10-15].https://www2.usgs.gov/datamanagement/qaqc.php.
[13]Bloom T,Dallmeier-Tiessen S,Murphy F,et al.Workflows for Research Data Publishing: Models and Key Components[J/OL].[2017-10-15].International Journal of Digital Libraries,https://zenodo.org/record/20308#.WeLU0fkdgZQ.
[14]Pampel H,Pfeiffenberger H,Sch.fer A,et al.Report on Peer Review of Research Data in Scholarly Communication[R/OL].[2017-10-05].https://www.researchgate.net/publication/224922538_Report_on_Peer_Review_of_Research_Data_in_Scholarly_Communication.
[15]Austin C C,Bloom T,Dallmeier-Tiessen S,et al.Key Components of Data Publishing: Using Current Best Practices to Develop a Reference Model for Data Publishing[J].International Journal on Digital Libraries,2016:1-16.
[16]張靜蓓,任樹懷.國外科研數據知識庫數據質量控制研究[J].圖書館雜志,2016(11):38-44.
[17]王丹丹.科學數據出版過程中的數據質量控制[J].圖書情報工作,2015(23):124-129.
[18]孔麗華.科學數據質量同行評議現狀[R/OL].[2017-10-05].http://ir.las.ac.cn/handle/12502/7968.
[19]屈寶強,王 凱.數據出版視角下的科學數據同行評議[J].圖書館雜志,2017,36(10):71-77.
[20]Dryad Digital Repository[EB/OL].[2017-09-03].http://datadryad.org/pages/organization.
[21]Dryad Digital Repository.Policies[EB/OL].[2017-09-02].http://datadryad.org/pages/policies.
[22]Dryad Digital Repository.Policies-Content Criteria[EB/OL].[2017-09-21].http://datadryad.org/pages/policies#content.
[23]Dryad.Policies-Curation[EB/OL].[2017-04-24].http://datadryad.org/pages/policies#curation.
[24]顧立平,茹麗潔,戚義姣,等.通用型數據知識庫案例匯編——Dryad、Figshare[EB/OL].[2017-04-24] http://ir.las.ac.cn/handle/12502/7826.
[25]ICPSR.History[EB/OL].[2017-09-22].http://www.icpsr.umich.edu/icpsrweb/content/about/history/.
[26]ICPSR.Data Management & Curation-Selection and Appraisal[EB/OL].[2017-09-29].http://www.icpsr.umich.edu/icpsrweb/content/datamanagement/lifecycle/selection.html.
[27]Qin J,Ball A,Greenberg J.Functional and Architectural Requirements for Metadata: Supporting Discovery and Management of Scientific Data[C]// Twelfth International Conference on Dublin Core and Metadata Applications.Kuching:Dublin Core Metadata Initiative,2012:62-71.
[28]ISO 15836:2009.Information and Documentation—The Dublin Core Metadata Element Set [EB/OL].[2017-10-09].https://www.iso.org/standard/52142.html.
[29]Data Documentation Initiative[EB/OL].[2017-09-03].http://www.ddialliance.org/.
[30]Federal Geographic Data Committee.National Geospatial Data Assets (NGDA) Metadata Guidelines[EB/OL].[2017-10-16].https://cms.geoplatform.gov/sites/default/files/document_library/NGDA_Metadata_Guidelines.pdf.
[31]ISO 19115-1:2014.Geographic Information—Metadata[EB/OL].[2017-10-16].https://www.iso.org/standard/53798.html.
[32]Agricultural Information Management Standards.AgMES -Agricultural Metadata Element Set[EB/OL].[2017-10-16].http://aims.fao.org/standards/agmes.
[33]Digital Curation Centre.List of Metadata Use Cases[EB/OL].[2017-10-21].http://www.dcc.ac.uk/resources/metadatastandards/use-cases.
[34]United States Geological Survey[EB/OL].[2017-09-27].https://www.usgs.gov/.
[35]United States Geological Survey.Data Management[EB/OL].[2017-09-27].https://www2.usgs.gov/datamanagement/describe/metadata.php#validating-metadata-records.
[36]USGS.Guidelines for Metadata Review of Data[EB/OL].[2017-04-20].https://www2.usgs.gov/datamanagement/documents/MetadataReviewChecklist_2014.pdf.
[37]UK Data Archive.Create & Manage Data-File Formats Table[EB/OL].[2017-04-23].http://www.data-archive.ac.uk/createmanage/format/formats-table.
[38]ICPSR.Data Management & Curation[EB/OL].[2017-09-03].http://www.icpsr.umich.edu/icpsrweb/content/datamanagement/lifecycle/ingest/enhance.html.
[39]Zenodo.General Policies[EB/OL].[2017-09-03].http://about.zenodo.org/policies/.
[40]Neumann J,Brase J.DataCite and DOI Names for Research Data[J].Journal of Computer-Aided Molecular Design,2014,28(10):1035-1041.
[41]DOI[EB/OL].[2017-09-03].http://www.doi.org/.
[42]涂 勇,彭 潔.數字對象唯一標識在中國科學數據領域中的應用研究[J].數字圖書館論壇,2013(8):31-36.
[43]DOI Registration Agencies[EB/OL].[2017-10-05].http://www.doi.org/registration_agencies.html.
[44]Loesch F M.DataCite[J].Technical Services Quarterly,2016(33):91-92.
[45]Economic and Social Research Council.Transparency of the Peer Review Process[EB/OL].[2017-04-14].http://www.esrc.ac.uk/funding/guidance-for-peer-reviewers/transparency-of-thepeer-review-process/.
[46]UK Data Archive.Create & Manage Data-Quality Assurance[EB/OL].[2017-04-23].http://www.data-archive.ac.uk/createmanage/format/quality.
[47]UK Data Archive.Create & Manage Data-Version Control &Authenticity [EB/OL].[2017-04-23].http://www.data-archive.ac.uk/create-manage/format/versions.
[48]DataONE.Best Practices[EB/OL].[2017-09-09].https://www.dataone.org/all-best-practices.
[49]Buddenbohm S,Cretin N,Dijk E,et al.State of the Art Report on Open Access Publishing of Research Data in the Humanities[R/OL].[2017-10-15].https://halshs.archives-ouvertes.fr/halshs-01357208/document.
[50]Registry of Open Access Repository[EB/OL].[2017-02-26].http://roar.eprints.org/.
[51]OpenDOAR[EB/OL].[2017-02-21].http://www.opendoar.org/.
[52]re3data.org[EB/OL].[2017-10-18].http://www.re3data.org/.
[53]FAIRSharing[EB/OL].[2017-10-18].https://fairsharing.org/.
[54]Welcome to DRAMBORA Interactive:Log in or Register to Use the Toolkit[EB/OL].[2017-02-21].http://www.repositoryaudit.eu/.
[55]About Data Seal of Approval[EB/OL].[2017-02-25].http://www.datasealofapproval.org/en/information/about/.
[56]Data Seal of Approval.The Core Trustworthy Data Repository Requirements [EB/OL].[2017-02-25] http://www.datasealofapproval.org/en/information/requirements/.
[57]DCC.Trustworthy Repositories[EB/OL].[2017-02-21].http://www.dcc.ac.uk/resources/repository-audit-and-assessment/trustworthy-repositories.
[58]DCC.Repository Audit and Assessment [EB/OL].[2017-02-21].http://www.dcc.ac.uk/resources/repository-audit-andassessment/nestor.
[59]re3data.org.EASY[EB/OL].[2017-09-28].https://www.re3data.org/repository/r3d100010214.
[60]re3data.org.Merritt[EB/OL].[2017-09-28].https://www.re3data.org/repository/r3d100010747.
[61]Data Citation Synthesis Group.Joint Declaration of Data Citation Principles[EB/OL].[2017-10-18].https://www.force11.org/group/joint-declaration-data-citation-principles-final.
[62]FORCE11.Active Menbers[EB/OL].[2017-10-20].https://www.force11.org/community/members-directory.
[63]《數據分析與知識發現》編輯部.支撐數據提交要求[EB/OL].[2017-09-03].http://manu44.magtech.com.cn/Jwk_infotech_wk3/fileup/2096-3467/NEWS/20161213090914.pdf.
[64]北京大學開放研究數據平臺簡介[EB/OL].[2017-10-21].http://opendata.pku.edu.cn/about.xhtml.
[65]中國科學數據[EB/OL].[2017-10-21].http://www.csdata.org/.
[66]中國國家標準化管理委員會.2017年第32號中國國家標準公告[EB/OL].[2018-01-20].http://www.sac.gov.cn/gzfw/ggcx/gjbzgg/201732/.