王舒 黃國彬
探索與交流
國外科學數據倉儲的數據出版流程研究
王舒1黃國彬2
(1. 山西財經大學圖書館,太原 030006;2. 北京師范大學政府管理學院,北京 100875)
科學數據倉儲是未來科學數據出版的主導性媒介之一。本文以數據出版流程為切入點,從數據提交、數據存儲、數據審核和數據發布4個方面對科學數據倉儲的出版功能進行分析,試圖為規范科學數據倉儲的出版功能提供建議:建立以自助提交為主的提交模式,制定本倉儲科學數據質量審核標準,施行自動審核與人工審核并行的質量審核方式,采用多渠道發布數據集,為數據集提供數字對象唯一標識符。
科學數據倉儲;出版流程;科學數據;數據出版
隨著計算機技術和互聯網技術在科技活動中的廣泛應用,使得科學數據以驚人的速度增長,已成為當下增速最快的資源。與此同時,隨著數據密集型科研范式的興起,科學數據已經由科學研究的起點和基礎發展成為科研活動的牽引力之一。面對上述情況,如何對科學數據進行有效的組織、共享和利用,成為科學界共同關注的熱點問題。而科學數據出版被認為是有效解決這一問題的重要手段。2018年國務院辦公廳出臺的《科學數據管理辦法》指出“主管部門和法人單位應積極推動科學數據出版和傳播工作,支持科研人員整理發表產權清晰、準確完整、共享價值高的科學數據”。但截至目前,學術界對科學數據出版的定義還沒有統一。筆者認為,科學數據出版是學術出版的一種,在將科學數據公之于眾之前,需要對其質量進行審核,使發布的科學數據達到可發現、可獲取、可理解和可追溯的狀態。但與學術出版不同的是,科學數據只能通過網絡出版,因此,科學數據倉儲作為依托數字技術和網絡技術建立的采集、保存、管理與發布科學數據的平臺,在科學數據出版中顯得尤為重要。基于此,本文以科學數據倉儲為研究對象,對其出版流程進行剖析,總結科學數據倉儲在出版科學數據中的經驗,為科學數據倉儲的功能設計者提供參考。
近年來,國內外學者對科學數據出版的研究,可以歸納為3個方面。①對科學數據出版模式的研究。黃國彬等[1]從科學數據的產生情形,將科學數據出版模式歸納為科學數據集成出版與獨立出版兩種模式;張靜蓓等[2]基于科學數據出版的國內外實踐與研究現狀,提出4種出版模式,包括數據獨立出版、數據論文出版、期刊與指定數據倉儲合作出版及期刊自行出版;涂志芳[3]認為雖然劃分維度不同、模式名稱表述存在差異,但仍然在一定程度上達成了共識,即作為論文附件的數據出版、獨立的數據出版和數據論文3種模式。②對科學數據倉儲的研究。科學數據倉儲即科學數據的發布平臺,大多數學者選取國內外典型的科學數據出版平臺對其功能進行研究,國外學者多以某一個具體的科學數據倉儲為例開展研究,如Roman等[4]介紹了科學數據倉儲Data Graft數據轉換、發布和托管功能等功能;Brase等[5]研討了以世界數據中心(World Data Centers)的數據出版實踐。而國內學者多選擇國內外多個典型的數據倉儲為樣本進行分析。如秦順等[6]選取歐美地區14個科學數據出版平臺,從科學數據出版政策或愿景,科學數據整合、標識與交互,科學數據出版與分發,科學數據引用,數據生命周期管理與出版質量控制5個方面進行分析;張玲玲等[7]選取中美具有代表性的8個地理科學數據倉儲,從數據提交、同行評審、數據發布和永久存儲、數據引用以及影響評價5個基本環節進行調研分析。屈寶強等[8]探討了當前科學數據發布平臺中存在的用戶黏合度不高等問題。③對科學數據出版流程中的具體環節進行研究。如王丹丹等[9]對不同出版模式下的科學數據質量審核的實踐、標準進行對比分析;李曉蕾等[10]對地質領域的科學數據的質量控制措施和公開化審查進行了分析。涂志芳等[11-12]認為科學數據倉儲在數據出版過程中的質量控制實踐還未成熟,我國數據知識庫仍存在高度依賴計算機的輔助,可持續發展機制尚不成熟等問題。此外,有學者認為為科學數據分配數字對象唯一標識符(DOI)是科學數據出版的重要環節。吳立宗等[13]總結了DOI在數據出版領域的意義,并討論它在數據出版與引用方面的不足。
綜上所述,現有研究已取得了一定的進展,學者從不同角度對科學數據出版模式進行劃分與研究,充分承認科學數據倉儲在數據出版過程中的重要性,同時剖析科學數據倉儲的功能、服務與存在的問題,對科學數據出版流程中的質量審核環節進行深入研究,但目前還沒有學者對科學數據倉儲的出版流程進行深入分析,尤其是沒有涉及存儲過程、發布時間、發布渠道等細節。因此,本文從數據出版流程的角度,對科學數據倉儲的出版功能進行調研與分析。
科學數據倉儲的數據出版功能是其面對數據生產者而設計的,實現該功能的內在邏輯是科學數據出版的流程,包括數據提交、數據存儲、數據審核和數據發布。
科學數據的提交方式主要有兩種。一種是數據生產者自助提交。在開放獲取潮流和數據共享理念的影響下,該模式成為科學數據出版中數據來源的主流渠道。另一種是工作人員協助提交。如美國高校社會科學聯合會數據倉儲(Inter-university Consortium for Political and Social Research,ICPSR)通過定期審查聯邦資助機構數據庫、學術期刊,關注專業的科學會議、參考會員機構和本機構工作人員建議等渠道收集數據。
2.1.1 數據生產者自助提交
數據生產者自助提交是由數據生產者本人將數據集存入科學數據倉儲。數據提交的具體操作由數據生產者獨立完成,但需要科學數據倉儲提供完成數據提交所須的基礎設施——在線提交平臺和提交指南。
目前科學數據倉儲提供的在線存儲平臺主要有兩種。一是基于開源軟件開發的存儲平臺,一部分是依托現有開源軟件開發而成,如Dryad數據倉儲、愛丁堡大學的DataShare等是基于開源軟件DSpace開發而成;哈佛大學的Harvard Dataverse是基于開源軟件Dataverse開發而成;另一部分是自建形成的開源軟件平臺,如Figshare均允許科研機構和出版機構在其基礎上進行二次開發。二是由科學數據倉儲自主開發的存儲平臺,他人無法在此基礎上進行二次開發,如社會科學領域的英國數據存檔(UK Data Archive,UKDA)、ICPSR、英國考古數據服務(Archaeology Data Service,ADS),地理環境科學領域的地球與環境數據出版平臺(PANGAEA Data Publisher for Earth & Environmental Science,PANGAEA)、澳大利亞海洋數據網(Australian Ocean Data NetworkPortal,AODN Portal)、美國冰雪數據中心(National Snow & Ice Data Center,NSIDC),生物醫學領域的ArrayExpress,化學物理領域的PubChem、劍橋晶體數據中心(Cambridge Crystallographic Data Centre,CCDC)等都根據本倉儲的實際需求自主開發而成。然而,無論是自主開發的存儲平臺,還是基于開源軟件二次開發的存儲平臺,都需要在提交指南的指導下使用。
編制提交指南,是科學數據倉儲為數據生產者提供的另一個基礎設施,通常與在線提交平臺配合使用;是為了使數據生產者在自助提交數據時更好地使用在線提交平臺。指南通常包括4個部分,即提交原因、提交準備、提交流程以及提交后對數據集的處理。其中,“提交原因”是幫助用戶理解為什么使用該倉儲,以及將數據集存儲入該倉儲的益處;“提交準備”旨在幫助用戶在提交前準備數據集,包括描述數據集、規范數據集格式、剔除數據集中隱私數據等;“提交流程”是存儲指南的核心內容,旨在幫助用戶使用在線提交平臺;而“提交后對數據集的處理”是存儲服務的后續工作,通常是指人工質量審核等。此外,存儲指南的格式包括HTML、PDF、Video等。
2.1.2 工作人員協助提交
協助提交也是科學數據倉儲常用的方式之一,即由科學數據倉儲的工作人員協助數據生產者將科學數據存入倉儲中。工作人員通常需要對科學數據進行評估以判斷是否適合本倉儲,對科學數據進行格式化調整以利于提交或保存,幫助數據生產者將數據上傳至倉儲。可將協助的環節分為評估環節、準備環節和提交環節。
評估環節是指工作人員依據一定的標準評估數據集是否適合或值得納入該倉儲。如英國環境數據分析中心數據倉儲(Centre for Environmental Data Analysis-archive,CEDA)的評估環節由倉儲工作人員依據“NERC數據價值清單”對科學數據的存儲價值進行評估,包括科學數據的質量、完整性、原創性等,以評估數據集是否適合存儲入該倉儲中;若不適合,還會給出其他推薦的存儲位置,如英國國家環境理事會(the Natural Environment Research Council,NERC)資助的其他科學數據倉儲等[14]。又如癌癥圖片數據倉儲(the Cancer Imaging Archive,TCIA),要求數據貢獻者向TCIA提交數據存儲申請,由其顧問小組(TCIA Advisory Group)進行審查,該小組由癌癥成像和相關技術專家組成,每月審查一次數據提交申請,TCIA顧問小組依據審查標準和資源的可用性審查每個候選集合,并決定是否接受/拒絕或要求重新提交申請[15]。
準備環節是指數據集提交前所做的準備,包括制訂數據提交計劃、對數據集進行描述、規范數據集格式、確定數據集獲取級別和使用條件、確定傳遞方式等。提供數據準備方面協助的科學數據倉儲較多,如UKDA工作人員協助制訂數據提交計劃、確定數據獲取級別和使用條件[16]。澳大利亞數據存檔(the Australian Data Archive,ADA)由工作人員根據用戶填寫的數據集存儲表和提供的相關文檔(問卷、技術報告、相關出版物,以及其他有助于研究人員分析和理解數據的材料),對數據集進行描述[17]。ADS要求用戶在提交數據前通過郵件或電話聯系ADS數字存儲管理員以確定數據傳遞方式等[18]。TCIA的審核人員協助用戶對數據集進行去標識化處理與描述,確保數據使用者無法通過數據中包含的信息識別出被試人員,并與數據提交者一起創建數據集摘要。
①直接由工作人員完成科學數據提交,即要求科學數據貢獻者通過一定的方式將數據集傳遞給倉儲工作人員,再由工作人員將科學數據集存入科學數據倉儲。如UKDA由數據貢獻者通過埃塞克斯大學ZendTo服務(郵件)、郵遞或者親自遞送的方式傳送數據,由工作人員存入倉儲;ADA要求數據貢獻者通過郵寄、郵件等方式將數據集傳遞給工作人員后,再由工作人員將其存入倉儲;ADS要求通過CD-ROM、便攜式硬盤、電子郵件和云服務等方式傳遞數據,最終由工作人員存儲數據集;CEDA根據數據集大小和復雜程度向用戶提供不同的傳遞數據集的方式,最終由工作人員將數據集存儲到倉儲中;BioGRID[19]要求數據貢獻者通過郵件向倉儲工作人員發送一個包含科學數據的表格或純文本文件,之后由工作人員將數據納入BioGRIO;GenBank要求數據貢獻者使用提交工具(Sequin、tbl2asn)對數據集進行格式化后,再由數據存儲者通過郵件(或SequinMacroSend)將數據集發送給工作人員,由工作人員將數據集存儲至倉儲[20]。由上述案例可知,雖然每個倉儲要求的傳遞數據集的方式不同,但最終數據集的提交均由科學數據倉儲的工作人員完成。②工作人員幫助數據貢獻者提交數據集。如ICPSR通過可移動介質(CD-ROM或DVD)將數據攜帶至物理提交場所,在工作人員幫助下將數據集復制到安全位置[21]。dbGaP要求數據提交者通過郵件與倉儲工作人員聯系,工作人員將提交鏈接發送給數據存儲者,由數據提交者上傳數據集[22]。③根據數據集大小、類型等因素提供不同的存儲服務。如UKDA根據數據集大小來確定存儲方式。科研人員的科學數據集,通常數據集較小,需采用自助存儲方式,通過在線提交平臺為ReShare存儲數據;而大型調查項目或系列調查項目產生的數據集,通常數據集較大,因此需要倉儲工作人員協助存儲,倉儲工作人員會依據相關政策對數據集進行評估,通過后,將其存入倉儲[23]。
2.2.1 數據存儲格式
安全、可靠、高效的科學數據存儲環境是科學數據倉儲穩定運行和持續服務的前提。經數據生產者自助提交或由科學數據倉儲工作人員協助提交后,科學數據倉儲需要對各類科學數據,通過相關的科學數據元數據框架,對科學數據進行描述、標引、分類和存儲,以便為后續的科學數據檢索與發現、科學數據的發布與引用、科學數據的分析與挖掘提供支撐。
科學數據倉儲會以主題進行聚類,而主題聚類的維度,主要包括基于學科專業領域(物理、天文、地理等)、基于實驗環境與科學數據創建方式(如實驗獲得、觀測獲得等)、基于科學數據的表現形式(如文本型、數據型等)等;同時,在存儲格式上進行統一部署,包括:①針對以文本/電子表格格式呈現的科學數據,其可選用的存儲格式有doc、docx、dot、rtf、txt、pdf、xls、xlsx;②針對以圖形格式呈現的科學數據,其可選用的存儲格式有bmp、jpg、jpeg、png、gif;③針對以結構繪圖數據格式呈現的科學數據,其可選用的存儲格式有cdx、c3d、cwg、csml、skc、xyz;④針對以音頻格式呈現的科學數據,其可選用的存儲格式有wav、pcm、tta、flac、au、ape、tak、wv、mp3、wma、ogg、aac;⑤針對以動畫格式呈現的科學數據,其可選用的存儲格式有avi、rmvb、rm、asf、divx、mpg、mpeg、mpe、wmv、mp4、mkv、vob、mov、flv、swf。
而在科學數據的存儲方面,目前的科學數據倉儲主要采用兩種存儲模式,即基于云端的科學數據存儲以及基于本地的科學數據存儲。從安全性來看,這兩種存儲模式各有利弊,需要科學數據倉儲運行者根據自身的技術條件、服務對象、資金支持等進行綜合權衡。對于科學數據生產者而言,如何選擇一家可靠的科學數據倉儲提供機構,對其后續在科學數據的管理與維護、傳播與利用等方面,也是較為關鍵的一個問題。
2.2.2 數據唯一標識符
科學數據的科學合理組織與存儲是實現科學數據被高效檢索發現、進而被廣泛引用與重用的基礎。通過可靠的規則,賦予科學數據DOI,是實現科學數據后續開發與利用的關鍵一環。
數據唯一標識符是科學數據倉儲賦予即將發布的科學數據的數字資源唯一標識,用于科學數據引用和重用,主要包括但不限于:DataCite為所有數字資源提供的DOI、個別科學數據倉儲提供的入庫編號、統一資源定位符(URL)等。其中DOI是最重要和常見用于科學數據引用的唯一標識,不僅能夠唯一標識數字資源,還能形成鏈接形式,直接鏈接到數據集內容頁面。而個別科學數據倉儲提供的入庫編號,雖然能唯一標識科學數據,但使用范圍局限于本倉儲內部,且不能形成鏈接的形式。這種唯一標識符常出現于學科科學數據倉儲中,如dbGaP、ArrayExpress、CCDC。以CCDC為例對倉儲編號進行說明:在數據提交3個工作日內,一個7位數的編號(CCDC4367857)會通過郵件發送給提交者,并確保通過這一編號,實現該科學數據與對其加以引用的期刊論文建立關聯;該編號也可用于倉儲中數據查詢。URL是對可以從互聯網上得到的資源位置和訪問方法的一種簡潔的表示,是互聯網上標準資源的地址[24]。對于科學數據引用,該URL通常指向科學數據的內容頁面。雖然點擊URL,頁面能直接跳轉至數據集內容頁面,但其長期穩定性遠不如DOI。
數據審核是科學數據出版的核心環節,不同科學數據的審核方式、內容、時間各不相同。
2.3.1 審核方式
目前科學數據倉儲在開展數據出版服務過程中,對出版的數據集審核方式主要有人工審核與自動審核兩種。人工審核是指科學數據倉儲成立專門的質量審核工作組或安排專門的質量審核工作人員,在數據集提交前后對數據質量進行審核,如ADS成立數據評估工作組(Collections Evaluation Working Group)對數據質量進行審核;而PANGAEA會安排數據編輯(Data Editorial)來開展審核工作。自動審核是指在數據提交過程中,數據存儲系統或集成到系統中的校驗工具對上傳的數據集質量進行審核。如Harvard Dataverse在數據提交過程中,由提交系統自動對數據集的格式、元數據進行審核,以確認數據集的運行狀況和元數據的完整性。
2.3.2 審核內容
質量審核的內容包括數據集本身及其元數據。數據集質量包括技術質量與科學質量。
技術質量是指數據集本身的完整性、描述的充分性,對于含有個人隱私數據的科學數據,技術質量還包括數據集是否去標識化;而科學質量是指數據集收集方法的評價、科學數據的合理性和再使用的價值。目前科學數據倉儲對數據集本身的質量審核側重技術質量。如PANGAEA直接明確數據集的科學質量由數據提交者負責,而倉儲只負責審核科學數據的技術質量,主要包括數據集格式的正確性、數據集內容的完整性等[25]。Figshare系統自動對上傳數據集的完整性進行審核,數據集的科學質量由數據貢獻者負責,但若數據集涉及侵權(隱私權、知識產權)行為,該倉儲有權刪除[26]。dbGaP[22]和CCDC[27]都由系統對上傳的數據集進行審核以保證數據集正確、完整地上傳至存儲空間,同時檢查報告可供用戶下載。
科學質量的審核主要有兩種情況。一種是由科學數據倉儲進行審核。如UKDA、ICPSR對數據集的內部質量進行審核,如對變量名稱與變量值進行審查,對隨機樣本、均值方差、異常值進行檢測等。NSIDC對于不同資助機構資助的科研項目產生的數據集的審核內容不同,其中,對由NASA資助產生的科學數據,審查內容包括科學價值、唯一性、歸檔和分發的成本等[28]。另一種是邀請外部人員對科學數據集的質量進行評審,外部人員是相對于倉儲的工作人員而言,具體包括期刊論文的評審專家、數據使用者。例如Dryad,其合作期刊的同行評議人員在論文質量審核過程中對數據集的科學數據質量審核;BioGRID允許數據使用者指出數據集的錯誤,包括科學性方面的錯誤,并為用戶提供專門的渠道來上報錯誤信息[29]。
此外,由于科學數據與學術論文、科技報告、科技圖書等傳統的科學文獻不同,從形式來看可能是一組觀測數值、實驗數據記錄、問卷數據或者一段計算機代碼。如果不對其變量含義、產生背景、獲取方法等進行描述,則無法掌握科學數據的具體含義。因此,除了對數據集本身進行審核外,還需對元數據進行審核。審核內容包括以下3點:①是否符合元數據標準,如ICPSR審核其數據集的元數據是否符合DDI元數據標準[30];②是否與數據集信息相一致,如PANGAEA對元數據內容與數據集的一致性進行審查;③元數據字段是否完整,如ArrayExpress審核元數據是否缺少公開發布日期、用于測序實驗的協議等[31]。
2.3.3 審核時間
質量審核的時間包括數據集提交前、數據集提交中與數據集提交后。具體選擇在何時進行質量審核,與審核的方式密切相關。通常,自動審核發生在數據集提交過程中,這是由于在線提交系統往往自帶審核功能或集成審核工具,如Harvard Dataverse的在線提交系統具有對數據集校驗的功能,CCDC數據提交系統中集成了checkCIF/PLATON等工具供數據提交者對數據集進行校驗。人工審核通常發生在數據提交前或數據提交后,通常數據提交前,工作人員對數據集內容是否適合該倉儲、是否具有再利用價值等進行審核。例如,ADS在數據提交前,對數據集的再利用價值進行評估;而數據提交后,工作人員對數據集的格式、數據集及其元數據的一致性、完整性進行審核,如PANGAEA在數據提交后,對元數據和數據的完整性、一致性進行審核。
2.4.1 發布渠道
數據出版的最終實現,是通過一定的渠道將其發布出來。不同科學數據倉儲,數據集發布渠道不同。目前科學數據倉儲的數據發布渠道包括本倉儲的數據目錄、相關期刊論文和集成數據目錄。其中,本倉儲的數據目錄是主要的發布渠道,發布的信息一般包括數據集本身、元數據信息和使用許可協議。值得注意的是,不同的數據倉儲其元數據的詳略程度不同。通常情況下,專業型科學數據倉儲的元數據信息較通用型科學數據倉儲的元數據信息更加詳細。
對有來源文獻的科學數據,科學數據倉儲通常將期刊論文作為發布數據的補充渠道。來源文獻中需要注明數據集的存儲地址和訪問方式,以此來發布科學數據。如PANGAEA,其Web服務允許在論文頁面上動態地嵌入數據信息。在這種方式下,來源文獻可以幫助用戶更好地理解數據集。
此外,集成目錄也是科學數據倉儲發布數據集的渠道之一,如CEDA允許科學數據的元數據被NERC的數據目錄(NERC Data Catalogue)收割;EIDC允許科學數據的元數據被英國政府數據門戶(data.gov.uk)和歐洲INSPIRE門戶(EU INSPIRE portal)收割。通過集成目錄發布數據集的元數據,是科學數據倉儲的擴展發布渠道,增加了數據集被發現的可能性。
2.4.2 發布時間
不同科學數據倉儲對科學數據的發布時間規定不同。原則上,科學數據倉儲鼓勵和允許數據集在提交、審核后盡快發布。但允許在下列情況下,由科學數據提交者決定是否延遲發布,并且大多數科學數據倉儲規定了延遲期限。
(1)將科學數據集的發布時間延遲至期刊論文見刊時間。通常在該情況下,數據集與其支撐的論文相伴而生,科研人員將論文提交至期刊,同時將支撐論文結論的數據提交至科學數據倉儲,為保護論文作者的知識產權和期刊出版商的利益,科學數據倉儲允許在論文見刊之時,再公開發布數據集。如在數據集提交至倉儲中到來源文獻見刊這段時間內,PANGAEA允許數據集預發布,意味著僅有作者和期刊論文的審核者通過密碼訪問該數據集,一旦期刊論文見刊,則數據集的狀態由預發布改為正式發布。而Dryad允許數據集在期刊論文發表1年以后再發布,但前提是需要期刊編輯或出版商向本倉儲提供書面協議。
(2)因包含敏感信息而延遲發布。對于以人體為研究對象的學科,其科學數據集通常會涉及被試個人信息。對于被試個人信息等敏感信息的處理,有些倉儲實行匿名化處理后,即可進行發布;但有些倉儲會因包含敏感信息而延遲發布,如對于因包含敏感信息而延遲發布的數據集,ADS會延遲發布時間長達70年。
(3)因資助機構要求而延遲發布。資助機構為保證研究者的利益,通常允許科學數據在產生2年后再發布。有些科學數據倉儲為響應資助機構的要求,允許數據集提交至本倉儲2年后再公開發布,如CEDA和EIDC,對于NERC資助項目產生的數據集,可以允許2年后公布。
(4)由數據提交者決定科學數據發布時間。如Harvard Dataverse為每個數據提交者提供用戶個人空間(My Data),數據提交者可以將數據提交至此空間,具體何時發布數據集,由其自主決定。而ArrayExpress會在數據集發布的前60天、30天和7天通過郵件提醒數據提交者,數據提交者可對數據發布時間進行更改。
科學數據倉儲是科學數據出版的主導性媒介之一,調研國外各領域科學數據倉儲的出版功能,并從出版流程的角度進行分析,總結出最佳實踐,為科學數據倉儲的建設者和功能設計者提供參考。①建立以自助提交為主,協助提交為輔的提交機制。在網絡環境下,受開放獲取潮流的影響,科研人員更習慣以自助方式將科學數據提交至倉儲以備出版。僅當數據集文件過大或遇特殊情況時,需要由專門的工作人員協助提交。該提交機制可實現全天候24小時不間斷服務,減輕工作人員的重復性勞動,為科學數據倉儲節約人力成本和提高服務效率。②制定科學數據及元數據質量審核標準,保證其出版科學數據的內容完整、描述充分、格式適用性強。③設置專門的質量審核崗位,搭建質量審核系統,形成人工審核與系統自動審核相結合的方式,針對科學數據及元數據不同的審核內容,靈活采用適當的審核方式。④采用多渠道發布數據。科學數據倉儲應盡可能多地擴展發布渠道,以增加科學數據被發現的可能性。科學數據倉儲應開放元數據,允許被各大數據庫搜索進而收割元數據,或主動提供元數據。此外,數據倉儲還應明確要求數據使用者,在使用本倉儲的數據所產生的學術出版物中引用該數據,并注明數據集的存儲地址和訪問方式。⑤分配數字對象唯一標識符。科學數據倉儲應為每個數據集提供DOI,使數據集實現永久追溯,同時有助于學者引用該數據集。
[1] 黃國彬,王舒. 科學數據出版模式比較研究[J]. 大學圖書館學報,2018(1):33-40.
[2] 張靜蓓,任樹懷. 科研數據出版模式、流程及引用策略研究[J]. 圖書情報工作,2015,59(9):21-27.
[3] 涂志芳. 科學數據出版生態系統與質量控制體系構建[J]. 圖書與情報,2019(1):125-134.
[4] ROMAN D,DIMITROV M,NIKOLOV N,et al. Datagraft:simplifying open data publishing[C]//European Semantic Web Conference:The Semantic Web. Berlin:Springer,2016:101-106.
[5] BRASE J,SCHINDLER U. The publication of scientific data by World Data Centers and the National Library of Science and Technology in Germany[J]. Data Science Journal,2006(5):205-208.
[6] 秦順,汪全莉,邢文明. 歐美科學數據開放存取出版平臺服務調研及啟示[J]. 圖書情報工作,2019,63(13):129-136.
[7] 張玲玲,陳媛媛. 中美地理科學數據出版平臺研究[J]. 數字圖書館論壇,2020(10):67-72.
[8] 屈寶強,宋立榮,王健. 開放共享視角下科學數據出版的發展趨勢[J]. 中國科技期刊研究,2019,30(4):329-335.
[9] 王丹丹. 科學數據出版過程中的數據質量控制[J]. 圖書情報工作,2015,59(23):124-129.
[10] 李曉蕾,齊釩宇,孟潔,等. 地質科學數據出版的質量控制及公開化審查研究[J]. 中國礦業,2019,28(6):65-68.
[11] 涂志芳,劉茲恒. 我國多學科領域數據出版質量控制最佳實踐研究[J]. 圖書館雜志,2020,39(9):70-77.
[12] 涂志芳,劉茲恒. 國外數據知識庫模式的數據出版質量控制實踐研究[J]. 圖書館建設,2018(3):5-13.
[13] 吳立宗,王亮緒,南卓銅,等. 科學數據出版現狀及其體系框架[J]. 遙感技術與應用,2013,28(3):383-390.
[14] CEDA. Steps to archiving data with CEDA[EB/OL].[2021-01-04]. https://help.ceda.ac.uk/article/138-steps-to-archiving-data-with-ceda.
[15] TCIA. Starting the submission process[EB/OL].[2020-12-04]. http://www.cancerimagingarchive.net/primary-data/.
[16] UKDA. What you need to know to deliver a dataset[EB/OL].[2021-01-04]. https://www.ukdataservice.ac.uk/deposit-data/how-to/regular-depositors/deposit.
[17] ADA. How To Deposit Data[EB/OL].[2021-01-04]. https://www.ada.edu.au/ada/how-to-deposit-data.
[18] ADS. Guideline for Depositors[EB/OL].[2021-01-04]. http://archaeologydataservice.ac.uk/advice/DepositingData.xhtml#How%20to%20Deposit.
[19] BioGRID. Contact Us/Send Us Your Data[EB/OL].[2021-01-04]. https://wiki.thebiogrid.org/doku.php/contribute.
[20] Submitting Sequences using Specific NCBI Submission Tools[EB/OL].[2021-01-04]. https://www.ncbi.nlm.nih.gov/books/NBK53709/.
[21] ICPSR. ICPSR:A Case Study in Repository Management[EB/OL].[2021-01-04]. https://www.icpsr.umich.edu/icpsrweb/content/datamanagement/lifecycle/ingest/index.html#receipt.
[22] dbGaP submission process[EB/OL].[2021-01-04]. https://www.ncbi.nlm.nih.gov/projects/gap/cgi-bin/GetPdf.cgi?document_name=HowToSubmit.pdf.
[23] UKDA. How to deposit[EB/OL].[2021-01-04]. https://www.ukdataservice.ac.uk/deposit-data/how-to.
[24] 百度百科. URL[EB/OL].[2021-01-08]. https://baike.baidu.com/item/url/110640?fr=aladdin.
[25] PANGAEA. Benefits and Details[EB/OL].[2021-01-04]. https://www.pangaea.de/submit/.
[26] Figshare. Data Integrity and Authenticity Policy[EB/OL].[2021-01-04]. https://knowledge.figshare.com/articles/item/data-integrity-and-authenticity-policy.
[27] CCDC. Step 4:Validation[EB/OL].[2021-01-06]. https://www.ccdc.cam.ac.uk/Community/depositastructure/structuredepositioninformation/.
[28] WEAVER R,DUERR R. Data Acceptance Plan[EB/OL].[2021-01-06]. https://nsidc.org/sites/nsidc.org/files/files/data/daac/daac_data_policy_v09-1.pdf.
[29] BioGRID. Point out any Errors/Corrections to our Existing Data[EB/OL].[2021-01-06]. https://wiki.thebiogrid.org/doku.php/contribute#point_out_any_errors_corrections_to_our_existing_data.
[30] ICPSR. Details on Appraisal Critera[EB/OL].[2021-01-06]. https://www.icpsr.umich.edu/icpsrweb/content/datamanagement/lifecycle/details.html.
[31] ArrayExpress. Review by ArrayExpress curators[EB/OL].[2021-01-06]. https://www.ebi.ac.uk/fg/annotare/help/submit_exp.html.
Foreign Research on Data Publishing Process of Scientific Data Repository
WANG Shu1HUANG GuoBin2
( 1. Shanxi University of Finance and Economics Library, Taiyuan 030006, China;2. The School of Government, Beijing Normal University, Beijing 100875, China )
Scientific data repository is one of the leading media of scientific data publishing in the future. Based on the data publishing process, this paper analyzes the publishing of scientific data repository from three aspects: data submission, data storage, quality review, data release, and attempts to provide suggestions for standardizing the publishing function of scientific data repository: establishing the submission mode based on self-service delivery, formulating the quality review standard of scientific data repository, and implementing automatic audit in parallel with manual review, releasing data sets through multiple channels, and providing digital resource unique identifier for data sets.
Scientific Data Repository; Publishing Process; Scientific Data; Data Publishing
G250
10.3772/j.issn.1673-2286.2021.01.009
王舒,黃國彬. 國外科學數據倉儲的數據出版流程研究[J]. 數字圖書館論壇,2021(1):60-66.
王舒,女,1992年生,碩士,助理館員,研究方向:數字資源建設,E-mail:bnuwangshu2018@163.com。
黃國彬,男,1979年生,博士,副教授,研究方向:信息法學、信息分析。
(收稿日期:2021-01-08)