999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

德國FAKIN小型科研機構的科研數據管理方案

2020-09-03 12:34:54雷,楊
圖書館論壇 2020年9期
關鍵詞:模型

周 雷,楊 萍

隨著科學研究第四范式的到來,科研數據已成為推動科技發展、社會進步的重要戰略資源,這使得如何管理科研數據逐漸成為學術界的重要命題。近年已經產生大量研究成果:從應用場景看,主要為高校等大型科研機構;從操作視角看,主要以圖書館的科研數據管理服務為主;而面向中小型科研機構和以科研人員為視角的科研數據管理工作研究較少。德國FAKIN 小型科研機構科研數據管理方案(以下簡稱“FAKIN方案”)來自德國教研部(BMBF)最新科研數據管理項目16FDM007[1],以中小型機構科研人員日常數據管理為基礎,將日常管理所用到的科研數據整理、元數據使用、數據清理、數據出版分享等具體方法集為一體,具有較強的實踐性和應用性。本文以該項目成果為研究對象,旨在為機構科研數據管理服務提供參考。

1 文獻綜述

目前科研數據管理研究很多,主要分為3個方向。(1)以數據為主體視角的數據生命周期模型研究。數據生命周期模型是規劃監護活動并抽象描述數據監護活動各個階段的概念框架[2],如美國地質勘探局科研數據生命周期模型、英國牛津大學科研數據生命周期模型、數字監管中心監管生命周期模型[3]。各模型雖然在具體結構和細節上有所區別,但階段劃分較為類似,從機構應用角度也基本以這些成熟模型為基礎[4]。(2)以圖書館為主體視角的科研數據管理服務研究。其中,以機構政策、數據權益為代表的科研數據管理理論機制研究、以調查比較為主的科研數據管理服務實踐研究和以平臺建設為主體的科研數據管理服務應用技術研究,是目前研究的重點。(3)以專業學科領域為主體視角的科研數據管理研究,主要以學科基礎科研數據建設為主,如學科元數據標準[5]、基礎數據建設規范[6]、學科科研數據匯交方案[7]。從科研數據管理具體工作來看,科研數據管理是一項沿數據生命周期并且在周期上每個結點都有具體工作流程、數據能反復溯源的一系列操作,具體包括數據采集、清洗、元數據使用、數據管理、數據質量控制、數據出版和引用等。但從以往研究看,科研數據管理往往側重于圖書館等機構運營策略及服務的構建以及專業元數據標準的建立,而對于整體科研數據管理的具體工作方案卻較為欠缺。

2 FAKIN方案的制定背景及原則

2.1 制定背景

德國最早的科研數據政策一般認為是德國研究聯合會(DFG)1998年出臺的《確保良好科學實踐的建議》,科研數據管理最初目的是保證科學研究的嚴謹和規范[8]。隨著科技發展和信息時代到來,在開放科學推進下,科研數據有了更多用途。2010年德國科學組織聯盟(ADW)通過《科研數據處理原則》,明確科研數據不僅是良好科學實踐的保障,更對未來科學研究具有較高價值[9]。此后,眾多科研數據基礎應用項目陸續展開。2014年底,德國高校校長聯席會議(HRK)明確大學需要對科研數據進行管理[10],科研數據開始向機構層面實施推進。FAKIN科研數據管理方案也來自同期項目成果之一,制定的目的在于,科研數據管理不僅是一些大型科研機構、基礎研究所必須,也是一些規模較小科研機構提升工作連貫性、加強科研質量的要求。這些科研機構的研究往往更加具體、集中,更容易進行數據匯交和關聯,更容易體現科研數據管理對于數據價值的提升。

2.2 制定原則

FAKIN項目由柏林水技術中心有限公司(KWB)執行,始于2017年,歷時2年。制定原則為:從機構性質角度看,小型科研機構是該項目的主要服務對象。這些機構通常沒有獨立的IT部門,一般也缺少專門致力于數據管理或相關領域的員工,數據處理一般根據個人技能進行。從內容角度看,FAKIN方案是基于項目最佳實踐經驗的總結,說明項目成果對不同機構具備可復制性。因為有益的實踐可以在將來的項目中使用,甚至可以作為整個研究機構的標準,也符合當前科研數據管理自下而上制定的規律特征。從制定機構屬性看,KWB 是非營利性的水技術研究中心,2018年有員工35人,承包合同32項,總額860萬歐元,其中近40%來自德國各部委和歐盟基金項目,科研論文產出17篇[11],可見該機構具備小型科研機構的特點,主業以公共科研項目為主,實踐經驗具有普適性。

3 FAKIN方案主要內容及其結構功能特點

3.1 主要內容

FAKIN方案分為6個部分:文件夾結構、文件和文件夾命名規范、版本控制、元數據、數據處理和數據出版與分享。每部分又針對具體細節再細分[12]。從總體數據結構看,FAKIN方案將數據分為3 部分:原始數據、過程數據和結果數據,符合一般科研項目流程。從涵蓋內容看,FAKIN方案較細致和具體,如在文件命名、常用詞典、元數據使用等方面都有較為詳細的規范,易于操作,見表1。

表1 德國FAKIN方案主要內容

3.2 結構功能

科研數據管理方案的內容應該服務于方案的功能定位。首先,科研數據管理方案是科研數據管理具體工作/操作的集合,所以科研數據管理方案首先應具備全面性;其次,科研數據管理的目的是,以數據管理的形式,發現和利用數據,達到數據服務的增值、數據價值的升值,所以科研數據管理方案也應具備可溯源性和質量控制特性。

(1)全周期覆蓋。科研數據管理方案應滿足科研數據管理整個周期的工作。本文使用Wissik等提出的科研數據工作流程模型[13](以下簡稱“工作流程模型”)作為分析框架進行研究。該框架源自奧地利科研和經濟部(BMWFW)資助的“go!digital”項目,工作流程模型認為科研數據管理主要包括5 個部分,即數據預處理、數據處理、存儲、出版和復用,如圖1上半部分所示。該流程在開始階段增加兩個場景即新項目和遺留數據(項目結束后的數據,原有設計不足可能會導致這些數據丟失或無法再利用)。在FAKIN 方案中,“版本控制”為遺留數據的“免疫”提供了具體方法,“元數據”中“目的”和“一般信息”則為原始數據提供數據源、類型等靜態信息,以及允許何種操作、如何處理等動態信息,保證遺留數據在未來加工的可能性;而對于“新項目”場景——數據管理計劃,“元數據”中的“目的”“一般信息”,以及“存儲位置”“存儲格式”部分基本可以涵蓋數據管理計劃所涉及的相關信息,如項目數據如何管理、描述、分析和存儲等。此后,“預處理”階段還包括數據的獲取、建模、轉換、數字化等科研數據基本操作過程。對于這些操作過程,“文件夾結構”和“文件和文件夾命名規范”給出了科研數據結構層次和命名規則,而“數據處理”明確了數據轉換和數字化的具體辦法,“數據出版和分享”中的“文件格式”則明確了數字化文件格式。工作流程的下一階段是數據處理,包括數據分析、可視化等。其中,數據的分析、可視化,推薦使用OpenRefine,并給出了數據清洗的示例代碼,同時也推薦了其它選擇如Data Munging等。工作流程的后續步驟包括數據的存儲、出版和復用。這些部分具有較強的關聯性,而“數據出版和分享”中的“知識庫”也提供了“標識符”“許可”等一體化服務。整個流程如圖1所示。綜上可以看出,FAKIN方案涵蓋科研數據管理工作流程的主要內容,具有高度一致性。

圖1 FAKIN方案與科研數據管理工作流程的映射關系

(2)便于溯源[14]。溯源過程的通用表達模型起源于國際溯源和標注組織(IPAW)的OPM 模型,之后W3C(萬維網聯盟)針對OPM 的不當之處進行修改,開發PORV-DM模型,通過3個基本類以及7 種類間關系較好地描述了數據的流轉過程,但模型過于復雜。陳希等在其基礎上創建ProVOC模型[15],該模型較為輕量化,可以按照應用進行擴展。本研究使用該模型對FAKIN方案的溯源性進行分析。ProVOC模型有3個類:執行實體、活動和數據。“執行實體”又分為“人類執行實體”“非人類執行實體”;“活動”是由執行實體發起或受執行實體控制、影響的一個或一系列動作;“數據”包括參數和數據集,其中“參數”一般指時間、空間和條件,“數據集”指按特定應用領域進一步分解出的若干子類(特定數據集)。FAKIN方案具備ProVOC中相應的構件元素,其中“人類執行實體”為處理人,“非人類執行實體”為數據來源,“活動”則為數據處理過程。“活動”的處理限制為“控制/影響”因素,“參數”為數據的產生時間、地點等,“特定數據集”為方案中不同項目、不同階段中各子數據集。模型的交互關系共有8種,如“處理人”在“時間”/“地點”對“數據集”進行了“活動”,而對于FAKIN方案中的元素,也可以表達出該關系:“處理人”對于“數據”在“受控條件”和“參數”下進行了“活動”。

(3)多維度質量控制。數據質量被公認為是一個多維概念[16],以往研究主要涉及數據的準確性、連續性、完整性、可靠性等。張靜蓓等[17]發現數據質量控制主要涉及4個方面的內容:文件整體質量、文檔說明質量、科研數據本身質量以及源代碼質量;屈文建等[18]利用krantz 理論,構建出一套科研數據質量控制標準,并從準確性、完整性、一致性等給出了具體指標。二者雖然在構建的出發點上有所區別,前者主要從數據的組成,后者從數據的特性進行構建,但按照各自給出的具體指標,二者又較為類似。本研究將其歸并為科研數據構成(整體—文檔—數據—代碼)—特性(準確性—完整性—一致性)指標,如表2 所示。具體來看,文件整體和說明文檔主要通過“文件和文件夾命名規范”“版本控制”來保證拼寫、符號等基礎元素的準確性、一致性;通過“元數據”中的“一般信息”來保證數據處理過程、方法的完整性、準確性;科研數據及其附屬代碼的質量控制,主要通過開源的處理軟件進行保證,由于其開源特性,處理結果的偏差和代碼本身的問題都可以通過大量反復使用而不斷更正優化。

3.3 主要特點

在方案結構方面,FAKIN方案使用IPO模型(輸入—處理過程—輸出)制定文件夾結構策略。首先,IPO模型是IBM公司最早提出并用于描述過程的工具,其應用核心是描述數據處理的工作流程,與科研數據的收集—處理—輸出流程類似,可以防止文件被意外覆蓋,特別是在數據自動處理中最大程度地降低原始數據被刪除的風險;其次,IPO過程可以分為多個子過程,向下分解、向上聚集方便,有利于保持文件和文件夾的清晰組織,避免深層文件夾結構的混亂。

表2 FAKIN方案質量控制特性

在軟件工具方面,FAKIN方案使用大量開源軟件和開放科學資源,如Figshare、Pangea。在數據處理過程中,所利用的程序軟件,如R語言、OpenRefine、Github 都為開放、開源,既有利于數據的共享和再利用,又符合成果針對小型科研機構在設計中充分利用現有網絡資源的特點。同時,工具的開源特性不僅減少軟硬件投入,也便于不同類型科研人員、不同規模科研機構參與科研數據管理。

在應用操作方面,FAKIN方案為科研數據管理提供了現成的數據處理工具包,提高數據處理的便捷性。數據的收集整理是科研數據管理中最為耗時的部分,Borgman 發現數據收集處理中的工作量是數據共享的重要影響因素之一[19]。FAKIN方案提供基于R語言環境的數據收集工具包,普遍兼容常規數據采集器,同時,對于不同應用場景又可以實現二次開發,提升了收集處理數據的效率。

3.4 應用案例

FAKIN 方案的設計經驗源自項目的最佳實踐,KWB在開發過程中已經通過機構中試工廠的科研項目反復優化。在公共科研項目領域,FAKIN 方案也有了成熟的應用。例如,KWB 執行的 Flusshygiene 項目[20]和 AquaNES 項目[21]分屬德國聯邦教研部“可持續發展研究框架計劃”和歐盟“地平線2020”,是全聯邦或歐盟成員國共同參與的重大科研計劃項目,對科研數據管理有嚴格規定。特別是AquaNES 項目涉及實驗、文獻等不同類型數據,而實驗數據平行采集于4個實驗工廠,具有采集頻率和數據量不等(在50萬~1,000萬條/月)、采集裝置和應用系統也不同的特點。在該項目中,除按照FAKIN方案進行一般性數據管理外,由于IPO模型的建立原則是處理過程,實驗室數據一般來自數據記錄儀,與其他數據具有不同的處理方法,所以依照IPO模式在相應的raw data和process目錄中也分別構建相應子文件夾,并利用方案數據收集工具同時采集4處工廠的數據,效果良好。而對于科研過程中數據文件普遍過大的問題,如在利用監測數據進行廢水處理裝置生命周期評估[22]分析過程中,單個文件數據條目往往超過100萬,使用FAKIN方案中數據處理工作包也可較為輕松地進行拆分整合。這種利用IPO 模型的文件結構簡單有效,而工具包既具備較好的兼容性、二次開發特性,又能充分考慮實際應用的需要。從以上實際案例看,FAKIN方案主要應用于小型機構,其項目較為獨立,領域也偏向工程技術,基本屬于“監測數據+處理計算”的模式,具有數據來源類型相對單一,格式和結構也相對規整的特點。所以,隨著不同類型數據來源增多或是大型異構數據集出現帶來的命名沖突、結構沖突問題,可能還需要相對完善的命名規制和人工介入。

4 啟示

縱觀我國科研數據管理研究,主要從服務的范疇和任務(如內容、參與者)、治理(如機構科研數據政策)、執行(圖書館在科研數據管理服務中的作用)和實踐(科研數據管理服務平臺建設)等方面開展,并取得了大量研究成果,但具體方案卻鮮有研究。所以,以科研工作者視角開發基于良好實踐的德國FAKIN方案,不僅對我國圖書館/信息機構開展相關服務,而且對相關機構制定數據管理方案、保障科研質量都具有重要參考價值。

4.1 加強科研數據管理方案的制定

關于科研數據管理的文獻眾多,科研數據管理在設施建設、服務流程、服務項目上已經有了較為清晰的全景圖。從調查結果看,科研數據管理的大部分基礎設施已經可以滿足項目及政策的基本要求,如何應用、實施路徑已經成為科研數據管理研究的重點。而科研數據管理方案既是科研人員進行數據管理的具體工具,貫穿于整個數據生命周期,又是科研質量的保障和數據資源價值的前提。所以,圖書館和信息服務機構科研數據管理方案的建設與制定,既是服務的基礎,又是提升服務質量的有力工具。目前,數據管理計劃是科研數據管理服務的第一步。由于科研數據管理的后續步驟都包含在數據管理計劃之中,因此良好的數據管理計劃是增強數據質量、提升數據共享的基礎保障,也是后續數據存儲、組織等工作的落腳點和指南[23]。現階段,作為參與數據管理的重要工具,幾乎所有開展科研數據管理服務的圖書館都提供數據管理計劃服務[24]。所以,參考數據管理計劃進行科研數據管理方案的制定,既可以提升服務質量,又可以加深參與程度。

4.2 科研數據管理方案應注重全面性和可操作性

科研數據管理是貫穿整個數據生命周期的活動,作為活動指導的方案又需要在反復使用中不斷優化,因此全面性和可操作性是科研數據管理方案的基礎。科研數據管理的全面性包括流程和內容的完整。流程的完整要求方案涵蓋整個科研過程,內容的完整則要求方案針對過程中所有可能涉及的問題。而可操作性則是要求在全面性的基礎上,方案所給出的方式方法能被執行。FAKIN方案中,其設計來自科研流程,天然滿足了完整的科研數據管理工作流程;而從內容看,以DCC主題模板為例[25],方案涵蓋除由于其自身定位而較少涉及的政策和預算外的數據格式、數據收集、元數據、知識庫、道德隱私、知識產權、存儲安全等所有主題領域,給出的相關方法又詳細具體。而在質量控制和溯源性等方面,則通過相對簡單的結構方式來實現,易于操作實施。

4.3 科研數據管理方案應注重便捷性

簡便易行是科研人員使用科研數據管理方案的必要條件,也是提升科研數據共享程度的基礎。在科研數據管理中,文件命名的一致性、描述性質量以及文件夾目錄結構清晰程度,是避免造成文件丟失、混亂以及提升可溯源性的關鍵;而數據收集和清洗既是科研過程中最為較耗時費力的步驟,又由于存在數據格式轉換或是消除錯誤項、重復項等容易導致操作失誤的階段,也是阻礙數據分享的制約因素之一。所以,方案的制定還應著力體現在其便捷性上。在FAKIN方案采納IPO模型,文件夾管理結構清晰,且從命名規范、元數據、源代碼等方面考慮了數據的質量控制,可以有效避免產生無意義信息、錯誤描述、歧義性描述、版本混亂等常見錯誤[18]。而數據處理工具包又能在數據收集、整合階段,較好地接收采集不同數據源的數據。在清洗階段,既有常用軟件的推薦和示例,又有自開發的擴展工具。這樣,一方面降低科研人員數據處理的工作量,另一方面提高科研數據服務人員的工作效率,從而成為方案推廣和普及的另一推手。

4.4 科研數據管理方案的制定與實施應具普遍性

隨著開放科學的到來,機構數據知識庫等IT基礎設施建設成為必須的保障平臺,在re3data.org 注冊的機構數據知識庫就有 2,542 個[26]。同時,機構數據知識庫的存儲服務能力、IT支撐能力已經成為機構科研數據管理服務評價的重要指標[27]。但從FAKIN 方案看,其立足項目組成員,利用公共資源,同樣也可以建立機構內部、部門內部的科研數據管理規范。據德國同期項目調研[28],將近一半科研項目的數據量本身就在10G以內,特別是在社科領域,1G數據量內的項目約占30%,數據量規模自主可控。所以,對不同規模、不同類型的科研機構,都應建立符合自身硬件條件和學科特點的科研數據管理方案,提高科研質量,增強科研的可重復性。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 草草线在成年免费视频2| 国产电话自拍伊人| 草草影院国产第一页| 天天综合网色| 国产极品美女在线| 国产系列在线| 中字无码精油按摩中出视频| 久草视频中文| 日本欧美一二三区色视频| 中文精品久久久久国产网址 | www.国产福利| 久久婷婷综合色一区二区| 亚洲成人在线网| 国产区免费精品视频| 久久精品国产免费观看频道| 97在线观看视频免费| 亚洲一级色| 日韩黄色大片免费看| 本亚洲精品网站| 亚洲乱码在线播放| 久久综合丝袜长腿丝袜| 人与鲁专区| 亚洲专区一区二区在线观看| 制服丝袜在线视频香蕉| 亚洲日产2021三区在线| 国产黄在线免费观看| 国产成人调教在线视频| 欧美中文字幕无线码视频| 精品国产Av电影无码久久久| 在线观看国产精品日本不卡网| 先锋资源久久| 新SSS无码手机在线观看| 久久夜色撩人精品国产| 日韩精品成人网页视频在线 | 久久精品国产在热久久2019| 国产成人高精品免费视频| 91久久精品国产| 久久国产精品国产自线拍| 啪啪永久免费av| 亚洲成人在线网| 欧美成人a∨视频免费观看| 26uuu国产精品视频| 亚洲男人在线天堂| 成人在线天堂| 亚洲成人一区在线| 91 九色视频丝袜| 日韩在线观看网站| 欧美性久久久久| 九九热精品在线视频| 国产精品免费电影| 亚洲无码高清免费视频亚洲| 99精品一区二区免费视频| 97久久免费视频| 亚洲天堂网在线视频| 国产欧美专区在线观看| 99精品国产电影| 国产麻豆精品在线观看| 亚洲侵犯无码网址在线观看| 免费国产一级 片内射老| 在线毛片网站| 欧美综合区自拍亚洲综合绿色| 99re视频在线| av午夜福利一片免费看| 黄色网在线| 在线不卡免费视频| 九九热免费在线视频| 她的性爱视频| 亚洲综合亚洲国产尤物| 午夜一区二区三区| 小说区 亚洲 自拍 另类| 老司机精品久久| 欧美精品高清| www中文字幕在线观看| 久久中文无码精品| 欧美日本不卡| 欧美日韩午夜| 国产欧美网站| 高清久久精品亚洲日韩Av| 国产高清精品在线91| 国产成人精品一区二区免费看京| 久久久久亚洲Av片无码观看| 国产女人18水真多毛片18精品|