999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Data One項目及其對我國數據監管工作的啟示

2014-04-29 00:00:00許鑫劉甜于霜
圖書與情報 2014年6期

摘 要:文章通過對Data One項目完善的基礎架構、強大的工具包、高效的組織架構和分工明確的工作小組的分析與研究,總結出了實施數據監管的關鍵流程:構建數據監管基礎架構、制定數據管理計劃、選擇元數據標準、規范與統一數據、數據存儲與歸檔,最后借鑒國外諸多的研究對國內的數據監管服務提出了相應的推進策略。

關鍵詞:數據監管 Data One 科研數據

中圖分類號: G202 "文獻標識碼: A " 文章編號: 1003-6938(2014)06-0109-08

Revelation of Data One Project for Data Curation in China

Abstract Through the analysis on the perfect Infrastructure, the powerful toolkit, the efficient organization, and the clear division of the working group of Data One project, the authors summarize a set of key processes for data curation: building the infrastructure for data curation,making the data management plan,selecting the standards for metadata, standardizing and unifying data, "storing and archiving data. Promoting strategies for data curation service are put forward according to the studies abroad.

Key words data curation; data one; research data

對科學數據的收集、整理、評估、存儲工作既是科學數據再利用和共享的基礎,也是數據監管工作的重點關注所在。在各類科研數據監管項目中,Data One(Data Observation Network for Earth,地球觀測數據網)項目備受矚目,其作為DataNets項目的一部分,得到了美國國家科學基金會(NSF)的資助。Data One項目的目標是廣泛收集、存儲地球和環境有關的數據,在為眾多科研人員了解、接受、使用的基礎上,普及地球和環境數據,創造新的科學和知識。本文在了解Data One項目基礎架構、工具包、組織架構和工作小組基礎上,歸納總結了數據監管的關鍵流程,探討分析了國內數據監管的推進策略。

1 Data One基礎架構及研究工具包

Data One項目擁有分布式基礎架構(當前有12個成員節點和3個協調節點)和一系列的技術支持,這使得不同國家、不同學科和不同規模的觀測數據均可以被長期存儲、檢索和共享(Data One項目的基礎架構和研究工具包見圖1)。

目前,Data One在全球擁有12個成員節點,而且這個數字還會隨著Data One的發展而進一步增加。成員節點是以數據保存為導向的存儲庫,其通過Data One的服務規程或者成員節點API為科研人員提供數據產品。在成為成員節點后,本地存儲的數據集容易被更廣泛的受眾發現,也能為更廣泛的分析工具所用,在此基礎上科研人員發布的數據也更容易被引用,進而增加研究工作的價值。Data One也可以通過高效的、定制的方式將本地數據集復制到另一個Data One成員節點上,這樣會增大副本的可獲取性,服務全球社區的聯系成本也會降低,數據可用性的提高增加了科研人員之間合作的機會。

Data One 當前還建設有3個協調節點,分別位于橡樹嶺大學、加州大學圣塔芭芭拉分校和新墨西哥大學,這些協調節點提供廣泛的網絡服務,支持發現、索引、復制以提升成員節點間的互操作性。協調節點通過提供成員節點的數據目錄,使各地的科學家們都能夠很容易地發現數據,也使得整個Data One網絡的數據和服務更廣泛地被國際社會認可。

Data One研究工具包是一系列軟件工具的集合,用以發現和使用數據。有些工具是直接為Data One定制開發的,有些工具被改寫以適應Data One的應用程序接口,還有些工具本身提供接口定義可以為Data One所調用,當前的主要研究工具有11種[1],其中包括:

(1)ONEMercury。ONEMercury是一個基于Web的工具,被用來搜索Data One成員節點中的數據,是目前Data One項目主要的線上數據發現入口,其基于美國宇航局、美國能源部、美國地質調查局聯合研發的Mercury工具集,并進行了改編。ONEMercury采用了復雜的跨度對象標簽,可以將搜索結果加載到文獻管理工具中去,比如Zotero、Mendeley等。

(2)DataUp。DataUp有網絡版和插件版兩種版本,前者允許用戶通過它上傳自己的數據表格, Excel 格式或是CSV 格式都是被允許的,后者可以直接安裝到Microsoft Excel 中,兩者都具有發布元數據和數據、創建標準化元數據向導模板、尋找唯一標示符、數據格式化檢測等功能。

(3)DMP。DMP是Data One數據管理計劃工具(Data Management Planning Tool)的簡寫,是一款開源軟件,基于此軟件可以很容易地配置目標研究機構和數據管理政策信息,進而制定出符合政策要求和實際數據情況的管理計劃。科研人員可以利用它制定數據管理計劃,機構也能通過該工具為用戶提供數據監管的政策信息,這有利于促進科研人員、資助機構、圖書館和計算機部門之間的合作[2]。

(4)ONER(Data One R客戶端)。ONER是一款適用于Windows、MAC和Linux等平臺的統計計算和可視化開源軟件,Data One R客戶端能夠從Data One網絡存儲庫中訪問開放的生態、環境和地球科學數據,因為這些數據是通過具體的標識符(而不是本地存儲路徑)被獲取的,所以相應R腳本對不同用戶而言是可移植的,這使得R腳本被更加有效地發行。Data One R 客戶端不僅可以訪問數據文件,還能向Data One網絡中的節點寫入新的數據和元數據。

(5)Morpho。Morpho是美國KNB(Knowledge Network for Biocomplexity)為生態元數據語言(Ecological Metadata Language,EML)開發的編輯軟件。Morpho使得生態學家可以方便地產生符合EML標準的元數據,并能通過建立元數據目錄讓使用者查詢、編輯和觀看已有數據或相關資料的描述。該軟件提供了一個容易使用的和跨作業平臺的應用界面,使用者可以在本機和網絡上獲取和操作元數據及原始數據,其基本操作功能包括產生和編輯元數據、搜索和查詢元數據集、觀看資料與元數據集、校對和編輯資料與元數據、存取控制等。

2 Data One項目組織架構和工作小組

Data One項目的成功離不開其合理的基礎架構和強大的功能,更離不開其完善的組織架構和各工作小組的推進(Data One項目組織架構見圖2)。其中,外部咨詢委員會為所有Data One活動提供戰略方向、投入等方面的指導,促進社區參與,審查相關活動。首席研究員向外部咨詢委員會匯報,負責與資助方NSF保持聯系,并與其它DataNets項目成員保持協作關系,監督執行理事的工作,促進整個Data One領導團隊工作。首席研究員具備戰略領導和協調交流的雙重角色,其具體的工作包括戰略領導、計劃制定、合作協調、資金籌集等。領導團隊由各理事和各個機構關鍵領域的代表組成,領導團隊每周都和Data One關鍵成員商談,負責戰略方向(包含日常風險評估)、項目實施、項目合作、協調資源等方面工作。執行理事則對Data One的日常工作負責,監管和調整所有的技術、管理、報告和預算問題,執行理事也會參與戰略規劃的制定,指導并跟蹤實施計劃,監督運營和開發理事、社區參與和推廣理事以及Data One辦公室。執行理事需要協調Data One事業的各個方面,同時也可以參與到一個或更多的工作小組中去。

此外,運營開發理事主要監管基礎架構的開發和實施,包括計算機學科方面的研究、基礎架構小組以及研究工作小組的活動,管理各子機構的研發人員和博士后。社區參與和推廣理事負責Data One教育和拓展服務活動,組織領導和數據管理相關的訓練課程,管理各子機構的社區參與和推廣員工。在Data One項目中,工作小組模式在執行研究、確定基礎設施和參與團體活動中起到非常重要的作用。工作小組使得Data One項目能夠和科學家團體、各類用戶廣泛互動,共同商討研究目標和推廣教育活動,每個工作小組至少有2名共同領導人,他們互為補充,共同組織活動,為特定的研究、教育和基礎設施問題提出解決方案。Data One工作小組會隨著時間的變化而變化,工作小組的一個議題完成后,其需求也會做出改變并被詳細說明,所以工作小組的數量和關注焦點是隨需所變的(最初的11個工作小組見表1)。

3 實施數據監管的關鍵流程

Data One項目的最佳實踐是把數據監管生命周期分成了計劃、收集、保障、描述、保存、發現、整合、分析8個步驟,其中的保障主要是通過元數據和數據格式來保障數據質量和兼容性,保證數據的可獲性以提升數據價值。基于前文對Data One項目的調研分析,并結合Data One項目數據監管生命周期的步驟劃分和國外數據監管的實踐,可以歸納總結出當前實施數據監管的關鍵流程:構建數據監管基礎框架、制定數據管理計劃、選擇元數據標準、規范與統一數據、數據存儲與歸檔。其中需要說明兩點:一是構建數據監管基礎架構的過程其實也是選擇數據監管基礎平臺的過程,這一流程與制定數據管理計劃其實是不可分的,只有需求明確并且切實可行的計劃才是有效的計劃;二是這些關鍵流程中并未涉及數據增值(基于數據的復用、關聯、挖掘等)和社區推廣等活動,這些活動也與Data One項目數據監管生命周期中的發現、整合、分析等密切相關,但一方面由于這些活動相關實踐尚處于探索階段,另一方面受限于篇幅原因,所以這些活動并未包含在本文所總結的關鍵流程中。

3.1 構建數據監管基礎架構

數據監管的基礎架構有兩層含義,一是組織體系上的基礎架構,另一個是信息技術上的基礎架構,前者為數據監管工作提供組織和人員保障,后者為數據監管提供魯棒的、靈活的、高效的技術支撐。作為涉及面很廣的一項工作,數據監管有著眾多的利益相關方,協調得好能發揮合力,協調不好項目根本無法推進。從Data One的組織架構可以看出,其具有完整的組織體系,合理的治理結構,還有眾多的研究工作小組,其工作推進不僅僅依賴于協調節點的那三所大學,還充分發揮了觀測數據提供者、資助機構、研究機構與研究者、數據出版商、數據集成公司、社區網絡等所有參與者的能力,形成了“眾人拾柴火焰高”的局面。當然,并不是所有的數據監管項目都需要協調眾多利益相關方,牛津大學的EIDCSR項目就采用嵌入機構內部的數據監管方式。

作為需要較強技術支撐的一項工作,IT基礎設施的建設也十分關鍵,原因有以下三點:

(1)如果自建平臺,那么平臺體系架構是首先需要考慮的。Data One項目采用分布式系統架構,便于處理大數量級的地球觀測和環境數據,成員節點主要存儲數據,協調節點則提供廣泛的數據服務。而美國的Sequoia2000項目則采用了層次架構,整個體系包括通用設備接口、數據庫管理系統、文件系統、應用軟件及網絡接口層等,樹嶺Sequoia2000是美國加州大學的計算機科學和地球科學研究人員自建的管理全球變化信息(包括全球變暖、環境污染、物種、植物分布狀況等)的數據管理平臺[3]。

(2)有一些商業合作建設的數據監管平臺,比如荷蘭國家圖書館和IBM合作開發的e-Depot項目,其核心是IBM的數字信息存檔系統DIAS(Digital Information Archiving System)系統,E-Depot主要關注于長期存取荷蘭電子出版物。而在歐洲,Nesstar軟件在社會科學數據平臺上有著較大的影響,如英國的數據檔案館以及旗下的經濟和社會數據中心、德國的社會科學基礎服務、荷蘭的數據檔案和網絡服務、歐洲社會科學數據聯盟均采用Nesstar[4]。在具體學科領域,NuGenesis專注于生化領域數據管理,其針對生化領域的特點,為科研人員提供各項服務和綜合的信息管理技術,如實驗室庫存管理、實驗樣品管理、自動向數據存儲庫導入實驗數據、儀器數據和各外部資源數據等。

(3)更多的一些平臺采用開源軟件來構建,如美國約翰霍普斯金大學圖書館DataStar項目和康奈爾大學圖書館Conservancy項目采用的Fedora系統,劍橋大學機構倉儲項目和武漢大學蝎物種與毒素數據管理平臺基于Dspace開發,荷蘭烏德勒支大學圖書館數據管理平臺和復旦大學社會科學數據平臺采用Dataverse開發。在平臺建設模式選擇和平臺體系結構構建上,沒有最好,只有適合,數據監管服務提供方應充分調研科研用戶數據訪問、發布、存儲、檢索、分析、共享需求、產生數據的類型、數據之間的關系,并在此基礎上充分了解各種方案的優劣,在綜合考慮后加以確定。

3.2 制定數據管理計劃

數據管理計劃是數據監管的起始,仔細規劃貫穿數據生命周期的數據管理無論是對提高數據的可用性、確保數據保存和可訪問性,還是對數據監管項目的長遠發展和未來研究都具有重要意義。首先,越來越多的資助機構都開始強制要求在項目申請時提交數據管理計劃,如Data One項目的資助方——美國國家科學基金會(NSF)就要求參加項目的小組提供管理計劃,此外美國國家航空航天局(NASA)、英國生物技術與生物科學研究理事會(BBSRC)、英國研究理事會(RCUK)、維康基金會(Wellcome Trust)、藝術與人文研究委員會(AHRC)等在項目申報時均提出類似要求。數據管理計劃可以由數據管理人員輔助科研人員或科研團隊獨立完成,也可使用專門的數據管理計劃工具生成,Data One項目中就有專門的DMP工具,另外英國數據監管中心DCC開發的DMPONLINE也有比較廣泛的應用,利用相關的工具可以制定出符合政策要求和實際科研需要的數據管理計劃。

不管是團隊編制,還是工具生成,一般的數據管理計劃都應包含預算信息、數據類型(如空間數據、時間數據、儀器生成數據、模型數據、模擬數據、圖像數據、視頻數據等,或者是原始數據、觀測數據、加工數據、數據產品、環境數據等)、數據大小、訪問和安全策略、元數據標準、數據權限、相關的軟硬件設備等,數據管理計劃還會定義項目參與者的角色以及數據收集、質量保證、描述、存儲和訪問的工作流。雖然數據管理計劃是在項目概念化階段就被創建,但還需在項目生命周期中不斷被審視和更新,所以其是一個動態性文件,應該被密切追蹤,在數據生命周期的各個階段都能提供重要的指導作用。

3.3 選擇元數據標準

元數據標準選擇也是數據監管過程中基礎性的工作,元數據被理解為“關于數據的數據”,國際圖聯(IFLA)將其定義為描述數據的數據,可用來協助對網絡數字資源進行識別、描述和定位的任何資料[5]。元數據又可分為描述型元數據(描述資源對象的內容或外觀信息,描述資源對象各組件的結構信息)和管理型元數據(描述資源對象的技術要求的元數據、描述資源對象的權限管理與合法使用的元數據、描述資源對象的產生、發展、軟硬件環境的元數據和用來管理信息資源的元數據信息)。

在數據監管的過程中,為產生的數據選擇恰當的元數據標準或根據研究需求建立一套元數據標準是未來數據發現和數據共享的基礎。Data One項目的最佳實踐中提到如果項目本身或是資助機構已經明確了特定的元數據標準,那么就使用該元數據標準,并且將其納入數據管理計劃之中;如果研究團體有常用的或建議的元數據標準,那么也可以使用該標準,當然該標準最好要能夠和其它系統、倉儲進行互操作;如果研究團體傾向使用的元數據標準沒有廣泛的互操作性,那么最好考慮使用簡單、有互操作性的元數據標準,如都柏林核心元數據(Dublin Core Metadata)。在英國,9個主流的科研資助機構聲稱,為了保障正確利用數據,在數據中要附上相關元數據[6],不過他們沒有提出具體的元數據方案,而是籠統地建議采用學科領域內一般性通用元數據標準。在具體項目中,參與牛津大學EIDCSR項目的圖書館員基于都柏林核心元數據創建了自己的核心元數據字段,并允許個別研究小組自定義本領域字段[7];武漢大學基于Dspace構建的“蝎物種與毒素數據管理平臺”除了文獻資源使用DC描述外,其它數據,如物種數據、基因數據和蛋白數據,都采用各自領域的專業元數據標準[8]。除了廣受推崇的都柏林核心元數據外,經常用到的元數據還有描述政府信息的GLIS(Global Information Locator Service)、描述地理空間數據的FGDC/CSDGM標準、REACH元素集以及館藏的CDWA、CIMI、VRA Core等。除了元數據本身的選擇和制定外,相應的管理工具也會在大型的數據監管項目中被開發,比如Data One項目中就提供了Dataup工具。

3.4 規范與統一數據

高質量、規范化的科研數據是決定科學項目產生效益、推動社會進步的關鍵,所以在規范數據格式、提升數據質量的過程中選用或制定合理的數據標準是必要的。首先,在描述數據字段、屬性、參數和訪問方法時,最好使用定義好的、規范化的術語、敘詞表和關鍵詞表,以保證數據產品的易懂性、可移植性和可被發現。在數據監管項目實施過程中,數據字典是一種比較有效的方式,其能夠簡化大型數據庫構建,避免數據錯誤和提高數據質量,以美國為例,在不同專業領域,SWEET(Semantic Web for Earth and Environmental Terminology)、Planetary Ontologies、GCMD(NASA Global Change Master Directory)等術語資源被應用。

以數據訪問方法為例,一般有三種方式:(1)訪問元數據庫,再通過元數據與數據資源之間的唯一標識符連接到目標資源,此時數據的規范控制其實和元數據的應用結合在一起,如牛津大學的EIDCSR項目;(2)直接訪問基于Web的數據資源庫,如Data One項目中通過提供的ONEMercury網絡接口訪問成員節點中的數據,這其中也有相應的標準規范;(3)既可以通過元數據系統查找、下載所需數據集,也可以通過Web數據庫查詢和訪問數據,如澳大利亞南極中心數據庫[9]。不管采用何種方式,這些數據都會有規范的數據文件名稱和良好的數據組織架構。

清晰的、描述性的、獨特的文件名很重要,這種重要性不僅體現在對數據擁有者自身,更體現于其他研究者的查詢檢索和便利發現。Data One項目最佳實踐認為文件名稱要能夠反映出文件的內容,包含足夠的信息來唯一確定該數據文件內容,文件名稱中應包含的信息包括項目縮寫、研究標題、地點、調查員、研究的跨度、數據類型、版本號和文件類型等。在數據文件中,還需要明確定義參數的單位,國際上有SI(The International System of Units),而且每個學科都有自己慣用的數據單位,同時還需要保持單位編碼上下一致。其次,數據文件可能由數據庫統一管理,也可能直接存放于文件目錄下(可能在本地還可能在FTP站點)。

3.5 數據存儲與歸檔

雖然數據監管是比數據存儲、數據歸檔更為廣泛的概念,但不可否認的是數據存儲與歸檔是數據監管活動中最為重要的一個環節,也是數據共享和重用的基礎和前提。因為數據存儲也有成本的問題,那么哪些數據應該被保存呢?Data One項目中,在決定保存哪些數據時,數據管理人員和科研人員在保證數據未來可用的情況下,會綜合考慮數據保存的空間、時間和金錢成本,他們認為原始數據通常是值得保存的,不過算法和軟件代碼幾乎不用保存,如果數據可以輕易地從原始數據中生成,那么該數據也沒有必要保存。鑒于此問題,他們對Data One項目中不同的數據設置了不同的保存方案,對原始數據和具有歷史意義的數據進行長期保存,數據衍生產品在專家評估后選擇合適的保存周期,而對于可恢復的數據以及算法和模型不進行保存。

除了存什么的問題,還有存哪里的問題。科研產生的數據主要有三個存儲去向:由政府或專門資助機構資助的大型科研數據一般存儲在專門的數據中心或存儲庫中;一些小的學科或者相對小型的研究會把科研數據存儲在機構庫或科研機構自己的存儲系統中;還有一些科研數據被科研人員直接存儲在本地的計算機或硬盤中。國內外大型的數據中心和數據保存項目有美國的數字化藏品保存項目PAREM、多備份資源保存項目LOCKSS、分布式數字資源保存項目PRISM、英國的電子文件歸檔計劃ERA、高校研究圖書館聯盟數字歸檔樣書項目CEDARS以及德國的NESTOR項目,還有國內的國家科學數據共享工程、網絡信息資源保存試驗項目等。基于機構庫的存儲平臺數目更多,許多圖書館也把機構庫作為數據監管的起點,Data One項目中各成員節點都可以充當存儲庫,各自進行數據管理和維護并控制數據訪問,比如普渡大學圖書館的分布式數據監管中心D2C2、麻省理工學院的PLEDGE項目、康奈爾大學的DataStar項目等。所以作為有數據監管服務需要的機構,既可以自己建設本地數據存儲庫,也可在機構庫基礎上擴展服務,利用自身資源優勢和國內外的數據科學中心、存儲中心建立良好關系,形成優勢互補、學科互補、數據互操作的共享局面。

4 數據監管的推進策略

4.1 研究型圖書館應發揮積極作用

在組織部門上,相關研究都表明圖書館是比較理想的數據監管組織和實施單位。美國國家科學基金會(NSF)指出:科研圖書館應該在數據監護上給予科研機構業務和技術支持,為他們提供相應的數據服務[10]。英國圖書館聯盟就英國科研人員與圖書館合作進行數據監護的模式進行分析和總結,得出“科研圖書館可以與研究人員合作,向他們提供數據監護服務,并能夠得到較好效果”的結論[11]。加拿大研究圖書館聯盟在2010 年對圖書館向科研人員提供科研數據管理等服務做了研究,指出圖書館可以滿足科研人員對科學數據的需求,具體服務包括提供數據管理培訓,給予技術支持,數據的發現、獲取、歸檔等,還包括提供虛擬的科研環境[12]。德國2012年的調研顯示,過去數年間科研數據的監管問題在科學界越加受到關注,而圖書館和科學家一直保持緊密的聯系,在處理數據和保存數據中具有天然的優勢[13]。很多的研究資助機構都已經意識到提供保存研究數據服務和基礎設施的重要性,研究型圖書館已經被確認為提供研究數據服務的基地[14],研究型圖書館協會(ARL)也正在開發研究數據服務作為新的戰略性服務[15]。綜上所述,研究型圖書館理應在數據監管方面發揮更大作用。

此外毋庸置疑的是,數據監管作為一類合作項目(Data One項目的組織架構有著充分的體現),會涉及到眾多利益相關者,不僅有圖書館,還有研究人員、政策制定者、數據管理人員、數據存儲機構、檔案館、數據存儲庫等,雖然對圖書館在整個數據監管過程中的定位還沒有明確的官方界定,但圖書館已經在數據監管過程中體現了其重要地位,尤其在高校中。OCLC在2013年報告中指出,在大學內部的數據監管活動中,圖書館基于元數據、館藏管理、資源建設、機構存儲、數據獲取等方面的積累,非常適合成為數據管理、監管和保存活動中的關鍵參與者[16]。其呼吁圖書館在利益相關者之間發起對話,以獲得數據監管活動的主動權,并在其后的監管活動中貢獻專業知識。西英格蘭大學在生物醫學和生物感知、數字創業產業、機器人技術和社會保健領域提供了良好的研究數據管理服務,該大學的數據監管服務就是由圖書館、研究辦公室和IT部門共同負責的,而圖書館在其中發揮著主導作用,他們認為圖書館員(學科館員)知道如何監管(存儲、組織、獲取和分享)數據,和研究人員之間良好的關系也使得他們懂得需求,深刻地明白信息和數據缺乏管理的危險后果[17]。

4.2 用戶需求把握是數據監管之源

調研用戶數據需求是為科研用戶提供合理數據監管服務的源頭,沒有需求或者需求不明的服務只能是些無效勞動。高校科研用戶分屬于不同的學科,但是不同的學科產出的數據都有其自身的學科特征,比如,人文社會科學產生的數據多數是文本數據和調研數據,生物科學和醫學專業產生的多數是實驗數據和觀測數據。而且不同類型的數據對數據監管的要求也有所不同,比如,對于不可再生的數據如帶有歷史色彩的觀測數據需要進行長期的監管和保存,對實現成本較低的實驗數據可能只需要記錄實驗的條件和設備,而無需監管整個實驗數據本身。正因為上述這些原因,數據監管服務提供方在服務伊始要按照不同的要求和學科標準調研科研用戶的數據需求,弄清他們產生數據的類型、特點、重要性、機密性以及是否需要遵循資助機構的數據管理要求,然后根據調研結果和科研用戶一起制定相應的數據監管計劃,包括數據收集的范圍、存儲的地點、保存的期限和共享權限等,真正根據用戶需求為其提供量身定做的監管服務。

4.3 基礎平臺建設是數據監管之本

數據監管基礎平臺的建設是整個數據監管活動賴以存在的基礎,沒有這些IT基礎設施,數據監管活動只能是空談。那么數據監管平臺應該由誰來構建?OCLC的報告認為應該由高校的信息技術部門承擔[16],但不同高校或研究機構有著不同的實際情況,有些高校信息技術部門有著強大的技術實力和充足的人員配置,而有些高校甚至整個校園的IT運維都采用外包方式,若具體到圖書館層面,有些高校圖書館有自己的信息技術部門和存儲庫平臺的積累,而有些高校圖書館甚至沒有專門的學科服務團隊。筆者認為基礎平臺的建設同樣應該是一項協作任務,其建設模式也有多種,如校內合作模式、校外合作模式,甚至有跨國合作模式。比如,牛津大學的EIDCSR項目是由圖書館、計算機服務中心、IT指導辦公室合作搭建的,屬于校內合作模式;康奈爾大學的DataStaR項目既是一個平臺,也是一系列服務,是由康奈爾大學圖書館和華盛頓大學圣路易斯分校一起合作開發的,屬于校外合作模式;新墨西哥大學圖書館主導的Data One則是與世界各大地球環境研究所合作的分布式數據監管體系,是國內外共建模式的代表。可見數據監管平臺的搭建,要符合機構實際的數據需要,選擇的搭建模式要和數據規模相符,在此基礎上合理利用內外部資源,擇取恰當的數據監管平臺建設方式。

4.4 全面優質服務是數據監管之核

常見的數據監管服務包括數據加工描述服務、數據存儲服務、數據發現和共享服務。數據加工描述服務指輔助科研人員根據科研數據的類型、特點和相關資助機構的數據管理要求描述和處理數據;數據存儲服務要在判斷科研數據價值的基礎上,為科研數據選擇合適的存儲期限和存儲地點;數據發現和共享服務要能幫助科研用戶發現、檢索、獲取數據。這些服務一般還會有系統或者工具的支撐,比如,Data One項目中ONEMercury用于搜索、Dataup用于數據存儲、ONER用于統計發現和可視化展現。全面優質的服務還應該包括對數據監管服務的教育培訓和推廣,Data One項目組織架構中也有多個工作小組負責此類任務,國內也有不少高校圖書館為科研人員提供數據管理工具方面的培訓。

4.5 數據素養及其相關技能的提升

數據素養(Data Literacy)是對媒介素養、信息素養等概念的一種延續和擴展,其包括對數據的敏感性;數據的收集能力;數據的分析、處理能力;利用數據進行決策的能力;對數據的批判性思維[18]。對數據素養及其相關技能的提升涉及兩個方面,一是對包括圖書館員在內的數據管理人員,一是對科研人員或者其他有數據監管需求的用戶。在數據監管過程中,數據管理人員要承擔諸多職責,還要對最終結果負責,如果其缺乏特定領域的知識和處理大型數據的能力,那么他們很難圓滿地完成任務。相關的報告指出目前科研人員處理科學數據的能力與實際對他們的要求之間還存在一定的差距,數據監管人員在輔助科研人員管理科學數據上具有重要作用[19]。科研人員是數據監管活動的主要服務對象,要教授他們如何描述和組織數據,如何保證數據在未來可以被檢索和共享,等等。此外,在大學中,大學生們也可能是未來的科研人員,所以也需要關注他們的數據素養和技能提升,在具體工作開展中,圖書館在開展數據素養教育講座或課程的同時,還可以與學校教務部門共同制定數據素養教學計劃,在本科生和研究生中推廣相關課程。

5 結語

Data One項目完善的基礎架構、強大的工具包、協作高效的組織架構、眾多的工作小組和研究任務給了我們很多的啟示。通過對Data One 及其他數據監管項目的分析探討,本文歸納總結出一條實施數據監管的關鍵流程,即構建數據監管基礎架構、制定數據管理計劃、選擇元數據標準、規范與統一數據、數據存儲與歸檔。同時進一步延伸探討,希望數據監管活動能夠在研究型圖書館參與、用戶需求把握、基礎平臺建設、全面優質服務、數據素養及其相關技能提升等幾個方面廣泛推進。當然,數據監管本身是一個廣泛復雜的主題,其涉及面很廣,可能遠超本文討論,希望在數據監管理論和最佳實踐日益豐富的今天,本文的梳理和探討能為此領域的發展盡綿薄之力。

參考文獻:

[1]Investigator Toolkit[EB/OL].[2014-07-26].http://www.dataone.org/investigator-toolkit.

[2]數字資源長期保存研究與共享平臺. 數據管理計劃在線工具[EB/OL].[2014-07-26].http://archive.las.ac.cn/957f671f4fdd5b585de55177/dmp-online-tool.

[3]Stonebraker M, Dozier J. An overview of the Sequoia 2000project[J].Digital Technical Journal,1995,(3):39-49.

[4]張計龍,朱勤, 殷沈琴. 美國社會科學數據的共享與服務[J]. 大學圖書館學報, 2013,(5): 13-17.

[5]楊艷麗.元數據與網絡信息資源的管理[D].太原:太原理工大學, 2003.

[6]陳大慶. 英國科研資助機構的數據管理與共享政策調查及啟示[J]. 圖書情報工作, 2013,(8): 5-11.

[7]University of Oxford. Embedding Institutional "Data Curation Services in Research (EIDCSR)[EB/OL]. [2013-12-08].http://eidcsr.oucs.ox.ac.uk/docs/EIDCSR_AnalysisFindings_v2.1.pdf.

[8]洪正國,項英. 基于 Dspace 構建高校科學數據管理平臺——以蝎物種與毒素數據庫為例[J].圖書情報工作, 2013,(6):39-42.

[9]Australian Government. Department of the Environment,Australian Antarctic Division. Leading Australia’s Antarctic Program[EB/OL]. [2014-07-26]. http://www.aad.gov.au/default.aspcasid=3812.

[10]To Stand the Test of Time: Long-Term Stewardship of Digital Data Sets in Science and Engineering[EB/OL].[2014-07-26].http://www.arl.org/pp/access/nsfworksho

p.shtml.

[11]Researchers' Use of Academic Libraries and Their Services[EB/OL].[2014-07-26].http://www.rin.ac.uk/researchers-uselibraries.

[12]Addressing the Research Data Gap: A Review of Novel Services for Libraries[EB/OL]. [2014-07-26]. http://www.carl-abrc.ca/about/working_groups/pdf/library_role

s-final.pdf.

[13]Osswald A, Strathmann S. The role of libraries in curation and preservation of research data in Germany: Findings of a survey[C/OL].[2014-07-26].http://conference.ifla.org/sites/default/files/files/papers/wlic2012/1

16-osswald-en.pdf.

[14]Friedlander A, Adler P. To Stand the Test of Time: Long-Term Stewardship of Digital Data Sets in Science and Engineering[R/OL].[2014-07-26].http://arl.org/bm~doc/digdatarpt.pdf.

[15]ARL. E-Science and Data Support Services: A Study of ARL Member Institutions[EB/OL]. [2014-07-26]. http://www.arl.org/bm~doc/escience_report2010.pdf.

[16]OCLC Research. Starting the Conversation: University-wide Research Data Management Policy[EB/OL].[2014

-07-26].http://oclc.org/research/publications/library/20

13/2013-08r.html.

[17]UWE Bristol. Why is the Library leading on this Research data management and theacademiclibrary[EB/OL].[2014-07-26].http://www2.uwe.ac.uk/services/library/using_the_library/Services for researchers/DARTS

3 presentation.pdf.

[18]數據素養[EB/OL]. [2014-07-26].http://baike.baidu.com/view/10402202.htm.

[19]Skills, Role amp; Career Structure of Data Scientists amp; Curators: Assessment of Current Practice amp; Future Needs[EB/OL].[2014-07-26].http://www.jisc.ac.uk/pu

blications/reports/2008/dataskillscareersfinalreport.aspx.

作者簡介:許鑫(1976-),男,華東師范大學信息學系副教授;劉甜(1990-),女,華東師范大學信息學系圖書情報專業碩士研究生;于霜(1992-),女,華東師范大學信息學系情報學碩士研究生。

主站蜘蛛池模板: 98精品全国免费观看视频| 国产在线观看人成激情视频| 午夜a视频| 亚洲欧美日韩综合二区三区| 国产精品第| 亚洲成年人片| 国产精品三级av及在线观看| 久久久噜噜噜久久中文字幕色伊伊| 国产另类视频| 亚洲伊人电影| 无码国产偷倩在线播放老年人| 操国产美女| 亚洲国产看片基地久久1024 | 国产欧美日韩视频怡春院| 丁香婷婷久久| 九九热视频精品在线| 国产成人三级在线观看视频| 久夜色精品国产噜噜| 欧美日韩资源| 欧美性久久久久| 欧美精品高清| 蜜芽国产尤物av尤物在线看| 91小视频在线观看| 亚洲第一色视频| 亚洲国产成人精品一二区| 亚洲成人在线免费| 亚洲成年人网| 九九免费观看全部免费视频| 久久公开视频| 中文国产成人精品久久| 国产浮力第一页永久地址| 亚洲成人精品| 狠狠ⅴ日韩v欧美v天堂| 久久免费看片| 992Tv视频国产精品| 国产69囗曝护士吞精在线视频| 国产sm重味一区二区三区| 国产精品一区二区无码免费看片| 国产精品成人久久| 91精品国产一区自在线拍| 精品自窥自偷在线看| 亚洲精品无码在线播放网站| 久久窝窝国产精品午夜看片| 国产成人无码Av在线播放无广告| 91久久精品国产| 1769国产精品视频免费观看| 久久国产精品电影| 中文字幕亚洲综久久2021| 一级毛片在线播放免费| 国产精品999在线| 99久久无色码中文字幕| 欧美性久久久久| 久久黄色小视频| 99er精品视频| 青青草国产一区二区三区| 欧美国产成人在线| 动漫精品啪啪一区二区三区| 毛片网站在线看| 国产91小视频在线观看| 国产地址二永久伊甸园| www.99在线观看| 全裸无码专区| 亚洲欧洲综合| 亚洲欧美日韩中文字幕在线一区| 99视频免费观看| 精品久久香蕉国产线看观看gif| 国产91久久久久久| 国产精品自在拍首页视频8| 在线观看国产精品第一区免费| 欧美成人午夜影院| 精品成人免费自拍视频| 这里只有精品免费视频| 一区二区午夜| 亚洲精品波多野结衣| 青草视频免费在线观看| 天天做天天爱天天爽综合区| 凹凸国产分类在线观看| 欧美第一页在线| 中文一区二区视频| v天堂中文在线| 全色黄大色大片免费久久老太| 2021最新国产精品网站|