999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Mendeley Data平臺開放科學數據實踐及啟示*

2021-11-03 07:45:14盧垚王鸑飛劉洪冰袁雪陳斯翰劉敏娟
數字圖書館論壇 2021年9期
關鍵詞:研究

盧垚 王鸑飛 劉洪冰 袁雪 陳斯翰 劉敏娟

(中國農業科學院農業信息研究所,北京 100081)

1 集成發現和管理工具推動研究數據開放共享

科學體系正在經歷重大的轉變,從以研究人員為主導的專業體系,轉變為有多個利益相關者的開放創新體系[1]。在開放科學中,開放數據作為重要要素,其實踐促進科研協作和透明度,并且提升科研成果的重現性和影響力[2-3]。近年來無論是研究人員、圖書館、資助者、政策制定者,還是出版方、各類倡議組織、資源開發和策展方,各利益相關方都對推動研究數據的有效共享給予了更高關注。研究人員對數據共享持積極態度,根據萊頓大學的調查結果[1],73%的受訪者表示獲得已發表的研究數據將有利于自身研究,69%的受訪者表示共享研究數據對于他們所在領域的研究很重要,同時有64%的受訪者愿意讓別人訪問自己的研究數據。2020年STM出版商協會開始實施研究數據實踐,將2020年定為“STM研究數據年”,啟動了STM研究數據項目。根據該項目調查[4],2020年參與該項目的出版商中,采用數據政策的期刊從29%增加到52%,而包含數據可用性聲明(DASs)的文章數量增加一倍多。

然而研究數據的分享實踐面臨很多挑戰,根據全球7 000余位科研人員反饋[5],46%的科研人員認為將數據進行共享的最主要障礙是不知道如何將數據按照可展示、有用的方式進行有效的組織,其他困擾因素包括對版權和授權條款的不了解(37%)、不知道在何處使用何種數據倉儲(33%)、缺乏時間(26%)和擔心成本(19%)。因此研究數據共享并不應該僅是對開放數據政策開展研究和制定宏觀數據管理計劃,在推進數據管理實踐層面也同樣重要。如何為科研人員提供良好的數據管理支撐服務,創建便捷的數據共享路徑,幫助研究人員更容易訪問和使用數據,也應當引起重視。

數據共享的主要目標是使研究數據以標準化的方式被其他研究人員重用。FORCE11工作組于2016年發布了《FAIR數據原則》,代表了數據共享和重用的黃金標準[6]。開放數據不僅要可發現可訪問,更需要能夠被理解、可信賴和可重用。將數據存儲在標準化的數據倉儲中可以增加公開和重用的機會,目前許多組織提供了用于歸檔數據集的存儲庫[7]。隨著研究數據的日益豐富,高效的研究數據集成發現和管理工具越來越不可或缺。本文選取Mendeley Data平臺進行調研,它是Elsevier公司2015年開發的科研數據管理與共享平臺,本文針對其數據治理流程、開放關聯特征、數據存儲管理和共享功能進行分析,總結其開放數據實踐過程中,遵循FAIR標準實施流程和系統設計的優勢經驗,為圖書館開展開放數據資源建設和研究數據服務帶來啟示。

2 Mendeley Data的研究數據治理流程

Mendeley Data的數據治理流程包括數據收割、數據管理發布、數據存檔和提供訪問4 個環節(見圖1)。

圖1 Mendeley Data基于開放檔案信息系統(OAIS)模型的數據治理流程[8]

2.1 數據收割

Mendeley Data索引的科研數據一方面來自于個人用戶通過網頁界面創建數據集;另一方面來自于外部系統通過配置公共API創建數據集,如Elsevier的文章發表投稿系統EVISE。個人用戶或者外部系統需要按照規范元數據(見表1)對數據集進行描述。

表1 Mendeley Data元數據

2.2 數據管理發布

數據集通過UI和API進行發布,以便公眾進行訪問。在數據集發布前,系統將從形式上確保必備元數據的完整性。數據集可立即發布,也可設置禁止日期延遲其發布,若設置禁止日期的情況下發布數據集,僅其標題是立即公開的,其余的元數據和文件直至禁止日期才公開。公開時,數據集將從DataCite接收一個新的數字對象標識符(Digital Object Identifier,DOI)。數據集發布后,由Mendeley Data平臺審核員從內容上進行審核,確保其為具有科學性質的研究數據,尤其是要與包含研究結果的研究論文進行區別,并且確保不涉及以下情況:已經公開發布過,具有DOI;含有可執行文檔但缺乏獨立、詳細的文件描述;包含有版權的內容(音頻、視頻、圖像等);包含敏感信息等。而不符合審核標準的數據集將被刪除并通知作者。

2.3 數據存檔

數據集依照上述標準被審核為有效后,隨即被歸檔到數據歸檔和網絡服務(Data Archiving and Network Services,DANS)長期資源庫[9]中。Mendeley已經與DANS簽署協議,確保所有已發布和有效的數據集都將被永久存檔,并且所有存檔的數據集將獨立于Mendeley Data站點,而在DANS中可用。通過DANS存檔,保證了所有格式文件的長期保存和DANS優選數據格式文件的長期可用性。

2.4 提供訪問

科研用戶可以從Mendeley Data網站查看和下載數據集。外部系統也可以通過Mendeley Data公共API查詢和下載任何已發布的有效數據集。平臺提供元數據和文件的全文搜索功能,并且可按數據類型、來源倉儲、學科類別過濾搜索結果。同時所有數據集都分配有永久DOI,也能夠通過已發表的相關論文或其他相關數據集進行鏈接訪問。

3 Mendeley Data形成了關聯集成的開放數據生態系統

Mendeley Data通過與DANS[9]、OpenAIRE[10]、DataCite[11]、Scholix[12]等一系列科研數據基礎設施系統進行集成,促進科研數據在全球范圍內的開放關聯。在Elsevier內部與ScienceDirect、Scopus、Scival等產品進行關聯,將科研數據管理共享全面整合入其學術研究數字化服務生態。

(1)利用DANS解決數據長期保存問題。DANS是一個長期存檔的供應機構,隸屬荷蘭皇家科學院KNAW和荷蘭科學研究基金會NWO[9]。Mendeley Data與DANS達成協議對所有有效的已發布數據集進行永久存檔,協議將確保數據集分配的DOIs將始終被解析為一個包含可用數據集元數據和文件的web頁面。

(2)與歐洲科研開放獲取基礎設施OpenAIRE(Open Access Infrastructure for Research in Europe)及其Zenodo數據倉儲創建索引。OpenAIRE[10]作為歐盟的研究門戶網站,是歐洲最大的科研數據發布中心,通過建立索引,當數據集在Mendeley Data平臺發布時,也將同步發布到OpenAIRE。

(3)通過DataCite元數據索引與數千個科研數據倉儲創建索引,從而索引千萬級別的數據集。DataCite是一家于2009年在英國成立的國際非營利性組織,由多家機構聯合發起,為科學數據創建元數據集[11],在Mendeley Data平臺發布的數據集,元數據也將發送至DataCite。同時DataCite作為科學數據標識符注冊中心,為研究數據和其他研究產出分配DOI,增強數據搜索能力,建立數據共享生態和高效引用機制。

(4)通過Scholix鏈接研究論文和科研數據。學術鏈接交換(Scholix)是一項倡議,為其成員提供一個全面的互操作性框架,通過收集和交換研究數據與文獻之間的鏈接,創建開放的全球信息生態系統[12]。其成員需使用統一的信息模型來表示數據和文獻之間的鏈接,以及標準的交換格式和協議來實現信息交換。Mendeley Data作為Scholix的成員之一,通過將其元數據(包括相關文獻的鏈接)發送到DataCite來為Scholix做出貢獻,DataCite是Scholix用于聚合數據集和文獻之間鏈接的信息集散中心之一,從而使鏈接被廣泛地發現。

(5)與Elsevier內部產品關聯,將科研數據服務納入其學術研究數字化服務生態。Mendeley Data數據集通過Scholix與Scopus數據庫中相應出版物進行關聯訪問,進一步借助Scopus數據庫中的規范信息對數據集作者、所屬機構等元數據進行增強;在ScienceDirect以及SSRN文獻出版流程中,Mendeley Data則被用于提交或公開與文獻相關的數據集;研究數據和文獻一樣也可通過計量指標度量其影響力,Mendeley Data復用了Elsevier的PlumX指標體系,包括下載、查看和數據引用(源自DataCite和Crossref)等,以及替代計量學指標來反映社交媒體的關注度和對媒體、政策的影響力。

4 Mendeley Data的功能

Mendeley Data作為覆蓋科研數據全生命周期的模塊化研究數據管理云平臺,具有數據檢索、數據存儲和管理以及數據監控功能,各功能模塊可獨立使用,也可以與機構現有的解決方案集成在一起以確保科研管理工作的連續性。

4.1 數據檢索

Mendeley Data可作為研究數據開放搜索引擎進行數據檢索,其索引了全球2 000多個公共研究數據倉儲中超過2 810萬個數據集,也包括Mendeley Data管理平臺的數據集,并且將各個來源的研究數據進行元數據和數據文件的深度標引,由此提供字段的高級檢索,可對檢索結果數據文件內容進行在線預覽,同時突出顯示搜索詞,以便用戶快速評估和選擇檢索記錄。

4.2 數據存儲和管理

Mendeley Data作為數據存儲解決方案,使機構能夠存儲文本、表格、圖像、統計數據、數據庫、置標語言等各種類型的研究數據[13],數據通過云服務器進行托管也可以選擇存儲在本地服務器。數據庫采用標準且豐富的元數據對數據記錄進行管理,并允許機構用戶自定義元數據。同時支持大規模的數據協作,使研究人員能夠與機構內外部合作者在同一個項目環境中對研究數據進行組織、注釋和共享。此外,還提供一系列高級數據管理工具,如版本控制和審核工作流等,促進研究數據管理的最佳實踐。

4.3 數據監控

數據監控模塊能追蹤檢索全球2 000多個數據庫中超過2 810萬個數據集,機構用戶能借助其索引自動追蹤監控本機構科研數據產出情況。Mendeley Data從2 000多個通用和領域數據倉儲收集索引研究數據,按照OpenAIRE元數據方案進行規范描述,經數據清洗刪除無效索引記錄,再利用自然語言處理和文本挖掘技術,綜合DataCite、Scholix、Scopus等多個來源的信息,通過添加出版物鏈接、作者標識符(ORCID、Scopus Author ID等)和機構標識符(Scopus Affiliation ID等)的方式來豐富數據集元數據,從而形成底層數據搜索語料庫(見圖2)。數據監控模塊在此基礎上,比對作者信息和機構隸屬信息的元數據,確定數據集的歸屬,即使在原始元數據中缺少歸屬信息的情況下也能依據增強的元數據進行判斷。因此使得機構科研管理者、圖書館館員能夠追蹤所在機構研究人員發布的數據集,進而進行監控和審核,并且無論這些數據集是發布于機構數據存儲庫中,還是發布于外部的通用或領域數據倉儲中。

圖2 數據監控模塊的工作原理

此外,數據監控模塊通過建立機構用戶專門的研究數據門戶,集中展示本機構的科研數據產出情況,提升機構數據的可發現性和可復用能力。數據監控模塊還提供API服務將數據集元數據集成到機構知識庫(IR)和機構現有研究信息系統(CRIS)中,實現自動匹配作者和鏈接到出版物。此外,還支持導出數據報表和生成報告,以進行批量審核和分析。

5 Mendeley Data的數據發布和共享機制

用戶利用平臺進行科研數據發布和分享,但科研數據的所有權和控制權應當由用戶掌握而非平臺。Mendeley Data平臺由用戶根據需求對數據集進行“私密”或“公開”兩種狀態的權限設置,從而控制數據集的發布。私密狀態意味著數據集尚未發布,用戶可在該狀態下對數據集進行編輯和刪除。用戶設置權限選項為“公開”狀態則意味著對數據集進行發布,類似于正式發表一篇文章,數據集一旦發布則不能進行編輯和刪除,平臺將公開數據集的名稱、所有者、版本、發布時間以及DOI。而即便是發布數據集,用戶仍可以通過設置禁止日期來延遲公開的時間,這對研究者而言有充分的自主選擇權確保在論文發表之前讓研究數據處于非公開狀態,又能保證編輯和審稿人可見。此外,在用戶發布科研數據時,平臺針對各種數據類型,提供了15種資料公開授權許可方式(見表2)供其選擇,包括常見的一系列CC授權條款、軟件許可條款(MIT、Apache、BSD、GPL)以及硬件許可條款,其中CC0許可相對最不受約束,Mendeley Data平臺發送至DataCite的元數據使用該許可方式。

表2 Mendeley Data提供的15種資料公開授權條款

6 Mendeley Data的實踐遵循FAIR原則

開放高效的研究數據管理和共享工具一定是遵循FAIR原則的[14],通過分析Mendeley Data的數據治理流程、其集成的開放生態系統,并進一步梳理其功能,對Mendeley Data研究數據管理流程和系統設計中使研究數據具有可查找性、可訪問性、互操作性和可重用性特征的解決方案進行總結,以供開放科學數據資源建設進行借鑒。

(1)可查找性。Mendeley Data數據倉儲中所有數據集都將被分配DOI,包括數據集下級文件夾和文件,甚至是數據集的不同版本,并且通過數據集元數據注冊和索引,使其能在多個研究數據資源發現系統中被檢索,除Mendeley Data平臺本身提供的檢索之外,在Google Dataset Search、DataCite、OpenAIRE、Open Science Framework都可以被發現。

(2)可訪問性。發布的數據集通過標準化通信協議進行訪問,借助DOI標識符通過HTTPS協議用瀏覽器進行訪問或者REST API訪問。在訪問過程中允許在必要時進行身份驗證和授權,機構用戶可以集成與行業標準SAML 2.0協議兼容(如Shibboleth)的機構認證。即便數據集未來不再可用,元數據仍可被訪問。Meneley Data系統支持“墓碑”DOIs機制,即使數據集從系統中刪除,DOI仍能解析數據集頁面。同時由于在DANS長期存檔,確保了對數據資源的永久訪問,若Meneley Data平臺停止服務,數據集將通過DOIs解析并指向存儲在DANS中的副本,數據集和元數據將永遠可用。

(3)互操作性。Meneley Data使用標準的、廣泛應用的、可訪問的方式來表示知識,其采用JSON格式作為數據交換語言,通過HTTPS/REST協議同時也支持OAI-PMH元數據互操作協議,與其他研究數據管理工具集成進行數據收割和推送;通過語義鏈接關聯研究論文、軟件、其他數據集等研究對象;支持Dublin Core和schema.org標準元數據框架,提供標準元數據字段的標識符(作者及其隸屬機構字段)和受控詞匯表(學科類別和許可條款字段)。

(4)可重用性。Meneley Data基于豐富精確的元數據描述不僅提供數據溯源信息,也促進數據重用。通過許可條款受控詞匯表提供清晰和可訪問的數據使用許可;同時鼓勵用戶編輯“Steps to reproduce”字段,對重演該數據集對應研究步驟和方法進行文字描述;還允許機構和研究人員添加自定義元數據模板來進一步豐富元數據,尤其是可以添加某些特定領域的元數據字段,并且可將自定義元數據字段取值范圍設置為現有的分類法,以便于發現和重用。

7 對研究數據資源建設和科研數據服務的啟示

Mendeley Data的研究數據實踐充分證明了它不僅是研究數據存儲工具,更是工作工具,依據數據重用和共享標準為研究人員提供存儲和發布的工作環境,將研究人員作為共享和重用數據實踐的核心使之真正受益,也通過這種自下而上的方法縮小政策與開放數據基層實踐之間的差距,為開展研究數據資源建設和科研數據服務提供可借鑒的實際措施。

7.1 加強研究數據資源的元數據建設

元數據的價值一直是科學數據各項研究和實踐中探討的重要問題和關鍵問題,元數據標準對科學數據的發現、共享和再利用至關重要[15-16]。機構內部自建研究數據倉儲應使用統一元數據描述標準,提高數據的互操作性。而圖書館或信息服務機構進行開放科學數據資源建設時,可通過建立統一元數據倉儲,對分散的開放科學數據資源進行集成匯聚,以便集中發現,除對公共數據倉儲的數據集進行索引之外,商業出版社也掌握豐富的研究數據資源,在2020年STM研究數據項目的驅動下,有21家出版商13 064種學術期刊參與該項目,并且研究數據聯盟(Research Data Alliance,RDA)的數據政策標準化和實施利益小組為所有期刊和出版商開發了研究數據政策標準框架[17],從出版商的角度積極推動研究數據共享,因此加強與出版商在研究數據元數據方面的合作也十分必要。除此之外,從Mendeley Data的實踐還可以看出,對元數據進行深度標引,配合統一分類系統和受控詞表等知識組織工具的使用,將有利于資源的深度揭示。

7.2 積極加入研究數據國際聯盟和倡議組織

從Mendeley Data可以看出,Elsevier公司作為全球領先的出版企業在研究數據領域非常活躍,是DataCite、Scholix、FORCE11、Research Data Alliance等多個聯盟和組織的成員,在研究數據資源匯聚、關聯、分享、利用,以及標準和指導原則制定等各方面都有布局。國內科研機構,尤其是國家級的科技信息服務機構也應當為開放數據的未來提前做準備,積極加入各類研究數據國際聯盟和倡議組織,與各類學術生態系統參與者(如資助方、機構、出版商和政策制定者)開展廣泛的合作。借助DataCite這類社區的數據資源集成、數據注冊等機制獲得更大范圍的研究數據共享,目前DataCite在中國有5家會員,分別是北京大學、清華大學、中國國家基因庫(China National GeneBank)、中國散裂中子源(China Spallation Neutron Source,IHEP)和全國地質資料館(National Geological Archives of China);同時充分利用全球研究數據基礎設施[18],減少技術成本投入;參與研究數據相關標準和指導原則的制定,并遵循通用的標準和原則開展具體實施。

7.3 拓展研究數據服務類型

圍繞研究數據服務有很多系統的研究,都指出應推行面向科研全生命周期的嵌入式服務,包括發現訪問、數據存儲和管理、培訓教育等[19-23]。Mendeley Data的解決方案使一些服務更具可操作性,如數據鏈接服務,指導作者在數據存儲庫與在線文章之間創建雙向鏈接來實現論文和數據的更容易被發現和訪問。此外以標準化且深度標引的元數據為基礎,也可進一步拓展對科研數據利用價值和潛力的開發,使科研數據和文摘數據一樣,能夠通過數據挖掘和情報分析,為不同類型的用戶提供數據驅動的科研管理決策支撐服務。例如:通過追蹤本機構研究人員發布的數據集情況,更好地響應資助基金要求,輔助管理部門制定機構相關的數據管理政策;跟蹤全球、區域或機構研究數據產出,洞察學科發展趨勢和熱點前沿等[24]。

7.4 推進研究數據引用和人員識別實踐應用,完善激勵和評估機制

數據共享的障礙之一是研究人員需要付出額外的時間和工作,卻無法獲得直接回報。對研究數據的引用可以改變這種情況,通過引用提高發布者的學術研究聲望,以此激勵其分享行為。數據引用是支持數據重用的學術生態系統的一部分,FORCE11工作組為數據引用制定了一套指導原則[25],并為出版商和學術團體提出了實施建議[26]。與論文產出成果的評估類似,引用指標和替代計量指標,同樣適用于研究數據的影響力評估,因此未來數據引用及相關評價指標也可納入當前基于論文引用的評估體系和激勵機制。而推行這方面應用的重要前提是對數據集發布者的身份識別及其歸屬機構的認定,Mendeley Data通過元數據增強進行歸屬認定的做法值得借鑒。

猜你喜歡
研究
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
關于遼朝“一國兩制”研究的回顧與思考
EMA伺服控制系統研究
基于聲、光、磁、觸摸多功能控制的研究
電子制作(2018年11期)2018-08-04 03:26:04
新版C-NCAP側面碰撞假人損傷研究
關于反傾銷會計研究的思考
焊接膜層脫落的攻關研究
電子制作(2017年23期)2017-02-02 07:17:19
主站蜘蛛池模板: 91精品视频在线播放| 国模沟沟一区二区三区| 国产在线一区二区视频| 亚洲狼网站狼狼鲁亚洲下载| 91最新精品视频发布页| 久久综合九色综合97网| 久久国产高潮流白浆免费观看| 亚洲成a人在线观看| 99伊人精品| 欧美日韩免费观看| аⅴ资源中文在线天堂| 欧美国产日韩在线播放| 亚洲国产成人综合精品2020| 久久大香伊蕉在人线观看热2| 午夜毛片免费看| 白浆视频在线观看| 天天综合天天综合| 亚洲国产清纯| 91成人在线免费视频| 国产乱论视频| 亚洲综合色在线| 亚洲Av综合日韩精品久久久| 日本手机在线视频| 亚洲欧洲美色一区二区三区| 国产小视频a在线观看| 国产丝袜第一页| 国产精品漂亮美女在线观看| 亚洲成人免费在线| 久久6免费视频| 凹凸国产分类在线观看| 99九九成人免费视频精品| 亚洲人在线| 97久久人人超碰国产精品| 亚洲天堂精品在线观看| 国产精品自在在线午夜| 亚洲无码熟妇人妻AV在线| 国产午夜人做人免费视频中文| 国产高潮流白浆视频| 无套av在线| 2018日日摸夜夜添狠狠躁| 亚欧美国产综合| 99视频精品全国免费品| 国产精品美女自慰喷水| 99热这里只有免费国产精品| 欧美日本在线播放| 自偷自拍三级全三级视频| 国产福利在线观看精品| 91美女视频在线| 大学生久久香蕉国产线观看| 午夜视频www| 久久熟女AV| 国产成人毛片| 久久国产精品嫖妓| 欧美亚洲国产日韩电影在线| 一区二区日韩国产精久久| 找国产毛片看| 日韩国产亚洲一区二区在线观看| 国产一级精品毛片基地| 精品成人一区二区三区电影 | 国产农村1级毛片| 国产在线精品99一区不卡| 亚洲aaa视频| 91久久偷偷做嫩草影院| 亚洲视频a| 手机永久AV在线播放| 久久综合九九亚洲一区| 亚洲一区二区三区国产精华液| 好吊色妇女免费视频免费| 国产免费人成视频网| 国产精品高清国产三级囯产AV| 丁香婷婷综合激情| 国产免费久久精品99re丫丫一| 国产第四页| 国产美女丝袜高潮| 亚洲第一成年网| 國產尤物AV尤物在線觀看| 中文字幕在线看视频一区二区三区| 老司机久久99久久精品播放| 巨熟乳波霸若妻中文观看免费| 天堂av综合网| 日本不卡在线播放| 中文字幕人成人乱码亚洲电影|