鄭伯爽 賀子岳 陳曉峰
(1.武漢理工大學 法學與人文社會學院,湖北 武漢430070;2.湖北省科技信息研究院《科技進步與對策》編輯部,湖北 武漢430071)
開放科學正在逐漸改變傳統的科學范式,隨之而來的是第四種科學范式——數據密集型科學范式的形成和發展,數據作為信息時代信息和學術傳播的重要載體,也越來越引起人們的重視,對數據如何進行管理、利用和存儲等問題成為學術界重點關注的話題。科研數據知識庫的發展也成為解決上述問題的重要手段之一,但是截至目前,相關研究人員還未對數據知識庫進行統一的定義,我國學者劉峰、張曉林在一篇名為《科研數據知識庫研究述評》中較為全面地將科研數據知識庫定義是可以有效保存、管理科學數據的工具,同時支持各種科研活動以及知識創造的數字知識庫。[1]本文采用這一定義。
目前,對科研數據知識庫方面的研究,國外的研究內容比較豐富,主要集中選取多個科研數據知識庫進行對比分析其服務功能和特點。我國的研究主要是對比分析我國和歐美國家的科研數據知識庫目前存在的差異,并參考國外科研數據知識庫建設發展提出的建議,為我國科研數據知識庫建設和發展提供合理的參考依據。
對科研數據知識庫質量控制方面的研究,通過對比分析相關文獻可以看出,目前國內外關于科研數據知識庫質量控制的實踐活動以及研究還處于初級發展階段,由于科研數據知識庫質量控制的方法、體系和機制還有待完善,質量控制政策的滯后性,導致了科研數據知識庫質量控制問題日益突出。科研數據知識庫質量控制問題得以有效控制和管理既是當前科學數據管理工作以及研究亟須解決的問題,也是當前科學研究創新的重要突破口。
基于此,本文以數據知識庫質量控制為研究對象,對科研數據知識庫質量控制流程進行深入地梳理和剖析,并提煉出在質量控制過程中存在的問題及相應的參考建議。
在大數據環境中大量的數據資源被分布在各個領域,聚集和加載在各個環節,在此時如何利用數據知識庫進行科研數據整合,包括多個數據源的一致性、合規性以及兼容性,成為科研數據知識庫質量控制過程的重要組成部分。而且對科研數據知識庫質量控制的研究貫穿于科學數據生命周期的全部過程,因此本文將從數據出版流程的角度出發,對科研數據知識庫質量控制進行探討。科研數據知識庫數據出版流程有五個階段,如圖1所示,分別是數據提交階段、數據存儲階段、數據審核階段、數據發布階段以及數據引用階段。下文將從這五個環節對數據知識庫質量控制流程進行闡述。

圖1 科研數據知識庫質量控制流程
通常情況下,數據提交有兩種主要方式:一種是數據生產者自行提交方式,即數據論文和科學數據結果的創建者提交并上傳到公共平臺。另一種提交方式是平臺人員支持提交方式。這意味著科研數據知識庫的工作人員將幫助數據創建者將科學數據存儲在數據知識庫中。
1.1.1 數據生產者自我提交的質量控制
數據生產者自我提交方式是由科研人員本人把自己的科學數據或者是數據成果提交到在線數據提交平臺上的一種提交方式,并且這種自主提交方式還需要提交指南作為指導。
目前主要有兩種數據在線提交平臺,第一種是基于免費的開源軟件開放的在線提交平臺,如DSpace、Dataverse。其中典型的Dryad數據知識庫就是在DSpace開源軟件的基礎上開發而形成的,Data Share是在Dataverse開源軟件的基礎上開發形成的。第二種是由科研數據知識庫的機構自主研發出來的在線提交平臺,不要進行二次操作驗證即可在線提交的平臺,這種在線提交平臺都是根據數據知識庫自身的功能、服務特點以及需求研發形成的,符合了目標用戶的實際需求。不僅如此,數據在線提交平臺無論是在免費的開源軟件上進行二次開發形成的,還是自主研發出來的,都有相應的數據提交指南,數據提交到在線提交平臺上都需要按照提交指南的要求進行提交。
提交指南會指導并要求數據提交者按照規定的提交標準進行提交,在一定程度上也保證了提交數據的質量,對數據質量起到一定的控制和管理的作用。一般分為四個標準化的要求:提交理由、提交前的準備、提交流程以及提交后對數據集等的處理。
1.1.2 平臺人員支持提交的質量控制
平臺人員支持提交方式是科研數據知識庫最常用的方式之一,也就是平臺人員與數據提交者共同合作完成的一種提交方式,通常情況下,工作人員會按照一定的評估標準,對即將提交到科研數據知識庫的科學數據進行評估,如英國環境數據分析中心科研數據知識庫的評估環節是由該科研數據知識庫工作人員對即將納入的數據集進行評估,評估數據是否符合存儲的價值和意義,主要針對科學數據的質量、完整性、準確性等進行評估。如果不合適,將會把這些數據推薦到其他的地方進行存儲,如果合適將提交到科研數據知識庫,進行下一步存儲的操作。[2]也就是進行數據提交前的準備工作,科研數據知識庫的工作人員需要制定詳細的數據提交計劃,準備如何對數據集進行描述以及確保數據格式的正確性等。如UKDA數據知識庫的相關工作人員制定了數據提交計劃,可以按照這個計劃對科學數據進行提交,而且UKDA還會根據數據大小來選取適合的存儲方式。
數據存儲是科研數據知識庫穩定運行的前提,是檢索數據價值的基礎。通過數據生產者自行提交或協助數據知識庫工作人員提交并上傳到科研數據知識庫的數據,再通過科研數據知識庫對這些數據進行描述、分類,這是對科研數據知識庫存儲數據的基本程序。科研數據知識庫會根據不同學科類別的科學數據進行主題劃分,如學科基礎類的科學數據(物理、天文、地理等)和科學數據創建的方法(實驗采集、觀測采集等)以及基本的數據文本和數據庫等。這些數據主要分為元數據、臨床數據、圖像數據、特點項目的數據、圖像元數據以及音頻數據等。
這樣,所有存儲的數據都要符合數據知識庫的存儲格式和標準,同時提高了數據知識庫中數據的完整性和準確性。如Shin等[3]研究的科研數據知識庫可以存儲來自30多個研究項目里的總共2000多個數據,由于大量數據存儲其中,為避免出現誤差,需要明確數據存儲格式和規范。
數據審核是數據出版過程中的必要環節,不同學科領域的審核內容和方式各不相同。數據審核也叫數據評審,最常見的英文翻譯是Reasearch Data Review,簡稱RDR,數據評審與學術論文中的同行評審類似,數據評審是科研數據知識庫質量控制的重要方法之一,由于數據評審處于初步發展階段,目前業界尚未對其有統一的定義,有學者認為數據評審是評估數據和相關文件的過程,也有學者認為數據評審是數據質量控制的重要方法。基于科研數據知識庫的數據評審一般包含3方面的內容:首先是數據評審標準,其次是數據評審的實踐和項目的說明,最后是數據評審內容的說明。對這3個內容進行評審,確保數據的科學質量。
數據發布是數據出版的重要環節之一。不同的科研數據知識庫有不同的數據發布平臺和渠道。目前,科研數據知識庫主要有3個數據分發渠道。第一個是數據庫數據目錄,第二個是相關期刊文章,第三個是綜合數據目錄。最常用的發布渠道是數據庫的數據目錄。科研數據知識庫中發布的數據通常包括數據庫本身和有關數據庫的大量信息、許可協議和相關出版物、科學研究成果等。同時不同的科研數據知識庫關注的數據細節也有區別,其中,專業型數據庫中的大量數據通常比公共科學數據庫中的大量數據詳細得多。對可以追蹤到來源的科學數據,科研數據知識庫一般會選擇期刊論文作為其發布渠道;集成數據目錄這類發布渠道,一般是數據集或者數據集的元數據的發布渠道;集成數據目錄是數據知識庫拓展出的新式數據發布渠道,能夠增加數據集被發現和被利用的可能性。
同時,不同科研數據知識庫的數據發布時間也不同。科研數據知識庫鼓勵并允許在提交和審查后盡快發布數據集。但是,也有非正常情況下,科學數據提交者可以自行決定暫停發表,并且大多數科研數據知識庫會根據規定,會給用戶提供延遲期。這種發布時間延遲的原因主要有3個:一是敏感數據發布會延遲;二是在發表期刊文章時會推遲科學數據的發表;三是由于資助機構的要求,出版延遲。
數據引用或者是數據利用是數據庫出版過程中最重要的環節,在出版過程中占有重要地位。科研數據知識庫中的數據質量控制往往是對規范數據引用格式和完善數據引用標準表體現出來。如今,數據引用格式有很多種,包括DOI、URL、OpenURL等。同時也包含一種新的數據引用技術——數據指紋。其中,就目前來看DOI應用最為廣泛,原因在于DOI具備唯一性、永久性以及更新及時性等特征。一方面可以實現數據引用過程中數據版本和數據地址的及時更新和迭代,另一方面可以維護數據作者的署名權。
目前,國內外不同的科研數據知識庫的數據引用格式往往也不一樣,但數據引用格式的內容大都包含作者、年份、數據地址、訪問地址數據等重要元素,還要盡可能地反映數據類型和數據檢索時間。當用戶再引用數據時也遇到引用數據格式不一致的問題,目前全球范圍內還未對數據引用格式作統一的標準,因此科研數據知識庫會根據自身的需求以及功能定位形成了自己獨特的數據引用格式和標準,并且也將這些數據引用標準形成對科研數據知識庫數據引用質量控制的明文規定。
科研數據知識庫的數據質量控制包含科學性和技術性質量控制兩個方面,其中科研數據知識庫較多使用的是技術標準層面的質量控制,通常情況下需要通過多種技術手段對數據本身以及描述數據集進行技術性評估。如NCAR(美國國家大氣研究中心)的科研數據知識庫會提供軟件統計分析數據內容,檢查數據產生和輸出的一致性,但是面對大規模的數據集的審查,將是一個難點,也無法對這種大規模的數據集進行這種技術性審查,原因在于目前質量控制過程中技術支持還有待加強。大規模的數據集描述需要數據知識庫不斷更新各種在線工具用于支撐數據集的描述,并檢查數據集的完整性、正確性。但是通過調研發現,目前部分科研數據知識庫可能在技術版本的更新上面缺乏反饋機制,并未及時有效地更新這些在線服務的平臺。也就是說現有的相關應用并不能解決當前實際問題,亟需根據數據的實際需要開發相應的技術性的管理工具。
數據評審體系不健全主要體現在數據評審標準、數據評審流程、數據評審內容3個方面。首先是數據評審標準的不統一,科研數據知識庫的數據評審標準一般都是根據本科研數據知識庫自身需求和情況而制定的,也就意味著不同學科類型的科研數據知識庫,或者是同一學科類型但是不同的科研數據知識庫都有其本身的數據評審標準,因此在數據評審過程中,評審專家會按照數據評審標準給出的評審意見的標準也不統一,會造成學術不公的問題。
其次是數據評審流程不健全,一般情況下,期刊論文數據評審主要是由期刊編輯部進行初次審核,再由評審專家進行匿名評審的過程,由調研可知,科研數據知識庫的數據評審的流程會更加的復雜,如Scientific Data 根據自身的情況采取三段式的審核流程。《中國科學數據》采用五段式的審核流程,然而根據科研數據知識庫本身情況而定的數據評審流程,同時也會導致科研數據知識庫與數據期刊的數據評審權責不分明的問題,數據評審細節難以說明,數據評審過程浪費大量的時間和精力,降低了數據評審的效率,同時也會導致學術不公平的現象。
科研數據知識庫作為科學數據傳播和共享的基礎設施建設,是科學技術發展的重要基礎,同時也是促進學術交流的重要平臺,因此具有很強的專業性和嚴謹性。而目前高校并未設置相關專業,缺乏對此類人才的關注和培養,造成了數據質量控制人才緊缺的局面,導致目前科研數據知識庫質量控制相關人員由于質量控制實踐不充足,因此并不具備專業性,在實踐中容易出現質量控制不當的現象。
同時對相關人員缺乏及時的培訓,導致其專業水平有限,還是依據之前的標準和意識對目前不斷變化的科研數據進行控制。數據質量水平的高低與數據質量控制專家和團隊的專業水平息息相關,依托高水平的專家和團隊,使得科研數據經過嚴格的檢查、控制,也可以提交上傳至數據知識庫,這樣不僅保障了數據質量而且也保障了數據知識庫的質量,從而提高了科學數據的利用率。因此提高相關質量控制人員的專業素養迫在眉睫。
打造功能更加豐富的科研數據知識庫數據管理工具。科研數據知識庫的數據在整個生命周期過程中易受多種復雜因素影響,使用一種技術難以充分保證數據質量的有效性。所以應根據數據的實際需要開發相應的技術性的管理工具,同時在各個階段保持基于知識的數據質量。國外一些科研數據知識庫數據在管理工具和平臺的開發和使用方面比較成熟,我國也在這方面取得一定的進展,我國要不斷地提高這方面的技術,可以把國外的技術管理平臺作為建設自己數據知識庫數據管理工具的參考,因此研究人員應該好好利用國外的經驗。
加強技術對元數據的加持作用。基于科研數據知識庫的元數據控制需要進行全面擴展,以滿足用戶大量數據描述和實時捕獲的需求。一方面,需要采用元數據自動生成技術,需要通過爬蟲工具抓取網頁資源的時間戳、文件類型、URL、MIME等信息,并對HTML網頁源代碼進行解析和標記,即可獲取這些信息。從而實現海量元數據的管理。[4]另一方面,可以探索用于開發元數據管理工具的開源技術應用程序。美國地質調查局在其官網上推薦了數據管理和元數據創建等工具,并公布了下載鏈接。[5]
完善現有數據評審體系和標準,規范當前的數據評審實踐活動,包含完善并提高評審標準,提高評審人員的專業素養等。在此基礎上,探索未來數據評審的新模式——開放同行評審,OpenAIRE在一則報告中提到,未來科研模式新趨勢之一是開放同行評審,簡而言之,開放同行評審就是將作者和評審專家的身份公開的一種數據評審方式。也就是說在這種模式的驅動下,通常情況下會公開作者的身份和評審者專家的身份、公開評審專家給出的意見、公開作者的原始論文和最后定稿的論文、公開數據評審的流程、公開數據評審專家互動過程、公開出版平臺等。
這種新的模式不同于以往依靠評審專家對數據論文等進行評審,而是把科研數據、科研成果提交并上傳到網上,并及時邀請學術專家或者是評審專家對這些提交到網上的科研成果進行質量控制,判斷其是否具備存儲和利用的價值。與此同時,這些專家對數據論文的評審意見也會成為判斷其是否成為評審專家的依據。雖然開放同行評審目前處于起步階段,并且面臨著一定的爭議,但是在多個學科領域已被采用并且效果顯著。如F1000 Research[6]在數據提交后,經過期刊內部編輯人員對數據進行初步的審核之后,使得提交的數據處在一個“等待開放同行評審”的狀態,與此同時作者需要推薦5個數據評審專家對其數據進行評審。
質量控制人員在質量控制實踐中扮演著重要的“把關人”角色,是科研數據知識庫質量控制實踐過程中必不可少的一部分,也是科研數據知識庫發展的必然趨勢。質量控制人員的“把關人”角色,有利于提高工作人員的質量控制意識,進一步提高數據知識庫的質量,提高科學數據的質量水平和可信度,為我國成為科技強國打下堅實的基礎。因此,首先,需要提高相關工作人員的數據質量控制意識,對數據管理人員進行培訓,再教育,使他們認識到數據質量控制的重要性和意義,意識指導實踐,讓這些工作人員能夠在日常的質量控制過程中成為合格的“把關人”;其次,增設質量審核崗位,填補多年質量審核崗位人才的缺失現狀,廣泛招納科研英才,選取具備較高學術水準和聲望的專家作為質量審核專家,質量審核專家可以依據自身專業優勢對科學數據的質量加以審核和評估,從而降低了因審核經驗不足導致的質量問題;最后,加強相關崗位的人才隊伍建設,構建專門的質量審核團隊,一定數量的質量審核人員是數據知識庫質量控制的保障,使其可以運用專業知識對每一次的數據質量控制起到很好的監督和把關作用。
科研數據知識庫質量控制不僅提高了科學數據的質量和重用性,而且也提高了科研數據知識庫的質量水平,同時也日益成為數據知識庫建設和資助機構提升競爭力的必然要求。在開放科學背景下,科研數據知識庫質量控制的提升策略是建立在科研數據知識庫質量控制實踐活動中的,需要有效地解決目前數據質量控制面臨的種種問題。一是加強質量控制的技術支持,開發出功能更加豐富的數據管理工具;二是探索開放同行評審的新模式,提高數據審核的效率;三是提高數據管理人員的專業素養,降低因為人為原因造成的數據質量低的問題。
因此,科研數據知識庫的質量控制不僅需要國家層面的支持還需要每一個利益相關者之間的溝通和協作,并結合我國國情的實際需要和數據知識庫的功能定位標準,利用國外成功的經驗,建立一個比較完整的科研數據知識庫質量控制體系,同時這樣也會促進世界范圍內開放科學運動朝著縱深方向發展。