司 莉賈 歡(.武漢大學信息資源研究中心 武漢 43007;.武漢大學信息管理學院 武漢 43007)
·新理念、新思潮、新視野論壇·
科學數據的標準規范體系框架研究*
司 莉1賈 歡2
(1.武漢大學信息資源研究中心 武漢 430072;2.武漢大學信息管理學院 武漢 430072)
科學數據標準規范體系的建立有助于科學數據資源的交換與共享。通過調研科學數據相關平臺及查閱相關文獻,初步構建了科學數據標準規范體系框架,并探討其具體內容,涉及價值鑒定標準、數據質量規范、元數據編寫規范及元數據標準、分類編碼標準、數據發布規范、引用標準六個方面,以期為我國科學數據標準規范體系的建立提供借鑒。
科學數據 標準規范 元數據 引用標準 分類編碼
〔引用本文格式〕司莉, 賈歡.科學數據的標準規范體系框架研究[J].圖書館,2016 (5):5-9
科學數據是人類在認識世界、改造世界的科技活動中所產生的原始性、基礎性數據,以及按照不同需求系統加工的數據產品和相關信息[1]。在大數據科研環境下,對科學數據的獲取和利用是保障與促進科研創新的前提。國內外缺少統一的科學數據標準規范體系,妨礙了不同領域科學數據的交換與共享。筆者在總結他人研究成果及調研現有科學數據平臺標準的基礎上,探討了科學數據標準體系框架,認為該標準體系由價值鑒定標準、數據質量規范、元數據編寫規范及元數據標準、分類編碼標準、數據發布規范、引用標準六個方面構成,以期對科學數據標準規范體系的建立提供借鑒。
2.1科學數據標準規范體系框架
我們認為科學數據標準規范體系框架由以下內容組成:價值鑒定標準、數據質量標準、元數據編寫規范及元數據標準、分類編碼標準、數據發布標準、引用標準。如圖1所示:

圖1 科學數據標準規范體系框架
2.2框架構成的要素
2.2.1價值鑒定標準
科學數據價值鑒定標準為衡量科學數據質量提供了參考依據。我們在借鑒相關研究的基礎上[2],提出科學數據價值鑒定通用標準,主要由以下內容組成(見表1)。

表1 科學數據價值鑒定通用標準
其中,成本效益標準中的替代成本僅適用于除觀察與觀測數據外的科學數據。在實際對科學數據價值進行判斷時,需要進一步制定詳細的可量化價值鑒定標準指標,使標準具有可操作性。每一指標所涵蓋的范圍應明確,并盡量避免各指標所涵蓋內容之間的交叉。
2.2.2數據質量標準
數據質量測評是鑒定科學數據價值的首要依據。我們在參考中國科學院計算機網絡信息中心制定的《數據質量評測方法與指標體系》[3]的基礎上,歸納出數據質量評價指標,如表2所示。

表2 數據質量評價指標
除了上述通用的數據質量測評規范,我們還需要制定專業領域的數據質量標準。如可借鑒中國林業科學研究院資源信息研究所針對林業領域制定的《林業專題空間數據質量控制標準》[4],提出林業專題空間數據的質量標準包括數據的完整性(包括數據覆蓋范圍和數據層完整)、位置精度(包括數學基礎精度、平面位置精度)、屬性精度、合理性(包括數據邏輯一致性、拓撲一致性、成圖合理性)等內容。
2.2.3元數據編寫規范及元數據標準
(1)元數據編寫規范
元數據編寫規范包括數據集名稱規范和數據集摘要規范。如地球系統科學數據共享網制定了《元數據編寫規范(討論稿)》[5]。其數據集名稱應包含數據統計時間、區域、精細程度、專題要素等內容。如數據集名稱“全國1:10萬土地利用數據(1980s,1995,2000)”。其中“全國”為數據的區域;“1:10萬”為數據的精細程度;“土地利用”為專題要素;“1980s,1995,2000”表示數據統計時間。數據集摘要規范需說明數據來源和數據的加工生產與整理方法。在編寫元數據時,還應注重元數據的粒度規范,即在哪個層次上(數據實體、數據集、數據庫)編寫元數據,如地球系統科學數據共享網規定以數據集為基本單位進行元數據的編寫。
(2)元數據標準
我們認為,元數據標準包括通用的元數據標準和專業領域的元數據標準。
①通用的元數據標準。通用的元數據標準應包括描述信息、元數據參考信息和聯系信息3個模塊。如中科院網絡信息中心制定了通用的《數據集核心元數據標準》[6]。其中描述信息、元數據參考信息均為必選模塊,聯系信息為輔助模塊。元數據元素由9個屬性來定義:中文名稱、英文名稱、標識、定義、類型、值域、可選性、最大出現次數、注釋。3個模塊及其所包括的元數據元素如表3所示。②專業領域的元數據標準。為了解各專業領域科學數據的元數據標準現狀,筆者對地震[7]、林業[8]、生態[9]、煤地質學[10]領域的專業元數據標準,從元數據實體和元素的定義和描述方式及其屬性、元數據實體集模塊劃分3個方面對其元數據標準進行歸納,如表4所示。

表3 核心元數據標準模塊及其元數據元素

表4 專業元數據標準及其元數據元素
由上表可知:a在元數據實體和元素的定義和描述方式中,地震和林業領域均包括摘要表示和字典表示兩種方式,地震領域還提出了用UML(Unified Model Language)圖方式。UML圖采用統一建模語言進行模型的構建,并用以表示元數據子集、元數據實體和元數據元素之間的關系。b在定義和描述方式的屬性元素中,地震和林業領域的摘要表示屬性相同,字典表示的屬性中,林業領域比地震領域多了“級別”屬性,地震領域中的一個屬性為“短名”,在林業中為“短名和域代碼”,其他屬性均相同,生態領域的數據元素屬性除了比地震領域的多“英文名稱”屬性外,其他的大致相同。c在元數據實體集模塊劃分方面:地震、林業、生態、煤地質四個領域均包含標識信息、分發信息、數據質量信息三個模塊。可見,在制定專業領域的元數據標準時,此三個模塊為必要模塊,其他模塊可根據專業領域的不同建立其特有的信息模塊。
2.2.4分類編碼標準
為了解各個專業領域的科學數據分類編碼現狀,筆者對基礎科學數據[1]、地震[11]、人口健康[12]、林業[13]、煤礦安全領域[14]的科學數據的分類編碼規范進行分析,從編碼結構/分類法、代碼形式、代碼長度、代碼表示方式四方面對專用分類編碼規范進行歸類整理。如表5所示:

表5 專業領域的科學數據分類編碼規范
2.2.5數據發布規范
數據發布是數據共享的前提。《地震科學數據發布規范》包括數據的分級、元數據的發布要求、元數據的發布對象及發布方式、質量控制等內容[15]。地震科學數據分為四個等級。一級數據為可向社會公眾公開發布的數據;二級數據為能夠向國內、國外用戶提供的數據;三級數據為可以向國內用戶提供的數據;四級數據為只允許向特定范圍的用戶提供的數據。發布方式有在線方式和離線方式。一至三級數據以在線方式為主發布,在線方式主要通過網站提供數據的查詢、瀏覽和下載,四級數據主要采取離線方式發布,離線方式主要通過光盤和紙介質等媒體提供數據。元數據的發布要求應為所有用戶提供查詢和下載服務。發布原始數據或加工數據時,應同時發布與該數據集相關的基礎數據;發布加工數據時,應同時說明數據加工的方法和程序,以及使用的原始數據和基礎數據;鼓勵發布與數據解釋或應用所需的應用程序;鼓勵對原始數據進行加工和產品開發,并發布加工數據和產品;應盡可能提供數據的可視化展示;應采用國家標準物理單位,并說明或標明數據的單位;應說明數據的質量信息。數據的發布對象及發布方式如表6所示:

表6 科學數據的發布對象及發布方式
在發布數據時,一級、二級、三級數據均要求應同時發布相應的元數據或文檔說明,注明數據來源、內容、格式、時間屬性(范圍和分辨率)、空間屬性(范圍和分辨率)、制作單位等。二級和三級數據還要求注明統計處理方法、質量狀況和質量控制方法。各級數據在發布前均需對數據進行質量控制,四級數據的要求最為嚴格,必須按照國家有關標準和規范制作,并經過嚴格的質量檢測后才能發布,發布時要采取必要的安全措施,保證數據的安全。
2.2.6引用標準
科學數據的規范化引用目的是借鑒傳統文獻評價體系,使用類似引文的評價方式,對數據創建者的貢獻給予承認并量化貢獻度。數據規范引用有利于保護數據創建者的知識產權,便于統計和分析數據引用情況。為用戶提供數據定位和參考機制,增加數據的重用與共享,并提供了驗證科研過程的路徑[16, 17]。科學數據的規范化引用格式分別由通用領域和專業領域提出。
(1)通用領域科學數據引用規范
中國科學院計算機網絡信息中心提出科學數據通用領域的引用規范[18, 19]。其引用規范均包含兩種形式,分別為由必選元素組成的引用格式和由全部元素組成的引用格式兩種。
計算機網絡信息中心制定的《科學數據引用規范》對科學數據的引用包括八個必選要素(作者、名稱、發布機構[發布機構]、發布年份、傳播機構[傳播機構]、傳播時間、唯一標識符和解析地址)和一個可選要素(版本)。其中,由必選元素組成的引用格式為:作者.名稱.發布機構[發布機構],發布年份.傳播機構[傳播機構],傳播時間.唯一標識符;解析網址. 由全部元素組成的引用信息格式為:作者.名稱(版本).發布機構[發布機構],發布年份.傳播機構[傳播機構],傳播時間.唯一標識符;解析網址.
(2)專業領域科學數據引用規范
筆者調研國家地球系統科學數據共享平臺,此平臺也為用戶提供了數據引用格式,如在數據直通車欄目的20個條目數據集中[20],除了2條的數據引用聲明元素中沒有解析網址,其他18條數據引用格式均為:作者.名稱.出版者,出版時間.唯一標識符,解析網址。
如:張鐿鋰,李炳元,鄭度.《論青藏高原范圍與面積》一文數據的發表:青藏高原范圍界線與面積地理信息系統數據.全球變化科學研究數據出版系統,2014. DOI: 10.3974/geodb.2014.01.12.v1,http://www.geodoi. ac.cn/doi.aspx?doi=10.3974/geodb.2014.01.12.v1[21]。
筆者進一步瀏覽本平臺的其他數據集,發現引用格式與數據直通車中的并不一致,說明此平臺引用標準還沒有完全統一。
目前,數據引用格式還需進一步規范化。制定數據引用標準需要考慮以下幾個基本問題:數據版本、數據粒度、數據驗證、引用數據或數據論文、唯一標識符分配[16, 17]。數據引用標準制定需要數據擁有者、數據出版商、數據用戶、數據整合者、數據監管者等的共同努力。
筆者初步構建由價值鑒定標準、數據質量標準、元數據編寫規范及元數據標準、分類編碼標準、數據發布標準、引用標準組成的科學數據標準體系框架,并探討了其組成的要素。目前,還未建立關于價值鑒定標準的完整的指標體系;在數據質量規范方面,專有領域的質量測評指標有待細化;元數據標準中標準模塊、元數據表示方式及元數據要素屬性也需要進一步規范;分類編碼還缺少通用標準;引用標準因學科領域、平臺的不同而有所差異。科學數據標準體系本身仍需進一步完善,如將數據交換格式、數據資源加工規范、互操作技術規范、數據庫建設規范、資源唯一標識符規范、數據服務規范等隨著研究的豐富與實踐的積累逐漸納入標準體系之中。對于科學數據的標準規范體系的探討還處于起步階段。
(來稿時間:2015年11月)
1.基礎科學數據分類規范[EB/OL].[2015-09-14].http://www. nsdc.cn/upload/110526/1105261317389550.pdf
2.鄧君,賈曉青,馬曉君,等.科學數據價值鑒定標準研究[J].情報科學, 2013, 31(9):37-41
3. 數據質量評測方法與指標體系[EB/OL]. [2015-09-16]. http://www.nsdc.cn/upload/110526/1105261353505540.pdf
4. 林業專題空間數據質量控制標準[EB/OL].[2015-09-16]. http://www.forestdata.cn/uploadword/7-linyezhuantikongjianshu juzhiliangkongzhibiaozhun.html
5. 地球系統科學數據共享網元數據編寫規范(討論稿)[EB/OL].[2015-08-25].http://www.geodata.cn/Portal/metadata/ publish.jsp?isCookieChecked=true
6. 數據集核心元數據標準[EB/OL].[2015-07-14].http://www. nsdc.cn/upload/110526/1105261308547770.pdf
7. 地震科學數據元數據編寫指南[EB/OL].[2015-09-15]. http://data.earthquake.cn/policy/metadata060301.doc
8. 林業科學數據元數據標準(V3.10版)[EB/OL]. [2015-09-15].http://www.forestdata.cn/uploadword/1-linyekexueshujugongxiangyuanshujubiaozhun(V3.10).html
9. 吳彬.生態科學數據元數據及其標準研究[J].中南林業科技大學學報, 2010, 30(12):75-79
10.曹代勇,郝偉.煤地質學元數據標準化研究[J].煤炭學報, 2008, 33(3):285-288
11. 地震科學數據數據分類與編碼[EB/OL].[2012-09-12]. http://data.earthquake.cn/policy/fenleibianma.doc
12. 人口健康科學數據共享平臺數據資源分類與編碼方案 [EB/OL].[2015-09-03].http://www.ncmi.cn/UploadFile/7/0/b660 d6dbf9e0b9e97a4421fbdf765d07.pdf
13. 林業科學數據分類與編碼(V1.0)[EB/OL].[2015-09-16]. http://www.forestdata.cn/uploadword/5-linyekexueshujufenleiyubianma.html
14. 郝秦霞,趙安新,盧建軍.煤礦安全系統數據資源共享標準的構建[J].礦業安全與環保, 2008, 35(2):31-33
15. 地震科學數據數據發布規范[EB/OL].[2015-09-12]. http://data.earthquake.cn/policy/shujufabu.doc
16. 王丹丹.科學數據規范引用關鍵問題探析[J].圖書情報工作, 2015, 59(8):42-47, 53
17. 張靜蓓,田野,呂俊生.科學數據引用規范研究進展[J].圖書與情報, 2014(5):100-104
18. 科學數據引用規范[EB/OL].[2015-07-13].http://www.nsdc. cn/upload/120822/1208220929441440.pdf
19. Data Citation[EB/OL].[2015-09-05].http://ands.org.au/ cite-data/index.html
20. 數據直通車[EB/OL].[2015-09-08].http://www2.geodata. cn/thematicView/
21. 青藏高原范圍與界線數據[EB/OL].[2015-09-08]. http:// www2.geodata.cn/data/datadetails.html?dataguid=15975219648 1165
Study on Standard and Specification Systematic Framework of Scientific Data
Si Li1Jia Huan2
( 1.Center for Studies of Information Resources, Wuhan University;2.School of Information Management, Wuhan University )
〕Establishing standard and specification systematic framework of scientific data help scientific data resources exchanging and sharing. By investigating relevant scientific data platforms and reading literature, this article builds systematic framework and discusses its content which includes six aspects: value appraisal standard, data quality specification, metadata writing specification and metadata standard, classification and coding standard, data published specification, reference standard, so as to provide reference to establish the system of standard and specification for scientific data in China.
〕Scientific data Standard specification Metadata Quoted standard Classification and coding standard
G250
* 本文系教育部人文社會科學研究項目“我國科學數據集成與共享的保障研究”(項目編號:13YJA870016)、國家自然科學基金“大數據環境下科研數據機構庫聯盟形成機理及其服務研究”(項目編號:71573198)成果之一。
司莉(1965-),女,博士,教授,研究方向:知識組織與知識管理;賈歡(1988-),女,博士研究生,研究方向:知識組織與知識管理。