閆 鑫,黃國彬
近年隨著信息技術普及,以數據密集型科學發現為主的科學研究新范式興起。國內外關于科學數據概念的界定有很多,本研究認為科學數據是指在科技活動中(實驗觀測調查等)或通過其他方式所獲取的反映客觀世界本質特征變化規律等的原始基本數據,以及根據不同科技活動需要,進行系統加工整理的各類數據集。科學數據因其實用性、經濟性、珍稀性等特點有極高的利用價值。作為科技論文的核心論據,科學數據的傳播引用已越來越受到重視。科學數據作為科學研究中重要的科研資源正逐漸成為學界研究關注的熱點。
當前有關科學數據分類體系的研究較少,而研究科學數據分類有利于促進對科學數據的組織,讓科學數據的管理更加有序。研究科學數據分類,有利于完善科學數據的檢索分類,使科學數據能通過更多更有效的渠道被檢索發現;有利于完善科學元數據的設計,構建更完整有效的元數據框架體系;能夠推動揭示科學數據的特殊性與差異性,更方便科學數據的管理;對科學數據的管理機構、研究機構、高校以及科學數據發布平臺等機構開展科學數據的管理有直接的幫助。本研究對國內外目前關于科學數據分類的文獻內容進行梳理歸納,評析當前科學數據分類維度與分類結果,以期進一步提升對科學數據的管理與使用水平。
筆者以“科學數據”“科研數據”“研究數據”為關鍵詞在中國知網、Web of science 與Scopus等數據庫進行文獻檢索。經過對檢索得到的文獻結果進行整理與分析,以了解當前研究中科學數據的分類方式與分類結果的研究現狀。國內研究方面,2019年3月21日,筆者在中國知網圖情領域上,以“科學數據”“科研數據”“研究數據”為篇名檢索詞,通過瀏覽文獻中關于科學數據定義與類型等模塊的內容,去除分類混亂或者表達不明晰的文獻,最終篩選出介紹科學數據分類維度和分類類型的文獻共94篇。國外研究方面,2019 年3 月22 日,筆者分別在Web of science 與Scopus 兩個數據庫以“science data”“researchdata”“data types”“data forms”“data classifications”“data genres”為檢索詞,瀏覽與科學數據分類相關并且去分類混亂或者表達不夠明晰的文獻,最終篩選出介紹科學數據分類維度和分類類型的文獻共86篇。本文調研國內外關于科學數據的文獻中提及科學數據分類與類型的文獻共180篇。這些研究中,有具體介紹科學數據不同的分類方式與分類結果的文獻不足30篇,其余均簡略地提及某一種分類方式,后續論文中關于文獻數量的統計均與上述兩次檢索時間一致。目前研究中提及科學數據分類類型的文獻內容所占篇幅較少。可以看出當前學界對科學數據分類情況的相關研究關注較少,關于科學數據分類的研究有待深入。
目前科學數據的分類方式大多從科學數據內容相關性、數據完整性與數據可靠性等角度進行劃分,對依據科學數據其他性質如數據權威性進行分類的研究較少。常見的科學數據分類方式包括:(1)內容相關性。指科學數據所在的領域與使用者需求內容所在領域的匹配情況。周力虹、Borgman等從與科學數據相關的內容領域對科學數據進行分類[1-2]。(2)數據完整性。指在整個科學數據生命周期中數據內容保存的準確與完整。Palmer、公曉從數據內容類型與數據格式類型完整的角度對科學數據進行分類[3-4]。(3)數據可靠性。指數據來源渠道的可靠性與數據處理過程中數據的準確性與時效性。周倩、Lan Z等從科學數據獲取的來源渠道的可靠程度等角度對科學數據進行分類[5-6]。(4)數據權威性。指一些科學數據因內外部因素影響而具有代表性、典型性。李志芳等以不同類型組織機構的權威程度不同的思路出發,按組織機構類型對科學數據進行分類[7]。另外,Sinnott 等人基于科學數據的開放程度對科學數據進行分類[8]。
針對科學數據分類方式與分類結果,當前研究欠缺從使用者的思維邏輯角度出發,依據使用者選擇數據的判斷過程作比較系統的考慮。科學數據使用者的思維邏輯是指使用者在選擇匹配自己需求的科學數據時進行判斷與篩選的邏輯過程。
使用者的目的不同,對科學數據的需求也不同。筆者結合選擇科學數據過程的經驗,一般情況下使用者選擇科學數據時會首先考慮科學數據的內容與需求的相關程度,其次是科學數據的完整程度,接著是科學數據的準確程度與時效性等角度,最后會考慮科學數據的權威程度等。在有多種科學數據可供選擇的情況下,使用者會傾向于選擇具有權威的科學數據。
目前關于科學數據分類的研究中較多是單從某一個或某幾個性質出發對科學數據進行分類,而不是按照科學數據使用者的邏輯判斷順序系統地對科學數據進行分類與管理。本文對當前科學數據分類情況進行分析與述評,梳理科學數據的分類體系,以期為科學數據的元數據設計與面向科學數據的智能檢索等提供有價值的理論支撐。

圖1 科學數據分類維度
首先,通過整理篩選出的國內外文獻的分類維度和分類類型,一共總結出13 個分類維度。其次,按照分類維度對所提及的文獻進行統計。由于有些文章含有多個分類維度,所以會出現一篇文章在不同分類維度中被多次統計的情況。最后,按照13個分類維度,依次對相應的研究分類情況進行整理、分析與述評,以期對當前科學數據分類研究有綜合性的梳理總結。
對科學數據進行分類是為了更好地組織數據與使用數據。使用科學數據時,使用者有自己的邏輯判斷順序,會考慮數據的內容相關性、數據完整性、數據可靠性與數據權威性等性質來選擇合適的數據。科學數據分類也可以從科學數據的這幾個性質出發,按照不同維度對科學數據進行分類。通過研究按照科學數據的性質進行分類的文獻內容,也可以反映出當前使用者在使用科學數據時優先考慮順序的。
通過對當前國內外科學數據分類相關研究的梳理,本文從科學數據內容相關性、數據完整性、數據可靠性與數據權威性等4 個角度出發,對13個科學數據分類維度進行評析。梳理總結得到的科學數據分類維度如圖1所示。依據4個性質梳理總結出13個科學數據分類維度。其中白色框圖的維度是當前研究中已提到的分類維度,灰色框圖的維度是當前研究中還沒有提到但出于更好地管理與使用科學數據等目的,本文建議補充的科學數據分類維度。圖1展示的4個科學數據性質與13個科學數據分類維度的涵意介紹如下:
(1)內容相關性。科學數據內容相關性是指科學數據內容所在領域與使用者需求內容所在領域的匹配情況。科學數據的學科是指科學數據所在的科學研究領域。科學數據的主題是指研究專業、行業、領域中具體研究某一方面內容所形成的特征詞匯。
(2)數據完整性。科學數據完整性是指在一個細分主題下的分類通用的完整性,體現在某一維度下子主題的完整性,常見如時間、地理、手段以及對象等。從計算機可處理角度對科學數據分類是指依據科學數據的內容特征與結構特征,從科學數據可被計算機處理的科學數據類型角度出發的一種分類維度。科學數據的出現位置是指科學數據生成、處理與存儲所在的位置及其載體形式。從分類后可涵蓋研究對象全樣本的角度對科學數據進行分類是指科學數據通過某種劃分方式分類后,分類結果總體可涵蓋全部科學數據。按科學數據的地理維度分類是指按科學數據所在的空間范圍進行不同維度的分類。按科學數據的時間維度分類是指按科學數據出現的時間范圍進行不同維度的分類。
(3)數據可靠性。數據可靠性包括數據準確性和數據時效性,在數據完整的基礎上保證數據質量,使更多優質數據被發現與利用。科學數據獲取是指獲取科學數據的方法、途徑。科學數據的來源是指產生科學數據的系統或包含數據的記錄集,科學數據的獲取方法是指獲取科學數據采用的技術手段。科學數據處理是指按照不同的需求采用不同的方式和工具對科學數據進行加工處理的過程。
(4)數據權威性。科學數據權威性是指數據代表性和典型性。權威性數據具有輻射性廣、實用性大、論證性強等功能。依據科學數據組織機構分類屬于依據機構權威程度對科學數據進行分類。數據被引情況是指搜索者使用數據搜索引擎即利用現有的數據庫,根據自身需求檢索并引用數據的情況。依據科學數據的資助機構對其進行分類,可以反映科學數據的權威性程度與影響力范圍。根據科學數據發布人的權威性對科學數據進行分類,也可以反映出科學數據的權威性程度。
3.2.1 內容相關性
科學數據的內容相關性越高,科學數據內容與使用者需求內容的匹配程度越高,說明越符合使用者的需求。通過文獻閱讀梳理,表1為依據內容相關性對科學數據分類的文獻及其分類結果。
(1)學科。本研究中國內研究科學數據按學科分類的文獻共24 篇,國外研究的文獻共12 篇。全學科分類是指對所有學科進行分類。對具體學科進行分類是針對某一具體學科進行分類。由表1可以看到,提出學科分類依據對科學數據進行分類,保證了不同學科間使用數據時的通用性與互操作性;列舉部分學科名稱進行分類是依據普遍常見的學科進行總結歸類。結果種類較多,不夠統一,提出學科分類依據的劃分方式更具有普適性。
國內外研究對比,從分類方式看,全學科分類角度中,國內外分類相似,國外研究比國內研究較少提出學科分類依據。從分類結果看,國內外研究在全學科角度分類中較為相似,具體學科角度分類根據學科特點而不同。
(2)主題。本研究中國內研究科學數據按主題分類的文獻共8篇,國外研究共20篇。目前研究中,分類方式不夠統一,比較雜亂。按科學數據外部特征分類方面,錢鵬等[18]基于科學數據元數據中描述其外部特征的項進行分類維度的劃分。這種方法對科學數據的分類就會比較全面,且獲得數據時也具有通用性與可操作性。還有些其他研究列舉科學數據的可分類的外部特征項,這種方式不夠全面與系統,建議可直接依據元數據外部屬性項確定劃分方式。另外,還有研究專門針對社會屬性這一外部特征進行分類,這是一般元數據協議時不會設置的元數據項,建議根據研究需要與事先調研,補充其他的元數據標準中沒有涉及但研究需要的科學數據外部特征,進而對科學數據進行分類。
國內外研究對比,從分類方式看,國內研究依據科學數據的內容特征與外部特征進行分類,而國外研究更關注依據內容特征,從某一具體主題進行分類,按外部特征進行分類的研究 較 少 。 Showalter 等[20]、 Henderson 等[21]和Wulbrecht等[22]分別對行星數據、癌癥數據與生命科學數據等具體主題進行分類。從分類結果看,國外研究專指性較強,依據主題特點不同分類結果也不同。
3.2.2 數據完整性
完整的科學數據在數據集合中有較全面的數據,能完整地描述數據情況以支持各種統計分析等應用。在使用者選擇科學數據時,完整性數據有助于使用者正確地進行分析與決策,缺失數據可能會對決策帶來干擾甚至誤判。通過文獻閱讀梳理,表2為依據數據完整性對科學數據分類的文獻及其分類結果。
(1)計算機可處理。本研究中國內研究科學數據按數據內容類型分類的文獻共27篇,國外研究共31篇。科學數據的內容類型是指表達數據內容的基本交流形式的類別以及數據內容被使用者感知的感官類別。科學數據的格式類型是指結合數據內容的瀏覽、播放、運行等活動所需設備的類型,其反映數據存儲媒介格式以及數據載體裝置的類型。按科學數據內容類型分類的研究對科學數據分類結果多樣,建議按照公曉[4]的分類結果,根據研究需求與研究領域科學數據特點,建立科學數據內容類型劃分標準。按科學數據格式類型分類的研究可以看作是基于數據內容類型的數據存儲硬件類型的分類。衛軍朝和蔚海燕[38]的分類結果有些簡略。

表2 依據數據完整性的科學數據分類結果
國內外研究對比,從科學數據內容類型看,國外研究主要從基本科學數據內容類型和具體領域科學數據內容類型等兩個類別進行分類,且更多的研究是從具體類型列舉展開。從科學數據格式類型看,國外一些研究會提出具體分類依據,如 Blower 等[39]與 Koziana 等[40]列舉了 NetCDF、HDF、Sensor和ASCII FIT等數據格式;分類結果方面,國內研究比國外研究有更多更詳細的分類類型。另外,國內研究比國外研究更經常提及列舉具體格式。
(2)數據出現位置。本研究中國內研究科學數據按數據存儲位置分類的文獻共7篇,國外研究共4篇。科技文獻出現位置分類角度,張迎等[30]的劃分方式是依據科學數據出現位置與文獻相關聯的類型進行劃分,這種方式比單純考慮與文獻關系要更加詳細描述科學數據在文獻中的作用。數據庫中存儲位置分類角度,張新興[31]提出按照科學數據出現的位置盡量全面列舉來分類。
國內外研究對比,從分類方式看,科技文獻出現位置分類角度中較少有文獻內部的分類方式;從分類結果看,國內研究比國外研究有更詳細的分類類型;從研究數量與分類方式結果等可以看出,按照科學數據存儲位置分類國內研究比國外研究更深入。
(3)分類結果涵蓋研究對象全樣本。從這個角度出發對科學數據進行分類可以體現科學數據的完整性。關于科學數據,從分類后可涵蓋研究對象全樣本的角度對科學數據進行分類常見的具體分類維度有科學數據結構化程度。科學數據的結構化程度是指數據梳理的標準規范化程度,其反映的是對科學數據進行描述與揭示的字段的豐富程度。本研究中國內研究科學數據按數據內容類型分類的文獻共5篇,國外研究共4篇。國內外研究對比,分類方式與分類結果都較為一致,均按照科學數據結構化程度將其分為結構化數據、半結構化數據以及非結構化數據等。
(4)地理維度。在自然地理方面,數據的地理維度是指數據的自然區域,可分為綜合自然地理區以及對數據所在區域按某一自然要素分區。在行政地理方面,數據的地理維度是指數據的政治經濟區域。不同范疇的數據區域,其性質和數據范圍也不同。本研究中國內研究科學數據按區域分類的文獻共4篇。常見的從自然地理維度分類分為青藏高原科學數據、極地科學數據等,這種劃分方式是列舉常見的自然區域科學數據,不夠全面系統。常見的從行政地理維度分類分為省市級的科學數據,這種劃分方式也是列舉常見的行政區域科學數據,不夠全面系統。但是由于行政地理已有劃分好的行政區域,所以便于系統地組織按照科學數據行政區域分類的結果類型。張新興[41]提出從空間位置維度,通過地球系統科學數據共享平臺提供即點即找檢索功能,即通過在頁面中點擊空間位置進行數據的查找。
通過文獻調研發現,目前關于按照地理維度對科學數據進行分類的研究較少。按照地理維度對科學數據進行分類,可以更好地保證科學數據的空間覆蓋完整性,并且找到更有地理位置針對性的科學數據資源,有利于使用者篩選出更完整優質的又滿足自己需求的數據資源。
3.2.3 數據可靠性
在使用者選擇科學數據時,數據越可靠越有助于使用者分析后得到可靠的結果。當前研究中按科學數據可靠性劃分的維度包括獲取數據過程的可靠性與處理數據過程的可靠性等。數據獲取強調數據來源渠道的可靠性,數據處理強調數據處理過程的可靠性。通過文獻閱讀梳理,表3為依據數據可靠性對科學數據分類的文獻及其分類結果。
(1)數據獲取。本研究中國內研究科學數據按數據獲取過程可靠性分類的文獻共35篇,國外研究共9篇。目前按照科學數據獲取分類的研究中,按數據生成方式分類是指按照數據生成的方式對科學數據進行分類,這種分類方式是基于科學數據獲取方法總結補充產生。按數據來源渠道分類是指按科學數據獲得的來源途徑對科學數據進行分類。由表3可以看到,目前研究中按照數據生成方式分類的研究較多且分類結果較統一全面,其主要依據數據生成方法進行歸類。而當前按照數據來源渠道分類的研究較少,且分類結果比較雜,主要是列舉獲取相關研究領域科學數據的渠道,缺乏統一的數據來源渠道劃分標準。

表3 依據數據可靠性的科學數據分類結果
國內外研究對比,從分類方式看,國外研究較少關于基本類型的分類方式;從分類結果看,國內外按科學數據獲取分類的研究均較多,且常見分類結果相似,互有補充。
(2)數據處理。本研究中國內研究科學數據按數據處理分類的文獻共20篇,國外研究共6篇。從資源利用角度對科學數據分類是指依據數據不同階段的利用價值不同而對數據進行分類:從生產階段角度對科學數據分類是指對數據從產生到最終整個生產過程進行劃分。由表3 可以看到,目前研究中按照資源利用與生產階段對科學數據進行分類的分類結果重疊部分較多,分類結果相似度較高。本文認為當前研究對其分類太過細碎與重復,分類結果可統一為原始數據、加工數據與最終數據。另外,依據處理層次對科學數據進行分類強調的是科學數據獲得時被加工的狀態,當前研究中依據處理層次對科學數據分類的研究較少。
國內外研究對比,國內研究調研并借鑒國外研究分類方式。國內外研究相互交流,所以從分類方式與分類結果來看,國內外研究均較為相似。
3.2.4 數據權威性
在使用者選擇數據時,考慮數據權威性有助于數據使用結果更有典型性和代表性。當前研究中按科學數據權威性對科學數據進行分類的研究較少。通過文獻閱讀梳理,表4為依據數據權威性對科學數據分類的文獻及其分類結果。
科學數據的組織機構是指發布和使用科學數據的單位。當前國內外研究對科學數據按組織機構分類的文獻較少。本研究中,國內相關研究按組織機構分類的文獻共7篇。目前國內多數學者按常見的組織機構對科學數據進行分類,但卻缺乏統一的組織機構劃分標準。另外,目前研究行業內組織機構類型不夠完善,建議行業內組織機構可按科研、企業、高校、政府機關等維度進行劃分。
國內外研究對比,國外比國內從科學數據組織機構分類的研究少,總體來看,科學數據從組織機構角度進行分類的研究比較缺乏。

表4 依據數據權威性的科學數據分類結果
當前有關科學數據分類的研究,主要基于科學數據的內容相關性與數據完整性等角度,而從科學數據的時間維度、數據被引情況、資助機構以及發布人等維度來進行科學數據類型劃分的研究仍未出現。如圖1所示,灰色框圖是本文建議補充的科學數據分類維度。本文依據科學數據性質依次對建議補充的科學數據分類維度進行評析。
(1)時間維度。時間維度對科學數據分類與管理、選擇優質科學數據是一個重要的影響因素。首先,時間連續性對有些研究十分重要,例如化學實驗中,實驗室獲取的原始數據需要是從實驗開始到突變再到實驗結束這整個時間段的全紀錄,如果缺失了某部分實驗數據就可能影響整個實驗的分析判斷。另外,不同時間段對研究的開展與分析也有深遠影響。歷史上不同時間階段的器物上的化學物理數據均可反映其所在時間階段的發展特征,時間階段對于歷史研究十分重要。使用者比較關心科學數據的時間連續性與階段性,但是目前研究中關于按照時間維度對科學數據進行分類的劃分方式比較少,對于科學數據的分類方式還有待于進一步完善,并且對于科學數據的充分利用還有待于進一步提升。
(2)分類結果涵蓋研究對象全樣本。當前研究中從分類結果涵蓋研究對象全樣本角度對科學數據分類的分類維度,只有按科學數據結構化程度這一個維度。實際上考慮分類結果涵蓋科學數據全樣本的分類維度還有很多,有待于進一步發現。
當前研究中按科學數據權威性對科學數據進行分類的研究較少。依據科學數據管理與科學數據篩選過程,本文認為,從數據權威性的角度進行分類,可以從科學數據的機構權威程度、數據被引情況、資助機構與發布人等維度考慮。
(1)機構權威程度。科學數據分類可以根據其所在機構權威程度進行分類,進而揭示科學數據的權威性程度及影響力范圍。上述科學數據按組織機構分類屬于依據機構權威程度對科學數據進行分類,但當前關于按組織機構對科學數據分類的劃分方式與結果還不夠完善,有待進一步的發展。
(2)數據被引情況。數據被引情況包括獲取某個數據倉儲、機構或個人的數據被引情況。數據被引情況可以反映出數據的影響力程度,按照數據被引情況對科學數據分類可以更好地組織影響力范圍更廣的數據,幫助使用者使用優質數據。但目前按照數據被引情況對科學數據分類的研究較少,難點在于數據被引渠道的標準化以及數據被引量級的確定。
(3)資助機構。按照科學數據的資助機構對其進行分類,可以反映科學數據的權威性程度與影響力范圍。當前研究中主要是針對資助機構資助的科研項目規模對科學數據進行分類的。科學數據的產生有一部分來源于科研項目。按照科研項目的規模可以對科學數據進行分類。當前研究中科學數據按照其項目規模可分為兩類:一類源于大科學研究,大都有著完善的管理與維護機制;另一類源于小科學研究,往往存儲于研究者個人計算機和服務器中,缺乏統一標準與分享機制,更缺乏長期利用和共享策略。目前高校、科研院所等的研究實踐更具小科學研究的特點,急需有效的數據轉換、保存、組織與管理服務機制[2,46-47]。
(4)發布人。發布人權威性評價指標包括其所屬機構、職稱以及學術權威(包括研究數量與質量等)等。根據科學數據發布人的權威性對科學數據進行分類,有利于從創建者角度對數據權威性程度進行劃分。但目前按照科學數據發布人對科學數據分類的研究較少,難點在于發布人權威性評價指標的標準化以及各指標量級的確定。
通過對國內外科學數據分類的文獻梳理后,可以發現當前從內容相關性與數據完整性等角度對科學數據分類的研究較多,而從數據權威性角度對科學數據分類還沒有引起學界足夠的關注。另外,當前研究也較少從數據完整性中的時間維度出發對科學數據進行分類。
關于科學數據分類維度與分類結果的國內外研究對比,可以發現:(1)依據內容相關性與數據完整性對科學數據分類的國內外分類維度與分類結果相似,國外研究比國內研究更注重具體領域內的科學數據分類。(2)依據數據可靠性對科學數據分類,國內研究比國外研究深入,分類維度更多。國內外研究關于科學數據分類方式會相互交流、互相補充,并且數據可靠性是研究數據質量學者常會關注的問題,在科學數據實際應用中,數據平臺設計者也會通過系統方式控制。(3)國內外研究中,依據數據權威性對科學數據分類的研究均較少。除了國內比國外研究關于依據科學數據組織機構分類的研究更多以外,其余的維度國內外研究均較少開展。
關于從使用者思維習慣的角度對科學數據分類,對目前科學數據分類研究的文獻整理總結可以發現:(1)當前的科學數據分類體系部分體現了使用者的思維邏輯。首先考慮的是內容相關性、數據完整性與數據可靠性角度的科學數據分類維度較完善,之后考慮的數據權威性角度的科學數據分類維度較少。(2)本文調研的依據科學數據性質分類的文獻數量反映了使用者的思維習慣。目前研究反映了使用者選擇科學數據時的思維邏輯順序,從內容相關性與數據完整性等角度開展科學數據分類的研究已較多,關于順序靠后的從數據權威性角度開展科學數據分類的研究還有待進一步深入。
隨著科學數據的發展,對科學數據的分類組織不再只是為了更全面完整地管理科學數據,還需要從數據質量、數據影響力以及數據權威程度等角度對科學數據進行分類組織。通過完善科學數據分類體系,有助于構建更完整有效的元數據框架體系,有助于完善科學數據檢索系統及其索引目錄,有助于推動揭示科學數據的特殊性、差異性,以便從更多維度、更好地管理科學數據。