李梅
關(guān)鍵詞:數(shù)據(jù)引用;科學數(shù)據(jù);引用規(guī)范
摘要:文章對開放環(huán)境下國內(nèi)外有關(guān)開放數(shù)據(jù)引用的研究文獻進行了系統(tǒng)梳理和總結(jié),包括數(shù)據(jù)引用的發(fā)展歷程、數(shù)據(jù)引用的關(guān)鍵因素及其互動關(guān)系,在此基礎(chǔ)上進行分析與總結(jié),并提出一些政策意見和建議。
中圖分類號:G250文獻標識碼:A文章編號:1003-1588(2017)11-0128-03
隨著科技出版業(yè)的變革及開放運動的深入開展,科學數(shù)據(jù)開放獲取的基礎(chǔ)環(huán)境已逐步形成。海量的數(shù)據(jù)源及豐富的數(shù)據(jù)環(huán)境使研究人員得以便捷地發(fā)布、發(fā)現(xiàn)、訪問并獲取數(shù)據(jù),如何規(guī)范地引用數(shù)據(jù)自然也受到科學界和出版界的極大關(guān)注。
科學數(shù)據(jù)引用是指提供數(shù)據(jù)參考的做法,類似于研究者為印刷型資源提供參考文獻的方式。數(shù)據(jù)引用是支持數(shù)據(jù)訪問、共享和再利用的一種重要方法。通過數(shù)據(jù)引用,降低科學數(shù)據(jù)發(fā)現(xiàn)和利用的壁壘,提高研究過程的效率和透明度,同時數(shù)據(jù)與出版物的有效鏈接將有助于學術(shù)出版形式的創(chuàng)新,促進跨學科研究,降低科研成本,驗證并創(chuàng)造新的研究成果。
1數(shù)據(jù)引用的發(fā)展歷程
20世紀60年代末期,科學界成立了第一個科學數(shù)據(jù)檔案庫,設(shè)計者開始關(guān)注科學數(shù)據(jù)的獲取、存儲、格式和信息檢索[1]。之后,數(shù)據(jù)引用的理論和實踐不斷發(fā)展,大致經(jīng)歷了四個階段(見表1)。
1.1數(shù)據(jù)可描述與檢索階段
該階段的發(fā)展集中在引文的作用以促進描述和信息檢索。比較典型的是Archive系統(tǒng),Dodd[2]建議參照美國書目參考標準ASBR,以系統(tǒng)一致的方式來描述數(shù)據(jù)集,其核心原則是通過作者、題名和版本字段來描述信息。
1.2數(shù)據(jù)可訪問及獲取階段
受美國科學基金會NSF資助,Altman等[3]開發(fā)了第一個開源和開放獲取出版的數(shù)據(jù)系統(tǒng)Virtual Data Center,即虛擬數(shù)據(jù)中心。該中心通過聯(lián)邦機構(gòu)支持持續(xù)訪問并獲取研究數(shù)據(jù),數(shù)據(jù)引用集成到虛擬數(shù)據(jù)中心,每個數(shù)據(jù)集被分配一個永久標識符和地址,并支持所有的研究數(shù)據(jù)都能被引用,而且這些引用應(yīng)當具有有效的外部鏈接,即具有網(wǎng)絡(luò)可獲取性。
1.3數(shù)據(jù)可驗證及再現(xiàn)階段
該階段數(shù)據(jù)引用與出版生態(tài)系統(tǒng)有了更廣泛的整合,其核心原則是引用應(yīng)當支持驗證數(shù)據(jù)可鏈接及支持被引用數(shù)據(jù)的再現(xiàn)。最具代表性的是Dataverse Network系統(tǒng),其被哈佛大學用作數(shù)據(jù)發(fā)布的基礎(chǔ)平臺,有數(shù)以百計的研究人員和機構(gòu)通過該系統(tǒng)發(fā)布數(shù)據(jù)。
1.4與學術(shù)研究系統(tǒng)可集成階段
該階段重在用標準化的方式集成數(shù)據(jù)引用與學術(shù)研究。例如,Data Dryad、Figshare供科研人員分享科研數(shù)據(jù)的平臺,科睿唯安(原湯森路透知識產(chǎn)權(quán)與科技事業(yè)部)推出數(shù)據(jù)引文索引(Data citation index)。另外,美國國家科學總院(The National Academics)、國際科技數(shù)據(jù)委員會(CODATA)、數(shù)據(jù)引用綜合組(the Data Citation Synthesis Group)等組織經(jīng)過多年努力,使人們認識到數(shù)據(jù)包括數(shù)據(jù)引用是研究出版物不可缺少的一部分,要求數(shù)據(jù)倉儲機構(gòu)/出版平臺提供持久鏈接以保證數(shù)據(jù)的長期可訪問性。
2影響數(shù)據(jù)引用的關(guān)鍵因素
2.1政策和機構(gòu)基礎(chǔ)設(shè)施
隨著科學研究逐漸向數(shù)據(jù)驅(qū)動型發(fā)展,越來越多的國際科學組織認識到獲取、重用數(shù)據(jù)可以促進研究的高效性和有效性,提高公眾的投資回報。科研資助機構(gòu)、研究人員、政策制訂者、出版商、數(shù)據(jù)管理者等,提倡建立數(shù)據(jù)集的相關(guān)基礎(chǔ)設(shè)施,完善基礎(chǔ)設(shè)施機制。如:數(shù)據(jù)政策、數(shù)據(jù)管理、起源追蹤、永久標識符、元數(shù)據(jù)和引用協(xié)議等。
數(shù)據(jù)引用的前提是數(shù)據(jù)共享,在數(shù)據(jù)共享的基礎(chǔ)設(shè)施和服務(wù)方面,協(xié)同合作非常重要。如:科學技術(shù)數(shù)據(jù)委員會(The Committee on Data for Science and Techonlogy, CODATA)、世界數(shù)據(jù)系統(tǒng)(World Data System,WDS)和科學數(shù)據(jù)聯(lián)盟(Research Data Alliance, RDA)于2015年3月達成協(xié)議[4],協(xié)議要求CODATA關(guān)注宣傳、政策和流程,WDS關(guān)注數(shù)據(jù)供給和管理,RDA關(guān)注自下而上的數(shù)據(jù)共享工具和技術(shù)支持。政策制定方面,最為重要的是相關(guān)法律法規(guī)的建設(shè),以此營造一種良好的外部環(huán)境。
2.2技術(shù)基礎(chǔ)
數(shù)據(jù)引用的技術(shù)基礎(chǔ)專注于處理數(shù)據(jù)的基礎(chǔ)設(shè)施、系統(tǒng)及標識符。如:XML歸檔系統(tǒng)、RDF(Resource Description Framework)和數(shù)據(jù)庫、永久標識的使用、定義框架和本體發(fā)布數(shù)據(jù)、創(chuàng)建數(shù)據(jù)庫倉儲及提供對數(shù)據(jù)的訪問等。其中粒度問題、版本控制和唯一標識符是關(guān)鍵影響因素。
2.2.1粒度問題。引用粒度水平代表了數(shù)據(jù)的可重復(fù)性和可檢索性。引用可以是數(shù)據(jù)集、數(shù)據(jù)集中的一個子集,也可以是一個特定記錄集。引用系統(tǒng)應(yīng)當允許多層粒度的引用,適用于數(shù)據(jù)、數(shù)據(jù)集或記錄集的粒度應(yīng)因上下文信息、不同規(guī)模和類型的數(shù)據(jù)等實際情況而不同。如:一組由圖像組成的數(shù)據(jù)集,圖像離開上下文環(huán)境仍能使用,而在特定時間點的大氣測量數(shù)據(jù)集離開了上下文就會毫無意義,這時就應(yīng)給予不同類型的標識符。DCC指出,數(shù)據(jù)引用粒度以滿足研究者需求為準,如有不準確的地方,則需要在文章中引用數(shù)據(jù)的地方,寫明引用數(shù)據(jù)集的細節(jié)信息[5]。
2.2.2版本控制。在數(shù)據(jù)的生命周期中可能會存在多版本的數(shù)據(jù)引用,如果動態(tài)數(shù)據(jù)集的變化過大或過于頻繁,則難以追蹤管理。好的版本控制可以解決諸如多版本系統(tǒng)的數(shù)據(jù)更新、同一數(shù)據(jù)集中引用多層粒度的問題,可以記錄和跟蹤數(shù)據(jù)的修改歷史,可以使數(shù)據(jù)得以協(xié)作處理和共享。
2.2.3唯一標識符。數(shù)據(jù)引用唯一標識性,要求數(shù)據(jù)引用應(yīng)當擁有一個機器可以識別的、全球唯一的、能夠被廣泛使用的可持續(xù)方法。隨著唯一標識符方案的相繼推出,出現(xiàn)了諸如數(shù)字對象標識符(DigitalObjectIdentifier,DOI)、統(tǒng)一持久資源定位符(Persistent Uniform Resource Locator, PURL)和文檔資源鑰匙持久標識符架構(gòu)(the Archival Resource Key, ARK)等。這些方案提出了將唯一標識符與可引用的數(shù)據(jù)集建立映射關(guān)系,從而創(chuàng)建一組相關(guān)的元數(shù)據(jù)(如作者、版本、URL)用于引用數(shù)據(jù)。唯一標識符是數(shù)據(jù)引用的關(guān)鍵因素,但由于數(shù)據(jù)對象本身具有的多樣性、動態(tài)性及邊界模糊性,給標識符的分配帶來了一定的困難,如何從根本上解決這一問題,還要冀希望于新技術(shù)的出現(xiàn)。endprint
3數(shù)據(jù)引用關(guān)鍵因素間的互動
科學數(shù)據(jù)的引用元素與傳統(tǒng)基于文獻的引用具有其相似性,但又因科學數(shù)據(jù)獨特的屬性而不盡相同。解決數(shù)據(jù)引用的核心問題是諸如粒度、版本、唯一標識符等技術(shù)規(guī)范問題,而數(shù)據(jù)引用規(guī)范的制訂又會受到數(shù)據(jù)出版、共享政策等因素的制約。筆者把政策和機構(gòu)基礎(chǔ)設(shè)施歸屬于外部環(huán)境因素,良好的外部環(huán)境因素可以有效地促進數(shù)據(jù)引用及技術(shù)的發(fā)展,而技術(shù)的發(fā)展又可以影響環(huán)境及文化建設(shè)。從二者互動的關(guān)系看,環(huán)境和技術(shù)是一種相互影響,又相互促進的關(guān)系。
3.1縱向維度
從縱向維度看,開放數(shù)據(jù)不僅僅只是數(shù)據(jù)發(fā)布的過程,還包括數(shù)據(jù)發(fā)布之后的存儲、管理、引用等,供除數(shù)據(jù)提供者之外的研究人員或者組織機構(gòu)下載、分析、再利用,以及引用數(shù)據(jù)。規(guī)范的數(shù)據(jù)出版應(yīng)包括數(shù)據(jù)提交、同行評議、數(shù)據(jù)發(fā)布和永久存儲、數(shù)據(jù)引用、影響評價等五個階段[6]。Koppenol等建立了開放數(shù)據(jù)的實踐模型:數(shù)據(jù)引用與追溯、數(shù)據(jù)互操作、數(shù)據(jù)的無限制復(fù)用及數(shù)據(jù)語義互聯(lián)四個階段[7]。在開放數(shù)據(jù)的每個階段中,良好的政策引導(dǎo)及共享機制,加上唯一標識符、版本控制等技術(shù)手段的實施,將促進數(shù)據(jù)共享的意愿及數(shù)據(jù)引用的良性發(fā)展。
3.2橫向維度
數(shù)據(jù)引用涉及多重利益相關(guān)者,受到多維因素的影響。許多學者從多角度對數(shù)據(jù)引用進行分析或是構(gòu)建模型、提出框架構(gòu)想。張麗麗[8]從數(shù)據(jù)的時間屬性出發(fā),立足數(shù)據(jù)的全生命周期,剖析數(shù)據(jù)引用過程中的數(shù)據(jù)擁有者、出版商、用戶、整合者、監(jiān)管者的角色特征及相互關(guān)系與影響,認為靈活多樣的選擇數(shù)據(jù)引用規(guī)范方法,需要更多地關(guān)注數(shù)據(jù)相關(guān)利益者的行為特征,以有利于數(shù)據(jù)引用的可持續(xù)發(fā)展。
3.3兼顧縱橫維度
在數(shù)據(jù)出版周期的各個節(jié)點,制定政策方的各主體旨在創(chuàng)設(shè)一種數(shù)據(jù)引證文化,建立數(shù)據(jù)共享機制、數(shù)據(jù)使用和復(fù)用機制、評價及獎勵機制,從環(huán)境的角度對數(shù)據(jù)的獲取、復(fù)用及引用產(chǎn)生影響;而數(shù)據(jù)引用的參與者、技術(shù)和利益相關(guān)者之間動態(tài)地對數(shù)據(jù)引用政策施以挑戰(zhàn),影響環(huán)境及文化建設(shè)。
4結(jié)語
基于以上對開放環(huán)境下數(shù)據(jù)引用的關(guān)鍵因素進行梳理和總結(jié),筆者認為推進數(shù)據(jù)引用的發(fā)展可以從環(huán)境和技術(shù)兩個方面加強,即健全發(fā)展數(shù)據(jù)引用相關(guān)機制和推進數(shù)據(jù)引用行為的規(guī)范化。環(huán)境方面,政府應(yīng)當建立與數(shù)據(jù)引用相關(guān)的法律法規(guī),要完善科研評價和人才激勵機制;圖書館、數(shù)據(jù)中心、科研機構(gòu)要加強對數(shù)據(jù)發(fā)布、共享及保存機制的規(guī)范要求,建立規(guī)范的管理機制。技術(shù)方面,數(shù)據(jù)發(fā)布/存儲機構(gòu)在發(fā)布數(shù)據(jù)時,應(yīng)提供數(shù)據(jù)引用示范供使用者參考,或?qū)κ褂谜呓o出足夠詳細的數(shù)據(jù)屬性描述信息(如唯一標識符及訪問地址)。
參考文獻:
[1]Bisco RL. Social Science Data Archives Technical Considerations [J].Social Science Information,1965(3):129-150.
[2]Dodd S.A. Bibliographic reference for numeric social science data feles: suggested guidelines[J]. Journal of the Association for Information Science & Technology,1979 (2):77-82.
[3]Altman ML, Andreev M. Diggory, G. King, S. Verba, et al. A digital library for the dissemination and replication of Quantitative Social Science Research The Virtual Data Center[J]. Social Science Computer Review,2001(4):458-470.
[4]CODATA. International organizations form partnership to increase the benefit of research data for society[EB/OL]. [2016-10-10]. https://www.eurekalert.org/pub_releases/2015-03/rda-iof030915.php.
[5]Ball A, Duke M. How to cite datasets and link to publications[EB/OL]. [2016-11-03]. http://www.dcc.ac.uk/resources/how-guides/cite-datasets/.
[6]張靜蓓,任樹懷.科研數(shù)據(jù)出版模式、流程及引用策略研究[J].圖書情報工作,2015(9):21-25.
[7]Koppenol P , Divisional A. Open data in a big data world[J].Chemistry International, 2016(2):17.
[8]張麗麗,黎建輝.數(shù)據(jù)引用的相關(guān)利益者分析[J].情報理論與實踐,2014(7):44-47.
(編校:馬懷云)endprint