吳振新,寇晶晶,單嵩巖,張潤杰
(1.中國科學(xué)院文獻(xiàn)情報中心;2.中國科學(xué)院大學(xué)圖書情報與檔案管理系;3.國際關(guān)系學(xué)院圖書館;4.首都經(jīng)濟(jì)貿(mào)易大學(xué)信息學(xué)院)
隨著全球數(shù)字化進(jìn)程進(jìn)一步加快,越來越多行業(yè)、領(lǐng)域的信息以數(shù)字方式生成,并以唯一形式存在,但數(shù)字信息資源的保存和使用面臨生命周期短、易被更改、嚴(yán)重依賴環(huán)境等風(fēng)險,同時還易受自然災(zāi)害、戰(zhàn)爭和國際政治秩序變革等因素的影響。因此,數(shù)字信息資源的長期保存已經(jīng)成為各機構(gòu)戰(zhàn)略資源管理的重要舉措,并逐步成為各國國家信息安全的重要內(nèi)容。
2004年起,數(shù)字資源長期保存國際會議[1](Inter nationalConferenceonDigitalPreservation,iPRES) 每年一屆在亞、美、歐三大洲輪流舉辦,成為數(shù)字資源長期保存領(lǐng)域展示成果、宣傳理念、學(xué)術(shù)推介、合作共享的專業(yè)平臺,對全球數(shù)字資源長期保存理論和實踐發(fā)展起到了積極的推動作用。我國研究人員一直關(guān)注和追蹤著該會議的情況。[2-8]鑒于iPRES在長期保存領(lǐng)域的重要作用和前瞻性,本文旨在通過對2008-2017年iPRES會議論文的統(tǒng)計和分析,把握國際長期保存的研究重點和發(fā)展趨勢,揭示研究熱點、難點、未來發(fā)展趨勢和國際合作狀況,以期為我國數(shù)字資源長期保存的發(fā)展提供參考。
文章以2008-2017年的iPRES會議論文為數(shù)據(jù)來源,使用分析工具對其進(jìn)行初步分析和挖掘。
對2008-2017年iPRES的會議成果(不包含PPT等非論文性質(zhì)的產(chǎn)出)進(jìn)行初步統(tǒng)計(見表1)。可以看出,iPRES的論文產(chǎn)出在2016年之前處于較為平穩(wěn)的上升狀態(tài),2017年出現(xiàn)了急劇下滑。

表1 2008-2017年論文發(fā)表數(shù)量
為了更準(zhǔn)確地了解當(dāng)前數(shù)字資源長期保存領(lǐng)域的概況,文章在表1的基礎(chǔ)上進(jìn)行了更深層次、更多角度的挖掘和分析,旨在挖掘出具有研究潛力和較強學(xué)術(shù)發(fā)展趨勢的個人、機構(gòu)和國家,為研究數(shù)字資源長期保存領(lǐng)域的學(xué)者或關(guān)注長期保存領(lǐng)域的個人提供參考。合作分析是掌握當(dāng)前研究發(fā)展趨勢的重要途徑之一,主要研究不同作者、國家及機構(gòu)之間的合作情況,通過合作分析可以發(fā)現(xiàn)當(dāng)前研究的聚焦點。
1.2.1 作者發(fā)文及合作分析
筆者對534篇文章的作者進(jìn)行了統(tǒng)計(對同一作者不同署名進(jìn)行了確認(rèn)和歸一),得到了2008-2017年長期保存領(lǐng)域發(fā)文量Top20的作者(見表2),并對發(fā)文量Top10的作者其歷年發(fā)文量做了統(tǒng)計和分析(見表 3)。

表2 2008-2017年發(fā)文量Top20的作者
(1)分析2008-2017年發(fā)文量Top20作者可知,德國費賴堡大學(xué)共4人發(fā)文50篇/次,奧地利維也納技術(shù)大學(xué)共2人發(fā)文25篇/次,英國樸次茅斯大學(xué)共2人發(fā)文16篇/次,英國數(shù)字保存中心DPC共2人發(fā)文15篇/次,此外還涉及國家級圖書館4個、大學(xué)4所。從國家層面看,美國、英國、德國、奧地利獨領(lǐng)風(fēng)騷,均有高產(chǎn)作者。
(2)由近五年發(fā)文比重可以快速得知近五年來較為活躍的作者,避免因過度關(guān)注發(fā)文總量和長期積累量而忽略現(xiàn)實活躍度的情況,相當(dāng)于從時效性角度對發(fā)文總量做了補充。由表3可知,Andrea Goethals雖然總發(fā)文量僅有8篇,但有7篇發(fā)表在了近五年的會議上,基本上可以認(rèn)為是近五年內(nèi)崛起的領(lǐng)域新秀;此外,還有A.Lee Christopher(總發(fā)文量13篇,近五年發(fā)文10篇)、Eld Zierau(總發(fā)文量13篇,近五年發(fā)文9篇)、Rudolf Mayer(總發(fā)文量8篇,近五年發(fā)文5篇)等人,在今后的研究中都值得重點關(guān)注。

表3 2008-2017年發(fā)文量Top10作者歷年發(fā)文統(tǒng)計
(3)筆者分析了作者之間的合作共現(xiàn)情況,進(jìn)一步發(fā)現(xiàn)了有跟蹤價值的團(tuán)體。如,英國科學(xué)與技術(shù)設(shè)施理事會(Science and Technology Facilities Council,STFC)的BrianMatthews所在的小組、丹麥皇家圖書館的Eld Zierau所在的小組、英國數(shù)字保存聯(lián)盟(Digital Preservation Coalition,DPC) 的 Angela Dappert所在的小組等。
1.2.2 國家發(fā)文及合作分析
分析國家發(fā)文及合作情況有助于了解當(dāng)前哪些國家在該領(lǐng)域的投入和產(chǎn)出較多,有助于尋求國外的合作伙伴,借鑒其成功經(jīng)驗。在對國家發(fā)文進(jìn)行統(tǒng)計之前,筆者對國家名稱數(shù)據(jù)進(jìn)行了清洗:① 對同一國家名稱寫法不同的問題進(jìn)行了處理,如合并Netherlands和the Netherlands;② 對聯(lián)邦國家的名稱進(jìn)行了合并,如將北愛爾蘭、威爾士、英格蘭、蘇格蘭以及聯(lián)合王國等統(tǒng)一著錄為United Kingdom。
(1)表4為2008-2017年發(fā)文量Top20的國家,與高產(chǎn)作者情況非常一致,美國、英國、德國、奧地利等位居前列。

表4 2008-2017年發(fā)文量Top20的國家
(2)筆者研究了國家之間的合作共現(xiàn)情況(見圖1)。圖中畫圈代表該國家的中心度較高,即在一定程度上與其他國家的合作較頻繁。可以發(fā)現(xiàn),美國、德國、新西蘭、荷蘭和丹麥的中心度較高,與世界其他國家合作相對頻繁,在世界范圍內(nèi)具有較高的影響力。其中,丹麥雖然發(fā)文總量較上述幾個國家處于弱勢,但其中心度最高,也就是說其合作強度高于其他國家,在世界范圍內(nèi)比較活躍,合作范圍比較廣泛。相比之下,我國的發(fā)文量少,合作國家僅有德國。發(fā)文量少說明我國對數(shù)字資源長期保存領(lǐng)域的關(guān)注度、投入和產(chǎn)出都處于劣勢;合作國家單一說明了我國在該領(lǐng)域的國際影響力和國家合作度均較低,未來應(yīng)努力加強與世界其他國家的合作。

圖1 國家合作共現(xiàn)
1.2.3 機構(gòu)發(fā)文及合作分析
在對機構(gòu)發(fā)文進(jìn)行統(tǒng)計之前,依據(jù)文章貢獻(xiàn)歸屬原則對機構(gòu)名稱數(shù)據(jù)進(jìn)行清洗,主要針對同一個機構(gòu)多種名稱寫法、不同語種、不同簡稱等情況進(jìn)行合并,如一所高校的學(xué)院、分校、圖書館等都署名為該高校。由此,得到2008-2017年發(fā)文量Top20的機構(gòu)(見表 5)。

表5 2008-2017年發(fā)文量Top20的機構(gòu)
(1)由表5可以看出,發(fā)文量比較靠前的機構(gòu)有大英圖書館、北卡羅來納州立大學(xué)和維也納技術(shù)大學(xué)等。值得注意的是,大英圖書館的作者并未進(jìn)入作者發(fā)文Top20行列,這反映了大英圖書館的機構(gòu)發(fā)文量并不主要依靠個人,而是依賴于工作人員的廣泛參與,而北卡羅來納州立大學(xué)和維也納技術(shù)大學(xué)的機構(gòu)發(fā)文量則更加依賴于小團(tuán)隊的產(chǎn)出。因此,筆者認(rèn)為,雖然這3個機構(gòu)的發(fā)文量相當(dāng),但由于大英圖書館參與數(shù)字資源長期保存研究的人員較多、與其他機構(gòu)的合作也更為廣泛而更具優(yōu)勢。在全球化的趨勢之下,這種機構(gòu)的生命力更強,具有較強的研究可持續(xù)性,出現(xiàn)研究斷層的風(fēng)險相對更低。
(2)從機構(gòu)類型上看,包括10所大學(xué)、7所國家級圖書館和3個研究機構(gòu)。10所大學(xué)中美國占了7所,英國、德國、奧地利各1所;3所研究機構(gòu)都屬歐盟國家。僅從數(shù)量上看,美國的參與機構(gòu)更為廣泛且成果較多,歐盟次之。而國家級圖書館正逐漸成為開展數(shù)字資源長期保存實踐的主力。
(3)筆者根據(jù)機構(gòu)間合作共現(xiàn)情況將其大致劃分為以下4個團(tuán)體。① 大英圖書館所在的機構(gòu)團(tuán)體。2008-2017年,主要與特塞拉(Tessella)公司、利茲大學(xué)、巴斯大學(xué)、Caixa Magica軟件開展了合作。②北卡羅來納州立大學(xué)所在的機構(gòu)團(tuán)體。主要與印第安納大學(xué)、密歇根大學(xué)、布萊頓大學(xué)、DuraSpace等開展了合作。③ 維也納技術(shù)大學(xué)的機構(gòu)團(tuán)體。主要與丹麥皇家圖書館、奧地利科技學(xué)院、INESC-ID、Secure Business Austria等開展了合作。④ 德國費賴堡大學(xué)的機構(gòu)團(tuán)體。主要與荷蘭國家檔案館、荷蘭國家圖書館、IBM、德國國家圖書館等開展了合作。
為了進(jìn)一步窺探2008-2017年數(shù)字資源長期保存領(lǐng)域的關(guān)注熱點,并預(yù)測未來的發(fā)展趨勢,筆者通過可視化工具對關(guān)鍵詞的分布情況進(jìn)行了分析,并揭示了2008-2017年iPRES的研究主題。
在進(jìn)行關(guān)鍵詞統(tǒng)計時,考慮到iPRES是一個關(guān)于長期保存領(lǐng)域的會議,“長期保存”出現(xiàn)的頻次會遠(yuǎn)超其他詞匯,為了避免遮蓋其他重要詞匯,筆者對“(long-term)preservation”做了過濾處理,得到關(guān)鍵詞頻次分布圖(見圖2)。可以看出,2008-2017年iPRES會議論文的關(guān)鍵詞主要有:digital repositories、 digital archives、metadata、OAIS、digitalcuration、digital objects、 software、 emulation、access等,并呈現(xiàn)出逐漸弱化的趨勢,其他關(guān)鍵詞呈現(xiàn)“長尾”狀,這在一定程度上說明iPRES會議論文既顯示了比較集中的研究主題,同時涵蓋的研究內(nèi)容也比較廣泛,形成了較為分散的“長尾”型研究發(fā)展?fàn)顟B(tài)。

圖2 關(guān)鍵詞分布
關(guān)鍵詞是文獻(xiàn)核心內(nèi)容的集中概括,可以較好地反映某一研究領(lǐng)域的主題分布。關(guān)鍵詞和主題詞共現(xiàn)都可稱為共詞,是指利用文獻(xiàn)集中詞匯對或名詞短語共同出現(xiàn)的情況,確定該文獻(xiàn)集所代表學(xué)科中各主題之間的關(guān)系。一般認(rèn)為,詞匯對在同一篇文獻(xiàn)中出現(xiàn)的次數(shù)越多,則代表這兩個主題的關(guān)系越緊密,這種關(guān)系在可視化分析時會以網(wǎng)絡(luò)節(jié)點和邊的形式體現(xiàn)在共詞網(wǎng)絡(luò)中,用于反映主題內(nèi)容的親疏關(guān)系。[9]關(guān)鍵詞的共現(xiàn)可以幫助研究者預(yù)測當(dāng)前的研究熱點和趨勢。在圖2的基礎(chǔ)上,筆者利用CiteSpace軟件對關(guān)鍵詞的共現(xiàn)情況做了可視化分析(見圖3),發(fā)現(xiàn)中心性較高的關(guān)鍵詞有:digital repositories、digital curation、digital archives、 metadata、 infrastructure、 workflow、authenticity等,筆者選取中心性大于0.5的關(guān)鍵詞作為關(guān)鍵節(jié)點(見表6)。

圖3 關(guān)鍵詞可視化
2.2.1 數(shù)字資源長期保存的系統(tǒng)和工具
從上述分析中可以發(fā)現(xiàn),“digital repositories(數(shù)字倉儲)”頻次最高、中心性較強,數(shù)字倉儲的重要性不言而喻。“digital repositories”實際上代表了長期保存領(lǐng)域一個非常重要的研究問題,本文將這部分研究稱為“長期保存的系統(tǒng)和工具”,其中涉及的主要關(guān)鍵詞 包 括 “ digitalrepositories”“ tools”“systems”“software”,筆者以這幾個詞為代表,對數(shù)字資源長期保存的系統(tǒng)和工具在2008-2017年間的變化做了統(tǒng)計分析(見圖4)。在這期間,以“數(shù)字倉儲”為代表的系統(tǒng)和工具研究發(fā)展較為穩(wěn)定,呈現(xiàn)出螺旋上升的態(tài)勢。

表6 2008-2017年關(guān)鍵詞共現(xiàn)關(guān)鍵節(jié)點

圖4 2008-2017年會議系統(tǒng)和工具代表詞匯統(tǒng)計
值得注意的是,“software”的關(guān)注度在2008-2011年一直處于較低水平,但于2012年陡然升高且持續(xù)處于較高的水平。筆者認(rèn)為出現(xiàn)這種現(xiàn)象的一個重要原因是,隨著數(shù)字信息體量和類型的增加、技術(shù)的不斷更新,新一代或者滿足特殊需求的軟件及相關(guān)工具在逐漸更新,如 e-depot、Fedora、DAITSS、DSpace、ELAK、arxiv等系統(tǒng);同時,許多新系統(tǒng)也在不斷出現(xiàn),如商業(yè)Ex Libris Rosetta長期保存系統(tǒng),葡萄牙米尼奧大學(xué)開發(fā)的兼具格式轉(zhuǎn)換、質(zhì)量評估和元數(shù)據(jù)生成服務(wù)的CRiB倉儲系統(tǒng),[10]斯坦福大學(xué)開發(fā)的、能夠支持存檔存儲庫和其他存儲機構(gòu)的電子郵件的評估、處理、發(fā)現(xiàn)和交付開源軟件ePADD,[11]芬蘭CSC-IT科學(xué)中心開發(fā)的可以滿足不同需求的模塊化預(yù)攝取工具,[12]可信賴的便攜式數(shù)字保存仿真平臺等。[13]
2.2.2 數(shù)字資源長期保存的技術(shù)方法
技術(shù)方法作為數(shù)字資源長期保存工作的實踐基礎(chǔ),是該領(lǐng)域研究的重要組成部分,長期保存的技術(shù)方法是一個復(fù)雜多元的集合體,涉及技術(shù)流程、認(rèn)證評估、永久標(biāo)識符等方面。[14]根據(jù)對2008-2017年iPRES文獻(xiàn)的分析,筆者對數(shù)字資源長期保存的技術(shù)和方法做了分類,每個類目的主要關(guān)鍵詞如下,歷年的關(guān)鍵詞頻次見圖5。
(1) 認(rèn)證評估:authenticity、audit、evaluation、qu ality assurance、 trust、 appraisal、 certification、 assessment。
(2)遷移取證仿真:migration/virtualization、digital forensics、emulation。
(3)永久標(biāo)識符PID:persistentidentifiers、Smarter Persistent Identifiers、Web Persistent Identifiers(wPID)、PURL、ARK、DOI、URN、HANDLE。
(4) 訪問:access、webaccess、permanentaccess。
(5) 云:cloud&cloudcomputing、Grid。
(6) 技術(shù)流程:pre-ingest、ingest、storage、acquisition、digitization、file format identification、 format identification、workflow。
(7)封裝格式:METS5、Bagit2。
(8) 語義:linkeddata、text processinganddatamining、ontologies、semantics。
(9) 監(jiān)測:watch、monitoring、characterization、validation、characterization。

圖5 2008-2017年會議技術(shù)方法代表詞匯統(tǒng)計
可見,“遷移取證仿真”“認(rèn)證評估”“技術(shù)流程”的出現(xiàn)頻次遠(yuǎn)超其他。“遷移取證仿真”和“認(rèn)證評估”出現(xiàn)頻次在2011年之前趨于一致,并在2011年達(dá)到頂峰;之后“遷移取證仿真”的出現(xiàn)頻次有所下降,但趨于平穩(wěn),2016年關(guān)注度又一次陡升;“認(rèn)證評估”在2011年之后與“遷移取證仿真”的出現(xiàn)頻次拉開了距離,但2012-2017年間受關(guān)注程度一直處于上升趨勢,這與可信賴性一直是數(shù)字資源長期保存持續(xù)關(guān)注的問題有關(guān)。[15]技術(shù)流程作為保存?zhèn)}儲系統(tǒng)研發(fā)的主要內(nèi)容,其受關(guān)注度基本與保存?zhèn)}儲系統(tǒng)趨同,隨著新系統(tǒng)新工具的研發(fā),其關(guān)注度也在2016年達(dá)到最高。
“訪問”“云技術(shù)”“永久標(biāo)識符”“封裝格式”“語義”“監(jiān)測”等的關(guān)注度相對低一些,其中,“封裝格式”的關(guān)注度在2009-2011年、2014-2016年內(nèi)出現(xiàn)了斷層,其他類目則一直或多或少地作為研究點活躍在歷年的iPRES會議上。這些類目雖然為數(shù)不多,但正在作為研究點逐漸受到研究人員的關(guān)注,很有可能成為未來研究的重點。數(shù)字資源長期保存技術(shù)和方法的不斷擴(kuò)充和更迭告訴我們,隨著長期保存面臨的挑戰(zhàn)增多、保存需求的日趨復(fù)雜,研究的技術(shù)方法會更加多樣、深入,更新也將更加頻繁。
2.2.3 長期保存數(shù)字對象與元數(shù)據(jù)
數(shù)字對象與元數(shù)據(jù)一直以來都是數(shù)字資源長期保存領(lǐng)域的基礎(chǔ)研究內(nèi)容。在2008-2017年iPRES的會議論文中,數(shù)字對象的研究包括:digital objects、data dictionary、data model、content model、significant properties、conceptual models、SIP、AIP、DIP 等,雖然數(shù)量并不多,但每年的會議上都有所涉及。
相對數(shù)字對象,元數(shù)據(jù)受到了更多關(guān)注。從表6可知,“metadata”的中心性最高,與之密切相關(guān)的還有“PREMIS”“METS”“metadata extraction”“descriptive metadata”“representation information”等。其中,“PREMIS”保存元數(shù)據(jù)是目前數(shù)字信息資源長期保存領(lǐng)域公認(rèn)的保存元數(shù)據(jù)標(biāo)準(zhǔn),在歷屆會議上都有相關(guān)主題的論文,近幾年以研討會(Workshop)或?qū)雠嘤?xùn)(Tutorial)的形式出現(xiàn),更大范圍地推廣使用PREMIS元數(shù)據(jù)體系。圖6統(tǒng)計了2008-2017年iPRES會議元數(shù)據(jù)的代表詞匯。

圖6 2008-2017年會議元數(shù)據(jù)代表詞匯統(tǒng)計
2.2.4 數(shù)字資源長期保存標(biāo)準(zhǔn)規(guī)范
標(biāo)準(zhǔn)規(guī)范是數(shù)字資源長期保存各個環(huán)節(jié)之間互操作的基礎(chǔ)和根基,它貫穿于長期保存的整個生命周期,對長期保存系統(tǒng)的建設(shè)具有重要意義。目前,全球范圍內(nèi)公認(rèn)的長期保存核心標(biāo)準(zhǔn)有:① 開放檔案信息系統(tǒng)參考模型(Open Archival Information System,OAIS),它不僅界定和規(guī)范了長期保存的相關(guān)概念和術(shù)語,還建立了長期保存系統(tǒng)規(guī)劃和設(shè)計的概念框架,并對保存系統(tǒng)的存在環(huán)境、功能組織以及信息基礎(chǔ)架構(gòu)等做了描述,對全球范圍內(nèi)的長期保存活動和實踐起到了重要的指導(dǎo)作用,是長期保存的基礎(chǔ)標(biāo)準(zhǔn);② ISO 16163,即《可信賴倉儲的審計及認(rèn)證:指標(biāo)與列表》(,TRAC),于2012年被認(rèn)定為國際長期保存系統(tǒng)可信賴認(rèn)證標(biāo)準(zhǔn);③ PREMIS作為保存元數(shù)據(jù)的標(biāo)準(zhǔn),在前文中已經(jīng)提及。
圖7為“standards”“OAIS”和“PREMIS”歷年出現(xiàn)的頻次:“standards”在2008年出現(xiàn)過一次,直到2012年作為關(guān)鍵詞又一次被提及,此后相關(guān)研究就從未中斷,并在2014年達(dá)到頂峰;“OAIS”出現(xiàn)頻次則遠(yuǎn)高于“standards”和“PREMIS”,且呈現(xiàn)一種增長型的發(fā)展趨勢,歷年來圍繞這一基礎(chǔ)標(biāo)準(zhǔn)的討論從未間斷,尤其在2014年和2016年修訂OAIS 2.0期間;ISO16363作為核心標(biāo)準(zhǔn),經(jīng)常以研討會(Workshop)或?qū)雠嘤?xùn)(Tutorial)的形式出現(xiàn)。

圖7 2008-2017年會議標(biāo)準(zhǔn)規(guī)范代表詞匯統(tǒng)計
2.2.5 數(shù)字資源長期保存宏觀規(guī)劃與管控
保存計劃作為OAIS標(biāo)準(zhǔn)中一個重要內(nèi)容,定義了長期保存的整個生命周期及保存活動中對數(shù)字對象所采取的一系列保存行為的規(guī)劃和政策,關(guān)系到長期保存活動實施的成功與否。長期保存宏觀規(guī)劃與管控的內(nèi)容涵蓋了國家層面的戰(zhàn)略規(guī)劃和政策、機構(gòu)層面的長期保存計劃、整個保存環(huán)境的監(jiān)控管理等,需要綜合考慮政策、法律、組織和技術(shù)限制、用戶需求、保存目標(biāo)等因素,并進(jìn)行定期評價、更新相關(guān)規(guī)劃與策略。
在iPRES的會議論文中,長期保存宏觀規(guī)劃與管控涉及到的詞匯主要有“strategies”“policies”“planning”(見圖 8)。其中,“policies”“planning”的波動不大,而“strategies”的關(guān)注度出現(xiàn)了較大的起伏,在2008年和2009年處于巔峰,之后幾年迅速下降,2014年才逐漸回歸大眾視野,在近年的關(guān)注度也有所增長。數(shù)據(jù)分析結(jié)果表明,隨著大數(shù)據(jù)的發(fā)展,數(shù)字信息長期保存的規(guī)劃和策略也在隨之調(diào)整,以應(yīng)對變化中的挑戰(zhàn)。

圖8 2008-2017年會議宏觀規(guī)劃與管控代表詞匯統(tǒng)計
2.2.6 數(shù)字資源長期保存的基礎(chǔ)架構(gòu)
長期保存的基礎(chǔ)架構(gòu)是長期保存活動在最開始階段就要設(shè)計和確定的,對長期保存活動尤其是長期保存系統(tǒng)的建設(shè)具有指導(dǎo)意義。2008-2017年iPRES的論文中研究長期保存基礎(chǔ)架構(gòu)的不在少數(shù),主要涉及的關(guān) 鍵 詞有“infrastructure”“architectures”“frameworks”。

圖9 2008-2017年會議基礎(chǔ)架構(gòu)代表詞匯統(tǒng)計
由圖9可知,3個基礎(chǔ)架構(gòu)關(guān)鍵詞的變化趨勢基本相同,開始都處于較高的水平,之后出現(xiàn)了2-3年的低谷,于2014/2015年達(dá)到一個小的峰值,近兩年有所下滑。這個結(jié)果表明,在基礎(chǔ)性技術(shù)研究方面,長期保存是與整個技術(shù)大環(huán)境一起發(fā)展的,新的技術(shù)將不斷地應(yīng)用于長期保存,因此造成了基礎(chǔ)架構(gòu)和技術(shù)系統(tǒng)的周期性更新。當(dāng)一種新的基礎(chǔ)架構(gòu)逐步成熟后,該領(lǐng)域也隨之進(jìn)行研究和探索,并進(jìn)入應(yīng)用和改進(jìn)階段。信息技術(shù)的更新?lián)Q代勢必對數(shù)字資源長期保存領(lǐng)域帶來同樣的影響。
2.2.7 專門領(lǐng)域和不同類型的數(shù)字資源長期保存
大數(shù)據(jù)時代,數(shù)字資源格式、類型的復(fù)雜化為數(shù)字資源的長期保存帶來了挑戰(zhàn)。同時,由于對保存數(shù)字資源的意識在不斷提升,越來越多的行業(yè)、領(lǐng)域都開始關(guān)注數(shù)字資源的長期保存管理。保存的資源類型從傳統(tǒng)館藏延伸到檔案、文化遺產(chǎn)、社交媒體、軟件工具、郵件、視聽資源等,保存研究和保存實踐也更加專門化和特性化。在2008-2017年的iPRES論文中,涉及多種不同類型對象的長期保存研究,既包括傳統(tǒng)物理載體的館藏資源,也包括原生數(shù)字資源,如軟件、音視頻、社交媒體、郵件、文化遺產(chǎn)、數(shù)字檔案、博客、研究數(shù)據(jù)、科學(xué)數(shù)據(jù)和地理信息數(shù)據(jù)等。

圖10 專門領(lǐng)域和不同類型數(shù)字資源代表詞匯統(tǒng)計
由圖10可見,除了通用詞“digital objects”處于較高水平外,具體到每種類型數(shù)字資源的論文數(shù)量并不多。一方面是因支持相關(guān)研究的機構(gòu)和項目相對較少;另一方面是由于數(shù)字對象本身比較復(fù)雜,長期保存的研究和實踐發(fā)展尚處于探索階段。值得注意的是 ,“ cultural heritage”“ audiovisual”“ research data”(即文化遺產(chǎn)、視聽資源和研究數(shù)據(jù))的長期保存和管理發(fā)展勢頭強勁,尤其是研究數(shù)據(jù)的管理于2011年被提出之后,得到了廣泛的關(guān)注。
iPRES所關(guān)注的問題清晰地反映了數(shù)字保存領(lǐng)域的發(fā)展趨勢,隨著全球數(shù)字化的飛速發(fā)展以及各國、各機構(gòu)對于數(shù)字資產(chǎn)的重視,數(shù)字保存將會迎來飛速發(fā)展的時機。
從iPRES會議看,我國在數(shù)字資源長期保存領(lǐng)域的投入和產(chǎn)出都較少,缺乏國際間的交流、合作、共享。但實際上,國內(nèi)很多領(lǐng)域和學(xué)者很早就開展了相關(guān)理論研究,也有少數(shù)機構(gòu)進(jìn)行了實踐探索。其中,以國家科技圖書文獻(xiàn)中心(National Science and Technology Library,NSTL)的“國家數(shù)字科技文獻(xiàn)資源長期保存體系”[16]最為突出。作為國家級的科技文獻(xiàn)信息服務(wù)和保障機構(gòu),NSTL于2004年就開展了具有前瞻性的研究工作,于2014年啟動了“國家數(shù)字科技文獻(xiàn)資源長期保存示范系統(tǒng)”項目,帶領(lǐng)中國科學(xué)院文獻(xiàn)情報中心、中國科學(xué)技術(shù)信息研究所和北京大學(xué)圖書館等機構(gòu),在國內(nèi)率先開展商業(yè)數(shù)字資源的長期保存實踐探索,取得了一系列建設(shè)成果,同時在全國范圍開展了一系列頗具影響的宣傳和推廣活動。特別是2016年底舉辦的香山科學(xué)會議,對國內(nèi)數(shù)字資源長期保存研究與實踐的發(fā)展產(chǎn)生了積極的推動作用。
第1屆iPRES由中國科學(xué)院文獻(xiàn)情報中心發(fā)起舉辦,[17]之后在2007年與 NSTL共同承辦了第4屆iPRES。[18]近日,NSTL和中國科學(xué)院文獻(xiàn)情報中心成功獲得聯(lián)合承辦2020年第17屆iPRES會議(iPRES 2020)的許可。[19]必將對我國數(shù)字資源長期保存的全面發(fā)展產(chǎn)生積極的推動作用,對加強國際合作共享、共同發(fā)展產(chǎn)生深遠(yuǎn)影響。