在數(shù)據(jù)驅(qū)動科研的范式下,醫(yī)學(xué)大數(shù)據(jù)作為一種戰(zhàn)略性資源,對于醫(yī)學(xué)科技創(chuàng)新具有重要的支撐作用。醫(yī)學(xué)大數(shù)據(jù)包括生物醫(yī)學(xué)科技文獻(xiàn)數(shù)據(jù)、醫(yī)療保險數(shù)據(jù)、臨床電子病歷以及醫(yī)療論壇數(shù)據(jù)等。醫(yī)學(xué)科研與實踐活動以及各項應(yīng)用平臺建設(shè)產(chǎn)出的大量醫(yī)學(xué)科研數(shù)據(jù),在產(chǎn)生經(jīng)濟和社會效益的同時,涉及主題極為廣泛,具有深度分析、挖掘和再利用的大數(shù)據(jù)研究價值。然而,隨著信息技術(shù)的飛速發(fā)展以及新型媒介和載體的快速革新,如何長期保存這些具有再利用價值的數(shù)據(jù),面臨著數(shù)據(jù)真實性、完整性、可獲得性以及長期可解釋性的挑戰(zhàn)[1-5]。
醫(yī)學(xué)大數(shù)據(jù)除表現(xiàn)在數(shù)量龐大、類型多樣、增長快速以及具有挖掘價值的大數(shù)據(jù)特征[6]外,還表現(xiàn)出特有的復(fù)雜性[7-10]。首先,鑒于數(shù)據(jù)的敏感性和共享機制的缺乏,醫(yī)學(xué)數(shù)據(jù)難以獲取;其次,由于儀器設(shè)備專業(yè)化和精細(xì)度等因素,醫(yī)學(xué)數(shù)據(jù)的獲取代價可能較為昂貴;第三,基于學(xué)科的嚴(yán)謹(jǐn)性,在數(shù)據(jù)分析和結(jié)果解釋時,醫(yī)學(xué)領(lǐng)域知識一般占據(jù)主導(dǎo)地位。此外,醫(yī)學(xué)數(shù)據(jù)還表現(xiàn)出一定程度上的不可再現(xiàn)性特征。
面對大規(guī)模、多樣化和動態(tài)變化的醫(yī)學(xué)大數(shù)據(jù),如何最大限度地保證數(shù)據(jù)的真實性、完整性、可靠性以及長期可解釋性,建立可持續(xù)發(fā)展的醫(yī)學(xué)大數(shù)據(jù)長期保存系統(tǒng)平臺,是當(dāng)前數(shù)字資源保障體系建設(shè)中面臨的重要課題。
開放存檔信息系統(tǒng)參考模型[11](Reference model for an open archival information system,OAIS)為長期保存提供了基礎(chǔ)性框架。其中“開放”一詞表示該模型的相關(guān)建議書和標(biāo)準(zhǔn)的形成具有開放性,并非表示對存檔內(nèi)容的訪問不受限制,保存的信息通常采用“暗保存(Dark Archival)”模式[12-13],即只有當(dāng)特定的事件觸發(fā)時,才啟用對存檔信息的訪問。該模型最早由美國國家航空和航天局(National Aeronautics and Space Administration,NASA)和美國空間數(shù)據(jù)系統(tǒng)咨詢委員會(Consultative Committee for Space Data Systems,CCSDS)于1999年提出,經(jīng)過不斷的發(fā)展與完善,已經(jīng)成為數(shù)字保存系統(tǒng)建設(shè)普遍遵循的重要標(biāo)準(zhǔn)——ISO 14721:2012。
根據(jù)OAIS的定義,長期保存是一項對保存內(nèi)容進(jìn)行長期管理和維護的行為,旨在確保保存內(nèi)容可以被特定社區(qū)所理解,并提供支持其真實性證據(jù),即在足夠長時間內(nèi),技術(shù)的變革、新的媒體和數(shù)據(jù)格式,以及特定用戶社區(qū)的變化等都有可能對保存的信息產(chǎn)生一定的影響。因此,長期保存不僅意味著是用于安全管理備份數(shù)據(jù),而更強調(diào)對數(shù)字內(nèi)容的生命周期維護,包括數(shù)據(jù)審核、數(shù)據(jù)關(guān)聯(lián)以及數(shù)據(jù)監(jiān)控等行為。其中對數(shù)據(jù)進(jìn)行審核是為了確保其完整性,與適當(dāng)?shù)脑獢?shù)據(jù)關(guān)聯(lián)是為了確保其可發(fā)現(xiàn)性,對保存內(nèi)容進(jìn)行訪問控制監(jiān)控是為了滿足相關(guān)的隱私許可以及知識產(chǎn)權(quán)限制等要求。
本文基于醫(yī)學(xué)領(lǐng)域資源建設(shè)和信息服務(wù)的發(fā)展需求,結(jié)合大數(shù)據(jù)時代資源保存對象由傳統(tǒng)紙質(zhì)文獻(xiàn)資源向多類型數(shù)據(jù)資源轉(zhuǎn)移的新形勢,以健全醫(yī)學(xué)信息保障及服務(wù)能力為宗旨,圍繞數(shù)字資源保存的概念化、創(chuàng)建/接收數(shù)據(jù)、評估和選擇、攝入、保存、存儲、訪問利用/重用以及轉(zhuǎn)換各生命周期階段,建設(shè)醫(yī)學(xué)大數(shù)據(jù)長期保存系統(tǒng)(Long-term PREServation System for Medical big data,MedPRES),以保證醫(yī)學(xué)數(shù)據(jù)的真實性、完整性、可獲得性及長期可解釋性,為重要醫(yī)學(xué)資源的長期保存和利用提供有力保障。
在長期保存系統(tǒng)中,保存內(nèi)容以信息包的形式進(jìn)行交互,包括提交信息包(Submission Information Package,SIP)、存檔信息包(Archival Information Package,AIP)和分發(fā)信息包(Dissemination Information Package,DIP)。保存信息在長期保存過程中的數(shù)據(jù)流向見圖1。

圖1 長期保存系統(tǒng)中的數(shù)據(jù)流向
圖1中,數(shù)據(jù)提交者向長期保存系統(tǒng)提交將要保存的內(nèi)容,SIP需要包含數(shù)據(jù)及內(nèi)容信息,以確保保存系統(tǒng)可以維護保存內(nèi)容,數(shù)據(jù)使用者可以通過保存系統(tǒng)訪問、理解和使用保存內(nèi)容。
保存系統(tǒng)接收來自數(shù)據(jù)提交者的SIP,通過數(shù)據(jù)攝入功能實體將SIP轉(zhuǎn)換為適合于數(shù)據(jù)存檔和數(shù)據(jù)管理所需的一組AIP,并對接收的信息對象進(jìn)行分類,確定每個對象的所屬集合,完成AIP存檔后創(chuàng)建消息以更新集合描述。
數(shù)據(jù)存檔功能實體接收攝入流程生成的AIP,并將其添加到永久保存庫。數(shù)據(jù)管理功能實體采用數(shù)據(jù)攝入階段生成的包描述,并擴展現(xiàn)有的集合描述。數(shù)據(jù)在存檔和管理過程中需要進(jìn)行媒介更新、糾錯以及數(shù)據(jù)庫維護等操作,以防技術(shù)、媒介、數(shù)據(jù)格式和用戶群體等隨著時間推移所產(chǎn)生的變化而導(dǎo)致信息丟失。
數(shù)據(jù)訪問功能實體根據(jù)數(shù)據(jù)使用者的數(shù)據(jù)訪問請求,與數(shù)據(jù)存檔和數(shù)據(jù)管理相互作用,交互DIP所對應(yīng)的AIP及其相關(guān)信息包描述。數(shù)據(jù)存檔和數(shù)據(jù)管理在臨時存儲中創(chuàng)建請求對象的副本,數(shù)據(jù)訪問將該組AIP和關(guān)聯(lián)的包描述轉(zhuǎn)換為一組DIP,并將其存儲于物理分發(fā)媒介,以在數(shù)據(jù)分發(fā)會話中交付給數(shù)據(jù)使用者。
長期保存的主要目標(biāo)是在不確定的時間內(nèi)保存特定信息。為了保存該信息對象,長期保存系統(tǒng)必須充分理解數(shù)據(jù)對象及其關(guān)聯(lián)的呈現(xiàn)信息。OAIS參考模型強調(diào)對信息內(nèi)容的保存,信息模型是長期保存的關(guān)鍵。根據(jù)OAIS,存檔信息包的數(shù)據(jù)模型[11]如圖2 所示。

圖2 存檔信息包數(shù)據(jù)模型
信息包包含內(nèi)容信息和保存描述信息。內(nèi)容信息是保存的目標(biāo)信息,由內(nèi)容數(shù)據(jù)對象及其相關(guān)的呈現(xiàn)信息組成,以使內(nèi)容數(shù)據(jù)對象可被指定團體理解;保存描述信息有指引信息、起源信息、環(huán)境信息、不變性信息以及訪問權(quán)限信息5種類型。其中,指引信息提供標(biāo)識符,以標(biāo)識內(nèi)容信息;起源信息描述內(nèi)容信息的來源,提供對內(nèi)容信息的審核跟蹤,為內(nèi)容信息的真實性和可靠性提供依據(jù);環(huán)境信息記錄創(chuàng)建內(nèi)容信息的原因及其與環(huán)境中的其他內(nèi)容信息對象之間的關(guān)系;不變性信息提供對數(shù)據(jù)完整性的檢查與驗證,用于追溯內(nèi)容信息對象的更改記錄;訪問權(quán)限信息提供對保存、分發(fā)和使用內(nèi)容信息的權(quán)限許可范圍。
對多源異構(gòu)數(shù)字對象進(jìn)行關(guān)聯(lián)整合的框架如圖3所示。由于采集接收的數(shù)據(jù)信息沒有呈現(xiàn)信息和保存描述信息,因此在攝入階段必須對SIP進(jìn)行處理,以確保收集到保存數(shù)據(jù)對象的長期可訪問性和可用性信息。提取與數(shù)據(jù)對象相關(guān)的元數(shù)據(jù),并將所有內(nèi)容封裝于AIP中進(jìn)行存檔;基于捕獲的數(shù)據(jù)對象元數(shù)據(jù)表示,將其編碼為RDF三元組并存儲于索引中;以面向應(yīng)用的方式對保存知識和特定領(lǐng)域的對象格式和概念進(jìn)行建模,實現(xiàn)對多來源數(shù)字對象元數(shù)據(jù)的高效管理;保存數(shù)據(jù)對象以DIP的形式提供訪問與利用服務(wù),并通過圖形數(shù)據(jù)庫存儲,為知識推理與挖掘以及圖數(shù)據(jù)復(fù)雜查詢提供支撐。

圖3 關(guān)聯(lián)整合框架
為實現(xiàn)醫(yī)學(xué)大數(shù)據(jù)的長期保存,MedPRES按照目前國際公認(rèn)的標(biāo)準(zhǔn)進(jìn)行設(shè)計。MedPRES模型的定義遵循ISO 14721:2012——開放存檔信息系統(tǒng)[14],數(shù)字倉儲的可信認(rèn)證遵循ISO 16363:2012——可信賴的數(shù)字倉儲審計與認(rèn)證標(biāo)準(zhǔn)(Audit and Certification of Trustworthy Digital Repositories)[15]。MedPRES總體架構(gòu)如圖4所示,自底向上包括基礎(chǔ)設(shè)施層、數(shù)據(jù)層、存儲層、應(yīng)用層以及服務(wù)層。
基礎(chǔ)設(shè)施層:采用虛擬化技術(shù)合理利用與分配各類計算、存儲與網(wǎng)絡(luò)等資源,提高資源的利用率和應(yīng)用的可靠性;通過云平臺與底層虛擬化平臺協(xié)同工作,實現(xiàn)計算、網(wǎng)絡(luò)和存儲基礎(chǔ)架構(gòu)服務(wù)的抽象化、池化和自動化。
數(shù)據(jù)層:甄選具有長期保存價值的醫(yī)學(xué)科學(xué)數(shù)據(jù)、專業(yè)數(shù)據(jù)庫以及網(wǎng)頁數(shù)據(jù)等,根據(jù)不同的數(shù)據(jù)類型確定合適的資源獲取與采集方式,實現(xiàn)多來源異構(gòu)海量醫(yī)學(xué)數(shù)據(jù)的全面采集與分類處理。
存儲層:基于分布式存儲實現(xiàn)對醫(yī)學(xué)大數(shù)據(jù)的保存,包括對元數(shù)據(jù)存儲、業(yè)務(wù)數(shù)據(jù)存儲和文件存儲。其中,元數(shù)據(jù)存儲至Fedora,數(shù)據(jù)索引存儲至ElasticSearch,業(yè)務(wù)數(shù)據(jù)支持關(guān)系數(shù)據(jù)庫存儲。
應(yīng)用層:MedPRES的采集、接收、攝入、管理等各個業(yè)務(wù)模塊基于微服務(wù)理念進(jìn)行設(shè)計,并實現(xiàn)對MD5碼檢測、解壓縮測試、病毒檢查、數(shù)量檢查、格式檢查和數(shù)據(jù)備份等的插件化管理。
服務(wù)層:系統(tǒng)基于B/S模式開發(fā),提供標(biāo)準(zhǔn)的數(shù)據(jù)訪問與交互接口,為數(shù)據(jù)集成和服務(wù)提供支持。

圖4 MedPRES總體架構(gòu)
3.2.1 工作流
長期保存包括采集、接收、攝入、存儲、管理、訪問等環(huán)節(jié),每個功能環(huán)節(jié)又包含一系列的具體處理流程,如信息包的生成與檢查、病毒檢測、完整性檢查等。
工作流技術(shù)為醫(yī)學(xué)大數(shù)據(jù)長期保存的復(fù)雜流程管理提供了自動化解決方案。長期保存需要確保保存資源在時間、環(huán)境、技術(shù)、法律法規(guī)等因素變化下的長期可用性。通過工作流管理工具,可根據(jù)保存生命周期和保存規(guī)劃,預(yù)先將保存過程中的各項任務(wù)配置為相應(yīng)的工作流,并通過對保存系統(tǒng)內(nèi)外部事件的實時監(jiān)控,實現(xiàn)變化發(fā)生時的流程重配置。
鑒于在數(shù)據(jù)持久化、流程設(shè)計、原生支持和數(shù)據(jù)存取效率等方面的優(yōu)勢,MedPRES基于開源引擎Activiti實現(xiàn)對長期保存各個環(huán)節(jié)工作流程的靈活配置,通過工作流與任務(wù)調(diào)度機制相結(jié)合,提供對海量數(shù)據(jù)分布式任務(wù)的高效處理。
3.2.2 數(shù)字倉儲
MedPRES底層元數(shù)據(jù)倉儲結(jié)構(gòu)如圖5所示。基于Activiti定義的工作流實現(xiàn)對提交信息包SIP的檢查和處理,數(shù)據(jù)最終存儲于Fedora和ElasticSearch中。其中,F(xiàn)edora作為靈活的可擴展數(shù)字對象倉儲架構(gòu),可提供元數(shù)據(jù)多版本管理策略;采用的網(wǎng)絡(luò)資源描述框架(Resource Description Framework,RDF)管理數(shù)字資源,既可實現(xiàn)關(guān)聯(lián)發(fā)現(xiàn)和語義檢索服務(wù)又支持原始文件存儲;并可根據(jù)不同業(yè)務(wù)需求封裝為長期保存系統(tǒng)所需的存檔信息包AIP;ElasticSearch基于元數(shù)據(jù)提供索引服務(wù),支持分布式部署和多種檢索策略配置,滿足保存管理和公共服務(wù)中的多種檢索需求。

圖5 MedPRES數(shù)字倉儲
3.2.3 微服務(wù)
基于對資源和應(yīng)用快速靈活部署模式的考慮,MedPRES采用微服務(wù)管理支持快速解耦和集成,在不對現(xiàn)有服務(wù)造成影響的條件下,支持分布式部署和動態(tài)容量擴展。
為了滿足各種應(yīng)用場景,MedPRES提供的微服務(wù)包括應(yīng)用微服務(wù)、集成微服務(wù)和數(shù)據(jù)微服務(wù)。其中,應(yīng)用微服務(wù)以已構(gòu)建的系統(tǒng)為基準(zhǔn),實現(xiàn)應(yīng)用系統(tǒng)/模塊微服務(wù)化,單個系統(tǒng)或模塊可獨立運行,也支持系統(tǒng)和模塊間數(shù)據(jù)通信;集成微服務(wù)實現(xiàn)系統(tǒng)之間的集成,包括內(nèi)部系統(tǒng)和外部系統(tǒng),集成框架可提供組件同步、異步通信所需要的基礎(chǔ)能力,系統(tǒng)之間的交互只需遵循約定的REST接口和消息定義;數(shù)據(jù)微服務(wù)提供數(shù)據(jù)檢索與瀏覽接口、數(shù)據(jù)分面匯總接口和數(shù)據(jù)統(tǒng)計分析匯總接口,支持權(quán)限分配與控制,同時支持?jǐn)?shù)據(jù)傳輸加密需求,為數(shù)據(jù)的安全性提供保障。
3.2.4 云存儲
長期保存面臨的一個重要挑戰(zhàn)是成本代價高,通過利用云計算和虛擬化技術(shù),可提供經(jīng)濟上可行的長期保存解決方案。此外,云存儲還具有靈活性和動態(tài)可擴展性,可為大數(shù)據(jù)環(huán)境下的數(shù)字資源長期保存提供海量存儲、協(xié)同保存、高效備份和實時遷移等解決方案。
MedPRES采用基于云的保存感知存儲服務(wù)。其優(yōu)勢在于:通過將與保存相關(guān)的功能卸載到存儲系統(tǒng),可降低數(shù)據(jù)損壞或丟失的可能性,從而使數(shù)字保存系統(tǒng)更為健壯;基于云的長期保存方案支持對資源的邏輯保存,從而使云中對象物理位置的變化不會影響用戶對數(shù)據(jù)的訪問;通過基于云的虛擬設(shè)備保存數(shù)據(jù)內(nèi)容和呈現(xiàn)數(shù)據(jù)所需的特定軟件,還可增強保存內(nèi)容在未來的可理解性。
單個云存儲模式具有一定的應(yīng)用局限性并存在安全隱患。隨著云技術(shù)的發(fā)展,多云存儲可為大數(shù)據(jù)環(huán)境下各種應(yīng)用提供新的服務(wù)模式。醫(yī)學(xué)大數(shù)據(jù)長期保存可同時利用具有不同功能的多個云實現(xiàn)資源在更大范圍的動態(tài)分配、靈活調(diào)度和跨域共享,提高資源的整體利用率。此外,通過對數(shù)據(jù)管理功能的靈活配置,基于多云存儲模式還可應(yīng)對多類型數(shù)字資源隨時間推移不同階段的長期保存需求。
面向大數(shù)據(jù)時代的醫(yī)學(xué)資源建設(shè)和信息服務(wù)的發(fā)展需求,MedPRES圍繞數(shù)字資源保存生命周期,提供從數(shù)據(jù)采集、接收、攝入到保存管理、審計以及服務(wù)的一整套解決方案。基于對醫(yī)學(xué)大數(shù)據(jù)長期保存基礎(chǔ)設(shè)施條件的建設(shè),MedPRES支持PB級數(shù)據(jù)的長期保存服務(wù)。系統(tǒng)界面如圖6所示。
針對已獲取長期保存權(quán)的Karger和Wiley 2種回溯電子圖書,系統(tǒng)可實現(xiàn)對醫(yī)學(xué)電子出版物的長期保存,其中Karger電子書1 827本,Wiley電子書2 239本。此外,MedPRES支持對軟件系統(tǒng)類資源的保存。在長期的醫(yī)學(xué)科研和實踐活動中,建設(shè)了各類醫(yī)療健康相關(guān)的信息系統(tǒng)和業(yè)務(wù)平臺,隨著時間的推移給操作系統(tǒng)的兼容性帶來了挑戰(zhàn),系統(tǒng)級長期保存不僅需要保存系統(tǒng)本身以及系統(tǒng)中的數(shù)據(jù),還需要系統(tǒng)所基于的操作系統(tǒng)。完整地保存這些系統(tǒng)平臺及其數(shù)據(jù)對長期利用這些數(shù)據(jù)具有重要的戰(zhàn)略意義。例如西太平洋地區(qū)醫(yī)學(xué)索引(Western Pacific Region Index Medicus,WPRIM)系統(tǒng)目前已收集來自世界衛(wèi)生組織西太平洋區(qū)域13個成員國的750 651條生物醫(yī)學(xué)題錄數(shù)據(jù),通過在MedPRES中上載操作系統(tǒng)、系統(tǒng)運行所需要的軟件,對WPRIM所需要的環(huán)境進(jìn)行配置以及所需的數(shù)據(jù)與軟件的關(guān)聯(lián)關(guān)系的配置,實現(xiàn)了對WPRIM的保存服務(wù)。采用暗存檔模式,MedPRES中保存的系統(tǒng)獨立于現(xiàn)有業(yè)務(wù)系統(tǒng),僅在觸發(fā)事件發(fā)生時啟用,因此該服務(wù)不占用過多的計算和存儲資源。系統(tǒng)在研發(fā)過程中產(chǎn)生了一系列軟件工具,如內(nèi)容檢查工具、AIP數(shù)據(jù)包生成工具、上載工具等,MedPRES已實現(xiàn)對這些軟件工具的長期保存。

圖6 MedPRES系統(tǒng)界面
MedPRES系統(tǒng)支持工作流的靈活配置和調(diào)用。信息包的核心處理工具以組件形式提供服務(wù),以便于各保存機構(gòu)根據(jù)切身實際情況靈活組配所需的工作流。如根據(jù)可信賴的數(shù)字倉儲審計與認(rèn)證標(biāo)準(zhǔn)ISO 16363:2012,在AIP創(chuàng)建的初期需要對其完整性和正確性進(jìn)行驗證,并且保證AIP內(nèi)容信息的可理解性。圖7為數(shù)據(jù)攝入的一條記錄詳情。通過定義數(shù)據(jù)攝入工作流,可實現(xiàn)從數(shù)據(jù)備份、解壓縮、數(shù)據(jù)檢查、格式檢查、內(nèi)容檢查、SIP規(guī)范化檢查到AIP生成、上載以及創(chuàng)建索引的一整套流程的自動化處理。
醫(yī)學(xué)大數(shù)據(jù)長期保存是一項重要而又艱巨的任務(wù)。本文根據(jù)國際公認(rèn)的開放存檔信息系統(tǒng)OAIS參考模型,綜合利用工作流、數(shù)字倉儲、微服務(wù)及云存儲等關(guān)鍵技術(shù),設(shè)計與實現(xiàn)了醫(yī)學(xué)大數(shù)據(jù)長期保存系統(tǒng)MedPRES。該系統(tǒng)提供從數(shù)據(jù)采集、接收、攝入到保存管理、審計及服務(wù)的一整套解決方案,支持PB級醫(yī)學(xué)數(shù)據(jù)的長期保存服務(wù),可促進(jìn)重要醫(yī)學(xué)數(shù)據(jù)的長期保存與利用。隨著醫(yī)學(xué)大數(shù)據(jù)長期保存實踐活動的開展,將注重對數(shù)據(jù)資源長期保存權(quán)益的獲取,并通過推進(jìn)合作保存,共同促進(jìn)數(shù)據(jù)的長期可用。

圖7工作流實現(xiàn)效果