醫學數據是大數據時代最為關鍵的一類重要數據[1],關系著生命和健康,是醫療和衛生服務相關領域科學研究的基礎。鑒于醫學數據的敏感性、珍貴性和復雜性[2],針對日益增長的醫學科研數據,構建大數據環境下的科研數據管理服務體系已成為推動醫學科技創新的重要建設內容[3-4]。
基于數據密集型科學發現的科研新范式[5],圖書情報領域已開展以文獻為核心的科研服務相關研究。如針對科學大數據,朱維喬[6]從接收、存儲、組織、計算、分析和用戶接口等方面構建了服務平臺的模型;基于對大數據環境下科研用戶數據的分析,王欣等[7]提出了圖書館個性化推薦服務機制;聚焦高校圖書館的科研情報,姜勇[8]探究了大數據服務體系的構建路徑。為滿足大數據環境下數據密集型科研的需求,提升醫學信息服務能力和效率,本文構建的醫學科研服務體系,旨在為大數據環境下的多元化醫學科研服務提供系統性的架構支撐。
計算、存儲、網絡以及安全等物理設備是醫學科研服務基礎環境的重要組成部分,鑒于對醫學大數據存儲、分析與處理等的需求,通過醫學科研云實現對信息資源的高效整合和靈活部署。隨著對已有科研數據的利用、過程數據的保存和產出數據的共享等服務,科研數據貫穿科研活動的整個過程。同時,醫學科研活動離不開對科研工具的使用,隨著信息技術的發展以及自主研發能力的提升,科研活動中也產生了各類更為專業的新穎工具。
因此,鑒于科研活動在數據和工具方面的積累,資源倉儲的對象包括了科研數據和科研工具2方面。從資源發現與檢索的便捷性、開放共享性和長期可用性,提供資源統一發現、協同共享以及長期保存服務。
大數據環境下的醫學科研服務體系的總體架構如圖1所示,自底向上包括醫學科研云、資源倉儲以及科研服務3方面建設內容。

圖1 大數據環境下的醫學科研服務總體架構
2.1.1 云基礎環境
基于大數據環境下的醫學科研服務實際需求,依據資源“按需服務”理念,采用具有分布式、跨網絡、多資源種類等特點的云計算架構[9-11],利用端到端的虛擬化技術,統一規劃與設計醫學科研數據云基礎環境,通過對服務器、存儲、網絡等物理設備的靈活部署和對異地計算、存儲、網絡以及安全等IT資源的有效整合,支持對基礎設施資源的動態分配及不同網域中資源的交互共享,并具有任務調度的靈活性。云基礎環境的建設可有效降低運維與應用的成本和復雜性,提高醫學科研基礎設施環境中的信息資源整體利用率。
2.1.2 云管理機制
為各種醫學科研應用按需分配基礎設施,以虛擬化技術為基礎,為多數據中心建立統一的資源池,分別對計算、存儲、網絡資源進行池化,支持對資源池的高效管理和對各類信息資產的全生命周期管理。在IT資源池之上部署云計算服務,以云服務方式向科研人員提供IT資源服務,并利用統一云數據中心管理平臺實現多個內部數據中心資源的管理,通過統一入口進行自動化流程審批及資源管控。通過醫學科研數據云管理機制,實現對軟硬件資源的專業化統一管理、分配、部署和備份。
2.1.3 云監控機制
為保證醫學科研數據環境中的各項應用更具連續性和安全性,采用云監控機制對云環境運行狀態實時監測與動態控制,包括系統資源監控、數據庫監控、中間件監控、虛擬化監控、存儲監控、網絡監控、應用系統監控等。根據醫學科研與創新應用對資源的需求進行動態匹配,實現系統動態擴容、閑置資源回收、隔離故障等功能。通過對云監控實時數據和歷史數據進行分析和挖掘,靈活調整監控策略,不斷優化各類資源配置,提高風險預測能力,強化醫學科研云環境的總體性能。
2.1.4 云安全機制
當前信息安全形勢嚴峻,國家層面已出臺《網絡安全法》《計算機信息系統安全保護條例》《互聯網信息服務管理辦法》等信息安全相關法律法規,各級政府和機構也發布了一系列的標準規范、管理辦法。鑒于醫學數據在倫理層面的敏感性、獲取層面的珍貴性以及共享層面的復雜性,安全管理體系以云安全技術為基礎,通過安全監測、檢測、評估、漏洞修復、防御加固等策略,為大數據環境下的醫學科研云提供安全性保障,并通過數據安全和備份恢復等措施,確保醫學科研數據的保密性和完整性。
2.2.1 資源遴選與采集
醫學科研資源類型繁多、結構內容復雜、出版格式多樣,資源采集首先需對數據倉儲進行合理規劃,確定醫學科研數據倉儲的內容和方式。根據醫學科研和科技創新的切實需求,收集和分析科研團隊對科研數據環境建設的意見和建議,甄選滿足科研創新需求的高質量醫學數據資源,集成多來源的醫學開放獲取信息資源,并匯聚自有科研平臺特色數字知識資產。通過基于云的資源自動化采集和匯聚方法,根據資源特點及服務和存儲需求確定資源獲取方式,為大數據環境下的醫學科研活動提供完整、準確、可靠的科研資源。
2.2.2 資源描述與規范化
科學有效的資源組織方式對科研數據的提交、組織、存儲、檢索尤為重要。對采集數據的遴選和分類,利用流處理和批處理等方式對科研數據進行及時和有效的規范化處理,形成標準化數據倉儲。除醫學科研數據外,倉儲建設的內容還包括格式轉換、數據清洗等規范化處理過程中所需的各種工具,以及醫學科研所需的數據分析、數據挖掘、可視化等工具,從而為科研人員獲取和利用科研工具及工作流提供完善的工具倉儲。針對資源注冊與登記、資源分類、資源描述等建設需求,通過資源唯一標識、統一元數據標準以及互操作等相關標準規范,支持不同來源元數據的統一注冊、檢索、映射和發布,促進數據交換共享以及不同平臺間的互操作。
2.2.3 資源開放與共享
資源的開放與共享有利于在降低單個科研團隊運作成本的同時,提高科研效率和科研成果的質量。醫學學科分類較為精細,且具有與其他學科交叉滲透的特點,更廣范圍內的科研資源獲取可進一步促進醫學科技創新。結合醫學科研共享需求以及數據提供者的共享意愿,醫學科研數據的開放與共享機制包括知識產權、開放共享政策、開放共享方式、服務內容、服務方式、數據引用等方面內容。醫學科研數據倉儲發布環境提供包括數據在線瀏覽、檢索、下載等通用的數據服務,以及數據統計、數據鏈接、數據可視化、數據接口、數據定制、數據傳遞、數據申請、數據預約、數據協作等深層次服務和特色服務。
2.3.1 統一發現服務
針對統一搜索發現、資源關聯導航、專題服務的科研數據服務需求,資源統一發現服務旨在提高科研活動開展的便捷性。基于云服務的IT資源申請和應用模式,為科研人員提供完善的科研基礎設施環境,有利于科研人員將更多精力投入到科學研究和創新實踐活動中。知識化組織融合多源異構醫學科研數據資源,利用Open URL、Web Service、DOI等技術,實現元數據與數據資源以及服務之間的無縫鏈接,最大程度實現倉儲資源的可見性和可獲得性。提供基于元數據搜索的資源統一發現和基于語義的多維知識關聯發現,為科研活動提供人機友好交互的一站式資源檢索與獲取服務。基于大數據分析與挖掘等先進理論、技術與方法,為不同數據需求驅動下的醫學科研實踐提供專業化、個性化、動態化和集成化的知識發現增值服務。
2.3.2 協同共享服務
為支持不同科研用戶的需求與合作,縮減科研流程周期,通過工作流機制,基于云倉儲體系中的各種工具,為科研人員開展深層次的知識服務提供便捷、高效的自動化科研應用服務。充分考慮和保護數據科研成果所有者的知識產權,通過“線上+線下”的綜合服務模式,為多途徑的資源獲取提供條件,同時促進協作創新。作為推動科學數據共享的有效途徑之一,數據出版模式既可提升科研數據的可信度,又能為更好地存儲、利用和推廣數據成果帶來可能。科研數據出版服務包括數據質量控制、激勵機制、版權保護等。
2.3.3 長期保存服務
醫學科研活動注重實證和積累,具有持續性和長期性,科研活動中產生的科學數據、實驗記錄、臨床文檔等具有切實的長期保存需求。為確保數字信息的長期存儲,保證數字信息的真實可信,且能夠被未來的使用者理解和應用,圍繞數字資源的保存生命周期,醫學科研數據長期保存服務的對象包括醫學科研數據環境中具有長期保存價值的海量數字資源以及與之對應的相關元數據和支撐運行系統等,服務內容包括格式管理、信息封裝、安全監測、完整性校驗、數據功能審校、數據遷移等。通過長期保存服務,為重要醫學科研資源的長期可用提供服務保障。
面向醫學大數據環境下的業務發展需求,中國醫學科學院醫學信息研究所/圖書館目前已建設完成醫學大數據云數據中心。主要建設內容包括基于兩地數據中心,實現了對整體布局的調整以及部分老舊業務系統的在線遷移;以虛擬化技術為基礎,擴增了數據中心的計算、網絡、存儲等資源池;構建了云數據中心管理平臺,實現了資源集中調度和自動化部署;構建了云數據中心運維監控平臺,實現了軟硬件設備統一監控;構建了云數據中心安全態勢感知平臺,實現了對安全風險的分析及可視化展示。
在建設成果方面,依托云數據中心云管理平臺,已實現對原有信息機房102臺業務系統的遷移;基于軟件定義存儲,將8個計算節點進行分布式存儲整合,新增3臺GPU服務器,為云數據中心提供高性能計算資源;新增4節點超融合服務器,以萬兆互聯交換機組網,將傳統架構中的內部計算網絡存儲模塊進行分布式組合,支持橫向線性擴展;更新核心交換機,以增加數據交換容量,支持虛擬化;并新增2臺數據中心交換機和10臺服務器接入交換機,以增強擴展能力,簡化管理,提升可靠性和易維護性;針對醫學大數據業務需求,擴增360TB存儲資源和128TB備份資源;并通過現有存儲虛擬化網關設備,實現存儲節點間的互聯互通。此外,還采用虛擬化技術融合現有的統一存儲系統和分布式存儲混合架構體系,以滿足云數據中心資源靈活申請和配置需求。
建設完成的云數據中心支持對PB級數據存儲、分析與處理,為大數據環境下的醫學科技文獻服務、人口健康服務、重大疾病服務、醫療保障服務以及衛生信息服務等提供安全可靠的資源保障和快速便捷的服務支撐。醫學大數據云數據中心目前的資源使用情況如圖2所示。通過對建成的云數據中心服務效果情況進行調查的結果顯示,服務對象滿意度達90.91%。

圖2醫學大數據云數據中心資源使用情況
為滿足大數據環境下的醫學科研服務需求,提升醫學信息服務能力和效率,本文基于數據驅動科研的新態勢,從醫學科研云、資源倉儲、科研服務3方面構建了醫學科研服務體系。以醫學科研云為基礎,開展科研數據和科研工具倉儲建設,支持資源統一發現、協同共享以及長期保存服務,為科研數據采集、存儲、發布和應用的全流程管理提供安全、可靠、便捷的基礎條件。基于該服務體系建設完成的醫學大數據云數據中心在醫學科研數據開放獲取、利用與共享的推動下,將進一步促進醫學科技創新。