互聯網上大量的醫學信息資源對醫學科學研究工作具有舉足輕重的作用。但如何有效利用優質的網絡醫學信息資源為醫學科研工作者提供服務一直是信息工作者關注的課題。目前存在的對資源開發者的知識產權保護不力、資源開發平臺和運行環境無法兼容、網絡醫學信息資源的異構性與分散性等問題對資源的有效利用造成障礙[1-2]。云計算可利用最小化的客戶端實現復雜高效的處理和存儲[3],若將云計算推廣到網絡醫學信息資源服務中,無疑會極大地提高資源的利用效率。
云計算(cloud computing)是隨著計算機技術、存儲技術及通信技術的發展而出現的一種嶄新的計算模型。其基本原理是以互聯網為中心,用普通設備和網絡連接設備構建數據中心,將大量計算資源、存儲資源、軟件資源、硬件資源鏈接在一起,形成巨大規模的共享虛擬IT資源池,用戶所需的服務運行在“云端”[4-5];用戶所處理的數據保存在互聯網的數據中心。數據中心是云計算的基礎,要保證有足夠強的計算能力和足夠大的存儲空間供不斷擴展的用戶群使用。其正常運轉和維護由提供云計算服務的企業負責,在任何時間和任何地點用戶只需通過互聯網進行簡單的操作即可方便地獲得所需服務。云計算體現了“網絡就是計算機的思想”,為計算機用戶提供安全、可靠、快速、便捷、透明的數據存儲和計算服務[6]。
云計算作為一種新的計算模式,具有高可擴展性、高可用性、按需服務等優點。
第一,低成本。軟硬件的維護由云計算提供者負責,用戶只需支付一定的費用,不需要再投入大量的人力財力,應用程序的運行在“云端”,應用程序的更新也在“云端”自動完成。
第二,良好的數據和應用共享能力。不同操作系統之間數據和應用的共享較復雜,云計算環境下用戶可通過終端設備連接到“云”不同的操作系統,共享數據和應用,不用考慮不同操作系統之間的兼容性,用戶的數據和應用需要在不同的終端設備間共享,只需訪問“云端”即可方便獲得。
第三,安全性、可靠性高。在“云”里,一臺計算機的崩潰不會影響存儲的數據,這是因為“云”會自動備份存儲的數據。數據的位置和組織方式對用戶是透明的,用戶不需關心數據存儲的位置、數據是如何組織的,只需通過服務商提供的使用接口存儲數據即可。此外,云計算環境會設置嚴格的權限,可以幫助用戶放心地與指定的人共享數據。
第四,良好的可擴展性。一是計算能力的可擴展。用戶在云計算環境下,可以支配整個云的計算能力,這種計算能力的可擴展性是顯而易見的。二是存儲能力的可擴展。用戶的海量數據存儲在“云端”,這種存儲能力的可擴展性事實上是無限的。三是數據獲取方式可擴展。云計算環境下,用戶獲取數據的方式不受時間、地點和設備的限制,可以隨時隨地通過各種終端設備(手機、電腦、iPad等)獲取所需數據和服務。
網絡醫學信息資源主要包括生物醫學數據庫、醫學新聞、醫學教育、醫藥市場資源等[6-7]。網絡醫學信息資源利用主要存在以下問題。
一是利用效率低下。網絡醫學信息資源對醫學工作者和醫學科研人員具有重要作用,但由于知識產權保護不力,各類資源開發者的切身利益受到損害,導致資源開發者不愿共享自己的資源,資源的開發和利用之間未形成一種有效的互動和平衡。
二是不兼容性對有效利用造成障礙。不兼容性主要體現在網絡醫學信息資源開發平臺和運行環境無法兼容,這是有效利用網絡醫學信息資源的巨大障礙。另外,用戶使用中也可能碰到格式不兼容的問題,因為網絡醫學信息資源的有文檔型、圖片型、數據庫型、音頻型、視頻型等多種格式。
三是搜索引擎萬能論失效。網絡醫學信息資源非常豐富,但又良莠不齊,用戶能否檢索到自己需要的、有價值的資源最為關鍵[1]。網絡醫學信息資源只有被充分利用,才能體現其最大價值。而要實現網絡醫學信息資源價值的最大化,僅僅依靠搜索引擎已經力不從心。搜索引擎為我們搜索信息提供了極大便利,但其查準率、查全率卻不理想,往往漏檢用戶所需的有價值的網絡醫學信息資源,因此并不能幫助我們解決所有問題。
四是分散性和異構性影響網絡醫學信息資源的有效組織和利用。從空間角度看,多格式、大量相關網頁分散在各類醫學專業網站、醫學專業數據庫、醫學工作者的個人博客及非專業網站;從時間維度看,新媒體形式不斷出現,與之相應的網絡醫學信息資源繼而出現,異構性成為有效組織和廣泛利用網絡醫學信息資源面臨的首要問題。
云計算具有高可擴展性、高可靠性和安全性等優點,可為用戶提供簡單、便捷、可配置的服務,滿足不斷增長的海量數據存儲的要求[6]。
鑒于此,云計算環境下,面對網絡醫學信息資源的海量增長,需要通過虛擬化技術、分布存儲技術、并行計算技術等將分散在網絡不同地方、格式多樣、異構的網絡醫學信息資源以相對集中的方式展現,實現云提供商負責下的資源動態更新。
針對目前網絡醫學信息資源的利用現狀,結合云計算的特點,在云計算環境下構建網絡醫學信息資源服務模型(圖1),對有效整合異構環境的資源、實現資源優化配置、優化網絡醫學信息資源服務,避免重復建設醫學信息資源、減少人力財力的浪費、提高資源共享和利用具有重要作用。該模型由基礎設施、管理平臺、應用軟件、云客戶端四部分組成,采用云計算環境下的虛擬技術、分布存儲技術、并行計算技術等將硬件資源、軟件資源等抽象為服務,為不同需求的用戶提供服務[8]。

圖1 云計算環境下網絡醫學信息資源服務模型
基礎設施服務層向用戶提供基礎設施服務,用戶無需關心基礎設施所處的位置和屬性,可通過統一接口直接操作或使用基礎設施的部分資源。通過虛擬化技術,將普通機器、網絡設備、存儲器、硬件基礎設施與設備等建設為資源池,進行統一調度、分配和使用。數據中心是云計算環境構建的基礎,因此基礎設施服務層除了向用戶和上層提供基礎設施服務外,還需將普通機器和網絡設備等連接起來構成數據中心。
管理平臺服務層在基礎設施服務層之上,由公有云管理平臺、私有云管理平臺、安全管理和故障管理4部分組成。這4部分相互協作,構成有機整體共同管理云計算環境。
公有云管理平臺主要負責數據庫、導航資源、常規數據資源等的日常管理、運行和維護,為用戶提供豐富的、個性的信息資源。
私有云管理平臺主要負責重要常規信息資源、敏感信息資源(如版權保護信息、用戶權限信息)等的管理和維護。對于這些資源,不同用戶有不同的使用權限。本地用戶有權限閱讀和修改,普通用戶只能使用部分開放的資源,且只能讀取。
安全管理主要負責常規信息資源的管理和調度,向用戶提供正常服務。通過云檢測技術監測用戶行為,并對用戶行為進行分析,以此判斷用戶的合法性及其有無惡意攻擊行為,確保用戶在云計算環境下正常使用網絡醫學信息資源服務。
故障管理主要負責數據中心中某個節點失效或發生其他故障時,存儲在該數據中心的數據資源重新部署、管理、調度等應急處理。基礎設施層的虛擬資源池發生故障時,向用戶或上層提供服務時重新調度資源池中資源的管理策略。管理平臺中私有云管理平臺、公有云管理平臺發生故障時的預案處理。
應用軟件服務層處于云計算環境下網絡醫學信息資源服務模型的第三層,是該模型最重要的部分。該層將各類異構網絡醫學信息資源封裝為與平臺無關的網絡醫學信息資源服務,向用戶提供數據服務、通信服務、信息服務、應用程序等。用戶根據需要支付一定的費用,即可獲得服務。
云客戶端是云計算環境下網絡醫學信息資源服務模型的最上層,直接面向最終用戶。用戶在有網絡連接的地方通過統一接口隨時隨地訪問“云端”,使用便捷、高效。云客戶端不僅包括個人計算機,還包括能與云計算環境互聯的各種終端設備,如筆記本電腦、移動手機、iPad、數字電視等。
構建云計算環境下網絡醫學信息資源服務模型,對實現資源優化配置,解決網絡醫學信息資源的海量增長及異構等問題有積極意義,既可避免重復建設,減少人力財力的浪費,又為最終用戶提供透明的訪問。實現云計算環境下網絡醫學信息資源服務需要處理好一些關鍵問題。
云計算是隨著計算機技術、網格技術、通信技術快速發展而出現的一種新的計算模式,目前在商業領域得到了較為廣泛的應用,比較成功的案例有谷歌應用軟件引擎(Google AppEngine,簡稱GAE)、IBM推出的藍云計算平臺、Amazon推出的彈性計算云(elastic compute cloud,簡稱EC2)等[9]。
但云計算領域仍沒有統一標準,相應的法律法規沒有跟上,涉及人文、社會、法律的問題還需要相關組織著手研究解決,相應的服務協議還需要各利益方協調解決。
一是分布存儲技術。分布存儲技術是云計算的基礎,主要研究如何存儲、組織和管理數據中心的信息資源,并向上層應用提供安全、高可靠、高可用的信息資源存儲服務。在滿足用戶需求的指標驅動下,需要關注數據中心網絡的構建。如果要進一步推廣應用,還要求數據中心網絡具有良好的可擴展性,以適應不斷拓展的應用需求[5]。
二是并行計算技術。并行計算技術是實現云計算的核心技術之一,主要研究如何同時使用多種計算資源協同解決同一問題,即將擬求解的問題分解成若干個部分,各部分均由一個獨立的處理機來并行計算[10]。
三是虛擬技術。虛擬技術是實現云計算的核心技術之一。通過虛擬技術可以動態擴展物理資源,實現按需服務,實現多用戶分享數據中心的資源,也是云計算最重要的特點[9]。
四是調度策略[11]。通過對資源使用情況的分析,進一步調整“云端”中資源的管理和調度策略。對大數據集進行處理、分析,在規模巨大的信息資源中找到特定的資源,使得資源訪問更加便捷高效,滿足用戶利用海量異構信息資源的需求。
云計算正在改變我們的生活、學習方式,并以全新的視角展現了高科技帶來的巨大能量和便利。將云計算應用于網絡醫學信息資源服務將從思想觀念和使用習慣上改變人們獲取信息、存儲信息及利用信息的方式,使用戶獲得更加輕松方便的體驗。