林 潔
(福州大學,350002)
起源于20世紀的因特網技術,在21世紀的第一個十年迎來一次巨大變革。這個變革的起點就是云計算的誕生和廣泛運用。云計算是一個新的科技概念,它本質上是一種分散式運算的新應用。我們可以簡單地將整個網絡看成一大片云朵,而所有的互聯網使用者都連接到這朵云。只要網絡使用者透過這朵云,就能方便地存取設備、咨詢及服務,而云計算也必須在安全、快速、便利的前提下完成這樣的功能。云計算徹底顛覆了傳統的網絡操作模式,它是一種概念的延伸,在任何地方只要通過電腦和網絡,就能完成一般性的工作。云計算雖然看起來很深奧,但這種運算模式已廣泛運用于搜索引擎、購物網絡、防火墻異常監測及大型網絡數據儲存服務等。商業搜索引擎巨頭“谷歌”和“百度”,購物網站“亞馬遜”和“淘寶”,防火墻“卡巴斯基”以及“安卓”手機系統,都是云計算運用的成功案例。近年來,圖書館界對云計算也表現出極大的熱情,2009年 OCLC[1]宣布即將推出“Web級協作型圖書館管理服務”,此舉表明云計算也將在圖書館領域廣泛應用。
如果將云計算模式引入數字圖書館建設中,由于云計算使用的是虛擬資源,因此不受距離遠近的限制,不必購買大量的服務器,只要通過云端連接網絡,就可以在公共系統中實現高效穩定的訪問服務,此舉不僅可以大幅降低成本,減少人員的投入,還能實現世界級數字圖書館資源的共享。本文以云計算的概念、服務模式和優越性為切入點,探討將云計算引入數字圖書館的可行性,并提出隨后可能會產生的問題,期望可以為數字圖書館的構建和發展提供參考。
云計算是通過網絡將龐大的運算處理程序自動拆分成無數個較小的子程序,再交由多功能服務器所組成的龐大系統,透過搜尋與運算分析之后,再將處理結果傳回給使用者端[2]。美國國家標準技術局定義云計算是一種概念模式[3],依據使用者的需要透過網絡去鏈接共享的資源(如網絡、服務器、儲存器、應用程序和應用服務),可以使用最少的管理而達到迅速的配置與發布。
它是一種通過因特網提供軟件的模式,廠商將應用軟件統一部署在云計算服務器上,客戶可以根據自己實際需求,通過因特網向廠商訂購所需的應用軟件服務,按訂購的服務多少和時間長短向廠商支付費用,并通過網絡獲得廠商提供的服務。使用者不用再購買軟件,而改成向服務供應商租用Web-base的軟件,且無需對軟件進行更新維護,服務提供商會通過因特網全權管理和維護軟件。除了云計算服務供應商所提供的商用SaaS應用之外,有些廠商還提供企業個性化訂制服務應用。其代表就是 Google應用程序,Microsoft OfficeLive,Facebook 等[4]。
它是廠商將云端服務器的應用開發及部署平臺開放給使用者,使用者可以自行部署應用程序、自行使用撰寫程序,但不管理或控制云端設備,包括網絡設備、服務器等。該平臺一般包含資料庫、中介軟件及開發工具,利用此服務,使用者可以只憑借一部手機就可以完成很多過去要在個人電腦上完成的工作。典型的平臺服務參與者為Google App Engine,Windows Azure 等[5]。
廠商將基礎設備(IT系統、資料庫)等整合起來,再分租給使用者。Issa構架出一個具規模的資源中心,提供客戶所需要的儲存空間、服務器、網絡設備等基礎資源,并負責這些資源所需的維護、電力與空調等環境的持續運作,使用者可以有別于傳統自行購買相關設備而改租用的方式取得資源,并依據云端資源的使用量來進行付費。這些服務器、存儲空間及網絡設備都是企業專屬的硬件設備,存在于Issa供應商提供的一種虛擬化平臺中。如IBM TSAM (IBM Trivoli Service Automation Manager)、AWS(Amazon Web Service)等[6]。
傳統的數據中心無法兼顧資源的利用率和高效能,多數數據中心的資源利用率在15%以下。而在云計算平臺中,資源使用率可達89%以上,降低了資源閑置率。對云服務的使用者來說,將IT服務外包給云服務供應商,可使其在設備上的投資本金降到最低,從而節省成本,降低財務風險。當這些IT設備和業務外包出去時,云計算相關技術可自動化管理這些軟硬件,同時云服務供應商也會負責維護和監管,使用者可以大幅降低管理支出[7]。

圖1 云計算的服務模式關系圖
云計算技術將大量的計算放置在互聯網環境下執行,使得大量的計算工作從個人電腦和服務器轉移到互聯網。在云環境下,不但可以借助云計算強大的計算能力減少使用者獲得結果的時間,同時可以降低數據中心的負荷。云計算就像我們生活中經常接觸到的自助餐廳,檢索服務是客人所需要的菜品。在云環境中,客人可在自助區自己尋找到適合的菜點,而不需要直接向廚房提出要求,從而解決了傳統的“用戶—大型服務器”互聯中,用戶需求集中,大型服務器負荷過大的困擾[8]。
兼容性一直是困擾互聯網發展的難題,它不但限制了用戶在不同平臺間的流動,也限制了不同平臺間的信息共享。舉例來說,一個用戶在進行信息獲取的過程中,需要在不同的平臺上注冊數個身份,從而獲得相應的權限來進行自己的獲取行為。這樣用戶很難進行跨平臺工作,同時每個平臺也增加了大量無用的客戶信息。云計算則可以很好地解決這個困擾,因為它擁有良好的跨平臺兼容性。例如“網易”和“新浪”作為中國最大的兩個門戶網站,通過使用云計算技術,便可做到用戶跨平臺的交互。在云計算應用之前,兩個門戶網站的用戶是相互獨立的,即網易用戶只能注冊使用網易平臺,而新浪用戶也只能注冊使用新浪平臺。在云計算應用之后,用戶可以使用網易用戶名,直接在新浪注冊并擁有新浪原用戶的所有權限。
數字圖書館建設過程中,資金需求量大,資源閑置和數字資源無法共享等問題層出不窮。而云計算在這些方面擁有明顯優勢,它可以最大程度地優化已有資源,節省數字圖書館建設和運營成本,還能共享不同數字圖書館的資源,因此將云計算引入數字圖書館建設將大有裨益。
數字圖書館具有相當龐大的數據信息量,以傳統服務器為中心,采用磁盤陣列技術的存儲架構,在信息資源儲存共享、數據盤擴充、訪問速度上都存在明顯缺陷。因此,依靠傳統技術儲存信息的數字圖書館發展受到很大影響。在云計算環境下,可以利用虛擬化的存儲設備提供近乎無限的存儲空間,并且隨時進行更新,從而滿足數字圖書館日益增長的海量數據存儲需求。云計算的虛擬存儲技術甚至可以做到數字內容永久存儲。
例如,美國國會圖書館 NDIIPP項目和DuraCloud宣布,他們將聯手發起一個為期一年的試驗計劃,檢驗利用云技術進行數字內容永久存取的情況。NDIIPP項目的最終目的就是利用云技術,將多種形式的數字資源,如地理空間信息、視聽資料、圖像和文本等,通過虛擬存儲技術永久保存于互聯網之中[9]。因此,擁有海量存儲能力的虛擬存儲系統是數字圖書館發展的重要保障。
數字圖書館會產生大量的信息資源流通,這些數據常常達到PB(Petabyte)的規模,這需要圖書館服務器具備海量信息處理能力。例如,數字圖書館多媒體數據存儲格式的轉換、大量信息的掃描識別、資源數據庫的索引倒排等[10]。如果僅以高性能大型計算機為平臺處理海量信息,不僅需要耗費巨資采購大型計算機,而且在以后的維護和管理上都會產生較多問題,這樣就需要消耗大量的人力、物力資源,同時一旦信息處理工作進入空白期,這些計算機的閑置就成了一種資源的浪費。
云計算可以依靠其聯網處理信息資源的能力,以較低的成本進行信息資源的計算處理和分析。目前最流行的處理方式是Google公司推出的一款Map-Reduce編程模型。它可以產生大量數據集,將核心思想和要執行的問題拆解成Map(映射)和Reduce(化簡),先通過Map程序將數據分割成不相關的分塊,分配給大量計算機處理,達到分布運算的效果,再通過Reduce程序進行結果匯編,輸出開發者需要的結果[11]。除此之外,云計算可以通過建立虛擬服務器的形式,進行多云計算連接,直接忽略物理位置為用戶提供運算服務。這樣,用戶只需要一個可以連接互聯網的端口,就可以得到想要的服務。
在云計算環境下,不同數字圖書館可以分別構筑信息數據中心,而不用擔心無法共享信息資源。這既可以保障數字圖書館的信息需求,也可以簡化數字圖書館建設工程,降低運營成本。不同用戶可以通過云計算環境下的虛擬服務器和統一訪問接口,實現同時獲得不同圖書館的資源。同時,不同數字圖書館也可基于云計算的虛擬服務器,將異構分布環境下不同來源的信息資源進行統一整合,以達到信息資源共享,并且做到優化配置智能管理,從而提高圖書館信息資源利用效率。
例如,中國高等教育文獻保障系統(CALIS)最初以聯合目錄數據庫為基礎,以高校為主要服務對象,開展聯機合作編目、編目數據批量提供、編目咨詢與系統培訓等業務,經過一段時間的發展,建立了完善的聯機編目系統[12]。隨著云計算作為新技術引入CALIS,兩者相結合開發出新數字圖書館云服務平臺。這一平臺可以將互聯網上不同的數字圖書服務平臺整合成統一的服務體系,通過資源分配和管理,達到數字資源高度共享。
這是云計算的最大優勢,不管用戶以何種電腦或其他便攜裝置,如智能手機、平板電腦、筆記本電腦,只要使用者可以連接互聯網都能夠享受到數字圖書館服務。云計算環境下的數字圖書館將眾多資源放置在互聯網中,而非傳統意義上的自有大型服務器上。在開放的網絡環境下,用戶只需連接到互聯網,就可以遠程登錄任何數字圖書館,從而提高數字圖書館自身信息資源利用效率。
云計算的優勢似乎無與倫比,然而我們也必須用理性的態度來看待云計算帶來的技術革新浪潮。雖然每一家云計算方案供應商都強調使用加密技術來保護數據,但在云環境下,數據安全問題、用戶隱私、版權糾紛等圖書館數字化的核心問題仍然應當引起我們的重視。
數據安全對圖書館來說至關重要。館藏資源、電子文獻資源和流通數據一旦丟失,對于圖書館而言都是巨大的損失。盡管很多學者認為云計算提供了安全可靠的數據存儲空間,但數據安全問題一直是云計算的主要問題之一。所以,在云計算引入數字圖書館的過程中,圖書館管理者需要對法律法規和因特網保密工作有充分的了解。
將云計算引入數字圖書館領域之后,不但數字圖書館本身的數據安全需要重視,用戶的隱私同樣需要引起相關部門注意。在使用數字圖書館跨平臺檢索時,仍然需要用戶進行注冊,此時用戶難免會將自己的隱私資料發送到互聯網之中。在云計算環境下,用戶隱私也儲存在互聯網上,不可避免地同樣有泄漏和被盜的風險。
雖然數字圖書館和云計算結合后可以給眾多讀者提供優秀而便捷的信息服務,但是版權問題仍然會貫穿數字圖書館發展的始終。唯一可以避免大量糾紛產生的方法,就是在圖書館數字化過程中,不但要引入云計算這樣的先進技術,還需要簽訂大量的授權協議,從而保證在云計算時代不會因為版權糾紛擾亂數字圖書館發展的步伐。
數字圖書館是圖書館事業發展的必然方向。引入先進的云計算進行資源優化配置,提高信息管理服務質量,是數字圖書館建設中較為合理的選擇。而云計算作為先進的運算模式,還處于應用的初級階段。如果想將云計算應用于數字圖書館領域,勢必要對其優劣勢進行全面而客觀的分析。利用云計算的技術優勢可以降低數字圖書館建設過程中的資源消耗,但出于安全考慮必須訂立大量的技術協議和服務協議,構建新的管理體制,以保證數字圖書館的和諧發展。
[1] OCLC News releases.OCLC announces strategy to move library management services to Web scale[EB/OL].http://www.oclc.org/news/releases/200927.htm.2012-03-01.
[2]ABI research.Mobile Cloud Applications:Weights and the Apps Dilemma for Smart phones,Netbooks,Media Tablets,and Connected Mobile Devices[EB/OL].2012-03-01.http://www.abiresearch.com/research/1003385.
[3]Peter Mell,Timothy Grance.The NIST Definition of Cloud Computing(Draft)[R].NIST Special Publication 800-145(Draft),2011:1-7.
[4]虞 為,陳俊鵬.基于本體的云計算文獻管理模式研究[J].情報雜志,2011,30(2):147-151.
[5] Decandia G,Hastorun D,Jampani M,Kakulapati G,Lakshman A,Pilchin A,Sivasubramanian S,Vosshall P,Vogels W.Dynamo:Amazon’s Highly Available Keyvalue Store[C].In Proceedings of Twenty-first ACM SIGOPS symposium on Operating Systems principles,ACM PressNew York,USA,2007:205-220.
[6] Abramson D,Buyya R,Giddy J.A Computational Economy for Grid Computing and Its Implementation in the Nimrod-G resource Broker[J].Future Generation Computer Systems,2002,18(8):1061-1074.
[7]陳 瀅.云端策略:云端計算與虛擬化技術[M].臺北:天下雜志出版社,2010.42-60.
[8]杜海寧.基于云計算的圖書館海量數據存儲研究[J].圖書與情報,2010,(3):99-101.
[9]中國國家圖書館,中國國家數字圖書館.美國國會圖書館和DuraCloud發起試驗計劃——利用云技術進行數字內容永久存取的情況[EB/OL].http://www.nlc.gov.cn/yjfw/2009/0803/2009-9.
[10]王 平.云計算關鍵技術在數字圖書館中的應用研究[J].情報資料工作,2010,(5):52-56.
[11]郭本俊,王鵬,陳高云,黃 健.基于MPI的云計算模型[J].計算機工程,2009,35(24):84-86.
[12]費希娟.Calis條件下高校圖書館文獻資源的共建[J].長春師范學院學報(自然科學版),2011,30(3):177-179.