賀令輝
(中山大學圖書館,廣東 廣州 510275)
隨著分布式、并行式和網格計算的不斷發展,云計算作為全新的計算模型出現在人們的視野之中。在云計算模式下,對于數據信息的計算是由眾多計算機的資源池所完成的。根據不同應用系統的需求,資源池上可以提供軟件服務、數據存儲服務、計算服務等多種服務。因此,云計算能夠在很大程度上提高數據運算能力和資源檢索速度。
云計算這一全新計算概念在2007年甫一出現就受到世界的廣泛關注。在各大信息服務巨頭的研究推動下,國外的IT行業已經涌現出一批高效、實用的云計算系統,比如由Google所開發的GFS云文件系統、數據分布式Bigtable存儲系統及應用系統中所廣泛使用的數據處理MapReduce框架;再如Sun Microsystems在原有的平臺基礎上開發了Sun Grid Engine集群軟件。另外,歐洲的一些科研機構通過對并行計算的研究,能夠將其應用到個人網絡之上,使得個人計算機能夠通過相應的計算代碼提供個人電腦的計算能力。
這種以云計算為技術基礎的新型檢索模式除了應用在傳統的圖書館資源檢索服務之中,還能夠應用于企業信息平臺及其他政府機構。
在傳統圖書館中應用以云計算為基礎的資源檢索,可以將區域、甚至行業內的圖書館資源進行整合,通過海量存儲平臺及信息服務平臺的構建,集中發揮行業信息服務優勢,為用戶提供更為專業化、全面化的信息資源服務。
在競爭不斷加劇的市場經濟環境下,信息對于一個企業的生存發展起到了越來越重要的作用。在這種環境下,企業需要做好對社會中海量信息的獲取、辨別、儲存及利用工作。以云計算為基礎的信息檢索技術可以為企業提供良好的平臺。
對于政府機構而言,其信息量同樣十分巨大。通過對這些數據資源中有價值意義的部分進行挖掘,能夠在社會建設過程中起到重要作用,所以,針對這些數據信息的管理工作就顯得尤為重要。
隨著圖書館專業化、全面化及個性化信息資源服務的不斷發展完善,圖書館所能提供的信息資源已經覆蓋了社會行業中的各個領域。盡管不同圖書館所處的地理位置及服務對象不同,但是為滿足用戶日益增長的閱讀、參考需求,圖書館的信息資源總量必定會進一步豐富、增長。
基于圖書館所處地域、所面對的用戶不同等原因,其所擁有的數據資源也不盡相同,此外,由于所使用的數據資源系統不同,圖書館對電子資源的檢索方法也不盡相同。所以,圖書館界在數據資源發展及應用方面呈現出了百花齊放的局面。在這種數據資源檢索模式下,為獲得更為全面專業的數據信息,用戶往往需要在不同的圖書館數據庫中進行檢索,而檢索方法的不同會導致用戶的檢索過程極為不方便。這就要求將分散在各個圖書館內的數據信息進行整合,依靠全面的數據資源信息、統一的信息檢索方式為用戶提供最為豐富、準確的信息資源。
在云計算出現以后,用戶使用終端可以在資源池中進行數據計算,擺脫了過去對自身計算機的計算能力要求。另一方面,云服務器所要進行的計算也可以分配到資源池之上。這種分散計算的處理方式有效地提高了整個系統內部的計算能力,可以有效解決目前在圖書館中所存在的數字化信息資源使用率低、資源檢索不方便等問題。
以云計算為技術基礎,圖書館服務器的存儲任務通過建立海量存儲模型被分配到用戶終端計算機或者與它資源共享的服務器之上,而計算任務則通過建立海量計算模型被分配到用戶終端計算機或其他服務器。如此,在相同的服務器條件下,數據的存儲計算速度得到有效提高,數據共享的范圍也得到極大擴展。用戶可以通過應用程序使用資源池之上的計算能力,提高資源檢索的速度和準確率。另外,用戶終端能夠將知識資源儲存在服務器之中,實現與其他用戶的共享。所以說,云計算的出現為數據資源檢索服務的發展提供了良好的技術支持。
基于云計算技術的圖書館服務器,通過建立資源池對計算、存儲任務進行分散,形成了一個資源利用率高、檢索速度快的數據資源服務平臺。云計算對于資源檢索的現實意義可以概括為以下3方面:第一,云計算將龐大的數據資源轉為資源池,并以此為技術基礎完成更為復雜繁瑣的檢索計算;第二,可以整合區域內的圖書館、機構的數據資源,將不同類型圖書館中不同專業領域的數據資源進行云集合,建成一個覆蓋不同類型圖書館的館群數據資源服務體系,它不僅能夠為用戶提供更為全面、廣闊的數據資源和檢索服務、提高人們的資源利用水平,而且能夠避免資源重復建設帶來的成本浪費;第三,基于云計算的運算平臺能夠并行利用不同地域、行業、機構中的數據資源,這些數據資源將為用戶資源檢索提供海量資源信息,能夠使得用戶在一個平臺上獲得多個平臺的數據資源。這種一站式檢索方式除了可以提高檢索服務的快捷性和方便性,對提高圖書館的行業競爭力、培養用戶的文化素質也具有重要意義。
云計算在圖書館資源檢索方面的應用是建立在網格計算基礎之上的,但是它突破了傳統檢索過程中環境的異構性、擴展性及動態適應性差的限制,有效地提高了當前圖書館資源檢索的效率。但就目前而言,在我國還沒有建立起真正基于云計算的網絡平臺。但是具有海量數據資源的圖書館又迫切需要以云計算為基礎的MapReduce等技術作為支撐。所以,將云計算應用于圖書館資源檢索服務具有其必要性。
4.1.1 構建簡單海量數據資源儲存模型
所謂以云計算為基礎的簡單海量數據資源儲存模型,是一種建立在Hadoop等開源平臺之上、面向海量數據資源的儲存模式,它能夠滿足區域、行業甚至是全國范圍內的數據資源儲存需求。它應該包括:①自動跨域適用的云文件系統;②基于BigTable儲存系統、面向結構化數據的云儲存模型。
4.1.2 構建面向資源的并行計算模型
這種并行計算需要面向區域、行業、全國范圍內的圖書館資源分布特征,在框架結構上可以參考MapReduce模型,在此基礎上建立面對海量資源的檢索方法和并行計算模型,它應該在數據處理速度及檢索適應性等方面具有優勢。它應該包括:①面對海量數據的檢索邏輯,能夠適應海量數據資源的分布檢索,增強對海量數據資源檢索的準確性、高效性。②面向海量數據的索引邏輯,以增強對海量數據資源的分布索引,提高對儲存數據并行檢索的效率及速度。
4.1.3 構建面向檢索的并行計算框架
在Hadoop、Section/Sphere等計算模式及海量數據資源運算、儲存的基礎上,需要研究在因特網環境下面向檢索的并行計算框架。它應該包括:符合因特網發展環境要求,面向分布式海量數據資源檢索的并行計算框架,以實現在圖書館群資源環境下對于資源檢索的計算框架構建。
4.2.1 對于海量群資源數據儲存的實現
目前面向網頁類型數據儲存的BigTable模型無法滿足像館群這種海量數據儲存的要求,這是因為圖書館群的數據資源具有更高的結構化特點。所以應該首先建立起面向圖書館群的海量信息資源儲存模型。
4.2.2 對于海量群資源的并行計算的實現
現階段的并行計算模型所面對的都是小范圍內集群系統,這一系統內部的終端計算機都擁有千兆/秒以上的網絡帶寬,由于終端計算機的穩定性使得系統內部主機失效率較低。但是在海量群資源下,其檢索環境較為獨立。所以,探索適合圖書館群下的檢索并行計算模型具有重要意義。
4.2.3 對于資源檢索統一管理的實現
由于不同圖書館所使用的數據庫類型不同,這就造成了圖書館群下圖書館的服務及運算模式不同。為了實現資源檢索的統一管理,需要在群下各個圖書館的數據庫之間建立一個能夠進行檢索調度、分類、去重的統一管理模型。可以參考OpenURL建立起基于動態腳本、提供注冊接口及標準給第三方的多級調度管理模型。通過這種管理模型實現對群下任意一個圖書館資源的充分利用,保證檢索請求的順利發出及返回。這種管理模型的實現是對海量儲存、并行計算模型的進一步完善。
4.2.4 對于資源檢索統一服務的實現
目前,圖書館所提供的檢索服務通常只是針對某一區域或者機構,盡管圖書館聯盟正在一步步發展,但它所能提供的服務仍然只停留在目錄階段的、較為單一的服務,缺少針對全行業的整體、統一服務。比如現在的行業參考咨詢、區域文獻互借、區域目錄聯合等。隨著圖書館網絡信息服務的不斷完善,對于館群資源檢索的統一服務已經成為可能,在不久的將來,以云計算為基礎的資源檢索服務就能夠使用戶享受到“一館式”統一服務。
隨著以云計算為基礎的全新資源檢索模式在圖書館檢索服務中的不斷成熟、發展,圖書館群下的資源檢索服務必定會向更為快速、準確、高效的層次邁進,以滿足用戶對于信息資源檢索需求不斷增加的要求。
[1] 韓法旺.基于云計算模式的圖像檢索研究[J].情報科學,2011(10):1534-1538.
[2] 馮凱,龍金花.基于云計算信息檢索課程網絡教學系統初探[J].南昌教育學院學報,2012(1):67-68.
[3] 胡山泉,李滄海,劉耀輝.一種移動云計算技術的圖像檢索系統的設計與實現[J].價值工程,2011(2):203.
[4] 梁宇,等.一種云計算環境下的加密模糊檢索方案[J].計算機科學,2011(S1):99-100.
[5] 孫在全.云計算對信息檢索的影響及存在的問題[J].科技情報開發與經濟,2010(31):107-110.
[6] 蔡明.云計算環境下文獻檢索課面臨的挑戰和改革[J].圖書館學刊,2011(12):57-58.
[7] 鄭偉青.云計算在圖書館群資源檢索中的研究與應用[J].圖書館建設,2010(4):85-87.