趙志光
(廣州市越秀區圖書館,廣東 廣州 510080)
隨著互聯網技術的迅速發展,以智慧地球概念為起點的智慧化建設項目越來越多,其中包括智慧圖書館建設。由于部分公共圖書館實行的總館與分館相結合的總分館管理制度,以及部分高校圖書館實行的總校圖書館和分校圖書館相結合的總分館管理制度,在大數據層面對智慧圖書館提出了更高的要求。圖書館總分館模式已經成為許多公共圖書館的重要建設模式,如何構建基于大數據的圖書館總分館智慧服務云平臺已成為重要的研究課題。因此,筆者對基于大數據的圖書館總分館智慧服務云平臺架構進行了研究,以期提高圖書館總分館的服務水平。
近年來,各地圖書館越來越重視總分館建設,并在總分館建設過程中把服務網絡延伸到街道(鄉鎮)、社區(村),通過實行圖書館集群化管理,實現了通借通還,提升了服務能力,優化了服務體系。圖書館總分館建設模式具有總館集中管理和集中控制、分館統一標準執行、服務標準規劃統一、服務質量穩定性好等特點,受到眾多類型圖書館的青睞,目前已在全國得到廣泛推廣。圖書館總分館建設模式要求圖書館建設智慧服務云平臺系統,以確保服務質量和服務效能,滿足圖書館總分館的文獻資源建設需求及用戶服務需求。
雖然很多技術能被用于圖書館總分館智慧服務云平臺建設,但圖書館應選擇性價比較高的技術體系[1]。例如,Apache軟件基金會開發的分布式系統基礎架構軟件Hadoop,既是一款可擴展的分布式計算的開源軟件,也是一個能夠滿足我國圖書館總分館資源建設和實際使用需求的分布式計算平臺。圖書館基于大數據,可在Hadoop上開發和運行處理總分館的海量數據。Hadoop具有高可靠性、可擴展性、高效率性、高容錯性和低成本性等特點,Hadoop系統框架最核心的設計是用于大數據存儲的HDFS及用于大數據計算的MapReduce,前者為海量的數據提供存儲,后者對海量的數據進行計算。圖書館利用Hadoop建設總分館智慧服務云平臺系統,不僅能為海量的數據提供存儲,對這些數據進行計算分析,還能降低平臺建設成本。
基于大數據的圖書館總分館智慧服務云平臺系統的總體構架設計,宜采用三層結構,即用戶服務層、技術應用層和大數據資源層[2]。其中,用戶服務層處于系統的最上層,它的作用在于為圖書館總分館用戶提供人性化的交互服務界面及具備智慧圖書館服務功能的智慧交互服務界面,屬于圖書館總分館的服務窗口;技術應用層處于系統的中間層,起著承接最上層的用戶服務層和最下層的大數據資源層的作用,負責大數據接口和各類應用接口;大數據資源層處于系統的最下層,它的作用在于對圖書館總分館的各類大數據信息進行處理,如大數據的集群化處理、并行化處理、分類化處理等,并能夠將處理任務進行集群分配,對各類大數據進行實時讀取和分析、及時或定時保存、實時或定時更新。
在基于大數據的圖書館總分館智慧服務云平臺分布式架構設計中,Hadoop分布式架構的核心部分包括分布式文件系統(HDFS)、分布式數據庫(Hbase)、分布式處理組件(MapReduce)、數據表和存儲管理服務系統(Hcatalog)、分布式系統協調的基礎服務(Zookeeper)、數據分析平臺(Hive)、數據庫工具(Pig)等[3]。分布式文件系統具有較強的容錯性能,能夠對總分館的各類文件進行分布式采集、記錄、存儲和管理;分布式數據庫具有較好的可伸縮性和高度可用性,能夠對總分館的數據進行分布式管理;分布式處理組件由Map和Reduce兩部分組成,能夠在基于組件的大規模集群條件下對總分館的數據進行分布式管理;數據表和存儲管理服務系統能夠對各類智能服務項目的數據進行表格化管理和存儲;分布式系統協調的基礎服務用于構建整個系統的分布式應用模塊。因此,圖書館基于Hadoop分布式構架,利用相關應用軟件,能夠快捷、高效、科學地搭建一個基于大數據的圖書館總分館智慧服務云平臺,對總分館的數據進行處理、分析、監管、存儲,為總分館開展服務提供保障。
基于大數據的圖書館總分館智慧服務云平臺架構的智慧設計,集中體現在圖書館總分館為用戶提供智慧服務的架構設計方面[4],主要包括智慧服務項目選擇與大數據挖掘兩個方面。在智慧服務項目選擇方面,圖書館可借助智慧服務云平臺的大數據分析功能,根據用戶的個性化需求,選擇合適的智慧服務項目,如:基于開放獲取的文獻資源傳遞服務、學科專題定向服務、慕課線上課程服務、圖書館聯盟服務及真人圖書館服務等[5]。在大數據挖掘方面,圖書館可充分借助智慧服務云平臺的大數據分析功能,對用戶的行為數據進行挖掘和分析,創新服務模式,最大限度地滿足用戶的多元化信息需求。
圖書館根據智慧服務云平臺的構建規則[6],需要在其硬件架構中將智慧服務云平臺的集群劃分為命名節點集群(name node)與數據節點集群(data node)兩個部分。前者主要用于存儲記錄圖書館總分館數據分片的元數據,并對計算任務進行管理與分發;后者用于存儲圖書館總分館的數據分片,并執行前者分發的計算任務。在圖書館總分館智慧服務云平臺架構中,圖書館可選用小型的百兆或中型的千兆交換機,以確保在穩定夠用的前提下最大限度地降低系統硬件的運行成本。
Ambari是一種基于Web的工具,支持Hadoop集群的供應、管理和監控[7]。該軟件的作用主要體現在以下幾個方面:一是支持智慧服務云平臺各種數據集群的資源供應與可視化安裝。二是能夠以Web的形式對各種數據集群的數據資源進行可視化管理。三是能夠對智慧服務云平臺的所有文獻資源數據集群和用戶服務數據集群進行監控。四是能夠對智慧服務云平臺的各類參數進行最優化調試,如文獻資源的實時動態變化數據、流通資源的實時動態變化數據、圖書館聯盟的實時或定時文獻資源交換數據及網站的實時更新數據等,以確保智慧服務云平臺軟件架構的負載均衡和性能優化。
圖書館在架構智慧服務云平臺的過程中需要對相關數據進行獲取、分類、修改與添加、篩選(分流與合并)、導入、存儲,一方面是對圖書館原有的數據進行嚴格甄別、篩選(分流)、分類、修改、導入、存儲,另一方面是對新數據進行獲取、分類、添加、篩選(合并)、導入、存儲。需要注意的是,圖書館需要按照新的數據標準對原有的數據進行標準化處理,并通過數據識別系統將這些數據導入智慧服務云平臺的各類集群中,以避免舊系統的錯誤數據影響新系統的整體數據質量[8]。
圖書館總分館智慧服務云平臺的功能設計要從業務實際出發,著重解決本地區總分館管理與服務中存在的問題。為了解決分館工作人員流動性大、難以管理等問題,廣州市越秀區圖書館在圖書館總分館智慧服務云平臺設置了自助設備統一管理、人流統計、遠程視頻監控、線上業務交流、個性化信息咨詢、大數據分析等功能,實現了對各分館的統一監控管理、設備管理、人員管理、業務指導、數據分析、信息資源服務等。通過智慧服務云平臺,總館工作人員可遠程掌握各分館的實時開放情況,與分館工作人員進行實時互動、交流,為讀者提供個性化的信息咨詢服務??傪^不僅可通過圖書館總分館智慧服務云平臺對各分館的資源進行整合、統籌管理、合理利用,還可與分館實現共建共享,節約成本,提高資源利用率。