卓建霞 成兆珠 王麗華
(鹽城工學院圖書館,江蘇鹽城224051)
面向大數據的高校圖書館數據集成架構*
卓建霞成兆珠王麗華
(鹽城工學院圖書館,江蘇鹽城224051)
從論述高校圖書館大數據的主要內容和數據特性入手,設計面向大數據的高校圖書館數據集成架構,即在數據倉庫之上增加一個中間虛擬數據服務層,通過虛擬數據服務層集成數據倉庫數據、實時數據及數據庫變化數據,以充分發揮大數據的作用。
大數據高校圖書館數據集成數據倉庫數據虛擬化
大數據時代的來臨已經毋庸置疑。大數據之“大”,并不僅僅在于數據量巨大,更多的意義在于人類可以分析和使用的數據在大量增加[1]。大數據的終極目標是對大量來自不同數據源的不同類型的數據進行分析,以識別出組織存在的風險和機會,并做出實時決策。高校圖書館作為文獻信息的集散地,為教育教學服務,也為地方科技和經濟發展服務,一方面使用龐大的資源為用戶服務,同時在運作和服務過程中又產生了大量數據。隨著近幾年新興社交媒體引入圖書館,在和用戶的互動過程中又產生了大量的非結構化數據。然而,數據量大、種類繁多、分散存儲幾乎是所有組織的通病,由于數據結構、語義、格式轉換上的較大差異,數據共享難以有效實現,高校圖書館要想邁入大數據時代,數據集成是大前提。
數據是數據集成的核心,研究大數據集成,首先必須要明確哪些數據是需要獲取的。大數據的來源多樣,通常存儲在數據庫、文本文檔、電子表格、電子郵件、網頁文本中。歸納起來主要有:
①數據庫數據。高校圖書館擁有豐富的文獻資源,存儲于文獻管理系統及數據庫中,數量巨大,持續更新,在用戶服務過程中產生的讀者借閱數據、數據庫使用統計數據、主頁訪問數據等,多為結構化數據。
②用戶交互數據。圖書館在文獻信息服務過程中,更加重視讀者的參與,如讀者意見調查和反饋,資源薦購。而新興社交媒體的興起也為讀者參與互動提供了便捷條件,如QQ、微博、微信等,由此產生了大量的非結構化數據。
③移動互聯數據。隨著移動圖書館的興起和讀者閱讀模式的轉變,由此而產生了大量有關用戶位置、移動路線和閱讀愛好等方面的信息。
④主數據。主數據指系統間共享數據,與記錄業務活動、波動較大的交易數據相比,主數據變化緩慢。主數據必須存在并加以正確維護,才能保證交易系統的參照完整性[2]。常用的主數據有客戶、合同、供應商、合作伙伴、雇員。簡言之,主數據包含了組織核心業務實體的數據,可以在組織內跨越各個業務部門被重復使用,如圖書館員工構成、部門層次關系、提供的各種服務構成的產品主數據等。將各種不同類型和格式的數據進行集成通常需要使用到與非結構化的數據相關聯的鍵或者標簽(或者元數據),而這些非結構化數據通常包含了與客戶、產品、雇員或者其他主數據相關的信息。對于集成結構化和非結構化數據來說,元數據和主數據是非常重要的概念[3]。
⑤元數據。在圖書館與信息界,元數據被定義為:提供關于信息資源或數據的一種結構化的數據,是對信息資源的結構化的描述。其作用為:描述信息資源或數據本身的特征和屬性,規定數字化信息的組織,具有定位、發現、證明、評估、選擇等功能[4]。隨著元數據的發展,如今的元數據可以用來描述各類型數據,不一定是數字形式的,可來自不同的資源。高校圖書館元數據主要包括數據庫的元數據如數據集的物理位置、名稱、關系、字段、約束等,讀者群的元數據如讀者年齡、學歷、專業、地理位置等,數據轉換的映射關系,操作元數據的算法等。
有關大數據時代的數據,有研究人員總結和概括出4V特征[5],即容量、多樣性、速度、價值,筆者僅對數據多樣性、分布式存儲特點及數據可用性再做進一步闡述。
①數據多樣性。包括來源多樣、存儲格式多樣、數據類型多樣。圖書館數據來源多種多樣,有的來自歷史數據,有的來自讀者互動的實時更新數據;在存儲格式上,或為數據庫,或為Excel,或為HTML;除了可以從傳統的關系型數據庫獲取大量的結構化數據之外,龐大的可用外部數據通常來自社交媒體,而這些數據往往是非結構化的,不同結構的數據給圖書館數據集成帶來了困難,但這又是不可回避的問題,因為圖書館作為信息服務機構,不能閉門造車,要以用戶的需求為第一位。從社交媒體或者移動設備上獲取的數據,如果能夠挖掘出其中的價值,對于推進和優化圖書館服務至關重要。
②分布式存儲。不同來源、不同格式的數據有時會分散存儲在不同的服務器上,數據的使用、更新等操作不在同一處或者所有者、權限管理者不同,當數據的容量非常龐大時,單一的線性合并數據集的方案耗費時間和空間,已無法滿足大數據集成的需要。另一方面,由于分布式權限問題,我們必須要考慮數據的安全訪問層次問題。
③數據可用性。誠然,大數據的價值是巨大的,每個組織存儲的數據量也非常可觀,然而信息劣質、數據錯誤、數據重復的問題也普遍存在,這是信息化社會固有的問題。一個正確的大數據集合至少應該滿足5個性質:一致性、精確性、完整性、時效性、實體同一性[6]。具體就圖書館而言,應用系統的不斷更新升級,圖書館從業人員的素質參差不齊,對數據的重視程度不夠,導致數據冗余、重復、錯誤,圖書館要想從大數據中挖掘價值,對于現有數據的集成整治是首要課題。
完整的數據集成過程包含了對數據的訪問、解析、轉換和清洗,以及抽取和交付數據等,核心功能是對數據的抽取、轉換和加載(ETL),即從源數據存儲系統獲取數據之后,轉換成目標系統所兼容的格式,再將其導入目標系統中。目前常用的數據集成方法有聯邦數據庫方法、中間件集成方法、數據倉庫方法。
數據倉庫技術可以將組織多年積累的歷史數據喚醒,不僅為組織管理好這些海量數據,而且挖掘數據潛在的價值。對于高校圖書館而言,數據庫包含了大量結構化數據如文獻數據、讀者借閱數據,如能充分集成分析,將有助于圖書館館藏資源的優化和讀者服務的提升。因而現有的數據倉庫技術無疑應當成為高校圖書館大數據架構的重要組成部分。然而,由于組織每天都有大量的數據產生,向數據倉庫加載新的數據源總是需要很長的時間,一方面無法做到實時響應,另一方面也對組織的存儲能力提出挑戰。基于此,在數據倉庫之上增加一個中間件,在中間件層上存在一個虛擬數據服務層,將數據倉庫作為數據虛擬化服務器的數據來源之一。中間件層既能集成結構化數據,也能集成非結構化數據,將其構建于數據倉庫之上,以實時的方式集成數據倉庫中的數據和當前數據,用戶基于全局視圖通過中間件層訪問數據,充分發揮大數據分析的作用。

圖1 面向大數據的高校圖書館數據集成架構
3.1數據倉庫集成架構
將圖書館應用數據庫數據、主數據及其他應用文件經ETL工具集成到數據倉庫中,使數據倉庫成為中間虛擬數據服務層的數據來源之一,用戶通過中間層訪問數據倉庫中的數據。數據倉庫中的信息具有穩定性和歷史性,圖書館應用數據庫中的文獻數據和用戶閱讀數據系統記錄了圖書館從使用該數據庫以來到當前階段收錄的文獻信息情況及用戶使用情況,依據這些信息,可以對圖書館文獻信息的發展歷程和未來趨勢做出定量分析和預測。主數據如圖書館員工構成、部門層次、信息服務產品,應用文件如來自外部的供應商合作文件、某一節點上發生的事件等都具有穩定性,一旦進入數據倉庫,一般將被長期保存下來,供用戶查詢。
誠然,進入數據倉庫集成的基本都是結構化數據,基于結構化數據的數據倉庫有確定的生命周期,數據從源系統抽取出來,裝入暫存區并進行清洗和優化,再依據轉換表進行數據轉換,最后加載進數據倉庫,讀取效率高。然而,對于一部分非結構化的應用文件的集成則需要借助主數據和元數據。例如,一份讀者意見調查表通常反映的是讀者對于圖書館某項服務提出的意見和建議,我們首先搜索到該數據,通過分析文本,明確其關聯的是與圖書館員工或者服務產品等主數據相關的信息,進而給該數據貼上主數據的元數據標簽,再進行數據的轉換和加載。
3.2虛擬數據服務層架構
除了集成數據倉庫數據之外,虛擬數據服務架構還集成另外兩個來源的數據:實時交互數據、數據庫中有變化的數據。大數據背景下,新興社交媒體不斷涌現,圖書館服務主動化,充分利用各種渠道增進與用戶的交互性,讓用戶更多地參與到圖書館的服務和管理中來,于是產生了大量的Web信息和社會媒介數據、電子郵件等一道道“消息”構成的實時互動數據;數據倉庫中存儲穩定的數據,但源數據庫中的數據是定期加載、刷新的,如果將新的數據源不斷增加到數據倉庫,往往都要重復復雜的加載過程,需要耗費很長的時間。利用變化數據抓取工具(CDC,Changed Data Capture)從數據庫日志中提取變化數據,并且變化的數據被保存在數據庫的變化表中,等待進一步集成處理。
虛擬數據服務層通過不同的適配器與數據層的各種數據源實現鏈接,將數據源中的各種數據實體映射成中間件的虛擬數據層的表,虛擬數據層中的表都只有元數據,而不存儲實際的生產數據。用戶可以在虛擬數據層上采用可視化圖形界面定義數據映射關系,進行數據加工整合,這些數據加工邏輯一般會以文件或者數據庫方式存儲。當用戶通過中間件訪問虛擬數據層的數據時,虛擬數據層根據系統定義的邏輯首先將需要加工的細節數據從各個數據源抽取到虛擬數據層,然后中間件根據設計時的數據加工邏輯對其進行加工,最后中間件將加工好的數據以調用接口要求的格式返回。
3.3元數據管理
從前文所述來看,元數據貫穿整個大數據架構。數據倉庫架構中的元數據管理主要集中在對數據倉庫ETL過程的管理,包括數據源元數據,主要記錄源數據的含義、描述信息、物理狀態、版本信息等;操作型元數據,包括數據的使用、更新記錄、數據抽取轉換規則、數據檢查和清洗規則等;技術型元數據,包括數據的來源、系統響應時間記錄、許可及安全數據等。與實時數據集成有關的元數據和數據倉庫集成元數據非常相似。
虛擬數據服務層在訪問每個不同的數據源時,都需要導入和集成相關的元數據,因而完整描述數據的元數據應當隨著抽取數據一起傳輸。元數據對于大數據集成架構至關重要,對元數據的管理應該形成機制。
大數據環境下的圖書館數據集成系統構建是一項復雜而困難的工程。技術層面上,除了大數據集成架構外,對主數據和元數據的管理、數據的安全等也有待進一步研究;組織層面上,不同類型的數據分散在各個部門,由不同的人管理和負責,很多圖書館人雖然知道“大數據”一詞,但對于將不同部門的數據進行整合利用尚缺乏主動意識;人才層面上,目前絕大多數圖書館員多是業務專家,在原始數據的清洗和質量檢查環節能夠發揮很好的專業指導作用,但尚不具備數據整合的能力,圖書館應加強數據挖掘和分析專業人才隊伍建設。此外,系統構建應堅持經濟的原則,各高校圖書館可以通過合作聯盟的方式共同建設。
[1]涂子沛.大數據[M].桂林:廣西師范大學出版社,2013:57.
[2]百度百科.主數據[EB/OL].[2015-07-23].http://baike.baidu. com/view/402047.htm.
[3]April Reeve著;余水清,潘黎萍譯.大數據管理:數據集成的技術、方法與最佳實踐[M].北京:機械工業出版社,2014:8.
[4]百度百科.元數據[EB/OL].[2015-07-23].http://baike.bai?du.com/view/107838.htm.
[5]樊偉紅,等.圖書館需要怎樣的“大數據”[J].圖書館雜志,2012(11):63-68,77.
[6]李建中,劉顯敏.大數據的一個重要方面:數據可用性[J].計算機研究與發展,2013(6):1147-1162.
卓建霞女,1983年生,館員。研究方向:圖書情報。
G250
*本文系江蘇省鹽城市圖書館學會2015年度學術研究課題“面向大數據的高校圖書館數據集成研究”(項目編號:YTX201507)成果。
(2015-09-08;責編:張欣。)