水靜 張瑞
〔摘 要〕文章針對高校圖書館管理中出現的實際問題,結合目前云計算技術的發展,利用二分網絡的研究手段及方法對其進行了全面的分析研究,具體包括度、集聚系數、社團結構及聚類算法,深入討論了二分網絡在云計算中的部署,以及二分網絡在高校圖書館管理中的具體應用和所需面臨的問題,為目前的高校圖書館的數據分析提供一種比較實用的方法,幫助高校圖書館建設一個穩定安全而且實用的數據分析環境。
〔關鍵詞〕高校圖書館;云計算;二分網絡;應用程序
〔中圖分類號〕G250.7;391 〔文獻標識碼〕A 〔文章編號〕1008-0821(2012)09-0094-03
伴隨我國高等教育的大發展,各個高校圖書館以“加強系統資源建設,促進服務質量提高”為宗旨,逐步更新管理理念,完善管理措施,不斷提高圖書館的信息服務能力。與此同時,目前的大學圖書館大都引入基于數據庫的自動化管理系統,這就使得高校圖書館管理不得不面對一個圖書館日常借閱數據劇增的事實。其主要原因在于,各大學圖書館不斷擴充自身的館藏書籍數量以及各大學在校學生數量的增加。據調查顯示,目前我國一個普通的綜合性大學館藏書籍種類大體在3~4萬種,數量在100~200萬冊之間,1個月產生的借閱信息大體在1~2萬條,1年的借閱信息在20萬條左右。如此數量的信息背后絕對包含著許多待挖掘的信息,但就這些數據的存儲和研究處理方法卻遭遇了許多問題,首先是各高校對圖書館管理系統及硬件的投入越來越多,與之同時產生的海量數據保存卻越來越吃力,而且各高校保存的數據由于類型差異較大,無法實現共享。其次,缺乏架構化、內在的和深層次的分析數據的分析方法,目前的分析效果不盡理想。
1 云計算與復雜網絡的發展
2008年以來,云計算與圖書館管理結合逐漸成為一個熱門話題,各大學圖書館緊跟云計算的步伐,積極研究云計算給圖書館帶來的影響,希望充分利用云計算能切實提高高校圖書館的信息管理能力。所謂的云計算是分布式計算技術的一種,其最基本的概念,是透過網絡將龐大的計算處理程序自動分拆成無數個較小的子程序,再交由多部服務器所組成的龐大系統經搜尋、計算分析之后將處理結果回傳給用戶。透過這項技術,網絡服務提供者可以在數秒之內,達成處理數以千萬計甚至億計的信息,達到和“超級計算機”同樣強大效能的網絡服務。就高校圖書館而言,可以將圖書信息、借閱者信息以及借閱信息上傳至提供云計算服務的服務器中,而且不用考慮數據存儲空間的大小,同時這些數據可以動態更新。高校圖書館不用擔心應用軟件是否是最新版本,極大的減少了學校為維護和升級的應用軟件投入的費用;另外,數據儲存在云端,因此無需擔心病毒的入侵和硬件的損壞導致數據丟失。
目前,高校圖書館對于圖書及圖書借閱等數據的研究主要集中在3個方面:(1)依靠本身技術力量, 憑借業務管理系統自帶的功能對數據進行諸如查詢、匯總等分析工作。(2)依靠數據挖掘應用技術對上述數據進行定量、歸納分析,調查顯示2003-2009年間,國內數據挖掘技術在圖書館應用研究方面的論文達到533篇。(3)依靠統計學提供的分析方法對高校圖書館自身數據進行分析研究,并由此產生了一些高校圖書統計指標。近幾年,伴隨近年大型數據庫的建立和計算機存儲與運算能力的迅速提高,復雜網絡的研究逐步深入,人們利用大量的真實網絡數據對高校圖書館系統進行分析,尋找呈現表象的內在機制和模式,進而試圖發現支配和影響這些復雜系統的動力學和演化規律的內在本質。
高校圖書館將基本業務數據上傳至云服務器,并在云服務器的基礎架構上開發針對自身數據分析的復雜網絡應用程序能為高校圖書管理業務開辟一條嶄新的思路。
2 復雜網絡二分網技術研究及方法
復雜網絡的理論研究對網絡安全、網絡控制和計算機病毒傳播的控制與防御等研究產生了重大影響。用圖論的語言來描述,一個網絡可以抽象為一個由節點的集合V和邊集E組成的圖G=(V,E)。節點數記為N=V,邊數記為M=E。E中每條邊都有V中一對點與之相對應。對于高校圖書管理系統而言,點集指的是一個個獨立的圖書和借閱者,而邊集就是圖書與借閱者之間的鏈接,一個圖書系統的這些大量信息被提取出來就構成了一個完整的復雜網絡。該復雜網絡同時具備了一個顯著的特點,該網絡由兩類節點以及兩類節點之間的連邊組成,同類節點之間不存在連邊,U代表借閱者,B代表書籍,最終關系如圖1所示,這樣的網絡在復雜網絡中被稱為二分網絡。
圖1 高校圖書借閱系統二分網絡示意圖
利用二分網絡分析對圖書借閱系統的研究起始于3項基本的內容,它們分別是二分網的度、集聚系數及社團結構及聚類算法。
2.1 二分網的度
度本身的意義是指與該節點連接的其它節點的數目,一個節點的度又分為出度和入度兩種。在圖書借閱網絡的二分網絡模型中主要包括借閱者的度分布和書籍的度分布,它們分別是指一個單獨的借閱者借過書本的數目的分布,或者是一本書被多少位閱讀者借閱的分布。所有節點度的平均值稱為網絡的平均度。從二分網絡圖書借閱系統實證的角度出發,一個節點無論從出度或入度的大小直接與該節點的重要程度相關。換句話說,通過度分布的研究可以非常直觀的找到最受青睞的書籍作品以及在借閱過程中最活躍的書籍閱讀者。另外,高校圖書借閱的度分布具有時間演化不變性者,均呈現出指數分布特征。
2.2 二分網的集聚系數
集聚系數是復雜網絡非常重要的特性之一,它實際表達了網絡連接的聚集程度,即網絡有多緊密。如果一個網絡結點有數個直接的鄰居結點,那么這些鄰居結點之間有可能也是鄰居。聚集性用于描述這種可能性程度。對于復雜二分網絡而言,集聚系數又細化為點聚集系數與邊聚集系數兩類。對于高校圖書借閱系統而言,它擁有較多的書籍,但同時書籍之間具備了較高的關聯性,它們中都存在著一些規模不等的連通集團結構。連通集團的中心節點包含某一相關主題,而中心節指向的各個分支節點含有與該主題有關的一些內容。就是說高校圖書是各學科或專業的學習資料的集合,這樣很容易形成相關資料的聚集鏈接,這些內容的分析與高校圖書館的管理有著緊密的關系。
2.3 社團結構及聚類算法
高校圖書館借閱圖書節點呈現出若干個“群”或“團”的結構,復雜網絡稱之為社團結構。它是指網絡中的頂點可以分成組,組內頂點間的連接比較稠密,組間頂點的連接比較稀疏,如圖2。社團結構在實際高校圖書借閱研究過程中有著重要的意義,它是了解整個網絡結構及促進有效借閱的重要途徑。其主要步驟包括:(1)設定某種標準衡量社團與社團之間的距離或相似度;(2)將圖書館中的每一個被借閱的圖書視為一個社團,所以在初始狀態,社團數目與頁面數量相等;(3)根據設定的衡量標準,計算社團與社團間的距離或相似度,并將距離最近的社團或相似度最高的社團合并在一起形成新的社團;(4)重新計算每對社團間的距離或相似度;(5)不斷重復合并及重新計算的步驟,直到找到所有聚類的社團。
目前,眾多劃分網絡社團結構的算法被設計出來,主要包括凝聚算法、分裂算法,搜索算法及其他算法四大類。
3 二分網絡在云計算中具體實現
利用二分網絡對高校圖書館借閱信息的分析,對于提高高校圖書館的管理工作非常有幫助,但同時也存在如下
圖2 社團結構網絡示意圖
幾個難點問題:(1)根據筆者調查收集的數據顯示,針對一個中等規模的大學圖書館,其1年的借閱數據基本在20萬條,這些數據利用圖書館自身的分析耗時又耗力。(2)利用復雜網絡的分析方法對于專業的要求過高,不針對一般的管理人員。所以,需要一個平臺,使圖書管理人員不再淹沒于大量的數據和技術方法,而直接得到分析的結果。
3.1 平臺選擇與技術實現
云計算在圖書館領域的應用與研究已陸續展開,圖書館的云時代即將到來,重塑圖書館生存和發展的環境、推動圖書館自身變革是云計算環境下圖書館發展的未來趨勢。云計算是分布式處理、并行處理和網格計算的發展。從本質上講,云計算是指用戶終端通過遠程連接,獲取存儲、計算、數據庫等計算資源。目前,業界提供云計算服務的運營商較多,對于高校圖書管理二分網技術云計算實現而言,可以選用谷歌Google。日常在使用的Google Search,Google Earth,GoolgeMap,Google Gmail,Google Doc等等業務都是Google基于自己云計算平臺來提供的。Google也是通過云計算的方式,大量的降低計算成本,使之業務更具有競爭力,其云計算平臺架構如圖3所示。
對于高校圖書管理云計算的實現,首先是各類軟件應用,一般常見的形式包括圖書館自動化系統、辦公自動化系統等,都以一種網絡服務的形式提供;第二,云存儲服務,大量的數字資源都可以存放服務器上,而不再需要“鏡像”于本地;第三,云計算服務提供商,提供本地數據中心或者其他業務支持;第四,平臺服務,大型圖書館引入“云”設施,利用商用的云計算解決方案,架構滿足本地或局部應用的“私有云”平臺;第五,互聯網整合服務,圖書館作為一種服務中介,需要整合多家平臺和資源,利用各類云實現不同“云”之間的互操作,向管理者提供更有效的服務。
Google云計算軟件系統為圖書館數據的二分網絡分析提供了一種理想的平臺,原因在于Google云計算平臺軟件系統特別提供了Python與Java開發開發工具,而目前絕大多數的二分網絡分析程序都是基于上述兩種程序語言編制的,它保證了數據分析的可擴充性與通用性。同時,Google云計算平臺的并行計算算法及并行數據庫將極大提高高校圖書館數據的分析速度。另外,在借助google云計算平臺處理數據的同時,必須注重數據存儲格式的界定,目前高校大多數的數據多以EXCEL的xls格式或其它自主格式保存,這對云端數據的二分網絡處理分析非常不利,高校圖書館的借閱數據應該轉向更加具體的網絡數據格式,例如CSV或NET等格式,這對后期的處理創造有利的基礎。
3.2 存在問題的思考
云計算與二分網絡分析技術的結合,將為高校圖書館數據分析插上有力的翅膀,但同時也存在某些待解決的問題:首先是互操作性和標準化問題,在云計算與圖書管理自動化的初步成長期,由于各廠商都試圖建立自己的接口,同樣是高校圖書館借閱數據,卻存在著大相徑庭的存儲與處理方式,導致解決同一問題的方法多樣化。其次,信息安全與保密問題,目前,高校圖書館的數據絕大部分是內部數據,采用不公開的方式處理,但另一方面,二分網方法對一所大學數據的分析不具備可比性,只有累計多方的數據,才能讓分析處理結果具備合理性。