顏喜軍


摘 要:高校圖書館是高校師生活動的核心場所,尤其在如今的大數據爆發時代,高校師生的活動數據大部分都跟圖書館有關聯,除了日常的進、出圖書館門禁數據;讀者OPAC書目信息檢索數據;圖書薦購、圖書借閱數據;讀者在線選座管理系統、在館電子存包數據信息;科技論文查收查引,知識產權服務系統,還有大量的讀者訪問電子文獻及數據庫系統;對這些海量數據庫數據信息的挖掘分析,具有非常有意義的分析價值,可以深層次激發創造的靈感,產生新知識,為各個學院促進學科合作,推進智慧校園建設中開放獲取知識途徑,同時利用大數據分析采購使用效力高的電子期刊資源,更好地服務于建設高水平大學工作。
關鍵詞:大數據分析;實驗室;智慧校園;數字資源;電子期刊
引言
近年數據作為信息時代的象征,互聯網的高速發展,信息量呈現爆炸式增長。根據IDC檢測,全球數據量大約每兩年翻一番,這就意味著人類在最近兩年產生的數據量相當于之前的全部數據量。因此,在高校圖書館電子資源采購數據量也是跨越式增長,圖書館已經成為高校內數字資源的核心。網絡技術飛速發展的現在,圖書館購買電子期刊數據庫或存儲大量教育數據資源,比如,MOOC在線課程、學習文摘、新東方英語在線視頻數據庫、知識視界視頻數據庫、環球英語視頻數據庫、名師講壇視頻數據庫、廣益多媒體外語學習平臺、電子圖書、電子工具書、國內外論文數據庫、隨書光盤、中國科學引文數據庫等等。因此圖書館建立相關的大數據分析實驗室,為智慧校園建設開源節流,提供可持續發展的保障服務。
一、深圳大學圖書館大數據分析平臺搭建思路與過程
1.深圳大學圖書館大數據分析平臺搭建思路
在深圳大學圖書館搭建大數據分析平臺,對圖書館活動用戶數據(讀者查詢、圖書薦購、圖書預約借還、借閱歷史數據記錄、借閱書目到期電子郵件提醒及到期催還信息等等)。所用讀者方面數據:借閱圖書證號、讀者單位、讀者聯系信息、讀者證號建檔日期及失效日期書名、索引號、借閱次數、續借次數、借閱時間、讀者對圖書的預約情況、圖書薦購等情況。圖書方面的數據:圖書ISBN/ISSN號、圖書書名、著者號、圖書索取號、圖書簡介。
2.使用的算法
使用基于讀者的協同過濾的推薦為主,基于圖書內容的算法為輔,并綜合使用熱書推薦和新書推薦。
針對基于讀者的協同過濾推薦中缺失讀者評分數據情況,擬采將讀者對圖書的借閱次數、續借次數、預約次數、借還時長轉化為評分來解決。
3. 深圳大學圖書館大數據分析平臺搭建過程
深圳大學圖書采用現有的KVM虛擬化系統搭建3臺Centos 6.2虛機(每臺虛機配置24CPU、32G內存、500G存儲空間),如(圖2-1)。
在KVM虛機上面分別部署HADOOP:基于X86部署Apache開源項目,適用于PB數據庫存儲及運行計算,開源可擴展性高,以多數據庫副本實現高可用性。深圳大學圖書館新一代圖書館服務平臺LAS4,也是采用開源的MySQL集群數據庫,Redis數據集群,3臺zookeeper集群服務,2臺Las4數據庫服務,2臺Las4應用服務;后端數據全部存儲與IBM V7000高性能存儲磁盤上面。各虛擬化服務器之間采用萬兆虛擬網卡進行數據互聯。圖書館核心交換機與服務器硬件設備之間也是采用萬兆互聯。能高效率對接大數據分析數據庫。并且采用Kettle(純Java開發,可以跨平臺運行)工具,實現數據庫同步。
再通過對讀者的借閱行為軌跡進行分析,特別是借閱行為中的預約、續借行為,挖掘出讀者想讀但圖書量不夠的某些或某類圖書。此外,通過分析各類圖書的借閱比,挖掘出哪些種類的圖書是最為緊缺的。
對于讀者推薦的圖書,首先,利用基于圖書書名與圖書簡介(聯網爬取)的方法計算出其與本館已有藏書的相似度,找出圖書館是否已有與其內容相似的圖書。其次,嘗試編寫一個大型爬蟲網絡,獲取讀者推薦圖書的評分與評價來為購書提供參考。如下圖(圖2-2)
通過實施大數據分析對接圖書館借閱系統,可以定期推送借閱書籍排行榜。也可以在讀者畢業時,為畢業生打印讀者大學期間借閱書籍目錄,留作畢業紀念。其次,通過大數據分析對接機構知識系統,為全校師生提供論文或專利技術收入通知、論文認領郵件、個人成果導出、使資源統一發現,科研成果在線展示等服務。分析潛在優勢學科發現,為高水平大學學科發展找出突破口,學科績效分析及計算ESI優勢學科貢獻分數,為學校決策提供有效的數據。
三、高校圖書館建立大數據庫分析平臺實驗室趨勢
1.在圖書館建立應用實驗室的趨勢
對高校師生來說,圖書館、教室及實驗室是經常去的地方,高校圖書館與實驗室數字資源的服務模式包括云服務模式、用戶驅動服務模式、資助服務模式、導航服務模式以及交互服務模式,這些大數據匯聚在一起通過數據挖掘、分析,從而促進智慧校園服務提升。在環球網的公益欄目看到一篇“美國圖書館轉型手工實驗室 坦然面對互聯網沖擊)”的報道,具體內容是說Chattanooga公共圖書館開辟整個4樓作為制造實驗室,在那里,讀者可以做許多讀書之外的事情,譬如設計、編程、寫作、視頻剪輯及網站開放建設等等。
在高校實驗室(Laboratory,簡稱Lab),并不是只能做科學實驗,譬如化學實驗室的地方才稱為實驗室。一間擺放微機的教室或計算機機房也可以稱為實驗室,在高速云計算發展的今天,圖書館提供一個相對獨立的空間,營造創新學習的氣氛,配備最新、最前沿的高科技產品及技術,如,大數據分析實驗室,開設數據挖掘技術學習討論小組,讀者帶上自己的筆記本電腦也可以作為計算機實驗室(Computer Lab);若圖書館條件允許,有自己搭建的虛擬化系統,提供給用戶分析用資源,那就可以成立大數據分析實驗室(Large Data Analysis Lab)。若相對技術比較弱的高校圖書館技術團隊,也可以申請阿里等公共云資源空間。
2.在圖書館建立應用實驗室對智慧校園的影響
浙江大學在其“十二五”規劃中,就提出了“智慧校園”。從此,智慧校園也逐步成為人們關注與研究的焦點。不同學者立足自身研究領域,提出了智慧校園的內涵。物聯網專家突出其智能感知功能,認為智慧校園是以物聯網為基礎、以感知挖掘信息相關性為核心信息化應用模式;教育信息化專家,提出重點關注智慧學習環境與智慧課堂等教學方式改革,是基于新型通訊網絡技術構建資源共享、智慧靈活的教育教學環境;而學校信息化專家則提出,智慧校園應側重校園的物聯網技術應用和服務提升。圖書館是智慧校園建設資源的寶庫,不僅僅支持師生的日常學習活動,更需要為師生提供更好的創新活動資源,提升創新服務空間。在高校良好的網絡環境,深圳大學是首批實施IPV6地址池全校覆蓋的高校,包括有線跟無線終端設備,都能自動獲取IPV6地址,海量數據及可靠的網絡技術保證了科研團隊,快捷便利地進行科研的基本條件。所以,在高校圖書館開創實驗室可以打破傳統圖書館的靜態模式,利用動靜結合,增強創新靈感,產生新的知識,促進各個學院跨學科合作,提升智慧校園開放知識獲取途徑。因此,在高校圖書館建立大數據分析實驗室平臺不僅僅是圖書館創新服務的提升,也為智慧校園服務提供有效的數據保障價值,為建設高水平綜合性大學添磚加瓦。
參考文獻:
[1]李慧芳.大數據在在線教育領域的應用[J].電子技術與軟件工程,2017(11):175.
[2]翟世東.高校MOOC教育淺析[J].科教文匯,2018(30):21-22,31.
[3]夏 敏.大數據時代背景下數據庫的應用分析[J].大數據·云計算,2018(11):105.
[4]吳 玲.高校圖書館與實驗室之數字資源集成分析[J].管理與信息化,2017(19):172-173.
[5]胡俊杰.我國智慧型校園研究熱點探析[J].軟件導刊,2018(9):215-218.
[6]高曉晶.高校圖書館創新空間服務的實踐與探索[J].圖書情報工作, 2016 (6): 63-65.