西安石油大學 李 緋
運用大數據構建數字圖書館
西安石油大學 李 緋
信息化社會正迎來大數據時代,文章在簡要探析大數據技術及數字圖書館內涵與關系的基礎上,提出了運用大數據構建數字圖書館的思路與舉措,以期實現數字圖書館更好地為用戶服務的目標。
大數據;數字圖書館;數字資源建設
大數據對于推動泛在信息社會進步意義重大,其帶給圖書情報學領域的變革更是引人矚目,運用大數據構建數字圖書館,將使得圖書館工作由表及里翻開新的篇章。
1.1 大數據技術
大數據即巨量數據集合,是指需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。(1)目前的軟件工具無法在一定時間內處理整合為有效利用的巨量信息群。
大數據具有“5V+1C”的特性:數量巨大(Volume)、更新高速(Velocity)、種類多樣(Variety)、價值密度低(Value)、真實準確(Veracity),以及處理繁復。
大數據技術的戰略意義不僅止于對浩瀚數據信息的掌握,更在于對海量信息數據進行專業化的挖掘,以提高處理數據的能力,使龐大的海量數據經技術處理后實現“增值”。大數據技術將促進信息技術的應用與信息產業的進步,最終推動科技革命進而提高核心競爭力。
1.2 數字圖書館
數字圖書館是傳統圖書館在信息時代的變革與延伸,是全新的科學技術。數字圖書館是使用數字技術處理存儲各類信息的數字化管理系統,是傳統圖書館的虛擬化(2)。
數字圖書館具有超大規模信息儲量、分布式、使用便利性、無時空限制、遠程傳遞性、跨庫無縫鏈接、智能檢索等特點。基于數字圖書館的特點,任何用戶在任何時間、地點,利用任何網絡、技術與圖書館服務,可獲取任何資源與任何服務。收藏文獻信息是數字圖書館的基本屬性,提供服務則是數字圖書館的社會職能。
當前的信息環境中數據分為結構化、半結構化和非結構化三類數據,以數據庫、文本、音頻、視頻等非結構化和半結構化數據為主,二者占數據總量近90%。并且數據總量在持續增長中,規模龐大至以TB,甚至PB級計量。據相關資料統計,每天新建首頁導航需提供的數據超過1.5億PB,而迄今為止人類全部的印刷型資料數據量僅為200PB[3]。數字圖書館涉及的大數據類型繁多,包括圖書館館藏、館員等基本情況數據,書目、數據庫等館藏數據,讀者基本情況數據,此三類數據屬結構化數據,另外,還有大量涉及文獻信息建立、使用、提供服務的半結構化和非結構化數據,是數字圖書館進行數據挖掘管理的重點。數字圖書館需要收集和使用這些數量龐大且不斷增長的數據,利用大數據技術數字圖書館可以有效減少資金和人力資源的投入、縮短研發時間、提供更為精準的信息,以滿足用戶的個性化需求。
圖書館工作隨信息技術進步而改變,在信息環境中的數字圖書館亦應積極變革,適應科學技術快速發展和高信息素質用戶對圖書館信息服務更高的要求,建立全新的數據收集、處理、利用的科學化的大數據思維,提升業務水平,構建符合時代發展要求和用戶文獻需求的全新的數字圖書館。
3.1 拓寬數字資源選擇范疇
館藏資源建設是圖書館工作重心,以圖書、期刊、報紙、論文、數據庫為收藏主體,輔以標準、專利等結構化信息,而通過大數據技術的運用,可以將館藏文獻在傳統收藏范圍基礎上增加至所有網絡信息,以及用戶搜索和使用數字圖書館信息,再加工的數據信息等半結構化、非結構化信息,建設成為分布式資源平臺。館藏資源選擇范疇由此擴大,但不必也不可能將所有資源都進行數字化處理,而是應當有重點有步驟地優先開發數字圖書館的優勢與特色資源。3.2 加強大數據資源整合、保存及合理配置工作
數字資源,特別是非結構化數據的整合及保存,將傳統優勢結構化信息——文獻信息與半結構化、非結構化信息——網絡信息、讀者檢索利用信息等進行整合,能夠直接為用戶提供解決問題,尤其是復雜問題的方案,而不是將許多分散無關聯的資料的簡單呈現,并且選擇合適的存儲介質對館藏數字資源加以長期備份保存。將數字資源進行合理配置,館藏與非館藏信息資源加工分析內在關系,建立語義關聯,構建大數據技術支撐的面向社會的大資源平臺。
3.3 改進數字化服務方式
通過聚類技術、語義技術和信息分析技術的運用,建立無序的海量信息間的聯系,進而進行知識挖掘,數字圖書館除提供文獻服務等基礎服務外,還將提供再生信息服務,以及音頻、視頻服務。通過用戶行為分析,提供用戶真正需要的個性化服務,實現知識發現。
3.4 非數字化保障因素
非數字化保障因素包括確保資金支持與提升館員技能。大數據技術的運用與數字圖書館工作的開展離不開資金支持,而資金投入不足是自傳統圖書館時代起就存在的制約圖書館發展的瓶頸。圖書館服務屬公益性無償服務,在大數據時代的數字圖書館中,資金的充足持續提供更為關鍵,政府等撥款應形成機制,另外,還可借鑒國外吸收社會資金的先進做法,優化投資結構,加大投資力度,有力促進數字圖書館的發展。數字圖書館也應加大合作共享范圍,開展成本管理,高效利用有限的資金提升服務效益。
大數據技術、數字圖書館等涉及許多圖書情報學領域以外的學科領域,如計算機技術、網絡技術、云計算等等,圖書館館員必須加強學習,掌握相關技術,能夠熟練運用,才能更好地為用戶服務。
4.1 規避知識產權風險
數字圖書館應重視知識產權問題,自覺宣傳、保護知識產權。國家應建立相應的政策法規,確保數字圖書館合理合法地無償使用數字化資源,研究探討版權唯一性與信息共享機制的雙贏之道。數字圖書館應努力研發具有自主知識產權的資源平臺,同時通過防火墻技術、加密技術、數字水印技術、認證技術、身份識別技術等切實維護知識產權。
4.2 保障用戶信息安全
大數據帶給數字圖書館無限便利的同時帶來的負面影響是用戶的個人信息安全的保障問題。數字圖書館對此應有足夠的認識,從硬件和軟件兩方面著手大力防范網絡信息泄密情況的發生,采用最新互聯網安全防護技術,設置專門人才搭建并維護安全防護系統,將安全防護工作作為數字圖書館的日常重要工作之一常抓不懈,保證數字圖書館健康有序地開展服務,特別是個性化服務工作,真正將用戶的利益放在第一位。
大數據技術的應用為數字圖書館的進一步發展插上了翅膀,數字圖書館應乘勢而為,提供知識應用服務,提升服務能力與水平,完成數字圖書館的創新使命。
[1]百度百科.大數據[EB/OL]. http://baike.baidu.com/link?url=o3FPj RJopzaSC1gxVKLexcsfcgyun-9ZAeCpB2qhmGxpg7IBEfZi9jpJLePNb1z_ Zmh3NmHPCfT-65hZEH05q4bfQW-Ia-s0LuMCL39qjAfJgnXj1MvJK Ql8A5saA2UW[2016-09-18].
[2]百度百科.數字圖書館[EB/OL].http://baike.baidu.com/link?url= u2YaBxZVcV4b2l8SFnXj_ge3eUDxkPYHuNrfvqyCeJbJxpZvwBinilc732g2M8eKHXV8Yvm4_LC62llb_q9I0Yy5KrPHj8YxJ8-seI9LnIUh3CREMWKYkASl__ vwuVpUCo8haldCqG-VR5L8doGIK[2016-09-18].
[3]盧艷蘭.數字圖書館的大數據信息接入和管理問題研究[J].圖書情報導刊2016(7).