(內蒙古自治區圖書館 內蒙古呼和浩特 010020)
數字圖書館是利用現代數字技術來處理以及存儲多種形式的文獻。這些文獻之中包含了論文、書目以及相關的期刊雜志,甚至包含了音頻文獻。顯而易見,這些數據擁有不同的性質,存儲方式也存在著一些差異。傳統的人工數據集合方式很難將每時每刻產生的信息進行很好的處理以及保存。因此,研究大數據時代圖書館異構數據集成這一主題就顯得尤為重要。
在當下,類似微博、微信等社交平臺以及其他新型得信息發布方式層出不窮。各個國家都采取了相應的措施來迎接大數據時代。并且根據現處的大數據時代,很多傳統企業發生了轉型。利用不斷普及的現代網絡技術,數字圖書館的理念也衍生出來,它的產生也具有一定的現實意義。
1.大數據的規模性大數據的多樣性代表著大量的數據都沒有穩定的結構,其中包含著結構、半結構以及非結構化數據。
2.大數據的高速型意味著大數據應該實時產生,并且根據用戶的需要提供一定的數據分析。
3.大數據的價值型意味著大數據的價值并不重要,沒有特別多的意義。但是把這些大量的數據進行綜合以及探究就能夠發現很多更具價值的信息。
這個數量是極為龐大的。以2010-2017年的數據增長情況為例,制作了以下的圖表。情況可見表格以及折線圖。

年份 2010 2011 2012 2013 2014 2015 2016 2017數據總量(TB) 426 819 865 906 1020 1280 1450 1677
將我國從2010年到2017年的數據總量進行對比能夠很清晰的發現數據的總量變化非常大,增加幅度高。這從上文的圖表中能夠得到明確的數量變化。
數字圖書館內存資源具有多樣性特征。這其中包括了傳統的文獻資源,例如,期刊雜志以及圖書,還出現了新型的文獻資源。例如,讀者的反饋以及網絡資源。因此,數字圖書館的信息結構具有多種多樣的特征,單調的數據整理方式很難將這些數據完整存儲起來。除此以外,數字圖書館內的資源總量十分龐大并且還在不停地發展。最后一個也是比較重要的一點:信息技術在不斷的發展后,用戶也提高了對數字圖書館信息服務的要求,他們不僅僅滿足于對資源進行查詢的一些服務,而是轉變為更加具有深層意義的數據分析。因此,數字圖書館應該改變服務方式,深入探究存在的價值。
當前,雖處在大數據時代,但是數字圖書館數據集成過程中依舊存在著很多問題。(1)傳統的數據分類形式單調,只有一種或者幾種。(2)沒有固定的結構,異構數據中結構化與非結構化占比更加大。(3)用戶擁有了更加復雜的需求。因此,對這些數據進行有效集成并且挖掘它們存在的含義是現如今數字圖書館亟待解決的問題。這就必須利用分布式的存儲形式。(4)但是傳統的關系型數據庫在對系統的開拓性方面產生較大的局限性,都是先擁有原來的數據形式,再擁有的數據。很多的數據都沒有辦法進行確定的形式,而現如今的數據在不斷的增加并且形式種類繁多。
這種方式是將各個場地分布的數據進行篩選之后集合到數據倉庫中。這種技術注重對數據的高度掌控,利用這種集合方式將大量數據集合在一起,形成數據倉庫。這整個技術模型中包含了異構管理系統綜合數據庫、接口組件、應用系統以及外部數據源、Oracle等。
為了更好的解決數據異構的問題,學者又提出了一個新概念:中間件。中間件是處于平臺和實際應用的一種服務類型,不同類型的平臺以及應用需要利用不同形式的中間件。這種服務能夠讓讀者直接進行數據查詢,而非直接在數據庫內進行搜索。
這種方式簡化了對異構數據源的訪問源,實現了系統與系統之間的簡易互動,解決了異構的交互的難題,能夠更好的存儲大量數據。而圖書館數據繁多,利用這個技術能夠理清數據。
數字圖書館數據集成過程中依舊存在著很多問題。傳統的數據分類形式單調,只有一種或者幾種,并且這沒有固定的結構,異構數據中結構化與非結構化占比更加大。這能夠更好的、更加高效地將海量的數據進行有效集成,并且進行完整的存儲以及處理,給予用戶更好的數據使用體驗。