陳 巖
吉林省梨樹縣廉政教育培訓中心
大數據時代背景下的檔案利用服務分析
陳 巖
吉林省梨樹縣廉政教育培訓中心
大數據時代的到來為人們的工作與生活帶來了極大的影響,并且這一影響更多是來自于好的一面,我國很多行業在大數據時代的背景下都發生了重要的變革,其中檔案行業的變化就十分明顯。對于大數據的定義,目前并不具備一個明確的定義,但是其主要的特點是信息數量大,具有實時性,并且有著多樣化的發展特點,蘊含著極大的社會價值,所以在檔案館的發展建設過程中,因為有了大數據這一重要的背景,相應的利用服務產生了很大的變革,對于社會的發展具有積極的意義。
大數據背景;檔案利用服務;數據挖掘;文本挖掘
隨著大數據時代的到來,檔案館的信息利用以及服務工作產生了巨大的變化,現如今的檔案館檔案目錄正在采用集中化的管理方式,將其進行統一的展現,并且提高了館藏的存儲量,并且電子文件的出現節省了很大一部分空間,采用數字檔案的方式讓檔案管理變得更加高效與快捷,此外,現如今的檔案館還采用了非結構化的數據,諸如掃描圖像、演示文稿等方式,這樣人們在查閱檔案資料的過程中變得更加方便了,同時也減輕了檔案管理工作者的工作負擔,是一種十分高效的檔案處理方式。
在大數據時代的發展背景下,采用數據挖掘的方式是檔案館利用服務的一個重要選擇,因為檔案的數量會隨著時代的發展變得越來越大,形式也會變得更加豐富,所以在這種情況下,就會造成需要的材料無法在第一時間找到的問題,所以令服務質量下降,在大數據的環境下,可以建立起一個IT架構,這樣就可以有效的提高性能,然后采用數據挖掘的方式能夠從大量的文本中找到所需要的檔案。在傳統的檔案管理過程中,主要包含了收集、管理以及保存和利用四個不同的方面,要想直接使用原始數據會存在一定的難度,此時就更加需要采用數據挖掘技術來找出所需要的數據,這樣對檔案服務質量的提升具有重要的幫助。
在應用數據挖掘技術的過程中,可以滿足不同用戶對檔案信息的需要,所以可以將這一技術得到進一步的推廣,在實際應用的過程中這一技術是具有顯著意義的,采用數據挖掘技術就是在大量的應用數據中,將具有價值的數據尋找出來,其價值可以是真實存在的,也可以是潛在的,在這一過程中,包含了很多方面,例如結構型的數據挖掘,或者是文本數據挖掘等,但是最常見的挖掘技術還是文本數據挖掘技術,這一技術也可以稱之為是文字探勘或者是文本的數據挖掘等,與文字分析是等同的,在對文字加以進一步處理的基礎上,就能獲得具有高質量的信息,在本文處理的過程中,可以產生結構化的數據類型,從而得到最終的評價,并且能夠進行解釋輸出。“高品質”的文本挖掘通常是指某種組合的相關性,新穎性和趣味性。文本數據挖掘的基礎領域,包括機器學習、數理統計、自然語言處理;在此基礎上是文本數據挖掘的基本技術,包括文本信息抽取、文本分類、文本聚類、文本數據壓縮、文本數據處理;文本挖掘有兩個主要應用領域,信息訪問和知識發現,信息訪問包括信息檢索、信息瀏覽、信息過濾、信息報告,知識發現包括數據分析、數據預測。
總之,我們可以把對文本數據的分類、融合、壓縮、摘要、以及從文本中抽取發現知識與信息都看作是文本數據挖掘。通過這些技術使得我們在搜索檔案時從大數據范圍變成從小范圍,從而提高了效率和準確度。如,文本信息抽取是從文本數據中抽取人們關注的特定的信息。文本數據可以以句、段落、篇章為單位;抽取信息既可以以字、詞、詞組、句、或段落為單位,也可以是以上基本單位的組合。抽取信息可以是關于個體的(比如,人、組織、時間、地點),也可以是關于事實、事件、或個體間關系的。抽取的信息還可以作為文本數據的特征,用于其它數據挖掘處理。
在大數據時代發展的過程中,檔案利用以及服務應該滿足大數據時代的特點,為其帶來更加積極的影響,在新形勢的發展過程中,采用數據挖掘技術可以促進檔案服務質量水平的進一步提高,其主要的應用主要體現在以下幾點。首先是在音視頻內容的基礎上展開檢索,這種檢索的方式具有自動識別關鍵幀的功能,可以將同一個視頻中不同的內容進行定位,這樣就可以進一步的縮小人工量,讓視頻的處理能力得到進一步的提高。其次是基于語義檢索。提供計算機可以理解人類語言后的一種搜索模式。還有就是檔案智能化輔助分類。可從歷史分類中智能提取檔案分類,提高用戶整編效率,實現文獻的自動分類;系統可自主根據已有檔案分類進行學習,促進以后輔助分類的準確度;支持多維度的動態分類;支持用戶自定義分類展示。
數據挖掘管理平臺架構于文本智能數據處理層上,其核心是建立在獨特的信息論和概率論的基礎之上的模式識別技術以及音視頻識別技術,抽取概念和內容挖掘后,為外圍提供多種的搜索應用服務。因此,系統總體架構也是按照實際內容應用的流程實現,即從數據的采集、智能處理、數據挖掘及智能搜索應用平臺三個層次實現,通過多類型數據采集平臺進行數據采集,在智能數據處理平臺上對這些非結構化信息、多媒體信息和用戶信息進行分析,最后在應用平臺上提供數據挖掘結果的搜索平臺和多媒體自動編研平臺。
大數據時代檔案數據的量大、形式多等特點帶來的無法找到、查詢性能急劇下降、甚至無法響應等問題,利用傳統的簡單查詢服務模式已經無法適應大數據時代的要求。在此情況下,只有通過數據挖掘和文本挖掘,深層次發掘檔案之間的關聯,開發檔案信息中蘊藏的知識,通過智能化處理平臺主動推送給用戶,才能不斷滿足用戶日益增長的高層次、個性化的需求。
[1]張建.檔案數據庫“脹庫”問題研究[J].檔案學通訊,2012(5).
[2]李航.機器學習及其應用(文本數據挖掘)[M].北京:清華大學出版社,2006.
[3]邵峰晶,于忠清.數據挖掘原理與算法[M].北京:中國水利水電出版社,2003.