余紅光
(湖南信息職業技術學院 湖南 長沙 410200)
在大數據時代背景下,人們越來越認識到自身數據對管理的重要性,檔案是直接形成的歷史記錄,是對原始數據的記錄、收集、整理、保管、利用等,隨著信息量的增加,保存社會檔案越來越復雜,檔案行業管理越來越麻煩,大數據時代背景下的檔案利用服務需要進一步探討。
隨著信息時代的到來,數據增長越來越快,人們生活步入大數據時代,大數據是由數量巨大、結構復雜、類型眾多數據構成的數據集合,是海量的非結構化數據,基于云計算的數據處理與應用模式通過數據的集成共享交叉復用形成的智力資源和知識服務能力,需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產,具有數量大、類型繁多、價值密度低、速度快時效高的特點,從某種程度上說,大數據是數據分析的前沿技術,簡言之從各種各樣類型的數據中快速獲得有價值信息的能力就是大數據技術。現代大型企業,檔案部門主管公司檔案信息資料,將公司各單位部門信息統一管理,以便公司需要時快速找到相關信息,近年來隨著電子文件的廣泛應用,掃描圖像、傳真、電子表格、演示文檔、照片、視頻片段等非結構化數據直線上升,數字檔案館數據量直線上升,數據時代真正來臨。
在大數據時代背景下,檔案管理已由紙質檔案發展到數字化階段,檔案館作為保存檔案、提供檔案、為社會服務的文化機構,必然貯存大量的信息量,檔案信息資源階梯式增長,現有的檔案工具手段已不能滿足數字化檔案管理,計算機數據庫的應用順勢發展起來,提高檔案資料管理的有效性,大數據時代背景下的數字檔案館藏量具有數據量大、媒體形式多的特點,給檔案利用服務系統帶來了不小的挑戰。
隨著信息技術的廣泛應用,數據庫信息技術不斷發展,電子文件數據信息量暴增,檔案信息保存的文件相應增多,傳統的手工著錄、卡片檢索已不能滿足企業的需求,在檔案信息數據處理過程中,經常會遇到文件找不到、查詢性能低、甚至出現服務器不響應一系列難題,應用以往的查詢服務方法已經趕不上大數據時代發展的步伐,計算機輔助檔案資料管理變得更加便捷方便,但是在大數據時代,檔案信息化不斷推進,如何進行檔案查詢,尤其是近來檔案數量的急劇增多,檔案數據甚至出現脹庫,檔案查詢檢索性能下降,反應遲鈍,如何精準的在海量數據中找到所需信息,是檔案利用服務首先需要解決的問題。
如今,檔案管理用戶已不滿足于對數據及文件的利用,而是希望獲得數據及文件隱含的知識,也就是說,現在檔案管理的趨勢是知識管理,檔案利用服務也應由提供數據信息轉變為知識供給,但知識不是簡單的數據信息,需要經過抽取和挖掘才能從中得到有用信息,在海量數據中,僅僅依靠人工挖掘信息已不能滿足大數據時代,如何提供給用戶挖掘有用信息,依靠信息技術進行數據挖掘,這是當前檔案利用服務的任務。
傳統的檔案業務流程包括收集、整理、保存、利用,其中檔案利用采用的原始數據,隨著電子文件的廣泛應用,檔案數據信息量越來越大、媒體形式頗多,傳統的檔案流程已不能滿足用戶對信息數據的使用,原始數據的利用比較困難,數據查詢性能下降,甚至無法及時響應,延誤資料的使用,檔案數據庫需要更新,及時優化IT結構,在找尋檔案數據前加入數據挖掘這一步驟,通過模糊識別對海量數據及多媒體數據進行篩選,方便用戶在萬千信息中找尋自己所需要的信息,優化數據查詢性能,提高檔案服務質量,這是解決檔案利用服務的一條有效途徑。
怎樣從大批量原始數據中篩選出有應用價值的信息,提供給不同用戶作為參考信息,數據挖掘技術的應用使得該問題得到解決。概括地說,數據挖掘便是從海量的、不完整的、效果差的、未經處理的數據中,提取具有潛在價值的信息與知識的過程。一般數據挖掘種類劃分為結構型數據挖掘、web數據挖掘及文本數據挖掘等。數據挖掘應用于海量檔案信息篩選過程中,簡化了檔案信心提取程序,提高了檔案利用服務效率。文本挖掘是數據挖掘的基本構成部分,在數據提取過程中應用最廣泛,因此被稱作文字探勘、文本數據挖掘等,可簡單地理解為文字分析,其目的就是經過文本處理后能獲取有價值的信息和知識。有價值信息的提取一般分為兩個步驟是分類與預測,文本挖掘就是以數據分析為基礎,然后加上某些衍生語言特征或者消除雜音,隨后插入到數據庫中,形成結構化數據,最后完成評價與信息傳遞。“高品質”的文本挖掘一般是說某類組合的關聯性、獨特性與實用性。文本數據挖掘在眾多基礎領域普遍存在,例如數理統計、智能機器、聲像數據轉換,歸納起來無非就是利用文本信息篩選、文本劃分、文本聚類、文本數據壓縮、文本數據處理;文本挖掘應用最常見的領域包括信息訪問(信息搜索、信息瀏覽、信息過濾、信息報告)、知識發現(數據預測、數據分析)。
數據挖掘技術是保證大數據背景下檔案服務的質量的有效途徑,數據挖掘平臺是文本智能數據處理中心,建立在獨特地模糊識別及音視頻識別技術之上,抽取其中內容進行挖掘,提供用戶搜索應用服務,檔案服務從數據的收集、挖掘及智能搜索等步驟實現,將數據結果顯示在數據挖掘平臺上。檔案資源數據挖掘包括三方面,首先是對音視頻內容的檢索,自動識別關鍵幀,區分定位視頻中的不同內容,提高視頻處理的能力;其次是對語義的檢索,這是常見的搜索方式,只需提供計算機識別的語言即可;最后是檔案智能化輔助分類,從歷史分類中提取檔案分類,實現文獻的自動分類,促進輔助分類的準確度,提高用戶整理效率,支持多維度動態分類。文本數據處理層是建立數據挖掘平臺的載體,其根本目的是以特殊的信息論及概率論的前提下的模式辨識技術和音視頻辨識技術,提取具有重要價值的信息,為外圍提供搜索應用服務。所以,數據挖掘平臺科通過采集數據、數據分析、數據挖掘、智能搜索應用平臺,將多類型數據在采集平臺上完成層次化的數據采集。
綜上所述,大數據時代是科技進步的產物,面對這樣的新形勢,我們必須以數據挖掘與文本挖掘為基礎,從而挖掘檔案間的內在關聯,探索檔案信息中潛藏的有價值信息,建立智能化處理平臺滿足不同客戶個性化的需求。
[1]崔麗娟.保密形勢下如何做好檔案利用工作的思考[J].科技創新導報.2012(14)
[2]牛祿青.構建大數據產業環境專訪中國工程院院士、中科院計算所首席科學家李國杰[J].新經濟導刊.2012(12)
[3]李國杰,程學旗.大數據研究:未來科技及經濟社會發展的重大戰略領域——大數據的研究現狀與科學思考[J].中國科學院院刊.2012(06)
[4]樊偉紅,李晨暉,張興旺,秦曉珠,郭自寬.圖書館需要怎樣的“大數據”[J].圖書館雜志.2012(11)
[5]鄧紅兵.檔案行進在“快車道”——永州市公路局系統檔案管理工作走筆[J].湖南檔案.2000(03)