胡艷華
摘 要:在檔案管理的工作中,數據攝取是其中重要的組成部分,檔案信息具有量大的特點,所以檔案管理人員要從大量的檔案信息中提取有效的部分其實是具有一定難度的,并且這項工作需要消耗大量的人力與物力資源,檔案管理中心擁有龐大的信息數據量,要想在這些信息中篩選出最有價值的部分,就應該采用數據攝取的方式對所采集到的信息進行有效的處理。在處理時,應該應用先進的設備以及現代化的科學技術,這樣才能進一步的提高檔案管理的工作效率,以達到令人滿意的檔案管理效果。本文重點對檔案管理過程中的數據攝取問題展開了論述,希望對今后的工作帶來一定的幫助。
關鍵詞:檔案管理;數據采集;信息;處理
在我國當前社會發展的過程中,檔案信息資料不斷增多,雖然檔案信息可以對社會發展起到記錄的作用,但是在龐大的數據面前,人們很難找到有效的信息,所以要想進一步提高資源的使用率,就應該學會將檔案信息資料中有效的信息進行提取,以及進一步的處理,由此可見,數據攝取這一技術是檔案管理過程中重要的組成部分,只有采用先進的技術手段以及相關的設備,才能讓數據采集具有準確性與完整性的特點,以促進工作人員工作效率的進步提升,本文重點對檔案管理中數據攝取的問題展開論述,希望可以對這項技術起到不斷完善與進一步改進的作用,更好的應用于檔案管理中。
1 檔案管理中的數據采集工作
不同的檔案信息在內容方面具有很大的差別,并且在對檔案信息資料進行管理的過程中也具有復雜性的特點,所以檔案管理中通常都需要對數據進行分類,分類處理是數據攝取的首要前提,這是一項系統性的工作,必須要按照一定的流程展開,同時在對數據進行采集時,也需要注重以下幾方面的問題。首先檔案管理人員應該充分的了解檔案的結構,這樣才能對電子檔案或者文字資料進行正確的處理,只有掌握了相應的框架結構,那么就可以對其進行簡單的描述,在數據攝取要求的基礎上從中提取出有價值的信息,同時,將其保存在一個數據庫中,這樣可以讓整個檔案信息的結構更加明顯,具備一定的條理性,更加順利的開展后續的工作。
其次,應該對檔案數據的安全性引起一定的重視。在對數據進行采集時,應該有效地預防數據丟失的現象,并且對數據被竊取的現象加以避免,為此,只有工作人員具備了較高的安全素質,在準備工作中加強安全方面的管理,才能保證數據采集的安全性。在對數據進行采集的同時,應該將重要的信息或者數據隱藏起來,例如使用特殊的符號對重要信息進行替換,這樣可以有效地預防數據信息受被竊取,提高了檔案管理的安全性。
第三,數據信息還應該具有獨立性的特點。在檔案部門進行數據管理的過程中,通常采用的模式都是關系數據管理模式,這種管理模式主要是將有價值的信息提取出來,并且進行數據聯機,這樣便可以為檔案使用者提供更加便利的服務。在關系數據庫中,要想對數據信息進行有效的分離,那么首要的前提條件就是應該滿足數據自身的完整性,這樣才可以進一步提高檔案信息分析過程的準確性,同時將檔案信息有價值的一面展現出來,更好的作用于社會的發展與建設。
2 檔案管理中的數據攝取工作
2.1 數據清理
首先,在開展數據清理的工作中,其主要的目標就是將收集來的信息進行加工以及進一步的處理,這樣可以將有用的信息提煉出來,以便進一步提高數據的可靠性與完整性,為后續的數據攝取工作帶來便利。數據攝取工作具有一定的標準,工作人員在這一標準的基礎上擇優篩選出有用的信息,有助于數據資源質量得到進一步的提高。之所以在數據攝取之前對數據進行清理,是因為以下幾點原因。第一是著錄標準不是統一的,不同的檔案管理部門所采用的管理軟件是不同的,所以對著錄也有著不同的要求,或者說是標準,因此檔案信息在數據結構方面就存在一定的差異性。這樣對于數據攝取效率的提高是十分不利的,所以如果沒有事先對數據進行有效的清理,就會對后續的工作帶來一定的困擾。
第二,著錄錯誤。在檔案信息數據管理的過程中,著錄工作是人工操作的,如果工作人員出現失誤,會造成著錄錯誤的問題,由于檔案信息量比較龐大,所以,著錄錯誤的影響也比較大,可能會改變原始數據的屬性,所以,必須通過數據清理的方式,對數據信息進行重新歸檔與定性。工作人員需要對數據中的空缺進行補錄,補錄值可以采用常量、均值、隨機值等,但都需要檔案專業工作者對其準確性進行推斷后方能進行。對于包含孤立點和異常值的噪聲數據進行處理的時候,具有可視化功能的挖掘軟件可以很直觀的顯示出這些噪聲數據,用戶可以依據圖形對這些噪點進行清除或糾值。
2.2 數據集成
前文提到在數據采集時要對源數據進行分類匯總,并進行初步的差異項統一。而數據集成是更為深層次的操作,它整合不同數據源中的元數據到一個一致的存儲中,包括數據類型的選擇、數據間沖突的處理、數據表的集成,表間關系的重確定等操作。由于這些源數據是異種異構的,數據集成必須將這些數據統一并規范化,形成初始挖掘數據。例如不同檔案管理系統中“時間”或“日期”都可以表示文件形成時間,我們可將這兩種異名同義字段從數據庫中導出后,保留其中一個字段名,字段內容不用做任何處理,就做到了該字段上的統一。
2.3 數據變換
現有的數據變換方法如平滑、聚集、數據泛化、規范化、屬性構造等都可以對經過數據集成后的初始挖掘數據進行處理,但是對檔案信息數據這一特殊信息體來說,屬性構造手段是否良好運用,關系到最終挖掘結果的優劣。
2.4 數據規約
經過之前步驟處理過的數據集,在正確性、統一性,規范性上都有了一個大幅的提高,但是數據集內的數據量在去重后的變化并不顯著,在其上進行復雜的數據分析和數據挖掘依然會耗費人量的時間,數據規約從原始數據集中選取用戶感興趣的數據集合并從集合中去除無關或偏差屬性和元組,一方面降低了無效、錯誤、冗余數據對挖掘結果的影響,另一方面也大幅縮減了挖掘所需要的時間以及存儲這些數據所需要的成本,因此是一個效果和效率兼備的過程。
3 結論
數據攝取具有一定的復雜性,為了保證數據攝取的順利進行,必須先建立有效的檔案數據攝取標準,還要保證制定標準的準確性以及普遍性,這樣才能保證檔案數據攝取的質量,才能提高數據攝取的工作效率。在對數據信息進行采集與處理的過程中,要保證數據的安全性,工作人員一定要具有較高的安全意識,這樣才能避免數據丟失以及泄漏問題的發生。
參考文獻
[1]羅艷,黃明初,陸旭安,潘雄偉.一個數字檔案館中的數據挖掘系統工作流程[J].廣西科學院學報,2010(4).
[2]鮑靜,范生萬.基于數據挖掘的圖書數據預處理[J].大學圖書情報學刊,2008(2).
[3]鄭晨.高校檔案管理工作網絡化之我見[J].赤峰學院學報(漢文哲學社會科學版),2006(6).