楊迪 陳雪萍 馮宇 李沛斐 陳風熙
摘要 文章在參考前人研究結果的基礎上,結合閉著多年的工作經驗,提出了企業海量電子文件數據采集模型,并詳細介紹了該系統的數據采集來源、數據預處理流程、數據清洗方法以及數據轉化功能等模塊,力求為企業海量電子文件數據的采集和管理提供可靠的參考依據。
【關鍵詞】電子文件 數據采集 數據預處理數據清洗
在互聯網技術日益完善、多媒體功能逐漸強大以及先進辦公軟件不斷普及等因素的共同作用下,電子文件已被廣泛運用于企業中,且因其與紙質文件相比,具有可塑性高、便捷性強以及傳遞速度快等優點,有效的增強了文件在企業生存與發展中的價值,為企業及時獲取文件信息、全面運用信息資源等都創造了良好的環境。但是,隨著電子文件種類和涉及范圍不斷增多,企業傳統文件管理制度、管理方法以及管理軟件中存在的問題也在不斷顯現出來,嚴重制約著電子文件真實性、完整性以及及時性的提升,大大降低了電子文件的價值和使用價值。換而言之,要想增強電子文件的使用質量和利用效率,我們就必須要建立符合海量電子文件數據采集模型,因此,對本文進行深入的分析與研究具有十分重要的意義。
1 電子文件數據采集來源
文章對電子文件數據采集主要分為兩部分,一部分是通過爬蟲等系統采集的數據,另一部分是企業現有的電子文件資料數據。這兩部分數據在被收集以后,并不能直接作為企業海量電子文件的數據源,需要通過數據預處理平臺進行數據的清洗,轉換和過濾,最終將完整的有價值的數據保存到企業電子文件數據路中。
1.1 數據采集器
數據采集器主要包含了調度器、采集器以及預處理三個部分:
1.1.1 調度器
調度采集和預處理器進行數據采集和預處理。調度方法可以采用定時、事件觸發方式。
1.1.2 采集器
(l)爬蟲系統:自動抓取網頁及鏈接的網頁內容,適用于內外網網站Web內容的采集。
(2) ETL程序:采用存儲過程、腳本或外部程序來讀取被采集系統的新數據。
(3)上傳接收:個人整理或原創的文檔,通過上傳方式采集。
1.1.3 預處理器
完成對采集到數據的加工處理,轉換產生文庫需要的數據格式。
(l)過濾器:將不符合條件的數據過濾掉,保證進入文庫數據的質量和價值。
(2)清洗:處理臟數據。
(3)轉換:數據編碼映射轉化;調用搜索和大數據引擎進行全文索引處理。
1.2 數據采集來源
企業電子文件數據主要來自以下三個渠道:
(1)系統來源:主要是針對電子文件系統與檔案管理系統中面向全網開放的電子文件。結構化數據,通過ETL工具采集數據,非結構化數據通過文本信息分析技術進行采集;
(2)個人來源:針對個人上傳的電子文件分為普通文件與私有文件,普通文件任何人可以檢索和閱讀,私有文件僅自己可見,針對私有的電子文件可以設置共享或是授權共享的功能;
(3)外部來源:主要是引入外部的資源如:知網、萬方等外部資源,所有引入的資源面向所有用戶公開;個人來源和外部來源將會完善和豐富文庫的數據內容,增強其專業性,滿足員工對專業化文檔資料的需求。
2 電子文件數據預處理平臺
2.1 數據的預處理
隨著電子信息化的發展,企業現存的電子文件數量越來越龐大,數據的種類繁多,不同系統中存儲的電子文件內容和格式都不盡相同,為了保證在企業數據庫中電子文件資料從數量和質量達到最優的效果,所以需要將采集到的電子文件資料進行預處理,從而提高系統的性能和用戶的滿意度。預處理流程為:數據預處理是企業電子文件的數據準備工作,一方面保證企業電子文件數據的正確性和有效性,另一方面通過對數據格式和內容的調整,使數據更符合電子文件數據庫的需要。系統收集到元數據后,需要經過預處理平臺對數據進行處理,用全新的“數據模型”來組織原來的電子文件數據,摒棄一些重復的、無效的垃圾數據。為企業電子文件數據庫提取干凈、準確、更有針對性的數據創造良好的環境,從而減少系統的數據處理量,提高使用效率,提高發現資料數據的準確度。
2.2 數據清洗
數據清洗是清除錯誤和不一致數據的過程,主要任務是過濾或者修改那些不符合要求的數據。將“臟數據”轉化為滿足數據質量或應用要求的數據,從而提高數據集的數據質量。數據清洗需要解決的數據質量問題主要有空值問題,錯誤值問題和不一致的數據等。缺失值的清洗方法主要包括下面幾種:
(1)忽略其屬性包括缺失值的記錄。
(2)某些缺失值可以從本數據源或其他數據源推導出來。由于原始外部數據不同,錄入習慣不同,不同系統對記錄屬性的要求不同,導致同一實體對應的各個記錄缺失程度不同,通過清洗可以得到一條相對完整的記錄。
(3)可用平均值、中間值、最大值、最小值或更為復雜的概率統計函數值代替缺失的值。
(4)人工輸入一個可接受的值。對于大規模的數據量一般不采用該方法。錯誤值的檢測及清洗方法包括以下幾種:1利用統計分析或人工智能的方法檢測屬性可能的錯誤值或異常值。2使用簡單規則庫(常識性規則和業務特定規則等)檢測和修正錯誤。3使用不同屬性間的約束檢測和修正錯誤。第四,使用外部數據源檢測和修正錯誤。
2.3 數據轉換
從數據源中抽取的數據不一定完全滿足存儲的要求,例如數據格式的不一致、數據輸入錯誤、數據不完整等等,還要對采集到的數據進行數據轉換和加工,保證數據按共同理懈的業務需求轉換為目標數據結構。不一致數據轉換,這個過程是一個整合的過程,將不同業務系統的相同類型的數據統一,比如同一個分類數據增加分類編碼,這樣在抽取過來之后統一轉換成一個編碼。在數據結構中數據之間的關系通過轉換成線性關系存儲。線性表是一個比較靈活的數據結構,它的長度根據需要增長或縮短,也可以對線性表的數據元素進行不同的操作(如訪問數據元素、插入、刪除數據元素等)。
3 結束語
隨著企業電子文件的使用頻率和使用范圍不斷擴大,傳統電子文件數據采集系統中存在的弊端也在不斷凸顯,很難滿足企業對電子文件的管理需求。文章所提及的數據采集模型在提升電子文件管理質量和管理效率等方面都有著極為顯著的作用,值得我們在今后的工作中不斷推廣和使用。
參考文獻
[1]楊強,胡心宇.基于HBase的海量電子文件元數據管理的研究與實踐[J],貴州電力技術,2017,20 (10):69-73.
[2]張琳.基于海量數據的市場投放策略研究[D].浙江理工大學,2018.
[3]鄧芳.大型物聯網電子設備的海量數據高效挖掘方法研究[J].現代電子技術,2016, 39 (04): 159-162.