999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于企業海量電子文件的數據采集模型

2018-05-08 13:20:44楊迪陳雪萍馮宇李沛斐陳風熙
電子技術與軟件工程 2018年22期
關鍵詞:數據采集

楊迪 陳雪萍 馮宇 李沛斐 陳風熙

摘要 文章在參考前人研究結果的基礎上,結合閉著多年的工作經驗,提出了企業海量電子文件數據采集模型,并詳細介紹了該系統的數據采集來源、數據預處理流程、數據清洗方法以及數據轉化功能等模塊,力求為企業海量電子文件數據的采集和管理提供可靠的參考依據。

【關鍵詞】電子文件 數據采集 數據預處理數據清洗

在互聯網技術日益完善、多媒體功能逐漸強大以及先進辦公軟件不斷普及等因素的共同作用下,電子文件已被廣泛運用于企業中,且因其與紙質文件相比,具有可塑性高、便捷性強以及傳遞速度快等優點,有效的增強了文件在企業生存與發展中的價值,為企業及時獲取文件信息、全面運用信息資源等都創造了良好的環境。但是,隨著電子文件種類和涉及范圍不斷增多,企業傳統文件管理制度、管理方法以及管理軟件中存在的問題也在不斷顯現出來,嚴重制約著電子文件真實性、完整性以及及時性的提升,大大降低了電子文件的價值和使用價值。換而言之,要想增強電子文件的使用質量和利用效率,我們就必須要建立符合海量電子文件數據采集模型,因此,對本文進行深入的分析與研究具有十分重要的意義。

1 電子文件數據采集來源

文章對電子文件數據采集主要分為兩部分,一部分是通過爬蟲等系統采集的數據,另一部分是企業現有的電子文件資料數據。這兩部分數據在被收集以后,并不能直接作為企業海量電子文件的數據源,需要通過數據預處理平臺進行數據的清洗,轉換和過濾,最終將完整的有價值的數據保存到企業電子文件數據路中。

1.1 數據采集器

數據采集器主要包含了調度器、采集器以及預處理三個部分:

1.1.1 調度器

調度采集和預處理器進行數據采集和預處理。調度方法可以采用定時、事件觸發方式。

1.1.2 采集器

(l)爬蟲系統:自動抓取網頁及鏈接的網頁內容,適用于內外網網站Web內容的采集。

(2) ETL程序:采用存儲過程、腳本或外部程序來讀取被采集系統的新數據。

(3)上傳接收:個人整理或原創的文檔,通過上傳方式采集。

1.1.3 預處理器

完成對采集到數據的加工處理,轉換產生文庫需要的數據格式。

(l)過濾器:將不符合條件的數據過濾掉,保證進入文庫數據的質量和價值。

(2)清洗:處理臟數據。

(3)轉換:數據編碼映射轉化;調用搜索和大數據引擎進行全文索引處理。

1.2 數據采集來源

企業電子文件數據主要來自以下三個渠道:

(1)系統來源:主要是針對電子文件系統與檔案管理系統中面向全網開放的電子文件。結構化數據,通過ETL工具采集數據,非結構化數據通過文本信息分析技術進行采集;

(2)個人來源:針對個人上傳的電子文件分為普通文件與私有文件,普通文件任何人可以檢索和閱讀,私有文件僅自己可見,針對私有的電子文件可以設置共享或是授權共享的功能;

(3)外部來源:主要是引入外部的資源如:知網、萬方等外部資源,所有引入的資源面向所有用戶公開;個人來源和外部來源將會完善和豐富文庫的數據內容,增強其專業性,滿足員工對專業化文檔資料的需求。

2 電子文件數據預處理平臺

2.1 數據的預處理

隨著電子信息化的發展,企業現存的電子文件數量越來越龐大,數據的種類繁多,不同系統中存儲的電子文件內容和格式都不盡相同,為了保證在企業數據庫中電子文件資料從數量和質量達到最優的效果,所以需要將采集到的電子文件資料進行預處理,從而提高系統的性能和用戶的滿意度。預處理流程為:數據預處理是企業電子文件的數據準備工作,一方面保證企業電子文件數據的正確性和有效性,另一方面通過對數據格式和內容的調整,使數據更符合電子文件數據庫的需要。系統收集到元數據后,需要經過預處理平臺對數據進行處理,用全新的“數據模型”來組織原來的電子文件數據,摒棄一些重復的、無效的垃圾數據。為企業電子文件數據庫提取干凈、準確、更有針對性的數據創造良好的環境,從而減少系統的數據處理量,提高使用效率,提高發現資料數據的準確度。

2.2 數據清洗

數據清洗是清除錯誤和不一致數據的過程,主要任務是過濾或者修改那些不符合要求的數據。將“臟數據”轉化為滿足數據質量或應用要求的數據,從而提高數據集的數據質量。數據清洗需要解決的數據質量問題主要有空值問題,錯誤值問題和不一致的數據等。缺失值的清洗方法主要包括下面幾種:

(1)忽略其屬性包括缺失值的記錄。

(2)某些缺失值可以從本數據源或其他數據源推導出來。由于原始外部數據不同,錄入習慣不同,不同系統對記錄屬性的要求不同,導致同一實體對應的各個記錄缺失程度不同,通過清洗可以得到一條相對完整的記錄。

(3)可用平均值、中間值、最大值、最小值或更為復雜的概率統計函數值代替缺失的值。

(4)人工輸入一個可接受的值。對于大規模的數據量一般不采用該方法。錯誤值的檢測及清洗方法包括以下幾種:1利用統計分析或人工智能的方法檢測屬性可能的錯誤值或異常值。2使用簡單規則庫(常識性規則和業務特定規則等)檢測和修正錯誤。3使用不同屬性間的約束檢測和修正錯誤。第四,使用外部數據源檢測和修正錯誤。

2.3 數據轉換

從數據源中抽取的數據不一定完全滿足存儲的要求,例如數據格式的不一致、數據輸入錯誤、數據不完整等等,還要對采集到的數據進行數據轉換和加工,保證數據按共同理懈的業務需求轉換為目標數據結構。不一致數據轉換,這個過程是一個整合的過程,將不同業務系統的相同類型的數據統一,比如同一個分類數據增加分類編碼,這樣在抽取過來之后統一轉換成一個編碼。在數據結構中數據之間的關系通過轉換成線性關系存儲。線性表是一個比較靈活的數據結構,它的長度根據需要增長或縮短,也可以對線性表的數據元素進行不同的操作(如訪問數據元素、插入、刪除數據元素等)。

3 結束語

隨著企業電子文件的使用頻率和使用范圍不斷擴大,傳統電子文件數據采集系統中存在的弊端也在不斷凸顯,很難滿足企業對電子文件的管理需求。文章所提及的數據采集模型在提升電子文件管理質量和管理效率等方面都有著極為顯著的作用,值得我們在今后的工作中不斷推廣和使用。

參考文獻

[1]楊強,胡心宇.基于HBase的海量電子文件元數據管理的研究與實踐[J],貴州電力技術,2017,20 (10):69-73.

[2]張琳.基于海量數據的市場投放策略研究[D].浙江理工大學,2018.

[3]鄧芳.大型物聯網電子設備的海量數據高效挖掘方法研究[J].現代電子技術,2016, 39 (04): 159-162.

猜你喜歡
數據采集
Web網絡大數據分類系統的設計與改進
CAN總線通信技術在電梯監控系統中的應用
基于大型嵌入式系統的污水檢測系統設計
社會保障一卡通數據采集與整理技巧
基于AVR單片機的SPI接口設計與實現
CS5463在植栽用電子鎮流器老化監控系統中的應用
大數據時代高校數據管理的思考
科技視界(2016年18期)2016-11-03 22:51:40
鐵路客流時空分布研究綜述
基于廣播模式的數據實時采集與處理系統
軟件工程(2016年8期)2016-10-25 15:54:18
通用Web表單數據采集系統的設計與實現
軟件工程(2016年8期)2016-10-25 15:52:53
主站蜘蛛池模板: 99re在线免费视频| 精品久久久久久成人AV| 欧美伦理一区| 日韩成人免费网站| 欧美激情第一欧美在线| 青青草国产一区二区三区| 亚洲永久视频| 国产欧美日韩在线在线不卡视频| 欧美色图久久| 国产成人综合网在线观看| 国产91九色在线播放| 亚洲中文久久精品无玛| 99人妻碰碰碰久久久久禁片| 久久人体视频| 亚洲欧美天堂网| 欧美人在线一区二区三区| 好吊色妇女免费视频免费| 精品国产www| 福利一区三区| 婷婷伊人五月| 午夜国产大片免费观看| 欧美日韩一区二区三区在线视频| 亚洲天堂网站在线| 欧美亚洲香蕉| 中国一级毛片免费观看| 亚洲中文字幕在线精品一区| 国产亚洲欧美日韩在线观看一区二区| 欧美国产精品不卡在线观看| 五月婷婷激情四射| 国产永久免费视频m3u8| 国产精品女主播| 国产成人精品免费av| 成人国产免费| 大学生久久香蕉国产线观看| 久久黄色影院| 日韩欧美91| 99久久免费精品特色大片| 无码啪啪精品天堂浪潮av| 在线观看精品国产入口| 亚洲大尺码专区影院| 性视频一区| 野花国产精品入口| 少妇精品久久久一区二区三区| 久久永久免费人妻精品| 不卡视频国产| 伊人久久久大香线蕉综合直播| 国产日韩欧美黄色片免费观看| 日韩第九页| 国产福利拍拍拍| 激情无码视频在线看| 青青国产视频| a亚洲视频| 老司机精品一区在线视频| 国产噜噜噜| 丝袜国产一区| 亚洲福利一区二区三区| 中文字幕有乳无码| 一区二区理伦视频| 97se亚洲综合在线| 久久无码免费束人妻| 欧美区一区二区三| 日韩久草视频| 国产免费人成视频网| 国产成人超碰无码| 国产亚洲精久久久久久无码AV| 在线毛片免费| 国产18在线| 国产人在线成免费视频| 免费无码网站| 日韩福利视频导航| 欧美不卡在线视频| 欧洲成人在线观看| 亚洲精品福利网站| 国产新AV天堂| 九九视频免费看| 国产综合精品日本亚洲777| 青青久视频| 久久无码av三级| 网友自拍视频精品区| 99久久精品免费看国产电影| 亚洲精品桃花岛av在线| 国内精品视频在线|