999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

探究大數據處理過程中的數據質量影響

2020-12-30 16:08:55李康
網絡安全技術與應用 2020年8期
關鍵詞:一致性分析質量

◆李康

(成都三零盛安信息系統有限公司 四川 610031)

目前,大數據技術是廣泛應用于各領域中的重要技術之一,通過處理與分析總體數據、關注事物之間存在的關聯性,分析預測出發展趨勢。大數據是由社交網絡、監控設備、移動計算、傳感器等信息源產生,數據來源具有復雜性、多樣性,對大數據技術運行帶來較大的數據提取難度,也影響了大數據質量。

1 大數據質量的界定

1.1 大數據質量

大數據是指數據巨大,已經無法通過人工方式合理化截取、管理、處理、整理。大數據類型多樣化,包括結構、非結構、半結構數據,還包含系統、傳感器、社交媒體產生的數據等。從數據格式角度,大數據還包括文本、圖片、數值、音頻、視頻等數據。為了實現大數據有效解讀,大數據技術、大數據平臺、大數據應用被研發而出。根據大數據定義與特征,大數據質量是指數據分析、處理、預測等過程滿足用戶需求。在處理大數據時,處理流程如下:收集數據、預處理數據、存儲數據、分析與挖掘數據、展示數據、應用大數據等。在此流程過程中,數據質量貫穿于每個環節中。

1.2 大數據質量維度

1.2.1 數據真實性

大數據真實記錄了數據變化及運行模式,顯示其原始質量,體現在數據可信性、真實性、來源與信譽、有效性、可審計性等方面。大數據存在于虛擬網絡中,會受到惡意性攻擊,導致“數據產生污染”,影響決策結果,應采取有效措施保證真實性與客觀性,保障大數據價值挖掘與趨勢預測的效果。

1.2.2 數據完整性

大數據采集具有完整性,體現在采集時間段完整、數據屬性值完備、數據值無缺失等。大數據運行時能夠從大量數據甚至是海量數據中全面、完整地刻畫事物,分析出事物的本質與規律,為用戶提供完整性的數據分析。

1.2.3 數據一致性

數據一致性是指同構/異構來源數據、格式、數據編碼具有一致性的特點,能夠在預處理時應用檢測技術過濾出不一致的數據,保證數據一致性。實現數據一致性是保證數據準確性的基礎,也是保障結果質量的重要元素。

1.2.4 數據準確性

數據準確性不只包括采集數據準確性,還含有預處理數據準確性、分析結果準確性。可見,數據準確性是從采集數據開始直至分析整個過程實現數據準確性。數據準確性決定分析結果的價值,不同數據應用的數據準確度要求也不同,應用目標與決策需求決定的。

2 影響大數據質量分析

2.1 數據收集環節

開展數據分析工作時,第一步要開展數據收集工作。收集數據的來源不同,并且是由機器自動生成,再利用網絡傳輸功能傳輸至指定位置。收集的數據內容是由企業或者組織決定的,針對某種來源收集所需信息,比如用戶購買的產品數據,分析出某種產品的熱度等。在收集數據時,可通過設備收集、Web“數據爬取”收集方式獲取。在數據收集過程中,對大數據質量真實性、一致性、完整性、準確性、時效性、安全性等會產生較大的影響。

2.1.1 數據源

數據源是影響大數據質量的重要因素,體現在數據源來源于各種網站、系統、傳感器設備等,只有在安全運行、避免惡意攻擊與篡改的條件下,才能保證大數據質量。同時,數據源運行是否具有穩定性、無間斷性,是保證大數據完整性的關鍵環節。不同數據源之間實現統一編碼與互相協調是實現同構或者是異構大數據一致性的重要條件,數據源之間要同步與協作。可見,數據源是影響大數據真實性、完整性、一致性、準確性和安全性的重要因素。

2.1.2 數據收集方式

收集方式決定著大數據時效性質量,設備在收集數據時均收取實時數據,采集、處理、分析方式為流式數據模式,保證時效性質量。如果是Web數據,收集方式為網絡爬蟲,需對爬蟲軟件設計時間,保證數據時效性質量。因此,收集方式是影響時效性質量的重要因素。

2.2 數據預處理與存儲環節

大數據技術運行時,會存在數據預處理環節。由于采集的多個數據源,比如文件系統、服務接口等會受到噪聲數據、沖突、缺失數據值的影響,會導致數據不準確,通過預處理環節保障原始數據準確性,進而促進分析與預測結果的準確性與價值性。預處理的工作內容是清理數據、集成數據、數據歸約、轉換數據等,數據清理技術可以檢測出不一致的數據、識別噪聲數據等,可保證大數據一致性、真實性、準確性、可用性;數據集成的工作內容是集成多個數據源數據,形成集中、統一數據庫等,保障大數據完整性、安全性、一致性、可用性;數據歸約是降低規模的重要措施,簡化數據處理過程,并且不會對分析結果準確性產生影響;轉換數據是利用規則或者元數據轉換、模型與學習轉換等技術轉換數據并統一化,可提高大數據一致性與可用性。可見,數據預處理是影響大數據質量的關鍵因素。

2.3 數據處理與分析環節

大數據處理應用的是分布式技術,需根據存儲形式與業務數據開展。在處理大數據時計算模型包括MapReduce分布式計算框架、內存計算系統、流計算系統等。MapReduce屬于批處理數據的過程,能夠分析與處理海量數據,適合應用于各種結構化、非結構化數據處理工作中;應用內存計算系統能夠縮減數據讀寫與移動開銷的次數,提升處理性能;流計算系統實時處理數據流,保證大數據時效性與價值性。可見,任意處理技術對大數據質量都會產生較大的影響力。

3 保障大數據質量的建議與措施

3.1 采集數據中實施數據保護與數據源辨別措施

在采集數據時,特別是采集他人數據時,企業應避免敏感信息的收集、統計,還要保護用戶的隱私。同時,收集到數據信息后應辨別與驗證數據來源,保障數據具備真實性與有效性。

3.2 存儲保障

在存儲環節可借鑒傳統信息技術手段,實現數據具備可用性、完整性、私密性要求。比如,采取設置冗余方式保證數據可用性、應用校驗技術達到數據完整性、利用訪問控制技術與安全審計功能提高數據安全性等。

3.3 全局管理處理流程

在管理采集數據、預處理工作、存儲數據、處理與分析環節、可視化時,應注重全局管理與不同環節之間的協調與連貫管理,比如在存儲數據時應注重存儲形式,選擇的數據處理系統是否能夠有效分析處理采取到的數據類型,還要考慮是否能夠達到準確性與可用性的要求,優化大數據質量。

4 結束語

綜上所述,大數據技術是當下先進的技術之一,企業應注重大數據技術的應用,保障大數據質量,從而不斷開發與分析大數據,獲取最有價值的信息應用于發展決策中,從而得到最大的成功。

猜你喜歡
一致性分析質量
關注減污降碳協同的一致性和整體性
公民與法治(2022年5期)2022-07-29 00:47:28
“質量”知識鞏固
注重教、學、評一致性 提高一輪復習效率
IOl-master 700和Pentacam測量Kappa角一致性分析
隱蔽失效適航要求符合性驗證分析
質量守恒定律考什么
做夢導致睡眠質量差嗎
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
質量投訴超六成
汽車觀察(2016年3期)2016-02-28 13:16:26
主站蜘蛛池模板: 久久亚洲日本不卡一区二区| 欧美伦理一区| 亚洲婷婷丁香| 国产乱人伦偷精品视频AAA| 国产欧美视频一区二区三区| 日韩第一页在线| 亚洲一区第一页| 国产一在线| 日韩中文字幕亚洲无线码| 为你提供最新久久精品久久综合| 亚洲中文字幕在线观看| av性天堂网| 久久综合九九亚洲一区| 国产高清免费午夜在线视频| 国产又大又粗又猛又爽的视频| 国产精品久久久久婷婷五月| 77777亚洲午夜久久多人| 久久夜色精品| 亚洲天堂网在线播放| 国产乱人视频免费观看| 国产在线一二三区| 狠狠色综合久久狠狠色综合| 999国产精品永久免费视频精品久久| 国产又爽又黄无遮挡免费观看| 日日拍夜夜操| 国产男女XX00免费观看| 青青青国产视频手机| 中日韩一区二区三区中文免费视频| 国产成人艳妇AA视频在线| 超碰aⅴ人人做人人爽欧美| 在线播放真实国产乱子伦| 自慰网址在线观看| 国产97视频在线观看| 午夜三级在线| 国产精品无码作爱| 一级全免费视频播放| 97国产成人无码精品久久久| 午夜精品区| 中文字幕66页| 婷婷综合色| 亚洲人在线| 97精品伊人久久大香线蕉| 国产高颜值露脸在线观看| 九九视频免费看| 色婷婷狠狠干| 欧美日韩午夜| 欧美69视频在线| 中文字幕无码av专区久久| 久久黄色毛片| 免费国产高清精品一区在线| 青青草国产一区二区三区| 免费激情网站| 色窝窝免费一区二区三区| 亚洲成a人片| 精品福利网| 国产哺乳奶水91在线播放| 成年A级毛片| 中文字幕在线一区二区在线| 麻豆精品在线播放| 色偷偷综合网| 亚洲男人天堂2020| 亚洲天堂视频网站| 天天干伊人| 全色黄大色大片免费久久老太| 国产在线八区| 伊人激情综合| 亚洲三级电影在线播放 | 国产成人高清精品免费5388| 亚洲视屏在线观看| 国产人成乱码视频免费观看| 久久亚洲黄色视频| 99久久精品免费看国产电影| 动漫精品啪啪一区二区三区| 五月六月伊人狠狠丁香网| 98精品全国免费观看视频| 2022精品国偷自产免费观看| 日韩欧美国产三级| 浮力影院国产第一页| 久久久久久久蜜桃| 亚洲欧美自拍一区| 国产成人91精品免费网址在线| 国产女人18水真多毛片18精品|