999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據中數據的質量問題探析

2020-02-14 05:49:05劉妍東
現代商貿工業 2020年4期
關鍵詞:數據庫用戶信息

劉妍東

摘 要:隨著云時代的來歷,大數據技術也越來越引起人們的關注。大數據帶來的巨大的技術和商業機遇使眾多的企業趨之若鶩。大數據分析挖掘和利用將為企業帶來巨大的商業價值,但隨著數據規模的急劇劇增,數據體量巨大、數據類型繁多,數據的價值參差不齊,在數據分析時將導致分析偏差。所以在大數據時代,數據的質量問題也是重中之重。通過分析,數據的質量問題主要存在這六大方面的問題:準確性、完整性、一致性、相關性、時效性、可信性和可解釋性。

關鍵詞:大數據;質量問題

中圖分類號:TB ? ? 文獻標識碼:A ? ? ?doi:10.19311/j.cnki.1672-3198.2020.04.092

1 從采集的角度劃分質量問題

1.1 準確性

準確性是指數據是否正確的,數據存儲在數據庫中的值是否對應于真實世界的值。例如,某用戶在使用支付寶綁定銀行卡時,網站要求驗證用戶的真實姓名和身份證號碼。如果用戶提供的證件號碼與實際號碼一致,那么該號碼存儲在數據庫中的值就是正確的。

數據的不準確由如下原因造成:一是在收集數據時,設備出現故障,導致數據存儲的值出現亂碼。二是在數據輸入時,人為的輸入不準確的信息,或者計算機內部出錯導致錄入的信息有誤,比如我們上網注冊一些信息時,出于隱私考慮,用戶會故意輸入不正確的信息,包括年齡、地址、手機號等。 三是在數據傳輸的過程中出現錯誤。比如,超出了傳輸緩沖區的大小,數據會出現截斷等現象。最后一種是命名約定、數據代碼、輸入字段的格式不一致導致出錯。其中,最常見的是:不按格式輸入導致出錯,例如輸入字段為日期時,多個用戶輸入日期的格式不一致。

1.2 完整性

完整性是指信息具有一個實體描述的所有必需的部分。在傳統關系型數據庫中,完整性通常與空值(NULL)有關。空值是指缺失或不知道具體的值,可能是一條記錄中的某個屬性缺失,也可能是整條記錄都丟失。

不完整的數據對數據分析會產生影響,比如考慮構造一個預測交通事故發生率的模型。如果忽略了駕駛員的年齡和性別信息,那么除非這些信息可以間接地通過其他屬性得到,否則模型的精度可能是有限的。這種情況下,我們就需要盡量采集全面的數據信息。

1.3 一致性

數據一致性是指在數據庫中,不同表中存儲和使用的同一數據應當是等價的,表示數據有相等的值和相同的含義。

比如表1描述學生的基本信息,包括學號、姓名、性別、出生日期和所在專業,而所在專業必須從專業信息表獲取。表2描述了專業的基本信息。從這兩個表可以看到,表1中的學生李想所在的專業號并沒有出現在表2中,說明該條記錄的專業號有誤,必須修改正確,才能保證兩張表對應字段的正確性,這是數據的邏輯不一致。 數據不一致還體現在記錄的不規范上,比如兩個表中對日期的格式記錄不一致,如20100405和2019年4月5日這兩種格式,會導致在數據集成中造成數據沖突。

另外在數據出現冗余的情況下,數據內容由于各種原因比如并發控制不當,或程序故障導致前后數據不一樣也是造成數據不一致的原因。

2 從應用的角度劃分質量問題

2.1 相關性

數據的相關性是指數據與特定的應用和領域有關。與數據相關的應用場景一般有,比如進行數據挖掘或構造模型預測時,需要采集相關的數據。例如考慮構造一個模型,預測交通事故發生率。如果忽略了駕駛員的年齡和性別信息,那么除非這些信息可以間接地通過其他屬性得到,否則模型的精度可能是有限的。這種情況下,我們就需要盡量采集全面的相關的數據信息。

另外一個相關性的質量問題表現在相同的數據,在不同的應用領域中,相關性也是不一樣的。例如,對于某個公司的大型客戶數據庫,由于時間和統計的原因,顧客地址列表的正確性為80%,其他地址可能過時或不正確。當市場分析人員訪問公司的數據庫,獲取顧客地址列表時,基于目標市場營銷考慮,市場分析人員對于該數據庫的準確性滿意度較高。而當銷售經理訪問該數據庫時,由于地址的缺失和過時,對該數據庫的滿意度較低。

2.2 時效性

數據的時效性是指有些數據會隨時間而變化的,這些數據收集后就開始老化,使用老化后的數據進行數據分析、數據挖掘,將會產生不同的分析結果。 如商品推薦。顧客的當時購買行為或Web瀏覽行為稱為快照,它只代表有限時間內的真實情況。如果數據已經過時,則基于它的模型和模式也就已經過時,所以進行商品推薦需要采集當前的數據進行分析和推薦。在這種情況下,我們需要考慮重新采集數據信息,及時對數據進行更新。

另應用場景是城市的智能交通管理。以前沒有智能手機和智能汽車,很多大城市雖然有交管中心,但它們收集的路況信息非常滯后。用戶看到的,可能已經是半小時前的路況了,那這樣的信息就沒有什么價值。但是,能定位的智能手機普及以后可就不同。很多用戶開放了實時位置信息,做地圖服務的公司,就能實時得到人員流動信息,并且根據流動速度和所在位置,區分步行的人群和汽車,然后提供實時的交通路況信息,給用戶帶來便利。這就是大數據的時效性帶來的好處。

3 從用戶的角度劃分質量問題

3.1 可信性

數據的可信性由三個因素決定:數據來源的權威性、數據的規范性、數據產生的時間。例如新浪微博某一用戶發布的微博內容是否具有可信性,首先確定數據來源是否具有權威性,如果是權威機構的數據,那么可信度比較高。如果微博字數較長且敘述比較詳細,可信度也會增加。同時微博的發布時間是否接近實時,也影響數據的可信度。

3.2 可解釋性

數據的可解釋性,也稱為可讀性,是指數據被人理解的難易程度,如果數據具有解釋性或包含有注釋性信息,而且數據書寫規范,則數據的可解釋性越高。相反如果數據晦澀難懂就根本不具備分析的條件。

當我們在數據采集和處理時能處理好這六種數據質量問題,則在大數據分析中,就會得到正確及實用的信息。

參考文獻

[1]朱慧明.大數據背景下電商運營課程教學改革研究[J].現代商貿工業,2019,(32).

[2]張余丹.大數據時代在線教育平臺商業模式淺析[J].現代商貿工業,2019,(21).

猜你喜歡
數據庫用戶信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
數據庫
財經(2017年2期)2017-03-10 14:35:35
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
數據庫
財經(2016年15期)2016-06-03 07:38:02
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 亚洲综合日韩精品| 老司机精品一区在线视频| 国产成年女人特黄特色毛片免| 日韩在线播放中文字幕| 这里只有精品在线播放| 久久国产热| 亚洲综合专区| 婷婷99视频精品全部在线观看| 人人澡人人爽欧美一区| 欧美激情综合一区二区| 亚洲国产成人久久77| 成人无码区免费视频网站蜜臀| 国产视频只有无码精品| 制服丝袜无码每日更新| 成人午夜视频免费看欧美| 精品無碼一區在線觀看 | 亚洲区视频在线观看| 红杏AV在线无码| 99热这里只有精品5| 欧美综合在线观看| 国产成人毛片| 少妇高潮惨叫久久久久久| 国产十八禁在线观看免费| 不卡无码h在线观看| 国产真实自在自线免费精品| 免费99精品国产自在现线| 亚洲欧美在线精品一区二区| 亚洲床戏一区| 91偷拍一区| 国产原创自拍不卡第一页| 四虎亚洲精品| 亚洲日韩国产精品综合在线观看| 亚洲一级毛片| 99久久精品国产综合婷婷| 国产精品香蕉| 婷婷在线网站| 国产免费怡红院视频| 亚洲熟妇AV日韩熟妇在线| 91丝袜乱伦| 国产精品尤物在线| 国产情精品嫩草影院88av| 日韩专区欧美| 亚洲自偷自拍另类小说| 国产精品刺激对白在线| 亚洲精品国产综合99| 99re热精品视频国产免费| 欧美另类图片视频无弹跳第一页| 亚洲日本中文综合在线| 免费99精品国产自在现线| 九色在线观看视频| 国产精品免费入口视频| 2020国产精品视频| 国产喷水视频| 精品久久香蕉国产线看观看gif| 免费高清a毛片| 国产成人AV综合久久| 扒开粉嫩的小缝隙喷白浆视频| 国产极品嫩模在线观看91| 久久国产亚洲偷自| 伊人久久大线影院首页| 日韩AV无码免费一二三区| 亚洲成人www| 久草性视频| 高清码无在线看| 欧美不卡在线视频| 国产精品自拍合集| 国产成人区在线观看视频| 91精品免费久久久| 国产高潮流白浆视频| 国模视频一区二区| 日韩乱码免费一区二区三区| 午夜视频www| 国产AV无码专区亚洲A∨毛片| 亚洲伊人天堂| 国产精品亚洲一区二区三区在线观看| 91免费国产高清观看| 99久久国产综合精品2023| 久久国产精品嫖妓| 国产区在线看| 强奷白丝美女在线观看| 91久久性奴调教国产免费| 国产视频你懂得|