999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)質(zhì)量評估模型探討

2021-08-31 08:05:54譚志遠(yuǎn)宮云平
廣東通信技術(shù) 2021年8期
關(guān)鍵詞:數(shù)據(jù)處理一致性質(zhì)量

[譚志遠(yuǎn) 宮云平]

1 引言

隨著大數(shù)據(jù)處理技術(shù)的蓬勃發(fā)展,基于海量數(shù)據(jù)的存儲、處理、挖掘分析得到了充分的技術(shù)保障,基于海量數(shù)據(jù)的挖掘分析結(jié)果將直接影響企業(yè)的決策和市場競爭,而數(shù)據(jù)質(zhì)量的好壞將直接影響數(shù)據(jù)挖掘分析的結(jié)果,劣質(zhì)的數(shù)據(jù)將可能給企業(yè)決策和市場競爭帶來難以預(yù)估的傷害。因此為了高效支撐企業(yè)數(shù)據(jù)的價值挖掘,數(shù)據(jù)質(zhì)量的全面評估迫在眉睫。那么我們該從哪些方面對數(shù)據(jù)質(zhì)量進(jìn)行評估,如何體系化的評價所使用數(shù)據(jù)的質(zhì)量是否滿足數(shù)據(jù)挖掘的需要呢?

2 數(shù)據(jù)質(zhì)量管理與評估

數(shù)據(jù)質(zhì)量評估是數(shù)據(jù)質(zhì)量管理的主要內(nèi)容之一,那什么是數(shù)據(jù)質(zhì)量管理呢?參考業(yè)界權(quán)威DAMA(數(shù)據(jù)管理學(xué)會)在《DAMA 數(shù)據(jù)管理的知識體系和指南(DAMADMBOK)》一書中的定義,即數(shù)據(jù)質(zhì)量管理是指通過管理和技術(shù)手段,對數(shù)據(jù)處理全過程每個環(huán)節(jié)的數(shù)據(jù)質(zhì)量進(jìn)行識別、度量、監(jiān)控、預(yù)警等一系列管理活動,并通過改善和提高組織的管理水平提升數(shù)據(jù)質(zhì)量。

結(jié)合DAMA 對數(shù)據(jù)質(zhì)量管理的定義,以及我們實(shí)際工作需要,對于數(shù)據(jù)質(zhì)量管理,我們可以這么理解即在數(shù)據(jù)處理的全生命周期(數(shù)據(jù)生成、數(shù)據(jù)采集、數(shù)據(jù)傳輸、數(shù)據(jù)處理、數(shù)據(jù)使用等)中,通過技術(shù)和管理手段,始終圍繞著數(shù)據(jù)質(zhì)量的提升開展相關(guān)工作。在這個過程中,首先必須梳理清楚,從哪些方面或者維度去識別數(shù)據(jù)質(zhì)量問題,這些問題該如何評估,如何通過一個可以量化的方法或指標(biāo)去評估,在此基礎(chǔ)上構(gòu)建數(shù)據(jù)質(zhì)量評估體系,從而結(jié)合監(jiān)控及告警系統(tǒng)對我們所關(guān)注的評估指標(biāo)進(jìn)行監(jiān)控及預(yù)警。

2.1 數(shù)據(jù)質(zhì)量評估維度現(xiàn)狀

不同單位、組織或個人在結(jié)合自身實(shí)際需要的情況下,提出了不同評估維度(或稱度量維度),如表1 所述。

表1 不同組織/單位提出的數(shù)據(jù)質(zhì)量評估維度對照表

DAMA 提出的數(shù)據(jù)質(zhì)量評估維度主要包括:準(zhǔn)確性、完整性、一致性、時效性、精確度、隱私(訪問控制和使用監(jiān)控)、合理性、參照完整性、及時性、有效性等。

百度百科在數(shù)據(jù)質(zhì)量管理(DQM:Data Quality Management)中提出的數(shù)據(jù)質(zhì)量評估維度主要包括:完整性、規(guī)范性、一致性、準(zhǔn)確性、唯一性、關(guān)聯(lián)性。

國際貨幣基金組織(IMF)在其通用性數(shù)據(jù)質(zhì)量評估框架(DQAF:Data Quality Assessment Framework)中提出通過相關(guān)性、準(zhǔn)確性、可靠性、適用性、可獲得性等五個維度來評估數(shù)據(jù)的質(zhì)量。DQAF 更注重對統(tǒng)計活動進(jìn)行全面質(zhì)量管理,而我們更關(guān)注數(shù)據(jù)本身的質(zhì)量,但其對過程質(zhì)量的管控值得我們借鑒。

業(yè)界相關(guān)公司提出的數(shù)據(jù)質(zhì)量評估維度,如普元信息技術(shù)股份有限公司在其大數(shù)據(jù)中臺軟件數(shù)據(jù)質(zhì)量平臺中提出采用關(guān)聯(lián)性、正確性、完全性、一致性、合規(guī)性等維度來評估。

2.2 數(shù)據(jù)質(zhì)量評估維度繁多帶來的問題

從表1 可以看出,各組織/單位從不同的出發(fā)點(diǎn)考慮,對數(shù)據(jù)質(zhì)量評估的角度是不一樣的,且差異較大。誠然數(shù)據(jù)質(zhì)量評估的維度越多越能更好、更全面地評估數(shù)據(jù)質(zhì)量的好壞,但是太多的評估維度,給我們實(shí)際操作會帶來極大的不適應(yīng)。主要問題如下。

(1)太多相似的度量名稱,容易混淆,不利于數(shù)據(jù)質(zhì)量評估工作的開展,如及時性與時效性,合規(guī)性、有效性和規(guī)范性等。

(2)部分度量維度其實(shí)際評估目的是一致的,或者在實(shí)際操作中判斷數(shù)據(jù)好壞的手段或方法是類似的,其實(shí)沒必要拆分那么多維度,因此這類度量維度完全可以合并。例如準(zhǔn)確性、合規(guī)性、規(guī)范性、精確度等幾個維度,其目的都是為了判斷數(shù)據(jù)是否準(zhǔn)確,在判斷數(shù)據(jù)是否準(zhǔn)確的手段上,都是基于數(shù)據(jù)處理程序在數(shù)據(jù)處理過程中借助約定好的規(guī)則庫,對數(shù)據(jù)進(jìn)行校驗(yàn)是否符合預(yù)先配置的規(guī)則等。

(3)部分維度屬于主觀判斷無法通過軟件客觀分析,缺乏可操作性。如:合理性、適用性等。

(4)每項(xiàng)評估維度都必須耗費(fèi)資源去評估,在滿足業(yè)務(wù)開展需要的前提下,減少非必要的評估維度。

2.3 數(shù)據(jù)質(zhì)量評估維度的選取

高質(zhì)量的數(shù)據(jù)最基本的要求是所使用的數(shù)據(jù)務(wù)必是客觀真實(shí)情況的反映,數(shù)據(jù)是準(zhǔn)確的、完整的,不同數(shù)據(jù)間相同內(nèi)容表述是一致的,在某些對數(shù)據(jù)時延要求嚴(yán)格的場景還需要評估數(shù)據(jù)處理時延是否是滿足及時性要求。因此,在滿足可操作(能客觀評估,非由人主觀判斷),避免維度命名混淆,合并可基于相同規(guī)則評估的維度的前提下,重新整合上述各類評估維度,僅采用準(zhǔn)確性、完整性、一致性和及時性等4 個維度來評估數(shù)據(jù)質(zhì)量。重新整合并劃分評估維度如表2 所述。

表2 評估維度重新整合表

2.4 數(shù)據(jù)質(zhì)量評估維度的定義

在參考不同組織和單位對數(shù)據(jù)質(zhì)量評估維度及其定義后,結(jié)合現(xiàn)階段大數(shù)據(jù)挖掘分析對數(shù)據(jù)質(zhì)量的要求,重新對數(shù)據(jù)質(zhì)量的準(zhǔn)確性、完整性、一致性和及時性定義如下。

準(zhǔn)確性:指數(shù)據(jù)的準(zhǔn)確程度。數(shù)據(jù)記錄的信息符合業(yè)務(wù)或技術(shù)定義、標(biāo)準(zhǔn)、規(guī)范;數(shù)據(jù)處理過程嚴(yán)格遵循相關(guān)業(yè)務(wù)、技術(shù)定義的規(guī)則,沒有進(jìn)行人為篡改和調(diào)整。準(zhǔn)確性方面的評估指標(biāo),可根據(jù)實(shí)際評估需要制定,如:關(guān)鍵字段合規(guī)率,關(guān)鍵字段非空率等。

完整性:指端到端的數(shù)據(jù)處理過程中數(shù)據(jù)完整程度。主要包括信息實(shí)體不缺失、屬性不缺失、記錄不缺失、字段不缺失等。完整性方面的評估指標(biāo),如:文件數(shù)完整率,記錄數(shù)完整率,時間粒度完整率(如:某天中各小時的數(shù)據(jù)是否完整)。

一致性:指在業(yè)務(wù)定義一致性的情況下,關(guān)聯(lián)數(shù)據(jù)間的邏輯關(guān)系是正確和完整的,差異原因可解釋、可追溯。主要體現(xiàn)在各系統(tǒng)遵循企業(yè)或行業(yè)數(shù)據(jù)規(guī)范標(biāo)準(zhǔn),同一信息主體在不同系統(tǒng)中相應(yīng)信息屬性是相同的;業(yè)務(wù)定義相同的信息主體原則上在跨專業(yè)系統(tǒng)的取值是相同的,差異原因可解釋、可追溯。一致性方面的評估指標(biāo)如:某字段的關(guān)聯(lián)率,字段值在參考數(shù)據(jù)中的覆蓋率等。

及時性:指數(shù)據(jù)處理的及時程度。主要包括在規(guī)定時限內(nèi)(滿足相關(guān)規(guī)范或業(yè)務(wù)處理要求),完成數(shù)據(jù)的刷新、處理、提供等操作。及時性方面的評估指標(biāo)如:數(shù)據(jù)處理及時率等。

3 構(gòu)建數(shù)據(jù)質(zhì)量評估模型

在開展某項(xiàng)數(shù)據(jù)挖掘工作時,將可能涉及多種類型的數(shù)據(jù),把這些不同的數(shù)據(jù)看成一個數(shù)據(jù)集,在評估這個數(shù)據(jù)集的總體質(zhì)量是否滿足我們業(yè)務(wù)開展的需要,我們可以制定一個KQI(Key Quality Indicators 關(guān)鍵質(zhì)量指標(biāo))指標(biāo)來評估數(shù)據(jù)集的總體優(yōu)良率是否滿足業(yè)務(wù)要求。參考下圖1 所示,把業(yè)務(wù)總體KQI 指標(biāo)再細(xì)分到這個數(shù)據(jù)集中每項(xiàng)數(shù)據(jù)的KQI 指標(biāo),每項(xiàng)數(shù)據(jù)再根據(jù)評估需要逐級向下分解到具體的KPI 指標(biāo)(Key Performance Indicators 關(guān)鍵業(yè)績指標(biāo)),而每個具體的KPI 指標(biāo)由基礎(chǔ)的統(tǒng)計指標(biāo)計算得到。

3.1 數(shù)據(jù)質(zhì)量評估模型

評估模型從層次上劃分為三部分,分別是:基礎(chǔ)性統(tǒng)計指標(biāo)、評估維度指標(biāo)(準(zhǔn)確性、完整性、及時性、一致性)、優(yōu)良率指標(biāo)(含總體優(yōu)良率指標(biāo)),層次關(guān)系如圖1 所示。

圖1 數(shù)據(jù)質(zhì)量評估模型示意圖

3.2 評估指標(biāo)編號規(guī)則

為便于指標(biāo)引用針對圖1 中各層級指標(biāo)進(jìn)行編號(如圖2 所示),把指標(biāo)分成兩級,一級指標(biāo)用一個字母(實(shí)際可根據(jù)需要用能增加識別度的縮寫或其他簡稱,此處僅舉例)代表指標(biāo)的類型(如:A 代表基礎(chǔ)性統(tǒng)計指標(biāo),B代表準(zhǔn)確性相關(guān)的指標(biāo),C 代表完整性相關(guān)的指標(biāo)等),二級指標(biāo)用四位數(shù)字對指標(biāo)進(jìn)行順序編號。如:基礎(chǔ)性統(tǒng)計指標(biāo),可以用A_1001、A_2001、A_3001 等表示。

圖2 指標(biāo)編號規(guī)則

3.3 基礎(chǔ)性統(tǒng)計指標(biāo)

針對各評估維度(如:準(zhǔn)確性、完整性、一致性、及時性等),結(jié)合評估期望,制定其基礎(chǔ)統(tǒng)計指標(biāo),舉例如表3 所示(實(shí)際應(yīng)用過程中,可根據(jù)需要擴(kuò)展,此處僅提供示例)。

表3 基礎(chǔ)性統(tǒng)計指標(biāo)命名舉例(不局限如下指標(biāo))

3.4 評估維度指標(biāo)

根據(jù)前面確定的4 個評估維度,分別制定各維度對應(yīng)的評估指標(biāo)(如表4 所示)。例如:評估數(shù)據(jù)的準(zhǔn)確性,制定“關(guān)鍵字段值準(zhǔn)確率”的評估指標(biāo);評估數(shù)據(jù)的完整性,制定“處理文件數(shù)完整率”和“文件按時間序列完整率”(具體可根據(jù)需要命名);評估數(shù)據(jù)的一致性,制定“數(shù)據(jù)關(guān)聯(lián)率”和“數(shù)據(jù)覆蓋率”;評估數(shù)據(jù)的及時性,制定“文件處理及時率”和“文件處理平均時延”等指標(biāo)對數(shù)據(jù)進(jìn)行評估。

表4 評估維度指標(biāo)應(yīng)用舉例(不局限如下指標(biāo))

3.5 優(yōu)良率指標(biāo)

優(yōu)良率指標(biāo)主要包括:各數(shù)據(jù)項(xiàng)的優(yōu)良率指標(biāo)和數(shù)據(jù)集的總體優(yōu)良率指標(biāo)。數(shù)據(jù)集中各數(shù)據(jù)項(xiàng)的優(yōu)良率指標(biāo)和數(shù)據(jù)集的總體優(yōu)良率指標(biāo),都可以有多種計算方法(如表5 所示),如:平均優(yōu)良率(對各維度指標(biāo)取平均值)、加權(quán)優(yōu)良率(根據(jù)考核或評估側(cè)重點(diǎn),不同維度指標(biāo)賦不同的權(quán)重)、最低優(yōu)良率(多個維度指標(biāo)取最低值),具體可結(jié)合實(shí)際需要選擇不同的計算方式。

表5 優(yōu)良率指標(biāo)舉例(不局限如下指標(biāo))

3.6 指標(biāo)模型應(yīng)用

在實(shí)際開展某數(shù)據(jù)集的質(zhì)量評估時,可參考如上指標(biāo)模型的構(gòu)建方式,根據(jù)評估側(cè)重點(diǎn),選取相應(yīng)的維度和評估指標(biāo)進(jìn)行綜合評估,舉例如下:

總體優(yōu)良率指標(biāo)(Z_0001)=數(shù)據(jù)A 優(yōu)良率指標(biāo)(Y_0001)*權(quán)重A+數(shù)據(jù)B 優(yōu)良率指標(biāo)(Y_0002)*權(quán)重B。其中權(quán)重A+權(quán)重B=100%。

數(shù)據(jù)A 優(yōu)良率指標(biāo)(Y_0001)=權(quán)重1*準(zhǔn)確性指標(biāo)(B_1001)+權(quán)重2*完整性指標(biāo)(C_1001)+權(quán)重3*及時性指標(biāo)(E_0001)+...。其中權(quán)重1+權(quán)重2+權(quán)重3+...=100%。

其中及時性指標(biāo),如:統(tǒng)計A 數(shù)據(jù)文件采集及時率(E_0001)=A_4003/A_2002*100%,其中公式中涉及的基礎(chǔ)性統(tǒng)計指標(biāo)包括:采集文件總數(shù)(A_2002),采集時延符合要求的文件數(shù)(A_4003)。

4 結(jié)束語

本文通過分析業(yè)界數(shù)據(jù)質(zhì)量評估現(xiàn)狀,從實(shí)際出發(fā)依據(jù)可操作性、避免混淆等原則,確定4 個數(shù)據(jù)質(zhì)量評估維度,在此基礎(chǔ)上提出數(shù)據(jù)質(zhì)量評估模型,并結(jié)合實(shí)際應(yīng)用給出模型應(yīng)用示例,希望讀者在進(jìn)行數(shù)據(jù)質(zhì)量評估過程中有所啟發(fā)。

猜你喜歡
數(shù)據(jù)處理一致性質(zhì)量
關(guān)注減污降碳協(xié)同的一致性和整體性
公民與法治(2022年5期)2022-07-29 00:47:28
認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計法*
“質(zhì)量”知識鞏固
注重教、學(xué)、評一致性 提高一輪復(fù)習(xí)效率
ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
IOl-master 700和Pentacam測量Kappa角一致性分析
質(zhì)量守恒定律考什么
做夢導(dǎo)致睡眠質(zhì)量差嗎
質(zhì)量投訴超六成
汽車觀察(2016年3期)2016-02-28 13:16:26
基于事件觸發(fā)的多智能體輸入飽和一致性控制
主站蜘蛛池模板: 亚洲天堂在线免费| 尤物精品视频一区二区三区| 国产一级毛片高清完整视频版| 另类综合视频| 欧美日韩国产在线人成app| 国产成人乱码一区二区三区在线| 九九热在线视频| 国产精品lululu在线观看| 在线99视频| 高清乱码精品福利在线视频| 日韩毛片在线播放| 无码综合天天久久综合网| 综合亚洲网| 国产精品区视频中文字幕| 天天爽免费视频| 2021最新国产精品网站| 亚洲精品中文字幕午夜| 精品国产毛片| 国产成人永久免费视频| 亚洲中文字幕日产无码2021| 日韩在线永久免费播放| 亚洲第一视频区| 日本一本正道综合久久dvd| www.av男人.com| 在线不卡免费视频| 欧美亚洲国产一区| 一区二区三区成人| 日本黄色不卡视频| 理论片一区| 国产欧美精品一区aⅴ影院| 五月天综合网亚洲综合天堂网| 在线a网站| 五月激激激综合网色播免费| 一本综合久久| 欧美综合区自拍亚洲综合天堂| 国产精品网曝门免费视频| 九色综合视频网| 无码中文字幕加勒比高清| 精品国产Av电影无码久久久| 欧美亚洲一二三区| 国产女人水多毛片18| 老熟妇喷水一区二区三区| 亚洲人成网址| 免费高清自慰一区二区三区| 亚洲欧美国产五月天综合| 亚洲成a∧人片在线观看无码| 久久9966精品国产免费| 精品自窥自偷在线看| 亚洲精品无码在线播放网站| 亚洲视频在线青青| 欧美在线网| 国产呦视频免费视频在线观看| 视频二区中文无码| 亚洲欧洲自拍拍偷午夜色无码| 欧美视频在线第一页| 久久精品视频亚洲| 国内熟女少妇一线天| 国产麻豆另类AV| 亚洲精品第一页不卡| 亚洲AV一二三区无码AV蜜桃| 亚洲愉拍一区二区精品| 亚洲国产欧洲精品路线久久| 国产精品太粉嫩高中在线观看| 超碰91免费人妻| 大香伊人久久| 97在线国产视频| 亚洲一区二区三区国产精品| 成人va亚洲va欧美天堂| 91精品久久久无码中文字幕vr| 日韩在线2020专区| 日韩无码白| 久久精品无码中文字幕| 亚洲美女视频一区| 久久综合五月| 久久国产毛片| 中国一级特黄大片在线观看| 成人精品午夜福利在线播放| 亚洲一区第一页| 欧美精品1区| 亚洲黄网在线| 国产网站免费看| 国产欧美日韩一区二区视频在线|