孔令虎,冉 彬,陳 劍
(湖北中煙工業(yè)有限責(zé)任公司恩施卷煙廠,湖北 恩施 445000)
數(shù)據(jù)質(zhì)量是指數(shù)據(jù)在多大程度上是無錯(cuò)誤的,并能夠服務(wù)于預(yù)期的目的。數(shù)據(jù)質(zhì)量管理是指在數(shù)據(jù)創(chuàng)建、加工、使用和遷移等過程中,通過開展數(shù)據(jù)質(zhì)量定義、過程控制、監(jiān)測(cè)、問題分析和整改、評(píng)估與考核等一系列管理活動(dòng),提高數(shù)據(jù)質(zhì)量以滿足業(yè)務(wù)發(fā)展需要??砂凑铡罢l創(chuàng)建、誰負(fù)責(zé);誰加工、誰負(fù)責(zé);誰提供、誰負(fù)責(zé)”的原則界定數(shù)據(jù)質(zhì)量管理責(zé)任,由數(shù)據(jù)流轉(zhuǎn)環(huán)節(jié)的各責(zé)任方對(duì)管轄范圍內(nèi)的數(shù)據(jù)質(zhì)量負(fù)責(zé)。對(duì)數(shù)據(jù)質(zhì)量規(guī)則優(yōu)先采取系統(tǒng)程序的自動(dòng)化控制措施,并盡可能前移管控點(diǎn),從源頭上控制數(shù)據(jù)質(zhì)量[1]。
數(shù)據(jù)質(zhì)量的高低是保證數(shù)據(jù)應(yīng)用效果好壞的前提,是描述數(shù)據(jù)價(jià)值含量的指標(biāo),決定著數(shù)據(jù)價(jià)值的高低。缺少對(duì)數(shù)據(jù)質(zhì)量管理,容易造成臟數(shù)據(jù)、錯(cuò)數(shù)據(jù)、冗余數(shù)據(jù)、信息缺失、標(biāo)準(zhǔn)不統(tǒng)一、信息不能融合、管理責(zé)任缺失,以及糟糕客戶服務(wù)等低劣數(shù)據(jù)品質(zhì)現(xiàn)象,錯(cuò)誤或不充分的數(shù)據(jù)造成的損失是無法估計(jì)的。因此,對(duì)企業(yè)而言,提高數(shù)據(jù)質(zhì)量的需求變得越來越強(qiáng)烈。
良好的數(shù)據(jù)質(zhì)量可以確保數(shù)據(jù)發(fā)揮出高價(jià)值。卷煙工廠由于信息系統(tǒng)建設(shè)的時(shí)間和要求各不相同,數(shù)據(jù)質(zhì)量管理的現(xiàn)狀普遍不夠樂觀,以下是卷煙工廠歸納的一些數(shù)據(jù)質(zhì)量常見問題。如圖1所示。

圖1 數(shù)據(jù)質(zhì)量常見問題
指關(guān)鍵業(yè)務(wù)元數(shù)據(jù)定義不清晰,導(dǎo)致對(duì)同一內(nèi)容理解有偏差。由于各個(gè)信息系統(tǒng)建設(shè)的時(shí)間不一樣,系統(tǒng)建設(shè)方對(duì)業(yè)務(wù)的理解和定位不一致,導(dǎo)致各個(gè)系統(tǒng)中對(duì)同一元數(shù)據(jù)的類型、長度、含義理解都不一致。
指個(gè)別數(shù)據(jù)內(nèi)容出現(xiàn)了異常現(xiàn)象,比如,人的身高超過5米,當(dāng)月卷煙產(chǎn)量超過往年卷煙年產(chǎn)量、卷煙零售價(jià)低于卷煙調(diào)撥價(jià)等問題。
(1)系統(tǒng)間數(shù)據(jù)維護(hù)不一致。由于各系統(tǒng)建設(shè)時(shí)間不同,系統(tǒng)開發(fā)語言和規(guī)范存在差異,為提高數(shù)據(jù)訪問速率和減少數(shù)據(jù)傳輸過程,一份同樣的數(shù)據(jù)往往要在不同系統(tǒng)進(jìn)行存放,這些數(shù)據(jù)如果不及時(shí)進(jìn)行同步或更新,則容易引起這些數(shù)據(jù)內(nèi)容不一致。例如,MES的產(chǎn)品報(bào)產(chǎn)產(chǎn)量和卷包數(shù)采的產(chǎn)量存在不一致的問題。
(2)系統(tǒng)之間數(shù)據(jù)同步時(shí)效性造成的不一致。例如,SAP預(yù)算系統(tǒng)提供的預(yù)算執(zhí)行情況與SAP財(cái)務(wù)系統(tǒng)提供的預(yù)算執(zhí)行情況存在差異,SAP預(yù)算系統(tǒng)的執(zhí)行數(shù)是T+1日從SAP財(cái)務(wù)系統(tǒng)獲取的,而SAP財(cái)務(wù)系統(tǒng)的預(yù)算執(zhí)行數(shù)是實(shí)時(shí)計(jì)算的,由于同步時(shí)間不一致進(jìn)而導(dǎo)致系統(tǒng)間數(shù)據(jù)的不一致。
(1)數(shù)據(jù)域完整性:數(shù)據(jù)值輸入的有效性,關(guān)鍵內(nèi)容是否允許為空值,是否必填內(nèi)容。
(2)實(shí)體完整性:數(shù)據(jù)表中所有的行唯一。
(3)參照完整性:確保數(shù)據(jù)表主鍵(被引用表)和外鍵(引用表)之間的參照關(guān)系一致性。例如,生產(chǎn)計(jì)劃表記錄了計(jì)劃號(hào),但是在計(jì)劃表中無法找到相關(guān)記錄。
數(shù)據(jù)的生命周期是指某個(gè)集合的數(shù)據(jù)從產(chǎn)生或獲取到銷毀的過程,分為采集、存儲(chǔ)、整合、呈現(xiàn)與使用、分析與應(yīng)用、歸檔和銷毀幾個(gè)階段。一般而言,數(shù)據(jù)質(zhì)量決定著數(shù)據(jù)生命周期的長度,數(shù)據(jù)價(jià)值會(huì)隨著時(shí)間的變化而遞減。
(1)業(yè)務(wù)部門參與程度不夠。數(shù)據(jù)標(biāo)準(zhǔn)工作一般由信息部門主導(dǎo),業(yè)務(wù)部門在標(biāo)準(zhǔn)制定環(huán)節(jié)參與度不高,進(jìn)而導(dǎo)致數(shù)據(jù)的業(yè)務(wù)屬性沒有準(zhǔn)確地表達(dá),部分術(shù)語無法表達(dá)業(yè)務(wù)含義,降低了數(shù)據(jù)標(biāo)準(zhǔn)的可讀性、可用性。
(2)數(shù)據(jù)標(biāo)準(zhǔn)周期長、見效慢。由于數(shù)據(jù)標(biāo)準(zhǔn)在制定時(shí)需要盡可能涵蓋企業(yè)相關(guān)業(yè)務(wù)活動(dòng),這樣就容易導(dǎo)致數(shù)據(jù)標(biāo)準(zhǔn)的編制、維護(hù)工作復(fù)雜,數(shù)據(jù)標(biāo)準(zhǔn)管理推動(dòng)力不夠,影響數(shù)據(jù)標(biāo)準(zhǔn)管理工作的后期推廣和應(yīng)用。
基于卷煙工廠存在的6類數(shù)據(jù)質(zhì)量問題,可從以下幾個(gè)方面進(jìn)行數(shù)據(jù)質(zhì)量的改進(jìn)。如圖2所示。
數(shù)據(jù)質(zhì)量需求一般來源于組織的業(yè)務(wù)需要。數(shù)據(jù)質(zhì)量管理工作首先關(guān)注企業(yè)最核心的數(shù)據(jù),確定需要提高質(zhì)量的關(guān)鍵數(shù)據(jù)。這些數(shù)據(jù)往往是企業(yè)最關(guān)注的數(shù)據(jù)、經(jīng)濟(jì)價(jià)值高的數(shù)據(jù)、客戶影響面大的數(shù)據(jù),以及支持企業(yè)部門直接業(yè)務(wù)協(xié)作的數(shù)據(jù)。例如,成品智能物流管理中發(fā)現(xiàn)很多發(fā)貨站點(diǎn)(倉庫)信息是不完整的,因此物流中心針對(duì)物料相關(guān)信息可以提出如下質(zhì)量需求:倉庫信息需要明確具體地址(省、市、縣、區(qū)、街道、經(jīng)緯度)等;發(fā)貨倉庫與到貨倉庫的具體里程、里程單價(jià)。
通過制定數(shù)據(jù)質(zhì)量規(guī)則幫助企業(yè)提高數(shù)據(jù)質(zhì)量,明確企業(yè)數(shù)據(jù)質(zhì)量管理的目標(biāo)、需求、范圍、分法、維度等,對(duì)關(guān)鍵業(yè)務(wù)數(shù)據(jù)進(jìn)行質(zhì)量問題評(píng)估,質(zhì)量問題分析,以及質(zhì)量問題影響分析,確定下一步數(shù)據(jù)質(zhì)量工作的重點(diǎn),形成數(shù)據(jù)質(zhì)量規(guī)則度量表。數(shù)據(jù)質(zhì)量預(yù)警機(jī)制是數(shù)據(jù)質(zhì)量規(guī)則一項(xiàng)內(nèi)容,預(yù)警信息的產(chǎn)生和發(fā)布需要明確定義的流程,數(shù)據(jù)質(zhì)量規(guī)則通常從以下八個(gè)方面開展。如圖2所示。

圖2 數(shù)據(jù)質(zhì)量規(guī)則
(1)準(zhǔn)確性:指數(shù)據(jù)正確表示“真實(shí)”實(shí)體的程度。
(2)完備性:指是否存在必要的數(shù)據(jù)。
(3)完整性:完整性包括與完備性、準(zhǔn)確性和一致性相關(guān)的要求。
(4)一致性:一致性指確保數(shù)據(jù)值在數(shù)據(jù)集內(nèi)和數(shù)據(jù)集之間表達(dá)的相符程度。
(5)合理性:合理性是指數(shù)據(jù)模式符合預(yù)期的程度。
(6)及時(shí)性:指數(shù)據(jù)的更新頻度符合預(yù)期。
(7)唯一性:是指數(shù)據(jù)集內(nèi)的任何實(shí)體都不會(huì)重復(fù)出現(xiàn)。
(8)有效性:是指數(shù)據(jù)值與定義值域一致。
(1)為保證數(shù)據(jù)質(zhì)量,數(shù)據(jù)生產(chǎn)部門須指定專人承擔(dān)導(dǎo)入公司數(shù)據(jù)中心數(shù)據(jù)的數(shù)據(jù)質(zhì)量審核工作,通過對(duì)本部門業(yè)務(wù)數(shù)據(jù)的日常補(bǔ)充、修正、更新和刪除等操作,確保數(shù)據(jù)的及時(shí)性、完整性、準(zhǔn)確性。
(2)數(shù)據(jù)生產(chǎn)部門須建立電子數(shù)據(jù)臺(tái)賬,采集數(shù)據(jù)須嚴(yán)格依據(jù)原始資料如實(shí)反映,數(shù)據(jù)交換完成后,如源數(shù)據(jù)內(nèi)容出現(xiàn)變更,需提前告知數(shù)據(jù)主管部門,以避免數(shù)據(jù)異常。
(3)經(jīng)過數(shù)據(jù)主管部門確認(rèn)后,數(shù)據(jù)質(zhì)量要求公開頒布,數(shù)據(jù)使用部門遵照?qǐng)?zhí)行。
數(shù)據(jù)清洗是指發(fā)現(xiàn)和糾正數(shù)據(jù)文件中明顯錯(cuò)誤的過程,包括檢查數(shù)據(jù)一致性、處理無效值和缺失值等。
對(duì)于卷煙廠中的歷史主數(shù)據(jù)按照最新的編碼標(biāo)準(zhǔn)和數(shù)據(jù)模型進(jìn)行清洗整理。在整理過程中應(yīng)解決數(shù)據(jù)不標(biāo)準(zhǔn)、不完整、數(shù)據(jù)重復(fù)和數(shù)據(jù)粒度不適應(yīng)等數(shù)據(jù)質(zhì)量問題。通過清洗改造,為卷煙廠提供權(quán)威的主數(shù)據(jù)視圖,在卷煙廠內(nèi)保證數(shù)據(jù)的一致性和完整性。
數(shù)據(jù)質(zhì)量驗(yàn)證檢查是根據(jù)數(shù)據(jù)清洗情況與定義的數(shù)據(jù)質(zhì)量指標(biāo)進(jìn)行對(duì)比分析的過程,該過程主要有兩個(gè)目的:一是確定清洗后的數(shù)據(jù)是否滿足定義的數(shù)據(jù)質(zhì)量要求;二是對(duì)數(shù)據(jù)質(zhì)量指標(biāo)合理性進(jìn)行調(diào)整。
數(shù)據(jù)異常值是指執(zhí)行質(zhì)量檢查的數(shù)據(jù)樣本中的個(gè)別值異常,其數(shù)值明顯偏離其余的參考值。異常內(nèi)容檢查可以先對(duì)數(shù)值做一個(gè)描述性統(tǒng)計(jì),進(jìn)而查看哪些數(shù)據(jù)是不合理的。常用的統(tǒng)計(jì)量是最大值和最小值,來判斷這個(gè)變量是否超出合理范圍。例如,標(biāo)準(zhǔn)煙支長度是84毫米,取值一般為70毫米、84毫米、90毫米、100毫米的卷煙,如果該卷煙長度達(dá)到150毫米,則該變量的取值存在異常。同時(shí)也可以根據(jù)異常檢查結(jié)果不斷優(yōu)化檢查規(guī)則。
保證數(shù)據(jù)利益相關(guān)者持續(xù)地參與到數(shù)據(jù)質(zhì)量管理的過程中,例如,數(shù)據(jù)質(zhì)量管理策略和流程的制訂需要聽取利益相關(guān)者的意見和建議,并得到批準(zhǔn),數(shù)據(jù)質(zhì)量需求應(yīng)當(dāng)包含利益相關(guān)者的訴求。數(shù)據(jù)信息操作過程應(yīng)當(dāng)被記錄,并作為改進(jìn)數(shù)據(jù)質(zhì)量管理策略和流程的依據(jù)。
很多企業(yè)希望通過制定相關(guān)管理辦法和考核要求來提升企業(yè)數(shù)據(jù)質(zhì)量,但很少有企業(yè)取得真正滿意的結(jié)果。根本原因在于數(shù)據(jù)質(zhì)量的改進(jìn)是一個(gè)循序漸進(jìn)、逐步調(diào)整和優(yōu)化的過程。好的方式是通過PDCA循環(huán)流程,持續(xù)不斷地發(fā)現(xiàn)問題、對(duì)問題數(shù)據(jù)進(jìn)行檢查、核對(duì)、轉(zhuǎn)換和標(biāo)準(zhǔn)化,最后達(dá)到發(fā)現(xiàn)問題和解決問題自動(dòng)化,從而提升企業(yè)數(shù)據(jù)質(zhì)量,減少數(shù)據(jù)質(zhì)量帶來的成本開銷。從項(xiàng)目實(shí)踐經(jīng)驗(yàn)來看,發(fā)現(xiàn)問題、解決問題、數(shù)據(jù)整合和數(shù)據(jù)規(guī)范化是執(zhí)行流程比較長的工作。
通過對(duì)數(shù)據(jù)質(zhì)量規(guī)則進(jìn)行檢查,找到數(shù)據(jù)質(zhì)量問題的根本原因,這些問題可能來自數(shù)據(jù)規(guī)范、組織與人員、管理制度、技術(shù)等環(huán)節(jié),制訂有針對(duì)性改進(jìn)方案,尤其是要改進(jìn)數(shù)據(jù)質(zhì)量管理制度流程。制定了質(zhì)量管理流程和規(guī)范后,數(shù)據(jù)質(zhì)量管理負(fù)責(zé)人就應(yīng)明確數(shù)據(jù)質(zhì)量管控的目標(biāo),制定目標(biāo)后就進(jìn)入質(zhì)量管控的執(zhí)行階段,并根據(jù)執(zhí)行流程過程中發(fā)現(xiàn)的問題不斷優(yōu)化執(zhí)行過程。
數(shù)據(jù)質(zhì)量管理是數(shù)據(jù)治理項(xiàng)目中一項(xiàng)關(guān)鍵的工作,它決定了企業(yè)數(shù)據(jù)在決策應(yīng)用上的準(zhǔn)確性和確定性。數(shù)據(jù)質(zhì)量管理的目標(biāo)是促進(jìn)數(shù)據(jù)應(yīng)用價(jià)值的充分發(fā)揮,提升企業(yè)經(jīng)濟(jì)效益,可利用大數(shù)據(jù)處理的一些新技術(shù)為質(zhì)量管理賦能,如主動(dòng)元數(shù)據(jù)管理Data Fabric、湖倉一體架構(gòu)等。
結(jié)合卷煙工廠數(shù)據(jù)質(zhì)量存在的問題以及數(shù)據(jù)質(zhì)量管理提升方法,企業(yè)數(shù)據(jù)質(zhì)量管理工作應(yīng)遵循業(yè)務(wù)引領(lǐng)的原則,確定重點(diǎn)質(zhì)量管控范圍,動(dòng)態(tài)調(diào)整階段性管控重點(diǎn)并結(jié)合質(zhì)量管理辦法持續(xù)優(yōu)化??砂凑铡罢l創(chuàng)建、誰負(fù)責(zé);誰加工、誰負(fù)責(zé);誰提供、誰負(fù)責(zé)”的原則界定數(shù)據(jù)質(zhì)量管理責(zé)任,數(shù)據(jù)質(zhì)量管理工作遵循PDCA,對(duì)數(shù)據(jù)質(zhì)量規(guī)則優(yōu)先采取系統(tǒng)程序的自動(dòng)化控制措施,并盡可能前移管控點(diǎn),從源頭上控制數(shù)據(jù)質(zhì)量,為企業(yè)高質(zhì)量數(shù)據(jù)應(yīng)用保駕護(hù)航?!?/p>