黃智敏
【摘要】作為一種戰略資源與生產要素的數據資源正在逐漸成為社會正常運轉的基礎,成為企業的生命線。企業運營效率主要依賴于數據獲取的可靠性和及時性,因此,數據質量成了企業的IT執行官們最關心的問題之一。本文主要研究企業的數據質量管理。首先對數據質量管理的重要性和現狀進行了介紹,指出了企業中存在數據質量問題的普遍性,以及數據質量問題給企業帶來的損失。然后,介紹了數據質量的有關理論,包括了質量管理的發展簡史和數據質量概述,在這部分主要敘述了數據質量的概念以及其他一些和數據質量管理相關的因素。再次,探討了企業現有的數據質量管理的方法及企業數據質量管理中存在的問題,通過對現有方法的分析對比并結合企業數據管理中存在的實際問題,選定全面數據質量管理TDQM,并在此基礎上提出了數據質量管理的框架模型。最后是對該框架的介紹,該框架模型主要建立在數據清洗技術、數據倉庫技術以及全面數據質量管理理論之上,意在解決企業中的數據質量問題。
【關鍵詞】數據;數據質量;數據質量管理
【中圖分類號】F830.49 【文獻標識碼】B 【文章編號】2095-3089(2017)35-0005-02
一、數據質量管理的基本理論
20世紀40年代以前,質量管理的主要方法就是質量檢驗,各個企業一般都設有專門的質量檢驗部門,有一支專門的質量檢驗隊伍,通過檢驗來確保產品的出廠質量。這種方式可以保證出廠產品的質量,但是這是一種事后檢驗把關,質量狀況即成事實,如果全是不合格產品,則必須全部重新制造,難以在生產過程中進行控制。而且這種方式在檢驗時要求全數檢驗,比較費時,也比較費工,成本也很高。這種方式最大的不足是發揮不了一線工人的積極性,不能使他們參與到質量管理的過程中來。到目前為止,質量檢驗任是企業進行質量管理的重要手段之一。要進行數據質量的管理,首先要搞清哪些是數據質量問題。從表面上來看,這個問題很簡單:只要是因為數據質量不高而造成了損失,就可以認為是數據質量問題。但是在實際的應用中,這個界限卻很難劃分。例如,由于缺少某項數據而導致無法得出所需的數據分析結果就不是數據質量問題。那么如何來定義這個界限呢,最簡單的定義是:由于正在使用中的數據的數據質量不高而造成損失,就可以被認為是數據質量問題。這個定義的要點是正在使用的數據,即已經存儲在業務系統中的數據。這個要點指出了與現有數據無關的內容,并不在數據質量管理的范圍內。在實際的應用中,要進行數據質量的管理首先就要區分清楚哪些是數據質量問題。
二、企業數據質量管理中存在的問題
目前企業在數據質量管理中存在的問題,既有管理方面的也有技術方面的。存在的問題有下面一些。
1.數據質量問題范圍劃分錯誤
許多企業在管理數據出現問題時,并不能分清哪些是數據質量的問題。那么什么是數據質量問題,由于正在使用中的數據的數據質量不高而造成損失,就可以被認為是數據質量問題。這個描述為數據質量問題制定了一個前提條件:正在使用的數據,即已經存儲在業務系統中的數據。在實際的工作中,企業的工作人員往往將一些與現有數據無關的內容作為數據質量問題來考慮,如找出現有系統中缺少的數據,這個不是數據質量管理要考慮的范圍,但是在實際中往往會出現這種錯誤。如果企業搞不清數據質量問題的范圍,那么就不可能真正解決數據質量問題。
2.數據質量的判斷標準的問題
數據質量判斷標準是:適合當前使用的數據就是高質量的數據。雖然定義很簡單,但是到了實際的應用中卻是很麻煩。
首先,什么是高質量的數據,不同的人又不同的定義。例如,對管理客戶的聯系信息的人來說,高質量的數據是指準確的地址、郵箱之類的客戶聯系信息;對于客戶經理來說,高質量的數據是指準確的客戶來往記錄;而對于從事科學研究的人來說,高質量的數據是指清晰的描述數據之間的關聯關系。這些事例不僅說明數據質量標準必須根據每一個具體的案例來定義,而且同時也說明數據質量標準都是以滿足應用要求為目標的。所以實際的工作中具體定義高質量的數據時會有一定的問題。
其次,數據質量的標準的制度不僅僅是技術部門的事,也需要業務部門的緊密配合。數據質量標準時技術和業務協作的結果,在實際工作中,不但需要與業務部門溝通,檢查業務規則的合理性和實效性,而且還要與技術部門密切合作,對數據質量業務標準涉及的每一個數據項,都進行數據質量調查,并隨時在兩個部門之間進行溝通協調,才有可能形成最終的數據質量標準。然而很多企業未能意識到這點,在這些企業數據質量標準的制定僅僅是技術部門的工作。
3.數據分散問題
如前所訴,在企業尤其是大型企業中一般存在許多個應用系統,企業的數據可能以多種方式存在于不同的應用系統當中,并且被不同的應用系統所維護。而這些數據中的一些是為多個系統所共享的,但是由于采用的技術和平臺以及數據庫的不同,企業的數據往往是以不同的格式存在于各個應用系統之中的,這就使數據的共享出現了問題。許多企業往往能夠意識到建立應用系統的重要性,但是對于建立一個數據集成平臺以解決數據分散問題的重要性卻認識不夠。這導致了許多企業不能有效解決數據在不同系統之間共享的問題,增加了數據管理的難度和數據管理的成本。
三、數據質量管理框架設計
1.數據質量管理框架的構建
(1)數據質量的六大基本要素是否滿足,所謂六大基本要素是指:
完整性:主要包括實體不缺失、屬性不缺失、記錄不缺失和字段值不缺失
四個方面;
唯一性:指主鍵唯一和候選鍵唯一兩個方面;
一致性:指統一數據來源、統一存儲和統一數據口徑;
精確度:指計量誤差、度量單位等方面的精確程度;
合法性:主要包括格式、類型、域值和業務規則的有效性;
及時性:指數據刷新、修改和提取等操作的及時性和快速性。
(2)如何從用戶視角衡量數據質量,重視用戶對數據的滿意程度;
(3)如何建立基于CWM標準的元數據管理功能平臺,支持數據質量管理,為將來全網共享元數據奠定基礎;
(4)如何建立數據質量監控手段,及時發現、報告、處理經營分析系統數據質量問題;
(5)如何通過建立有效的數據質量管理體系來保障和提升數據的價值。
2.數據倉庫
第一層是本模型進行數據質量管理的關鍵層,該層以數據倉庫為數據的存儲介質,通過存入數據倉庫來改善數據質量,因此在該層中數據倉庫是重點,本節將重點介紹數據倉庫。企業利用數據倉庫,可以在了解商業環境的基礎上來看待生成的信息和事實,接著就可以利用商業技巧以及對該事實的經驗來提取知識,最后企業可以利用所提取的知識作出判斷或決策。企業使用數據倉庫可以更好地支持下面的決策:
(1)利潤增長分析通過研究數據倉庫中的歷史數據來進行歷史趨勢分析,從而了解產品銷售、服務與收益之間的關系。
(2)改變競爭的基礎從數據倉庫的歷史數據中收集客戶信息,從而正確地進行市場定位,更精確、全面地滿足客戶的需要。客戶的滿意能加強他們和企業的關系。這種關系可以使得企業在與其他企業競爭中自身變得更加強大。
(3)客戶關系管理通過數據倉庫的應用,增加對客戶實際情況的了解,可以指導市場部門與客戶保持適當的聯系,避免令人感到厭煩的多余的聯系。
因此在企業的數據質量管理中建立數據倉庫是必要的。當數據從源系統或其他數據來源中提取出來時,應該先經過數據變換,才能將它送到數據倉庫中。對數據進行變換的目的有兩個:首先,改進數據倉庫中數據的質量:第二,提高倉庫中數據的可用性。
3.邏輯層
(1)建立全面數據質量管理環境。這是全面數據質量管理的第一步,也通常是最難的一步。企業應該有專門的數據質量管理部門,負責積極引導企業,從企業文化、企業制度體系、人才培養與訓練系統等方面,為建立全體員工參與的數據質量管理環境創造條件。在建設全面數據質量管理環境時,建設人員應該和其他部門的人員緊密合作,協調溝通有關問題。同時要建立完善的數據質量管理標準,促使質量管理系統建設、使用和管理的專業人員及用戶,能夠在系統設計建設、實施使用和管理的全程,相互協作,共同為提高數據質量而努力。
(2)制定全面數據質量管理的實施計劃。該計劃包括數據質量管理的總體目標和方向;達到目標應采取的方法和策略;測度數據質量管理計劃完成的情況。通過對計劃的管理和對目標的分解細化,保障全面數據質量管理順利地得以實施。計劃實施的前提。
(3)全面數據質量管理措施的實施。實施全面數據質量管理,首先要制定全面數據質量管理的戰略規劃,把握總體方向,并分析確定數據質量需求、確立標準。然后,根據分析結果,找出低質量數據的產生原因,選取適當的時機,制訂可行的數據質量改進方案,并制定每個方案的具體的可執行計劃。最后,選擇相應的改進方案并執行。該過程可以概括為定義、測度、分析和提高。
(4)全面數據質量管理過程的評估。評估能夠使數據質量管理過程不斷優化,數據質量不斷提高。要合理制定數據質量評價指標體系,適時對數據質量進行評估。通過對數據質量問題發生的時間、地點、頻率和種類進行統計分析,回答錯誤發生在哪個環節、哪些錯誤的發生比較頻繁、如何改進數據質量等關鍵問題,對一些嚴重錯誤進行定位,對頻發錯誤進行研究,對管理漏洞進行分析,從而掌握現行數據質量管理過程中存在的不足,研究相應的改進措施,實現管理過程的循環往復和不斷優化。
四、小結
本章所給的數據質量管理框架為三層架構,主要基于數據倉庫和全面數據質量管理思想進行建設,旨在提高企業的數據質量,從而提高企業的效益。模塊之間有一定的聯系,邏輯層和物理層提供第一層的數據質量管理所需的要素。同時模塊之間也是相互獨立,可以直接引入比較成熟和有效的工具,例如數據清洗工具、質量問題分析工具等;而且,對應于企業分層次的質量管理,可以定義不同層次的數據產品及其質量要求,有利于系統的逐步完善。
參考文獻
[1]宋敏,覃正.國外數據質量管理研究綜述[J].情報雜志,2007.
[2]張根保.數字化質量管理系統及其關鍵技術[J].中國計量學院學報,2005.