文/王珊珊 陳云 韓婷
質量檢測體系淘出優質數據
文/王珊珊 陳云 韓婷
根據“進去的是垃圾,出來的也是垃圾(garbage in garbage out)”這條原理,為了使高校信息系統建設取得預期成果,就要求信息系統提供的數據是準確的、規范的、完整的。
信息由數據構成,數據是信息的基礎,數據已成為高校信息系統建設的重要組成部分和信息化進程中的重要資源,是學校的血液。低質量的數據將導致業務流程阻塞、管理成本增加以及決策困難等一系列問題。根據“進去的是垃圾,出來的也是垃圾(garbage in garbage out)”這條原理,為了使高校信息系統建設取得預期成果,就要求信息系統提供的數據是準確的、規范的、完整的。如果數據質量得不到保證,信息化進程的實施就根本不可能達到預期效果。因此,為保障信息系統正常運行、提升高校信息系統的實用化水平、滿足用戶對信息化和數據的需求,就必須重視數據質量問題。通過構建完善的數據質量管理體系,提升數據質量,進而推動高校的信息化進程。

1.數據質量定義
在不同時期, 數據質量有不同的概念和標準。在過去,國際上關于數據質量的標準基本上是以提高數據準確性為出發點。但是隨著質量含義的不斷延伸, 對數據質量概念的認識也從狹義向廣義轉變, 準確性不再是衡量數據質量的唯一標準。數據質量的高低必須從用戶使用的角度來看, 即使準確性相當高的數據, 如果時效性差, 或者用戶不關心, 仍達不到質量的標準。總體來看,現代數據質量概念主要包括以下幾個方面: 一是注重從用戶角度來衡量數據質量, 強調用戶對數據的滿意程度;二是數據質量是一個綜合性概念, 需要建立一套有效的數據質量管理體系,從多角度來評價數據的好壞。
2.數據質量影響因素
在數據的生產和處理中, 任何一個環節的問題都會對數據質量產生負面影響。影響數據質量的因素有很多,主要包括管理因素和技術因素:
(1)管理因素:業務數據定義不清、概念混淆會導致數據錄入錯誤;數據標準缺失會影響數據的規范性;數據維護權責不明導致數據多部門維護與重復采集。此外,在信息系統使用過程中,用戶操作不當會造成數據質量問題;同時,用戶會在業務流程上關注較多,關心數據的流向,對數據本身質量重視不夠, 認為數據只是信息處理過程中的副產品。
(2)技術因素:各個信息系統在實施過程中,大多只注重自身的數據處理能力,很少考慮與其他系統的數據兼容性;另外由于程序設計與校驗不嚴,使得數據輸入問題產生且未被發現,導致信息系統數據質量問題,比如數據元素定義不清、數據輸入格式缺乏校驗、數據存在冗余等;有些數據項在設計時缺乏縝密的結構化處理,為了開發方便,采用“備注”字段,造成數據使用麻煩;有些數據缺少更新時間、維護人等補充屬性,導致回頭查找、確認數據時,沒有任何支撐數據可用。
3.數據質量標準
在進行數據質量評價時, 根據具體的數據質量使用需求對數據質量評價指標進行相應的取舍。對于高校來說,數據目前主要用于信息查詢、共享與支撐決策,數據質量可以著重從以下幾個方面加以衡量:

表數據質量衡量
1.管理策略
在信息系統的建設過程中,應建立科學有效的數據質量管理人員體系,將數據質量管理以制度化、規范化的方式落實到數據生成、傳遞和使用的各個過程和人員之中。
(1)領導要重視信息化建設中數據的重要性和問題的迫切性,充分認識到數據質量對學校各項工作開展的作用,把數據質量的改善問題作為一項戰略性任務來對待。
(2)從整體上進行全面數據質量管理:建立完善的數據質量管理制度,確定數據質量管理的流程;建立完善的數據認責制度,確保數據在每個環節的質量;建立一套穩定的數據質量檢測體系,從而使及時地發現數據質量問題;
(3)成立專門組織負責數據管理工作,責任人落實到各個系統業務主管,制定數據質量標準與規范,開展數據質量監控,如果發現有質量問題及時通報,從而保障數據質量改進的有效推行。
(4)提升信息系統管理和操作人員的技術水平,保證基礎數據采集階段的數據質量。同時,在數據采集時盡量采用“第一手”錄入原則,讓有相關信息本人進行修正完善,不經過管理員“二手”錄入,減少數據錯誤。
2.技術手段
對數據從獲取、共享、維護、應用的每個階段, 采用信息技術,提升數據質量。
(1)數據獲取階段,加強各業務系統在數據錄入時的格式、非空等數據校驗,保障數據錄入的完整性、準確性和惟一性;
(2)數據共享階段,構建數據中心,規范管理主數據,并對外部系統提供統一的、開放的、標準的調用接口,進而保障各業務系統中主數據的一致性、完整性、實時性、安全性和準確性。
(3)數據維護階段,可采用信息技術開展數據質量規則識別、數據質量檢測、提交質量報告和數據質量問題處理等一系列活動,此過程是個循環管理過程,只有形成一個有效的數據質量管理的改進閉環,才能發現問題及早糾正問題。最大化利用數據資源。
(4)數據應用階段,搭建數據倉庫,在基礎數據采集后及時對數據進行數據抽取、轉換和清洗等預處理,避免數據“污染”的衍生和擴散,同時確保基礎數據的可用性質量。

圖1 數據質量管理組織架構
上海財經大學在經過多年信息化的建設,已經完成了教學、學生、人事、科研、財務、資產等業務系統的建設,積累了大量的數據,在系統實施過程中,發現某些數據質量問題對系統運行、數據集成、數據分析產生了影響,因此,為提升數據質量,學校采取的措施如下:
1.搭建數據質量管理組織架構
2008年上海財經大學構建了數據質量管理組織體系。體系核心為校領導,負責數據質量全面管理與控制;信息化辦公室負責數據質量管控的具體執行,負責在技術層面對數據質量進行控制與監管,例如制定數據標準、開展數據質量檢測、保障數據安全等;各院系部門IT關鍵崗位及系統管理人員負責梳理與確定業務規則,及時處理相關業務系統的數據問題;系統終端用戶負責在源頭上保障系統的數據錄入質量。
2.采用信息技術提升數據質量
(1)加強數據質量校驗
無論是自主研發還是與第三方合作研發的信息系統,均需遵循數據錄入校驗規則,包括數據類型校驗(字符型/數字型/日期型等)、數據長度校驗、空值校驗、重復性校驗等;此外,充分定義業務數據標準,并作為信息系統數據錄入的可選項,保障數據錄入的規范性和準確性。



(2)構建數據質量檢測體系
系統運維階段,通過建立一個有效的數據質量檢測體系,及時發現并修正數據質量問題。數據質量檢測體系如圖2所示。
①信息化辦公室協同業務部門制定信息系統數據錄入與維護規范,目前已完成了人事、科研、資產、辦公自動化等系統的數據錄入與維護規范的制定,并經信息化項目協調會審議通過并發文。
②根據數據錄入與維護規范確定數據質量檢測規則,檢測規則是整個數據質量管理系統的關鍵與核心,通過規則的不斷完善與優化,各業務系統的實用化也將逐步提升,數據質量提升也會得到階段性的提升。
③基于數據質量規則,通過不同的配置策略,運用信息化手段對業務系統的靜態和動態數據進行實時監控和定期檢查,以便及時發現并處理問題數據,提高業務系統的數據質量水平。
④執行數據質量檢測后,按業務對象、按規則模型展現問題數據,以報表、儀表盤等多種展現方式對具體數據質量檢測結果進行展現,同時通過鉆取分析功能,直接從指標數據下鉆到基礎數據,直觀看到影響指標的問題數據明細清單,如圖3所示。
⑤業務部門需參照檢測結果,對問題數據進行處理,以盡快消除異常數據,保證系統數據質量,盡可能減少問題數據對工作造成不利影響。
(3)構建數據中心與數據倉庫
根據數據的業務特性和業務需求進行集成、整合、加工,并下發給后續的集市區和下游系統,是數據中心與數據倉庫元數據質量管理的主要內容。使用ETL工具,構建數據中心與數據倉庫,保證用于決策支持的數據是準確而有效的,提高數據共享的準確性以及數據分析的可靠性。目前已完成數據清洗并據此搭建的主題數據中心及數據倉庫包括人事、科研、教學、學生等。
總之,數據質量的改進是一個持續不斷的過程,一方面通過完善數據質量管理制度和流程,對數據進行科學有效的質量管理和質量控制;另一方面通過技術手段實施數據檢查,并通過數據質量管理流程進行改進。上海財經大學在數據質量管理方法上進行了初步探索,并取得了一定的成效,在數據的準確性、規范性、惟一性有所提升,以期為高校數字校園過程中提高數據質量提供參考。
(作者單位為上海財經大學信息化辦公室)