文/高亮
數據治理:讓數據質量更好
文/高亮
大數據時代數據產生的價值越來越大,基于數據的相關技術、應用形式也在快速發展,開發基于數據的新型應用已經成為高校信息化建設的一個重點領域。當前各大廠商、用戶都在探索與數據相關的開發技術、應用場景和商業模式,最終目的就是挖掘數據價值,推動業務發展,實現盈利。目前數據應用項目非常多,但真正取得預期效果的項目少之又少,而且開發過程困難重重,其中的一個重要原因就是數據質量問題導致許多預期需求無法實現。如果沒有數據治理,再多的業務和技術投入都是徒勞的,因為很經典的一句話:Garbage in Garbage out。數據治理是保證數據質量的必需手段,從全球范圍來看,加強數據治理提升數據質量已成為企業提升管理能力的重要任務。
數據治理是一個系統的、大型的、長期的工程,大型企業已經開始了實施,并取得了一定成果,但目前高校在數據治理方面還沒有開始真正意義上的實踐,究其原因,一方面高校還沒有把數據治理的重要性提升到戰略高度,另一方面沒有將數據治理單獨作為課題研究,沒有形成系統的實施方法論。本文從管理和技術兩方面出發探索適合高校信息化建設的數據治理方法,形成包含組織、制度、標準、流程、安全、技術等內容的數據治理方案,從而打造高校綠色數據生態環境,為數據應用提供基礎保障。

圖1 數據治理與數據管理職能關系
數據治理并不是一個新生事物,可以說,有數據的地方就存在數據治理,只不過隨著數據應用的迅猛發展將它提到了一個高度,作為一個獨立的研究領域。數據治理并沒有標準的、嚴格的定義,概況地講,所有為提高數據質量而展開的業務、技術和管理活動都屬于數據治理范疇。
數據治理的英文是Data Governance,《DAMA 數據管理知識體系指南》一書給出的定義:數據治理是對數據資產管理行使權力和控制的活動集合。數據治理職能指導其他數據管理職能如何執行,圖1說明了數據治理與其他幾個數據管理職能的關系。
數據治理是技術與管理相結合的一套持續改善管理機制,貫穿在數據管理的整個過程中,通常包括了組織架構、政策制度、技術工具、數據標準、流程規范、監督及考核等方方面面,將其他幾個數據管理職能貫穿、協同在一起,讓企業的數據工作成為一個有機整體而不是各自為政。數據治理涉及的IT技術主題眾多,包括元數據管理、主數據管理、數據質量、數據集成、監控與報告等。
僅僅依靠技術手段,以建設系統的方式是難以有效解決數據治理面臨的所有問題。構建數據治理體系是數據治理工作的基礎,為了有序實施數據治理,應采用規劃先行的原則,制定適合高校業務特點的管理流程,選擇可行的技術方案和實施工具,明確數據治理的工作機制和工作內容,穩步推進數據治理各項工作,數據治理體系框架如圖2所示。
戰略:數據治理是在高校發展戰略和規劃的指導下進行實施的,這些戰略和規劃包括業務發展目標、IT規劃以及數據治理相關的發展規劃。
機制:機制是數據治理工作實施的基礎保障,通過組織、制度、流程的建設和執行得以落實。機制是數據治理工作的重點,數據治理執行效果就是機制落實的效果。
專題:數據治理專題是數據治理的工作內容,包括數據標準、數據治理、元數據、主數據、數據生命周期等方面。
實施:數據治理工作最終在相關制度、規范和流程下通過數據治理組織借助技術手段和管理手段來實現。包括系統開發階段為提高數據質量進行的校驗設計;系統日常運維工作;數據分析應用階段的數據集成;數據質量監控等。
管理措施
1.提高全面思想認識
毋庸置疑,數據是高校的寶貴資產,各高校已經意識到數據質量的重要性,但是并沒有將數據治理提到戰略高度,信息化建設的重點仍然是應用系統建設和運維。數據治理是一個系統工程,需要管理層、系統開發人員、系統使用人員、系統維護人員多方協作才能進行。目前最大的問題就是各方人員對數據治理的認識還處于盲區,他們并沒有意識到數據治理的重要性,因此數據治理首先要從上到下全面提高思想認識,保證在系統建設、系統運行、系統維護各個環節都能重視數據治理。
2.成立數據治理組織
健全的數據治理組織是全面開展數據治理工作的基礎,數據治理組織應包括管理人員、業務人員和技術人員,缺一不可。數據治理組織可以設置三種角色,數據治理委員會、數據治理業務組、數據治理技術組。

圖2 數據治理體系框架
數據治理委員會:由校領導、IT部門負責人和業務部門負責人組成,負責制定數據治理的目標、制度、規范、流程、標準等,溝通協調,解決相關人員責、權、利問題,推行數據治理文化。
數據治理業務組:由業務部門業務專家、業務部門系統管理員組成,負責業務系統參數、基礎數據維護,保證系統正常使用;負責審核、檢查、整改業務數據,在數據產生源頭提高數據質量。
數據治理技術組:由IT部門的相關技術人員組成,包括系統開發人員、數據治理人員、數據庫管理員。系統開發人員負責系統數據錄入功能符合數據校驗標準和數據治理標準;數據治理人員負責開發數據質量檢測規則、監控數據質量、批量修改數據等工作;數據庫管理員負責系統數據的備份、恢復、安全、審計等工作。
3.建立數據標準體系
一般來說,信息化建設應遵循標準先行的原則,在應用系統建設初期就應該制定高校內部數據標準體系,保證各業務部門、各業務系統使用相同的數據標準,提高部門間、系統間數據共享能力,避免形成信息孤島。數據標準體系包括數據標準、技術標準、管理標準、數據質量標準等內容,可以成立由業務人員和技術人員組成的數據標準制定小組,負責數據標準體系的制定、維護、宣傳、解釋等工作。
4. 制定數據質量管控規范
由于高校缺乏明確的數據質量管控規范、流程,導致數據治理相關人員職責劃分不清,缺乏專職人員在不同階段對數據質量負責。通過制定數據質量管控規范,使相關人員明確在數據產生、存儲、應用整個生命周期中數據治理包含的工作內容和工作流程,形成校內統一管理體系。為了提高數據治理執行效率,有必要建立數據治理績效考核,檢驗數據治理各個環節的效果。
5. 制定數據安全管理制度
保障數據安全是高校信息化的首要工作,高校應該制定貫穿于數據生命周期的數據安全管理制度,包括數據生成及傳輸、數據存儲、數據處理及應用、數據銷毀四個方面。安全管理制度主要用來規范員工在日常工作中安全地使用數據,并且指導技術人員如何實施數據安全工作。
技術措施
1.構建校級數據架構
高校構建的信息系統以滿足功能應用為主,如果沒有整體數據架構,應用系統就沒有數據標準可參考,不可避免地會出現不同的應用系統使用不同的數據標準和數據庫,導致數據交換、數據共享困難,數據冗余、數據完整性、數據一致性等問題突出。
理想情況下,高校在信息化初期就應該規劃整體數據架構。一個完整的高校數據架構主要包括:數據標準、數據庫產品線、主數據、元數據、數據質量、數據安全、數據交換、數據倉庫。每一部分都需要作為獨立的專題去建設,而且必須是技術與管理相結合的建設過程,最終形成高校全局數據架構。
2.加強信息系統設計
產生數據質量問題的第一個環節就是生成數據的源系統,在數據源頭解決數據質量問題是提高數據質量非常有效的措施。加強信息系統設計和開發可以通過系統功能自動地規避大量數據質量常見問題。具體包括以下三個方面:
細化需求,在需求分析階段增加對數據質量的詳細要求;
加強數據庫設計,使用3NF范式構建業務系統數據模型可以通過數據庫有效解決數據冗余、不一致等問題;
系統開發階段加強數據錄入功能的設計和開發,提高界面友好性和校驗功能,可以有效解決數據完整性、時效性等問題。
3.建立主數據中心
學校內部不同應用系統、不同部門間需要共享數據的現象非常普遍,建立主數據中心不僅能避免各應用系統相互共享數據形成網狀結構,同時能夠保證對外提供準確、一致的數據。一般地,主數據是描述核心業務實體的數據,如教師、學生、科研成果、資產等,這些數據變化相對緩慢并通常跨業務重復使用。這里我們結合實際需求情況擴大了主數據的范圍,凡是需要交換、共享的數據都納入到主數據范圍,形成全校范圍內一致的、完整的、準確的核心業務數據,統一由主數據中心完成對外提供數據的任務。建立主數據中心不僅僅是技術工作,除開發、維護外還需要制定開發規范、管理規范、管理流程,共同規范主數據的使用。
4.搭建數據質量監控平臺
通過搭建數據質量監控平臺可以實現數據質量自動檢查、監控,平臺包括數據質量檢查規則庫、規則執行引擎、數據質量報告、報告推送功能。平臺的核心是規則庫,與業務無關的規則由技術人員獨立開發,與業務相關的規則需要技術人員和業務人員共同確定檢查規則,然后編寫規則腳本。規則執行引擎可以定時批量執行檢查規則,及時發現數據質量問題,將數據質量報告第一時間推送給業務人員,有助于及時糾正問題數據。
5.實施數據安全工作
數據安全實施工作在數據安全管理制度的指導下執行,由技術人員完成,主要包括數據備份、恢復、脫敏、監控、審計等。
數據治理是高校信息化建設中提高數據應用水平和信息化管理水平的有效手段。數據治理是一項長期系統工程,貫穿于整個數據生命周期,不僅需要借助技術手段,更需要完善數據治理制度,包括規劃、組織、機制、規范、流程等,只有全校各級人員高度重視和積極參與,逐步形成數據治理文化,數據治理才能取得成效,數據才能發揮更大的價值。
(作者單位為上海財經大學信息化辦公室)
注:本文由上海財經大學211專項項目,數據倉庫建設(2012330008)基金項目支持
美國將投資3.25億美元開發全球最快超級計算機
美國能源部將與IBM、英偉達和Mellanox合作,在2017年之前投資3.25億美元開發全球最快的超級計算機。這兩款通過GPU(圖形處理單元)加速的超級計算機分別名為Sierra和Summit,將依賴IBM的OpenPower芯片、英偉達最新的圖形芯片Volta,以及Mellanox的高速網絡。后者負責將超級計算機的元件聯系在一起。
Summit將被部署在田納西州的美國橡樹嶺國家實驗室,用于民用和科研用途,也是兩臺超級計算機中性能更強的一臺,峰值計算能力將達到每秒150至300千萬億次浮點運算。
Sierra將提供峰值100萬億次浮點運算的計算能力,并將被部署在加州的勞倫斯利物莫國家實驗室,用于核武器模擬。
Sierra和Summit將遠遠超過美國和全球當前其他的超級計算機。橡樹嶺國家實驗室的Titan目前是美國最強大的超級計算機,計算能力為峰值27千萬億次浮點運算,而全球記錄的保持者、中國的“天河2號”計算能力為峰值55千萬億次浮點運算。
不過,IBM將采取“以數據為中心”的方式。通過將計算能力部署在數據存在的所有位置,IBM表示,這將使數據傳輸最小化,降低能耗。
Sierra和Summit能夠以超過每秒17千萬億字節的速度將數據傳輸至處理器,這相當于在1秒時間內將超過1000億張照片傳送至Facebook。
IBM系統及技術集團高級副總裁湯姆·羅薩米利亞(Tom Rosamilia)表示:“這標志著傳統超級計算機開發方式的轉型,隨著數據傳輸速度的提升,傳統的超級計算機開發方式已經不再具有競爭力。IBM以數據為中心的方式是一種新的實現方法,代表了開放計算平臺的未來,并且有能力應對越來越快的數據傳輸速度。”
(來自cnbeta.com)