文/高亮
上海財經大學實施主數據管理 高效發掘數據價值
文/高亮
高校信息化經過多年發展,學校各類核心業務都建立了相應的管理信息系統,日常業務運作已經離不開信息系統,而且不同管理部門及業務的相互協作越來越多,需要不同管理系統聯動的情況也越來越普遍,很少有系統能夠獨立于其他系統而運作。在大數據背景下高校也正在逐步邁入智慧校園時代,但是由于高校信息化規劃相對落后、建設思路不同、實施廠商眾多、開發技術多樣等等原因,數據孤島現象依然很嚴重,各業務系統在相互聯動、協作方面還存在很多困難,未能形成有機整體從而充分發揮信息化優勢。由此產生的問題普遍存在于各高校信息化建設過程中,也是一直困擾信息化從業人員的棘手問題,比如:缺乏數據標準、數據源頭不唯一、數據不一致、數據無法共享使用、上報數據困難、對外口徑不一致、各系統交互形成網狀結構增加運維難度和工作量等等,這樣也就導致信息系統雖然產生了很多有價值的數據,但是無法深度利用,更無法產生更多價值,僅僅完成了最基本的支撐日常業務運作任務。
以上所有問題產生的一個主要原因在于缺乏有效的主數據管理,本文從管理和技術兩個方面詳細介紹在高校如何有效實施主數據管理,從而能夠更好地推進高校信息化建設。
主數據(MD Master Data)是信息系統中描述核心業務、實體并且在不同業務系統間共享使用的數據,共享是關鍵詞,它們分散在各業務系統中,是企業內部能夠跨業務、跨系統重復使用的高價值數據。一個機構有很多業務系統,每個系統又有很多數據,那么如何去鑒定哪些是主數據呢?可以用一個簡單的原則去區分,凡是需要在不同業務系統間進行交互和共享使用的數據都可以稱之為主數據,比如教師基本信息就是高校的核心主數據,因為教師基本信息是很多業務系統中都要使用的關鍵數據。主數據具有準確性、一致性、集成性、共享性、高價值等特點,其范圍和內容無法一次性完成定義,需要根據業務需求逐步擴展完善。主數據通常需要在整個業務范圍內保持一致性、完整性、準確性和實時性,為了達成這一目標,就需要專人采用專業管理工具或平臺進行主數據管理。

通過主數據的定義可以總結出主數據的主要作用:1.在企業內定義完整的全局業務實體;2.保證核心業務實體數據的準確性、實時性;3.為業務系統提供共享數據,保證數據一致性。
主數據管理(Master Data Management,簡稱MDM )描述了一組規程、技術和解決方案,它們用于為所有利益相關方(如用戶、應用程序、數據倉庫、流程)創建并維護業務數據的一致性、完整性、相關性和精確性。主數據管理的關鍵就是“管理”,主數據管理不會創建新的數據,它將業務系統中各類主數據進行歸集和整理,納入到統一管理平臺,進行統一編碼、發布和更新,自動、準確、及時地為使用方分發數據,并對數據進行驗證。主數據管理涉及部門廣,牽涉系統多,實施難度大,需要管理措施和技術手段相互結合才能有效地推動項目開展,取得成效。
管理措施
1.提高數據共享意識
目前信息化環境中存在數據孤島、數據源頭多、數據不一致現象的主要原因是沒有進行數據共享,根本原因是數據共享意識不強,沒有將數據共享意識提高到足夠的高度。因此,為了走出目前由數據問題造成的困境,首要問題是從上到下、從管理層到一線人員提高數據共享意識,首先要有開放的心態,數據是全校公共資產,應該與所有相關部門、業務共享使用;其次,在建設業務系統時如果需要跨業務的數據,應該考慮通過共享手段從準確的數據源頭來獲取數據,堅決杜絕另起爐灶再維護一份新數據,本系統只需維保本業務領域的數據即可。
2. 改變數據共享模式
目前高校信息化建設中數據共享思路已經基本普及,但是共享模式多種多樣,由此也產生了很多問題,如:數據接口重復開發、數據接口維護復雜、系統間相互共享數據形成網狀結構、系統間耦合程度高等。為此,應該建立專門的主數據管理平臺,維護標準的數據接口,提供統一的數據共享方法,為不同應用場景、應用需求提供不同數據接口,斷絕業務系統間的引用關系,各業務系統只與主數據平臺有關系,形成數據共享星型結構。
3.技術部門統籌管理
不論是企業還是高校,主數據管理、數據共享在整個信息化環境中是一盤棋,開發、維護和管理又具有一定的技術門檻,因此需要由技術部門站在全局角度去統籌規劃和管理,同時成立專職技術小組去開發、維護,這樣既可以避免重復建設,又可以避免業務系統間共享數據的情況再次發生,同時又能全局掌握主數據使用情況。
4.定義數據管理規范
主數據的流暢運作離不開規范的約束,配套的規范制度應該隨著主數據管理平臺的建設而一起制定。規范按使用對象分為對內和對外兩部分,對內的主要供主數據開發、維護、管理人員使用,側重技術方面的要求,具體包括開發技術規范、日常運維管理規范等,技術人員需要清晰掌握主數據平臺有哪些主數據、來自于哪、為哪些用戶提供了服務、每一種主數據有哪些共享方式等方面的內容;對外的主要供數據使用方使用,具體內容包括主數據申請、審核批準、下發使用、注銷停用、安全等方面內容,數據使用方需要向數據主管部門(數據屬于業務部門的資產)說明使用目的并獲得同意,主數據平臺管理員才能對其授權使用,用戶在使用中需遵循數據安全等方面的要求,不得對外泄露數據。
5.落實數據維護職責
主數據對準確性和及時性的要求不言而喻,所有的主數據都來源于業務系統,主數據管理平臺本身不產生、不修改主數據,這就有必要明確數據維護責任和要求,業務系統管理員應該及時維護數據,保證系統提供高質量的源數據。
技術手段
1.構建校級主數據平臺
主數據管理平臺一定是一個全局性平臺,統一管理全校的主數據和數據共享,平臺架構如圖1所示。
平臺的核心是數據抽取層、數據存儲層和數據分發層,按數據內容和性質主數據可以分為三類:代碼數據類、基礎數據類、交易數據類,代碼數據類一般指各類數據字典,基礎數據一般是數據量相對較少、變化相對緩慢的用于支撐其他業務活動開展的核心數據,如教師信息、學生信息等,交易類數據一般指數據量較大、產生較快的業務數據,如一卡通交易流水、學生課表、學生成績等。數據分發層完成對外提供數據的功能,根據應用場景選擇具體的工具及技術方法。

圖1 主數據管理平臺架構
2. 定義主數據模型
定義主數據模型包括識別主數據實體、識別主數據屬性、識別主數據關系等幾個環節。一個主數據模型就是對一個業務、實體的準確全面描述,主數據模型在結構關系上并不復雜,主要由實體和描述實體的屬性組成,不同主數據之間通過邏輯主外鍵來產生關系。主數據模型不應直接依賴于具體應用需求,準確、完整地描述業務實體即可,設計時要充分考慮模型的標準性、通用性和擴展性。不同模型之間要劃清界限,盡量避免模型重疊導致不同模型存放同樣的數據,每一個模型針對一類應用場景,不能期望一個模型滿足所有需求。定義一個主數據模型不可能一次性完成,定義之初先確定該主數據所要描述的業務含義,然后參考現有數據共享需求填充屬性,后續再根據新增需求逐步擴展、完善。這其中一定要注意數據粒度問題,同一類數據,不同粒度就是不同的模型,比如一卡通消費明細和一卡通月匯總就是不同的模型,雖然匯總數據可以由明細數據生成,但最好還是單獨定義。
3.主數據命名規范
主數據存儲在數據庫中需要有規范的名稱來標識以便于理解和使用,建議主數據名稱采用英文三級形式命名,具體約束如下:
第一級表示數據存儲形式,T代表數據庫表、V代表視圖、MV代表物化視圖;
第二級表示主數據來源或業務領域,統一使用源系統三位英文簡稱;
第三級表示數據內容,如果數據內容無法用一個單詞完整描述可以采用下劃線命名方式,單詞可以用全拼或縮寫,保證名稱長度不超過數據庫限制即可。
主數據名稱形式:數據存儲形式_業務域簡稱_數據內容描述。例如,教師基本信息主數據可以定義為:V_HRS_ EMPLOYEE_INFOR。
4.主數據提取分發
主數據管理平臺的第一個任務就是使用數據集成工具將分散于各業務系統的源數據按主數據模型抽取到存儲主數據的數據庫中,抽取過程完成分散數據的整合和異構數據源的同構。抽取過程中可對源數據進行邏輯轉換或計算,比如做一些值映射、衍生一些新的屬性字段等,但不得修改源數據,主數據開發完成后需要進行測試、校驗,確保抽取過程進行關聯、轉換的正確性。數據抽取可以使用ETL工具Informatica、ODI、Kettle等,也可以編寫存儲過程。由于不同數據共享需求對實時性要求不同,可以根據具體需求對不同的抽取任務設置抽取頻率。對于一些標準類的線下數據,一般變動較少,維護頻率較低,如果沒有相應的管理系統,可以一次性導入主數據管理平臺,后續在主數據管理平臺中進行簡單維護。
主數據管理平臺的另一個任務就是為數據使用方提供數據,可以采用主數據平臺主動推送和使用方主動提取兩種方式。開發工具可以采用ETL工具,也可以在業務系統和主數據庫間建立DBlink進行讀取,對于第三方用戶建議封裝成Webservice供其調用。這其中要注意兩個問題,一是訪問安全性要求,比如為了主數據庫的安全,不允許建立DBlink,或者不允許直接訪問數據庫;另一個是數據實時性要求,這依賴于主數據的抽取和分發頻率。由于應用需求存在差異性,使用方拿到數據后可以進行再次加工,如只挑選需要的屬性,或者擴展屬性等。
5.主數據平臺監控
主數據平臺的穩定運行離不開完善的系統監控,主要包括數據共享功能監控和數據質量監控兩個方面。功能監控主要監控數據抽取和分發任務是否正常執行,對于異常情況要第一時間給系統管理員發送報警信息。主數據管理平臺本身不產生數據質量問題,為了保證共享數據的有效利用,有必要對主數據相關的業務數據進行數據質量檢查和監控,對于發現的數據問題還是回歸到源頭去解決。數據質量監控具體方法可以參考中國教育網絡2016年1月文章《利用數據質量規則庫推動數據質量管理》。
主數據管理是目前解決數據孤島、實現數據共享比較好的方法,也是數據治理的一個重要環節,但是搭建主數據管理平臺是一個長期、復雜的過程,涉及組織架構、管理流程、技術攻關等多方面內容。本文基于上海財經大學主數據管理項目的實施過程,從管理措施和技術手段兩個方面詳細介紹了實施主數據的幾個重要環節,為高校信息化建設提供一些參考。
(責編:楊燕婷)
(作者單位為上海財經大學信息化辦公室)