沈愛濤


摘要:文章以江蘇農牧科技職業學院數據治理項目建設為例,介紹了基于元數據驅動的數據質量檢測與基于API技術的數據交換在智慧校園數據治理項目中的應用,再結合學院實際運行情況對一些常見問題進行了闡述。
關鍵詞:元數據;數據治理;數據交換;API
中圖分類號:TP3 文獻標識碼:A
文章編號:1009-3044(2024)10-0084-04
1 研究背景
隨著大數據時代的來臨及全國各校數字化校園項目的開展,云計算、大數據、AI等新興技術的普及推廣,高校信息中心也在思考,數字化校園建設的理念也逐漸從面向管理轉為面向服務。高校擁有海量數據已逐漸成為現實,大數據的挖掘和使用必將給高校治理與發展帶來巨大動力變革。提升數據質量,完善數據規劃,建立數據使用規范,健全數據維護和服務流程,確保數據的準確,從而發揮數據的精準預測、決策支持作用,已成為當前高校信息化建設的重要發展方向。
近年來,江蘇農牧科技職業學院的信息化建設獲得了學院領導高度重視,成立了信息化建設領導小組,配備信息化建設專項經費。學院網絡硬件設備、網絡安全設備全面升級換代,強大的信息化基礎設施建設,全面提升了學院網絡運算和連接能力,各類業務系統全面升級擴展,全院信息服務能力和師生信息化應用水平大幅提升;全力建設教育教學一體化平臺,鼓勵引導教師使用教育教學一體化平臺,不斷完善教育教學資源,線上教學服務能力得到了很大的提升;網絡服務環境不斷改善,安全防范能力明顯加強。學院這幾年在教學、科研、管理和服務工作中信息化水平得到了顯著提升用。通過雙高示范校的建設,學院已建成近30個功能相對獨立的部門級應用系統,信息中心牽頭建設了“網上辦事大廳”,為各部門配套建設了100多個碎片化應用,業務系統和辦事大廳的使用方便了師生的業務辦理,提升了學院的信息化水平,同時也累積了大量的數據,形成學院的數據資產,如師生消費數據、考勤數據、教學過程數據、社團活動數據、科研資產數據等,這些數據都是供學院提升教學質量的最為重要的數據,由于這些數據來自多個業務系統,權責不清,還有部分數據有多個源頭,導致數據的混亂和錯誤,信息中心在進行數據統計分析展示前,都需要對這些數據進行大量的校對和整理工作,嚴重影響了信息中心業務人員的工作效率,也未能讓數據成為領導的決策支持。為了更好地讓這些數據發揮它的價值,信息中心需要根據數據標準對數據進行清洗,確保數據質量。
本研究主要解決數據質量問題,圍繞學院的業務系統,通過數據的治理解決數據質量問題、標準問題等,以達到數據的互聯互通的目的,在形成了數據資產的條件下對數據的進一步開放進行相關能力的建設。通過對業務系統數據質量的檢測掃描,得出相應的數據質量檢測報告,依據系統劃分,可以讓決策者直觀感受目前業務系統數據質量問題,然后通過數據治理減少相關質量問題,以此為推進各部門各業務系統數據質量提升的動力。在學院層面數據治理過程中,著重檢測數據治理前后數據質量的變化,將數據質量提升以報告形式呈現。在數據治理過程中構建學院的院本大數據中心,實現學院的數據資產管理私有化和可視化,積累全院各業務過程中面向主題的、集成的、穩定的大量生產數據集合,進而實現對全院所有業務系統的結構化數據和非結構化數據以及歷史數據進行深度挖掘,規范管理與使用,通過辦事大廳對缺項數據提供標準的采集入口。通過報表工具制作數據大屏,將學院數據中心的數據以圖形的方式展示,從宏觀到明細,為領導決策提供實時的、準確的、動態的、多維度的、可管理的分析服務能力。通過大數據服務項目建設,切實解決各業務部門在工作中遇到的實際問題,滿足學院多樣的、個性化的、快速迭代的數據管理與數據使用的需求。
2 基于元數據驅動的數據質量檢測與治理
隨著數字化加速,學院智慧校園建設的不斷推進,數據量呈指數增長,大數據相關技術的出現,在看到了新機遇的同時,對數據治理的需求也在增加,由于學院數據分散、質量參差不齊、數據存儲結構差異大,雖然數據中蘊含大量有價值的信息,但想要挖掘使用,往往需要做大量的數據治理工作,數據治理涉及部門多,工作量大,協調溝通存在一定的難度。同時學院缺乏頂層設計的業務域標準,未覆蓋全院業務數據及分析標準數據,無法支撐高基表分析、高職診改、校情分析等數據應用。同時信息標準缺少數據規則方面的屬性,無法有效地通過現有的信息標準來檢查學院數據的質量情況。
2.1 統一標準,梳理數據全域模型
在高校數據建設解決方案中,針對統一標準問題,提供基于信息標準全生命周期的管理方案,在元數據層面,支持全院業務系統元數據的統一管理,學院管理人員可通過元數據管理工具自己增加、修改元數據標準,并自動同步全量數據模型。也可以通過元數據管理工具比對元數據與全量數據的差異,再對差異進行處理。保證元數據與全量數據庫的一致性。
同時,主數據管理平臺的信息標準管理方案中提供一個自動化代碼對標工具代碼標準比對。系統會自動檢測業務系統的代碼標準執行情況,并提供代碼標準執行情況中與業務系統出現偏差的具體情況報告。幫助學院管理人員對信息標準的執行情況進行有效的監控,及時了解并優化代碼標準或業務系統代碼執行情況。大大地減少了校內管理人員在信息標準維護與管理層面的工作負擔,而且讓信息標準真正的可執行、可監管、可迭代,讓江蘇農牧科技職業學院的信息標準不在虛設。
通過建立全域模型[1],可以全面了解數據的整體情況,包括數據的來源、數據的流動路徑、數據的處理過程、數據的質量等。這樣就能夠更加深入地理解數據,進而更好地進行數據治理和數據應用。為后續數據集成打造基礎,同時也為新業務系統的集成提供良好的基礎。通過信息標準管理平臺,對信息標準的版本變更加強管理,形成版本建設以來的歷史變更軌跡,可以方便地查看歷屆版本信息,核對版本差異,管理中心對版本進行變更后,可以方便地查看變更信息。
2.2 元數據提供統一定義
元數據提供統一定義的方法通常采用元數據建模的方式,通過建立元數據模型來描述數據的屬性、關系和結構,以及數據的來源、用途和安全性等方面的信息。提高數據管理效率,通過統一定義數據資產的元數據,可以避免數據孤島現象,提高數據的可訪問性和可管理性,從而提高數據管理效率。同時也促進數據共享和交換,元數據定義了數據的屬性和關系,使得不同系統和應用程序之間可以更容易地共享和交換數據,從而促進數據共享和交換。元數據可以幫助我們更好地理解和利用數據,從而提高數據質量和可靠性。例如,通過元數據定義數據來源和歷史記錄,可以更好地追溯數據來源,避免數據重復和不一致的情況。元數據管理可以幫助我們更好地管理數據資產,從而降低數據治理成本,并提高數據治理的效率和效果。
元數據提供統一定義的方法可以幫助我們更好地理解和利用數據,從而提高數據管理效率、促進數據共享和交換、提高數據質量和可靠性,降低數據治理成本。元數據通過其強大的解析器將全院所有資源統一定義、統一管理,實現數據資產的有力傳承,同時元數據通過數據關聯將數據應用的蜘蛛網解開,數據的定位變得異常簡單,數據的梳理同樣,數據從哪來到哪去更加簡單明了。血統分析是基于元數據定義的衍生分析功能,比如教師信息統計或全院信息統計,那么通過血統分析我們可以進行數據的回溯,從倉庫事實表到歷史庫到全局庫到前置庫再到人事系統的教職工信息表,簡明易懂。影響分析由從生產開始,即通過該分析可以知道假如人事系統的教職工信息更改了,哪些系統或分析受到影響。
2.3 源頭監控,提升數據質量
權威數據源對學院信息化建設的長期發展有著至關重要的作用[2],同時需要站在全院的層面去進行統一的規劃與管理,在本次數據治理建設過程中提供了在線化的數據流向規劃管理,為學院站在全局管控的視角,對校內的代碼標準流向、全量數據流向的規劃提供圖形化、配置化的管理工具,為后期業務系統集成和建設提供指導。使得“誰產生、誰維護”的原則落到實處,避免造成重復建設,重復維護,數據權責的混亂,導致數據冗余,讓信息中心在信息化建設中始終保持清晰思路,為規范新業務系統建設,實施現有業務系統集成形成“指揮中心”。
學院是一個小社會,對應著這個小社會的每個節點都會有相應的業務系統來協助各個部門、單位來維持其正常的生產、生活的運行。每個節點都會產生自己的數據,這些數據被生產著、使用著,前面提到我們會建立大而全的信息標準,并且會遵循這些標準建設相應的全局數據庫。同時全局庫以后也會建設相應的歷史數據庫再到數據倉庫。數據在產生,數據在流通,環節很多,那么所有的這些環節的數據流通就需要我們對其進行監控,所有流程的運行狀況、流程的運行日志、流程的動態監控都需要進行控制。根據學院數據標準定期對源頭業務系統進行掃描,檢測源頭數據是否規范完整,并生成數據質量報告,提供給業務系統主管部門進一步完善數據,以此來提升數據源頭的數據質量。
2.4 離線數據按數據標準規范采集
離線數據按數據標準規范采集是數據治理中非常重要的一環[3],它可以確保數據的一致性、可比性和互操作性,提高數據的質量和可用性,促進數據的創新和發展。數據采集前需進行需求分析,明確需要采集的數據類型、數據格式、數據來源等信息,確保數據采集的準確性和全面性。數據采集過程中需遵守數據標準規范,確保數據采集的一致性和可比性。例如,數據格式需符合數據標準規范,數據命名需符合數據命名規范,數據質量需符合數據質量規范等。同時還需考慮數據的安全性和隱私保護,確保數據的保密性和完整性。例如,數據采集過程中需進行數據加密、數據脫敏等操作,確保數據不被泄露或篡改。數據采集后需進行數據清洗和處理,確保數據的準確性和一致性。例如,對采集的數據進行去重、格式轉換、數據歸一化等操作,確保數據的質量和可用性。數據采集過程中需記錄數據采集的過程和結果,包括數據采集的時間、采集的數據類型、采集的數據量等信息,以便后續數據分析和管理。
全量數據管理要提供基于無源頭無系統的線下手工數據的導入、導出功能,同時平臺提供基于數據庫表的在線維護功能,實現線下數據的初始化和日常維護。方便業務部分系統還不完善或還未建設時,可以提前把整理好Excel等線下數據導入全量數據庫,便于別的業務系統使用。同時,對于線下需要使用全量數據,可以通過導出功能導出數據,便于線下使用。這些離線數據采集必須規則控制符合數據標準的數據方可導入系統,拒絕不規范數據進數據中心。
2.5 源頭業務系統數據質量檢測
源頭業務系統數據在做抽取前,先根據數據中心數據標準進行數據質量檢測,檢測出的數據質量問題生成報告即時反饋到業務部門進行處理。業務系統處理完成后進行復檢,直到數據質量達標方可進行數據集成,數據質量治理是項長期的過程,需要源頭業務部門的配合,信息中心管理人員通過不斷優化圖形化質量檢測維度、檢測規則,并最終可形成完整的方便業務修正數據的高質量的數據質量報告給業務部門,讓質量檢測變得清晰、簡單,同時也讓數據治理得以落地執行。數據質量管理工具能夠監控并提高數據質量的信息化工具,滿足多種常規化數據治理規則,且具備可插拔式數據質量介入治理,滿足零代碼個性化治理需求,擴展治理范圍,實現數據質量監測功能。通過元數據、數據標準引用和業務系統數據使用要求,為數據治理管理員提供可隨著數據治理范圍的擴大,自主定義檢測規則,然后對全量數據進行檢測。包括但不限于以下幾種:重復數據、空值、日期格式、全角半角、長度不符合規范等。
3 基于Web 頁面的數據交換接口管理
參照全量信息標準建立學院主數據庫,通過API/ETL/ODI/DTS等數據交換工具從學院人事系統、教務系統、教育教學一體化平臺、智慧財務、資產系統、學生管理平臺、OA辦公系統、辦事大廳等業務系統抽取、清洗、導入業務數據到主數據的全局庫,并基于數據庫開發常用基礎數據的標準API接口,如學院組織架構、教職工基本信息、學生基本信息等,從而構建出一個可視管理的基于API接口的數據交換平臺,為用戶提供數據申請、數據使用、數據加密、數據監控等一站式數據共享服務。接口調用與使用監控,如圖1 所示。
3.1 基于 Web 頁面拖拽的數據集成
基于 Web 頁面拖拽的數據集成平臺,并能夠與數據治理平臺的信息標準、元數據無縫對接,集成界面可以根據元數據設置顯示中文語義描述,大大降低了數據集成工作的技術壁壘。支持各類常用大數據、關系型數據、API接口數據、文本數據、消息數據、非結構化數據的在線數據集成、交換。所有數據集成接口的開發定制均在Web端通過拖拽實現,支持復雜的數據集成流程編排,無需編碼。通過統一瀏覽器訪問提供數據線上集成服務,使用人員無需在本地安裝任何插件或客戶端。充分考慮學院數據的特性,支持數據復制建表,支持批量生成接口,支持元數據信息、數據模型、數據資源、數據血緣、數據集成過程日志雙向同步,支持批量生成數據接口,支持人工智能自動構建數據字段映射等,大大降低了數據交換時間和運維成本,自動記錄所有集成過程和數據操作。接口配置與管理,如圖2所示。
3.2 可視化的API 接口運行管理與監控
接口管理的核心是將數據庫中的數據以數據API 集市的形式統一管理、統一發布,自助式、自動化地為學院信息化建設提供松耦合數據服務[4]。系統支持數據管理員在平臺上對接學院數據中心、業務系統庫,將不同類別數據源以統一的API接口方式對外開放使用,統一管理API分類和數據集市的內容,數據管理員發布的接口類型包含但不限WSDL、REST、文本文件、應用分析類等類型。統一數據開放管理平臺可以為學院業務部門提供各類場景的數據資源開放與共享,根據數據使用規范[5],數據API接口服務需要遵循“申請→審核→發布→使用→監控”流程,使數據使用規范化、流程化,便捷化,從而提升數據服務質量和降低部門使用數據的難度。平臺將數據按照數據集市的方式進行組織,并封裝為API接口,為學院提供各類業務、主題相關數據API接口,利用并行計算能力幫助應用層完成計算密集型任務,計算模型可供多個應用共享,降低數據利用的技術門檻。包括數據分析API、業務模型API、數據上報API、計算模型API、質量檢測API、主題分析API等,為應用開發提供統一、標準的數據支持。面向有數據查詢需求的相關人員(老師、學生、院系信息化秘書、臨時數據需求人員等角色)提供數據在線查詢、申請、審核、監控服務,面向數據開發需求人員(第三方廠商、業務部門管理人員、各類校內IT系統開發群體)提供開放的數據集市,同時支持服務開發者在線按需、自助申請各類數據API 接口,以支撐各自信息化建設需求,同時平臺會面向數據管理者、部門數據管理員(信息化管理員、各部門數據審核人員)提供數據API接口的全方位審核、監控、管理服務,最終以數據服務大廳作為窗口,為不同角色的人員提供精準的、便捷的數據服務(服務內容包括多種類型的數據API、各類數據應用API和統一數據開發所提供的能力API) ,實現數據開放與共享服務自動化對接。
4 結束語
通過項目實施前后數據質量對比,元數據驅動下的數據治理在江蘇農牧科技職業學院取得了不錯的效果。實現了數據應用對主數據管理平臺和業務系統數據質量的反饋、全數據應用閉環,即實現數據采集、數據交換、數據治理、數據服務、數據應用的數據聯動,實現通過數據采集、數據交換實現信息產生和共享,數據治理提升數據質量,高質量數據支撐數據應用,數據應用反饋數據質量問題并通過數據采集和交換修正數據問題,提升數據質量,從而形成數據產生、數據質量和數據應用的數據生態閉環。讓數據治理不再單獨局限于技術人員使用,而是讓所有使用數據的人都能夠參與數據治理過程,記錄數據消費者所提交的數據質量問題,通過元數據和數據血緣直接反饋至數據產生源頭,整個過程可記錄,實現全民數據治理。數據源頭的數據質量得到了明顯的提升,整體提升了學院數據中心的數據質量,確保了各類數據分析為領導決策提供數據支撐。希望文章能夠對正在從事智慧校園建設的同行提供一定的借鑒和參考。
參考文獻:
[1] 張荃,陳暉,王海濤.智慧校園數據平臺架構及數據治理系統設計[J].電信快報,2019(10):38-43.
[2] 王曉靜.大數據技術在高職院校智慧校園數據中臺建設中的應用[J].電子世界,2020(9):116-117.
[3] 陳剛.高粘度、超融合、輕便型智慧校園建設模式探討[J].軟件,2020,41(10):273-274,285.
[4] 葉青霖.大數據時代高校智慧校園的建設[J].中國多媒體與網絡教學學報(上旬刊),2021(8):33-35.
[5] 王珂,王小軍,郝喆,等.基于數據治理的智慧校園建設路徑[J].信息技術與信息化,2021(9):127-130.
【通聯編輯:朱寶貴】