喻姣 黃安琪 袁新輝



摘 ? 要:數字經濟時代,數據已定位為電子資產、重要生產要素、基礎戰略資源。高校正以數據為驅動力,充分發揮數據價值,推進教育治理現代化進程。在利用和挖掘數據價值過程中,最基礎的工作是建立一個數據全生命周期管理的平臺,最緊迫和困難的工作是數據治理。文章首先介紹了高校數據工作的背景;隨后提出了“平臺共享、生態共建”的工作思路,從架構及功能兩個方面對數據平臺做了闡述;最后文章重點論述如何利用數據平臺開展數據治理實踐,以期為高校數據工作提供有益參考和實踐借鑒。
關鍵詞:數據平臺;數據交換與共享;數據標準;數據治理
中圖分類號:G647 文獻標志碼:A 文章編號:1673-8454(2021)21-0048-05
一、引言
數字經濟時代,數據已經被定位為電子資產、重要生產要素、基礎戰略資源。如何利用數據來實現管理的精細化、決策的科學化和服務的個性化是國內外各領域研究和探索的熱點。各行業密集出臺各類政策文件,要求加強數據資源管理、推動數據共享與公開、實現數據互聯互通、挖掘數據價值。[1-4]
十三五期間高校信息化建設目標為“數字校園”,建設了大量的信息系統以支撐業務管理。雖然信息化建設成果顯著,但隨之而來出現了許多數據問題,如數據共享不暢、數據質量堪憂、全校協同乏力、數據權責不清、數據服務急缺等。本研究通過實地考察調研和相關文獻統計,總結出當前高校數據工作現狀如下:[5-8]①高校都意識到了數據的基礎性和重要性,已將數據工作作為高校信息化十四五規劃重點內容;②基于“ETL +視圖”建成的數據中心已無法滿足日益增長的數據需求,迫切需要一個數據平臺來管理數據全生命周期,促進數據開放和應用;③數據質量普遍堪憂,因而數據治理是當前最緊要,也是最困難的任務;④數據應用落地場景各有側重點,分別有學科建設、職稱評審、年度考核、導師評選、學生和教師畫像、教學評價等。
中南大學(下文簡稱“學校”)在2016—2019年用“ETL+視圖”將基礎數據集中到數據中心庫,為業務信息系統提供簡單的數據流通服務,但鑒于信息化在學校深入應用情況,數據中心庫模式與學校數據訴求相距甚遠,具體表現在以下兩個方面:①業務部門雖有信息系統,但還是將大量時間用于數據收集、統計和報送,師生被通知登錄各系統或者采用Excel重復填報個人數據;②“用數據說話、用數據管理、用數據決策、用數據創新”的訴求日益增長,而現狀多是耗時耗力組合Excel形成的合計報表,但報表口徑不一致、準確性不高。因此學校管理層、業務部門、師生強烈呼吁盡快開展數據工作。
綜上所述,高校積極探索以數據為核心推進智能校園建設,以期提升教育決策科學化、管理精準化、服務個性化水平。但由于各高校信息化戰略和目標、信息部門職責、信息化進程等情況不同,數據工作沒有成熟可依的數據標準、通用完善的數據平臺和系統性的實施方法。近年相關文獻[5][8-11]的研究主要集中在高校大數據體系框架的構建、數據治理的理論研究等方面,而本研究則著力闡述如何建設一個數據全生命周期管理的平臺,提出了“平臺共享、生態共建”的工作思路(本文中的數據工作是指數據平臺建設和數據治理相關工作),探索出了“分步實施、以用促建”的高校數據治理實踐途徑。
二、數據工作思路
學校數據工作思路為“平臺共享、生態共建”。先建設一個數據平臺,配套平臺建立數據管理責任體系,制定數據管理辦法、數據服務指南、數據治理規范等規章和指導性文件。然后遵照學校文件、利用數據平臺形成全校協同共建的生態,一方面各部門各盡其責與信息部門共同進行數據治理后共享數據;另一方面跨部門、跨業務主題、跨系統的數據優先通過數據平臺獲取,避免重復采集。
數據工作的思路參照互聯網電商模式,如圖1所示,基礎數據平臺建成后主要任務就是開展數據資源的建設,并基于數據資源形成公開目錄。參照商品目錄,數據資源目錄陳列的數據分為學校標準數據和部門共享數據兩類。學校標準數據類比自營商品,是指經過數據治理,確定“一數一源”、進行標準化后在數據資源目錄發布的學校主數據。學校標準數據將定期接受準確性、完整性等質量檢查。部門共享數據類比直供商品,是由業務部門直接在數據平臺上發布供其他單位申請使用的交換數據,此類數據使用頻率較低或者只有特定的業務會用到,除非數據生產單位有特別的要求,否則一般不進行標準化處理和質量檢查。學校標準數據在目錄中標記為校級,管理責任屬于數據生產部門和信息部門。部門共享數據在目錄中標記為部門級,管理責任屬于數據生產部門。
數據資源建設的主體分為數據管理者、數據生產者和數據消費者,其中數據管理者是負責數據平臺建設和數據運營與管理的信息部門,數據生產者是學校生產數據的業務部門,數據消費者是需要使用數據的業務部門。數據管理者、數據生產者、數據消費者三者協同共建,各盡其責,形成學校數據生態圈。
數據管理者主要職能如下:①搭建數據平臺;②在全校范圍內尋找主數據的生產者,然后與其共同完成主數據治理后上架校級產品;③制定數據管理辦法、數據治理規范、數據服務指南等規章和指導性文件,明確數據工作中各方的責任,管理、規范、指導數據生產和消費過程;④建立數據質量評價體系,在上架前和上架后持續對數據進行質量檢查,并督促生產者持續改進;⑤建立數據產品售后體系,根據消費者反饋的質量問題走不同的售后處理流程;⑥建立支撐數據流通的物流體系,根據生產者和消費者約定的發貨時間提供數據的運輸服務等。
數據生產者主要職能如下:①生產高質量的數據并嚴格按照流程上架;②確保定時定量將數據提供給數據平臺;③提供詳實的產品說明書,產品說明書包含數據字段的業務規則和描述、數據使用方法及注意事項等;④做好售后保障,在數據管理員或者消費者反饋質量問題時及時答復,并找出原因及時修正等。
數據消費者主要職能如下:①在數據資源目錄中找尋需要的數據項,仔細閱讀數據項說明和數據樣例后,提出明確的數據需求;②與數據管理員、數據生產者交流,確定最小最合理的數據范圍;③按照管理辦法的流程提交申請,等待管理員的合規性審核及生產者同意后接受供給;④接受在三方約定的供給時間、頻率和范圍內獲得數據的條件;⑤按約定要求使用數據,在使用過程中發現數據問題后按照售后流程反饋。
三、數據平臺介紹
數據平臺主要分為數據層和應用層,平臺架構如圖2所示(虛線范圍內)。
數據層為數據平臺所建的數據存儲環境,包括原始庫、標準庫、主題庫、緩存庫和運行庫。原始庫用于存儲業務系統共享的原始數據,其數據可由生產者在數據平臺注冊發布形成部門共享數據,也可以通過規范流程形成標準數據。標準庫存儲學校標準數據,它由原始庫里的主數據經過清洗、轉換和標準化后形成。主題庫存儲的主題數據,根據經常性的應用需求由幾個學校標準數據表通過聯接、條件組合后形成。緩存庫存儲備份數據,在每次提供數據服務時將每一次推送出去的數據進行備份。緩存庫有著十分重要的作用,不僅能用于計算前后兩輪數據推送之間的差異,將差異進行標記,還能以數據拉鏈表的形式記錄數據的歷史狀態。運行庫為數據平臺的應用支撐數據庫,主要存儲元數據、質量規則、檢測出來的異常數據等。
應用層為數據平臺的功能層,主要功能模塊包括數據共享交換、主數據管理、元數據管理、標準管理、質量管理、系統管理。
1.數據共享交換
數據共享交換模塊起橋梁樞紐作用,它管理各類數據源的有效連接,提供多種數據交換方式,實現數據在不同業務系統間順暢、批量傳輸,還以數據資源目錄為基礎和依據,為數據消費者提供數據服務,并記錄每次服務的詳細情況,例如推送服務數據量、頻率、服務時間等。
數據共享類型根據數據的保密性、重要性、使用范圍等分為無條件共享、有條件共享、保密共享三類。數據平臺根據數據共享類型的不同,支撐不同的服務流程,并配置了對數據字段的加密和脫敏、傳輸過程加密解密、數據僅對授權用戶可見等安全保護措施。
2.主數據管理
主數據是具有高業務價值,在學校內跨部門、跨系統重復使用的數據。它具有唯一、準確、權威的數據源,是代表學校關鍵業務實體(例如教職工、學生、項目等)的可用數據。因此主數據管理不僅需要認證數據源,還要規范維護流程、確定開放屬性、更新周期等。主數據在數據平臺發布,消費者及時通過平臺獲取,從而實現 “一點錄入、多點調用”。[12]
3.元數據管理
元數據是描述數據的數據,用于打破業務和IT之間的語言障礙,幫助業務更好地理解數據,通常分為業務、技術和操作三類元數據。[13]元數據管理中數據字典用來管理所有元數據相關信息,U/C矩陣表達數據項的生產與使用情況,數據地圖呈現學校數據的總體概況,血緣分析實現數據全鏈路可追溯和數據影響分析。
4.標準管理
數據標準是數據在學校層面共同遵守的屬性層含義和業務規則,是學校對某個業務實體對象的共同理解。數據標準包括數據項標準和代碼標準。數據項是數據不可分割的最小單位,數據項標準包含每個數據項的編號及規則、名稱、中文簡稱、類型、長度、約束、值空間、解釋及舉例等。代碼標準用于規范數據項的取值,通過定義取值范圍來限定數據項的取值。代碼應具有一定規律性,易于計算機和人識別與處理,例如校區、機構、學生類別。數據標準管理功能包括數據項、代碼的建立與維護,以及其版本的迭代發布。
5.質量管理
數據質量被定義為“適合使用”[14],即數據適合使用、滿足特定用戶期望的程度。學校從準確性、完整性、規范性、及時性四個維度來描述數據質量,根據這四個維度建立評估體系,采用正向和逆向兩種方式推進質量提升:①主動為校級數據的每個數據項設計校驗規則,定期檢查數據的質量,生成異常數據明細,復核數據問題和校驗規則設置的合理性,最終形成數據質量報告發送給數據生產者;②建立質量反饋流程,消費者發現問題后通過回溯方式來促進數據修正。
6.系統管理
系統管理包括用戶及權限的管理,數據平臺的數據庫資源、任務運行情況等的管理。
四、數據治理實踐
數據平臺建成后,采用“分步實施”和 “以用促建”兩種方法在學校開展數據治理的實踐。
第一種方法是分步實施學校主數據。根據主數據消費需求旺盛程度、主數據管理單位是否唯一和明確、業務數字化水平高低、業務部門數據專業人員配備情況等對學校主數據統籌規劃,分步實施。對教職工、學生、科研項目、教學課表和成績等主數據進行梳理和標準化,第一批發布生成校級的數據資源目錄。
第二種方法是以用促建拉動數據供應鏈條各個節點參與。在第一批學校標準數據入駐平臺后,平臺正式在全校上線并推廣使用,滿足數據消費需求。鼓勵業務部門提交數據申請表,數據管理員收到申請表后確定數據已在目錄中發布,通知消費者直接在平臺訂閱即可,而不在目錄的需求則形成數據消費隊列。數據消費隊列的實踐常見情況可分為兩類:①若消費數據被識別為主數據,數據管理者將協同消費者在學校范圍內尋找生產者,召開三方協調會議達成一致意見后再根據主數據流程與規范實施;②若消費數據僅用于兩個業務系統之間的交換,則由生產者采用發布實時接口和部門級共享的方式上架數據。
在“分步實施”和“以用促建”兩種方法的有效指導下推進學校數據工作,形成規范的主數據和數據標準建設過程,制定數據服務方案。
1.主數據形成過程
任何組織進行數據工作首先專注于主數據。面對學校信息系統上百個、建設程度參差不齊的復雜局面,采取分步實施的方法,一次完成一個業務主題域中的一個核心業務對象,然后逐漸擴大業務對象范圍來進行主數據的識別和數據治理。學校主數據范圍包括人事、教學、科研、財務、資產、學工等業務主題域,其核心業務對象有教職工、學生、課表、成績、項目、論文等。
主數據的形成分為五個過程:①從人事、教學、學工等主題中,基于教職工、學生、課表、成績等業務對象來識別單一數據源及管控組織;②對數據進行分類,規范數據項命名,明確數據項的代碼取值范圍;③針對有爭議、多部門共同管理的業務對象,組織協調會議協商確定,例如通過學生學籍相關數據項確定教務部門為生產者、學生管理相關數據項確定學生工作處為生產者;④基于上述步驟,初步確定質量檢查規則;⑤根據每年度的《高等教育學校統計調查表》《普通高等學校本科教學工作狀態數據分析報告》等學校層面的報表確定指標數據和統計維度。
2.數據標準建設過程
在主數據建設過程中,還有一個重要環節就是同步形成學校的數據標準。數據標準的建設是以國家和教育行業標準為參考,根據現有系統的實際情況,與系統的主管部門共同確定數據項和代碼。每形成一條主數據就能形成與其相關的數據標準,并錄入數據平臺進行管理。學校數據標準既是業務部門信息化建設的數據標準,也是數據的質量檢查標準,還是學校數據報表的統計標準。數據標準經過學校審核后定期迭代發布,從而減少學校眾多信息系統中同一業務實體對象出現模棱兩可或者自相矛盾定義的風險。
3.制定數據服務方案
數據服務是指將數據作為一種產品在平臺上提供,用于滿足學校的消費需求且能提供靈活多樣的服務方式,學校數據服務應用場景如圖3所示。數據服務由數據管理專員進行申請,申請時寫明需求數據字段和用途并承諾保障安全,相關部門審核數據用途的必要性、合理性、合法性。數據管理員收到申請表后根據業務系統情況、數據使用頻率、數據量多少、數據可靠性等因素確定一個最優數據服務方式,包括數據輪詢、接口調用、Kafka和在線查詢。
(1)數據輪詢
數據輪詢是主流的服務方式,適用于數據量較大但對實時性沒有極高要求的場景。學校人事、教務、科研等系統作為主數據的生產系統,不僅需要給數據平臺供應數據,同時還需要其他系統的數據,采用此種服務方式。
數據輪詢方式有三個步驟。
①建立前置數據庫(以下簡稱前置庫)。前置庫是指業務部門必須建立的一個與數據平臺進行有效連接的數據庫環境,由業務部門設立的數據管理專員負責管理并保障安全。
②選擇數據推送方式。推送方式分為全量、增量、增量更新三種。全量:新一輪數據推送時先清空表中原有數據再重新將全部數據加入,適用于沒有主鍵的數據表。增量:數據表應有唯一標識的主鍵,新一輪數據推送時平臺會在緩存庫中找到前一輪推送的數據,根據主鍵逐行進行比對,對新記錄增加一個新增時間和新增標記,多適用于數據記錄不進行修改和刪除的流水表。增量更新:數據表應有唯一標識的主鍵,新一輪數據推送時平臺會在緩存庫中找到前一輪推送的數據,根據主鍵逐行、逐列進行比對,比對完成后對數據有變化的記錄增加一個AUD標記(A新增、U修改、D刪除)和修改時間再推送,多適用于教職工信息、學生信息等主數據表。
③按需選取。數據平臺存儲的是全部數據,例如教師信息表、學生信息表里包含全校所有相關數據。根據“最少使用”原則,數據消費者只允許獲得限定行、限定列的數據。因此在申請和審核時,平臺通過提供編輯條件、選取數據字段來控制共享范圍。
(2)接口調用
接口調用是政府數據開放平臺主流的服務方式,但是在高校應用較少,推行有阻力,主要原因:一是高校業務系統開放的理念和意愿較低,幾乎都沒有形成通用、規范的數據對外接口;二是調用接口要求消費者根據數據平臺的加密解密策略和程序規范定制開發程序,消費者因畏難而拒絕。
雖有諸多阻力,但接口調用相比數據輪詢具有顯著優勢:①數據即調即用;②無需建前置庫,也無需關注數據庫之間網絡權限的開通。接口調用分為API接口和實時接口兩種。API接口是由數據資源目錄中的數據資源生成的一個對外標準數據接口,其調用鏈接為數據平臺網址,數據平臺對API接口統一編號。需求數據量少且不對外共享數據的消費者推薦采用API接口。實時接口是指業務系統直接發布的對外標準數據接口,其調用鏈接為發布者的網址,數據平臺提供接口信息和過程的管理。業務耦合較高、實時性要求高的兩個系統交換數據推薦實時接口。
(3)Kafka
Kafka是分布式“發布-訂閱”消息系統,它主要用于處理活躍的流式數據,常用于大數據系統中在各個子系統高性能、低延遲、不停流轉的數據。將校園卡各類刷卡記錄及時傳送到數據分析平臺形成實時數據統計報表這類應用場景,可采用Kafka的服務方式。
(4)在線查詢
前面三種服務方式都需要具備一定IT技能的人員來完成,而在線查詢適用于IT技能人員缺乏時的緊急數據需求,允許使用者查詢和導出申請的數據。由于導出數據后,無法追蹤數據的去向,存在數據泄露風險,因此一般不推薦。
五、結語
本研究基于學校數據工作的現狀和需求,提出了“平臺共享、生態共建”的工作思路,在該思路指導下建立的數據平臺和開展的數據治理實踐,在學校已落地實施了一段時間,數據平臺已逐漸成為學校信息系統之間的數據流通樞紐,在數據治理的實踐過程中業務部門的主動性和積極性被充分調動,數據質量得到大幅度提升,為學校提供了準確高效的數據服務。
客觀地說,高校是一個非數字原生組織,數據工作是一個長期、漸進、困難、變革的過程。未來的高校數據工作不僅要對信息系統進行改造以實現數據的高標準、高質量生產和管理,還要務實求精地對存量數據進行治理以實現數據共享與應用,更需要根據教學、科研和管理需求推動數據應用落地,這樣才能以數據來驅動創新和改革,推動教育治理現代化。
參考文獻:
[1]新華社.中共中央 國務院關于構建更加完善的要素市場化配置體制機制的意見[EB/OL].http://www.gov.cn/zhengce/2020-04/09/content_5500622.htm.
[2]發改高技[2020]1922號.關于加快構建全國一體化大數據中心協同創新體系的指導意見[Z].
[3]新華網.中共中央、國務院印發《中國教育現代化2035》[EB/OL].http://www.moe.gov.cn/jyb_xwfb/s6052/moe_838/201902/t20190223_370857.html.
[4]教科信函[2021]13號.教育部關于加強新時代教育管理信息化工作的通知[Z].
[5]董曉輝,鄭小斌,彭義平.高校教育大數據治理的框架設計與實施[J].中國電化教育,2019(8):63-71.
[6]吳南中,黃治虎,曾靚,等.教育大數據生態圈構建:“3+3”模型的邏輯與實踐[J].中國遠程教育(綜合版),2019(7):77-85.
[7]羅軍鋒,張亞娟,馮興利.基于高校的數據資產管理模型研究[J].現代信息科技,2020(5):108-111.
[8]余鵬,李艷.智慧校園視域下高等教育數據生態治理體系研究[J].中國電化教育,2020(5):88-100.
[9]宋蘇軒,楊現民,宋子強.智能時代高校數據中心的新內涵及其體系架構[J].現代教育技術,2020(7):81-88.
[10]熊余,儲雯,蔡婷,等.高校教育大數據應用支撐體系的設計與實踐[J].現代教育技術,2020(11):91-97.
[11]王正青,但金鳳.大數據時代教育大數據治理架構與關鍵領域[J].現代教育技術,2019(2):5-11.
[12]華為公司數據管理部.華為數據之道[M].北京:機械工業出版社,2020.
[13]勞拉·塞巴斯蒂安-科爾曼(Laura Sebastian-Coleman).穿越數據的迷宮[M].汪廣盛,譯.北京:機械工業出版社,2020.
[14]Won Kim,Byoung-Ju Choi,Eui-Kyeong Hong,et al.A Taxonomy of Dirty Data[J].Data Mining and Knowledge Discovery,2003(1):81-99.
(編輯:王天鵬)