任顥 長春財經學院
關鍵字:信息孤島 民辦高校 數據中心
信息化是當今世界經濟和社會發展的大趨勢,對提高企業競爭力至關重要。但是企業的信息涉及面廣,各種應用系統常常不能有效地共享數據,不斷增加的安全威脅對數據的安全性提出了挑戰,急劇增長的數據量使得既有的存儲容量和應用系統難以適應企業的需要。因此建設高可靠、大容量的數據中心十分必要。
對于民辦高校而言,安全問題可能是建校的根本。網絡安全是各類安全保障中尤為關鍵的一環,對于學生的個人信息保護,財務數據的保密,教學成績的維護等起著重要作用。另外,數據孤島的存在,極大地阻礙了工作效率的提升,使得各業務系統仍然要通過傳統的報表,文檔形式進行數據互通,根本無法發揮出系統的最終作用,所以建設新型的數據中心勢在必行。
信息孤島問題一直存在,需要按照一定的思路、方法去逐一打通。
數據具有一定的流轉方向,為了使數據的流向明確,首先要分析各業務系統需要哪些數據作為業務依托、同時產生哪些數據,其中又有哪些數據可以被抽取,要具體到類別,以流程圖的方式表現出來。如,迎新系統數據流轉情況如下:
迎新系統:
接收數據:新生錄取信息(源自招生)、教學機構(源自教務)、寢室信息(源自學工)、學生繳費數據(源自財務)。
產生數據:學號(自身生成)、新生基礎數據(由新生錄取數據獲取)、新生學籍數據(自身分班產生)、新生住宿信息(自身產生)。
推送數據:
推送至教務系統:新生基礎數據、新生學籍數據(上述數據經學籍注冊后,轉為學生基礎數據、學生學籍數據);
推送至學工:新生住宿信息(由宿管系統登記入住后,轉為學生住宿信息);
推送至中心庫:新生報到信息(用于各個地區、分數、學生類型等大數據分析及信息門戶平臺展示)。
在高校中,學生和教師是最主要的兩個角色,一般情況下,會直接定義將人事系統基本數據作為教師基本數據,將教務系統數據定義為學生基本數據,但是以往人事系統在高校,尤其是民辦高校中的應用非常狹隘,人員信息大多登記于Excel表格中,而更具有挑戰性的是相當一部分教師數據是只存在于教務系統中的,這就造成了數據混亂,且極易產生大批量的垃圾數據。因此,第一步,確定教師數據必須以人事系統為準,其余各系統待數據中心建立起來后分別接受被推送的人員數據,這個過程中勢必會引發業務上的陣痛—數據清洗,并且是大量的數據清洗,而通過承受這種短期的陣痛,高校各部門的業務系統會統一享受到數據交互帶來的便捷與工作效率的極大提升。經過數據清洗,確定了教師數據來源于人事系統,學生數據來源于教務系統。
數據源確定好了,各業務系統將第一次接收到數據中心推送的數據,這時就需要對數據的標準化,格式化進行統一的規范。這件事情在實際操作中,不僅有技術上的難度,還會有人為影響的因素。技術方面,要對所有未經統一規劃的數據進行統一化的轉化,由大類到小字段,每個細節都必須顧及到,不僅要對各業務系統相互推送的數據進行規劃,還要對非抽取數據,但是要留存的數據進行統一的標準化就會涉及到人為的因素,因為民辦高校普遍信息化水平較為落后,對于信息化建設方面并無太多想法,再加上以往的工作局限性,很容易就拒絕提供非抽取數據的字段名、類別、長度等等,尤其涉及到本部門的權利問題,故要建立一套規范化,統一化,標準化的數據標準,是需要校領導牽頭,協調相關部門,技術人員專業過硬等等諸多相關因素的。
由于各系統原有數據與標準數據的結構、編碼不同,但又需要數據交換,因此需要制定出一套整理數據清洗、轉換機制。對于不同的數據進行不同的處理,具體可分為以下幾類數據:
針對數據缺失嚴重、可用性極差的數據進行完全清理;
針對數據少量缺失、可用性高的數據進行必要性完善;(規則性補充)
針對不符合標準的數據進行結構、格式對應轉換(代碼、編碼對應轉換)
針對完全符合標準的高質量數據進行集中保存。
具體的數據清洗方式可分為以下幾種:
(1)手工實現:人工檢測所有錯誤并加以改正,當然這種方式只適用于小數據量的數據源。
(2)通過編寫應用:通過編寫應用來檢測錯誤,并加以改正,但是這種方式不太適用于民辦高校,因為清洗數據反復進行,使得所用的程序工作量巨大,而民辦高校少有可以做好此類應用的條件。
(3)某些特定領域的數據問題,比如可以根據概率統計學來查找數據異常的記錄。
(4)與特定的清洗領域無關的數據清洗,這一部分的研究主要集中于重復記錄的檢測以及刪除。
作為數據處理的第一步,首先要梳理系統當中的中、高質量數據情況,根據系統中現有數據類型、格式進行調整,初步規范哪些數據可作為本系統提供的可復用數據(推送其他業務系統數據)及結果數據,對這兩類數據提供不同流轉方式及接口。可復用數據可通過中間庫轉換為統一格式,存儲并向其他數據庫進行轉換、推送;結果數據可在篩查之后進行中間庫轉換,并存儲至中心庫,為之后的數據展示、數據分析奠定基礎。
根據需要應該建立中心庫、中間庫機制:
業務系統復用數據——中間庫
業務系統不良結果數據——中間庫(清洗)——中心庫
中間庫作為數據交換及清洗緩沖地區,以業務系統分類,數據量雜亂,多保存過程數據。
中心庫數據作為數據大數據分析基礎,只保留各系統最終結果數據,推送中的過程數據不進入中心庫。
針對流程性業務數據的突發情況,(例如新教師入職,人事有數據后,接口沒法用,無法推送給其他部門),要多做冗余,經常抽取,頻查日志,防范于未然。另外,對于硬件性的突發故障,沒電查電,沒網查網,要對各種突發事件做到心中有數,處理及時且妥當。
有了規模性的數據,還需要針對數據進行縱向梳理。截止目前所做的打通數據孤島全是縱向整理,即讓業務系統數據流轉起來,對數據的橫向整合,以人為單位,分門別類,對于某位學生整個在校期間和某位教師整個生命周期的所有貫穿在各業務系統中的數據情況進行統一整合,處理,分析,展示。
當數據完善工作完成后,就完成了數據集中轉向數據倉庫的工作,此時的數據倉庫是一個巨大的,有跡可循的完善的存儲池。然后就是大數據分析,以人為單位,使數據倉庫轉換為數據“集市”。根據趨勢分析,數據集市的應用,可以進行個人行為的精準把控,預測。
數據中心對于民辦高校的實際作用非常重大,小至學生的日常行為把控,學校某些消費區域的相關價格調整,教師日常工作的偏好習慣;大至學校未來發展分析,招生招聘缺口把控等等,這些都對于民辦高校有著顛覆性的意義。