(河南工業大學 信息化管理中心 河南 鄭州 450001)
學校在建立信息化初期,起步早,建立了大量的業務部門應用系統,例如教務系統、財務系統、圖書館管理系統等,在為各部門的工作提供高效處理手段的同時,為師生帶來了便捷的信息化服務。但是隨著信息化技術的增強,原有的信息化建設格局已不能更好為師生提供優質服務。主要體現在:
(一)存在信息孤島現象
學校的各業務應用系統之間相互獨立,達不到相互之間通信的要求,在信息的管理上有所重復,數據無法實現實時更新[1]。對同一個數據,各個系統提供的統計數據不完全一致,信息和資源無法高效共享。
(二)存在數據誤差和信息不對稱現象
學校各業務系統建立初期是為了滿足單個部門需求,在進行數據庫管理中,只對本部門相關信息進行著重管理,缺少矯正數據的手段,其他部門難以獲取需要的數據。因此,很難形成完整的信息鏈條[2],無法為學校為單位提供正確的、完整的信息,一定程度上制約了工作效率。
(三)存在數據利用效率低下現象
學校各業務部門有大量的數據,只能在個別業務部門之間流轉,不能夠在全校做到梳理、整合與分析,不能對管理層的決策提供有效支撐。
因此,亟需在當前信息化建設的基礎之上,謀求新的突破與創新,引入更為先進的校園信息化服務理念,構建一套可持續發展的信息化服務體系[3],提升信息化服務水平。根據以上問題建立的數據挖掘分析系統,采用面向數據交換[4]、面向消息交換、面向服務交換、面向文件交換的方式[5],打破各個業務應用系統信息之間的孤島狀態,連接各業務應用系統,匯集各應用系統教育管理全量數據,構建跨部門、跨系統的數據分析系統和展現平臺。
大數據技術推動著各級各類組織機構決策方式和治理模式,數據挖掘分析系統在高校綜合治理中遵循J2EE標準體系,采用面向服務架構(SOA),以服務總線(ESB)為內核,以消息中間件(MQ)為數據傳輸總線,融合ETL、WebServices、XML等技術的分布式應用系統平臺,通過域模式進行數據交換網絡的構建與管理,采用“發布——訂閱”機制,以松耦合的方式實現各種不同類型(結構化、半結構化、非結構化)海量數據安全、高效和可靠地集成與交換,對各業務應用系統之間的數據進行共享集成,為用戶提供全局視圖、全局數據權限視圖和完善的教育數據交換服務,解決各業務應用系統之間的信息孤島問題,為統一信息門戶、數據挖掘與分析等數據類應用系統提供堅實的數據基礎。(見圖1、圖2)

圖1 系統技術方案示意圖

圖2 系統整體架構邏輯圖
(一)規范標準,進行數據交換集成
數據治理體系具體實施分為五大部分:定標準、整數據、管資源、通服務和建應用。依照國家、教育部和行業標準為規范,找到適合本校發展的信息化建設規范體系,逐步的建立完善各業務系統之間數據交換的規章制度,讓學校的信息化建設有章可循,從底層數據出發,保證整個系統的標準化建設、可持續化發展、可擴展行原則,進而保證信息化建設的穩定推進,建成以大型分布式數據交換平臺為基地的數據挖掘分析系統,應用到高校綜合治理中去。實現異構數據通信與資源共享,構建統一數據中心的建設,梳理異構數據源,建立數據通信通道,自動集成其他各個業務子系統的數據信息,實時數據交互,通過數據交換平臺為所有的業務系統提供統一的數據來源,對數據交互的過程進行監控。(見圖3)保證數據的正確性的同時,提高數據的穩定性,以及計算能力,提高各業務部門用戶的使用感受,進而推進學校信息化建設,為信息化建設建立了良好的基礎。

圖3 系統數據交換邏輯圖
(二)科學分類,開展數據挖掘分析
挖掘分析系統根據數據庫中不同類型主題例如學校基本情況、師資情況、科研情況、教學情況等和學校的不同層次按照校、院系、專業、班進行分類,建立多維數據模型,采用在線數據分析引擎進行鉆取、上卷、切片、切塊,采用數據挖掘引擎進行關聯分析、分類、聚類,通過各種形式適合的圖表形式進行數據的展示。主要分為學生主題分析、教學主題分析、資產圖書主題、人事主題分析、科研主題分析、后勤主題分析、學生預警、上網分析和個人數據服務等九大模塊。
1.學生主題分析。
包括各種圖形、表格形式,以專業、年齡、性別、民族、政治面貌、學歷、生源地等不同維度展示在校生情況,歷年各專業學生數量、歷年各學科學生數量、歷年學生年齡分布、歷年學生來源地區分布、歷年學生民族分布等分析統計。歷年錄取分數分析、完成計劃情況分析、來源學校分析。預留就業統計分析,分學院分專業學生獎懲助貸數據對比統計。
2.教學主題分析。
從平均成績、方差、均方差、中位數等多方面數據反映各院系各專業的學生成績,通過綜合成績、綜合績點成績找尋全校及各學院的學霸學生名單;不同專業中課程科目的成績排名以及歷年變化情況;不同專業中課程科目的掛科率排名以及歷年變化情況;考生考場違紀分析,多發考場違紀的課程排名、學院排名、專業排名;歷年考試違紀數據預測多發違紀的考試場次;橫向對比展示各學院的理論學時與實踐學時的比例。按教學課時量對各學院、專業進行排名。
3.資產圖書主題。
按照設備來源、設備類型、設備購置、設備儀器維修等方面統計分析;全校及各學院的設備價值生均投入比;分院系持有大型儀器價值與數量對比;大型、貴重儀器清單及使用單位利用率;藏書類別、圖書分類、館藏類別分類統計;歷年圖書資金投入統計分析;各類圖書利用率、流通率,借閱頻次排名;圖書借閱高發時段;圖書借閱量各學院排名統計。
4.人事主題分析。
支持各種圖形、表格形式,以專業、年齡、職稱、性別、民族、第一學歷、最高學歷、是否雙師等不同維度展示教職工信息;支持教職工總量情況、教職工職稱情況統計分析;畢業院校、雙師教師、最終學歷、專業背景等方面分析教職工學緣結構;畢業院校的類型與地緣屬性分析教職工地緣關系;從文理背景、文化背景、專業背景、學科分類背景展示學校及各院系師資隊伍建設水平。
5.科研主題分析。
科研機構概況、科研人員基本情況、科研項目基本情況、科研成果基本情況以及科研經費使用情況,分部門縱向、橫向比較;按照成果級別、獲獎級別分學院科研成果縱向、橫向對比;按照獲得獲獎成果、科研論文、科技著作、專利、科研項目數對各科研單位和個人排名統計;超期科研項目統計、最近兩年獲得省級以上的科研項目成果情況。
6.后勤主題分析。
宿舍入住率分析、宿舍出入分時段統計、宿舍樓入住統計、學生宿舍入住明細分析、各學院學生宿舍分布、宿舍各院系入住組成占比統計。就餐人數統計、餐廳月消費分析,分時間段統計就餐次數,各卡機消費情況統計,學生消費按餐廳排序,生均每月消費額等;各購物點人數統計、月消費分析,學生消費按購物點排序等,個人每餐消費額等。
7.交叉、預測分析。
學生成績與圖書借閱相關性分析、學生成績與圖書館進出次數相關性、學生成績與早餐次數相關分析、教職工職稱與科研成果相關性分析、今后2年科研產出預測、教職工來校年份與科研成果相關分析、引入人才方式與科研成果相關分析、不同學科科研成果產出分析、資產投入與科研產出比、教學任務量與科研產出分析、學生成績與教師課程以及職稱相關性、低消費學生與助學金發放的交叉分析。學生疑似未住宿預警、學生疑似不在校預警、學生晚寢晚歸預警、學生低消費預警、學生預警每月關注TOP10、學生預警趨勢分析、學生就餐高峰、洗浴高峰預警、學生學業預警。
8.上網分析。
上網時長分析、上網時段分析、上網次數分析、分學院上網行為分析、分專業上網行為分析等。
9.個人數據服務。
教師數據全景分析。教師工作時間軸、教師工資增長曲線、收入預測、學生班級成績分析、學生大學生活全景展示、學生關系網、學生軌跡分析。“我的大學生活”應用,每年學生畢業后針對畢業生開放的應用,從學生在校生活的多個方面來展示給畢業生他的大學時光。
(一)實現資源共享,建成智能環境。
以先進的網絡技術為支撐,將教學、科研、管理和校園生活整合到一起,形成一種新型智能化環境。為了實現將數字化校園中各個應用系統的緊密聯結,保證資源共享、信息共享、信息傳遞和信息服務。
(二)優化綜合治理,輔助科學決策。
將管理和業務流程再造,作為制度創新、管理創新的重要內容之一。提供可定制的、智能化的綜合數據分析應用,為各種決策提供最基礎的數據支撐,實現科學決策。
(三)提供綜合服務,探索創新模式。
數據挖掘分析系統能夠為師生提供一系列綜合信息服務,不僅滿足教師的日常辦公需求,還可以探索出師生感興趣的信息化服務。結合信息化技術的不斷革新和發展,不斷的滿足學校信息化建設之路。有了該系統的支撐,學校可以進行更加科學化的數據梳理,整合已建成的信息化資源,充分發揮信息帶來的便利服務。