谷騫


摘要:打通系統之間壁壘,避免數據孤島。規范數據結構,在已有業務數據的基礎上從實際需求出發建立數據分析和展示平臺,從采集、規范、關聯、挖掘、建模、可視化等方面,充分、有效地利用數據,讓各類數據用通俗易懂的方式描述學校業務發展的歷史、現狀及發展規律,讓學校決策層面和業務管理層面能充分了解業務情況,并獲得關鍵指標的預測和預警信息。
關鍵詞:數據分析;決策分析;數據治理;高校信息化
中圖分類號:TP311? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)19-0031-04
隨著科技日新月異的發展,學校原有各個業務系統功能自身描述實現性高,但除去共有的基礎數據外,彼此之間缺乏擴展性數據的高效互通渠道。大量的擴展性業務數據積累是學校高價值的無形資產,卻長期得不到深入挖掘和有效利用,對于學校的業務分析而言,有必要統合數據,建立業務關聯,深度挖掘數據價值,讓數據發揮應有價值,為學校業務決策提供有效支撐。
1 數據分析必要性
當今時代,科學技術是第一生產力,人才資源是第一資源。高校作為人才培養的重要基地,承擔著非常重要的使命和任務。學校要發展,歸根結底就是科研能力和教學能力的雙面提高。大多數學校為探索發展道路,首選即為調研兄弟院校,學習經驗。然而不同的學校側重點不同,專業發展和經費支持方面有很大的差別。因此根據往年發展經驗,及時找出短板與不足,個性化定制發展方案,才能最大化適應學校實際[1]。
將校園、師生、教學、科研等信息以聚合的圖形方式直觀地展示出來,使決策者能總攬學校的各個關鍵指標,快速發現潛在問題和短板,及時調整管理和教學策略,提升決策質量,引導學校進入可持續良性發展軌道[2]。另外智慧決策系統也通過行為分析,發現學生和教職工的需求傾向和訴求痛點,為師生的校園活動提供便利。
2 數據分析基礎
高校為方便管理,建設了許多業務系統,如教務系統、學工系統、科研系統、一卡通系統等,實現了數字化辦公、學習等[3]。也因此積累了大量的教務教學、科研管理、人才培養等多方面有價值的數據,為數據分析的提供了充足的數據基礎,能夠滿足更高級別信息化的需求,因此建設依托現有的共享數據庫和數據交換平臺的智慧決策系統的條件已經成熟。如何用好現有的數據、激活數據價值,成為下一階段校園信息化建設的目標[4]。如圖1所示。
獲取數據是進行決策分析的核心任務,可以用一下幾種方式來獲取對應的數據:
1)結構化數據采集[5]
結構化數據的采集支持多種數據源,包括數據庫、文件系統、Excel、Xml、LDAP、SOAP/WebService、CSV文件和RSS等各種數據源。支持的數據庫包括DB2、Oracle、MySQL、MS SQL Server、Sybase等各種主流數據庫。
2)網絡數據爬取
網絡信息爬取技術上使用通用的爬蟲工具和框架, 備選有scrapy和pyspider。需要爬取的信息不在校內存儲的數據,爬蟲爬取適合有一定數據量或定時更新的可公共獲取的數據,需要爬取的信息占比較少,也可以通過其他方式獲得,如線下導入。業務場景中可使用網絡爬取采集方式的數據包括:生源質量和生源分析中涉及的各省歷年高考數據、來源學校的信息數據;畢業生滿意度場景中企業關于畢業生滿意度的數據與其他學校橫向比較的畢業生競爭力信息。
3)外部接口數據采集
外部接口數據采集指將校內或校外的通過標準API接口方式開放的數據采集到智慧決策系統內的過程。通用的行業標準接口包括REST API和Web Service。系統應支持外部來源的標準化數據接入,通過動態配置數據源接口地址的方式接入數據,并動態識別接口數據格式,通過配置的方式選擇所需的數據項。
4)線下數據導入
線下數據導入指部分線下業務產生的業務數據通過標準的數據模板導入到系統內的過程,通常由分析業務決定數據導入模板的格式,業務數據按模板格式填充后導入系統中。系統支持以Excel模板的形式導入數據。
線下數據主要是各業務系統未錄入或未及時錄入數據庫的數據,以及數據量較少的公共數據,是ETL腳本采集和爬蟲采集的補充。線下數據錄入并不是系統推薦的數據采集方式,只是在業務系統數據庫建設不完善的情況下的一種臨時解決方案。督促各業務系統完善數據庫建設、最終消除線下數據導入的采集方式是建設本系統的目標之一。
5)網絡設備數據采集[6]
一些場景(如學生預警分析)涉及學生上網記錄、活動范圍、一卡通消費記錄[7]等,需要分析AP、上網行為監控、認證計費系統等網絡設備日志??煽紤]采用syslog或Flume集群等方式對接。
獲取數據之后,通過可視化方法充分展現。才是決策分析的目標和意義所在。在可視化展示時,將有關聯的多個場景放在一起,形成主題,方便決策者及時了解目前科研教學現狀,進而制定出符合發展的規劃和決策。
3 挑戰與解決思路
1)數據標準不一,易造成數據孤島
業務系統在建設初期,主要基于管理者的角度來設計。而業務需求方主要站在自身管理便捷的角度,不會充分考慮數據互聯互通的問題[9],如圖2所示。例如本科生上課系統和研究生上課系統,都需要使用學校教室公共資源。由于承建單位不同,且研究生與本科生教育模式差別較大,兩個系統的課程安排數據結構設計差異明顯。因此造成的后果就是可能會發生上課時間地點沖突。因此必須制定統一的數據標準和規范,在信息化系統建設初期要求按照標準和規范來設計對應的數據結構,方便應用系統采集對應數據,減少數據孤島和人為干預。
2)共享數據庫不完善