文/趙澤宇 陳翼 張凱 宓詠
校園大數據實施三階段
文/趙澤宇 陳翼 張凱 宓詠
校園大數據是在信息化校園建設與運行基礎上不斷發展起來的,基本上經歷了數據積累階段、數據展示與利用階段和數據分析與決策階段,最終實現有效服務于學校和師生用戶。
自從互聯網進入Web 2.0時代以來,網絡應用產生了巨大的變化,人們不僅單方面獲取信息,同時也在創造信息,例如人們通過即時通信和社交網絡媒體分享興趣愛好、討論策劃活動,物聯網和移動互聯網則能感知用戶的包括地理位置、行為軌跡等數據,而電子商務提供商可以通過瀏覽、詢價、對比等數據來判斷買家喜好。互聯網保留了網絡用戶發布的大量文本、多媒體內容和行為數據,使得服務提供者們通過挖掘分析,從凌亂紛繁的數據背后能夠找到更符合用戶興趣和習慣的產品和服務,并使得對產品和服務進行針對性的調整和優化成為可能。
“大數據”因此進入業界的視野,其概念指的是所涉及的規模和范圍超越傳統工具和技術手段的能力、不能在合理時間處理并輔助決策的數據,以及在此基礎上衍生的技術和應用。大數據的特征可用5個“V”來描述:數量龐大(Volume)、種類繁多(Variety)、高速產生 (Velocity)、真實準確(Veracity)和價值巨大(Value)。與傳統數據處理的概念不同,大數據強調數據的全面性、半結構化和準結構化等非結構化數據、以及非直接的數據內容是大數據的重要組成部分;大數據是伴隨著用戶行為自然產生的,并非因為需要調查而產生。大數據技術所面對的問題重點并不在于收集和掌握的數據信息有多么巨大,而在于如何對這些數據進行專業化處理,尋找出問題并提供解決的方法。
數據化是大數據的基礎。在信息化校園中,數字化和數據化大相徑庭。“數字化”指的是將業務過程中產生的信息、教學科研所產生的資源或用戶使用網絡的軌跡轉換成電子數據存入數據庫的過程;而“數據化”則是指在數字化的基礎上,利用數據來對事物和現象進行描述,使之能同時被人和計算機所理解的結果。信息化校園大量數據來自于不同來源、數量龐大的結構化與非結構化數據群,大部分都不能直接用于預測和分析。而通過對數據有效的組織,能將大量來自不同源的異構數據量化組合,形成服務成效數據化、業務模式數據化、用戶行為數據化、用戶屬性數據化等在信息化服務中管理者比較關心的數據化形式。數據化是將數據從無序到有序的加工階段,數據化的最終成果是將數據對象屬性量化,構建數據挖掘和服務的基本對象,簡化數據分析和利用過程。例如,基于各種電子資源進行課程、教學資源的“知識化”,以及根據一卡通消費、校園網絡行為識別來標識用戶不同方面的行為和特征都是數據化的具體實現。
校園大數據是在信息化校園建設與運行基礎上不斷發展起來的,基本上經歷了數據積累階段、數據展示與利用階段和數據分析與決策階段,最終實現有效服務于學校和師生用戶。

復旦大學針對學生學分進行的數據挖掘
數據積累階段:在信息化校園建設取得初步成果的當前階段,業務部門完成了基本的業務信息化,能用信息系統來輔助業務的處理、提高工作效率,讓業務部門意識到信息化對提高業務效率的重要性。由于信息系統的使用和共享數據庫的建立,各種業務數據、網絡數據和資源數據被保存下來,形成了一定的歷史信息集合。盡管業務部門和信息化部門還不完全清楚如何能更好地利用這些數據改進流程和提升業務水平,但數據的巨大價值和重要性卻已深入人心。
數據展示與利用階段:在信息化效率提升的條件下,學校的業務部門對數據分析和利用產生了迫切的需求,以期提升業務管理水平。學校的教學和科研部門往往是首當其沖者,數據的整合、梳理、展示和利用是這個階段的主要特征。通過數據集成和整合,形成歷史數據倉庫,建立以服務為目標的數據集市和主題數據庫,以此形成數據展示平臺。通過簡便易用的數據集成和數據展示分析利用工具,有助于業務部門脫離自身單方面業務數據的局限,并跳出相對專業的技術壁壘,立足于全校數據的宏觀層面開展工作。
數據分析與決策階段:數據分析、決策是大數據利用的高級階段。校園信息資源和數據種類、數量極大豐富,從業務數據到網絡數據,從師生日常的學習、工作到生活數據等無所不有。對大數據的分析是對不同數據維度的量化和相關性研究。在這個階段,業務部門深刻體會數據帶來的成效,業務的發展則催生了業務部門對數據的依賴,數據作為核心資產和資源深入人心,人們無法離開數據單獨進行決策,數據處理與分析技術得到廣泛應用并成熟發展。
目前高校大多還處于大數據應用的原始階段,制約大數據的推廣和應用的主要因素包括:
1.大數據的概念很新,所描繪的場景前所未有,很多學校業務部門和校領導對數據的真正價值認識不夠,還未意識到對大數據的分析和挖掘能發現有價值的信息;
2.數據分析和挖掘對專業背景的要求很高,在高校跨業務的數據集中模式下,目前對數據的有效利用需要不同領域的業務人員共同參與,協調和管理成本較高,難以推進;
3.高校業務復雜、特點鮮明,特別是近幾年一直處于改革與發展階段,業務和管理模式還未形成穩定形式,數據產生和數據積累隨意性較大、系統性不夠;從技術層面而言,相關的行業研究剛起步,分析模型還未成熟固定,目前許多分析案例均為零星嘗試,大規模應用還未形成;
4.目前校園信息化數據積累數量和涵蓋范圍還不夠,信息化校園數據中心基本只保存了結構化數據,大量的非結構化數據還未被納入視野;另外數據質量不佳、更新不及時,削弱了數據利用的效果。
(作者單位為復旦大學信息化辦公室)
數據開放與數據市場
1. WWW之父Tim Berners-Lee爵士提出將數據公開并連接起來,以對社會產生巨大價值為目的的共享主張LOD(Linked Open Data);
2. LOD與倡導政府信息公開,特別是數據公開,以及公民參與行政的“政府公開”運動緊密相連;
3.通過政府以LOD形式免費公開數據開展新型服務的創業型公司如雨后春筍般在美誕生;
4.為開展健全的數據流通,開設數據一站式采購平臺“數據市場”,兼容性是難題,可與LOD融合 ;5.應用:
OpenStreetMap(OSM),利用GeoEye公開的高分辨率衛星圖像,繪制海地大地震后的支援地圖
根據提供航班數據,針對某航空公司航班運行情況進行統計
保險業
大數據治理
大數據治理是指制定策略來協調多個職能部門的目標,從而優化、保護和利用大數據,將其作為一項企業資產。大數據治理計劃須解決以下問題:
元數據:創建可靠的元數據。
隱私:嚴格關注遵守隱私方面的問題,例如利用社交媒體進行數據分析。

數據質量:考慮到大數據的龐大數量和超快速度,需確定哪種級別的數據質量屬于“足夠好”的質量。
信息生命周期管理:制定存檔策略,確保存儲成本不會超出控制。還需設定保留計劃,以便按照法規要求合理處置數據。
管理人員:企業需要招募大數據管理員。