開展大數據的研究已經成為我們國家今后創新驅動的一個重大的戰略舉措。數據的積累已經從量變發展到了質變。另外一方面計算機超強的計算能力也為處理大數據提供了強大的技術支撐,這兩者的結合使得大數據的智能分析成為我們現實可能。分析各個領域的大數據也正是各個領域各個行業的新的重大需求,擁有大數據成為我們這個時代的特征,分析大數據自然也成為我們這個時代最鮮明的任務,應用大數據也是我們把握商機把握研究機會的重要機遇。
研究和應用面臨三大挑戰
我們根本目的是從大數據中挖掘出價值。從政府角度來說,要進行大數據的有效管理,制定包括安全在內的各種公共政策,這就是政府要作為,從數據的獲取、標準、規范、安全、保障等等方面研究。作為高校和科研院所來說,最核心的是要進行大數據的分析和處理,也就是智能化的挖掘、關聯、融合、算法分析這些核心技術的探索和研究。作為企業界來說,要結合各自的領域,開展大數據的應用挖掘以及融合應用。所以說我們要形成一個數據是基礎、平臺是支撐、分析挖掘是核心,最根本的是要實現目標導向、問題驅動,實現效率的提升和經濟效益社會效益的挖掘和發揮。
世界頂級大國都把大數據核心技術的研究作為未來搶占大數據產業自主知識產權的一個核心制高點來探索研究。第一從理論和技術角度來看,傳統的計算理論和傳統的數據處理分析技術難以完全適用。一方面是大數據和傳統的中小規模的數據有本質的特征上的差別。第二在傳統的計算平臺計算范式方面也有根本性的轉折。我們知道傳統的數據量是中小規模,現在都是ZB級,10的18次方超大規模的數據量。從數據的結構來說,從傳統的結構化朝大量的非結構化方向發展,從過去以靜態為主朝著流數據發展,從單一的數據源朝著多元異構的方向發展,從多媒體朝著跨媒體融合的方向發展。這些數據特征的變化使得我們傳統計算理論難以適應。從計算平臺和計算范式來說,從過去的集中存儲向現在的各地多數據中心的分布式存儲方向發展,從多線程并行朝著多機協同的方向發展,從存儲和計算相分離朝著數據和計算緊密深度融合的方向發展,從計算密集型或者數據密集型朝著兩者混合的密集型方向發展,從靜態全量計算朝著動態流式計算的方向發展,這些變化都是大數據分析中將要面臨的理論和計算方面的挑戰。在大數據分析與處理方面核心技術嚴重缺乏,我們熟悉的大數據處理核心技術的底層的核心軟件、核心系統,像Spark、Hadood、Hbase這些著名的開源商用軟件幾乎全是被國外壟斷,我們國家在這個領域缺乏自己的自主知識產權。第三,難以適配工程化應用的需求,比如大數據算法在工程化技術方面還處于基本空白狀態。我們雖然有很多好的大數據算法和核心技術,但是應用到實際當中工程方面的適配還處于空白或者盲點。另外缺乏適用于大數據分析的工程化工具和快速的部署手段,核心技術與產業需求存在縫隙,缺乏面向行業的智能大數據決策支持工具和成熟的工程化解決方案,這些方面都是我們今后研究的重點和難點。
西安交通大學申請到了大數據分析技術國家工程實驗室,在大數據的基礎算法、核心技術、數據產品研制、行業工程應用特別是高端人才培養方面打造國內一流的科研和人才培養的平臺。
教育大數據的研究應用
下面介紹一下國家工程實驗室過去幾年在教育領域大數據的研究應用方面所做的工作。
第一,陜西省高等教育大數據平臺的研究與應用。西安交通大學為全省建立了高等教育大數據的匯聚分析和應用的數據中心,可以把全省所有高校的辦學狀態數據、政府管理部門的各方面的教育統計數據以及互聯網上發布的有關教育的數據匯聚到一起。在這個平臺上不僅有辦學的管理狀態數據,而且有各類慕課課程資源以及師生的信息管理平臺,還有大量的互聯網開放數據聚集在這個平臺中。在這個平臺上我們面向教育主管部門、高校開放為用戶提供各種各樣的學習、管理、質詢、統計分析等應用。這個平臺的數據還可以跟教育部評估中心、教育部規劃司、財務司、學生司等相關司局進行互聯互通,打通了數據之間的壁壘問題。在這個基礎上,我們實現了全省高等教育數據的匯聚,從而打破了各高校數據的孤島。另外可以建立橫向關聯比較分析、縱向自我歷史比較分析,提供高校、政府管理部門、社會科學精準的數據服務,以及為他們的科學服務提供分析。
在這個平臺上,我們開展了四項典型應用。第一,為全省本科高校進行教學質量的審核評估工作,運用互聯網+大數據技術建成了覆蓋全省高等職業教育、本科教育和研究生教育,包含辦學條件、師資隊伍、學科專業、課程教學、畢業就業等全方位一體化的質量監測網絡,省級高等教育監測的大數據平臺,開展了用數據和事實說話的省級學校兩級高等教育的質量常態監控。第二,服務陜西省“一流專業”申報、評審與評估等方面的基礎工作,這個工作現在把全省的教學狀態的數據全部收集到這個系統里。第三,開展陜西省教育經費績效分析與評估,這項工作我們已經進行了三年,對各個大學辦學的基本績效以及辦學的成效進行實時在線的科學精準的統計分析,為政府決策績效獎勵提供支撐服務。第四,畢業生就業質量的跟蹤和評價。已經建成了全省就業質量大數據分析應用服務,并且以這個系統為基礎,發布高校畢業生就業狀況的報告,過去需要大量的人工工作,現在基本上在這套系統上自動生成就業質量報告。
另外,MOOC中國平臺在現實上的應用也是我們的重要努力方向。我們的目標和理念是做政府想做社會愿做但是單一高校做不了的事情,根本目的是打造互聯網教育公共服務體系的2.0版本。目前這個聯盟已經有117所高校加盟,超過10000門視頻課程,超過10000注冊用戶,300經營講師,收集客戶端下載量超過900萬。MOOC中國這個平臺正在為服務國家“一帶一路”的人才培養提供服務,我們在MOOC中國的平臺基礎上成立了由中國工程院和聯合國教科文組織授予我們的國際工程科學支持的培訓,在泰國建立東盟中心,面向“一帶一路”開展包含中國文化、語言、教育、技術等特色資源,在這個特色資源中我們特別構建了六大主題數據庫,為中國的企業走向“一帶一路”提供各種服務。
通過互動交流、實踐應用等多種形式對絲路國家來華留學的留學生以及中國企業走向“一帶一路”國家發展的工程技術人才培養各種各樣的技術人才。這個平臺在技術方面突破了知識地圖導航學習、知識匯聚核心關鍵技術,為用戶提供可視化的知識聲音導向的個性化資源推薦和服務。
課堂教學質量監測大數據平臺。我們通過把課堂教學質量的實時各類數據,包括學生評價的數據、督導評價的數據等實時錄入這個大數據平臺。在這個平臺上我們可以實現過去對課堂教學質量模糊宏觀的評價,到通過大數據的精準分析實現量化精準的評價;從過去部分隨機抽查課堂教學變成全面覆蓋,從過去期中期末兩次監測變成實時、常態、持續的監測,從過去的事后評價變為實時、動態的在線評價。在這樣的基礎上,我們一方面可以挖掘一些教學質量好、受學生歡迎的老師,也可以對不負責任、課堂教學質量不高的老師提出懲戒,實現精準督導。
課堂教學已經實現了基于物聯網+云計算的技術智慧管理,解決了數據的精準采集,實現了教學秩序的嚴肅規范,讓老師和學生一起共同敬畏課堂。在這個平臺上我們可以及時發現問題課堂,實現精準督導,為專家評價、學生評教、到課率、課堂現場提供有效的數據支撐。正是在這樣的平臺支撐下,西安交通大約的本科教學質量在全面大幅度提升。
(本文根據鄭慶華在2017大數據產業峰會上的演講整理,未經本人確認。)