夏道勛,唐勝男,田星瑜
(1.貴州師范大學 大數據與計算機科學學院,貴州 貴陽 550025;2.貴州省教育大數據應用技術工程實驗室,貴州 貴陽 550025)
為了切實落實“努力辦好人民滿意的教育”的總體要求,以實現教育公平為主線,以推進素質教育為主題,以促進縣域義務教育優質均衡發展為核心,努力辦好每一所學校,促進每一名學生健康成長和全面發展。通過充分了解教育資源的真實分布情況,各部門嚴格實施教育改革,切實推進縣域義務教育優質均衡發展,使得校際差距、城鄉差距不斷縮小,以達到義務教育的總體發展要求。該文設計一種基于大數據技術的義務教育大數據動態可視化平臺,以促進縣域內義務教育優質均衡發展,促進教育公平??h域義務教育優質均衡發展數據分析平臺為縣域義務教育發展中面臨的重點問題和突出問題如“普及十五年教育”“義務教育優質均衡”“城鄉教育一體化”“學生綜合素質評估”“辦學條件改善”等,提供基于評估主題的動態數據支持設計,提升縣域義務教育治理體系與治理能力現代化水平。
中國義務教育進入了“優質均衡發展”新階段的最重要標志是教育部于2017年4月頒發的《縣域義務教育優質均衡發展督導評估辦法》(教督[2017]6號)文件,這一舉措也促使著全國的義務教育均衡發展往更高水平進步,全面提高義務教育質量??茖W合理的決策支持服務能力有利于指導義務教育資源的優化配置,有利于義務教育優質均衡發展的宏觀調控,更好實現教育公平。如何對義務教育優質均衡發展進行有效分析和評價,并建立一套合理、有效的義務教育決策支持服務能力評價系統,具有重要的現實意義。
根據大數據分析數據生命周期,優質均衡發展的數據分析前提是有效數據。信息技術發揮“知識傳播快、覆蓋面廣、資源共享”等優勢,已逐步實現教育管理、優質教育資源共享、現代遠程教育平臺搭建、E-learning個性化學習和虛擬教育社區等信息化建設,賦予了教育事業全新的內涵,推動義務教育優質均衡發展,為優質均衡發展數據分析提供了寶貴的數據資源[1-2]。任秀穎等[1]提出了構建教育信息化模式的保障機制,為促進國內城鄉義務教育優質均衡發展提供了信息化實踐思路。王繼新等[2]的研究結果為促進教育均衡發展提供了理論指導意義,提出了采用縣域義務教育信息化的方式來解決教育均衡發展的問題。他們從教育公平、教育資源配置和教育生態學三個不同的方面全面分析了四種教學模式,分別是雙規制數字學校模式、城鄉互助的“雙師”模式、有組織的MOOC模式和適切性數字資源全覆蓋模式;為了得出更全面的理論體系,進一步對四種模式進行比較分析,且對四種模式的可持續發展提出了實際的建議。針對義務教育優質均衡發展的數據資源需要利用數據抽取、數據轉換與數據加載(extract-transform-load,ETL)等技術進行數據采集,將不同類型數據進行業務規則與需求的轉換與清洗[3-4]。
數據分析是構建義務教育優質均衡發展決策支持服務能力評價系統的核心。為了解決義務教育優質均衡發展中的難題,提高優質義務教育資源共享的效率,謝劍萍[5]采用戰略管理分析方法,提出了義務教育優質均衡發展的戰略對策。艾倫[6]對比分析了義務教育優質均衡測量方法,采用差異系數、基尼系數以及均衡指數分別對義務教育優質均衡指標進行測量,比較三種不同測量方法的計算結果,指出均衡指數的非線性特性和非對稱性特性在測量分析上體現出來的優勢。在數據分析過程中,陳家全[7]構建了義務教育均衡發展評價系統,降低了數據處理的難度,簡化了評價環節,使得數據分析更具有操作性和針對性。高軍等[8]和沈光輝等[9]研究了學校教育管理服務模式,并構建了基于大數據技術的教育管理服務平臺原型,為教育領域創建高效、決策支持平臺提供有價值的參考模型。為了進一步揭示對復雜教育規律的理解,輔助教師監督學習過程,提升管理者科學決策水平,余泰等[10]重點闡述了文本數據可視化、多維數據可視化、網絡數據可視化、時間序列數據可視化和地理空間數據可視化等5種主流的教育大數據可視化呈現方法,并給出具體的應用場景。
義務教育優質均衡發展必然需要全社會各方面的努力,是一個龐大的且事無巨細的社會工程,需要全社會協調解決義務教育發展過程中的難題,不斷推進基礎教育均衡發展[11]??茖W合理的決策支持服務能力有利于指導義務教育資源的優化配置,有利于義務教育優質均衡發展的宏觀調控,更好實現教育公平。該文利用大數據技術,動態、可視化、全自動地生成決策文檔,為了更清晰地表明縣域義務教育優質均衡發展數據分析結果,采用了分區域、分學校層次、分觀測點的方式進行展示,從而創建出具有更全面的教育決策力、更強的教育問題洞察力和教育過程優化能力的決策支持服務平臺。
為滿足義務教育在異構網絡環境下業務策略生成和評估的要求,研究根據各類監測數據和分析結果對教育大數據業務影響的評估技術,并結合義務教育優質均衡發展相關策略,重點研究義務教育優質均衡發展的數據分析平臺,決策支持服務和決策數據的可視化技術。對現有義務教育各類數據庫進行系統分析,涵蓋教育、人口、地理、經濟等領域,以及對縣域義務教育數據積累現狀進行調查研究,研發縣域義務教育優質均衡發展數據分析平臺,豐富縣域義務教育優質均衡發展的決策支持能力。
縣域義務教育優質均衡發展數據分析平臺采取Spring MVC+MySQL+Spark設計架構[12],設計有數據源、數據平臺、應用服務和展示交互等四個層次,見圖1。平臺通過ETL技術和離散數據采集,實現縣域義務教育優質均衡異構數據匯聚;利用HDFS和Hive on Spark技術,將教育統計數據庫、經濟社會科技數據庫等義務教育相關多源異構數據組建成縣域基礎教育發展評估系統數據倉儲;在數據倉儲的基礎上,采用Spark MLlib技術實現義務教育優質均衡發展的四個維度進行數據分析;采用ECharts、GIS工具或技術實現數據分析可視化。

圖1 縣域義務教育優質均衡發展數據分析平臺系統架構
為了實現義務教育優質均衡發展的評估要求,分析平臺從四個維度不同觀測點進行綜合指標分析,四個維度分別是資源配置、政府保障程度、教育質量和社會認可度,實現分地區級、縣區級和學校整體的義務教育優質均衡發展的綜合指標分析,以及實現決策支持與預警能力。
資源配置維度一共有7項指標,重點在于評估縣域義務教育學校的軟硬件配置水平,如學校的儀器設備、校舍和教師等。該維度除了需要精確核算每所學校的資源配置水平,也需要評估校際均衡發展情況,評估達標的規則是每所學校至少有6項指標達標,且余項至少達到要求的85%。政府保障程度維度共有15項指標,重點考核縣級人民政府是否依法履職,是否切實落實了國家有關法律、法規和政策要求,是否有效推進了義務教育均衡發展,檢查城鄉一體化成效等,該維度需要每項指標均達到要求。教育質量維度共涉及9項指標,重點評估縣域義務教育普及程度、每所學校管理水平、學生學業成績質量和學生綜合素質發展水平等,該維度需要每項指標均達到要求才能符合評估標準。
社會認可度維度需要設計專門的問卷調查,以學生、家長、校長、教師、政協委員、人大代表及其他群眾為調查對象,重點調查縣級政府及相關教育職能部分對教育公平政策的落實情況、推動優質資源共享的舉措,以及學校是否規范辦學行為、加強實施素質教育、有效地改革了考試評估制度、教育質量是否顯著提高等,調查結果需要85%及以上的人滿意現階段義務教育。
大數據應用的關鍵在于信息共享與互通,該文采用ETL技術實現義務教育跨領域、跨系統、跨地域的數據共享,為實現義務教育優質均衡發展的數據分析夯實基礎[13]。
在義務教育信息化建設過程中,沉淀了來自不同時期、不同操作系統、不同業務系統和不同類型數據庫的數據,如教育事業年報數據、教育財務預決算、國家地區教育比較數據等結構化數據,以及教育有關的文件、報告和社會調查等半結構化數據或非結構化數據。ETL數據抽取是將這些與義務教育相關的數據從異構數據源端經抽取、轉換、清洗、裝載至數據倉儲端的處理過程,如圖2所示。

圖2 ETL數據抽取框架
在某個縣域下,建設一所學校是需要考慮特定的歷史背景。所以根據不同時期的需要,貴州省建有九年一貫制學校、完全中學、十二年一貫制學校和附設幼兒班等類型的學校。因為同一所學校的學生,不同階段占用的教學資源不盡相同,所以需要對基礎數據進行拆分。下面通過學校類型分類,列舉了基礎教育數據拆分方法。
3.2.1 九年一貫制學校
九年一貫制學校是指該學校的小學和初中實行一體化教育。拆分方法:首先考慮各學部的辦學規模,然后對學校辦學條件進行拆分,應按照小學生與初中生為1∶1.1的比例進行分解,最后分各學部按各一所學校納入統計結果。如下是某所九年一貫制學校小學部校園建筑面積的計算公式:
(1)
3.2.2 完全中學
完全中學是指該學校既設立初中部又擁有高中部的學校,在拆分該類學校辦學條件數據時,先根據初中、高中各自的辦學規模,學校學生需要按照一定的比例進行分解,例如按照“一個初中生∶一個高中生=1∶1.2”進行拆分,再將該所學校的初中部按一所學校納入數據統計結果。如下是某所完全中學初中部校園建筑面積的計算公式:
(2)
3.2.3 十二年一貫制學校
十二年一貫制學校是指該學校包括小學、初中和高中三個學習階段,對該類學校辦學條件數據的拆分方法是先根據小學、初中、高中各階段各自的辦學規模,按照“一個小學生∶一個初中生∶一個高中生=1∶1.1∶1.32”的比例進行拆分,再將該所學校的小學和初中兩個學段的拆分數據各按一所學校納入統計。如下是某所十二年一貫制學校初中部校園建筑面積的計算公式:
(3)
3.2.4 附設幼兒班
附設幼兒班是指某小學、初中、九年一貫制或十二年一貫制等學校設有幼兒班教學,也需要涉及基礎數據的拆分。拆分方法:小學附設幼兒班:一個在園幼兒∶一個小學生=1∶1;初中附設幼兒班:一個在園幼兒∶一個初中生=1∶1.1;九年制附設幼兒班:一個在園幼兒∶一個小學生∶一個初中生=1∶1∶1.1;十二年制附設幼兒班:一個在園幼兒∶一個小學生∶一個初中生∶一個高中生=1∶1∶1.1∶1.32。相應基礎數據的拆分公式和上面類似。
通常,差異系數分析法、基尼系數分析法和均衡指數分析法是教育領域進行均衡性水平測量的三種方法[6,14],并且差異系數分析法是教育部相關文件中規定的測量方法,該文重點闡述差異系數分析法。
計算綜合差異系數時,需要比較的數據有生均教學及輔助用房面積、生均體育運動場館面積、生均教學儀器設備值、每百名學生擁有計算機臺數、生均圖書冊數、師生比、生均高于規定學歷教師數、生均中級及以上專業技術職務教師數等。
差異系數分析方法公式表示為:
(4)


基尼系數由意大利統計學家克拉多·基尼(Corrado Gini)提出,它的最大值為1,最小值為0,其值越接近0則表明被測對象的均衡性越好,計算公式如下:

(5)
其中,n表示被測學??倲?,Pi表示第i所學校學生數占全部被測學校學生總數的比例,wi表示第i所學校教育資源占全部被測學校教育資源總數的比例,計算時需要將生均教育資源數進行升序排列,否則會出現負值無效現象。
艾倫[6]于2012年正式提出均衡指數分析方法,該方法是為了有效測量教育資源配備均衡性而被設計出來的測量分析方法,取值范圍為[0,1],取值為0時代表絕對均衡,取值為1時代表絕對不均衡,計算公式如下:
(6)
其中,n表示被測學??倲?,Pi表示第i所學校的生均教育資源占所有n所學校生均教育資源總額的比例,log2表示求以2為底的對數,π表示圓周率。
三類數據分析算法能很好地獲得縣域義務教育優質均衡發展現狀和存在的不足,為縮小義務教育城鄉、校際差距提供了數據支撐,能夠提供解決問題的基本思路,促進了義務教育標準化建設。
數據分析可視化是對縣域義務教育優質均衡發展的分析結果進行可視化表達[15-16]。該文利用ECharts+GIS等可視化呈現技術[17],以行政地圖作為底本,根據學校的經緯度標注出某所義務教育學校在地圖上的地理位置,并用不同大小、不同顏色的圓點進行標注,全局地呈現出省級、地區級或者縣域下義務教育優質均衡發展數據分析結果,圓點稠密、顏色偏紅的縣域義務教育優質均衡發展越發不均衡。
分析平臺以縣域義務教育優質均衡發展數據分析為主線,主要實現了平臺系統登錄、數據抽取、數據分析和數據可視化等功能模塊。重點圍繞差異系數分析方法,實現了縣域義務教育優質均衡發展數據分析和可視化,均包含有幼兒園、小學和初中三個義務教育階段,以及特殊教育。
分析平臺自動抽取了某省義務教育基本狀態數據,形成數據倉儲,數據量大,并且數據寶貴,平臺的使用者必須要有合法的身份才能登錄。平臺將用戶分為系統管理員、省級教育主管、地區教育主管、縣域教育主管和學校管理員等五種角色,每個用戶的賬戶密碼采用MD5加密算法,登錄時需要輸入隨機產生的驗證碼。合法用戶登錄進入平臺后,可根據自己的需要修改密碼。抽取每年教育事業年報數據,可實現資源配置、政府保障程度和教育質量三個維度大部分觀測點的數據分析[18-19]。教育事業年報主要統計五大類數據,它們分別是縣域學校基本情況、教學班數班額情況、學生基本情況、教職工信息和學校辦學條件。這些數據每年都需要上報到上級主管部門,每年統計的數據也會存在差異。為此,分析平臺提供了方便、快捷的數據抽取接口,可分年/分縣域/分學校將所有與優質均衡數據分析相關的教育事業年報數據抽取至分析平臺中,存放在HDFS或者Hive on Spark里。
其余所需數據從教育財務預決算庫、國家地區教育比較數據庫,以及教育有關的文件、報告和社會調查等數據中抽取,實現從異構數據源端經抽取、轉換、清洗、裝載至Hive on Spark的處理過程。并校驗數據倉儲中的數據是否出現字符、數字不規范的情況,查找數據項是否缺失,校驗數據項是否準確。如果存在上述等問題,需要采取措施,確保數據的準確性、完整性、一致性和時效性。根據數據分析的需要,平臺可動態地修改社會調查問卷,為每所學校提供動態調整數據采集接口的功能。
平臺分別對某省縣域下幼兒園、小學、初中和特殊教育的四個維度進行優質指標、優質差異系數、優質基尼系數和均衡指數分析。該文重點闡述小學階段的縣域義務教育優質均衡發展數據分析和可視化。
某縣域下小學階段資源配置7個優質指標數據分析。共評估的指標分別是每百名學生擁有高于規定學歷教師數、每百名學生擁有縣級以上骨干教師數、每百名學生分別擁有體育/藝術專任教師數、生均教學及輔助用房建筑面積、生均體育活動場館面積、生均教學儀器設備值和每百名學生擁有網絡多媒體教室數。
相應功能的操作均在主頁面左邊的菜單導航欄中,點擊某縣域下的數據分析菜單,相應的評估分析數據即可呈現到頁面的右邊顯示區域。在平臺上,紅色數字的部分表明該所學校對應的指標未達到評估標準,黑色數字部分表明該所學校對應的指標已達到評估標準。所有圖表均可實現打印和數據導出功能。
某縣域下小學階段優質均衡差異系數分析。小學階段的優質均衡差異系數評估了各學校教學及輔助用房面積、各學校體育運動場館面積、各學校教學儀器設備值、各學校網絡多媒體教室數、各學校高于規定學歷教師數、各學校體育和藝術學科專任教師數和各學校骨干教師數的生均值等指標。其設計思想與優質指標數據分析基本相同。
數據分析可視化展示了縣域義務教育優質均衡發展的分析結果。利用ECharts+GIS技術,以某省地圖作為底本,用附有學校名稱的圓點標注出全省每所義務教育學校所在的地理位置,并根據該所學校各項指標分析的結果,將圓點用不同大小、不同顏色表示,非常直觀地展示出該縣域下每所學校整體達標情況。
在地圖頁面中,如果某圓點的顏色越紅,說明該所學校離達標指標相差越遠,圓點的面積也越??;如果某圓點的顏色越綠,說明該所學校越接近優質均衡評價指標,圓點的面積也越大。該功能可單擊頁面區域中的“圖表切換”按鈕,便可打開對應數據分析的可視化展示功能。
均衡發展決策平臺是根據某省、某地區、某縣域下所有學校四個維度的綜合分析結果,全面、直觀地展示在對應地域之上。在不同轄域下,綠色越多的轄域表示已達標的學校越多,紅色越多的轄域表示未達標的學校越多。點擊不同的轄域或者學校,系統會給出未達標的具體原因,同時可以自動生成數據分析報告,列舉出整改建議。
如果想獲得某個轄域下的義務教育優質均衡發展綜合數據分析結果,可通過移動鼠標至地圖上該轄域,雙擊鼠標左鍵,平臺會自動跳轉至目的轄域,其右邊指標明細指示器也會自動更新該轄域的評估數據。轄域可分為省級、地區級、縣級和校級四個級別,其操作方式和數據呈現方式均相同。
大數據的潛在價值已被不斷地挖掘和使用,它正在悄然地改變世界,也在改變著基礎教育的發展。縣域義務教育優質均衡發展數據分析平臺通過對大量義務教育相關數據進行抽取、整理和倉儲;對某省縣域下幼兒園、小學、初中和特殊教育等義務教育階段的四個維度眾多評價指標進行優質指標、優質差異系數、優質基尼系數和均衡指數分析。該分析平臺不僅能夠幫助教育管理者判斷某學校是否滿足教育需求,制定科學的教育決策和整改措施,而且能夠充分了解某縣域教育系統的典型特征,精確評估義務教育優質均衡發展的進程狀況。