●盧正天
大數據浪潮挑戰下的教育回應
●盧正天
大數據的熱潮已經席卷而來,人們熱衷于暢想它應用于各領域的美好前景,感染于其力量的巨大和用途的多樣。但大數據時代中概念的模糊性、較高的準入門檻、因果割裂的思想等限制了大數據在教育領域的發展。在大數據的熱潮中,作為培養人的教育應該持有一定態度、賦予數據溫度、確定數據精度、設定使用限度。
大數據:教育;回應
20世紀80年代開始,信息爆炸式增長,原有的信息儲存、處理、分析技術已經難以勝任科學研究的發展要求。一套新的數據收集、儲存、處理、分析模式被建成,“大數據”應運而生。眾多文獻把大數據與世界萬物緊密聯系在一起。大數據與傳統的數據相比,就有非機構化、分布式、數據量巨大、數據分析由專家層變化為用戶層、大量采用可視化展現方法等特點。[1]Hadoop等技術的興起,讓快速處理視頻、音頻等非機構數據成為可能。云計算環境的共享模式,使人們可以“按用量付費的方式,來使用計算機集群組成的計算處理環境和大規模數據儲存環境”。[2]這導致處理數據的范圍擴大、速度增加、成本降低。正如徐子沛所說,大數據之大,并不僅僅在于容量之大,更大的意義在于通過對海量數據的交換、整合和分析,發現新的知識,創造新的價值,帶來“大知識”、“大科技”、“大利潤”和“大發展”。[3]
大數據與任何事物相遇,都會激發出異樣的火花。其所產生的巨大的經濟、社會、文化價值已經得到公認。在科技飛速發展的時代,教育信息化早已不是教育界的新命題。相較于教育的其他方面,大數據率先對教育教學方式產生了影響。微視頻、慕課的全球流行,奏響了大數據改變教育的序曲。從微觀角度,教學目標、教學內容、教學設計、教學評價方式等都會受其影響;從宏觀上看,教育政策制定,教育公平、質量等問題的全國乃至全球范圍內的探討,也都必將被大數據浪潮所席卷。不論狂熱與理性,大數據教育領域的支持者們似乎都看到了一片欣欣向榮的大數據美景。但相較于支持者們的美好暢想,其現存的三方面問題,為它與教育的結合提出了挑戰。
(一)大數據概念的模糊性對教育研究者的誤導
正如大數據四個特征展現的,如今數據量之大、數據種類之豐、數據速度之快、數據價值之高都遠遠超過以往任何時代。數據與人類生存、生產、生活交融之深,對人類影響之廣,也是絕無僅有的。并且數據還在不斷地改造著生活,創造著未來。不論是頗豐的著作,還是繁多文獻,不論通過大眾傳播,還是親身的體驗經歷,仿佛一切都在昭示大數據時代的到來。
人們將大數據上升到“時代”的層次,它就應該有精確的概念或指向。如“青銅時代”“鐵器時代”“大機器時代”“電氣時代”“信息時代”,其中的“青銅”、“鐵器”、“大機器”、“電氣”、“信息”都有具體所指,即明確的界定。那么,大數據的含義究竟是什么呢?大多關于大數據的定義都是從其作用入手。如有學者說,大數據就是指蘊含著巨大的、可有效利用的、多樣化的數據集。[4]作用性定義可以生動展示其價值,卻難以定位其內涵。而著眼文字,“大數據”中的“大”顯然是對其進行內涵性定義的最佳標準,也是“大數據”最直觀的準入門檻。那么如今的問題是多么“大”的數據算大數據?國際數據公司(IDC)2012年發表第一份全球大數據技術和服務市場報告時也把大數據的規模閾值設在100TB,目前一般認為是PB級以上了。而在教育界,TB級的數據就可以算大數據了。[5]顯而易見,這種在變化的,在不同領域又有所差異的概念,似乎難以服眾。
概念界定的模糊性造成了教育研究理念、研究路徑、研究方法的選擇困難,對教育研究及應用造成誤導,同時也阻礙了大數據自身的發展。一些教師認為對某一學校的目標數據進行統計和常規分析就是“大數據”,如分析班級間課發言次數與學生成績的關系,調查學生課堂參與度與座位的關系等,教師據此而信誓旦旦贊揚“大數據”益處,其實這與長久的基于統計學的數據分析毫無差異,只是在“數據”二字前冠以“大”字。這既有害于自己數據研究的目的達成,也不利于大數據在教育領域的縱深發展。
(二)大數據高準入門檻對教育研究實施的阻礙
大數據在教育的宏觀及微觀方面都有廣泛的用途和美好的前景。大數據研究者宣稱,如今方便快捷廉價的云端計算,已經實現了分折數據主體從科技人員到客戶的轉變。即一線教師也可以輕松的利用云端使用大數據,以達到研究目的,得出調查結論。但現實情況遠非如此,即使開放的云端為這種轉變提供了機會,對于沒有或少有數據思維、數據分析能力的教育研究者、實踐者,想利用這種機會有所建樹的可能性幾乎為零。因為,能熟練利用云端的客戶也必然是精通大數據理念與操作方法的。
大數據的發展,并沒有使數據分析大眾化,反而使其日趨專業化。大數據的算法有如C4.5、CART為代表的分類數據挖掘算法,有以K-means、BIRCH為代表的聚類代表算法,此外還有鏈接算法、關聯分析算法等等。算法專業性強,并不是非專業的教育人士可以輕易掌握。而算法使用者的稀缺,使數據分析與數據使用脫節,數據分析人員不知道教育者想要什么,或很難注意到教育者預設外的數據價值;數據教育者不知如何收集,怎樣利用數據。如此,枯燥的數據缺少理論與實踐的鏈接,其將成為一串失去意義的符號。這勢必會造成教育研究、教育應用的中斷。麥肯錫全球研究院(MGI)在2011年5月發表的報告中指出,預計美國具備高度分析技能的人才供給量,到2018年將產生14~19萬人的人才缺口。[6]盡管有大量有價值的數據,但較低的數據處理能力,一直是一線教師開展研究的瓶頸之一。而且,這僅是針對處理普通數據而言,大數據技術人員的要求之高不言而喻。可見,開發操作簡便的共享模式、簡單多樣的算法、培養大批優秀的技術人才,成為降低大數據門檻的當務之急,也是消除大數據在教育研究中障礙的必要條件。
(三)大數據因果割裂的思想與教育研究理念的矛盾
維克托·邁爾-舍恩伯格等認為,“大數據的精髓在于分析數據時的三個轉變”。[7]其中之一便是人們不再熱衷于尋找事物之間的因果關系,而是要尋找相關關系。他解釋說:“如果數百萬條電子醫療記錄顯示橙汁和阿司匹林的特定組合可以治療癌癥,那么找出具體的藥理機制就沒有這種治療方法本身來得重要。同樣,只要我們知道什么時候是買機票的最佳時機,就算不知道機票價格瘋狂變動的原因也無所謂了。大數據告訴我們‘是什么’而不是‘為什么’。在大數據時代,我們不必知道現象背后的原因,我們只要讓數據自己發聲。”[8]
因果關系作為相關關系的一種特殊情況,對尋找事物間的聯系、分析聯系的內在原因起重要作用。從古至今,究因尋果的精神使人類發現、認識并利用規律,不斷地認識世界和改造世界。牛頓對蘋果落地的疑問推動了科學的大發展。其實每次人類命運的重大轉變,似乎都離不開偉人對“為什么”的思考。教育研究就是要尋找隱藏在問題表面背后的教育規律。單純關注相關關系,難以探究事物本源,也不利于通過一現象而遷移應對其他類似現象,難以舉一反三。而且,并不是所有事物都能單獨展示,如治療癌癥,可能需要十種藥物的混合,如果不弄清每種藥物可以產生什么作用,藥物混合后可以產生什么綜合作用,純將世界萬物隨時配對,逐漸嘗試,尚且不說成功幾率的微小,工程量的巨大可想而知。忽視因果關系的弊端在于,它割裂了事物之間的聯系,讓思辨失去了意義。一旦事物間的聯系割斷后,問題也就將無法解決。
除上述三組矛盾外,大數據的發展還存在其他阻礙。如大數據分析投入產出比問題,在處理海量數據要得出有價值的結論時,我們的投入是否遠遠高于產出。退一步而言,即便技術發展使投入低廉,但技術發展的速度能否跟上數據的增長速度,就像當初人類從宏觀世界轉向微觀世界一樣,當未知領域被發現,必然會帶來一次次數據的飛漲。再退一步,即便技術的發展能跟上數據的增長,相關問題的頂層設計、理論架構能否健全,沒有理論或經驗作為基礎,“購買感冒藥的數量與此地區發生流感的機會”等的科學性也就可想而知。
類比胡樹祥、謝玉進對網絡思想政治教育的判斷,“大數據時代引發的變革雖然是全面的、深刻的,但它對‘教育’的發展而言是豐富和拓展,而非顛覆或取代”。[9]如何在大數據的浪潮中順勢而行,適時改變卻有堅守,需要教育改革者、教育研究者、教育實踐者的智慧與勇氣,而前提是要明確應對大數據的態度。
(一)有接納大數據的態度
新世紀以來,我國信息科學技術迅速發展。我國目前最為缺乏的不是數據的來源和收集數據的手段,而是收集和利用大數據的意識。[10]教育研究者和實踐者應有積極接納大數據的態度,強化大數據意識,形成大數據思維。
首先要有價值挖掘意識,主動尋找、利用數據。能獲得一手真實詳細大量的教育數據的教育工作者畢竟為數不多,教育與社會各方面相關,能夠獲得各方面綜合資料以做交叉分析的人少之又少,大部分教育研究者、實踐者依據從圖書館、互聯網、電視、廣播等渠道獲得的信息進行數據分析。數據雜亂不全、人員技術有限,都為其數據分析造成障礙。而依據大量數據的綜合交叉分析所進行的預測,就更難實現。但教育工作者一定要有數據意識,因為用數據“說話”的科學性和實用性已得到很多證實,且如今科技發展迅猛,公共低廉易操作的大數據處理云端的建成指日可待。
其次,要有數據共享意識。大數據的發展促進了聯系,同時也依托于聯系。對某一問題的調查,依托于與此問題有關的來自不同地域不同時間的信息,這些信息源于一種共享的理念。如分析學業成績與教師授課時長的關系,就需要從不同地域收集課程設置和學生學業成績的相關信息。每一項教育研究的開展都需要依托這樣一些數據,有注重價值挖掘的意識,也要注意數據共享。共享的數據來源越廣泛,種類越多樣,調查才會越全面,大數據也才能有實現價值的不竭之源。
再次,要有尊重差異意識。大數據的發展催生了個性化教學方式和評價方法。通過大數據,我們可以嘗試找到一類人的學習特質,并針對某種學習特質制定學習方法。我們可以探索全面的過程性評價方式,優化考核選拔方式。教師在利用大數據所提供信息時,注重聯系,又要尊重差異,針對不同學生因材施教而非統一模板,大力發展個性化教育。在師資、教學資源有限的今天,尊重差異常常僅僅作為一種口號。而大數據為促進其實現提供了方法。通過大數據,可以幫助教師了解學生的具體差異,分析各種差異的不同應對方式,并找到適合學生各自發展的培養模式。
(二)給大數據以溫度
數據挖掘通用流程CRISP-DM的締造者之一TOM Khabaza曾總結了在數據挖掘上的九大定律。[11]其中有三個都與大數據的商業目的有關,包括:每個數據挖掘解決方案的根源都是有商業目的的;數據挖掘過程的每一步都需要以商業信息為中心;沒有免費的午餐。再看如今大數據的應用領域,也大多與商業有關。可見,大數據或多或少是帶有功利性的。但教育卻是帶有公益性質的社會活動。不論是自然世界還是人類社會無時無刻不在發出各種數據,但人是發出、使用這些數據的無可爭議的主體。教育離不開人,數據分析也不能離開人。數據是冰冷的,讓教育中人性的溫度融化冰冷的數據,才能找到蘊含于數據背后的現實意義。
說大數據是一種理念,不如說它是一種理念指導下的方法。在教育研究與實踐中,通過沒有人性溫情的數據而提供的建議,只能是隔靴搔癢;當然,過于感性失去理智地分析,也必將有失偏頗。所以,教育在大數據的熱潮中,要注重人的價值。人復雜的心理活動、多樣的行為方式、不同的文化背景等等,都不是可以簡單用數據來衡量的,更談不上用簡單相關關系進行數據分析。如霍桑的照明實驗,研究人員要觀察某工廠照明亮度與產量之間的關系,卻沒有發現二者之間有任何關系。在觀察期間,產量一直在增長,照明度調到月光程度,產量仍在增長。后來研究者分析得出,真正起作用的是“人類個體的心理狀態”。
其次,在教育中要注重個性化教育。這是時代對專業化人才需求的要求,也是使人自由發展,尊重人性的體現。現今時代,“規訓與教化在撤退,支持和服務在推進”。[12]合理利用大數據,它將成為教學中學生主體地位真正獲得的變革推動力。“大數據并不是一個充斥著運算法則和機器的冰冷世界,其中仍需要人類扮演重要角色。人類獨有的弱點、錯覺、錯誤都是十分必要的,因為這些特性的另一頭牽著的是人類的創造力、直覺和天賦。”[13]
(三)定大數據之精度
大數據時代中,生成、儲存、處理大量的數據,“大”也是其第一特征。人們看到數據之大,第一反應就是大而全,整體比部分要全面,整體比抽樣更準確。首先,數據龐大,不代表數據精準。在數據統計分析中,有很多錯誤數據,抽樣前我們通常會將此部分數據排除,而大數據統計中,強調全部,在整體數據中充斥著錯誤遺漏現象,勢必會影響數據分析結果的準確性。很多統計樣本并不全面,如何利用其中有用的部分,而忽視無用差錯部分,是大數據處理中應注意的。有學者指出:“在不斷涌現的新情況里,允許不精確的出現已經成為一個新的亮點,而非缺點。因為放松了容錯的標準,人們掌握的數據也多了起來,還可以利用這些數據做更多新的事情。這樣就不是大量數據優于少量數據那么簡單了,而是大量數據創造了更好的結果。”[14]少量有誤數據的混雜,或許會產生意想不到的結果,但其對研究目的的達成會造成影響,不能舍本逐末。在《大數據時代》一書中表述的三個變革,其中之一就是數據規模擴大,對精度的要求縮小。“假設你要測量一個葡萄園的溫度,但是整個葡萄園只有一個溫度測量儀,那你就必須確保這個測量儀是精確的而且能夠一直工作。反過來,如果每100棵葡萄樹就有一個測量儀,有些測試的數據可能會是錯誤的,可能會更加混亂,但眾多的讀數合起來就可以提供一個更加準確的結果”。[15]這好比說“比起個人感覺,數千萬人的數據更可信”。[16]聽起來似乎很有道理,但這里卻蘊含著巨大的陷阱。大數據僅僅是基于調查基礎上的統計分析,只能推測發生概率,而準備預測發生。這是科學而非民主政治,科學不應有“寡不敵眾”,而只應存在真實性,或相對的真實性問題。否則,在精度中忽略混亂,在普遍中忽略特殊,也與大數據對個性分析方面發揮的作用不符。
(四)設大數據之限度
2013年,棱鏡門事件將美國推到了世界輿論的風口浪尖,同時也折射出數據安全的重要性。日前,中國官方首次對涉及中國的監聽竊密問題進行官方確認和表態。互聯網的迅猛發展加速了數據的傳播,同時也為數據的監管造成困難。大數據熱潮,就像一頭猛獸,包羅萬象,力量無比強大,需要強有力的組織馴服,如何去用,給誰用,怎么去監管等都是保障數據安全需要思考的。美國對數據安全向來十分重視,甚至總統在外吃過的食物都要回收處理。2011年,對于Silk瀏覽器引發的隱私問題,美國國會立即作出了反映。2012年《消費者隱私權法案》(Consumer privacy bill of rights)出臺。[17]其中明確強調了在保護隱私權方面個人與公司的義務和權利。如,對于企業可收集哪些個人數據,并如何使用這些數據,消費者有控制權;對于隱私權及安全機制的相關信息,消費者擁有知情、訪問的權利等等。相比之下,中國在消費者隱私權立法方面尚不健全。建立健全法律法規是保障信息安全的基礎。
大數據促成了顧客在上的倒三角服務模式,即根據上層顧客的需求,安排下層的生產營銷。同樣,在學校中,也應形成以學生為中心的倒三角模式。千百年來,學生一直是學校教育中的弱勢群體,這也為其數據安全的保護帶來困難。學校、教師應合理利用學生信息,并設定嚴格的檔案監管制度。否則,學校的數據一旦外泄,經過處理分析,很可能對學生未來生活學習工作帶來困擾。再次,學生、家長自己要有信息安全意識。對學校收集的一些私密信息,可以選擇性填寫,對由于學校疏忽造成的信息泄露,要積極維權。
大數據熱潮已經到來,對于一團暫不可熄滅的火焰,不能一味潑水,阻礙新事物的發展。首先,應肯定其價值。第一,不能棄珍寶如敝屣。有學者批評大數據可能代替了人腦,不利于人類思維發展。但歷史中每次科技的發展幾乎對人腦都是一次解放,以便人類可以思考更加復雜的問題。其次,要認識其局限。“大數據”不代表一切,且優勢之下也有其弊端。較之對用法和配套安全措施的深入研究,一遍遍空洞地疾呼“大數據”來了,就顯得微不足道了。利用再大的數據整體,也只能是增加調查的真實性,而不能增加預測的準確性。數據分析需要依靠思維,數據只能反映客觀事物,卻難以深究其因。數據只是客體,一旦離開了主體的意義,就會事與愿違。大數據好還是不好,判斷標準要看意義的有無:有意義的數據是智慧的,沒有意義的數據只是垃圾。[18]正如《大數據時代》中所說,“大數據提供的不是最終答案,只是參考答案……這也提醒我們在使用這個工具的時候,應當懷有謙恭之心,銘記人性之本。”[19]
[1]張燕南,胡繼岳.關于大數據應用于教育的思考[J].中國電力教育,2013,(3).
[2][6][16][17]城田真琴.大數據的沖擊[M].周自恒譯.北京:人民郵電出版社,2013:12.
[3]徐子沛.大數據[M].廣西:廣西師范大學出版社,2012:57.
[4][10]梁家峰,亓振華.適應與創新:大數據時代的高校思想政治教育工作[J].思想教育研究,2013,(6).
[5]陸璟.大數據及其在教育中的應用[J].上海教育科研,2013,(9).
[7][8][13][14][15][19]維克托·邁爾-舍恩伯格,肯尼斯·庫克耶.大數據時代:生活、工作與思維的大變革[M].盛陽燕,周濤譯.杭州:浙江人民出版社2012:17.19.245,246.47.48.247.
[9]胡樹祥,謝玉進.大數據時代的網絡思想政治教育[J].思想教育研究,2013,(6).
[11]譚磊.大數據挖掘[M].北京:電子工業出版社,2013:43.
[12]魏忠,何立友.大數據:開啟面向未來的教育革命[J].中小學信息技術教育,2013,(10).
[18]姜奇平.大數據的時代變革力量[J].互聯網周刊,2013,(1).
(責任編輯:張斌)
盧正天/華東師范大學教育科學學院碩士生,主要從事教育政策研究