【摘 要】本文基于大數據的特征、價值和應用從教學、科研和管理的角度闡明了大數據給普通高等學校發展帶來的機遇和挑戰。
【關鍵詞】大數據;高等教育;機遇和挑戰
0.引言
數據是指一切保存在電腦中的信息,包括文本、聲音、視頻等。“大數據”是一股新的技術浪潮,也是逐步形成的歷史現象,其具體是指隨著信息存貯量的增多,人類在實踐中逐漸認識到,通過數據的開放、整合和分析,能發現新的知識、創造新的價值,從而為社會帶來“大科技”、“大利潤”、“大智能”和“大發展”等新的機遇。大數據之“大”,并不在于其表面的“大容量”,而在于其潛在的“大價值”。大數據之所以被稱為革命性現象的根本原因,因為從本質上來說,它標志著我們人類社會在從信息時代經由知識時代快速向智能時代邁進,并給普通高等學校發展帶來的新機遇和挑戰[1]。
1.大數據給普通高等學校發展帶來的機遇和挑戰
大數據,使教師面臨挑戰,使學科專業設置和專業知識結構面臨挑戰;大數據為大學管理的精細化個性化服務提供了工具;大數據給科研帶來顛覆性的影響。
1.1教師面臨的挑戰
智能學習平臺只是大數據大潮在教育領域掀起的一朵浪花。如著名的在線教育公司Coursera,已經和普林斯頓、伯克利、杜克、香港理工等全世界30多所大學達成協議,通過其平臺免費開放課程。如今這些學校的課程可以實現全球幾十萬人同步學習。分布在世界各地的學習者不僅可以在同一時間聽取同一位老師的授課,還和在校生一樣,做同樣的作業、接受同樣的評分和考試[2]。
這種學習平臺的崛起,在美國引起了廣泛的關注和激烈的討論。其中的原因,是因為該平臺已經不是一個鏡頭、一段視頻那么簡單,而能對學習者的學習行為自動進行提示、誘導和評價,從而彌補沒有老師面對面交流指導的不足。例如,通過記錄鼠標的點擊,計算機能夠記錄你在一張幻燈片上停留的時間,判別你在答錯一道題之后有沒有回頭復習,發現不同的人對不同知識點的不同反應,從而總結出哪些知識點需要重復或強調,哪種陳述方式或學習工具在哪種情況下最有效等規律。
不難發現,該平臺之所以強大,正是因為大數據。單個個體學習行為的數據似乎是雜亂無章的,但當數據累積到一定程度時,群體的行為就會在數據上呈現一種秩序和規律。通過收集、分析大量的數據,就能總結出這種秩序和規律,然后有的放矢,對不同的學習者提供有針對性的幫助。
這種智能學習平臺將會給教育行業帶來怎樣的影響。學校曾經是最重要的教育資源,好的學校更是異常稀缺,由于這種智能平臺的普及,在不遠的將來,名校將人人可上,也就是說,如果應對得當,中國教育資源匱乏的問題將很快得到有效緩解。對個人來說,隨時隨地地學習、終身學習都將成為可能,例如,高中生可以嘗試大學的課程,離開了校園的人,也可以登錄在線平臺再和在校生一起聽課。這些都是教育工作者探討多年、孜孜以求的夢想。但硬幣的另一面,是中國的教育行業要面對更加激烈的全球化競爭和挑戰。過去,是學生爭學校;將來,可能是學校在全球范圍中爭奪學生。發達國家的一流大學會擠壓發展中國家普通大學的生存和發展空間,普通大學該如何來吸引生源?它們會不會因此衰落?既然最好的教學視頻等學習資源都可以免費獲得,教師的角色又需不需要調整?又該如何調整?這些問題,都是大數據時代催生的重大挑戰。
1.2學科專業設置和專業知識結構面臨的挑戰
網絡大數據在科學和技術上的突破,將可能誕生出數據服務、數據材料、數據制藥等戰略性新興產業[3].網絡數據科學與技術的突破意味著人們能夠理清數據交互連接產生的復雜性,掌握數據冗余與缺失雙重特征引起的不確定性,駕馭數據的高速增長與交叉互連引起的涌現性(Emergence),進而能夠根據實際需求從網絡數據中挖掘出其所蘊含的信息、知識甚至是智慧,最終達到充分利用網絡數據價值的目的.涌現性是指由低層次的多個元素構成高層次的系統時展示出的每個單一元素所不具備的性質.網絡數據不再是產業環節上產生的副產品,相反地,網絡數據已成為聯系各個環節的關鍵紐帶.通過對網絡數據紐帶的分析與掌握,可以降低行業成本、促進行業效率、提升行業生產力.因此,可以預見,在網絡數據的驅動下,行業模式的革新將可能催生出數據材料、數據制造、數據能源、數據制藥等一系列戰略性的新興產業,使高等教育學科專業設置和專業知識結構面臨挑戰。
1.3大數據為大學管理的精細化個性化服務提供了工具
教育是在生活中實現的,不在生活中實現的教育不是真正的教育,學校教育更需要“終極關懷”。華東師范大學一位女生節食減肥,很少在校內用餐,學校通過困難生預警系統察覺到其飯卡消費值較低,便發送了一條短信,詢問是否有經濟困難,是否需要幫助。這位女生收到短信,感到非常溫暖,便發了一條“華師大少女減肥減出人文關懷”微博,結果被網友紛紛轉發。網友們稱贊學校“通過對數據的挖掘、應用,更貼心地服務學生、關愛學生”,“讓冰冷的數字有了人性美!”這一事件至少告訴人們,大數據為大學管理的精細化服務提供了工具,有助于學校實現“終極關懷”[4]。
1.4大數據給科研帶來顛覆性的影響
科技創新實質上是科學研究方法的創新,數據科學帶給大家改變探索世界的新方法——從大量的數據中,揭示世界運行的規律。新方法體現在大數據的三個特征中。
大數據在舍恩伯格看來,一共具有三個特征:全樣而非抽樣,效率而非精確,相關而非因果。
第一個特征非常好理解。在過去,由于缺乏獲取全體樣本的手段,人們發明了“隨機調研數據”的方法。理論上,抽取樣本越隨機,就越能代表整體樣本。但問題是獲取一個隨機樣本代價極高,而且很費時。人口調查就是典型一例,一個稍大一點的國家甚至做不到每年都發布一次人口調查,因為隨機調研實在是太耗時耗力了。
但有了云計算和數據庫以后,獲取足夠大的樣本數據乃至全體數據,就變得非常容易了。谷歌可以提供谷歌流感趨勢的原因就在于它幾乎覆蓋了7成以上的北美搜索市場,而在這些數據中,已經完全沒有必要去抽樣調查這些數據:數據倉庫,所有的記錄都在那里躺著等待人們的挖掘和分析。
第二點其實建立在第一點的基礎上。過去使用抽樣的方法,就需要在具體運算上非常精確,因為所謂“差之毫厘便失之千里”。設想一下,在一個總樣本為1億人口隨機抽取1000人,如果在1000人上的運算出現錯誤的話,那么放大到1億中會有多大的偏差。但全樣本時,有多少偏差就是多少偏差而不會被放大。諾維格,谷歌人工智能專家,在他的論文中寫道:大數據基礎上的簡單算法比小數據基礎上的復雜算法更加有效。
數據分析并非目的就是數據分析,而是有其它用途,故而時效性也非常重要。精確的計算是以時間消耗為代價的,但在小數據時代,追求精確是為了避免放大的偏差而不得已為之。但在樣本=總體的大數據時代,“快速獲得一個大概的輪廓和發展脈絡,就要比嚴格的精確性要重要得多”。
第三個特征則非常有趣。相關性表明變量A和變量B有關,或者說A變量的變化和B變量的變化之間存在一定的正比(或反比)關系。但相關性并不一定是因果關系(A未必是B的因)。
亞馬遜的推薦算法非常有名,它能夠根據消費記錄來告訴用戶你可能會喜歡什么,這些消費記錄有可能是別人的,也有可能是該用戶歷史上的。但它不能說出你為什么會喜歡的原因。難道大家都喜歡購買A和B,就一定等于你買了A之后的果就是買B嗎?未必,但的確需要承認,相關性很高或者說,概率很大。
舍恩伯格認為,大數據時代只需要知道是什么,而無需知道為什么,就像亞馬遜推薦算法一樣,知道喜歡A的人很可能喜歡B但卻不知道其中的原因。
越來越多的事物不斷的數字化。使得人們可以從大量的數據中,發現隱藏的自然規律、社會規律和經濟規律。從這個角度來看,大數據將拓展人類的視野。
大數據給科學和教育事業的發展提供了前所未有的機會,同時也提出了前所未有的挑戰。它將對現有的科研和教學體制帶來大幅度的變革,對科學與產業之間的關系、科學與社會之間的關系帶來大幅度的變革。
事實上,數據科學還帶給大家觀察世界的新方法——從大量的數據中,揭示世界運行的規律。2008 年《連線》雜志主編克里斯?安德森就指出“數據爆炸使所有的科學研究方法都落伍了”,用一系列的因果關系來驗證各種假設和猜想的研究范式已經不實用了,如今它已經被無需理論指導的純粹的相關關系研究所取代。安德森指出:“現在已經是一個有海量數據的時代,應用數據已經取代了其他的所有學科工具。而且只要數據足夠多,就能說明問題。如果你有一拍字節的數據,只要掌握了這些數據之間的相關關系,一切就都迎刃而解。
人們在研究自然語言處理方面走過的彎路,為安德森的觀點提供了有利的證據。20 世紀50 年代,幾乎所有的科學家都認為如果讓計算機來充當翻譯,就必須像人一樣,讓他理解詞句的含義。于是提出人工智能的概念,讓計算機來學習的人類的各種規則。這種方法很快在70 年代走到了盡頭。但是基于大量數據、運用概率模型的統計語言學的出現使得自然語言處理柳暗花明。如果沒有這些概率統計模型,風靡一時的Siri(個人語音處理)等應用,就不可能實現。
2.結語
大數據時代已經到來,對大數據進行合理的分析,管理和應用必將會推動普通高等學校的大發展,當然也會為社會提供更多的利益和創新性成果。
【參考文獻】
[1]趙國棟,易歡歡,糜萬軍,鄂維南.大數據時代的歷史機遇—產業變革與數據科學[M].北京:清華大學出版社,2013.
[2]舍恩伯格.大數據時代[M].浙江人民出版社,2013.
[3]王元卓,靳小龍,程學旗.網絡大數據:現狀與展望[J].計算機學報,2013,36(6):1125-1138.
[4]慶年.跑在大數據時代的前列[J].復旦教育論壇,2013,11(4):1-1.