陳 璞
(中國人民大學金融科技與互聯網安全研究中心,北京 100872)
大數據開創教學科研新范式
陳 璞
(中國人民大學金融科技與互聯網安全研究中心,北京 100872)
數據規模大、數據提取和分析的速度快和數據結構類型多樣三方面的技術進步,構成了大數據的本質特征。大數據是推動當前時代發展的關鍵性歷史因素。面向未來的教育改革發展,信息技術成為創新實踐的基本手段。在大數據技術支撐下,以慕課為主的教學模式和計算驅動型科研范式,正在逐步走向成熟,成為教學科研的重要發展趨勢。
大數據;教育;慕課;計算型科研
早在2011年,美國高德納公司專家艾德里安從硬件環境和軟件工具角度,對大數據進行了描述,指出大數據在本質上是一種“收集、管理和處理數據”的能力進步。麥肯錫全球研究院如此定義大數據:“大數據是指大小超出了典型數據庫軟件工作收集、存儲、管理和分析能力的數據集。”可以看出,所謂大數據,實際上是一個比較意義上的概念。簡單說,就是在量變到質變的意義上超越了“以前的”“常規的”數據,因而稱之為“大數據”。大數據處理能力的最終形成,主要取決于三個因素:第一,在摩爾定律支配下,數據量的指數式增長,為大數據運行提供了基礎條件;第二,多核中央處理器和海量并行處理架構的運用,導致計算機運算能力飛躍發展,為大數據運算提供了核心動力;第三,基于MapReduce并行運算編程程序的Hadoop等大數據處理平臺的推出,使計算機突破處理非結構化數據的能力邊界,最終達到處理海量數據的大數據處理能力。以這種能力為基礎,人類發現規律、預測未來和改造世界的能力,都將獲得“質”的飛躍。
基于這些認識,可以將大數據之“大”,總結歸納為3個“V”:分別指數據規模(Volume)、數據提取和分析的速度(Velocity)和數據的多樣性(Variety)。首先看數據規模。根據摩爾定律,計算機存儲信息的物理容量將以每兩年翻一番的指數速度增長,這是大數據快速生長的物質性規律。根據國際數據公司(IDC)的預計,到2020年,來自個人電腦、智能手機、射頻識別、社交網站、氣象中心、監控攝像等各種設備的全球數據總量將達到40Zb。大數據的第二個顯著特征是速度。海量并行處理架構是存儲并分析海量數據的基礎機制。這個數據處理機制的原理是,打破數據限定由一個CPU單元和磁盤的中央服務器進行管理的傳統數據處理模式,將數據切成多個不同的數據塊,各自獨立地分配CPU的管理資源,這一變化如同車流從單車道駛入多車道,將倍增式地提高數據運行速度。最后是數據的多樣性,傳統數據主要來自關系型數據庫中的數據,這類數據具有一個既定的結構背景,其格式、值域、來源等屬性,會被預先定義,因此也被稱為結構化數據。與結構化數據相對,不具備結構背景,數據屬性沒有被預先定義的數據,稱為非結構化數據。處于二者之間的,還有半結構化數據和多結構化數據。比如,在Word文檔里寫的一篇文章、一張圖片、一段視頻都屬于非結構化的數據。根據IDC的統計,超過80%的企業數據都是非結構化數據,而整個互聯網中的數據,非結構化數據占到了75%以上,而且非結構化數據的增長速度遠遠高于結構化數據的增長速度。[1]顯然,結構化數據是較容易處理的數據。而非結構化數據則是相對難以處理的,非結構化數據以差異化為基本特征,這些數據有的可能是文字,有的可能是圖片,有的可能是一個數字,有的可能是一段聲音和影像。非結構化數據處理技術的成熟,意味著大數據時代正式拉開帷幕。就目前發展來看,泛在網和人工智能為我們初步勾畫出了未來世界鮮明的數據化特征。
歐盟委員會關于物聯網的愿景描述,為我們展現了大數據時代的未來發展狀況:“它將成為普遍存在的公共基礎設施,以全球通用的標準通信協議為基礎,將融合既有的計算機網絡、大眾媒體網絡、社會服務網絡,打造一個全球的、泛在的、無縫的信息科技平臺。”[2]無論最終發展狀態如何,建立在泛在計算技術之上的信息網絡社會,必然包括如下三個方面的特性。第一,泛在的基礎網絡。泛在網在概念上應該理解為所有網絡的連接和集成,包括傳感網、互聯網、物聯網,以及通過移動網絡和固定寬帶等技術將多個應用終端之間相互連接而形成的局部網絡。這中間的關鍵之處在于,所有的網絡都要連接在基礎網絡之上,最終以一個整體的形式呈現。第二,泛在的通信活動。泛在網絡為地球萬物建立了相互溝通和反饋的系統,這是一個無時無刻不在運行的系統,網絡上的每一個節點,都在時時產生、接收和處理信息,永遠處于動態通信的運動狀態。第三,泛在的智能應用。泛在網的最終目的,是通過各種各樣的智能應用,優化人類世界的生產和管理活動,無論是私人應用、公共應用還是商業應用,都是通過網絡大數據技術,為人類提供更精細、更科學和更智能化的服務。
圖靈測試界定了計算機和人類智能的理論邊界。2014年,計算機程序尤金·古斯特曼假裝成一個13歲的小男孩,在一系列每次5分鐘的問答之后,成功騙過與其對話的測試人員,最終以33%的通過率,成為世界上第一臺通過圖靈測試的機器人。[3]古斯特曼的誕生,將機器人的研發和應用再次推向新的高潮。今天的機器人科技,已經得到日新月異的發展,其應用范圍早已經從傳統的工業領域擴展到家居、教育、醫療、戰爭等眾多領域,成為一個龐大的機器人群體。進入21世紀以來,機器人正在逐步從科研階段過渡到產業化階段。從工業機器人到農業機器人,再到家居服務機器人,從移動機器人到仿生機器人,再到仿人機器人,從水下機器人到飛行機器人,再到太空探索機器人,從康復與助理機器人到外科手術機器人,再到微型醫療機器人,一個龐大的機器人產業已經呼之欲出。據不完全統計,我國教育機器人在2010年的銷售額已經達到4億元人民幣,根據ABI Research的預測,全球智能機器人的產值將很快突破1000億美元大關,其中,亞太地區將占有最大的市場份額。[4]
2017年7月,國務院印發《新一代人工智能發展規劃》,將“利用智能技術加快推動人才培養模式、教學方法改革,構建包含智能學習、交互式學習的新型教育體系”確立為發展智能教育的重點任務。可見,面向未來的教育改革發展,必然以信息技術支撐下的教學科研模式創新為基本手段。目前來看,以慕課為主的教學模式和巨型計算機支撐的“第三種科研范式”,正在逐步走向成熟。
在教學領域,由大數據掀起的慕課(MOOC)潮流正在席卷全球。MOOC的含義,可以分解為四項:M代表Massive,意味著慕課規模之大,傳統課程一門課可能只有一個班級的幾十個人在學,而慕課課堂的一門課可能有數萬人甚至幾十萬人同時學習;第一個O代表Open,意思說慕課是一個開放性的學校,不要求你其他資格條件,慕課只要一個電子郵箱,就能注冊學習;第二個O代表Online,這表明慕課的學習是在線進行的,不受時空限制,你可以蜷在被窩里聽老師講課,也可以在機場的候機室里打開手機做幾道數學題,如果你愿意,等地鐵的5分鐘碎片時間,也可以用來學習幾個英語單詞;最后一個字母C表示Course,說明這是一個課程,是一個系統性的理論知識學習。
以edX等為代表的慕課教育,被稱為是繼印刷術之后,教育領域將要面對的最重大的變革。相對于傳統教育,慕課開創的教學革命,將從四個方面展開:首先,慕課運用網絡經濟的共享模式,將絕大部分的教育成本攤入網絡機制內部,會大幅度地降低受教育者的經濟負擔,從經濟條件上降低社會整體的教育成本。其次,慕課改變了傳統教育模式的時空條件,受教育者既可以在晚飯后的夜間學,也可以在星期日的上午學,既可以在自家書房學,也可以在公共巴士上學。再次,慕課是全球化的教育資源平臺,是抹平區域資源配置不平衡,幫助邊遠地區提升教育水平的有效手段。在慕課的網絡平臺上,世界是平的,無論你是在大山深處還是在偏僻漁村,只要能夠接入基礎網絡,就能和世界一流大學的學生,同時學習相同的課程。最后,也是最深刻的一個方面在于,作為大數據平臺的慕課,最核心的看家本領是對學生的具體學習行為進行動態分析和同步調整優化。根據學習者個人化的學習行為和反饋內容,慕課平臺將不斷調整學習者學習的內容、方式和節奏,將學習變為一個高度個性化的建構過程,為學習者量身打造最高質量的學習模式,最大限度地提高學習效率。舉例來說,慕課平臺會通過學習者考卷里答對的題和答錯的題的分布情況,幫學習者找出其知識體系上的薄弱環節,有針對性地進行知識點的補漏和強化,它還能根據學習者的學習行為和反饋情況,分析出是聲音、文字、形象還是綜合視頻的方式更有利于提高個人的學習效率,并以此為內容和標準,逐步發展出最適合學習者的個性化的學習內容、方式和節奏。再如,從更細節的層面分析,慕課平臺還能通過對學習者鼠標、鍵盤的活動軌跡的采集和分析,了解到不同人對于同一知識點的反應情況,他們用了多少時間,有沒有重復或強調,等等,當這些數據達到一定量之后,將作為一種規律反饋給教師,以幫助他們改善教學。
隨著大數據和人工智能的深度發展,一種以計算機主導和驅動的新型科研模式,逐步發展成熟。傳統的科研模式,主要有理論分析和實驗驗證兩種類型。理論分析側重于邏輯推理和公理化的體系構建。實驗驗證是自然科學研究的主要方式,側重于從感性經驗上認識世界,通過控制條件下的科學實驗過程,觀察特定的現象,找到事物之間的因果聯系。在這兩種傳統科研類型中,計算只是作為一種輔助的技術手段而存在。定量分析只是對定性分析的具體化和精確化描述,始終無法取代定性分析獨立完成科研任務。而在大數據和人工智能技術的驅動之下,計算作為一種科研手段,正在顯示出獨立的價值,逐步發展成為一種完備的科研模式。早在1852年,格斯里就提出了四色猜想。但是,100多年來,諸多世界一流數學家試圖加以證明,都以失敗告終。直到1976年6月,電子計算機經過1200個小時的計算,推導出100多億個邏輯判斷,最終完成了證明,將四色猜想上升為四色定理。顯然,在計算機問世之前,這種計算復雜度,必然處在人腦的極限之外,是單憑人腦不可能完成的任務。計算機在科研中不可替代的獨立地位,由此得到證明。
今天,巨型電子計算機已經具備模擬核爆炸瞬間物理變化的能力,物理世界的核爆實驗,正在逐步轉移到計算機上模擬進行。谷歌公司運用大數據技術,成功預測了2009年H1N1流感傳播的趨勢和范圍,并將其預測寫成論文發表在國際頂級期刊Nature上。谷歌公司的這項研究成果在學界引起震動,因為這項研究繞過了流行病學和社會傳播學等理論模型,直接依據網絡熱詞與流感區域的相關關系,通過大數據的網絡數據采集和分析預測能力計算出結論。在數據主義看來,貝多芬的《命運交響曲》、股市的經濟震蕩和流感病毒看似有天壤之別,實則是一回事,背后都是數據流的不同變化,都可以用同一個算法工具進行處理。[5]
2017年6月19日,全球超級計算機TOP500榜單公布。由我國自主研發的超級計算機“神威·太湖之光”第三次蟬聯冠軍。“神威·太湖之光”計算機由40960個我國自主研發的“申威26010”眾核處理器組成,運算峰值性能達到12.5436億億次/秒,持續性能 9.3015億億次 /秒。據介紹,如果以2016年市場主流的計算機配置為標準,“神威·太湖之光”的運算能力要相當于200多萬臺電腦的能力水平。[6]“神威·太湖之光”問世一年來,已經在天氣氣候、航空航天、先進制造、新材料等19個科研領域得到廣泛應用。平均每天完成計算任務約7000項,全年共完成200多萬項科研任務。對此,清華大學副教授付昊桓介紹說:“超級計算在科學與工程領域應用最早、最廣泛,應用效果最顯著,已同理論研究和科學實驗一起成為人類探索未知世界的三大科學手段,被稱為支撐科學發現的第三個支柱。”[7]
互聯網大數據的工作機制,在本質上是對元胞自動機和生物細胞神經網絡的模擬。這一技術逐步走向成熟和應用,體現了人類思維科學的歷史進步。面向未來的新型科研范式,將是對牛頓、愛因斯坦以來的機械性分析、還原論方法和線性因果關系等簡單性科學理論模式的超越,是對以相關性、無限性、涌現性和非線性因果關系等為基本原理的復雜性科學思維的一般化擴展。這種數據密集型和計算驅動型科研模式的確立,必將對未來的科研活動組織和評價機制提出新要求。在可預見的將來,海量數據平臺和跨學科、跨領域、跨國界和地域的科研協作網絡,將成為未來學校科學研究的基礎設施和手段。
[1]劉軍.Hadoop大數據處理[M].北京:人民郵電出版社,2013:4.
[2]劉永謀,吳林海,葉美蘭.物聯網、泛在網與泛在社會[J].中國特色社會主義研究,2012,(6):100-104.
[3]新浪科技.超級計算機首次通過圖靈測試[J].創新科技,2014,(13):55.
[4]宋章軍.服務機器人的研究現狀與發展趨勢[J].集成技術,2012,1(3):1-9.
[5]尤瓦爾·赫拉利.未來簡史[M].林俊宏,譯.北京:中信出版集團,2017:333.
[6]柴逸扉.“神威·太湖之光”神在何處?[N].人民日報海外版,2016-06-28(09).
[7]王偉健.用國產芯片的神威太湖之光究竟厲害在哪?[DB/OL].(2017-06-21)[2017-08-25].http://tech.163.com/17/0621/11/CNEUPVS800097U7R.html.
Big Data to Create a New Paradigm of Teaching and Research
CHEN Pu
(Financial Technology and Internet Security Research Center,Renmin University of China, Beijing,China 100872)
The technological progress,that is,the large scale of data,the fast speed of data extraction and analysis,and the diversity of data structure constitutes the essential characteristics of big data.Big data is a key historical factor in driving the development of the current era.Facing the future education reform and development,information technology has become the basic means of innovation.With the support of big data technology,the MOOC-centered teaching model and the computational research paradigm are gradually becoming more and more mature,and they have become an important development trend in teaching and research.
big data;education;MOOC;computational research
G 4
A
2096-0069(2017)06-0006-04
2017-08-25
陳璞(1978— ),男,安徽淮南人,副研究員,研究方向為教育管理、金融科技與互聯網法律。
(責任編輯 孫震華)