李志杰
(湖南理工學院 信息科學與工程學院,湖南 岳陽 414006)
大數據是信息化發展的新階段。對于大學工科專業,無論是培養科研后備力量,還是為工業界輸送技術人才,都應該拓展大數據相關理論方法與應用的教學[1]。據報道,中國大數據與人工智能人才缺口超過500 萬人,大數據已上升到國家戰略的高度。
2017 年2 月以來,教育部積極推進新工科建設,大數據教育是重要內容,我國一些高校陸續新開設了大數據專業。教育部分別于2016 年2 月、2017 年3 月、2018 年3 月公布了第一批、第二批、第三批新增數據科學與大數據技術專業的高校名單,獲批高校的數量分別為3、32、250所,呈井噴狀態增加。同時,高校已辦的許多信息類相關專業(范圍涵蓋理科、工科,甚至是文科),為了使培養的學生適應新形勢的需要,在原有專業課程培養體系內,也開始增設一些大數據相關課程,如大數據基礎、云計算與大數據、數據分析等。
不過,大數據教育越是大熱門,越需要冷思考。目前,國內高校的大數據教育處于起步階段,數據人才需求巨大、師資力量薄弱、教育體系不足、教學方法陳舊……這些現象都有不同程度的表現。在彌補高達500 萬的大數據和人工智能人才缺口之前,中國的大數據與人工智能教育必須先跨過這些門檻,才有可能進入世界的第一梯隊[2-3]。
新工科建設需要新的教育理念和新的教學方法作為支撐。數據人才培養是一項系統工程,為了培養出合格的數據科學人才,必須創新數據人才培養模式。
1)部分高校未開設專門的大數據教學模塊。
國內還有部分高校,至今尚未開設專門的大數據教學模塊。就本科教學而言,這些高校數據統計分析與挖掘的教學,主要放在大學三年級的數據基礎模塊,代表性課程為概率論,開課教師多為理學院教師,帶有通識性教育的特點。這些基礎教學模塊并沒有對大數據及相關的理論分析與應用技術做充分的強調與訓練[4]。
2)已開設的大數據類課程教學,實驗平臺建設面臨不少挑戰[5]。
大數據類課程實驗教學面臨的挑戰主要如下:①實際案例太少;②沒有完善的平臺支持(如平臺搭建、實驗環境等);③師資力量不強,任課教師的知識結構需更新;④大數據實驗門檻太高(對計算資源需求大);⑤學生只靠十幾個實驗學時是無法真正提高技能的;⑥學生能隨時隨地做大數據的實驗;⑦課件和案例需要更新;⑧學校網絡環境不好,需要離線實驗;⑨機房教師工作負擔過重、壓力大,效率低。
美國數據分析科學家Derek Wang 博士認為,“企業數據分析,中美在理念方面相差2~3 年,而在實際執行層面或許有5 年左右的差距。”3~5年的差距,在瞬息萬變的信息社會,是一道不小的鴻溝。那么這道鴻溝,到底是怎么造成的呢?
美國在數據分析方面的教育上,就在努力轉型實踐“T”字形理念:科研項目不再是由計算機系、商學院或者統計專業的學生單獨進行,而是多個專業融合起來,形成整體戰略方向,也就是“T”的那一“橫”。這種前沿的教育理念,即使在美國,也才出現不到三四年,但它取得的效果是根本性的:正是在這樣的教育方式下,美國培養出了第一批數據科學家,引導了企業的數據革命。
中國受到傳統教育體制的限制,更重視縱深的專業技能,也就是“T”的那一“豎”,缺少跨學科和專業的綜合性體制建立。這樣培養出來的人才,無法主動引導企業建立和完善數據分析機制,讓企業可以在短時間內就從“數據分析”中受益。這也反映出中美人才梯隊和培養機制的巨大區別[6-8]。在Derek Wang 博士看來,數據人才培養上的差異,是造成中美大數據產業“五年鴻溝”的根本原因。
針對國內高校大數據教學現狀,比較中美兩國數據人才培養上的差異,本文探討新形勢下的數據人才培養模式。這種數據人才培養模式主要圍繞彌補教育體系不足、轉型數據人才培養觀、產學研融合、大數據項目案例驅動教學改革等方面展開,如圖1 所示。
近年來的諸多實踐證明,想培養真正合格的大數據人才,產學研融合是一條可行之路,也是必由之路。甚至可以說,大數據產業的高速發展正在倒逼高校大數據與人工智能學科的建設。這也是為什么中國像百度、騰訊、華為、阿里巴巴、科大訊飛等互聯網企業如此重視與高校的合作,或推出一站式開發平臺,或向高校輸送企業導師,或與教育主管部門合作舉辦師資培訓班并進行教材編纂……雖然這些舉措對于企業來說顯得有些“不務正業”,但從某種程度上來說,這些企業的眼光才是真的長遠[9]。
眾所周知,學界和業界應該教學相長,這個教學相長也是雙贏的過程。高校可以從企業界得到最前沿的資源和數據;企業則可通過一系列的措施進行人才儲備、產業布局、技術迭代等,從而占得發展先機。
在大數據蓬勃發展的今天,無論是高校還是企業,如果能更好地抓住產學研融合的機遇,勢必能贏得先機和主動,獲得長足的發展。中國的大數據教育最終會在高校和企業不懈地努力與深入合作之下,開花結果,培養出真正合格的數據人才。這是中國高校大數據教育的必由之路。
建設在線學習與實驗平臺,給學生創造隨時隨地學習的實驗環境。一臺筆記本就可以開始實驗,有網絡時用網絡上的大平臺實驗(如百度的AIStudio 在線平臺),無網絡時用我們開發的實驗系統也能實驗。學生可以隨時隨地沉浸式學習。例如,開課用的實驗平臺采用多種平臺集成VMWare+Ubuntu+Spark+PaddlePaddle 等。該平臺對硬件平臺的要求低,I5CPU+4G 內存的普通PC 能在2 個小時的上機時間內完成多個大數據實驗,一站式解決大數據上機難的問題。該方案適合解決學校短期內大數據平臺建設尚未完善、經費不足而急需開課的問題[9-10]。
大數據理論教學必須與工科專業結合,以相關案例驅動大數據教學過程。
在理論教學中,以案例應用為載體,采用以點帶面的思路進行教學內容的組織,細化教學目標并編寫講義。例如,在大數據教育體系中,“大數據基礎”課程是一門必修基礎課程。該課程基于分布式架構實現技術,技術內容豐富,涵蓋數據采集、預處理、存儲、管理、數據分析與可視化等。通過分析該課程的定位、教學內容與教材現狀,我們細化教學目標,確立了以相關案例驅動大數據教學過程的思路,并組織編寫教材用于實際教學,取得了良好的教學效果。
實驗教學,以知識應用與實踐技能培養為重點內容。在大數據實驗實訓環節,以案例應用為載體,設計實際應用場景,學生組隊(3~5 人一組)完成項目案例實驗。同時,適度引入大數據最新技術以保證課程內容先進性。以“大數據基礎”課程為例,該課程需要系統講述大數據典型軟件的安裝、使用和基礎編程方法,使學生系統地掌握操作系統(Linux 和Windows)、開發工具(Eclipse)以及大數據相關軟件(Kafka、Hadoop、HDFS、MapReduce、HBase、Hive、Spark、數據可視化工具)。為了達到教學目標,我們在編寫教材時,精心設計了15 個實驗案例,基本覆蓋了課程的主要知識點,“大數據基礎”課程教學全過程由大數據實際項目案例驅動。
針對大數據處理需要復雜度更低的可行算法,甚至在有些情況下需要設計并行算法,安排專門環節教授并行計算相關內容,設計實踐導向的課程項目,訓練學生的自主編程能力。由于基于分布式架構實現技術,相對于傳統課程,“大數據基礎”課程的教師教學與學生學習難度更大。對于分布式并行環境下的機器學習與數據挖掘主要算法,如MapReduce 編程、PageRank 算法、深度學習應用案例等,我們都安排專門環節教授相關內容并設計實驗案例,確保學生并行計算自主編程能力達到教學目標要求。
實踐表明,以在線學習與實驗平臺為基礎,通過案例問題導向的方式更容易激發學生的學習興趣和對理論的理解。另外,在具體案例分析過程中,多采用以點帶面的內容安排技巧,從一點出發逐步擴展,可以更好地幫助學生獲得課程理論的清晰脈絡。
大數據教育對教師提出了更高的要求。教師既要對計算機等信息類學科有較深的認識和理解,又要熟悉大數據應用技術,特別是要有大數據實際系統開發經驗[9]。
目前,相當多的高校盡管已開設了大數據相關專業或課程,卻存在師資嚴重缺乏的現象。由于數據科學人才需求旺盛,愿意進入高校從事大數據教育的人才非常多,但現有的師資大多來源于計算機等與大數據相近的學科,多數教師并無大數據項目經驗。此外,由于時間緊迫以及經費不足等原因,教師培訓機會也不多。
合格的師資哪里來?①大數據教學不是單純的課堂理論教學,它的實踐性要求由項目案例驅動教學。教師需要科學研究的積累,才能設計出好的大數據項目案例,教師要想盡辦法多申請或參與大數據方面的課題;②加強與企業的交流與合作,參與大公司的實際項目。大數據教育工作者最缺乏的就是易于理解與操作的實例,而這些實例恰恰不在高校,在企業中;③有計劃地選派教師參加大數據師資培訓,由于大數據與行業結合緊密,培訓最好結合企業實際案例,切實提高教師對應用層面項目的實戰教學能力;④鼓勵教師積極采用現代教育技術,建設大數據精品課程,在項目案例驅動的大數據教學改革中,引入工業界廣泛應用的框架和項目案例,開發實驗系統平臺、編寫實驗指導書、開放在線學習與交流平臺,全方位地提高教師教學能力與水平。
相對于傳統課程,無論教師教學還是學生學習,大數據課程的難度更大。為了取得良好的教學效果,實現課程教學的目標,教學方式的改革很有必要。
在大數據課程教學實踐中,以學生為主體,根據學生志趣與課程特點,在理論與實驗教學過程中,設計以案例驅動教學、以問題提升教學、以“鼓勵”提升教學3 種先進教學方法。同時,積極使用現代教學技術與手段,如申報慕課、借鑒翻轉課堂手段等。
在課程考核方面,采用平時、理論與實踐相結合的多樣化考核方法。考核內容強調實踐操作能力與應用技能考核,加大實踐考核的比例。比如,在總分100 分中,平時成績(包括考勤、作業、課堂提問等)占20%,理論考核(期末)占30%,實踐技能考核占50%。
大數據課程考核的成績評定由平時、理論、實踐相結合綜合評定,考核方法向多元化、全程化、科學化、綜合化轉變,通過課程考核的引領作用來激勵學生的積極性,切實提高教學質量。
“以學生為中心”,以多種方式充分激發學生的主動性與創造性。
1)完成課程設計。
只靠十幾個課程實驗學時,只能完成實驗環境及基本技能訓練,還要通過工程實訓與課后學習等環節完成課程設計。
2)參加技術競賽。
數據科學人才僅僅在課堂上的培養是遠遠不夠的,需要通過實操的方式來學習知識。技術競賽是最好的實操,考驗著參與者全方位的技能,也能在短期內最大限度地激發人的潛力[10]。
3)鞏固與分享知識。
學生通過查閱大數據慕課教師課堂總結、完成工程實訓課程設計、參加技術競賽等方式,將課堂教學獲得的知識得到鞏固、內化與提升。通過慕課小組論壇,學生也可以分享學習體會和學習經驗。
現階段大數據教學存在的主要問題,一方面是重視不夠,不少高校還沒有開設專門的大數據教學模塊;另一方面,已開設的大數據相關課程,常常存在專業案例教學弱化,忽視自主編程能力培養等現象。這些現象與問題,是與國家大力提倡的新工科的要求相悖的,需要引起足夠重視。
新工科背景下,大數據課程教學改革與實踐,其目標是通過交叉融合、共享、創新等主要途徑培養多元化、創新型數據人才。要以社會需求與企業需求為導向,計算機科學與技術、統計學、智能科學等相關專業進行交叉融合,重構人才知識體系。創新教學方式與技術、精選教學內容、強化實踐創新創業能力,加強產學研融合、切實做好大數據課程建設工作,為金融、商業、電信等領域數據科學工作提供合格的高級工程技術創新人才。