王穎純,張紫荊,馮 嬌,賈雪琳
(天津理工大學管理學院,天津 300384)
目前,全國各大高校都在陸續開設大數據管理與應用專業,專業性質決定了該專業的學生需要了解大數據管理的相關原理,掌握相關理論和技術,理解大數據技術在實際管理和決策中的應用。當前社會信息化發展速度迅猛,大數據管理與應用作為一門新興應用技術型專業在課程設計等方面尚不夠成熟,各高校大數據管理與應用專業的實驗課程體系較社會需求來說相對滯后,各高校有必要完善該專業的實驗課程體系,對該專業的教學內容進行課程改革,在學習理論課程的同時,加強實踐能力,加快學生對社會環境的適應速度。本文以天津理工大學大數據管理與應用實驗室建設為背景,對該專業的實驗課程體系的建設進行探析。
大數據管理與應用專業是一門多學科交叉的綜合性學科,旨在培養復合型人才,要求學生不僅要具備信息系統方面的專業技術,還要具備管理能力。因此,該專業雖然屬于管理類,但是要求學生在具備信息化方面的專業知識的同時也要擁有實際操作能力,現在的企事業單位非常重視該專業學生能否在工作中充分發揮大數據的優勢處理實際問題。然而目前該專業的實驗課程體系在專業技術知識和處理實際問題方面的融合與社會要求相比依然滯后,這也說明該專業的實驗課程體系不夠完善,實驗課程設計不能接軌業界需求,學生難以將專業技術知識向解決問題的行為能力順利過渡。當前大數據管理與應用專業的實驗課程體系不夠合理主要表現在兩個方面:其一是上機實驗課時占總學時的比重不足;其二是具體實驗課程中實驗操作內容綜合性不足。
劉莉[1]認為大數據管理與應用專業的改革應結合本專業培養目標,做到教師主導,學生主體,讓學生對專業感興趣,主動學習思考,提高實踐能力,在畢業求職過程中有較強的自身優勢。魏小龍[2]認為目前實驗教學出現為題的原因在于對課程在專業體系中的作用分析不到位,學生進行實驗的主動性較差,應該重構課程內容,聯系運維實際,以實際操作考核的形式進行考核。劉海燕[3]認為大數據管理與應用專業應注重實踐過程,堅持“理論與實踐并重,知識與運用相結合”原則,及時更新和改革現行的教學內容,通過拓寬學生的知識面,培養學生分析和解決實際問題的能力,發展學生的創新能力,逐步縮小社會需求與人才培養之間的差距和矛盾。吳湘寧等[4]梳理了大數據專業知識體系,認為設計實驗課程體系需要在考慮畢業生的職業定位的同時,選擇被業界認可的通用技術和實驗平臺開設實驗課程,提出了在不同環境下建設大數據實驗室時所對應的方案,以及相關的實驗課程體系和具體的實驗項目。劉芳[5]通過分析大數據人才需求,詳細介紹了大數據實驗教學平臺的搭建流程,并設計了對應的具體實驗項目,采用開放實驗室的管理模式,讓學生開源自由選擇時間進行仿真實驗,一定程度上解決了實驗課時不足的問題。
大數據管理及應用學科,正在開展研究如何利用信息系統實現管理與控制。它具備雙重意義:一是運用大數據處理網絡系統進行大數據分析,二是運用大數據處理網絡系統進行大數據的研究和實證。在進行信息處理與數據分析過程中,所需的數據處理人員為大數據處理工程技術人員、大數據分析人員和大數據處理科研人員以及專門負責大數據處理工作的專業技術人員。在數據傳輸過程中,他們有自身的責任。相應的程序設計能力均可在專業知識板塊中獲取,而信息處理能力、大數據挖掘及其可視化能力就需要相關的學科來支持。具體內容如圖1所示。

圖1 數據人才的職責與技能
大數據是研究數據的類型、現狀、屬性、形式和數據變化規律的學科,因此大數據的課程和教學改革應該在考慮大學四年的情況下實施,首先遵循數據分析的生命周期。大數據學科考慮到它自身的學科特點將其分為三個模塊,主要包括基礎理論課程模塊、分析技術課程模塊和商務數據實踐課程模塊。理論的研究方式主要包括利用數據進行科學的觀測和對基本數據的邏輯推理,運用數據特征和數據推理方法及其中的觀察方式,完成生命周期中的業務理解和數據感知;而分析技術主要是利用核心的方法對大數據進行探索與研究,以便學會認識和把握大數據分析變化中的各種類型、狀態、屬性、類型,以及變化規律;而商務數據實踐工作則主要應根據高校的工作特色和專業化,把大數據分析科學研究的理論與方法運用到多個應用領域。主要課程詳見圖2。

圖2 大數據管理與應用專業主要課程
2.3.1 Hadoop平臺
Hadoop是一種分布式系統基礎架構,能夠對海量數據進行處理,是當前各大企業進行大數據開發的首選。Hadoop生態系統支持結構化查詢語句,具有關系型數據庫的優勢。通過開設Hadoop實驗課程,使學生掌握開發平臺的搭建流程,理解MapReduce并行計算的算法設計,學習通過調整Map和Reduce的各項參數調優性能。目前國內能夠熟練掌握Hadoop技術的人才非常稀少,開設Hadoop實驗課程讓學生掌握 Hadoop使用方法是培養學生使用大數據平臺,進行數據的分析處理等操作的前提條件。
2.3.2 Spark計算引擎
Apache Spark也是一種開源集群計算環境,為大數據處理提供通用并行框架。作為Hadoop的補充,Spark能夠在Hadoop環境下并行運行。Spark通過將運行過程中的中間輸出結果在內存中進行存儲[6],能夠提供比Hadoop更快的速度和更高的性能,通過建立在Java、Scala、Python、SQL的標準API也使其具備更強大的易用性。此外,Apache Spark由Scala實現,代碼比較簡潔,但存在一定的門檻,開設Spark實驗課程能夠為該專業學生作為大數據處理工程技術人才使用 Spark進行數據系統的管理與維護打下基礎。
2.3.3 Linux操作系統
Linux是一款典型的開源操作系統,由于其性能穩定,也是目前最常用的開源操作系統。Linux被廣泛應用于各種嵌入式開發領域,網絡運維人員也將其作為服務器使用[14]。掌握Linux操作系統是搭建Hadoop集群的必要條件。通過開設 Linux實驗課程,使學生在上機操作的過程中熟悉Linux系統中的常用命令語句,是后續學生在Linux系統環境下搭建Hadoop平臺進行操作時的必備技能。
2.3.4 基于Python的數據爬蟲和數據處理
網絡爬蟲是Python的優勢領域,使用Python編寫爬蟲可以自動抓取互聯網上的信息,能夠支持大量并發操作,是大數據處理人員獲取數據的重要途徑。Python簡單易學,可讀性強,其豐富的庫還能夠為數據分析提供大量工具集,相比常規的數據處理軟件,Python能夠處理規模更大的數據集以及更復雜的數據邏輯。數據的收集和預處理是大數據處理工程技術人才的必備技能。通過開設Python實驗課程,使學生掌握通過爬蟲獲取數據的方法,才能夠為后續使用HBase進行數據挖掘、大數據分析等操作提供數據源,也是大數據分析人員進行算法設計和挖掘模型開發的參考依據。
2.3.5 HBase開源數據庫和Hive數據倉庫
HBase屬于分布式數據庫,為Hadoop中的數據提供存儲服務,并通過MapReduce管理存儲在數據庫中的數據。區別于一般的關系數據庫,HBase不屬于關系型數據庫,也不支持SQL。HBase基于列的模式存儲數據,進行數據檢索查詢只需訪問相關列。通過實驗使學生熟悉HBase中增刪改查的相關語句,掌握在Hadoop和HBase之間進行數據遷移的相關操作。
Hive使用HQL這種類SQL查詢語言,是一種建立在Hadoop上的數據倉庫架構。大數據分析人員通過使用Hive對存儲在HDFS中的數據進行管理和分析,并使用MapReduce完成命令的執行。HBase和Hive在大數據架構中占據的位置不同,發揮的作用也不同,HBase主要進行明細數據的實時查詢的操作,Hive主要用于進行大規模靜態數據處理和計算。通過實驗使學生熟悉HBase和Hive的功能并結合使用能夠得到相得益彰的效果。能夠熟練使用HBase和Hive進行數據管理是學生將來作為大數據分析人員通過數據挖掘和分析,提煉有效信息,并結合管理理論輔助企業經營決策的重要手段。
大數據管理與應用專業在教學過程中,應注重理論與實際相結合,強調課程學習與實踐操作相結合。遵循老師主導,學生主體的原則。在實驗課程中,增強實驗探究性,給予學生充分發揮的空間,在講好理論前提之下,最大程度保證學生實驗時間。在實驗課程中提出問題,讓學生自主思考,給予學生充分的實驗時間以及試錯機會,使學生在實驗過程中更好地體會理論知識并加以掌握,讓實驗課程發揮最大的作用。對于基礎較好的同學,要鼓勵其進行創新型實驗以培養創新型人才。
教師在設計實驗課程的時候應根據課程體系要求,分析各門課程在課程體系中的作用,重構實驗課程內容。鑒于大數據管理與應用專業的專業特點,要求該專業學生綜合掌握各方面知識,導致理論知識過于繁雜,教師應平衡理論內容教學課時與上機實驗課時之間的關系,將理論體現在實踐過程中,擺脫“重理論輕實踐”的現象。在具體實驗設計上,不僅要設計驗證性的基礎案例,也要強調案例的綜合性和創新性,激發學生的探究精神和思維能力。教師應主動利用各個實驗課程之間的相關性,倡導學生結合多門實驗課程完成實際操作考核,培養學生的綜合應用能力。
大數據管理與應用專業具有很強的創新性和實踐性,注重學生的實踐能力。在理論知識扎實的基礎上,對實踐性較強的實驗課程開展校企合作。由于企業對實踐能力要求較高,而學校相對企業來說實驗的前沿性不足,在課程講授方面,可以實施雙教師模式,邀請企業相關人員進行實驗課程講授,結合實際案例,從專業角度指導學生進行上機實驗,使實驗更貼切實際,讓學生更容易進行實操并與企業接軌,學校教師輔助企業人員解答學生疑問,使學生了解最前沿的技術和應用,對相關知識有更加深入的了解,在實驗過程中真正掌握一門技術。例如編程課程,學校講授基礎理論,上機操作比較簡單或有一定的模式可遵循,引入雙導師制度,企業真實案例更有助于學生實操能力的提升。
大數據管理與應用專業是一門綜合性較強的專業,旨在培養可以利用本專業知識開展信息系統策劃、系統分析、設計與實現,能熟練利用數據挖掘、數據分析等技術手段支持組織管理決策的人才。相對應的實驗課程也應該更加豐富,對有實驗需求的課程要嚴格落實,給予學生充分的實驗時間。在每一門實驗課掌握良好的基礎之上,設置綜合實驗課程,使學生對課程之間的關系有進一步的認識,培養復合型人才。在條件允許的情況下,和企業達成合作,讓學生有機會去企業實習,把課堂設置于企業之中,使學生在更切實的實驗條件下進行學習,更有利于課程的推進,有利于學生的發展。
在大數據背景下,大數據管理與應用專業要凸顯專業優勢,設置先進合理的課程體系,而不是把課程機械的組合在一起,要培養復合型人才,培養與時俱進、符合時代需求的人才,為學生未來發展打下良好的基礎。大數據管理與應用是實踐性很強的專業,分析問題解決問題以及動手實踐能力是本專業的核心能力之一。本專業一部分實踐能力的培養是通過課程中的實驗環節實現,獨立實驗課程較弱,本研究的結論是加強獨立實驗課程建設,并且由于本專業技術更新日新月異,所以實驗課程的設置要與時俱進,緊跟當前技術熱點,這不是一次性教改可以達到的目標,實驗課程建設要常態化,才能使畢業生更快地融入工作崗位。