陳燕 黃敏 王聰

摘要:文章理順了大數據與商務智能、數據挖掘等相關課程的關系。根據多年來主持國家、省部級大數據相關項目和教學經驗,就大數據課程內容體系構建、如何講授大數據課程及大數據實驗和應用體系設立等提出大數據課程內容體系創新模式。
關鍵詞:高校;大數據;課程體系
中圖分類號:G642.41 文獻標志碼:A 文章編號:1674-9324(2019)36-0179-03
一、引言
大數據時代,人們越來越依賴互聯網,各類活動產生海量數據。這些數據在不同領域帶來不同的管理與決策分析模式。專家們認為:大數據已經作為人類歷史上最重要的一次信息革命。經過十多年的發展,國內外各行各業都在運用大數據存儲、分析與處理方法,對這些數據進行深度挖掘和分析,創造了更高的經濟效益。通過近年的電子商務營銷情況,我們可以看到網絡大數據產生的效果和重要意義。例如,2017天貓“雙十一”啟動僅過28秒,成交額便超過10億元人民幣;同城物流行業應用中,貨拉拉的貨主端App和司機端App的MAU(月活躍用戶數)分別為250萬和57萬,高居行業首位;滴滴擁有超過4.5億用戶,目前在中國400多個城市開展服務,每天的訂單量高達2500萬,相當于全球其他市場(包括美國)的總和,所有移動出行市場總量的2倍,每天要處理數據4500TB,相當于450多萬部藍光電影。總而言之,我們每時每刻都在產生海量數據,如何處理和分析這些數據,已經成為業界專家研究的熱點問題。
大數據的到來,不僅需要科學工作者和專家了解大數據的概念、知識以及如何處理和分析大數據,還要及時培養大數據專業技術人才。因此,國外多數高校針對大數據開設大數據課程并立項開展應用研究。據500強公司統計表明:85%的公司都籌劃推出大數據項目,如麻省理工學院、哈佛大學、伯克利、印第安納州立大學等率先開設大數據課程。國內多數高校陸續在研究生和本科高年級開設了大數據課程,到2017年底,已有283所高校獲得大數據專業設置的認可。對高校新開設的專業基礎課程的師資來講,急需解決的關鍵問題是:(1)如何理順大數據與商務智能、數據挖掘及相關課程的關系;(2)如何講授大數據課程;(3)大數據課程包括哪些內容;(4)大數據的教材體系、實驗體系包括哪些內容等。根據我們多年來主持國家、省部級數據處理與決策相關項目的應用研究,以及近年來開設的大數據相關課程,本文探討的大數據課程內容體系的教與學方法意義重大。
二、大數據專業課程內容體系創新模式
依據多年的教學經驗和教學方法,將大數據專業課程內容體系的創新模式分如下五個主要部分:(1)大數據課程授課的前驅與后繼課程;(2)大數據課程內容體系;(3)大數據課程的實驗體系;(4)大數據的應用工具;(5)大數據課程的模型系統。
(一)大數據課程授課的前驅與后繼課程
通過大數據課程授課的前驅與后繼課程,得知大數據課程的開設條件,主要分為大數據的前驅課程、大數據課程和大數據的后繼課程。
(二)大數據課程內容體系分類
大數據課程內容體系劃分如下五類,主要包括:大數據課程理論體系、大數據課程內容體系、大數據課程實驗體系、大數據的應用工具與大數據課程的模型系統。
1.大數據課程理論體系:包括前驅課程理論體系和后繼課程理論體系,如圖1所示。
2.大數據課程內容體系(如圖2)。
3.大數據課程實驗體系(如圖3)。
4.大數據的應用工具(如圖4)。
5.大數據課程的模型系統。將大數據課程的模型系統分為兩部分:第一部分是大數據的基礎模型;第二部分是大數據的經典模型。
(1)大數據的基礎模型包括預測模型系統、優化模型、決策模型。
預測模型分為定量預測模型與定性預測模型,常用的定量預測模型如圖5所示,定性預測模型如圖6所示。
常用的優化模型有:單目標優化模型、雙目標優化模型、多目標優化模型、兩階段優化模型、分層多目標優化模型、魯棒優化模型、多目標模糊優化模型、動態決策優化模型、廣義粒子群優化模型、時間特征優化模型、組合優化模型、多產品多階段庫存優化模型、魯棒優化模型、基于影子價格應用的優化模型、投入產出優化模型等。
決策模型包括:基于最大(最小)后悔值的魯棒決策模型、基于組合優化的決策模型、多階段群體決策模型、基于滿意度最大的多準則群決策模型、模糊決策模型、基于AHP的優化決策模型基于屬性約簡的決策模型、基于貝葉斯的風向決策模型。
(2)大數據的經典模型。并行計算模型:分布式并行計算模型、分層并行計算模型、多Agent的并行計算模型、異構并行計算模型、面向對象的并行計算模型、基于網格的并行計算模型、基于分區計算的丙型計算模型、混合并行計算模型、并行排序計算模型。
文本挖掘模型:LDA主題模型、文本相似度判定算法、聚類分析模型、lD3決策樹模型、基于概率統計的BAYES分類模型、Markov~型、文本模糊聚類、文本K-means聚類、基于Hadoop環境下的關聯分析、基于粗糙集的不確定信息挖掘模型、基于時間序列的文本挖掘模型、SOM神經網絡聚類、PCA主成分分析模型、網頁排序模型、MMR等模型。
圖像與視頻分析模型:小波變換模型、基于小波變換的圖像壓縮、基于多目標優化的圖像處理模型、基于QSCAR集群的并行圖像處理模型、KMP模式串匹配算法模型、模式識別學習一人工神經網絡一BP算法、基于卷積神經網絡的匹配代價算法、基于卷積神經網絡的匹配代價算法、Hebb學習規則與線性聯想器、模式識別學習——遺傳算法、馬爾科夫隨機模型、基于Hadoop的圖像研所欲處理模型、
圖數據庫及關聯分析。常見的主流圖數據庫有:NeO4J、ArangoDB、OrientDB、InfiniteGraph、具備高性能及優秀可擴展性的DEX圖形類數據庫、“網頁圖形數據庫”InfoGrid、老牌圖形類數據庫AllegroGraph等。關聯分析模型有:Apriori算法即快速發現知識的算法模型、基于Hadoop環境下的Fp-free關聯分析模型、基于灰色系統理論的關聯度分析模型、典型關聯分析(Canonical Correlation Analysis,簡稱CCA)作為最常用的挖掘數據關聯關系的算法模型。
上述模型根據大數據相關研究領域與內容,確定所選用的模型。
三、講授大數據課程方法的探討
(一)注重大數據前驅課程具備的知識點
分清學習大數據課程之前具備哪些知識點,如大數據前驅課程知識是否滿足該課程的開設要求?有的學生計算機專業基礎較好,但數學建模較差;有的學生恰好是與前面相反的狀態;還有的學生沒有學好數據結構、數據庫原理、高級語言程序設計等重要的計算機專業基礎課程,可能會直接影響大數據課程的理解能力;還有的學生高等數學、計算方法等前驅課程學習不好,再加上選修課程面窄,也會影響大數據課程學習效果。因此,根據多年教學經驗,提出學習大數據課程前必須具備的前驅課程主要知識才能學好這門課程。
(二)注重大數據知識圖譜的講授方法
由于大數據的應用是跨系統、跨平臺、跨領域的,所以講授本課程時,必須運用面向某全局領域的案例來講授,按照某領域的知識圖譜展開研究,以便將大數據的關系、實體、關聯知識點描述出來,讓學生通過大數據這門課,掌握大數據的知識圖譜及相關知識點。
(三)注重大數據課程理論與實踐相結合的教與學的方法
根據學生學習大數據之前所具備的知識點,在講授本課程過程中,要注重運用理論與實踐相結合的教學模式。例如,講授實現某并行運算如基于Hadoop環境并行計算的關聯規則算法時,運用逐步求精法來講授,具體如下:(1)先介紹關聯規則算法理論;再運用一個應用例子即大型數據庫例子,按照計算方法,分別求出項集的候選項、強項集、支持度和可信度與規則;(2)介紹基于并行環境(Hadoop環境)的關聯規則算法,即FP-TREE算法的實現,經過幾輪講課,將一個復雜的例子,運用通俗易懂的方法講授,以便收到更好的講授效果。
(四)注重大數據架構建立和案例的教與學方法
大數據課程建立在數據庫、數據倉庫與數據挖掘的基礎上,要想在大數據環境下講授大數據的采集、綜合管理與分析,必須在了解和掌握數據庫與數據倉庫搭建架構的基礎上,才能理解和掌握大數據架構的搭建。
四、結語
近年來,隨著學術界和實業界對大數據研究與應用的關注,很多高校設置大數據相關課程。本文通過總結近幾年筆者在大數據研究和相關課程中的講授經驗,提出大數據專業課程創新模式。該模式總結了大數據課程授課的前驅與后繼課程、大數據課程內容體系、大數據課程實驗體系、大數據的應用工具及大數據課程的模型系統。針對該創新模式,也探討了大數據課程的講授方法。該模式對高校大數據課程設置和相關教學工作提供一定的參考,也為師生學習大數據課程提供理論參考。