熊飛 曹涌 孫永科


摘要:數據科學導論是數據科學與大數據專業中很重要的導論性課程,課程中涉及了統計學、計算機、機器學習和深度學習的大量前沿內容,具有理論復雜、知識點繁多的特點。理工科基礎較為薄弱的林業院校學生掌握難度較大。本文提出了數據分析基礎、機器學習與深度學習和數據管理與產品開發的三大模塊構成的課程體系以及相應的教學模式,側重于培養學生以數據為中心的思維模式,形成了符合林業院校特色的導論課程。
關鍵詞: 數據科學導論; 課程改革; 導論課程; 林業院校; 思維模式
中圖分類號:TP391? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)15-0147-03
Abstract: Introduction to Data Science is an important introductory course for Data Science and Big Data Technology, which covers a wide range of cutting-edge content in statistics, computers, machine learning, and deep learning. Therefore learning of this course is a challenging work for? students that whitweak foundations in science and engineering in forestry universities. A teaching model focus on cultivating a data-centric mindset is introduced in this paper, which includes three parts: data analysis, Machine learning and deep learning, data management and product development. The redesign of Introduction to Data Science makes it conform to the characteristics of forestry university.
Key words: introduction to data science; course reform; introductory course; forestry universities;
1引言
2015年由國務院印發了《國務院關于印發促進大數據發展行動綱要的通知》標志著國家把大數據上升到了國家戰略的層面,隨后在2016年教育部在《教育部高等教育司關于2016年度普通高等學校本科專業設置工作有關問題的說明》中增加了數據科學與大數據技術專業(專業代碼:08910T)來促進數據科學專業人才的培養。當年就有3所高校獲批數據科學與大數據技術專業。隨后在2017年的第二批次和2018年的第三批次中,又分別有32所和248所高校獲批,到2019年全國共有479所高校設立了數據科學與大數據技術專業[1-2]。
在設立有數據科學與大數據技術專業的很多高校中,都設立了數據科學導論這門課程作為該專業的導論性課程,例如:中國人民大學的數據科學導論和上海健康醫學院醫療器械學院專業院校開設的大數據科學與技術導論。而該門課程通常開設在大一下學期。而《數據科學導論》是該專業的入門引導性課程,以培養學生的專業認知為目標,所以將會涉及數據科學專業后續課程的方方面面。涉及的方面主要包括:數據分析基礎、數據處理方法和工具、數據的獲取與存儲、數據挖掘和算法和數據可視化等內容。這些內容涉及的知識點又包括三個方面:1)數學知識,例如概率論和統計;2)計算機知識,例如數據庫;3)機器學習與算法:例如分類、回歸、聚類。學生在這個時期,僅僅接觸到高等數學,計算機基礎和程序設計等幾門基本的課程。這就造成了學生大一階段的知識儲備可能無法理解該門課程所涉及的數學、計算機和機器學習的知識點。所以在該階段如何解決學生知識儲備與課程內容不匹配的矛盾是該門課程建設的首要任務。
2國內外研究現狀
2.1 國外研究現狀
鄭州大學信息管理學院的楊瑞仙等人通過網絡調研廣泛收集日本10所數據科學核心院校的數據科學專業的課程建設情況后,發現日本這幾所高校將該門導論性課程放在整個課程體系的通用類模塊中[3]。該模塊主要教授數據科學的基礎理論、思維方式和實踐練習。在教學中,很多學校又將這部分內容拆分為包含統計分析的數理模塊和包含機器學習等內容的計算機模塊。通過詞云等分析,楊瑞仙等人指出開數據科學人才培養中,日本比較重視數據分析處理能力的要求和應用技術解決社會問題能力的培養。
數據工程與知識工程教育部重點實驗室(中國人民大學)的朝樂門分析比較了哥倫比亞大學、紐約大學和哈佛大學數據科學導論課程的教學內容后,總結發現這幾所大學的課程更加側重于實操能力的培養,重視數據分析與行業應用的結合[4]。相比于日本10所數據科學核心院校的課程內容,這3所大學的基礎理論部分都差別不大,只是更加側重于動手操作能力的培養。
武漢大學信息管理學院的趙蕊菡等人對國外主要MOOC平臺(如Coursera、edX、Udacity等)上數據分析類課程進行了調查與分析,將52門課程分成數據分析基礎、數據分析工具、數據分析應用和大數據分析4個類別[5]。其中數據分析基礎中很多課程的定位類似于數據科學導論這門課程,比如約翰霍普金斯大學的探索性數據分析課程和奧克蘭大學的理解數據課程。但這些課程存在的主要問題是課程內容的涉及領域相對較窄,不足以滿足導論性課程所要求的覆蓋廣度。
2.2 國內研究現狀
在國內,探討該課程設計的研究還不太多。其中主要有朝樂門在中國人民大學開設的數據科學導論[4]。朝樂門從2015年起就開始從事數據科學的教學和研究工作,他的課程主要注重于大數據時代新數據與老知識的矛盾,內容不僅涉及數據科學的核心理念,還率先將數據產品開發、數據化故事等內容率先引入該類課程。
在淮南師范學院又陳磊開設的數據科學導論課程中,設計了七個模塊,包含了計算機數據庫的基礎知識、統計基礎與數學建模以及數據挖掘人工智能。這個課程注重基本原理算法的介紹,擴展學生的視野[6]。
劉巧紅在上海健康醫學院醫療器械學院紅探索了該門課程在特色性院校中的實踐方案。課程建設中貫穿了大數據相關技術在解決臨床及健康管理等方面的實際案例中的應用,設計了很多具有醫療健康領域特色的實踐案例[7]。
3課程建設目標
3.1 數據科學與大數據專業的課程體系
在2010年,DrewConway提出了第一張揭示數據科學的韋恩圖,如圖1所示[8,9]。該圖首次探討了數據科學的學科定位問題。從圖中可以看出,是數學統計與計算機中機器學習的交叉學科。此外數據科學也不是單純的計算機與數學的問題,在處理具體問題時需要該領域的相關知識。同時圖中的黑客精神與技能表示著數據科學研究需要較強的編程能力。
在DrewConway的數據科學維恩圖基礎上,數據科學專業的知識體系主要以統計學、機器學習和計算機相關知識為理論基礎,主要研究內容包括數據科學基礎理論、數據加工、數據計算、數據管理、數據分析和數據產品開發。
3.2 數據科學導論課程的建設目標
根據數據科學與大數據專業的知識體系,導論性課程要引導學生對本專業的認識和了解,所以該課程在知識體系上必須具有一定的廣度。與此同時,課程的廣度就帶來了知識點較多的問題,很容易讓學生覺得該專業較難。所以該課程應該注重基礎概念和基本原理的介紹,不宜過多的講解數學背景和算法的細節。此外在西南林業大學的實際教學中,貫穿該課程另外一條主線就是要將數據分析和大數據處理的相關技術貫穿在解決林業研究中的具體應用。比如深度學習中的識別技術在鳥類識別和木材識別中的應用,傳感器網絡在森林環境檢測中的應用。因此在課程中設計了數據分析基礎、機器學習與深度學習和數據管理與產品開發三個模塊,設定了三個教學目標,培養學生不同的三種能力。整個課程體系如圖2所示。
通過結合數據科學的相關知識和林業研究中的具體問題,該課程要培養學生以數據為中心的思考能力,同時引導學生了解在林業研究中如何進行數據的采集、加工、計算和數據管理開發的整個過程。
4數據科學導論課程體系的構建
4.1 數據分析基礎
該課程的數學部分主要涉及統計學中的相關知識,而相應的數理統計與概率論等課程學生也才剛剛接觸。在這部分的教學中,學院以認識數據和探索數據為出發點進行教學。首先講解數據的屬性和屬性的類別。讓學生知道數據中有的屬性是分類屬性、有的是數值屬性,它們的處理和統計方式是不一樣的。
在上一步認識數據的基礎上,講解數據的探索性分析,從而了解這些數據的面貌。這部分內容包括數據中心趨勢度量、離散度分析、數據分布特征和簡單數據可視化等內容。這部分主要涉及會涉及統計中的極值、方差、正態分布等內容,所以數學相對較多。為了過多地去講解其中的數學原理,學院引入了折線圖、直方圖和箱線圖等簡單的數據可視化,使學生能夠更加容易的去理解統計學中的相關理論。
通過對單維度的數據探索性分析后,課程安排了多個變量的關聯性分析。其中內容包括:相關性分析,皮爾森相關系數等內容。這部分教學內容的加入使得學生的分析角度不再是單一變量,而是擴展到多維度的變量。
以上三部分的教學,使得學生對數據有了初步的認識后,就可以進行偏重實踐操作的Pandas教學中。在這部分的教學中,通過類比Excel的基礎操作,講解如何利用Pandas進行數據分析和探索。除了實踐操作的教學,課程中只涉及異常值處理這里理論部分的教學。
4.2 機器學習與深度學習部分
這一部分的教學是整門課程的教學難點和重點。難點在于該模塊會涉及機器學習與深度學習中的很多算法,比如線性分類、線性回歸、聚類分析和深度神經網絡等內容。這些內容需要較好的高等數學、概率論和線性代數的基礎知識作為支撐。同時伴隨有大量的數學公式和較多的公式推導等內容。這對于大一下學期的學生是一個不小的挑戰,也要求老師在教學中也要避免傳統的以公式理論為出發的教學方式。
學院在該模塊的教學中,以輕理論、重思想、融合實踐案例的角度出發,設計了實際問題——算法思想——數學原理——實際案例的四步走的教學方式。以線性分類為例,首先實際問題來源于在衛星圖像上如何區分出森林和稻田,其次講述分類問題的基本思想和基礎數學原理,最后又回歸到原始問題中,用線性分類解決簡化后的原始問題。
在整個教學中,注重理論與實踐的緊密結合,盡量弱化數學公式和推導過程,強調最終的算法效果,讓學生真實體會到最終的效果。
4.3 數據管理與產品開發
在數據管理與產品開發模塊中,主要目的讓學生了解數據采集、存儲、計算、管理和應用等功能。相比于其他兩個模塊,這部分內容偏重計算機科學更多一些。首先就涉及傳感器、物聯網等數據采集。其次數據存儲需要數據庫、分布式數據庫的相關知識。最后計算部分會給學生普及Hadoop、Hive和Spark的內容。
可以說該階段的教學是“散而廣”:不僅有數據庫的知識還有物聯網和Hadoop等計算平臺的內容。在教學中,這些內容的定位是開闊眼界,作為后續課程的鋪墊。所以學院采用專題講座的方式進行,以科普的方式完成物聯網、數據庫和大數據計算平臺等內容講解。
5總結
數據科學導論是數據科學與大數據技術專業中重要的先導性課程,需要向學生描繪出數據科學的整體框架,讓學生掌握數據科學的基本概念、原理和方法。本文探討了西南林業大學在該門課程中教學模式的改革,提出了數據分析基礎、機器學習與深度學習和數據管理與產品開發的三大模塊構成的課程體系以及相應的教學模式。在新的課程體系中,打破了原來以數據獲取、清理、存儲、分析和管理應用為主線的教學方式,從而更加注重培養學生以數據為中心的思維方式。未來將進一步從案例、實踐等多個方面進行改進,努力形成適合林業院校的數據科學導論課程。
參考文獻:
[1] 周建英,李廣明,王雙成.“數據科學導論”課程教學探討[J].教育教學論壇,2020(24):230-231.
[2] 黃達明,張萍,張莉.數據科學基礎課程體系建設與研究——以南京大學為例[J].工業和信息化教育,2020(1):26-31.
[3] 楊瑞仙,吳東昌.日本數據科學專業建設情況調查研究[J].情報理論與實踐,2020,43(8):195-201,166.
[4] 朝樂門.數據科學導論的課程設計及教學改革[J].計算機科學,2020,47(7):1-7.
[5] 趙蕊菡,黃如花.國內外數據分析類MOOC調查與分析[J].圖書情報工作,2016,60(21):52-60.
[6] 陳磊.數據科學導論課程設置探究[J].淮南師范學院學報,2018,20(2):106-108.
[7] 劉巧紅,凌晨,孫麗萍.醫學院校“大數據科學與技術導論”課程建設的實踐[J].中國醫學教育技術,2020,34(5):578-582.
[8] Rachel-Schutt Cathy O'Neil. Doing Data Science: Straight Talk from the Frontline[M]. O'Reilly, 2013.
[9] 朝樂門,邢春曉,張勇.數據科學研究的現狀與趨勢[J].計算機科學,2018,45(1):1-13.
【通聯編輯:王力】