999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

“數據科學”課程群與“數據科學導論”課程建設初探

2019-01-10 05:59:22覃雄派陳躍國李翠平柴云鵬徐君文繼榮杜小勇
大數據 2018年6期
關鍵詞:可視化科學課程

覃雄派,陳躍國,李翠平,柴云鵬,徐君,文繼榮,杜小勇

中國人民大學信息學院,北京 100872

1 引言

數據科學是以計算機科學(特別是數據庫、數據挖掘、機器學習等)和統計學為基礎,融合其他學科的一門新興的交叉學科。它研究數據的各種類型、狀態、屬性及其變化規律,研究如何對數據進行分析,從而揭示自然界和人類行為等現象背后的規律。

2016年,北京大學、對外經濟貿易大學及中南大學3所高校申請并且成功獲得教育部批準,建立“數據科學與大數據技術”本科專業。2017年,又有32所高校獲批建立該專業,中國人民大學為其中之一。2018年3月,教育部公布第三批獲批建立“數據科學與大數據技術”專業的院校。至此,共有280多所高校獲批建立該專業。

如何設計“數據科學與大數據技術”專業的課程體系、建設各門課程,成為各個高校的教學主管領導和任課老師關心的問題。本文介紹中國人民大學信息學院在計算機專業教育課程體系方面進行的改革,并重點介紹其中“數據科學導論”課程的建設情況。

2 課程建設思路

2.1 計算機專業教育課程體系

隨著計算機及互聯網的飛速發展,當今社會已進入大數據時代,數據及其應用已經滲透到社會和生活的方方面面。2015年9月5日國務院發布了《促進大數據發展行動綱要》,系統部署了大數據發展工作,這意味著大數據發展正式上升為國家戰略。數據的處理與分析是推動生產力增長的關鍵要素,國家急需大量能構建系統、會分析數據、懂領域業務的復合型人才。

在新的需求背景下,中國人民大學信息學院(以下簡稱信息學院)把計算機專業課程劃分為“問題求解”“系統平臺”和“數據科學”3條主線、“數學和自然科學”“人文社科教育”兩條輔線,如圖1所示。

“問題求解”類課程主要訓練學生用計算機求解問題的思維方式、方法和實現手段(編程)。“系統平臺”類課程主要介紹和訓練支持問題求解的實際計算機軟硬件系統的使用、設計與實現。“問題求解”和“系統平臺”兩條主線中的課程設置主要是為了使計算機專業的學生在兩個方面打下扎實的基礎。而“數據科學”類課程涉及大數據從獲取、存儲、管理、分析到領域應用等整個數據生命周期各個環節的內容,尤其是云計算、大數據、人工智能(基于大數據的智能)等新技術,將重點集中在這一主線中進行講授和訓練。“數學和自然科學”輔線課程將為計算機專業的學生打下扎實的數學和自然科學基礎,“人文社科教育”類課程的主要目標是提高學生的人文素養,積累社會學科的基礎知識和方法論,同時數據科學中的大數據和人工智能的課程也會與人文社會學科深度結合。

從縱向看,從大一到大四,4個年級的課程深度逐步加強。大一階段,主要通過“問題求解”主線中的程序設計等課程,訓練學生的計算機編程能力,培養計算思維。從大二開始,設置“系統平臺”和“數據科學”類課程,系統地培養學生問題求解的方法和能力,訓練學生如何抽象問題、建立模型、求解問題,并編程實現;通過系統平臺方面的基礎課讓學生初步了解計算機軟硬件系統,學習實際系統模塊的設計與開發,同時也會通過導論類型的課程開啟“數據科學”主線課程的學習。大三階段的學習會再增加一個難度,增強問題求解的理論基礎和復雜問題求解的能力,并訓練學生完整設計和開發復雜的計算機系統的能力;在“數據科學”方面,也對大數據從獲取、存儲、管理、挖掘到可視化等整個數據生命周期各個環節進行綜合講授和訓練。在大四階段的畢業設計中,學生針對導師提出的開放性問題進行探索,在調研、分析、研究、設計與開發等方面得到進一步的訓練。“領域應用”板塊通過大三和大四的選修課和畢業設計完成。

圖1 計算機專業教育課程體系

2.2 “數據科學”課程群

傳統計算機專業教育是以計算為中心的,與數據科學相關的課程設置比較薄弱,一般只包括關系數據庫系統一門課程,甚至只是一門選修課。但是在數字經濟環境下,云計算、物聯網、人工智能都和大數據密切相關,需要轉換思維,增加一系列重要的數據科學和與大數據相關的新課程。這些課程應涵蓋數據從準備、存儲、管理、分析到領域應用等整個數據生命周期各個環節的內容。

此外,在課程體系建設方面,需要加強實踐課程的建設,尤其是設計和建設以數據管理和分析課程為核心的在線實驗平臺,加強學生的實踐能力和動手能力;與企業合作建設新課程,給學生提供了解工業界的實際情況和最新技術的機會及充足的鍛煉機會。

為了提高大數據人才的培養質量,信息學院專門為數據科學與大數據技術專業精心打造了一系列精品課程,試圖在本科階段給學生打下扎實的數學、大數據和計算機基礎。數據科學與大數據技術是一個寬口徑的專業,與很多行業有相關性,全面而扎實的基礎可以提高本專業學生的適應能力。

在圖2中,“數據科學導論”“大數據計算智能”“非結構化大數據分析”等課程是專門為大數據專業開設的新課程。信息學院精選了優秀教師組建課程建設團隊,例如“數據科學導論”課程由杜小勇教授和文繼榮教授牽頭,陳躍國教授、徐君教授、覃雄派博士參與;“大數據計算智能”和“非結構化大數據分析”由李翠平教授和張靜博士負責;“計算機系統基礎”課程由柴云鵬副教授負責;“并行與分布式計算”由張峰博士負責。此外,信息學院的傳統精品課程“數據庫系統概論”由杜小勇教授和陳紅教授聯合授課。

2.3 “數據科學導論”課程

“數據科學導論”是一門入門課程,同時也是“數據科學”課程群統領式的課程,把學生引進數據科學的大門。它的目標有兩個,一個是擴展寬廣的視野和培養濃厚的興趣,另一個是打下堅實的基礎,有利于學生學習后續課程,有利于培養數據科學家。

一般來講,該課程在大二下學期開設。在該時間點,學生已經學習了必備的數學知識和編程基礎知識,為該課程的學習做好了準備。而這門課的學習,又為大三的專業課學習打下了必要的基礎。

由此可見,“數據科學導論”課程的地位非常重要,它在學科基礎課和專業課之間起到了承上啟下的作用。由于它的入門和統領地位,在內容上它與后續的專業課程不可避免地會有部分重復。因此,這門課程在設計時,首先需要回答一個問題,即如何處理和后續課程的關系。換句話說,“數據科學導論”課程在廣度和深度方面應該如何設計,才能既避免和后續課程的簡單重復,同時又能夠起到入門和引領的作用。

“數據科學導論”包含很多內容,而大部分內容可以擴展為一門課程。例如,在講到文本分析的時候,“數據科學導論”課程里面只對文本分析的概念、技術和方法做了初步的介紹,讓學生理解概念,會用工具,培養其數據思維。而在非結構化大數據分析課程里面,則深入介紹了文本的處理和分析方法。又如,在講到人工神經網絡的時候,“數據科學導論”課程只需把神經網絡的基本原理、深度學習的基本概念介紹清楚,學生會使用相關工具即可,具體的神經網絡模型很多,不勝枚舉,可以選擇一兩種加以介紹,其他模型可以放在后續的機器學習或者深度學習課程中細細地展開分析。

圖2 “數據科學”課程群

3 “數據科學導論”課程內容安排及教學計劃

3.1 國外若干著名大學的“數據科學導論”課程建設情況

在設計課程內容時,筆者團隊首先調研了加州大學洛杉磯分校、斯坦福大學、華盛頓大學等幾個國外著名大學的“數據科學導論”課程的內容安排,下面對其進行詳細介紹。

加州大學洛杉磯分校的數據科學導論課程的主要內容包括數據管理、機器學習、自然語言處理、統計分析、可視化等。該課程將自然語言處理進行了重點介紹,課程內容還包括大數據工具Hadoop、各種NoSQL數據庫、Python編程語言等。課程最后安排了一系列的實踐案例,要求學生在實際業務數據集上運用所學知識解決實際問題。該課程只需學生具有數學特別是概率統計的基礎,會編程即可,沒有其他先決條件,適用于本科生。

斯坦福大學的數據科學導論課程主要包含3個方面的內容,分別是數據可視化、機器學習、R編程語言。該課程同時包括一系列來自實際業務的案例分析講座,包括天氣預報、市場營銷、生物學、股票市場、醫藥行業等,學生可以跟著教師的介紹,實際動手操作,一步步解決問題,這對于培養學生的動手能力是非常必要的。該課程在內容設計和教學設計上,照顧到沒有計算機基礎的學生,適用于本科生。

華盛頓大學的數據科學導論課程的主要內容包括實現(大規模)數據管理的S Q L數據庫(關系數據庫管理系統)、NoSQL數據庫技術及其選擇和取舍(trade off)、數據挖掘和機器學習的基本技術、統計建模方法(如線性和非線性回歸、數據可視化等)。該課程最后選擇圖數據分析作為特別的專題進行介紹。該課程雖然稱為“數據科學導論”,但是其中的內容是以一系列相對獨立的專題講座的形式講授的,前后兩次課堂內容并不一定連續,適用于研究生或者高年級本科生。

縱觀這些著名大學的數據科學導論課程可以發現,在內容安排方面有以下共同點:

● 數據管理不能缺失,數據科學導論不能只講數據分析而不講數據管理,把數據管理起來是分析的基礎;

● 強調動手能力培養,選用的編程語言有R、Python等,問題來自實際應用;

● 選擇某種數據類型進行深入介紹,比如圖數據、文本數據等,不同學校在內容上各有取舍;

● 數據可視化內容必不可少。

3.2 信息學院“數據科學導論”課程建設情況和新規劃

數據科學導論課程在中國人民大學開設已有5年時間。在探索的過程中,增長了課程建設的經驗,同時也有一些教訓。這門課程剛開始作為大三的選修課開設,隨著數據科學和大數據人才需求的逐步旺盛,學生興趣濃厚,選修這門課的學生逐漸增多。部分學生的學習主動性很高,積極參加中國計算機學會和各大互聯網公司的大數據大賽,并且獲得了好名次。

2017年,中國人民大學獲批建設“數據科學與大數據技術”專業后,對該課程的定位為學科基礎課。中國人民大學信息學院領導全方位督導這門課程的建設,對教學大綱、教學內容、教學環節、實踐環節進行了重新梳理,為2017年開始招生的“數據科學與大數據技術”專業本科生開設這門課程做好了準備。

該課程作為選修課程講授時,主要的教訓有3點,分別是內容過于繁多、難度偏大、實踐部分安排的時間不夠。經過信息學院“數據科學導論”課程建設小組多次討論,在教學目標方面,突出兩個方面:一個是掌握數據分析的基本思路、基本理論與基本方法;另一個是實踐應用能力培養,即面向實際應用中不同行業的需求,能夠給出數據解決方案設計和最終實現。

對上述前期教學的3個經驗教訓進行梳理后,信息學院在內容方面刪繁就簡,突出結構化數據分析或者流數據處理、文本分析、圖數據分析三大塊;在難度方面,把該門課程定位為入門的課程,目的是培養學生濃厚的興趣,因此難度上要降低,對算法的數學基礎和推導過程的把握由后續的各門專業選修課程來承擔。本門課程僅要求掌握基本原理,加強實踐環節,要求學生熟練掌握主流工具,完成數據管理和分析全流程的實踐,切實培養學生的動手(編程)能力。在具體的教學中,設計了模塊式教學法以及基于大作業(project)的教學法。通過3個大作業,把理論講解和動手實踐有機結合起來。

3.2.1 教學內容模塊化

“數據科學導論”是一門入門性質的課程,內容安排上一定要注意取舍,達到廣度和深度的平衡,既要避免泛泛而談、沒有重點,也要避免過于強調某個方面,但是廣度不夠。

從廣度上來講,要幫助學生構建起一個完整的知識體系。在理論部分,要包括數據科學的基本概念、技術和方法,數據的不同類型,數據處理的流程和數據的生命周期,數據處理的不同模式,數據分析的主要方法等。其中數據的類型是非常豐富的,包括文本、社交網絡、社交媒體、時間序列、軌跡數據、音頻/圖像和視頻等。在應用部分,要包括數據處理的基礎設施、平臺和各種工具以及一系列精心設計的案例。

在深度上,只能選擇部分內容進行深入的介紹。在介紹完數據科學的基本概念、技術和方法以及主要的數據類型及其分析方法之后,可以選擇某種具體的數據類型進行深入的介紹。同時在應用部分,要設計一些實際的案例,要求學生結合實際數據進行上機實踐。

教學內容分為四大模塊,分別是基礎(base)模塊、關系數據/流數據處理(relational & stream)模塊、文本數據處理和分析(text)模塊、圖數據處理和分析(graph)模塊。

基礎模塊為后續的3個實踐模塊做準備工作。它的內容包括以下幾方面。

● 概念:數據科學概論,主要介紹數據科學的基本概念、大數據及其價值、數據處理的全生命周期,包括數據的采集和獲取、數據預處理/清洗和集成、數據管理、數據分析、可視化和解釋等。

● 方法:包括各種數據模型、數據處理的不同模式(批處理和流式處理)、通用的數據分析方法、數據可視化等。

● 平臺和工具:包括分布式計算與大數據平臺(Hadoop & Spark)以及Python語言。其中Python語言部分包括對Python語言基礎以及Python的幾個重要的庫(數據預處理庫pandas、機器學習庫Scikit-Learn、可視化庫Matplotlib)的介紹。

大數據具有4個關鍵的特點,分別是數據量大(volume)、數據類型多樣(variety)、數據價值密度低(variety)以及速率快(velocity)。上述的教學內容完全體現了大數據的這些特點。分布式計算與大數據平臺體現了數據量大,數據模型體現了數據類型多樣,數據的清洗和集成體現了數據價值密度低,數據處理的不同模式體現了速率快。經過模塊內部整理以后,基礎模塊的內容可以被劃分成如下子模塊,見表1。

后續的3個模塊除了介紹理論之外,還要介紹平臺、方法和應用。由于是導論課程,其主要目的是把學生引進數據科學的大門,培養其對數據的感覺和興趣,基礎理論不必講得太深入(可以放在后續專業選修課程中深入介紹),而是偏向工具的使用和應用的開發,讓學生迅速獲得對數據價值的認識。特別需要注意的是,要準備好必要的數據集,以便學生可以利用一些工具對其進行處理和分析。

關系數據/流數據處理模塊提供兩個選項,可以根據需要進行選擇。第一個選項側重于介紹大數據的實時流式處理,內容包括流式處理基礎、流式處理工具和流式處理應用,可以選擇Storm作為典型流式數據處理系統加以介紹,大作業部分可以針對傳感器數據,實現實時匯總和可視化。第二個選項側重于介紹關系模型、SQL語言以及分布式大數據多維分析(OLAP),工具部分可以選擇對MySQL以及SQL on Hadoop系統加以介紹,做到會用即可,大作業部分可以針對銷售數據進行多維分析以及可視化。

文本數據處理和分析模塊依賴于分布式的大數據處理平臺和分析工具,包括Hadoop/Spark、NLTK for Spark、Scikit Learn for Spark等,使用各種文本分析方法,實現對文本的分詞、索引與檢索、情感分析、實體識別、可視化等關鍵任務。大作業部分可以針對產品評論進行情感分析,并且從產品維度、時間維度進行匯總,最后進行可視化,讓用戶了解熱門產品及客戶對不同產品的態度變化等。

圖數據處理和分析模塊依賴于GraphX on Spark平臺(工具)或者Neo4J數據庫,對圖數據進行創建、查詢、路徑分析、PageRank、社區檢測等。大作業部分可以基于公開數據集進行重要節點排名、社區檢測等,甚至可以擴展到金融領域,實現欺詐團伙的檢測。

這3個模塊都帶有很強的實踐性,教師在講解平臺、方法和應用的基礎上,給學生布置大作業,要求學生熟練使用上述平臺和工具,對數據集進行處理、分析和可視化,并且解釋結果,體現數據的價值。

表1 數據科學導論課程內容的模塊與子模塊

3.2.2 教學計劃

在時間安排上(共15個教學周,一個教學周2次課,每次課2課時,共30次課),基礎模塊被分配12次課,后續的3個模塊分別被分配6次課,共18次課。

在基礎模塊,3位教師可以分別準備關于不同子模塊的內容,3位教師的教學計劃見表2(3位教師分別被命名為教師1、教師2、教師3)。

表2 3位教師3個教學班的教學計劃(串行并行相結合)

3.2.3 課程考核方法

采用上述教學計劃,本課程的考核分為3個方面,包括平時的上機實踐、大作業和期末閉卷考試。在平時的上機實踐中,學生必須完成上機練習題目,并提交上機實驗報告。大作業鍛煉學生綜合運用所學知識解決復雜問題的能力。期末考試考查學生對知識點的掌握和靈活運用能力。最終成績按照15:15:15:15:40的比例,由平時成績、大作業1、大作業2、大作業3和期末成績構成。

3.3 課程參考教材及配套資源建設

自2013年以來,“數據科學導論”課程在中國人民大學信息學院計算機系開設已經有5年。筆者團隊在授課的過程中,不斷整理講義。2016年開始,經過兩年的精心編寫和仔細校對,《數據科學概論》教材于2018年3月正式出版。

這本教材包括兩個部分,分別是理論篇和應用篇。理論篇包括兩個模塊:一是數據科學基礎,講述數據科學的基本概念和原則;二是數據和數據上的計算,講述不同的數據類型及其分析方法,數據類型包括結構化數據、非結構化數據、半結構化數據,分析方法包括統計學方法、數據挖掘和機器學習方法等。應用篇也包括兩個模塊:一是數據處理基礎設施、平臺和工具,講述云平臺、數據庫、大數據平臺、工具以及編程語言Python;二是數據科學案例和實踐,講述大數據應用的案例,并且面向金融領域的量化交易應用,從數據采集、模型訓練、預測、評價到可視化等環節,帶領讀者完成數據分析處理的實踐。在具體授課中,教師可以選擇其他行業領域的實踐案例進行介紹。

為了方便各個高校教師開設和講授“數據科學導論”課程和提高學生的課程學習效果,筆者團隊建設了課程配套網站,網站上提供了課程PPT、代碼、數據、實驗參考和技術博客等資源。配套資源網站還針對若干難點專題,給出了基于實例的詳細和深入的剖析,幫助學生深入理解所學知識。這些難點包括最大期望(expectation maximization ,EM)算法、反向傳播算法、深度神經網絡模型、奇異值分解(singular value decomposition,SVD)算法、概率潛在語義分析(probabilistic latent semantic analysis,PLSA)算法等。

4 結束語

本文介紹了中國人民大學信息學院面向大數據時代的課程體系改革,包括“問題求解”“系統平臺”和“數據科學”三大課程群建設的構想和實踐以及“數據科學”課程群的具體內涵。在此基礎上,重點介紹了“數據科學導論”課程的建設情況,包括課程的目標和定位、課程內容安排、課程教學計劃、考核方法、實踐環節設計等。

猜你喜歡
可視化科學課程
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
數字圖像處理課程混合式教學改革與探索
軟件設計與開發實踐課程探索與實踐
計算機教育(2020年5期)2020-07-24 08:53:38
基于CGAL和OpenGL的海底地形三維可視化
為什么要學習HAA課程?
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
科學大爆炸
小小藝術家(2019年6期)2019-06-24 17:39:44
科學
科學拔牙
主站蜘蛛池模板: 免费看av在线网站网址| 特级欧美视频aaaaaa| 日韩欧美综合在线制服| 免费人成在线观看成人片| 日韩欧美国产精品| 国产一区在线视频观看| 欧美a级在线| 国产成人久久综合777777麻豆| 国产亚洲第一页| 99re在线观看视频| 日韩在线播放中文字幕| www.亚洲一区| 亚洲中文字幕在线观看| 久青草国产高清在线视频| 一级毛片中文字幕| 乱人伦99久久| 欧美日韩一区二区三区在线视频| 91麻豆久久久| 狼友av永久网站免费观看| 97在线免费| 第一区免费在线观看| 亚洲成人精品久久| 欧美精品v欧洲精品| 国产迷奸在线看| 99精品国产高清一区二区| 美女啪啪无遮挡| 亚洲无码高清一区| 亚洲乱码视频| 永久成人无码激情视频免费| 免费国产无遮挡又黄又爽| 91精品国产福利| 国产精品无码久久久久AV| 欧美爱爱网| 亚洲欧美日韩中文字幕一区二区三区| 色九九视频| 亚洲成人一区二区| 亚洲精品制服丝袜二区| 亚洲中文字幕无码mv| 日韩国产 在线| 呦女亚洲一区精品| 亚洲三级影院| 夜夜拍夜夜爽| 99久久精品免费视频| 在线视频亚洲欧美| 国产精品3p视频| 激情综合网激情综合| 日本国产精品一区久久久| 爱色欧美亚洲综合图区| 色综合热无码热国产| 亚洲 欧美 偷自乱 图片| 草逼视频国产| 蝴蝶伊人久久中文娱乐网| 欧美区一区| 在线免费亚洲无码视频| 国内精品视频区在线2021| 一个色综合久久| 成人毛片免费观看| 欧美精品v欧洲精品| 国产在线观看第二页| 亚洲第一视频区| 国产69精品久久久久妇女| 99久久精品无码专区免费| 国产91视频免费| 91精品人妻一区二区| 色婷婷综合激情视频免费看| 一本视频精品中文字幕| 国产超碰一区二区三区| 五月天福利视频| 制服丝袜一区| 国产精品亚洲va在线观看| 91精品啪在线观看国产| 91欧美亚洲国产五月天| 亚洲欧美日本国产综合在线| 久久精品66| 91在线播放国产| 国产成人精品18| 国产欧美日韩在线在线不卡视频| 伊人网址在线| 无码人妻免费| 中文字幕在线不卡视频| 亚洲欧美不卡视频| 亚洲天堂视频在线观看|