大數據時代數據科學課程建設與人才培養的探索

2018-01-04 11:35:20姚力朱龍飛崔晨

計算機時代 2018年11期

姚力朱龍飛崔晨

摘要：隨著信息技術與人類生產生活的交匯融合，數據迅猛增長，數據已成為國家基礎性戰略資源。大數據給科學研究帶來了巨大變化，數據驅動的研究范式在各學科領域興起，數據科學人才培養成了應對大數據時代所面臨挑戰的關鍵。文章從數據科學人才培育的機遇與現狀出發，調研了國內外高校在數據科學專業建設方面的案例。在此基礎上，探索并提出數據科學教育體系中可采用的具體策略和方法，為高等院校數據科學與大數據技術相關專業的發展提供了思路。

關鍵詞：大數據；數據科學；人才培養；專業建設

中圖分類號：TP309 文獻標志碼：A 文章編號：1006-8228（2018）11-87-04

Abstract： The convergence of information technology and human life has led to the rapid growth of data， which becomes the basic strategic resource of the country. Big data brings great changes to scientific research， and data driven research paradigms are rising in various disciplines. Data science education is the key to success in coping with the challenges in the era of big data. This paper reviews the opportunity and current situation in data science education， and investigates on the cases of data science specialty construction in colleges and universities. Specific strategies and methods that can be used in the data science education system are proposed， which provides a way for the development of data science and big data specialties in universities.

Key words： big data； data science； talent cultivation； specialty construction

0 引言

數據科學在20世紀60年代被提出，在當時并未獲得學術界的注意和認可。1974年，計算機科學家、圖靈獎獲得者Peter Naur在其著作《計算機方法的簡明調研》的前言中首次明確提出了數據科學（Data Science）的概念，“數據科學是一門基于數據處理的科學，一旦數據與其代表事物的關系被建立起來，將為其他領域與科學提供借鑒”。2001年美國統計學教授William Cleveland發表了《數據科學：拓展統計學的技術領域的行動計劃》，首次將數據科學作為一個單獨學科，并把數據科學定義為統計學領域擴展到以數據作為現金計算對象相結合的部分，奠定了數據科學的理論基礎[1]。數據科學作為一門較為新興的學科，所關注的正是在大數據時代的背景下，如何應用和數據相關的技術和理論來服務社會。

在數據科學課程理論的研究中，經常會提及數據、信息和知識這三個概念。一個稱為“知識金字塔”（圖1）的模型被廣泛用于表示三者之間的關系。如今，由于大量的數據正在以前所未有的速度產生，而這些數據沒有被有效地處理轉化成信息，從而延誤了知識的提取和產生。從原始數據中提取價值需要一種明確的系統和方法，數據科學代表了解決大數據挑戰所必需的一門學科。教育應發揮其作用，培養具備適應數據科學領域知識，能批判性地思考并正確利用相應技術來解決大數據問題的人才[2]。

1 大數據、數據科學和數據科學家的概念

1.1 大數據

大數據描述了我們正面臨的數據挑戰。一家產業咨詢服務機構的研究報告稱，2016年，全球大數據產業市場規模為1403億美元，預計到2020年將達到10270億美元。促成大數據時代出現的兩個主要因素是計算技術的快速發展和由此產生的數據爆炸。前者包括硬件技術，如CPU速度和網絡帶寬，以及軟件技術，如分布式并行處理框架的出現；后者包括基于網絡的軟件的日益普及以及各種傳感器的廣泛使用。

如何定義大數據？Gartner將其定義為3V特征，即“高容量，高速度和高多樣性的信息資產，這些資產具有成本效益，創新形式的信息處理形式，以增強洞察力和決策能力”[3]。在此定義的基礎上，IBM提出了大數據5V特點。①Volume：數據量大，包括采集、存儲和計算的量都非常大。②Variety：數據類型、來源和處理方式的多樣性。③Value：數據價值密度相對較低。隨著互聯網及物聯網的廣泛應用，信息感知無處不在，信息海量，但價值密度較低，價值是迄今為止最具挑戰性的維度。④Velocity：數據增長速度快，處理速度也快，時效性要求高。⑤Veracity：數據的準確性是指數據的質量、可靠性和不確定性。

1.2 數據科學

數據科學是門包羅萬象的學科涉及很多方面的內容，涵蓋數學、統計學、計算機科學、人工智能、模式識別、分布式計算、圖形學等多個領域的技術和理論。我們可以這樣定義數據科學：數據科學是一門通過系統性研究來獲取與數據相關的知識體系的科學[4]。這里有兩個層面的含義：一是研究數據本身，數據的各種類型、結構、狀態、屬性、變化形式和變化規律；二是通過對數據的研究，為自然科學和社會科學的研究提供一種新的方法，稱為科學研究的數據方法，其目的在于揭示自然界和人類行為的現象和規律。

2010年，Drew Conway提出了第一張揭示數據科學的學科地位的維恩圖（圖2），首次明確探討了數據科學的學科定位問題。從數據科學維恩圖的中心部分可看出，數據科學位于統計學、機器學和某一領域知識的交叉之處，具備較為顯著的交叉型學科的特點，即數據科學是一門以統計學、機器學習和領域知識為理論基礎的新興學科。同時，從該圖的外圍可看出，數據科學家需要具備數學與統計學知識、領域實戰和黑客精神，即數據科學具有三個基本要素：理論知識（數學與統計學）、實踐經驗（領域實務）和精神（黑客精神）。

1.3 數據科學家

“數據科學家”是在2009年由Natahn Yau首次提出，其概念是采用科學方法、運用數據挖掘工具尋找新的數據洞察的工程師。數據科學家通過精深的專業知識，包括數學，統計學和計算機科學，在某具體學科解決復雜的數據問題。

數據科學家專注于從數據中提取可操作的知識，以解決業務問題。他們在一定的期限內，完成假設驅動的分析，深入持續的對那些容量大，且結構錯綜復雜的數據進行探索和挖掘。他們利用簡單的方法，并通過簡單明了的可視化操作，把科學家的復雜的想法傳達到人們手中，從而領導一個團隊進行方法選擇、評估結果以實施效果[5]。

數據科學家所需硬件技能主要包括計算機科學、統計數學、數據挖掘、數據可視化、領導力和軟技能。目前，許多數據科學家在接受正規數據科學學位課程的教育，國內外一些大學也正在或計劃提供這類課程。

2 數據科學教育的現狀

在國外，數據科學專業是以數據分析學專業為基礎發展而來的，可追溯至2007年北卡羅來納州立大學率先設立的數據分析碩士學位。之后，美國諸多高校也都陸續開始在計算機、管理、金融等專業中開設數據科學的系列課程。其中，數據科學概論課程起到一個統領的作用。以美國哈佛大學“數據科學”課程為例，其內容全面廣泛，強調學生動手實踐能力的培養。華盛頓大學開設的“數據科學導論”課程同樣表現出內容的豐富性。麻省理工學院開設了“計算思維和數據科學導論”課程，介紹如何利用計算機來理解真實世界的現象。該課程為學生提供許多主題的淺顯介紹，讓學生知道在他們的職業生涯中可以用計算機完成什么樣的任務。華盛頓大學開設了“數據科學簡介”，介紹了關系型數據庫、MapReduce、NoSQL、基礎數據分析、機器學習、可視化、圖論等。

通過這些知名高校的網站上的數據統計發現，“概率統計”和“數據挖掘”是最受歡迎的課程。在數據科學中，概率和統計是最基本和必要的知識。數據挖掘在數據科學出現之前便是一門受歡迎的課程，其在數據科學課程中仍然很重要。進一步調研了碩士的數據科學課程發現，在碩士課程中教授許多不同的高級課程，如“信息檢索”、“信息和社會網絡分析”、“文本挖掘”。一些課程則同時出現在學士課程和碩士課程中，包括“數據挖掘”、“數據庫”、“機器學習”、“數據可視化”、“統計建模”、“算法”和“數據科學導論”。最普遍開設的課程是統計學相關的如“探索性數據分析”和“數據庫”，這表明，統計學是數據科學教育和計算機科學的另一個核心組成部分。

相比而言，國內數據科學專業起步較晚，2015年，教育部首次設立了數據科學與大數據技術專業。包括清華大學、北京大學、中國科學院大學等開設了大數據和數據科學相關課程。其中，中國人民大學信息資源管理學院朝樂門老師編寫的《數據科學》，是國內較早的關于數據科學的教材。清華大學成立了“數據科學研究院”，是國內首批培養數據科學人才的研究院，目的是培養更多有跨界意識和跨界實踐的人才。

基于上述調研，我們觀察到：數據科學學士課程還處于起步階段，數據挖掘、機器學習和數據可視化是最受歡迎的核心課程，而統計學和數據庫是學士和碩士課程的兩個基礎通識課程。

3 數據科學教育的途徑

根據前文對數據科學教育的調查和學科研究，我們提出以下數據科學教育實現的途徑。

3.1 開設CDO相關技能課程

首席數據官（Chief Data Officer，簡稱CDO）是以數據為中心的組織高層管理角色，是大數據戰略的制定者和推動者，負責數據資產的管理和開發利用，通過數據推動業務的創新和發展。我們將CDO定義為一位高級數據科學家，他們有很強的領導能力、溝通能力、項目管理技能、系統思考能力和數據方面的技術知識。他們還需要對大數據技術和解決方案、大數據分析生命周期、數據管理有很好的理解。雖然要同時具備上述全部知識和技能并不容易，然而一個大數據項目的領導者應該在這些領域擁有盡可能多的知識。

3.2 在教學中牢記數據分析生命周期

數據分析生命周期是專門為大數據問題和數據科學項目而設計的。它定義了從項目開始到項目結束整個分析流程的最佳實踐，脫胎于數據分析和決策科學領域中的成熟方法，并建立在廣泛收集了數據科學家的反饋并參考了其他成熟的流程的基礎上。

最著名和最廣泛使用的數據挖掘過程模型是CRISP-DM，即“跨行業數據挖掘標準流程”[6]。該框架提供了一種用于數據分析項目的方法，其中涉及組織技能、數據集以及領導者的參與。在此基礎上，我們重新完善了數據分析生命周期的6個階段。如圖3所示，這6個階段形成一個循環。

下面概述數據分析生命周期主要階段的任務。第1階段：發現。在這個階段，成員需要學習業務領域的相關知識，重點把業務問題轉化為分析挑戰以待在后續解決。第2階段：數據準備。團隊需要執行提取、加載和轉換，將數據導入準備好的分析沙盤中，以便在項目過程中進行數據和進行數據分析。第3階段：規劃模型。在該階段，團隊需要確定在后續模型構建階段所采用的方法、技術和工作流程，挑選最合適的模型。第4階段：建立模型。團隊在這個階段構建并運行由上階段確定的模型，創建用于測試、培訓和生產的數據集。第5階段：溝通結果。團隊需要與主要利益相關人進行合作，以第1階段所制定的標準來判斷項目結果是成功還是失敗。第6階段：實施。團隊應該提交最終報告、簡報、代碼和技術文檔。

每個學院可以在不同的階段中找到自己的優勢。例如，商學院在商業理解方面有優勢，信息學院在數據理解方面有優勢，統計學系在模型規劃方面有優勢，計算機科學系則在建模方面有優勢。

3.3 傳授大數據技術和建模技術

大數據技術和模型建立技術是數據科學的兩個最技術性的組成部分，應在教學方案中作為重點。重要的大數據技術包括Hadoop及其生態系統和分布式并行處理框架[7]。這兩類技術被廣泛應用于處理社交網絡數據、傳感器位置流數據和Web日志數據。其他重要的大數據技術包括NoSQL數據庫、內存計算、云計算、大數據倉庫和數據虛擬化。

在模型構建方面的挑戰主要包括處理實時流數據、可伸縮的機器學習算法。機器學習允許數據學習的范式，并提供了從大數據集中發現知識的有效方法，是數據科學教育的重要組成部分。在數據科學教育中，應有效地將機器學習和大數據分析結合起來，以應對大數據時代不斷發展的挑戰。

3.4 將研究方法納入數據分析的教學

數據科學學生應接受科學思維、推理和分析方法的培訓。盡管大數據問題本質上是基于發現和學習的，但學生應該學會如何提出一個研究問題，如何處理這個問題，以及如何驗證結果。學生應該能夠區分基于發現的研究問題和傳統的假設驅動的研究問題。研究方法相關的課程可以幫助學生提高批判性思維的能力，吸收來自各個學科的知識，用科學的方法解決問題，并評估結果，因此建議將研究方法納入數據分析課程。

3.5 為學生提供真實的工程項目

數據科學通過使用真實數據來解決現實世界的問題，這意味著傳統的以教科書為基礎的教育方式不適合數據科學教育。通過參與現實世界的實際項目或案例研究來學習是數據科學教育的重要組成部分。也就是說，學生應該在一個通過實踐學習的環境中學習，在這個環境中，學生可以獲得關于數據科學如何使用大數據技術來解決現實世界問題的經驗。這是數據科學教育的一個必修課。

3.6 與多個教學部門協作

數據科學是一門多學科的研究，其課程通常是在大學內聯合各系部級提供的。例如，數據科學課程可以由計算機科學系、統計學系或商學院聯合提供，也可以通過共享教師資源來實現協作。又或者，由計算機科學系提供數據科學教育方案，而其他院系負責講授一些相關課程。

3.7 與產業界和政府部門合作

產業界和政府是真實世界數據的良好來源，不僅是針對數據的教學資源，也包括其他教學外的組成部分，如計算資源、培訓、證書、學生實習和工作。產學研合作研究是推動教育向前發展的既定模式，公司會很樂意招聘這些曾實習過的學生，因為這些學生已經參與了這些項目，并且很清楚他們的業務問題。大學也可以通過與產業界和政府的合作獲得資金，以促進數據科學教育。

4 結束語

大數據改變了人們的工作、生活與思維模式，已成為包括計算機科學和統計學在內的多個學科領域的新研究方向。現代社會需要一門新學科來系統研究大數據時代的新現象、理念、理論、方法、技術、工具和實踐，即數據科學。

本文探討了數據科學的發展、學科地位、知識體系等基本問題，并提出了數據科學專業建設的核心內容，即對數據進行管理和分析，從而提取其價值，獲得對事物洞察的各種技術手段，把學生引進數據科學的大門。

與傳統科學不同，數據科學人才培養既要有傳統科學中的理論與實踐，還需要有數據科學家的精神素質，即原創性設計、批判性思考、好奇心等。未來數據科學專業的建設應圍繞數據科學的三個基本要素，加強數學、統計學和計算機科學等學科之間的合作，調動社會、產業界的數據資源，更好的培養“理論、實踐和精神為一體”的綜合性人才。

參考文獻（References）：

[1] Data science： history [EB /OL]. https：//en.wikipedia.org/wiki/Data_science.

[2] 甘容輝，何高大.大數據時代高等教育改革的價值取向及實現路徑[J].中國電化教育，2015.11：70-76

[3] 王新才，丁家友.大數據知識圖譜：概念、特征、應用與影響[J].情報科學，2013.9：10-14

[4] 朱建平，章貴軍，劉曉葳.大數據時代下數據分析理念的辨析[J].統計研究，2014.31（2）：10-19

[5] 秦小燕，初景利.國外數據科學家能力體系研究現狀與啟示[J].圖書情報工作，2017.61（23）：40-50

[6] CRISP-DM [EB /OL].https：//en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining.

[7] 陳吉榮，樂嘉錦.基于Hadoop生態系統的大數據解決方案綜述[J].計算機工程與科學，2013.35（10）：25-35