陳志剛
【摘 要】探討了大數據時代背景下“數據”能力對各專業大學生的意義。接著從數據處理相關理論知識,計算機能力和實際解決問題能力三個方面,分析了現有教育體系的不足,針對性地提出大學教育中應加強應用統計理論的學習,掌握主流的數據處理語言(如R)和加強在畢業設計中“數據”應用。
【關鍵詞】大數據;數據處理;計算機能力;解決問題能力
一、大數據時代的定義
隨著信息技術的迅猛發展,當今社會已進入大數據時代。大數據是指無法在可容忍的時間內用傳統IT 技術和軟硬件工具對其進行感知、獲取、管理、處理和服務的數據集合。大數據具有體量浩大、模態繁多、生成快速和價值巨大但密度很低等特點 [1]。每天各行各業中都產生海量的數據,2011年全球被創建和復制的數據總量為1.8ZB(10的21次方),遠遠超過人類有史以來所有印刷材料的數據總量(200PB)[2]。對數據的處理和分析,挖掘和運用已經成為幾乎每一個行業的基本職能之一。有效的使用這些數據將會極大促進國家和社會發展,加快經濟增長,并為科學界提供了新的研究方法。
二、“數據”能力在大學教育中的地位
在我國大學教育中大數據的影響力正在體現。許多著名高校如北京,清華,人民大學,復旦大學和中南大學等都開設了數據科學相關專業。大數據的影響力體現在整個社會領域,幾乎每一個大學專業都會與大數據打交道。應用學科領域中,在經濟與管理領域,通過收集大量數據,運用統計和計量的方法進行實證研究。在計算機領域,通過數據了解用戶的行為模型,挖掘有用的顧客信息。在生物領域,通過數據幫助生物學家正確地準備實驗,進行實驗,驗證實驗結論,并正確解釋實驗結果,更好理解復雜的生物醫學現象和確定藥品療效。在工程領域,通過工程和制造中各種數據,進行實驗設計,質量控制,過程控制,可靠性工程和系統動力學識別等。即使對純理論的學科,大數據依然發揮著重要作用。如在物理研究中,通過大數據驗證微觀系統的概率特性,解釋和定量描述許多復雜現象如超導性,超流動性,湍流和液體的結構特征。甚至在文學和歷史領域也可以運用大數據來掌握作者寫作風格分析,對歷史事件進行分析等。無論是國家政府部門、企事業單位、科研團體還是個人等,數據分析都是進行決策的前提條件,因此數據分析相關技能也有廣泛的就業面。全球的數據相關工作需求量一直很大。根據LinkedIn勞動力報告,在美國專業數據分析人員需求比五年前增長六倍,數據分析師將成為未來五年內最熱門的職位。IBM研究報告也預測,到2020年美國數據科學家、數據開發人員和數據工程師的年需求將導致70萬新職位。
三、“數據”能力的培養體系設計
數據分析和處理能力是所有現代大學生必備的一項技能。數據分析是一個復雜的過程,包括從獲得數據,處理數據,分析數據,展示數據,解釋和分析數據,及結論的解釋,這些都需要通過具有專業技能人才來完成。在大數據時代背景下,有必要針對性加強現有教育體系中“數據”能力培養,進一步提高所有大學生的“數據”能力。具體來說,作者認為有三個主要方面,加強應用統計理論的學習,掌握主流的數據處理語言(如R)和在畢業設計中加強大數據應用。
(1)加強應用統計理論的學習
現在本科生開設有概率論與數理統計課程,但所給的學時均較少,設計內容較多。在數據分析領域中,存在大量的統計相關理論,較短的學時無法使得學生對統計有一個充分的了解。大多數課程只是側重于概率理論的講解。而到專業課領域,專業老師更偏重于實際運用。培養過程中只強調了概率理論和應用。學生缺乏從理論到模型,再從模型到實際運用的環節。他們經常熟練的運用計算機軟件,搜集大量的數據,得到一堆分析結果。卻并不理解分析結果的理論背景和意義。導致經常胡亂理解“數據”的分析結果,得到不準確的結論,有時甚至是錯誤的。學生不僅要了解數理統計模型中如何運用概率論的知識,也要掌握如何運用數理統計模型解決實際問題。可以大幅增加概率論與數理統計課程的學時,由多名老師組成課題組。每個老師分別側重一部分內容,如概率論,數理統計模型,專業領域數據的處理和應用等。并且課程組要一起制定教學大綱,特別注意各部分內容的銜接。
(2)掌握主流的數據處理語言(如R)
數據處理過程中,所有步驟都需要通過計算機完成。現有的教學體系中,大多數通過c語言來傳授編程的思想。在專業課中采用本專業特有的軟件來進行數據分析。在信息時代,誕生了一門專門進行數據處理的語言R。R是一套由數據操作、計算和圖形展示功能整合而成的套件。包括:有效的數據存儲和處理功能,一套完整的數組計算操作符,完整體系的數據分析工具,強大圖形功能等[3]。R語言具有很多優秀的性質:首先它是一個開源免費的軟件,吸引力大量的使用用戶,許多統計學家為其提供服務。目前它是發展最快,用戶量增加最多的統計軟件。擁有上萬不同統計功能的程序包,并且仍然不斷增加。新出現的統計算法首選通過R發布。其次它是一門編程語言,通過編程可以解決所有統計方面的問題,而不需要針對不同問題采用特殊的專業統計軟件。這些特點決定了R語言非常適合大學教學使用,在計算機能力培養方面實現了從編程到統計運用的統一。
(3)在畢業設計中加強大數據應用
盡管通過大學四年的學習,學生具有了與“數據”打交道基本知識和能力。但是“數據”的處理是一個非常復雜的過程,存在大量的相關統計知識和相應的軟件實現過程,以及實際問題中的各種不確定性。沒有人可以完全掌握所有的統計知識,預知解決問題中的所有困難,當大學生通過前三年的學習掌握了基本的“數據”處理理論和技能時。進一步需要真實地解決一個現實問題。需要學生自己去設計調查方案或實驗,收集數據。選取適合的統計模型,理解模型的作用、自學所涉及的概率和統計知識。嘗試運用數據去發現或解決問題。通過實際運用過程加強學生對“數據”的理論和處理流程的理解,對于“數據”能力的提高是十分必要和至關重要的。在畢業設計中,要強調問題為真實和源自于實際。引導學生采取用“數據”說話的方法解決問題。
四、結束語
在大數據時代背景下,本文首先分析了“數據”能力對各專業大學生的意義。接著從數據處理相關理論知識,計算機能力和實際解決問題能力三個方面,探討了現有教育體系的不足,并針對性的提出三方面的解決措施:應加強應用統計理論的學習,掌握主流的數據處理語言(如R)和加強在畢業設計中大數據應用。
【參考文獻】
[1]李國杰, 程學旗. 大數據研究:未來科技及經濟社會發展的重大戰略領域—大數據的研究現狀與科學思考[J]. 中國科學院院刊, 2012, 27(6):647-657.
[2] Gantz J, Reinsel D, Gantz B J. Extracting Value from Chaos[M]. International Data Corporation and EMC, 2011.
[3]李強. R語言融入數學專業課程教學的探索與實踐[J]. 高教學刊, 2015(9):24-24.