互聯網的普及已經產生了一個大數據的時代,人們的方方面面都產生了大量的網絡數據信息,大數據時代的數據量更大、結構更復雜,因而從大數據中挖掘有價值的信息資源具有重要意義。大數據人才要求具備數學、計算機、統計學的綜合知識。本文主要從人才素質的培養、知識結構的形成、課程設置的調整以及應用型人才的培養四個方面,對大數據時代的統計學教育提出了相應的建議。
大數據最重要的特征是具有"4V"的特點,即Volume、Velocity、Variety和Veracity:1.數量大,其數量已經達到了PB級和 ZB級別;2.類型多,數據的結構類型多樣,包括網頁、圖片、音頻、視頻等格式的數據;3.高效。如今數據的產生十分迅速,同時也需要高效的數據處理迅速對其作出反應,高效、及時、連續不斷的的數據監測、處理,可以避免數據死角,實現全方位監測,提取有價值的信息。4.真實性。真實是數據處理的最終目的,大數據可以通過適當的統計學的研究工具和方法獲得真實的數據分析結果,但由于大數據的易得性和泛濫性,導致數據的信噪比越來越大,數據的真實性受到了挑戰,所以需要通過新的統計工具和方法降低信噪比。
大數據對傳統產業造成了沖擊,比如傳統的媒體報紙行業日漸沒落,而互聯網企業則發展迅猛,任何行業都可以通過做“互聯網+”得到快速發展。大數據促使信息獲取方式的變革,較大的樣本量也變得極容易收集,數據的維度也在不斷的擴張。比如人們在觀看視頻和網絡新聞時表的評論也成為了信息的監測的對象,增加數據來源的渠道。大數據促使信息推送方式也就是廣告的變革,瀏覽器通過追蹤定位記錄用戶瀏覽的信息,廣告商根據用戶訪問記錄投放更加精準的廣告,從而帶來了一個精準營銷的時代,數據是企業了解市場與自身發展趨勢的主要依據,但是國內由于大數據起步較晚,還沒有建立起為大數據人才制定的一套獨有的教育模式,而統計學是研究數據的學科,因此從統計學入手培養數據人才是目前最便捷的教育方式。大數據與統計學二者是有緊密聯系的,體現在對數據的處理流程有很多相似之處,都需要做數據采集和分析。但二者也有區別,主要體現在研究目的和技術上。大數據的目的是挖掘出商業投資、金融分析、風險管理和醫療健康等領域的有價值的信息,涉及的技術有數據庫、分布式文件系、云計算平臺、互聯網和可擴展的存儲系統等。而統計學主要目的是發現數據背后的本質和規律,以概率論、抽樣推斷和相關回歸分析等數理統計原理為研究方法。因此,如何利用統計學的傳統優勢,對統計學教育進行改革,培養大數據人才是本文主要探討的內容。
大數據時代的統計學教育首先需要培養學生的自學能力,因為需要多學科的知識融合。其次,是溝通能力的培養。大數據統計工作者在工作中需要經常會與各個部門的員工交流溝通,傳達結論給產品經理和工程師,共同確立最合適方案,并能將專業的數據分析結果用通俗易懂的語言表達出來,可通過積極的多參加演講活動培養數據人才優秀的溝通表達能力;最后,需要培養數據敏感性,提高其視野和眼界。數據科學家經常面對各種各樣的海量數據,并需要從這些數據中挖掘出有價值的信息,這就需要數據科學家具有強烈的數據敏感性。數據敏感性是無法一蹴而就的,而是通過長期的數據分析工作和閱讀數據分析報告的經驗積累的。
統計學家是需要具備數學、統計、計算機知識的綜合型數據人才,因此統計學學生不僅要學習統計學理論知識,還要學習計算機和數學方面的知識。計算機方面,熟練應用計算機軟件是數據人才進行數據分析的基礎。因此,企業招聘統計數據人才時一般都會要求其至少會使用一種腳本語言,如 Python、PHP等,精通數據庫和SQL,會使用R、MATLAB、SAS等分析工具以及可以使用Map Reduce、Hadoop、Hive等計算工具,可用 Hadoop、Pig做大數據分析,可以編寫復雜 SQL查詢流程,可以用數據庫、統計軟件編寫程序代碼。數學方面,除了高等數學、線性代數、概率論等基礎課程,還應該學習隨機過程論、函數逼近論、圖論等方面的知識。因為隨著數據分析研究問題的深入,所有的統計問題、計算機問題的本質都是回歸到數學問題,只有擁有更加有深度的數學理論知識,才能滿足大數據時代數據科學家的需要。
我國目前的統計學研究生教育課程設置更偏向于經濟統計方向、數理統計方向、金融統計與風險管理方向。統計學研究生必修課包括高等概率論、高等數理統計、回歸分析、多元統計、時間序列分析、探索性數據分析、統計調查和英語、思政等;選修課包括金融統計實務、定性數據分析、金融風險管理、投資學、金融計算等。顯然這樣的課程設計缺少計算機方面的課程,但是所有數據分析的實現都需要計算機來完成,包括計算機語言、數據庫、數據結構、數據可視化等。其中,數據可視化是一項比較新的技術,即用API把圖形、表格、地圖、Dashboard等相關服務有機結合,使分析結果簡單易懂,將數據結果與設計結合起來,讓深奧難懂的分析結果以簡單易懂、生動有趣的形式進行圖形化的信息展現。綜上所述,大數據時代已經到來,我們的課程設置應做出相應的調整。下面是美國某大學的數據分析專業的主要課程設置,其多元化的課程設計十分具有參考價值。
其在數據挖掘方面的課程有聚類、關聯性規則、因子分析、存活時間分析、邏輯回歸、非線性回歸、多元統計分析等。在數據分析方面的課程有時間軸分析、主成分分析、非參數回歸、統計流程控制、非結構化數據概念的學習、Map Reduce技術、大數據分析方法、時間序列分析、概率模型與優化、多目的決策分析、決策樹、影響圖、敏感性分析等,在數據管理方面的課程有ETL(Extract、Tr ansform、Load)、數據治理、管理責任等。在計算機軟件方面的課程有數據模型、數據庫設計、WEBUI設計、企業門戶設計實踐、云計算概述、資訊門戶系統數據庫建模設計實踐 、Java核心技術、Java Web開發技術、編譯原理、高級軟件工程等。選修類課程有社交網絡分析、多元統計分許與 R語言建模、流數據分析技術、數據可視化技術、計算廣告學、商業智能、大數據技術與應用前沿技術講座等。
由此可見,大數據時代的數據分析工作需要數學、計算機以及統計學三個學科的緊密結合,通過三個不同的學科進行聯合培養,對原有課程進行調整,應根據新時代人才培養的要求,增設新的與大數據前沿領域發展相關的課程,如計算機網絡和大數據相關軟件的應用教程,進行不同課程之間的合并重組和統籌安排,在已有課程中提高社會實踐教育課程的比重,引導學生正確認識大數據和大數據時代,培養其運用大數據的相關分析工具解決實際問題的能力,促使其學習更多處理不同數據結構的知識,例如圖像處理、視頻處理、自然語言處理、文本處理、語言識別等課程,這些專業課程可根據企業的供需有選擇的學習。
大數據時代培養的數據人才不僅需要掌握扎實的理論知識和具備基本素養,也需要具備實踐應用能力。因此,研究生教育可以建立導師雙軌制,一名校內導師一名校外導師,可通過校企合作的方式進行研究生的聯合培養,注重學生的實際操作能力。校內導師注重學生的理論性,校外導師注重學生的實踐性,學生通過在校外導師所在的企業實習,學校可以某些企業中建立專業性教育實踐基地,鼓勵學生到大數據相關的企業中去做相關項目的社會實踐,從而熟悉并且掌握實際工作中所需要的技能,總而言之,雙導師制為大數據時代培養應用型數據分析提供了一個可供學生接觸大數據的平臺。此外,研究方向、培養目標也需要與時俱進,新的研究方向需要被建立,如大數據分析、計算廣告學等方向。不同的研究方向應配置不同的培養方案與體系和針對該研究方向的審核方式。與之相同需要與時俱進的是培養目標,大數據時代的培養目標并不僅僅是像以前那樣進行數據的收集、整理與分析那么簡單,而是要求學生掌握新的研究方法,掌握大數據時代數據科學家所需要的專業技術,可以獨立完成數據的分析,有價值信息的提取以及成為做出響應決策。
面對大數據時代的諸多挑戰,培養統計學人才的教育模式也得與時俱進,做出相應變革,推動統計學和數學、計算機學科的合作,從而為適應大數據時代的發展趨勢培養更加全面、更加專業的復合型數據人才,使得海量數據的市場價值不斷被挖掘和實現。綜上所述,統計學教育的改革不是一朝一夕的事情,而是一個不斷發展和不斷進步的過程,需要多學科的合作,從而更好的應對大數據時代的挑戰。
[1]耿直.大數據時代統計學面臨的機遇與挑戰[J].統計研究,2014(1):5-9.