何幫強
(安徽工程大學數理與金融學院,安徽 蕪湖 241000)
由于互聯網、云計算、物聯網等一批信息技術飛快進步,人類記錄數據呈現指數式增長,社會邁入大數據時代。大數據對我們日常經濟社會的生產、流通、分配、消費等經濟活動以及社會經濟運行機制、公眾生活方式和國家治理能力水平等產生重要影響。[1]統計人才作為大數據價值得以實現的重要支撐。培養優秀的統計分析人才是大數據時代需要。大數據技術變革對大學統計專業人才培養提出了更高和更多的要求。優秀統計專業人才應該具備扎實統計理論基礎,掌握先進的統計方法,熟悉最新的統計軟件;善于通過已有數據提出問題,會處理不同種類海量數據,具備數據清洗、深度挖掘、準確表現數據和分析數據的能力。統計專業人才還要善于把生活中的實際問題轉化為統計數據問題,再利用掌握統計分析方法進行分析,最后把數據分析結論讓大家易于接受的方式表達。[2]新時代的統計專業人才不僅具備傳統統計理論基礎,還應會統計軟件編程、數據庫操作等各方面的能力。因此,如何對統計學專業的培養目標和課程教學做出改革以適應大數據發展,是統計人才培養值得關注的重要問題。朱建平等分析了大數據時代給統計學界帶來的巨大改變,分析了在大數據時代統計研究工作過程與傳統統計的區別,明確了現代統計工作和統計科學研究轉變的方法。[3]邱淑芳等認為大數據的意義不在于掌握的巨大數據量,而在于對這些含有實際意義的數據進行處理所帶來的社會財富。并認為當前統計人才培養模式與課程體系不適應大數據時代的要求,提出統計人才培養模式與課程體系需要優化。[4]本文結合大數據內涵的初步認識,探討大數據背景下的統計人才的培養模式與課程體系優化研究。
研究機構Gartner把“大數據”定義為大量的、具有高增長率和形式多樣化的信息資產。通過處理模式更新后將有更好的決策力、更強洞察力和更優的流程能力。李金昌認為大數據就是一切可記錄信號的集合。[5]數據可以重復使用、不斷產生新的價值。大數據就像“顯微鏡”那樣,使得人們能夠通過洞察數據來研究自然、經濟、社會現象。大數據有4V特點:第一,Volume(大量):數據的量已經到達EB級別和超過EB級別。第二,Velocity(高速):目前大數據的交換和傳播是通過移動互聯網、云計算等多種方式,數據進行交換和傳播速度更快。第三,Variety(多樣):數據包括非結構化、結構化和半結構化數據。當今社會,非結構化數據在生活中占比越來越高。第四,Value(低價值密度):即大數據中有社會價值的信息相對于海量數據來說非常少。人們處理大數據就像在大海中撈金子,這金子就是大數據的社會價值。統計研究者要能從海量的數據信息庫中找到有效的信息,挖掘隱藏的“規律”。通過統計數據分析來發現數據規律,研究利用規律,貫穿了人類社會經濟發展的始終。統計人才要能利用大數據為社會服務,讓大數據服務于社會經濟的發展。科學發展往往和數據分析相關,例如流行病學中開端于倫敦1854年霍亂疫情,一位醫師就是利用了疫情數據發現在一口水井附近霍亂患病率異常,關掉這口水井后,霍亂的發病率得到控制。這個典型事例,充分顯示了數據在人們日常生活中的應用價值。
大數據分析技術發展的飛快,以至于數據分析統計人才跟不上大數據發展的步伐,現在與未來若干年內統計人才都會供不應求,據預測,未來幾年數據統計人才缺口將高達上百萬。大數據發展給統計數據分析人才帶來了發展機會,同時也給統計人才的培養提出了新挑戰。大數據背景下對統計數據分析整合提出更高的要求,統計人才的培養需要數學、統計學、計算機等多個學科參與。統計人才必須具備從海量數據提取需要信息,從數據中挖掘有用信息,實現數據效用最大化。在大數據背景下,統計人才需要掌握數據挖掘、統計軟件、數據分析、金融和經濟相關知識,才能把經濟生活中的海量數據轉化為有價值的應用。[6]
傳統統計學首先必須會如何搜集、收集數據,然后整理數據,用統計指標或圖表來表現。或者建立數據模型,預測未來事態的發展。當代數據的出現方式多樣化,海量的非結構化數據推進數據庫技術革新,數據庫技術進入基于網絡數據應用的非結構化數據庫時代。相應的統計分析從基于樣本數據的建模變為借助云計算數據平臺的大數據挖掘。大數據背景下統計專業人才培養多種學科背景的統計人才。華為公司總裁任正非就認為:各個本科專業的培養后面都加一個統計學,社會需要培養高端復合型的大數據人才。大數據時代統計人才能熟練應用統計軟件進行數據分析、數據挖掘。會處理非結構化或半結構化數據。統計學專業無論從學生的就業需求方面,還是從大數據背景下統計學專業深度發展方面的需求而言。都應該加強數據操作與統計類軟件類課程的比重,提高統計專業學生統計軟件編程能力。統計人才培養還要注重大數據與金融、商業等專業的融合。
課程體系是體現教學理念和教學目標的關鍵所在。大數據時代要求統計人才具備一定數據收集、分析、處理、數據挖掘和整合等技術能力,大數據意義不在于搜集海量數據,關鍵在于對這些數據進行處理帶來的財富。[5]統計人才要掌握對各種類型和不同格式數據進行檢索、合并和重組技術。統計學教育內容要及時更新,跟上大數據時代的要求。要求統計人才不僅掌握傳統統計學內容,還要對數據獲取所需要的數據爬取,數據處理需要的清洗、數據挖掘、降維有所掌握。[8]事實上,現代統計方法也是不斷發展更新的,統計專業應該掌握基本統計分析方法,還應掌握數據分析和數據挖掘等,還要根據專業方向增加程序設計和數據庫處理類課程。在總課時、總學分確定的情況下,在設置課程內容上要有所選擇和側重。把實用的統計學基礎課和核心課程安排上,而其他一些次要的課程可做為選修課程。每個學校培養的統計人才要有自己的特色。要將學校的特色專業與數據分析結合,如復旦大學的數據分析就與國際商務相結合,北京航空航天大學與西安電子科技大學是大數據技術與軟件工程相結合,武漢大學注重大數據的應用。統計學專業的課程可分解為三塊:數學與統計學、計算機基礎及應用、數據分析和挖掘。現代的數據分析與處理需要融合經濟、金融以及計算機等多個領域的知識。
大數據背景下統計學是一門實用性學科,立足于解決數據分析的實際問題。美國高校重視校外企業合作來提高學生的實踐能力。比如:斯坦福大學學生被允許使用Amazon的EC2云平臺做大數據計算;舊金山大學與思科等公司合作,大數據人才能充分利用企業的實踐平臺,畢業后能更快上手。我國高校與企業合作相對較弱,導致高校培養的大數據人才畢業后需要較長的適應期。當前統計學教學中盡可能將大數據主流分析環境,比如Hadoop、Storm引入課程,以案例教學方式模擬實際生活中數據搜集、處理和分析。或者以業界相關問題展開教學。學習者能對業界日常活動及宏觀經濟運行進行統計分析。實踐課程內容和方式要跟上業界實際需要。積極參與業界實訓操作。大學統計人才培養實踐環節脫離實際,造成運用統計專業知識解決大數據時代現實問題的能力不夠。以后教學課程要做到理論和應用結合、實驗和實訓等環節相互銜接,突出教學課程的應用性,實現統計人才培養目標。
安徽工程大學統計學專業于2005年開始招收本科生,招生規模由最初的80人增加到現在的120人。于2007年開始在應用數學二級碩士學位點下招收經濟統計研究方向碩士生。2020年在數學一級學科學位碩士點下增設概率論與數理統計二級碩士點。安徽工程大學統計學專業主要圍繞金融統計方向培養,注重于金融模型的統計分析,強調對于金融模型的數據編程和模擬能力的培養,學生就業率一直在95%以上。統計學專業畢業生近幾年考研率在30%以上,其中2019年統計152班考研錄取率高達52%。很多優秀的畢業生步入一些名校繼續深造學習,如中國人民大學、華東師范大學、東北財經大學等。也有部分學生申請出國繼續深造,學校主要有牛津大學、思克萊德大學、長野平昌學院、澳門科技大學和德比大學等。
秉承“深化改革、引培并舉、高效融合、加大投入、完善閉環”,圍繞服務于地方經濟和大數據產業發展需求,遵照國家統計專業建設標準,確立產教協同育人的專業理念,將“學生中心、成果導向、持續改進”的工程教育理念貫穿統計人才培養全過程,加強統計專業特色建設,在省屬高校形成明顯優勢和特色,全面提升統計專業核心競爭力和社會影響力。
教師決定人才培養質量,經學院統計教師大部分都是統計方向的博士,熟練掌握傳統統計理論,但對于大數據領域中數據分析、清洗、挖掘、可視化等技術能力欠缺,特別涉及云技術、分布式計算、并行計算等技能跟不上大數據時代需要。學院始終堅持“引進與培養相結合”。鼓勵教師多參加有關大數據技術等的會議和培訓,聘請業界成功人士,嘗試實行校外導師制,參與統計專業學生的培養。[9]大數據分析有時需要有金融、工商管理或經濟學的背景。因此需要金融、管理、經濟相關的老師,統一安排課程,提高統計學專業課程的廣度和深度。
安徽工程大學統計學人才目標:培養德、智、體、美全面發展,具備扎實數學與統計學專業理論基礎,和數據搜集、數據分析處理、數據挖掘、開發應用等技能。在統計專業課程設置上,學院增加統計金融課程和數據挖掘課程,統計分析軟件和數據分析處理課程。 教學內容以“4 平臺”(學科通識教育平臺、統計專業教育平臺、專業研究方向教育平臺和專業實踐教育平臺)為載體,建立起理論、實踐以及能力培養的人才培養體系。具體構建的知識體系、知識領域和課程體系詳見表 1。

表1 安徽工程大學統計學專業教育內容與課程體系
從表1所示:課程設置總體思想是重視數學、統計、計算機理論課程的開設,也重視統計實踐應用能力的培養。應用型課程包括 Python 語言、數據庫程序設計、大數據挖掘與機器學習等實踐課程。通過電腦和實際操作來培養大學生對于搜集資料、進行數據分析、進行數據挖掘等方面的實際操作能力。[10]
實踐教學是統計專業學生大學期間培養方式中重要的一個環節,確定統計專業學生的實踐教學培養目標,大數據技術變革實時影響高等院校統計人才培養方式中實踐教學的內容。在實踐教學中加強學生大數據方向各項統計技能和數據挖掘技能訓練,統計老師在實踐教學中要了解大數據技術的新動向,對數據分析、數據挖掘和統計軟件培訓內容進行及時更新,順應大數據發展的需求。統計學專業的學生不僅需要掌握扎實的統計專業知識,同時還需要加強口頭和書面表達能力、以及與業界的交流和溝通能力,具有較強創新意識和團隊合作能力。統計專業的學生平時應該養成重視數據搜集、整理、數據分析、科學合理選擇統計方法、分析總結數據規律的習慣。
傳統的統計專業各種課程主要是考試,考試內容是書本基本概念的記憶、公式推導,強調對統計課程基礎知識的理解。大數據時代要注重提高學生對數據相關性和數據分析的能力。更加注重實踐能力的考核。可以設計業界中一個項目,進行數據分析,讓學生們設計出算法,寫出數據分析報告。或者以小組形式撰寫報告,以答辯方式考察。
綜上所述,大數據背景下的統計人才培養改革。考慮從統計學專業理論課程整合、加強數據操作與統計計算類課程的比重、有針對性的加強統計專業數學基礎課程設置與拓廣實踐類訓練課程四個方面入手,探索大數據背景下我校統計學專業改革。通過教學實踐不斷完善,同時積極與相關企業合作,共同利用和挖掘數據資源。培養一批數據分析能力強、數據挖掘技術過硬、具有較強實踐能力且能夠適應大數據時代需求人才。
目前,大多地方普通高校的統計專業課程設置不一定能夠滿足這個時代要求,大數據不僅需要一批專業的統計分析人才,同樣也需要一批善于和各個領域進行溝通交流統計技術人才。高校應該把統計專業培養人才的重點放在統計人才模式的創新路徑和完善課程體系上。應重點對大數據采集、數據挖掘、數據分析和數據應用等領域開設課程,注重大數據與經濟、金融、商業等行業的融合,緊跟著大數據技術發展的腳步,培養出一大批符合大數據時代發展要求的統計專業人才。