龐鐳
摘 要:統計學作為收集、整理、分析和解釋數據的方法論和科學,統計學專業作為培養數據分析人才的學科,正在經受大數據浪潮的沖擊。如何主動應對大數據時代帶來的機遇與挑戰,推動統計學教育和統計學人才培養的改革和發展,服務大數據行業、產業發展大局,是當前統計教育工作的重要課題。
關鍵詞:大數據 統計專業 核心
中圖分類號:G632 文獻標識碼:A 文章編號:1674-2117(2014)10-0008-02
1 大數據的統計涵義
通常來說,凡是數據量超過一定大小,導致常規軟件無法在一個可接受的時間范圍內完成對其進行抓取、管理和處理工作的數據即可稱為大數據。業界通常用4個V(即Volume、Variety、Value、Velocity)來概括大數據的特征:數據體量巨大、數據類型繁多、價值密度低、處理速度快。
大數據潮流讓我們獲得了海量的數據,數據已經成為相關行業創造價值的重要資源。因此,許多IT企業和互聯網企業都已將業務范圍延伸至大數據產業,探索大數據驅動的業務模式。2012年,美國政府投資2億美元啟動的“大數據研究和發展計劃”,更是將大數據的研究上升到國家戰略層面。然而,大數據的真正意義不在于數據量的巨大,而在于對數據信息進行專業化的處理,核心是對數據進行分析。面對大數據,越來越多的領域都開始運用數學特別是統計學的工具,挖掘大數據中真正蘊藏的價值。正如西內啟在《看穿一切數字的統計學》書中所指出的,“從數據中得出有意義的結果,關鍵在于控制和減少誤差,得出因果關系,單純收集數據并加以全部量化分析在很多情況下會得出謬誤結果,”而科學的統計學方法是得出因果關系的最佳方法。
從統計學角度看,一方面,大數據具有類型繁多、結構復雜、體量巨大等特點,海量數據以分布式方式進行存儲,特別是圖片、音頻、視頻等非結構化數據的廣泛存在,傳統的統計方法和統計分析工具已無法滿足大數據分析的需要,亟需統計方法的革新。另一方面,數據分析結果需要用生動、直觀、容易被接受的方式展示給讀者,可視化分析能夠直觀地呈現大數據的特點,闡釋數據與數據之間的聯系。因此,統計學要挺立大數據潮頭,創新統計分析工具、可視化分析方法,以大數據的挖掘和應用為核心,將傳統文本、圖像的統計、分析向數據分析轉變,以適應大數據時代的發展及其對統計學帶來的挑戰。
2 大數據時代統計學教育面臨的挑戰與應對
據互聯網數據中心(Internet Data Center)預測,中國大數據技術與服務市場將會從2011年的7760萬美元快速增長到2016年的6.16億美元,而據業界專家估算,中國大數據市場的人才需求量至少為100萬人,其中統計人才、技術更是捉襟見肘。傳統數據收集和分析技術的知識結構已不能滿足大數據時代對“數據科學家”的要求,多家企業在面對大數據發展時遭遇人才瓶頸。大數據相關人才供給不足將會成為影響大數據市場發展的一個重要因素。
當前,全世界范圍內已有數百個高校開設了大數據分析專業??▋然仿〈髮W和新澤西州立大學在培養目標和課程設置上項目設置偏重于計算機方向。課程設置偏重統計學與運籌學(包括決策科學)的典型學校有田納西大學和約克大學。2013年,北京航空航天大學與慧科教育合作開辦了國內首個“大數據技術與應用”軟件工程碩士項目研究生班,這是目前國內唯一一個培養大數據行業專業型人才的項目,但其培養目標、知識體系是面向計算機領域,而立足統計學基礎的大數據分析人才培養項目,在國內可謂是鳳毛麟角。
知者隨事而制。高等院校統計學專業要通過有效利用和整合人才培養資源,承擔大學人才培養的責任,駕馭大數據的浪潮,占領大數據發展人才培養的制高點,體現高等院校向社會、企業提供智力支撐,輸送企業亟需的復合型、實用性大數據分析人才的載體作用,確保產業科學、持續、高速的發展。一是教育資源的整合,走在前列的首都經濟貿易大學、北京大學、中國人民大學、中國科學院大學、中央財經大學五所應用統計專業碩士培養單位在北京成立了“中國大數據教育協同創新體”,在高校之間實現學科融合、優勢互補、強強聯合,通過共享優質資源平臺、共同建立課程體系、共同建設案例資源庫、聯合搭建實踐實訓平臺等多種形式,創新人才培養體制機制。二是高等院校教育資源與業界資源的整合,通過與國有超大型企業、互聯網翹楚的協同培養,立足應用統計專業碩士教育,建立人才培養基地,進行協同創新,探索構建應用統計(大數據分析)專業碩士人才協同培養模式。以緩解當前大數據人才供需矛盾為目的,建立“校校協同、校企協同、院系協同”的大數據分析方向人才協同培養模式,最終實現協同培養“數據科學家”的目標。[5]
3 面向大數據分析方向的應用統計專業碩士培養模式的構建
本研究認為,可以將大數據分析及相關的案例教學模式融入應用統計專業碩士學位研究生的培養過程,進而打破統計學傳統的以闡述統計理論、公式推導、數學計算為主的教學模式。以情境浸潤為基礎,為學生呈現統計學在大數據領域應用為核心的教學模式,可以培養學生對大數據的挖掘、整合、分析價值的能力,以期更好、更快地適應企業對數據分析師、數據科學家的需求。
3.1 科學構建課程體系,突出大數據分析特點
大數據具有強烈的行業特點,在充分借鑒國外大學成功經驗的基礎上,大數據分析專業碩士的課程設置,強化數據分析能力和數據挖掘能力,注重上述技術在金融等領域的應用。必修課在講授統計基礎理論(描述、多元、時序、空間、可視化等)課程的基礎上,為增強學生的大規模分布式計算技能,引入主流的大數據計算平臺,如Hadoop分布式平臺、MapReduce并行編程算法。與此同時,為提高學生動手能力,構建數據模型思維,開設《大數據分析案例》等多門課程。選修課方面,考慮到學生二次開發的需要,設置大數據開發基礎課程,如C++、Java等。為突出應用統計專業碩士側重應用的特點,開設面向數據的編程語言,如R、SAS、Python等課程。這些課程模塊的設置并非體現某一學科知識的縱深發展,而是將相關學科的知識融合,有利于突出大數據分析的特點。endprint
3.2 創新教學培養模式,注重培用結合
以“編組”方式開展教學活動。授課教師和學生均采用團隊編組模式,多名教師協同工作,共同完成一門課程的授課任務。打破原有學科思維、教材的束縛。采用導師指導與集體培養相結合的方式。教師不可照搬舊有的教學大綱、課程內容,要學習和熟悉大數據相關知識體系與技術新進展,充分結合大數據分析需求和實際案例,使課程內容緊貼實際需求,注重培養學生對模型的理解,對數據的想象力,真正實現學以致用、培用結合。
采取“訂制化”培養模式,突出培養與應用相結合的特點,力爭做到人、崗的高度匹配。“訂制化”培養模式打破了目前應用統計專業碩士統一培養、與市場需求脫節的模式壁壘,教學實踐以市場需求為導向,依照企業的崗位標準、用人要求,強調以崗位需求制定培養方案,更好地滿足用人單位對大數據分析人才的需求。
3.3 開展校企協同培養,構建問題導向、項目牽引的實踐教學模式
根據國務院學位委員會的規定,應用統計學專業碩士學位研究生教育的目的是培養具有良好的統計學背景,系統掌握數據采集、處理、分析和開發的知識與技能,具備熟練應用計算機處理和分析數據的能力,能夠并適應行業或職業實際工作需要的應用型高層次人才。因此,要摒棄普遍存在的重理論輕實踐、重知識輕技能的教學方式。
協同創新培養在實踐教學中建立了以問題為導向,以項目為牽引的運作機制,強調實踐教學內容的呈現方式要面向企業需求,讓學生參與到企業的項目運行過程中,引導學生建立業務建模能力,培養學生的數據資源整合能力,激發學生參與項目的積極性和自覺性。學生不拘泥于學校的實驗實訓基地和各類實驗室,在第二學年中安排一定時間走出校門,進入到企業的實際環境中,參與企業的項目組織、實施過程,在實踐過程中提升自我認知能力,在實踐過程應用知識和理論研究實際問題的能力,培養和鍛煉數據資源整合能力、溝通協調能力、IT支撐能力、業務建模能力,真正實現面向能力培養的目的。指導教師方面,在案例教學和實習階段引進業務素質高、項目經驗豐富、對大數據發展有敏銳洞察力的企業高級數據分析人員,指導學生在實習實踐中提出問題、建立模型、解決問題的能力。
4 結語
應用統計(大數據分析)專業碩士人才協同培養模式,是一項可持續發展的應用統計專業碩士人才培養的新模式,是專業碩士教學實踐的創新舉措,也是在全國率先建立起來的立足統計學,在大數據分析人才層面建立的校校協同、校企系統辦學體。體現了面向能力培養、面向社會需求培養、面向人才價值培養的“三個面向”的培養目標,著重培養學生分析數據、處理數據、展示數據的能力,對于培養“高層次、實用性、復合型、國際化”大數據分析人才意義重大,同時也是順應大數據技術革命的浪潮,必將對大數據等新興技術產業的發展注入活力。
(首都經濟貿易大學,北京 100070)
參考文獻:
[1]劉軍.Hodoop大數據處理[M].人民郵電出版社,2013.
[2]大數據的四個典型特征[N].中國電子報、電子信息產業網,2012(12).
[3]CCF大數據專家委員會.2014年大數據發展趨勢預測[J].中國計算機學會通訊,2014(1):32-36.
[4]統計學幫你駕馭大數據[N].中國證劵報,2013(11).
[5]吳元欣,王存文,丁一剛.化工專業聯盟人才協同培養模式的構建與實踐[J].化工高等教育,2013(1):1-4.endprint