(上海財經大學浙江學院,浙江金華321013)
(上海財經大學浙江學院,浙江金華321013)
“大數據”(Big data)研究機構Gartner定義。“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。統計學在大數據的研究中存在一定的應用,表現在將“大數據”變成“小數據”,對海量數據的搜索、聚類和分類依賴于統計學的一般方法,因而大數據的研究繼承了統計學科的一些特點。但大數據尚未被統計學完全吸納和應用,這主要是由于大數據與統計學存在兩個很關鍵的差別。為此,在大數據時代背景下,應用統計學專業的人才素質的培養及課程設置如何改革等方面,是應用型本科院校值得并迫切思考的重要問題。
大數據;應用統計學;改革
眾所周知,統計學自古至今就是一門以研究數據為主的學科,至今已經形成了較為成熟的數據研究體系與框架。統計學專業的學生的主要就業方向是銀行、會計師事務所、市場調查公司或其它企事業單位。因此目前統計學教育的主要目的是能夠培養出獨立完成問卷設計、數據收集、應用模型進行數據分析的高級統計人才,其主要專業課程包括:高等概率論與數理統計、應用回歸、多元統計、市場調查實務、時間序列分析、金融計算等,這些課程仍然是傳統的課程設置,并不符合大數據時代數據科學家的專業知識構成。因此,在大數據時代背景下對應用型本科院校應用統計學專業的培養模式和教學改革的思考是非常有必要的。
2012年3月29日,美國在倡議書中指出,美國將應用收集巨大、復雜數據的挖掘能力,加速科學與工程學科的創新腳步,改革學生培養模式。北京師范大學邱東教授探討了面對大數據潮流人們應持有的科學態度,從大數據的概念功能、統計學與數據科學的關系、大數據潮流對統計學產生的影響等4個方面論述了大數據對統計學的挑戰[1]。英國學者維克托·邁爾·舍恩伯格認為大數據的精髓在于分析信息時的3個轉變:一是可以分析和處理更多甚至是全部的數據,不再依賴隨機抽樣;二是研究數據如此之多,以致于人們不再追求精確度;三是人們不再熱衷于尋找因果關系[2]。為適應大數據時代對數據處理人才更高綜合素質的要求,統計學科教師與專業教育應在知識結構、教育內容、教育方式和人才培養模式等方面,主動進行與時俱進的充實、調整及變革[3]。文章擬從數據挖掘與統計分析的聯系與區別、大數據對統計教育及統計人才的機遇與挑戰的新形勢下從政府、企業和人才等多個角度進行展開調查,對于應用型本科院校培養順應時代發展的應用統計學專業的高層次人才提供相應的建議。
統計分析是指運用統計方法及與分析對象有關的知識,從定量與定性的結合上進行的研究活動。
統計分析過程:描述要分析的數據的性質,研究基礎群體的數據關系,創建一個模型,總結數據與基礎群體的聯系,證明(或否定)該模型的有效性,采用預測分析來預測將來的趨勢。
統計分析方法:(1)描述統計:將研究中所得的數據加以整理、歸類、簡化或繪制成圖表,以此描述和歸納數據的特征及變量之間的關系的方法。集中趨勢、離散程度、相關強度等、指標有平均數、標準差、相關系數等;(2)推斷統計:用概率形式來決斷數據之間是否存在某種關系及用樣本統計值來推測總體特征的一種重要的統計方法。總體參數估計、假設檢驗、Z檢驗、T檢驗、卡方檢驗等數據挖掘是從龐大的數據中分析出有目標數據群,篩選出利于決策的有效信息。數據挖掘的數據量極大,注重數據查詢分析的可行性。數據挖掘是著眼于預測未來,從大量的數據中尋找某些規律。
數據挖掘過程:(1)定義問題:分析業務需求、定義問題的范圍、定義計算模型所使用的度量、定義數據挖掘項目的特定目標等;(2)準備數據:刪除錯誤數據或插入缺失值、查找數據中的隱含相關性、標識最準確的數據源、確定哪些列最適合用于分析;(3)瀏覽數據:計算最小值和最大值、計算平均偏差和標準偏差、查看數據的分布;(4)部署和更新模型:根據實際數據部署、更新模型;(5)瀏覽和驗證模型:測試模型的性能、需要使用不同配置創建多個模型,并對所有這些模型進行測試,查看哪個模型為最佳;(6)生成模型:通過創建挖掘結構定義要使用的數據列、將挖掘結構鏈接到數據源,但只有對挖掘結構進行處理后,該結構才會實際包含數據。

表1統計分析與數據挖掘的區別
從上可以看出大數據雖與統計學密切相關,但二者也在研究目的、數據處理對象和技術工具上有著諸多差異。大數據的興起不僅在分析手段、工作重心和價值理念上給統計學帶來了重大影響,而且也使擔負著培養現代統計工作和數據分析之人才的統計教育面臨嚴峻挑戰。
根據2014年大數據應用現狀和趨勢展開的調研分析,被調查者最關注的大數據技術中,排在前三位的分別是數據分析(統計分析與數據挖掘等)(25.5%)、數據采集(19.9%)、數據處理(18.5%)。企業數據管理面臨的挑戰:缺乏專業的大數據人才(26.95%)成為企業面臨的最大挑戰,其次是非結構化數據的分析和處理(26.65%)、傳統技術難以處理大數據(25.27%)以及新技術門檻過高(21.13%)。根據2015年2月Forrest報告,很多企業都在努力挖掘其擁有的大量數據,包括結構化、非結構化、半結構化數據等,探索對數據的深入利用。從國內企業大數據應用的現狀和規劃來看,已經部署大數據應用的企業所占比例達到21.89%,計劃1年內部署的企業占27.92%,計劃2年內部署的企業占14.34%,沒有相關計劃和不確定的企業分別占11.32%和24.53%。大數據相關人才的欠缺將會成為影響大數據市場發展的一個重要因素。據Gartner預測,到2016年,全球將新增440萬個與大數據相關的工作崗位,且會有25%的組織設立首席數據官職位。大數據的相關職位需要的是復合型人才,能夠對數學、統計學、數據分析、機器學習和自然語言處理等多方面知識綜合掌控。
根據學院統計學不同方向等專業的學生、老師、專家以及政府范圍工作人員等進行訪問調查的結果,然后結合現如今大數據時代企業和政府對人才的需求,最終制定應用型人才培養方案分別如下:
(一)深化課程教學內容改革
1.更新教學內容,緊跟時代發展——大數據、互聯網金融、國民經濟統計、貨幣銀行、經濟預測與決策;2.強化統計基礎,提高實踐操作——統計方法、軟件實現、貝葉斯統計、非參數估計、統計軟件、數據挖掘;3.強調專業導向,拓寬就業方向-選修、考證;金融類、經濟類、管理類、會計類;統計從業資格證書。
最終根據學院不同方向統計學專業設置專業核心課如下:
(1)應用統計學:主要專業課調整為:概率論、數理統計、統計學、回歸分析、時間序列分析、多元統計分析,抽樣技術、數據挖掘、貝葉斯統計、計量經濟學、統計軟件、非參數統計、統計調查等;(2)應用統計學(金融統計):主要專業課調整為:概率論、數理統計、統計學、回歸分析、時間序列分析、多元統計分析,抽樣技術、數據挖掘、金融計量學、風險管理、保險學、非壽險精算、統計軟件、國民經濟核算、統計調查等;(3)經濟統計學:主要專業課調整為:概率論、數理統計、統計學、回歸分析、時間序列分析、多元統計分析,抽樣技術、數據挖掘、國民經濟核算、風險管理、保險學、非壽險精算、統計軟件、金融計量學、統計調查等。
(二)重視教學方法改革
1.教師教學理念——單向灌輸式轉向引導探究式、教學案例能貼近實際問題(體測數據、大學生婚戀、手機);2.鼓勵學生參與各類項目——科研、調研、方案設計、抽樣調查、統計調查、學科競賽、教師課題(分解子課題);3.注重綜合能力提升——表達、協作、創新、研究報告、PPT展示等。
(三)建立完善的實踐教學系統
1.基本知識技能實驗——理論教學的課內實驗,大一、二:數學類;大二、大三(上):專業基礎;2.綜合性實踐教學——綜合性數據的采集、處理、分析,大三(下)、四(上):數據挖掘、統計軟件、統計調查;3.探索性實踐教學——社會調查、畢業實習、畢業論文,大四(下)。
(四)改革課程考試方式
1.基本知識(理論)+實驗報告(平時)+綜合實驗(期末)數學類;專業基礎課程;2.方案設計、調研報告、抽樣調查、統計調查;3.綜合實驗,數據挖掘、統計軟件。
最終學院統計系下設兩個教研室和一個研究中心,即基礎統計教研室、專業統計教研室和大數據統計科學應用研究中心。秉承和依托母體學校——上海財經大學的辦學宗旨和學術底蘊。在全校統計學公共課教學方面,針對學生的特點,課程教學采用課堂教學、調查實踐與統計調查大賽相結合的教學方式與形式。也采取和校外企業、單位等合作項目老師指導學生參與的形式,這樣既提高學生的實踐能力又加強了師生之間的交流。在這樣邊學理論邊實踐的過程中也讓學生足夠了解現在企業所需人才的類型、找到自己的不足再補充理論方面的知識,然后學生還可以向學校反饋信息,這樣最終形成一個學院專業始終跟得上經濟的發展形勢,不斷地改革和完善教學內容,爭取培養出在各級政府機關、銀行、證券以及上市公司、企業集團、跨國公司等企事業單位和經營管理機構從事統計、市場調研、市場預測與決策、信息咨詢、可行性研究和綜合評價等實際工作以及科研單位從事研究工作的應用型人才。
[1]邱東.大數據時代對統計學的挑戰[J].統計研究,2014(1):16-122.
[2][英]維克托·邁爾·舍恩伯格.大數據時代:生活、工作與思維的大變革[M].袁杰譯.杭州:浙江人民出版社,2013:11-13.
[3]李衛東.大數據對統計學科的影響[J].統計與決策,2014(13):F002.
[4]陶海映,李治國.淺談統計學基本問題[J].商業時代,2007(26):282.
[5][日]城田真琴.大數據的沖擊[M].周自恒譯.北京:人民郵電出版社,2013:223-224.
[6]李林杰,顧六寶,董正信.我國的統計學向何處去[J].統計研究,2000(2):33-37.
[7]李金昌.大數據與統計新思維[J].統計研究,2014(1):10-16.
大數據時代背景下對應用統計學專業的思考*
孔曉瑞 劉夢玲 靳俊嬌
"Big data"is defined by Gartner,a research institute."Big data"is massive and diversified information assets that can grow at high rate and is with stronger decision-making ability,insight and the ability to optimize process with the help of new processing mode.Statistics can be applied in the research of big data,turning big data into small data.The search,clustering and classification of huge amounts of data depend on the general method of statistics,so researches on big data inherit some characteristics of the statistics.But big data has not been completely absorbed and applied by statistics,which is mainly due to two essential differences between big data and statistics. Therefore,under the background of big data,the cultivation quality of talents from applied statistics and how to re原form curriculum setting are important problems that applied undergraduate colleges and universities need to think.
big data;applied statistics;reform
C8文獻標志碼:A文章編號:2096-000X(2016)18-0041-03
2015年度上海財經大學浙江學院院級課題
孔曉瑞(1989,01-),女,民族:漢,籍貫:河南周口,碩士研究生,助教,上海財經大學浙江學院,大數據應用研究中心主任,研究方向:經濟統計、金融統計。
劉夢玲(1990,01-),女,民族:漢,籍貫:河南南陽,碩士研究生,助教,上海財經大學浙江學院,統計系專業教研室主任,研究方向:經濟統計、應用統計。
靳俊嬌(1988,09-),女,民族:漢,籍貫:河南開封,碩士研究生,助教,研究方向:經濟統計。