方江林
【摘要】文章首先探討了大數據時代來臨對統計學帶來的機遇和挑戰,然后分析了大數據背景下目前本科統計教育普遍存在的問題,并針對其存在的問題提出了相應的本科統計教育改革建議。
【關鍵詞】大數據;統計教育;樣本;統計學
大數據是社會發展和技術進步的必然產物。最早提出大數據時代到來的是世界知名的麥肯錫咨詢公司,大數據在金融、生物信息、通訊等行業早已存在,但因近年來互聯網和信息行業的發展而引起人們的廣泛關注。隨著大數據時代的來臨,統計學作為對數據進行處理分析的方法論學科,必然會受到大數據的影響。近年來,統計學專業被拆分成統計學、應用統計學和經濟統計學三個本科專業,目前全國已有近兩百所高校開設了統計學專業。顯然,統計類專業快速發展與當前大數據時代背景有著密切的聯系,大數據時代給統計學帶來了機遇的同時也帶來了更大的挑戰。
大數據時代使得統計學的應用范疇進一步擴大。傳統的統計學一般都是根據有限樣本信息去了解某一現象的結果或者原因,但基于包含海量樣本信息的大數據的統計學科將向大家展示的是一個更為具體和完整的過程。以前,在應用統計分析方法時,往往習慣于根據“研究目的”來驅動“收集數據”。往后,由于包含有效樣本信息的大數據隨處可得,人們將會反過來用“數據”驅動“研究目的”,這種功能性的改變將會促進統計學應用范圍的進一步擴大。例如:傳統的統計學方法往往被用來作為一個數學形式的參考信息,例如生物統計、經濟應用統計等,但在大數據背景下,數據本身所含有的信息更加豐富化和多元化,包含海量有效信息的樣本數據唾手可得,而這些信息涉及我們生活中的各個方面,這些信息一旦被挖掘出來,將會促進許多產業的快速發展。另外,在大數據背景下,傳統統計學方法的結構化數據局限會進一步放大,我們需要在非結構數據條件下進行有效統計分析,這將促使統計學方法應用到許多傳統意義上無法數據化的領域中。
大數據時代背景下,統計學學科科體系將會得到新的延伸。統計學方法在面對包含海量有效樣本信息的大數據時,龐大的數據使得樣本的選取、標準劃分都產生了新的變化,傳統統計中的有限樣本將會進一步向趨于總體大樣本的方向發展,這將促使包括“總體統計”和“樣本統計”的新的統計學學科體系的形成,能夠有效消除“總體統計”的數據采集難度,彌補“樣本統計”的數據采集不足,達到有效延伸統計學學科體系的目的。
新生事物的出現定會導致傳統觀念和技術的變革。例如,數碼相機的出現導致了傳統相片膠卷照相行業的幾近蕭條和衰退,如果大數據能夠包含所有父親和兒子的身高數據的話,我們只要通過計算給定父親身高條件下其所有兒子平均身高就能夠比較準確地預測出其兒子身高了,這樣的話在預測過程中模型選擇不再重要,傳統統計學方法中“神奇”的回歸預測方法也將不再“神奇”。大數據的到來將對傳統的統計方法進行考驗,云計算機平臺的建立、社會網絡的形成以及企業逐利與公共管理的需求均給統計分析方法和技術帶來了發展機遇的同時,也給統計學以及統計教育帶來了更大的挑戰。在當今大數據時代,其他學科和行業紛紛涌入大數據的熱潮,如果統計學不抓緊跟隨步伐加入大數據歷史潮流的話,那么將會面臨著被邊緣化的危險。目前統計學的主要目標還是通過收集、整理和分析數據,從而發現數據背后隱含的真理,這樣的統計方法和理論對數據的要求比較高,而大數據充滿了各種隨機的和非隨機的誤差和偏倚,很難滿足這些苛刻的要求。其實,只要我們能從大數據中得出具有可證真偽的結論,那么這個結論就應該算是科學的,應該可以用于知識積累。
統計學作為一門傳統的方法論學科,其發展歷史悠久,特別是近一個世紀以來取得了空前的發展成果,無論是從學科理論領域還是從生產實踐過程來看,統計學的發展已經相對較為成熟,其研究成果非常豐富,統計學的不斷發展為人類社會的發展和技術進步帶來了極大的影響。隨著大數據時代數據的到來,呈現出大量的數據,而且其數據的分布狀態更為廣泛,這對統計學的影響是特別明顯的。首先,大數據時代的數據之“大”主要體現在維數高和容量大,有時候這種“大”已經超出了我們的想象。當然,海量的數據能讓我們對于事情的認知程度更加全面,因此,大數據改變了數據樣本與總體之間的關系。其次,大數據時代其數據具有多樣性的特點,改變了傳統統計學方法對數據統計分析的主觀要求,過去我們進行統計分析的目的更偏向于追求“為什么”,而現在的統計分析的目的更傾向于探索“是什么”。
大數據時代對統計軟件以及統計方法提出了更高的要求。隨著計算機科學技術的快速發展,能夠用于解決統計計算問題的統計學軟件應運而生,統計學軟件的使用大大提升了統計學中對數據分析和處理的效率和精準率,使得很多復雜的統計方法得以實現。大數據背景下,傳統的統計軟件如SPSS等,已經不能夠實現大數據的高速傳輸、存儲功能。因此,軟件功能還需要一定的開發和升級,使其滿足大數據時代對統計軟件的要求。
(一)對統計學作為一門學科的理解有偏差
目前仍有許多人將統計學視為數學的一部分。當然,如果考慮到數理統計是如何發展的話,他們這樣理解也不是完全錯誤。然而,必須要強調的是,統計數據不應該純粹作為數學科目來教授。統計學方法的教學過程需要利用數學知識,但其方法的基本目標是用來分析數據,解決實際問題,即使在統計理論研究中也是如此。在沒有應用的情況下教授純理論是不科學的。目前,統計學教育過程中對實例數據建模和分析技能的培養不夠重視。而與不重視應用相反的另一個極端是,有一些人支持這樣一種觀點,即統計學可以完全脫離數學。隨著計算機科學技術的快速發展,各種統計軟件涌現出來,如SAS、SPSS、MINITAB、R和s-plus等。在分析數據的時候,他們可以通過一個流行的軟件包輕松獲得結果。在整個過程中,他們可能不需要處理任何數學公式,這導致一些人認為不需要數學理論基礎。例如:有一位生物學家到某個學校的統計學實驗室交流,她致力于尋找新的蝙蝠種類,為此她找到了兩組體形不同的蝙蝠,其中一組4只,另一組9只,通過計算基于正態分布的假設檢驗統計量后,得出的結論是兩組樣本有顯著性差異,于是她聲稱自己找到了一種新的蝙蝠物種,她的結論顯然是不科學的。
(二)本科統計學教學課程設置不夠科學
合理的課程體系應該是與實現培養方案所制定的學習目標一致的一系列課程,體系中的課程之間應該相互協調,應該避免內容上的重復和遺漏,同時還應該比較靈活,為學生的自身發展留下較為寬松的空間。目前國內多數高校統計類專業的培養方案學習目標不夠明確,從而導致課程設置時對學習目標考慮不夠充分,這種課程設置存在一定的隨意性。目前多數學校的課程體系主要強調各門課程在教學內容上的系統性和完整性。這種課程設置方式有其優點,但也難免存在一些不足,不同課程之間的教學內容容易出現交叉和重復,各門課程的教學內容與培養方案制定的學習目標難以完全對接。例如:《應用回歸分析》和《計量經濟學》中的單方程計量經濟學模型部分很多內容是交叉和重復的,在課程教學內容設置上要考慮怎么解決好這種教學內容交叉和重復的問題。
(三)就業前景令人擔憂
目前統計教育和就業前景都令人擔憂,統計教育應該適應行業和社會需要,如果統計教育脫離行業和社會需求,那么將導致統計畢業生的就業問題,就業問題反過來會導致統計學專業招生的困難。例如:某高校2012年招收了60名統計學專業學生,后來對這批學生進行了一項跟蹤調查,結果顯示大多數人對統計學缺乏基本了解,學生們不知道統計學意味著什么和以后能做些什么,他們不知道統計學本科畢業后是否能在中國的中小城市找到工作以及做什么。在這種情形下,大多數畢業生被鼓勵去讀研究生,但讀研后最終還是要走向工作崗位的。后期跟蹤調查結果顯示,這批學生中只有少數人在畢業后找到了令人滿意的且專業對口的工作。這種就業前景的不確定性將影響到中國未來統計學專業的發展。
數據是統計學的基礎和核心,大數據來臨之后,傳統數據的意義發生了改變,這將使得以此為基礎的統計學學科及其統計教育也必然會隨之做出改變。
首先,需要構建適應大數據時代的統計學教學體系。學好和用好統計學方法并不是一件簡單的事,它需要學生有良好的數理基礎,掌握好從數據的收集到數據整理、分析各個環節的技能。因此,我們需要建立課堂、實驗室和社會實踐相結合的教學體系,使學生在掌握統計學方法理論基礎知識的同時,還能夠熟練運用統計方法解決實際問題。
其次,重視數學基礎類課程的教學。統計專業的本科生應該對統計方法的統計思想有深刻理解,能用數學語言來表達統計思想。本科生要達到這些要求首先要有良好的數理基礎。
再次,本科統計教育要重視統計計算。傳統的數理統計教育偏向于統計思想和統計理論和數學推導過程,而對統計計算的重要性認識不足。在許多情況下,用數值模擬代替復雜的數學推導,會使得結論更加容易理解,這對統計專業的本科生而言是非常有效的學習方法。因此,在大數據時代,本科統計教育應重視統計計算。
最后,重視專業統計軟件的使用。在大數據背景下,統計方法的實現和模擬都離不開軟件。專業統計軟件很多,譬如SPSS、SAS和R等等。總之,教學中可以使用的專業統計軟件很多,但基于EXCEL的統計本科教學時代應該盡快結束。
[1]孟生旺,袁衛.大數據時代的統計教育[J].統計研究,2015(04):3-7.
[2]耿直.大數據時代統計學面臨的機遇與挑戰[J].統計研究,2014(01):5-9.