汪寶彬
(中南民族大學數學與統計學學院 湖北·武漢 430074)
大數據日益深入到人們日常生活、社會活動、工業生產、政府服務與管理、企業經營和科學研究的方方面面,并對經濟建設、社會進步、國家安全和科技發展等提出了全新的需求。大數據已經成為科技界、企業界與國家持續關注的熱點。我國從2012年開始重視大數據在整個產業界與國家戰略上的發展并在“十三五規劃”中把“國家大數據戰略”作為十四大國家戰略提出。
到底什么是大數據?多大算大?大數據與傳統的數據又有何不同?實際上,大數據應作為一個整體概念來理解,不應把“大”與“數據”分開。我們一般用5V來形容大數據的特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。
不同領域對大數據的理解有所不同。統計學是“一門在不確定性方面為了做出正確的判斷而進行搜集、分析定量數據的科學和藝術”,因此,統計學是與數據科學息息相關的。傳統統計研究的是有限、固定、不連續、不可擴充的結構化數據,我們已有很成熟的理論與方法研究這種數據。在大數據時代,由于電子信息技術的飛速發展,此時的數據是指基于信息及技術與工具,一切可以記錄和存儲的信息。它是可以源源不斷擴充、自動記錄、超大容量及不受任何條框限制的非結構化的數據。大數據時代對許多領域造成了強烈的沖擊,傳統統計學也不例外。各大高校近些年已陸續專門開設與大數據相關的學院和專業,在大數據時代統計學教學該如何改革自然成為我們統計教學者必須面臨和思考的問題。接下來筆者將就大數據時代數理統計課程教學改革進行探討并提出一些建議。
當前數理統計教學是依據傳統統計學的特點設計的,它重理論,輕實踐,研究典型數據,注重培養傳統統計思維,在理論上是嚴謹合理的,但站在大數據的觀點,就有很多的局限性,具體體現在以下幾點:
(1)教師思想固于傳統統計。教師是課堂改革發展的承擔者,教師的綜合素養直接影響到教學改革的質量。有些教師缺乏對大數據知識的了解,以及對大數據時代傳統數理統計變革的了解。很多教師對如何適應大數據時代下的數理統計乃至統計學教學還不夠了解。隨著統計學的深入發展,統計學研究的深度與難度逐漸增加,這對教師提出了新的更高要求。
(2)教學內容與理論缺乏更新與完善。傳統的教學內容主要針對傳統的結構化數據,對數據的認識及處理方法已不足以適應大數據的要求,具有很大的局限性。針對大數據我們需要對統計學造成的變革具體方面來將其更新與完善,應更傾向于培養應用型人才。在大數據時代,統計教學面臨著前所未有的挑戰。統計模型需要深化更新,如結合拓撲、幾何和隨機場等數學知識進行海量數據的分析。另外,算法和計算機上的實現需要先進的計算機技術平臺,數據在計算機上的實現是培養統計人才的必須課程。
(3)教學所用數據注重理論缺乏實踐性。目前,很多高校仍然運用缺乏針對性與時效性的例子進行講解。這些教學案例與數據大部分是借鑒其他教材上的例子或者是經過簡化的例子,與當代經濟社會的發展脫節,更不能緊跟大數據的趨勢,使得課堂過于枯燥。在諸多教材中,所采用的案例往往是為方法而設計的。但在大數據中,我們面對的都是無規律、非標準化的數據,要求我們構建更多的方法與思想。
(4)學生使用計算機軟件應用能力有待加強。在以往的統計教學中,統計分析的課程大多都是結合SPSS、E-views軟件進行講授,每個軟件都學而不精,學生也不愿意主動花時間學習更多的軟件。這些軟件僅用于單個文件進行處理,很難同時處理多個文件,分析的圖表也無法在交互界面中顯示,在處理前沿的統計過程中也有很多缺陷。大數據與計算機科學聯系緊密,其發展與應用也與計算機軟件的應用不可分割。數理統計教學很少在課程中要求對統計軟件的應用程度,導致學生的動手能力太低。
基于上述數理統計教學中的不足性,結合筆者近些年教學實踐,就課程教學改革提出了一些建議,請同行不吝賜教。
隨著統計學的深入發展,統計學研究的深度與難度逐漸增加,這對教師提出了新的要求。教師不僅要熟練掌握統計理論知識,更要熟練操作各種統計軟件,不斷提高計算機操作水平及解決實際問題等多方面的能力,緊跟大數據時代發展的步伐。另外,教師還應該轉變“重知識,輕實踐”的傳統觀念,注重培養學生的統計思維與統計分析能力。所以,高校應該著力打造一支年齡、職稱和學歷結構合理的統計師資,在此基礎上重視對統計學教師的培訓力度,積極組織教師參加線上和線下研討會以及相關學術會議,組織老師集體備課,讓教師在交流經驗中逐步提高綜合素質,不斷汲取最新知識。
針對大數據時代數理統計乃至統計學產生的變革,我們認為,可從以下方面著手:
(1)轉變統計思維。大數據時代,統計思維的轉變是必經之路。在把握通過分析數據來揭示事物規律的原則下,可以從認識數據、收集數據、分析數據三方面來闡述。首先是認識數據,大數據作為一個整體概念,是雜亂、不規則、良莠不齊的,因此在教學過程中一開始就應指出所面對的數據的變化,讓學生直接并形成廣義的數據的概念,不再局限化,并鼓勵學生們面對它、接納它,而不是拒絕它、回避它。其次是收集數據,應轉變以前的固有觀念,充分利用大數據,凡是大數據中可以查到的就不用專門調查。由于存儲能力的限制,我們必須對數據進行分類、篩選及刪除。因此在數理統計課程介紹收集數據時,有針對性的獲得數據這一概念已不適用,將其轉為有選擇地刪除數據更為合適,這樣也可以啟發學生思考怎樣來挑選數據。最后是分析數據,“定性—定量—再定性”的統計分析過程已不再適用,可簡化為“定量—定性”的過程。數理統計教學中,介紹估計與檢驗時,往往會涉及統計推斷,大數據強調全體數據,不需要再根據分布理論進行推斷,只需計數和計量即可。概率也不再是事先預設,而是根據實際數據的分布得到,這些都需要引起教學者的重視和關注。
(2)改變總體、個體、樣本的定義方式。統計學離不開樣本,一個可用的樣本必須能真實反映總體情況。大數據時代,由于數據可以全部采集,樣本即總體,先有數據,后有總體,個體也是不確定的。因此,教學中必須依此改變傳統總體、樣本及個體的定義方式。
(3)轉變抽樣調查功能。在傳統數理統計中,抽樣調查是收集數據的重要方法之一,但它不穩定、誤差大,且調查時需耗費大量的人力物力。在教學中需要對抽樣調查的某些功能進行轉變。例如,可以把統計機構等抽樣調查得出的數據當作權威數據,作為對照基礎和研究依據,將其與大數據得出的結果進行對比。諸如此類,教師在介紹抽樣分析時,著重強調這些,并有所偏重的將教學內容中的案例相應改變。
(4)對接結構化數據與非結構化數據。傳統統計側重推斷,而基于大數據的統計分析則更側重描述。如何使結構化傳統數據與如今非結構化數據進行對接,是我們今后一段時間應該思考的問題。大數據時代是一個一切都可以進行監測的時代。隨著國際上統計教育的發展,統計學專業人才只有具備專業的統計知識與解決實際問題的能力,才能順應大數據時代發展的要求。
(5)改變對不確定性的認識。在以往教學中,對不確定性的介紹,首先是進行數據收集,然后進行抽樣。不確定性體現在:樣本推斷、模型選取以及總體代表性推斷等。大數據時代不需要通過隨機樣本來分析,但數據來源的復雜多樣和總體的動態化仍造成不確定性,教學中對不確定性認識有必要進行改變。
(6)注重計算機應用軟件與數理統計教學的結合。在以往的數理統計課程教學中,對軟件應用的要求較為基礎,只需要對標準型案例進行簡單的計算模擬;在大數據時代,注重培養應用型統計人才,就必須重視軟件應用及編程能力(如R、python等),使得教學中的案例數據不再標準化,且學生的數據分析處理能力也應納入數理統計教學大綱中,也很有必要專門講解相關軟件的使用,切實提高學生應用計算機來解決實際問題的能力。
傳統教學重理論輕實踐,在數理統計這門課中,由于它是基礎性課程,就更加的偏向公式推導。根據以往的教學經驗,這樣會讓學生對統計學的興趣大為下降;如今受大數據的影響,如何在實踐中應用統計學知識,如何分析處理現實案例數據應成為教學重點。在教學過程中,應該鼓勵學生參加一些多層次、模塊化的實踐教學項目,建立完備的統計實驗室及教育實習基地,為學生提高統計軟件的應用能力提供完善的外部環境。
數理統計課程一般是采用平時成績與期末考核相結合的方式(一般3:7)來給出課程最終成績,這樣的考核方式也間接導致了上文所指出的問題,也就是同學們都不重實踐。因此,可以改革考核方式,加入實踐過程考核環節,如給出一些估計檢驗的案例,其中數據可以是通過大數據采集的,讓同學們做實驗模擬來完成。最后可以按照平時成績、實踐考核、期末考核以2:4:4的比例給出課程最終成績。
“欲窮千里目,更上一層樓”。大數據時代不是“我們想要什么”,而是“我們能做什么”。大數據時代,是統計學的機遇也是挑戰,作為統計學專業老師,更要與時俱進并主動作為,充分認知和把握大數據特點,將大數據與統計學結合起來,使之相輔相成。同時根據大數據時代統計學變革特點,在教學中不斷更新與完善。“思想是行為的先導”,具體到數理統計教學亦是如此,作為統計學基礎課程,要從一開始就用大數據的觀點和思想引導學生,旨在提高學生興趣與眼界,培養學生在大數據下的新統計思維,不斷夯實和提高其應用能力與綜合素質,培養更多的高素質的國際化統計學復合型人才是我們的時代責任和擔當。