曹朋 成都七中嘉祥外國語學校
引言:統計學在社會生產生活當中應用非常廣泛,通過分析統計數據,我們可以得到很多有用的有利于工作的指導性結論,例如金融分析師可以通過統計數據對行業未來發展方向進行預測等。近年來,大數據產業蓬勃發展,通過對海量數據所包含的內容提取和利用,可以社會各行各業的高效快速運行。所以,我們有必要對大數據時代統計學受到的影響進行分析。
顧名思義,大數據就是包含了數量極大的信息和數據,通常不能由單個計算機或者數據庫來管理、處理,必須借助分布式的數據庫存儲系統和云計算等新型技術對其加以利用,它具有大量、高速、多樣和真實等特點。
統計學是一門通過處理數據來提高我們對客觀事物群體認識甚至預測未來發展方向的一門學科,廣泛應用于社會科學和自然科學各個領域。如果沒有統計學,數據將會失去意義,只有通過統計學的方法論,將數據解釋出來,才能顯示出數據巨大價值。
統計學的發展具有很長的歷史,大數據是現代信息社會的產物,但是兩者仍然有很多的聯系。統計學的研究過程為:統計方案設計、數據搜集、數據整理、數據分析、得出相關規律和結論,而大數據的利用過程為:采集數據、統計分析、挖掘信息、利用信息,兩者在過程上有較大的相似之處。統計學的相關理論方法和思想被運用到大數據分析中,同時,大數據相關軟件也在一定程度上豐富了統計學的研究工具,為統計學搜集數據帶來一定便利。另外,大數據和統計學都集合了社會、數據、哲學、數學和方法等概念,將定性分析和定量分析相結合,用于解決社會問題。某種程度上,兩者也是相互依存的,沒有了統計學,大數據無法運作,離開了大數據,統計學對將不能滿足現代社會的發展需要。
但是,大數據和傳統統計學還存在很大的區別,在信息規模和組織結構、處理方法、動靜標準、搜集形式、思維方式、研究目的等方面存在差異。傳統統計學通過抽樣調查得到有限數據,然后用樣本單位來估計整體特征,取得的也是相對容易整理的結構化數據,可利用概率論、相關回歸等理論進行分析,而大數據的樣本則是幾乎等于總體,里面包含了大量各種各樣的信息和特征,并且是非結構化和半結構化的,只能通過現代計算機和網絡技術進行分析。通過抽樣調查得到的統計學數據都是靜態,且非即時的,而大數據是實時動態變化,其對現實的反映程度更高。搜集形式上,抽樣調查大多通過線下線上等多種方式進行,而大數據一般只能通過互聯網獲取。思維方式上,傳統統計學更追求的是事物之間的因果關系,而大數據在此基礎上,還能分析事物之間的相關關系。在研究目的上,大數據更多的以實現價值追求為目的,而統計學更多的以研究社會現象為目的。
大數據的出現,對傳統統計學的應用領域構成了一定的挑戰。傳統的統計學需要抽樣調查,在搜集數據上存在一定的困難并需要花費大量時間,在大數據時代,人們為了簡便,很多時候就直接從互聯網流量數據上去搜集信息,以達到快速高效的目的,比如用于某些選舉的人氣支持率調查、商品的受歡迎程度調查等,并且隨著大數據的發展和計算機軟硬件的功能越來越強大,其作用會更加凸顯出來。但是,這樣存在一定的弊端,在某些領域,數據分布可能是相對均勻的,然而,在另外一些領域,樣本則存在一定的選擇性,因為互聯網的使用群體更傾向于年輕人,使用地域更傾向于網絡通信發達和開放程度更高的國家和地區,因此得到的結論可能具有一定的片面性。
傳統的統計人才培養方式已經不再適應大數據社會的發展,主要體現在教師知識結構、教學內容和教育模式上。現在大部分教師只擅長理論公式推導、模型構建以及統計應用等,不太了解計算機和互聯網的新興技術,因此在教學中,很難將這些技術灌輸給學生,而這些技術正好是大數據時代所需要的。大部分學校的統計專業培養計劃也更偏重于理論知識,涉及到大數據處理、計算機分析和應用的課程比較少。另外,當前學校的培養模式也存在一定的問題,以老師講課為主,看重理論知識,對于學生的實踐能力、社會視野、和商業意識的培養還很不到位,而這些能力對于現代統計分析人員是非常重要的。所以,在人才培養上,學校應該結合大數據時代的特征,在教師知識體系、教學內容和培養模式方面進行一定的改進。
總結:大數據時代的來臨,單純的傳統統計學已滿足不了現代社會的需要,但是我們在認識他們之間區別的同時,要將這兩者聯系起來,結合運用,在不同的領域發揮出各自的優點。我們還要認識到大數據時代帶給統計學應用和人才培養方面的挑戰,通過相關改進培養出有統計學基礎的大數據人才,創造出迎合大數據的新統計學方法,促進統計學的發展。