孫雪琴
摘要:從學科層面來看,大數據作為一種新的數據分析方案,其基于數據關系的內在本質直接決定了大數據與統計學之間所存在必然聯系,對統計學來說,大數據不僅是一種挑戰,同時也是良好的機遇,深入探討大數據背景下統計學的發展趨勢就成為社會各界共同關注的焦點。
關鍵詞:大數據;統計學;發展
大數據背景下,信息化技術、定位系統以及傳感器等各類技術不斷發展,使得許多曾經難以收集的數據能夠進行大規模收集,云計算則使得大規模數據處理得以實現。基于大規模數據分析能夠讓我們獲取傳統只使用樣本時不能達成的全新視野,其為統計學未來發展提供了良好的機遇。與此同時,基于樣本的傳統統計理論及方法顯然已經無法適應大數據背景下相關需求,這就需要我們充分結合大數據需求與特征針對統計學進行改進,從大數據當中挖掘更多信息,促進統計學更好的發展。
1健全總體、個體以及樣本的定義
傳統統計分析需要從總體當中進行抽樣,再針對抽樣樣本性質來決定總體特點。由于其需要從總體當中獲取數據,即應當明確整體范圍來當作研究目標,然后利用抽樣樣本分析來針對總體進行分析。大數據環境則是完全相反,其需要先有數據,然后后總體,并不需要定義目標,只包含某一段時間點的所有數據對應的整體概念。由于個體所具有的不確定性,數據本身是一個動態的進程,不能事前依靠數據庫當中的單位實施編制,這個時間段與下一個時間段的數據是存在差異性的,所以也難以在事后進行個體識別。互聯網中,相同個體可以存在多個符號與稱謂,相同符號或者稱謂則能夠代表多個個體,并且個體以為的現象也非常多,所以大數據通常能夠看到整體數據的外形,難以針對個體進行考究。然而對于大數據分析而言,針對個體實施身份識別仍舊是至關重要的,這就需要我們針對傳統意義層面中個體與總體的定義方式進行改革,而傳統意義層面上的樣本定義方式無法從大數據當中提取樣本數據。當然,因為大數據動態性,在任意時間段的整體,其都能夠作為界面樣本。
2積極拓展統計學體系
大數據背景下需要我們采用辯證、發展眼光來對待統計學的發展,統計學要想有效適應大數據的相關需求,應當積極構建基于大數據框架的學科體系。統計學必須要把大數據整體統計的方法與思想歸納到學科體系當中,統計學相關的內容則應當從傳統樣本統計逐步過渡到樣本統計與總體統計的整合。樣本統計主要是利用帶有隨即性質的觀測數據來針對整體進行推斷,樣本的生成存在隨機性,采用樣本去進行整體推斷會出現代表性誤差,而基于大數據的整體統計則能夠有效彌補上述不足。通過大數據的引入,統計學科能夠劃分為總體統計與樣本統計,樣本統計的作用在于“以小見大”,而總體統計則在于“由繁入簡”,兩者的有效整合能夠更好的適應大數據的相關需求。
3研發新的分類與梳理方法
傳統統計學主要是根據預先設置的方案實施數據分類與梳理,所參考的指標與最終獲得的分類都屬于結構化的,針對數據實施分類與梳理屬于數據預處理的必要步驟,屬于統計分析的重要部分。但針對大數據來說,因為數據的來源、形式以及表現方式等都是多元化的,如果還根據傳統統計學方式在研究以前針對信息的類型、分類依據標識、標示之間的關系以及類與類之間區別度等實施更為嚴格的設定,顯然是不現實的,只可以在針對數據實施預處理以后,依照數據自身的特征來實施完善與補充。顯然,傳統的數據分類與梳理已經不適用于大數據要求,應當積極研發適用于大數據環境下的數據分類與梳理方法,并在此基礎上研發新的數據分析方法。
4整合多種統計學方法
傳統統計分析中,歸納推斷法屬于最為主要的研究方法,通過分析樣本數據的主要特征,然后在這個基礎上進行總體特征的推斷。針對大數據,歸納法依據能夠作為大數據分析的主要方法,依據需要利用具體個體的特征來進行總體特征的推斷,依然需要從個體信息當中去不斷發現新的知識。然而針對大數據而言,如果僅僅只是注重一般或者總體特征的歸納,則會造成嚴重的浪費。部分類別甚至是個體,或者某些異常值,都能夠據此推斷出全新的預測或者結論。所以,還必須要針對個體的信息實施更為深入的挖掘,同時需要根據現有的相關經驗知識與分布特征去針對其他更為具體的規律實施推理分析,能夠更為深入的挖掘事物之間存在的聯系,并據此來針對新事物實施判斷,即演繹推理法。演繹法能夠幫助我們基于現有知識經驗基礎,實施進一步的研究挖掘,避免研究進程中忽略一些細小、關鍵的特點。通過歸納法與演繹法的有效整合,能夠從大數據當中的偶然性中發現必然性,并通過全面數據當中的必然性去觀察偶然性、認知偶然性、利用偶然性,以此來全面提升偶然性的駕馭水平。
綜上所述,大數據在為傳統統計學帶來嚴峻挑戰的同時,也能夠為傳統統計學創造發展提供良好的機遇。處在大數據快速發展的時代中,我們必須要意識到大數據對傳統統計學來說是一種補充而并非替代,傳統統計學仍舊會在經濟分析、社會統計領域發揮至關重要的作用。