摘 要:隨著社會的發展,科技也不斷進步,當前社會已經進入了大數據時代,在這個信息化、智能化、數據化的時代中,人們的生活也發生了翻天覆地的變化。如今互聯網興起,人們在生活中、工作中,都離不開互聯網,互聯網已經與人們的工作、學習、生活相融合。互聯網中的網絡數據也打破了地域等界線,將人們僅僅相連,本文就大數據下的概率論與數理統計理論知識展開分析,研究了概率論與數理統計的由來以及兩者之間的關系,最后針對概率論與數理統計的實際應用展開探討。
關鍵詞:大數據 概率論 數理統計
大數據時代能夠讓人們足不出戶就了解到全世界的各類信息,在大數據支持下,人們通過互聯網、計算機就能夠對信息進行搜索、統計,研究不同學科之間的交集,人們接觸的到的信息越來越多,就需要對信息進行處理,通過對信息的處理,提高對信息利用的能力,這樣才能夠充分利用大數據,因此當前大數據下概率論與數理統計的研究引起了社會各界學者的關注。
一、大數據下的概率論與數理統計概述
(一)大數據概念與特點
大數據(big data)指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產[1]。大數據時代具有三個典型的特點,分別是數據量大、數據種類多、數據分析全面。這三個特點之間具有一定的關聯性,由于數據量大,在大數據中,人們可以通過數據獲得各種各樣的信息,通過信息的篩選與分析,能夠得到全面的結論,因為結論是通過大量數據實踐得到的,因此具有高度的科學性。在大數據時代背景下,概率論與梳理統計也得到了新的發展。
(二)大數據下的概率論與數理統計
概率論與數理統計都屬于統計的一部分,自古以來,統計就無處不在,并且緊隨時代的發展而發展,在古時候有結繩記事,如今社會已經發展為大數據時代,在大數據時代中統計的發展也有了翻天覆地的變化。概率論與數理統計的應用最早出現于法國,也就是大家都耳熟能詳的賭徒典故,在大數據時代,統計學得到了新的發展,概率論與數理統計也能夠在大數據的背景下,發揮出更加大的作用,是統計能夠有現實的依托,得到的統計數據也會更加精確。
概率論是研究隨機現象數量規律的數學分支。隨機現象是相對于決定性現象而言的。在一定條件下必然發生某一結果的現象稱為決定性現象。在生活中,有很多我們常見的常識問題與概率論都有聯系,比如假設在標準大氣壓下,純水加熱到100攝氏度時水必然會沸騰等。隨機現象則是指偶然性,當我們想要預測一件事情發生的可能性時,通過對其的觀察發現,其結果具有偶然性,我們難以判斷其出現的結果是什么,但是可以通過概率進行分析,比如常見的擲硬幣,眾所周知,硬幣有兩面,在正常情況下進行拋擲,可能出現正面或反面[2],我們沒有辦法對其結果進行預測,但是正面與反面出現的概率都是50%,因此我們能夠根據其出現的次數進行推測,比如在一次實驗中,我們對普通一元硬幣進行拋擲,每次實驗拋擲100次,一共進行4次實驗,實驗結果如下表1所示。
通過上述實驗可以看出,具有偶然性的事件會根據概率進行分布,硬幣出現正面次數與方面的次數十分接近。
數理統計是數學的一個分支,分為描述統計和推斷統計。它以概率論為基礎,研究大量隨機現象的統計規律性。描述統計的任務是搜集資料,進行整理、分組,編制次數分配表,繪制次數分配曲線,計算各種特征指標,以描述資料分布的集中趨勢、離中趨勢和次數分布的偏斜度等[3]。
在大數據時代背景下,概率論與數理統計得到了發展的新契機,受大數據本身具有的特點影響,通過收集大數據,對大數據信息進行分析,能夠得到比較優的答案,而概率論與數理統計分析,也是通過概率研究事件發生的幾率,基于大數據的概率論與數理統計,能夠更加科學,結果更加精確。
二、大數據下概率論與數理統計的新方法
大數據下概率論與數理統計十分重要,我們以校園教育為例,國家倡導在當今社會中應該充分利用大數據、大時代、人工智能等特點與優勢,積極響應國家做好現代化教育的號召。網絡中的教育資源根據學科進行分類,有教案、試卷、素材、課件等等,并且設有中考專區、高考專區、優課專區等,大家也可以通過社區模塊將自己認為比較好的教育、學習資源進行上傳,實現資源共享。資源共享平臺充分的體現出了當前大數據時代的優勢,當前高校中學生的生活離不開電腦、智能手機,教師教學也需要多媒體等方式,數據的選擇能夠提高教學水平,校園管理水平[4]。
由大數據背景下學校教學管理的改變能夠看出,學校利用統計學原理對學科知識進行統計,以分模塊的方式為學生的學習提供便捷條件,除了在校園之外,生活中、工作中各個方面都能夠應用到大數據下概率論與數理統計,因此其十分重要。
在大數據背景下,統計學涌現出很多新的方法,如下:
首先,可視化分析法,大數據分析的使用者有大數據分析專家,同時還有普通用戶,但是他們二者對于大數據分析最基本的要求就是可視化分析,因為可視化分析能夠直觀的呈現大數據特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了。比如很多APP具有推薦的功能,就能夠根據使用者的瀏覽數據進行推薦其感興趣的內容。
其次,統計分析法,統計與分析主要利用分布式數據庫,或者分布式計算集群來對存儲于其內的海量數據進行普通 的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum等。
第三,預測性分析,大數據分析最終要的應用領域之一就是預測性分析,從大數據中挖掘出特點,通過科學的建立模型,之后便可以通過模型帶入新的數據,從而預測未來的數據。比如百度地圖優化行車路線,都是根據大數據進行分析,運用新型的統計方法開展的的軟件。
三、大數據下概率論與數理統計的關系分析
從定義的角度出發嗎,概率論是對我們看到的事件的隨機性進行分析,研究其發生的規律,而數據統計是一種方法,其借助于計算機、互聯網等進行操作,能夠準確的分析大數據下事件發生的概率,并且能夠對事物進行分類統計,因此概率論屬于真實存在的一種事實,而數理統計是一種科學的方法,是針對數據進行處理的一種方式。概率論與數理統計之間有相輔相成的關系,其主要目的都是對數據進行處理,使數據能夠具有科學的意義,并且對現實生活中的問題解決提供依據。在概率論與數理統計這兩者之間,前者能夠為后者提供研究的理論基礎,而后者又能夠為前者提供數據分析,兩者相結合,能夠使大數據的分析更加精確,數據處理也能夠更加有意義[5]。
概率論與數理統計從很早的時候就已經開始應用了,但是當今社會中的數據量已經是海量數據時代,互聯網等技術也在不斷的發展,傳統的數據處理方式難以適應當前的海量數據,因此應該選取涉及面比較廣,構成數據的量比較大的新型處理方式。概率論與數理統計最早起源與賭博,大數據時代為其提供了發展的基礎,數據來源比較廣,數據的內容也比較豐富,采用概率論與數理統計的方式對數據進行處理,有助于數據的分析。
當今社會已經具備概率論與數理統計的研究基礎,概率論與數理統計的研究在社會中也具有了應用的價值,因此在數據分析方面,概率論與數理統計兩者能夠相互聯系與支撐。
四、大數據下概率論與數理統計的案例分析
PredPol公司通過與洛杉磯和圣克魯斯的警方以及一群研究人員合作,基于地震預測算法的變體和犯罪數據來預測犯罪發生的幾率,可以精確到500平方英尺的范圍內。在洛杉磯運用該算法的地區,盜竊罪和暴力犯罪分布下降了33%和21%。通過概率論與數理統計的方式,我們能了解到盜竊罪和暴力犯罪時有發生,并且根據以往的犯罪記錄,我們能夠推測出不同地區的犯罪率,結合大數據背景,犯罪發生幾率就能夠得到精確,這就是大數據與數理統計相結合的優勢。
在當今社會中,概率論與數理統計的應用越來越多,比如企業在經營過程中,經常會遇到審計問題,企業中的經營項目過多,應收賬款的賬目數據量過大,在審計的過程中,難以針對每一項的數據進行審計,這時就會應用概率論與數理統計的方法進行抽樣調查,根據特定的抽樣方式,對賬目信息進行抽取,在對樣本進行審查,能夠有效的審計其賬目的準確性。概率論與數理統計的應用能夠解決生活的很多問題,因此該課題具有較高的研究價值。
總 結
總而言之,當今社會中有很多企業都能夠利用大數據時代中的數據信息對企業活動作出分析,這種方式能夠使企業的發展更加科學。我們在生活中經常會遇到一些難題,在解決難題時經常會十分糾結不知該如何選擇,在大數據時代,通過概率論與數理統計能夠幫助人們在大量數據中找到比較正確的解決方法,因此在當今時代中,概率論與數理統計是一種十分科學的方法。
參考文獻
[1] 翟雪. 基于大數據下概率論與數理統計的研究與分析[J]. 神州, 2016(8):20-20.
[2] 張薇. 基于大數據下概率論與數理統計的研究與分析[J]. 科研:00032-00033.
[3] 葛明星, 蘇永剛. 數據素養與數學概念相融合的課改研究——以概率論與數理統計為例[J]. 數學學習與研究, 2018(5).
[4] 張麗. 基于MATLAB平臺的商學院校數學教育教學一體化改革探討[J]. 電腦知識與技術, 2016, 12(19):140-142.
[5] 趙月瑩. 從數學思維角度淺析傳統數學運算在未來計算機科學與技術領域中人工智能方面的應用[J]. 中國戰略新興產業 2018(4).
作者簡介:常鋒強(1983.05 --),男,漢族,本科,中國人民大學中級,研究方向: 概率論與數理統計。