摘 ?要:隨著信息技術的不斷發展,大數據技術成為近些年逐漸興起的先進技術,通過大數據的分析與運用可以進一步促進技術的發展,為社會進步提供助力。所以,相關大數據技術的研究十分必要,本文主要通過對概率論與數理統計在大數據分析中的應用進行研討,希望可以起到一定借鑒意義。
關鍵詞:概率;數理統計;大數據
前言
大數據技術的運用可以改善民眾生活,提高相關技術的研發水平,促進社會的全面發展。概率論、數據統計與大數據技術存在密切關系,且三者之間的發展具備一定的相互促進作用,所以將概率論與數理統計與大數據分析相融合,對全面提升大數據技術應用水平,促進社會的進步與發展十分必要。
1概率論、數理統計、大數據相關概念分析
1.1概率論概念分析
概率論是數學重要分支之一,主要指用規律表示隨機事件發生的可能性。隨機現象是隨機事件的重要特點之一,隨機現象與決定現象是相對概念。決定現象主要指某些事物發生的必然結果,例如標準大氣壓下沸水溫度100℃。隨機現象則是指事物在發展中可能出現的結果,在事物發生之前無法預測結果具體朝哪一個方向發展,例如拋擲硬幣之前無法知道硬幣會出現正面還是反面。概率論在現實中應用比較廣泛,例如體育彩票、刮刮樂、雙色球等。
1.2數理統計概念分析
數理統計作為高數分支之一,是構成高等數學核心內容之一。數理統計主要指通過對某些現象發生的頻率進行觀察,在若干次觀察之后分析該現象的內在規律,并以此制定相應的精確預測形式。數理統計與其他學科聯系密切,例如數理統計學與數學關系密切。另外,數理統計學的應用也越來越廣泛,近些年在自然科學、管理科學、人文科學、工程技術中運用越來越廣泛深刻[1]。
1.3大數據概念分析
大數據分析主要指對大量數據進行處理分析,其中數據的數量十分龐大。大數據分析是近幾年最為火熱的詞匯之一,伴隨大數據技術的運用不斷深入,數據庫、數據挖掘等以大數據技術為基礎的相關技術逐漸得到應用,這些技術的商業價值逐漸鋪展開來,一定程度上促進了大數據分析研究。大數據主要具備快速度、多類型、高真實性、高價值等特點,為大數據技術開發運用提供可能。當前關于大數據分析的內容包括六方面,包括數據庫(數據存儲/數據倉庫)、可視化分析(Analytic Visualizations)、預測性分析(Predictive Analytic Capabilities)、語義引擎(Semantic Engines)、數據質量管理(Data Quality and Master Data Management)、數據挖掘算法(Data Mining Algorithms)。
2概率論與數理統計與大數據關系分析
2.1概率論與數理統計與大數據分析同屬數據研究的方法之一
科學研究并不是對所有的事物都進行研究,往往在進行科學研究時只是選擇一定量的研究對象,之后進行縝密的實驗,從個體實驗推導出整體規律。無論是概率論還是數理統計,亦或是大數據分析都是基于一定范圍內研究對象進行研究,同樣可以看做是科學研究的具體方法之一。三者對比之下,大數據技術分析在科學研究中,相對可靠性更強,研究的質量更高,為定量研究提供了新的研究方法。三者在科學研究中的應用各具特色,各有其自身的指導理論。例如,概率論與數理統計在科學研究中,根據定量化水平的不同,分為等距數據、名義數據、比率數據等概念,且不同的數據在統計方式運用上也不相同。相較于概率論與數理統計來說大數據在數據分析中所能應用的手段要更加廣泛豐富。例如,大數據技術在分析上可以利用非結構化數據,可以對文字、圖片等數據進行整理,之后利用數據定量轉化,然后進行分析得出相關數據研究結果。綜上可知,三者在數據分析與處理上大體步驟相同,第一步先對數據進行定量,第二步對定量數據進行分析,第三步得出相應的數據分析結果。相關研究者按照相應數據模型,通過數據研究,劃定相應的數據量,以求更為精準的探究研究對象之間存在的內在特征與聯系,為決策優化提供依據,這也是概率論與數理統計與大數據分析聯系的一種內在表現。
2.2概率論與數理統計與大數據分析同屬數據科學范疇
數據科學主要是通過對數據進行分析的一種科學門類,簡言之利用科學方式對數據進行研究。數據科學研究涵蓋領域豐富,包括數理統計、數學、計算機等學科。在數據科學研究中數理統計學作為數據科學研究的理論基礎,足見數理統計學與數據研究科學的關系。盡管當前數據分析技術已經有所發展,但數據分析中也不可能將所有的數據進行匯總,這樣就不得不選取整體數據中的一部分,進行“樣本”統計,得出相應的答案,從此不難看出概率論作為數據研究科學的重要手段。另外,通過概率論對研究數據進行細致分析,排除其中干擾因素與偏差數據,進一步提升數據研究的精準度,對數據研究科學發展意義明顯。而大數據分析更是數據研究科學的發展前沿,與數據研究關系更是密切。綜上可知,概率論與數理統計與大數據分析同屬于數據科學領域,且通過對三者關系進行協調,提升概率論、數理統計、大數據分析的科學運用,對于提升數據精準度意義深遠[2]。
2.3概率論與數理統計與大數據分析與計算機技術關系密切
三者與計算機網絡技術十分密切,尤其是大數據技術。大數據技術是在計算機技術普及之后逐漸發展起來的,且伴隨著網絡技術與大數據技術的不斷融合,使得互聯網與云計算發展更加成熟。大數據技術與計算機技術關系密切,相互作用共同促進彼此的進一步成熟與發展。一方面,大數據技術的發展為計算機技術的發展提供技術支持。大數據技術的發展,為計算機技術發展提供相應數據需求。計算機技術發展需要巨量的數據支撐,大數據技術恰好滿足計算技術這一點,進而為計算機技術發展提供數據支持。大數據技術的發展還為計算機技術提供了創新算法與程序,大大促進計算機技術的發展。同時,大數據技術的發展迫使計算機技術不斷進步發展,以求適應大數據技術的發展需要,進而促進科學研究發展。另一方面,計算機技術讓大數據技術的實現成為可能。大數據分析時分析的數據基數很大,這么巨大的數據并不是普通的技術就可以分析的。計算機技術的存在恰好可以滿足大數據分析處理需求,讓大數據分析實現成為可能。例如,Hadoop平臺,是當前應用十分廣泛的大數據處理平臺。
概率論與數理統計與計算機技術關系也比較密切,雖然概率論與數理統計出現的要早于計算機技術,但并不影響二者之間相互影響作用,其二者之間的關系比較密切。一方面,概率論與數理統計為計算機數據處理提供了基本算法與程序。計算機技術在進行數據處理計算時需要相應科學算法才能實現,概率論與數理統計程序嚴格,可以滿足計算機技術應用需要,提升計算機數據計算精確性。另一方面,計算機技術的發展,為概率論與數理統計完善數據處理算法,大大提高統計效率[3]。
2.4概率論與數理統計與大數據差異點分析
概率論與數理統計與大數據分析除了關系密切之外,還存在很多不同點,具體區別如下:第一,概率論與數理統計與大數據處理的對象不同。數理統計與概率論涉及的數據處理相對數量不大,一般數據類型處理的形式也十分單一,而大數據技術數據處理的數據形式比較豐富,除了常規數據處理之外還可以處理圖形等非結構性數據。第二,概率論與數理統計與大數據依據的原理不同。概率論與數理統計在應用中對數據考量有限,大多時候由于數據收集不全不得不先進行假設之后針對假設進行論證,例如抽樣分布定理、大數定律等。而大數據技術收集數據的能力強,基本上可以全體數據進行分析,除了表面數據關系之外,還可以挖掘隱藏數據關系,更為全方位的開發數據的意義。第三,概率論與數理統計與大數據所用平臺不同。概率論與數理統計在運用中大多運用集中式的計算環境,而大數據分析技術應用中運用的平臺是分布式計算環境。
3概率論與數理統計在大數據分析中的應用
3.1加強概率論與數理統計相關理論知識的理解
為了提升大數據技術的應用水平,相關部門需要加強概率論與數理統計相關內容的教學工作,提升相關人員對概率論與數理統計理解,為數據研究科學的發展提供基礎條件。首先,相關部門需要注重基礎數據處理科學的教學。相關部門需要注重相關數學科學研究知識的系統性教學,從小學到大學,全方位進行相關數據技術的教學,培養專業大數據人才,為數據研究工作提供保障。其次,加強概率論與數理統計在大數據相關技術軟件教學。全社會相關部門需要適當加強概率論與數理統計在大數據相關技術軟件教學,提升相關軟件操作能力,為大數據技術的推廣與應用提供保障[4]。
3.2經濟數據分析中概率論與數理統計應用
大數據時代背景下,相關理論與技術的應用十分必要,尤其是經濟數據的處理,對經濟發展作用比較明顯。首先,通過概率論與數理統計應用可以降低經濟數據處理難度。大數據時代互聯網信息十分豐富,經濟數據充斥其中從中挑選出來難度比較大,利用概率論與數理統計相關技術應用,可以大大降低信息篩選的難度,更為有效的對經濟數據進行處理。例如,在經濟數據分析中可以利用正態概率分布方式進行收集處理分析,這種方式在金融與經濟領域運用比較廣泛。正態分布分析方式可以快速對經濟信息進行收集與分析,并且結合數據分析結果對當前市場經濟發展的具體情況進行調查,降低經濟信息理解難度,增加民眾理解深度,促進社會經濟發展。另外,這些經濟數據的處理結果,還可以為之后的經濟發展戰略制定提供一定參考,提升經濟發展策略的科學性[5]。
其次,通過概率論與數理統計應用可以科學預測市場經濟風險。市場經濟發展過程中各種經濟因素共同充斥,使得經濟變幻莫測各種經濟風險重重,通過科學概率論與數理統計對風險實現科學監控,并及時進行預防治理,確保經濟發展環境的穩定與良好。相關部門通過概率論與數理統計應用對市場經濟中各種因素數據進行分析處理,核算相應的風險發生概率,為風險預防提供依據[6]。
3.3商業數據分析中概率論與數理統計應用
在大數據環境下商業數據的分析也十分重要,對經濟的影響比較大,相關技術人員及時進行科學的數據分析十分必要。商業數據與經濟數據存在一定關系,所以,在相關商業數據的處理與分析上可以適當選擇經濟數據分析方式,但在具體數據分析上要根據具體的商業發展情況,制定科學的商業數據處理方案,為經濟發展提供科學依據。首先,企業在發展中要充分利用概率論與數理統計。企業在發展中要充分運用概率論與數理統計與大數據技術,對自身相關商業信息進行分析,方便分析當前企業發展的情況,為企業發展策略制定提供可靠依據。企業在商業數據收集方面需要做到全面具體,從自身業務數據信息、交易信息、財務信息、客戶信息等方面,全面收集自身發展數據,為之后發展策略制定提供更為全面具體的依據。
其次,企業在數據處理與分析上可以完善相應的數據模型。企業在商務數據處理模型設計方面要注重符合下述要求:第一,控制流失數據可以滿足統一的函數;第二,流失數據要滿足流失函數指數項,之后分析哪些因素導致客戶信息流失,對數據具體情況進行分析,為企業相關策略制定提供保障;第三,計算走勢圖的相關函數,并利用函數對相關內容進行檢驗,確保商務數據處理的準確性;第四,通過相應的數據處理對客戶情況進行追蹤,第一時間掌握相關客戶動向,以客戶需求為導向,提升企業服務水準;第五,當相關數學模型建設完成后要選擇科學的參數的協變量,然后通過相關概率論與數理統計,對其他商務因素進行分析,提升數學模型的精準性,促進企業的自身發展。
結束語
綜上所述,概率論與數理統計在大數據分析中的應用比較廣泛,在具體運用中可以從加強概率論與數理統計相關理論知識的理解、經濟數據分析中概率論與數理統計應用、商業數據分析中概率論與數理統計應用等方面,全面提升應用水平,為社會發展貢獻力量。
參考文獻
[1] ?曹顯兵,熊令純,施明存. 概率統計教學中的幾個問題分析[J]. 數學的實踐與認識,2018(21).
[2] ?吳劍,錢進. R軟件在工科概率論與數理統計教學中的應用[J]. 考試周刊,2019(29).
[3] ?王麗琦. 如何提高大班授課的課堂效率——基于遼寧省跨校修讀學分《概率論與數理統計》課程的思考[J]. 高考,2019(2):54-54.
[4] ?張卯生,趙麗芬. 巧借信息技術優化“CAP概率論與數理統計”教學策略研究[C]// 2018.
[5] ?楊洋. OBE教學模式下《概率論與數理統計》課程教學實踐研究[J]. 時代教育,2017(11):5-5.
[6] ?張旭清. 基于MOOC平臺的概率論與數理統計課堂教學的幾點思考[J]. 考試周刊,2018(93):3-4.
作者簡介:馮凡,女,1992.05,漢,河北省衡水市,本科,職稱:無,研究方向:概率論與數理統計。