摘 要:隨著我國“網絡強國戰略”持續推行,互聯網體系日益健全,充斥在互聯網體系中是數據資源急劇膨脹,并形成“大數據”,掌握分析、應用、挖掘大數據的方法,成為助力社會各界穩健發展的必由之路,其中概率論與數理統計作為可以有效應用數據資源的重要方法之一,其與大數據有機融合勢在必行。本文通過研究基于大數據下概率論與數理統計,以期為提高當今社會大數據資源綜合應用效率提供依據。
關鍵詞:大數據 概率論 數理統計
大數據(Big data)主要是指在一定時期內無法用常規軟件管理、處理、捕捉的數據集合,需要用新技術、新模式才能充分挖掘數據資源內在價值,得出多樣化、高增長、海量信息資產,凸顯大數據大量(Volume)、多樣(Variety)、高速(Velocity)、真實性(Veracity)、低價值密度(Value)等特點,為人們科學應用數據資源奠定基礎。然而,怎樣有效應用數據資源,凸顯大數據特點,發揮大數據優勢,成為大數據時代人們需要思考與解決的重要問題之一。概率論與數理統計均屬于數學的一個分支,前者主要研究隨機現象及數量規律,后者主要涉及參數估計、抽樣分布、假設檢驗、回歸分析、方差分析、統計軟件介紹等方面,將二者應用在龐大的數據資源上,可以有效提高大數據資源綜合利用率,基于此分析基于大數據下的概率論與數理統計顯得尤為重要。
一、概述概率論與數理統計
1.概率論。概率論主要研究事物發生可能性,該理論起源于16世紀,率先用于研究投擲骰子等簡單問題,伴隨社會發展人們期許應用概率論研究客觀事物隱含發展規律,該規律具有一定必然性,可以為人們預判事物發展走向提供依據,以此為由制定科學高效的發展決策。當前概率論滲透在醫學、經濟學、自然科學、金融保險、人文科學等各個領域,并發揮預判、決策、規律分析等能效。
2.數理統計。數理統計與概率論相伴而生,同屬數學分支,主要研究如何科學整理、搜集、分析受隨機因素影響的各類數據,針對研究問題與數據統籌對象作出預測、推斷,為人們提供決策建議或行動依據。數理統計最初應用在社會調查、人口統計等活動中,用以描述統計對象。我國早在公元前2250年就已經在大禹治水時使用了數理統計,依據全國各地物力、人力、財力的多寡將天下分為九州,后殷周通過統計戶口與土地大范圍施行井田制,在春秋時期通過分析兵車多寡,可以預判各個諸侯的軍事實力,數理統計在我國自古有之,只是并未形成學術研究著作,繼而值得在新時期持續推廣與有效應用,用以研究事物發展內在規律,提高數據處理綜合質量[1]。
二、分析概率論、數理統計與大數據的關聯
通過對概率論與數理統計內涵進行分析可知,二者均圍繞“數據”開展研究活動,只有保障數據資源充足、有效,才能落實概率論與數理統計探尋客觀事物發展內在規律的目的,大數據以互聯網為依托,數據資源具有豐富性、多樣性、持續發展性等特點,龐大的數據資源無法用常規運算方式挖掘其內在價值,為此可以應用概率論、數理統計,進行數據整理、搜集、分析等操作,同時確保大數據可以分析受隨機因素的各類信息資源,保障數據分析結論精準、可靠,繼而為人們分析、掌握、探索客觀事物發展規律提供依據。例如,金融投資企業在篩選投資對象時,可以率先從大數據中提取投資對象既定運營周期內相關數據,如資金鏈循環情況、產品推廣情況、融資情況、企業管理情況等,并應用概率論及數理統計,以針對性數據資源為依托,對相關企業未來發展趨勢予以預判,繼而為金融投資企業提供精準、可靠的發展決策,用大數據分析結論,代替主觀臆測結果,確保決策富有可行性、科學性、有效性。再如,某空調生產企業為設定2019年夏季空調生產總量,以此為由制定經營發展計劃,急需統籌不同年份、不同地區夏季溫度數據信息,這就需要運用大數據資源,并在概率論、數理統計方法加持下,分析各個地區一定統計周期內夏季溫度變化情況,用以預測2019年夏季溫度,以及夏季高溫可能波及的地區,依據當地經濟環境、空調市場競爭情況、人均消費水平,合理確定空調單價及預計產量,繼而為企業運營提供決策。通過分析以上案例可知,大數據資源繁雜,且囊括社會建設與發展各個領域,概率論與數理統計猶如大數據資源中的“淘金者”,將數據資源分類、整合并予以預判,為數據應用者提供科學決策,在彰顯概率論、數理統計與大數據的關聯同時,可以助力人們深入攫取大數據內在價值,引導人們積極擁抱大數據時代,用概率論與數理統計做為長篙,助力人們徜徉在數據之河中[2]。
三、分析基于大數據下概率論與數理統計研究要點
1.全面。大數據具有多元化、大量等特點,這也是人們合理應用概率論與數理統計的前提,為此大數據需具備全面性,將數據觸角滲入社會各界,為統籌更加科學、有效的數據信息,支持概率分析與數理統計奠定基礎。
2.針對。人們之所以依賴并想要分析大數據,是因為大數據蘊含客觀事物發展潛在規律,掌握相關規律人們就猶如掌握客觀事物發展“命脈”,可以預見客觀事物發展走向,以此為由制定精準、可行發展決策,避免人們在發展過程中走彎路,浪費發展資源。然而,大數據本身并無邊界線,各類資源交織在一起,并以共享形式充斥在互聯網體系中,為充分發揮概率論及數理統計研究能效,需人們創設若干富有針對性的大數據平臺,用以整合某個或某類事物相關數據資源,確保概率論與數理統計有的放矢,提高二者應用效率,基于此社會各界需以行業為導向,率先開展資源整合活動,劃清數據界限,同時建立數據資源整合端口,賦予大數據環境下概率論與數理統計更多可能性,凸顯大數據分析處理豐富性、多樣性。
3.精準。在大數據環境中探尋客觀事物發展規律是一個極為龐大的工程,應用概率論與數理統計可以提高相關規律分析效率,這就需要大數據所提供的分析信息精準無誤,雖然大數據具有真實性特點,但相關數據精準度仍有待提升,這就需要人們運用概率論與數理統計做好數據篩選工作,達到整理、搜集、分析數據的目的,確保預測或推斷結論科學、可靠[3]。
四、分析基于大數據下概率論與數理統計研究阻力
1.缺乏概率論與數理統計研究意識。當前大數據處于急劇膨脹狀態,人們依賴大數據龐大的數據體系,認為那是一座寶藏,囊括一切人們看不到且極具價值的信息,并期許大數據不斷增長,忽視研究與之相關數據信息處理機制必要性,應用大數據技術從廣義層面探索數據內在價值,無法有效提高人們的大數據分析處理能力。
2.基于大數據下概率論與數理統計研究理論基礎較為薄弱。通過對數理統計進行分析可知,該數學理念在我國誕生時間較早,卻未能形成學術研究專著,影響該理念及相關方法在我國的應用成效,相較于西方發達國家,我國與大數據相關研究起步較晚,急需理論研究支持技術創新。
3.IT技術需不斷優化。大數據環境下概率事件分析極為復雜,容易產生多變命題,龐大的數據資源增加數理統計難度,這就需要人們不斷創新實踐新IT技術,為持續開發大數據資源,科學應用概率論與數理統計夯實技術基石[4]。
五、分析基于大數據下概率論與數理統計研究方略
1.樹立概率論與數理統計研究意識。在分析概率論、數理統計與大數據關聯基礎上,人們需樹立概率論與數理統計研究意識,并設定研究目標,制定領域性研究計劃,規范行業性研究標準,推動概率論與數理統計研究朝著全面性、針對性、精準性方向發展,確保人們可以有效應用概率論與數理統計挖掘大數據內在價值。
2.做好基于大數據下概率論與數理統計研究理論工作。理論研究是引導人們反觀既定發展周期內自身成就與發展阻力重要手段,為此人們需做好理論研究工作,為提高研究工作效率,賦予概率論與數理統計更高應用價值,理論研究工作需落到實處,同時建立動態研究機制,用以跟隨大數據變化常態,實時調整理論研究工作實踐方向,確保研究結論富有時效性、可靠性。
3.持續創新IT技術。當前大數據分析處理技術層出不窮,如云計算、云存儲等,其中虛擬化技術與大數據的有機融合具有提高數據處理精度,簡化大數據服務流程等優勢,為此概率論及數理統計可以虛擬化技術為依托,加強數據處理及服務功能屬性,在數據庫技術加持下,持續整編支持概率論與數理統計的數據資源,為人們有效應用大數據資源作出精準決策奠定基礎,同時國家需追加基于大數據下概率論與數理統計研究投入,引導IT界關注并開展相關研究,同時不斷提高研究人員核心素養,在持續創新IT技術基礎上,為大數據產業發展夯實人才基石[5]。
結束語
綜上所述,基于大數據下概率論與數理統計具有提高充分挖掘數據資源內在價值,提高數據預判或推理精準度、針對性等意義,為此在大數據時代需合理應用概率論與數理統計,通過樹立概率論與數理統計研究意識,做好基于大數據下概率論與數理統計研究理論工作,持續創新IT技術,確保大數據環境下概率論與數理統計可以發揮積極能效,繼而為人們充分應用大數據資源,推動客觀事物良性發展奠定基礎。
參考文獻
[1] 鄭婷.大數據下概率論與數理統計研究[J].求知導刊,2017(23):60.
[2] 劉曉東.基于大數據下概率論與數理統計的研究與分析[J].科技經濟導刊,2016(25):141,118.
[3] 郭良棟,武力兵.大數據時代下《概率論與數理統計》課程教學改革的研究與實踐[J].教育教學論壇,2018(16):149-150.
[4] 翟雪.基于大數據下概率論與數理統計的研究與分析[J].神州(中旬刊),2016(3):20-20.
[5] 鄭婷.大數據下概率論與數理統計研究[J].求知導刊,2017(34).
作者簡介:龐文靜(1987.02--),女,漢族,北京,本科,研究方向:概率論與數理統計,單位: 北京數美時代科技有限公司。