孫越
科學技術在現階段的發展過程中取得了長久化的進步,在信息技術的革新過程中,逐漸涌現出了以云技術與物聯網為主的尖端科技,為大眾的生活帶來便利的同時,促使社會生產形式出現了較大的變動。在大數據時代的影響下,統計學逐漸加強了與數據信息之間的聯系,并在大數據時代的建設過程中發揮出了自身的實用價值。然而,時代的變革趨勢也為統計學模式的轉型帶來了新機遇與新挑戰,為了能夠保障統計學能夠順利的應對轉型過程中的難題,應加強對變革目的的分析,探討有效的時代數據信息,進而找出合理的問題解決辦法。
一、大數據的處理、抽樣以及分析
(一)網絡圖的模型
借助網絡圖所建立的模型,可以細致化的描述高維度的變量關系,這是由于網絡圖模型屬于高維數據分析處理工具,同時還形成了多樣化的圖像模型系統軟件,為變量關系的處理提供了便利。在節點網絡當中,若變量較多時,為了能夠有效獲取相關的變量信息,則可以直接利用網絡實現對信息的傳播與交流,并通過高維聯合形式的計算,進而構建以數據處理為主的網絡平臺。
(二)數據的預處理
數據的梳理、糾偏、矯正以及不完全數據的填補等內容,都屬于數據預處理工作當中的重要組成部分,可以采用隨機抽樣的方法,對相關數據進行處理并整合,進而針對數據當中的問題進行糾偏。傳統的統計機構數據具有代表性的特點,并且系統的誤差幾率較小,但在實際的數據更新以及獲取過程中所耗費的時間較多,同時對于數據的涵蓋面積較小。利用互聯網獲得數據具有數量大、效率高等方面的特點,但仍然會存在數據的偏倚現象,此時可以利用多元化數據重疊處理的方法,實現對數據資源的有效整合,解決單一化數據難以完成的業務。
(三)大數據的分析與整合
傳統的數據庫連接方法已經難以滿足大數據時代對于數據信息收集工作的整體要求,此時應根據數據庫的重疊項目進行深入研究,發揮有關條件的獨立性優勢,對多個不同的變量進行整合,進而完善以大數據變量為主的收集方法,保障方法與數據收集的完整性。在多種數據來源以及專題數據庫的影響下,還可以通過對數據收集過程進行總結,獲取有效的統計理論,進而再對經驗和理論進行整合。
(四)大數據環境的抽樣
現階段對于大數據環境抽樣的方法仍然處于研究的狀態,根據不同數據流之間的關系,可以直接獲取相關數據,同時此類數據還具有精確性的保障。此外,針對數據信息的適應性、動態性以及連貫性等方面的特點進行深入研究,再結合數據樣本進行全面化的調查,及時的針對調查的對象以及項目進行調整,確保所提供的數據能夠吸引大眾的興趣。在大數據背景的影響下,可以采用大數據案例解析的方法,并以非隨機抽樣為主,擴大數據的樣本數量。
二、大數據時代統計學所面臨的挑戰
(一)缺少合理的統計軟件和方法
1.缺乏對技術以及資源的投入
大數據時代的不斷深入發展,為加快不同媒介當中的信息傳播速度提供了保障,相關領域所使用的軟件也逐漸適應了時代形式的變化。此外,計算機技術的逐漸進步,在促進軟件發展的同時,對其提出了更高的要求,使其能夠在更新的過程中,逐漸順應統計學學科領域相關內容的變化趨勢,確保軟件與學科知識相互匹配。然而,現階段由于企業缺少對于配套資源的投入力度,導致相關行業領域的企業缺乏對技術的開發能力和計劃指導。
2.統計軟件功能不足
在大數據時代的信息處理過程中,主要的信息載體屬于信息技術和計算機技術,在使用計算機設備進行運算的過程中,還會運用到與統計學學科基礎專業知識相關的內容,進而發揮出統計學軟件的實際作用。利用統計學軟件不僅能夠提升統計學對于數據的分析能力,還可以有效降低統計學的難度 ,進而再利用統計學進行操作,擴大了統計學的使用范圍。在大數據時代的轉型過程中,已經逐漸涌現了一批統計學軟件,且相關軟件還具有成熟性以及完善性的特點,但此類軟件當中仍然存在部分問題 ,導致統計軟件無法發揮出自身的功能價值。
(二)數據收集方式所產生的變化
數據的來源具有豐富性以及多樣化的特點,互聯網時代下的信息交流形式,不僅能夠打破時間與空間的局限性,還可以保障信息聯系的密切性。數據的來源屬于個體、社會、經濟以及生活等各個方面,隨著專業統計數據庫在建設過程中的規模化發展,同時也豐富了間接性的數據來源,使數據的收集與獲取手段不僅呈現出了多樣化的特點,同時也實現了信息傳輸的高效化。
(三)數據的類型發生變化
1.頻數的轉變
傳統以低頻、低維為主的數據逐漸轉變成為以高頻、高維為主的數據形式,大量的高頻、高維類型的數據,以半結構化的形式呈現出了交錯復雜的情況,其中雖然隱含了豐富的價值信息,但相關數據信息背后的邏輯特征卻無法擺脫模糊性的影響,導致在關鍵信息要素提取的過程中,對數據邏輯機理的挖掘工作帶來了一定的難度,難以保障此項工作的順利開展。
2.結構的變化
數據的類型本身具有結構化的特點,而隨著大數據時代的深入發展,逐漸有結構化的數據朝著半結構與非結構型的數據類型進行轉型,同時非結構化的數據類型在整體數據類當中占據了較大的比例。
(四)樣本選取與標準確定的難度較大
1.對非結構數據的關注程度較低
樣本的數量逐漸呈現出了成倍增長的趨勢,同時還會在數據處理的過程中,受到“零散化”發展形式的阻礙。在長期的統計學學科知識結構的革新過程中,由于數據屬于結構化的形式,而傳統學科的概念設置則是面對非結構數據,導致數據處理工作難以被有效落實,同時也無法在大數據時代背景的影響下提取有效的數據信息。造成此類現象的原因,主要是由于現階段對于非結構數據的關注程度較低導致的。
2.樣本之間缺乏關聯性
樣本在統計學當中具有重要作用,而樣本的統計主要與主體對象的特點和關系有關,但在大數據時代的影響下,各個樣本之間的聯系逐漸被弱化,且關聯性不強。在一般情況下,統計學屬于樣本集合的概念,但在大數據時代的影響下,使數據的來源呈現出了多樣化的特點,并通過對多種角度的論證,保障了統計數據的合理性,進而對統計學相關內容的研究工作提出了更高的要求。