阿爾孜古麗·艾合買提
(喀什大學數學與統計學院新疆維吾爾自治區,喀什 844000)
統計學是研究如何測定、收集、整理、歸納和分析的一門社會學科,可以反映客觀現象總體數量的數據。在大數據時代的背景下,通過對大數據地統計推斷,給統計界帶來切實的利益,促進對自然和科學地深度理解。面臨復雜數據的增多,大數據時代統計學在面臨更多機遇的同時,也面臨了眾多的挑戰。因此,這個時候就需要使用大數據,為統計學理論和方法構建提供更為廣闊的發展空間。
從一定程度上看,大數據時代充滿了眾多的信息,且其種類異常的繁雜,這就使得樣本容量變得更加巨大。當出現這樣的問題時,則可以利用統計學的知識,將其容量進行科學的減少,并按照具體的要求,使其達到自己想要的精確程度。在面對高維數的情況之下,則需要選擇一個合適的變量,然后再對其進行壓縮以及降維等。從另外一個角度來看,大數據涵蓋的領域較為廣泛,其所涉及的行業面比較多,在混合以及多源的數據基礎上,實現對社會、自然等方面的數據疊加。從本質上看,各個領域間的數據并不是孤立的,他們之間也有著許多密切的聯系。大數據的信息內容非常豐富,其中包括的語言、文字、聲音、圖像等。我們不僅需要對這些數據進行總結,還需要將這些數據進行集中并統計。從大數據的環境上看,第一,大數據快速的涌現,讓存儲設備與計算能力很難使用此種十分巨大的數據流。第二,目前形勢上看,當前的磁盤存儲還不能很好的實現硬盤存儲。第三,大數據在分布存儲的環境下,需要將海量的數據分布于更多的計算設備當中。第四,眾多的數據儲存在一臺電腦中時,需要在多線條的環境之中,使用多個數據處理器實現內存的雙向傳輸。總之,大數據的目的就是為了把繁雜的數據信息,轉變為我們需要的知識。探究數據的產生機制,接著結合自身的實際情況,探究對應的對策與政策,提高預測性與預后性。大數據不僅可以實現縱向與橫向的延伸,也可以在自然、經濟、社會的現象上發現疾病疫情、科學與社會動態。例如:眾多知名的搜索引擎就是利用頻繁檢索詞條,進行搜索信息源來自哪里,其影響的范圍等。
從眾多數據變化上來看,人們主要就是根據面臨“問題”而去搜集相對應的“信息”。這個時候,我們在外出的時候,就可以查詢到想要去的地方的天氣與交通狀況,其中還包含了賓館的居住情況。接著就可以通過這些數據,對未來提出查詢并作出決策。例如:現在有很多優秀的物理學家與統計學家,計算機專家,通過對大數據的把控與觀察,就可以對數據進行敏銳的處理,并進入生命科學領域。
從數據時代所面臨的難題來看,現在需要的則是對各類信息資源的處理,并追蹤信息的源頭,對核實的信息進行樣本處理。展現對應的偏倚和異質性,按照其對應的格式與結構進行數據處理,實現分布式算法,保證數據的完整性與可視性、可擴展性。對海量數據進行有效分析時,已經超越了個體領域的范圍,需要在社會整體層面上,實現計算機資源與數據源的實時性決策。除此之外,還需要該領域的專業人員,去研究統計推斷以及算法的內容,并在此基礎上提出合理化建議。
大數據時代統計學,在回歸預測方法的出現后,擬合優度檢驗的方式,并且深入的應用到社會各個方面。從當下的形勢上看,人們在自主獲得相應的數據時,也在從其他領域大量地獲取信息,并對收集的大量數據進行觀察與分析。此種情況的出現就讓一部分人脫離了實驗室,專業從事大數據的研究工作。但隨著時間推移,信息的獲得方式及其規模已經發生了根本的變化,這樣就讓統計學面臨了新的難題和機遇。眾多的數據都是多源異質的、且其覆蓋范圍也不盡同,為了整合這些信息,則需要對其來源、獲取方式、描述等,作為支撐進行分析。科學技術的發展催生了大數據時代的變革。在科學的視角下綜合分析處理信息,提供方便快捷的數據信息,促進統計學的發展。
統計學是一門傳統性的學科,無論是其理論的領域,還是實踐的領域,其研究的成果都有極高的價值。隨著大數據時代的數據呈現了海量,分散式的特征,這樣就對統計學的發展造成了一定程度的影響。這個時代的數據量,其規模已經超越了人們的想象,而它的“全”已經讓人們對單一信息的認知變得更加連續、系統。信息的多樣性,更是讓樣本與個體之間的關系得到了更好的優化。另外,新時代下的數據具有多樣性特征,這也優化了傳統統計學的主觀臆斷。以往的統計學更多追求的是“為什么”?而現代統計學追求的是“是什么”?因此,個體的選擇標準會缺乏一個相應的標準,這樣在選擇個體數據時其難度更會上升。樣本統計是一門極為重要的學科,利用該學科的知識,可以實現對客觀事物的復雜關系等進行深入的研究。在這一時代下局部與整體的情況變化,造成了整體變化趨勢的進一步變更。隨著樣本數量的增加,從一單數據源中收集到的信息,全部屬于非結構化的信息,但是在之前的結構化的數據當中,需要進一步提升樣本的數量,接著提升統計學的精確度。這樣就會增加樣本選取的工作難度。另外,隨著計算機技術的不斷提升,計算機的正常工作離不開統計學軟件的支持,其軟件的使用,不僅可以提升該學科對數據分析的效率,也可以提升精確度。從目前的形式上看,主要使用的統計學軟件有Eviews、SPSS、SAS、Stata等。但是,還不能實現較強的傳輸與存儲功能,還需要進一步的創新與研發。換句話說,就是需要在較短的時間內輸出結果,但是實現這些軟件的升級較為困難。在大數據時代下就需要提升數據的容量,增強更多的獲取方式。我國相關統計軟件相對缺乏,不少軟件還處于英文版本的狀態,對于初學者來講需要花費較多的時間進行學習,這就給統計人員的需求帶來了難度。那么,大數據時代在給相關人員帶來意想不到驚喜的同時,也造成了不容小覷的挑戰。
統計學的統計效率想要得到更好的體現,就需要在多元化的基礎上保證及時性、彌補傳統條件下的滯后性、提升統計學的效率。另外,大數據在高速發展的過程中,不僅可以提升統計動態數據的收集,還可以在反復的應用當中滿足各式各樣的服務需求。針對于采集數據采集的次數提升問題,需要使用大數據挖掘潛在價值,提升挖掘的全面性與整體性。在信息搜集的時候,其成本不會因為軟件運行次數而出現上升,并且在其應用方面,其成本也出現了下降的趨勢。
在大數據的引領下,統計學也得到了快速的發展。這個時候就需要在龐大的數據上,使用樣本進行選取、按照標準進行劃分。在新的變化中,傳統統計學的樣本統計會朝著一個方向進行發展,并在總體的概括中,實現對本門學科體系的構建,消除總體數據收集時的難度,彌補該學科數據采集不足的現象。并在有效的延伸過程中,對學科的體系進行統籌發展。
以舊的理念為起點,在實踐的過程中,需要了解一個結果或者是一個原因,統計學在數據時代的具體應用過程之中,展現慣有的“研究問題”來驅動“收集數據”。從數據時代的角度進行探究,此種功能并不是一成不變的,此種變化中,促進了統計學的進一步發展與擴大。例如:傳統統計學一般會作為一種輸血形式進行參考信息。但是,在大數據的背景下,展現了更多的多元化與多樣性,并在海量的用戶當中,開拓更多的信息,這些內容不僅涉及到了他們的生活各方面,而且還在進一步的挖掘過程中,衍生出來新行業。傳統統計學結構存在著很多的局限性,在非結構或者是半結構的數據統計下,實現無數據化行業的進一步發展。
新常態的背景下,大數據時代下的統計學是科技與社會經濟的主要價值體現,也是社會經濟的運行模式與決策模式的構建。只有在日新月異的科技發展過程中統計學要與時俱進、統籌發展、完善統計學創新機制、建構統計學學科體系理論框架。并不斷接受機遇與挑戰,統計學才能適應大數據時代的發展潮流。