張程
山西大同大學(大同 037009)
數據科學的統計學內涵探究
張程
山西大同大學(大同 037009)
大數據做為數據科學的主要研究方向,其主要分析在于數據的收集方式,數據分析統計學方向的內容也逐漸豐富。數據在時代中的發展逐漸多樣化,本文就統計學視角詳細研究數據科學的內涵,發現統計學在數據科學中的機遇和挑戰。
數據科學;統計學;內涵
在大數據洪流的推動下,很多信息從傳統的傳播方式逐漸轉變為信息化形式,如今社會需要解決的問題是,如何通過信息資源將勞動生產率進行有效提升。通過基于統計學知識探討數據科學的基本含義,并經過數據科學范式的研究去更深的了解統計學的內涵。
數據就是統計學主要研究的方向,而數據科學自然也是以數據作為研究的對象。在名義上,數據科學似乎與統計學之間有著與生俱來的聯系。實際上,二者的“數據”在概念上是并不相同,數據本身概念指向是非常寬泛的,例如數字、音頻、文字等等,只要是能夠對客觀事物進行記錄的,能夠鑒別的符號都可將其稱為數據。雖然統計學所研究的數據方向是多樣的、豐富的的,卻都屬于結構化數據,就像定距數據、定比數據等定量數據。相比之下,數據科學的研究范圍則會更加廣泛、豐富,除了傳統結構的數據類型外,還有對非結構型和半結構型數據的研究,這就是“大數據”。
大數據對于傳統數據庫的分析與儲存過程是非常復雜的,在管理分析數據的過程中需要一種新的范式,也就是數據科學來實現管理。現代統計學的意義,是從處理小數據和一些不完整實驗等實際性問題中,逐漸發展而來的。數據科學的興起,實際上主要是通過處理大數據,現實中的問題處理逐漸實現的。這樣看來,大數據就是數據科學的研究對象,結構型數據是統計學主要的研究方向。這之間存在著質變,就結構化研究中,大部分數據都是傳統的理論方法,所以要求在實踐中不斷不斷完善和改進相關理論,同時加強技術處理等信息化的有效發展。
2.1 理論基礎
對于數據的處理分析,在各個領域逐漸發展起來,數據科學被相關學者認為是一門交叉學科,其包括數學與統計學知識、計算機科學技術和專業應用知識三類。然而這只是將某種現實活動拆分為不同的學科,卻沒有一個統一性的定義。有學者提出,數據科學是計算機科學另外一種代稱,實際上這只是字面是上的轉換,不具備學科獨立性。統計學加上它在計算技術方面的擴展,這樣的表述使得數據科學可以具有學科獨立性。也是在證明統計學是數據科學的理論基礎,數據科學也就是統計學在研究上的不斷擴展。
統計學在隨著社會需求不斷地擴展,剛開始統計學的活動只是應用在一些征兵或征稅的管理上,現在逐漸擴大范圍至更多的層面。從小數據研究,逐漸走向對大數據的探索。這中間對于數據統計的發展,是伴隨著整個大數據的社會性而轉變的,另外,從參數分析方法,到非參數方法。這些轉變因著數據的開發進步而有所變化,推動著整個數據科學的有效前進。
2.2 技術維度
對于數據科學而言,技術并不是數據分析的主導,數據的分析主要是對于數據的“理解”和“閱讀”。技術知識為數據分析中的輔助工具,非相關學者或其他人士也可通過統計軟件得到統計結果,所以對統計結果的解釋也無法令人信服。如今統計分析很明顯的依賴于技術的發展,這也是因為數據量逐漸復雜而多樣化,使得統計分析更需要開發出高效率的數據管理工具。所以數據科學對于技術的需求也是很清晰的,大數據不只是需要利用統計軟件協助基本統計的相關計算,主要是因為大數據不能直接用于統計分析中。大數據需要借助相關技術,實現數據的分析和研究,
技術水平及使用價值有待發展和提高。
在面對如今巨大的數據時,數據統計的方法在本質上并沒有變化,只是現實中改變了它的算法。大數據在一定程度上,體現了計算機科學技術和其算法的實行能力,大數據的分析儲存,都是技術方面的相關應用。在數據分析中如何變革升級技術方面的水平,是當今統計分析實際性發展的重點。
2.3 應用維度
將數據轉化為有價值的商業信息整個完整的過程,就是在商業應用領域中對數據科學的定義。在實際要求中,需要數據科學家對數據的來源及類型等等都了解透徹,另外還要了解選擇分析方法的要義,充分發揮數據在相關領域中的應用價值。
很多學者都認為實際應用,可以體現數據科學與統計學、數學等其他學科的區別。就商業而言,強調數據科學多角度的理解,對應用的維度要求是多方向的。要求數據科學家具備很好的表達能力,可以將一些數據反映出來的事實,清晰地講解給大家,增進商業理解是數據分析一項重要的目的,包括數據科學家、首席信息官的提法都始于實務部門。數據的科學統計在各個領域的應用,是當下能夠體現其價值的重要表現,將數據化的信息反饋與社會,將實際狀態表現出來對于社會的進步和完善有很大意義。
大規模數據在剛開始體現為一個封閉機構內,數據集間的關聯關系是大數據的重點。現實中,孤立的大數據價值是有限的,針對傳統的數據進行新的變革,就是當今大數據的主導任務,結合傳統數據以及線上和線下模式,最終使得大數據環境更具價值。
3.1 數據收集方面
統計學家在獨立統計學科定義之前,就開始對大規模的數據進行相應的處理了,但當時更多的數據統計是一些簡單的匯總和比較。1920年以后,統計將重點放在小規模數據、統計調查上,使得統計方法在社會快速發展。
數據收集方式的轉變,也意味著數據統計的再次變革。將傳統的統計調查方法轉變為大數據統計方法,數據每時每刻都在增加,其數據來源和類型也非常豐富。隨著電話和網絡的普及,在數據調查統計中,對于實效性的要求也逐漸提高。迫切需要相關部門于搜索引擎服務商進行有效合作,整理商業記錄數據、行政記錄數據、個人行為記錄數據等多渠道數據源來進行數據有效分析。
3.2 數據分析方面
樣本的意義在現代統計分析中逐漸被淡化,提高數據分析的方法就是抽樣推斷。對于算法的改善,可以達到更好的分析結果。增加數據可以提高推斷整體效果,抽樣在某些場合來說是很困難的,計算機時代的統計分析主要基于數據的算法。大數據的分析主要包括大數據的管理存儲、傳輸。面對海量的數據,我們發現,開采有用的知識等價于拋棄無用的數據。但是大數據時代中又有新的問題,再怎么拋棄數據,其還是會逐日增長。必須提高處理海量數據的能力。
由于數據量的巨大,計算方法十分復雜,大數據面臨計算有效性的控制。對于有效性采用并行處理的方法,如今高性能計算和網格計算也是并行處理,大數據中的大部分節點,都需要訪問大量的數據,所以有不少計算節點因為網絡帶寬的限制,不得不處于空閑等待的狀態。對于這一問題,MapReduce可以盡量在計算節點上存儲數據,實現數據的本地快速訪問,MapReduce的核心特征就是,數據本地化。如今更多的數據軟件,可以方便處理一些數據問題,減輕數據計算負擔,提高數據統計研究效率。
基于大數據急速的發展,數據統計科學發揮其最大力量,促進整個數據時代的進步。數據科學范式下的各個挑戰,使得數據科學在大數據中接受挑戰,完成數據統計分析研究,促進數據科學領域統計分析的順利進行。通過研究分析統計學在數據科學中的應用是必然的,統計學是數據中的一部分,數據是通過統計分析進行最終呈現的。
[1]張文燕.淺談統計科學的發展及其作用分析[J].中國市場.2010,(52).
[2]耿直.大數據時代統計學面臨的機遇與挑戰[J].統計研究.2014,(01).
[3]劉紅,胡新和.數據革命:從數到大數據的歷史考察[J].自然辯證法通訊.2013,(06).
[4]王珊,王會舉,覃雄派,周烜.架構大數據:挑戰、現狀與展望[J].計算機學報.2011,(10).
(責任編輯:文婷)
F222
A
1003-3319(2016)04-00041-02
10.19469/j.cnki.1003-3319.2016.04.0041