趙鵬
摘 ?要 ?近年來,眾多新興媒介科技概念背后的技術指向都是基于大數據技術,這些科技概念正以極快地速度進入到我們的生活中。作為基礎性技術指向的大數據,明確其概念是正確運用它的前提和基礎。文章從數據的發展歷程及大數據對信息分析帶來的“三個轉變”這兩個方面著手,反向推導出大數據的樣本量應為全體樣本數據,同時應具備既有性、多源性和實時性;面對全體數據的復雜性不應刻意追求數據的精確性;大數據所呈現出兩個變量間的相關性關系某種程度上可以代替因果關系。
關鍵詞 ?大數據;媒介技術;全體樣本;相關性
中圖分類號 ?G2 ? ? ?文獻標識碼 ?A ? ? ?文章編號 ?2096-0360(2019)09-0024-02
人類總是在制造一些新的概念,并且對其賦予新的意義,然后使用它、利用它、魔幻它,最后重新認識它,周而復始地進行著我們對這個世界的認知升級。近年來,媒介科技領域出現了很多新興的概念例如“人工智能”“數據新聞”“智媒體”等,這些熱點媒介技術以極快地速度進入到我們的生活,成為我們討論的話題和研究的對象。分析這些新興概念后可以得出,它們背后的技術指向都是基于大數據技術,或與其有著很高的關聯度。大數據正逐漸成為推動這個時代不斷向前發展的基礎性技術,在理解、認知、運用它之前,我們有必要對其追本溯源、厘清概念。
1 ?關于大數據的界定
目前,學界與業界基于大數據的復雜性并沒有給出一個明確的界定,大多都為描述性的概念為主。麥肯錫全球研究所把大數據描述為一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征[1]。它對大數據的描述是以數據本身為主體,在數據規模上提出了海量化,在數據類型上提出了多樣化,把數據流轉迅速和價值密度低作為其特點。Gartner在其研究報告中提出:大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產[2]。它是從數據運用的角度上提出了運用新的處理模式才能恰當的利用大數據。以上兩種概念從不同維度對大數據做出了解釋,但并不全面與明確。筆者認為,對于大數據的界定首先應從數據發展的歷程著手,找出大數據區別于其他傳統數據形態的主要特征。然后再從數據的來源、數據的分析方法與數據的解釋應用三個方面得出對大數據的判定與理解標準,由此基礎上再對大數據做一個相對完善的界定。
2 ?數據的發展及大數據的特征
2.1 ?數據的發展
收集、整理分析大量的數據一直以來都是一個比較難以真實、準確完成的事情,學者涂子沛以美國為主體,以統計學為參照,把數據的發展劃分為七個時代[3]。在初數據時代中,美國建國初期為了解決政治體制與權力分配的問題,采取了以逐一清點人頭的方式開始了美國第一次人口普查,由于在普查中一些人的不配合和瞞報以及普查人員的工作疏忽,這份報告在一開始便受到了廣泛的質疑。在內戰時代、鍍金時代中,由于問卷問題的細化和人口的增長,數據量急速增多,普查工作耗時多年。在抽樣時代中,美國當時統計界的領袖人物喬治·蓋勒普用“科學抽樣”的方法,憑借5 000人的樣本量打敗了《文學文摘》240萬人的調查,準確預測出了羅斯福當選為美國總統。在開放時代中,他闡述了數據的開放是逐步形成且不可逆轉的。在大數據時代中,他提出了大數據不僅包含結構性數據,其還應包括文字、圖片、音頻、視頻等非結構性的數據,這種非結構性的數據在某些數據類型中的分析將會呈現為實時性等觀點。
數據的發展起始于一味追求數據量的增加階段。在這一階段中,數據量的增加并不能增強結果的準確性。對于龐雜的研究對象來說,我們的做法通常是對數據樣本進行結構性的優化,由此數據的發展進入了憑借抽取較少的樣本量,以達到獲取較大信息量的抽樣時代。在這一階段中,由于干擾抽樣樣本收集和分析的客觀性因素較多,所以導致研究結果準確性不足的現象。這一現象究其根本是因為數據的收集與處理受限于當時的技術手段,我們難以掌握全體數據。隨著技術的進步,當前的某些領域已經可以收集到全體數據,具備了分析海量數據的能力,我們已經初步進入了大數據時代。
2.2 ?大數據的特征
大數據的邏輯起點起始于統計學并在其參照下不斷發展,它與其他數據發展階段相比較,在樣本數據為全體數據的基礎上,從數據來源的角度可初步得出大數據的三個基本特征。首先是“既有性”。既有性就是指非人工清點、非抽樣得出的一種數據,是一種客觀存在、客觀產生的數據形態,它排除了在樣本收集和數據分析時的一些干擾因素。其次是“多源性”。多源性是指數據來源非單一,對于某一研究對象來說,測量數據、非結構化數據等都應作為不可或缺的數據來源。第三是“實時性”,由于某些數據是實時產生的,所以基于對某一動態樣本的分析應當具有實時性。
3 ?大數據的判定與理解標準
維克托·邁爾-舍恩伯格在《大數據時代》一書中提出了大數據的精髓在于我們分析信息時的“三個轉變”。第一個轉變為:不是隨機樣本,而是全體數據[4]27。這一轉變隨著科學技術的不斷進步和摩爾定律的不斷顯現,使得我們有了掌握某一研究對象全體數據的可能。第二個轉變為:不是精確性,而是混雜性[4]45。一方面,非結構性數據的難以整合所造成的現實困境使得我們不得不暫時忽視其所產生的誤差。另一方面,基于數據樣本量的提升和不同數據間的相互驗證會不斷提高數據的精確性。所以大數據得出的“非精確結論”會比其他統計方法得出的“精確結論”更加趨向于準確。第三個轉變為:不是因果關系,而是相關關系[4]67。用數據變量間的相關性代替因果性是舍恩伯格提出的在應用大數據所得出結論后,我們應具備的思維
模式。
依據在大數據時代中分析信息時的“三個轉變”,首先,我們可以反向推導得出大數據界定的判定條件為大數據的樣本量應為全體樣本數據。其次,我們在理解大數據時應該認識到大數據時代的“非精確性”比其他統計方法所得出的精確結論更加趨向于準確。最后,應用大數據所得出的兩個量化了的變量之間所存在的強相關系,會比我們認為的兩個看似為因果關系變量的弱相關關系更加趨向于
真實。
4 ?結論
通過對大數據基本特征的分析和對大數據判定與理解的探究,筆者認為大數據是在掌握被研究對象全體數據的前提下,對多個變量進行相關性分析的數據研究方法。對被研究對象的全體數據來說,其還應當具備既有性、多源性和全體性,對動態樣本的分析還應當具備實時性。我們在理解大數據時應轉變我們的認知觀念,對于大數據所呈現的非精確性與相關關系給予足夠的寬容與理解。
大數據作為“人工智能”“數據新聞”“智媒體”等新興媒介技術概念背后的技術指向,在眾多領域發揮著重要作用。值得注意的是,在現階段某些數據樣本從來源上看還難以具備既有性、多源性與全體性,對動態樣本的分析還難以做到實時挖掘與分析。數據樣本存在的先天缺陷,會導致所得出的結論與真相產生偏離,所以我們現在所處的數據發展階段是介于數據逐步開放環境下的抽樣時代與大數據時代之間的數據發展階段,這一階段筆者將它稱之為“初級大數據階段”。在這一階段中,抽樣的方法與大數據應用將同時存在。我們只有在分清二者的基本概念與了解二者的前提條件之后才能依據其各自的特點對其得出的結論做出正確的判斷,也只有這樣我們這個時代才不會被“偽大數據”所
綁架。
參考文獻
[1]Beyer,Mark:“Gartner Says Solving‘Big DataChallenge Involves More Than Just Managing Volumes of Data",Gartner, 10 July 2011.
[2]See McKinsey&Company Report:”Big Data:The Next Frontier for Innovation, Competition, and Productivity",Fujitsu North America Technology Forum,January 25,2012.
[3]涂子沛.數據之巔:大數據革命,歷史、現實與未來[M].北京:中信出版社,2014.
[4]維克多·邁爾-舍恩伯格,肯尼斯·庫克耶.大數據時代[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013:27,45,67.