柳 竹
(南京政治學院,江蘇 南京 210000)
恩格斯說:“在科學上,一切定義都只有微小的價值?!蹦壳?,學界和業界對于大數據的概念并未形成共識。我們不妨轉變思路,從大數據的各個側面,以期窺其全豹。
舍恩·維克托·邁爾伯格所著的《大數據時代》被認為是當前研究大數據的集大成之作。國內學者多引用來自該書的大數據定義,即,需要處理的信息量過大,已經超出了一般電腦在處理數據時使用的內存量。[1]該定義突出強調了大數據的“數據規模大”這一特點。國內學者對該定義進行了豐富和發展,如彭蘭教授認為大數據的概念,首先是指信息量或者數據量的巨大。數據的計量單位,已經從傳統的G、T,發展到P、E、Z、Y。[2]欒軼玫教授進一步指出,大數據除了量的巨大之外,還是存在關聯的數據。[3]
(1)大數據的特征。根據IBM 的解釋,大數據的特點可以由“4V”來概括,即Volume,Velocity,Variety,Veracity(一說value)。具體而言,volume 指數據體積龐大,一般指在10TB(1TB =1024GB)或躍升到PB 級別的規模;Velocity 指數據處理速度快,基本能夠做到對數據的實時處理,有“1秒定律”之稱;[4]variety 指數據類型多樣,改變了以文本為為主的單一存儲形式,代之以圖像、動畫、音視頻、地理位置信息等多類型數據。這種形態的數據通常被稱為半結構化和非結構化數據。[5]Veracity(一說value)指數據價值密度低,大數據的數據規模龐大,但并非所有數據都對我們有用。
(2)大數據的數據來源?!洞髷祿r代》一書認為,大數據的龐大數據主要由三個部分組成:以政府企業為主的海量交易數據、以社交媒體為主的海量交互數據、和以大數據挖掘與應用技術為主的海量數據處理。例如,淘寶網服務器基于用戶購買行為的統計數據。
(3)大數據處理的三個特點(大數據思維)。面對如此龐雜的大數據,需要與之相適應的數據處理思維?!洞髷祿r代》一書的作者認為大數據處理的三個特點即大數據思維,包含三個方面:總體樣本取代隨機樣本;對不精確的容忍度增加;相關關系取代因果關系。
正如“羅馬不是一日建成的”,大數據新聞也不是一夜就有的。大數據新聞既是新聞報道追求新聞客觀性的必然趨勢,又是在大數據背景之下數據新聞的進一步完善。這兩部分共同構成了大數據新聞的源起。筆者主要從歷史的角度加以梳理。
(1)澄清兩組相關概念——大數據新聞與數據新聞。一部分學者將大數據時代興起的新的新聞生產方式稱為大數據新聞;另有一部分學者將其稱之為數據新聞。澄清這兩組概念是我們研究大數據新聞源起的基礎。數據新聞(Data Journalism),也稱數據驅動新聞(Data-driven Journalism),是“基于數據的抓取、挖掘、統計、分析和可視化呈現的新型新聞報道方式?!保?]大數據新聞大數據新聞是基于大數據分析思維的新聞報道,是數據驅動新聞更高一級的形態,代表了未來新聞發展的一種趨勢。目前的大數據新聞更多是停留在實驗性階段,預計在 2020 年以后或者更晚一些時間,大數據新聞的規?;a會逐步到來。[7]從這個語境來看,學者們所指的大數據新聞和數據新聞其實是同義反復。從狹義上來看,數據新聞是指數據驅動的新聞,從廣義上來看,數據新聞是指將大數據運用于新聞實踐的重要表現形式,是新聞學形成和發展的新領域。因此,學者們將數據新聞的外延有所延伸。當人們提及大數據時代下的數據新聞時,約定俗成地將它賦予了大數據新聞的含義。
(2)數據新聞(狹義)是新聞報道追求新聞客觀性的必然趨勢。數據新聞(狹義)是新聞客觀性原則一度被顛覆、糾正之后形成的。20世紀30年代,解釋性報道方式在新聞業界興起。這一報道形式強調運用動相關背景資料對新聞事件的來龍去脈進行闡述,因而不可避免地融入了報道者的主觀性,動搖了新聞的客觀性原則。20世紀60年代,新新聞主義和調查性報道的新聞報道方式幾乎同時興起。新新聞主義以文學創作的手法報道新聞,徹底顛覆了新聞的客觀性原則,最終受到媒體人和受眾的嚴厲批判。而調查性報道興起于越南戰爭,水門事件是其巔峰。調查性報道徹底拋棄了新聞客觀性的原則,而向故意與當局挑戰的態度發展。這樣,新聞業在經過半個多世紀的試錯和糾正之后認識到,新聞的客觀性對于新聞報道滿足受眾“知”的需求至關重要。數據新聞的雛形——精確新聞報道應運而生,新聞報道繼而朝著一個更加客觀、公正、全面的方向邁進。
(3)大數據新聞是數據新聞(狹義)在大數據背景下的進一步完善。數據新聞的發展主要經歷了三個發展階段,[8]包括尚未成熟的大數據新聞在內歷經五種新聞報道形式。從中我們可以看著數據新聞的發展是伴隨著相關數據處理技術的進步而發展的,因而,大數據時代,數據驅動新聞向大數據新聞的跨越也就變得不言而喻了。第一階段,20世紀60年代到70年代,隨著抽樣技術和計算機技術在新聞報道領域的廣泛應用,精確新聞報道方式興起,為新聞報道提供了更高的精確度。有助于新聞客觀性被忽視和扭曲后的重塑。第二階段,20世紀80年代到21世紀初,出現了三種類型的數據報道形式,即20世紀80年代的電腦輔助報道,20世紀90年代的數據庫新聞,21世紀初期的數據驅動新聞。這三種類型的新聞報道方式均得益于計算機強大的數據處理功能。第三階段,即大數據新聞,主要是基于互聯網及其衍生技術平臺實現的以大量數據搜集與分析為主要工具而生產出來的新聞,將大數據思維內化到傳統數據新聞生產、實踐當中,是數據新聞在大數據背景下的進一步完善。
新聞的客觀性原則可以分為兩個層面:一個是理念層面,一個是操作層面。單就操作層面而言,新聞的客觀性原則主要表現為:將事實與意見(包括價值判斷)分開、以超脫情感的中立觀點表述事實、努力做到公正和平衡,為涉及的各方提供應答機會。[9]大數據時代的到來果真能像大數據迷思的擁護者所期望的那樣,促進新聞的客觀性么?筆者必須以審慎的態度回答這個問題。
(1)大數據相關技術手段仍不成熟。大數據屬于舶來品,在國內新聞領域尚處于試水階段,有一系列的技術問題有待攻克。主要涉及數據的存儲、提取和統計技術。例如,大數據龐大的數據量大大超過了硬件技術的發展速度,引發了數據存儲的危機。再如,大數據新聞的立足點和歸宿在于通過記者對于龐大數據的分析、處理以達到受眾的輕量和簡化閱讀,關鍵在于記者運用計算機信息處理技術并結合數學、統計學等知識提取、分析數據。但現階段記者還不具備這種大數據分析能力??傊?,沒有成熟的技術依托,大數據對新聞領域的作用甚微,對新聞客觀性的促進作用甚微。
(2)大數據時代“把關人”機制仍然存在。大數據迷思的擁護者認為,大數據時代,記者報道新聞的第一手資料是數據,而不是對于“人”的采訪。因而從新聞制作的源頭上即保證了新聞的客觀性。但大數據強調對全體樣本的分析,單個數據的信息密度較低,導致了大數據新聞在題材選擇上受限,主要以統計類的新聞題材為主。因此,在其他題材新聞報道中,新聞生產仍遵循就有的生產模式。記者、編輯充當了信息“把關人”的角色,對每日發生的可能具有新聞價值的信息進行篩選、報道、整合。在此過程中,報道者的立場、傾向、態度將有意無意地滲透在新聞報道文本中,新聞的客觀性仍然難以保證
(3)大數據難以規避虛假信息,有損新聞的客觀性。在大數據時代,信息成爆炸性增長,信息公開與資源共享使得信息獲取成本不斷降低趨于零。大數據的數據來源有一部分來自散步在互聯網信息?;ヂ摼W的匿名性導致網絡有時成為不理性民意的宣泄口,不實信息、虛假信息與真實信息混雜,給大數據提取、分析、統計工作帶來一定難度。一旦虛假信息未經甄別地納入全體樣本的范疇,數據分析結果就會發生偏差,對新聞的真實、客觀性造成程度不同的沖擊。
[1] 維克托·邁爾·舍恩伯格(英),肯尼思·庫克耶.大數據時代生活、工作與思維的大變革[M].浙江人民出版社,2013.
[2] 彭蘭.“大數據”時代:新聞業面臨的新震蕩[J].編輯之友,2013(1):6-10.
[3] 欒軼玫.大數據重塑媒介生態[J].視聽界,2013(4):23-27.
[4] 倪寧.大數據時代的傳播觀念變革[J].西北大學學報(哲學社會科學版),2014,44(1):139.
[5] 朱金莉.大數據時代對傳統新聞媒體的顛覆與嬗變[J].學術論壇,2015(1):153.
[6] 方潔,顏冬.全球視野下的“數據新聞”:理念與實踐[J].國際新聞界,2013(6):76.
[7] 喻國明.從精確新聞到大數據新聞——關于大數據新聞的前世今生從精確新聞到大數據新聞[J].青年記者(下),2014(12).
[8] 祝建華.從大數據到數據新聞.新媒體與社會.第四屆新媒體與社會發展全球論壇暨中美新媒體與社會發展雙邊研討會[Z].
[9] 陳力丹.新聞理論十講[M].上海:復旦大學出版社,2008:112.