□文│劉銀娣
?
從海量數據中挖掘新聞故事:數據新聞內涵探析*
□文│劉銀娣
[摘要]海量數據及其處理技術的產生推動了“數據新聞”這一新聞形式的發展。國外的新聞媒體看到了數據新聞給新聞業帶來的巨大發展機遇,紛紛開始建立數據新聞團隊,增加相關投資。相較而言,我國的傳統新聞媒體對數據新聞的發展則相對謹慎。究其原因,作為一個新出現的名詞,對其理解尚存偏差是重要原因之一。事實上,對于數據新聞的內涵,目前尚沒有統一的理解,文章試圖從數據新聞的發展背景和發展歷程出發,通過梳理其發展脈絡,來理清數據新聞的真正內涵,為我國傳統媒體發展數據新聞清除部分疑慮。
[關鍵詞]數據新聞計算機輔助報道精確新聞數據可視化內涵
*本文系2015年度華南理工大學中央高?;究蒲袠I務費項目中央高?;究蒲袠I務費項目“大數據環境下我國新聞記者計算機輔助報道現狀與提升策略研究”(2015xzd05); 2014年度國家社會科學基金項目“數據新聞學發展前沿研究”(14BXW003);廣東省哲學社會科學“十二五”規劃2014年度學科共建項目“我國出版集團數字化轉型中的商業模式創新研究”(GD14XXW07);廣東省新媒體與品牌傳播創新應用重點實驗室(2013WSYS0002)資助研究成果
海量數據及其連接點的產生給已經受到互聯網巨大沖擊的新聞產業帶來了諸多挑戰和機遇。一方面,新聞經常在社交網絡上由事件最相關的人發布,新聞專業組織已經不再是不可撼動的新聞話語主體;另一方面,卻又促使新聞回歸其本質:挖掘公眾無暇處理的信息,核實信息,理清信息的內涵后將之發布給公眾[1],告訴公眾這些信息背后的價值,賦予其正確的解釋[2]。國外的傳統新聞媒體在經過20余年的持續衰退后,看到了這一變革蘊含著的巨大機遇,紛紛開始發展這種代表著新聞業未來發展前景和方向的新聞形式——數據新聞(Data Journalism),相較而言,我國的傳統新聞媒體則是相對謹慎和緩慢。究其原因,一方面是因為我國數據新聞人才的匱乏,另一方面,作為一個新出現的新聞發展熱潮和名詞,很多人對數據新聞的理解也尚存偏差,因此,對其發展也就難免存在較大疑慮。在這里,我們試圖從數據新聞的發展背景和發展歷程出發,通過梳理數據新聞發展的脈絡,來理清數據新聞的真正內涵。
海量數據以及豐富而便利的數據處理技術的產生和發展為數據新聞的發展奠定了技術基礎,懷疑主義的盛行則進一步推動了用數據說“真話”,以確保專業新聞媒體權威性和公信力的數據新聞的迅速發展和繁榮。
1.海量數據的產生
從20世紀中葉開始,專業記者就開始通過訪問和梳理政府統計數據,法庭記錄、商業報告等文件資料發現大量有價值的新聞事實,制作出有深度的調查性新聞報道。然而,此時記者可以獲取的數據量畢竟是有限的,處理方法也相對笨拙,因此,限制了這種以數據來驅動新聞報道的新聞形式的發展。2009年1月,美國總統奧巴馬正式簽署了《開放透明政府備忘錄》(Memorandum on Transparency and Open Government),列出了具體步驟要求美國聯邦政府各部門和機構必須改善其透明度、公眾參與度、加強政府部門之間、政府部門與非政府組織(NGO)、個人、私人企業之間的合作[3],由此開啟了全球各國政府開放數據運動的序幕。2011年在美國政府的倡議下,成立了開放政府聯盟(Open Government Partnership),截至2015年8月20日,全球已有65個國家加入了這一組織[4],這些國家紛紛建立統一的政府開放數據門戶網站,集中開放大量數據集。盡管我國并未加入開放政府聯盟,但是也于近年來建立了國家數據公開網站“國家數據網”(http://data.stats.gov. cn/),向公眾開放800萬筆經濟統計和人口統計數據[5];眾多企業也認識到了大數據蘊含的巨大商業價值,紛紛從用戶身上捕捉大量數據,作為用戶的直接接觸者,他們比政府擁有更為龐大的數據集;媒介組織本身作為信息的收集、過濾和發布者,其擁有的數據量同樣不可小覷。當政府、企業、媒介組織的數據匯聚在一起,就從根本上改變了我們所處的信息環境,讓我們身處一個海量數據的環境,同時也為新聞業打開了一扇大門:通過挖掘數據來講述新聞故事,因為數據是社會建構的,為了理解數據集,首先要理解那些創造這些數據集的人——想想他們為什么要這么做,或者他們試圖發現什么,一旦你理解了這些人和他們的目標,你就可以開始講述真實而深刻的故事[6]。
2.豐富而便利的數據處理技術的產生和發展
有了海量數據,我們還需要具備海量數據處理技術和技能,才能對這些數據進行分析和處理,否則也只能望“數據”興嘆。強大而便利的數據處理軟件的發展則為我們處理海量數據提供了強大的工具。例如“開放路化”(Open Refine)、“谷歌融合表”(Google Fusion Tables)、表格(Tableau)等基于網絡的軟件就可以幫助記者迅速而便捷地進行數據收集、處理、分析和可視化。陶氏數據新聞中心(Tow Center for Digital Journalism)還預測未來將會出現更豐富更便利的數據處理軟件,讓用地圖、新聞應用和可視化的方式分析和展示數據變得更加簡單易學。[7]
3.懷疑主義的盛行
在互聯網迅速崛起以前,承擔著信息挖掘、過濾、呈現和傳播的專業新聞媒體在全球社會中扮演著重要角色,而今,隨著社交媒體的產生和“公民新聞”的發展,快速的報道不再是新聞媒體的專利,人們擁有了更多信息獲取的渠道。然而,這些非專業媒體發布的新聞信息大多未經審核,信息質量參差不齊、可信度堪憂,在某種程度上推動了21世紀初期的懷疑主義的產生。[8]而在這場新媒體海嘯中,數據新聞將會為我們揭穿偽科學、宣傳、誤導和網絡謠言提供幫助。正如卡迪夫大學(Cardiff University)新聞學教授理查德?薩姆布魯克(Richard Sambrook)寫道:“在懷疑主義盛行的時代,社會充斥著對實證引導的新聞的需求。人們更愿意去相信那些通過數據收集和分析發現的新聞故事,更愿意閱讀那些通過數據來呈現的新聞事實,過去簡單的以個體采訪、個體觀點或假設為來源的新聞已經無法得到受眾的信任,因此,我們非常需要借助科學實證方法生產更接地氣的新聞。[9]當然,數據并不意味著真理,因此審查并公開數據和數據處理方法就顯得尤為必要?!罢握嫦唷保≒olitiFact)、“衛報數據博客”(Guardian Datablog)等數據新聞組織就已經采用了比之前任何一個時代更細致、審慎和公開的方式認真核查事實,力爭用數據說“真話”,以確保數據新聞乃至專業新聞媒體的權威性和公信力。
正如莉莉安娜?布利戈魯(Liliana Bounegru)在《數據新聞手冊》引言中提到的,將數據看作新聞而非小說來源的思想早已有之:幾個世紀以來,記者就一直在通過各種方式收集數據,使用數據去改進傳統報道方式。[10]因此,盡管很多人認為數據新聞是一項現代發明,但是事實上,其歷史甚至早于報紙,可以追溯到17世紀,那時很多定期出版的刊物都會雇傭國際商人來報道關于經濟環境的新聞,包括革命、戰爭、疾病或惡劣的天氣帶來的商品貿易中斷的成本等商業細節,這些新聞中充滿著豐富的數據報告。1821年5月5日的 《衛報》 (當時名為《曼徹斯特衛報》)在“讀者來信”欄目中,用四個版面刊登了一幅龐大的圖表,揭示教會學校學生的實際人數遠遠超過教育改革支持者對于學生人數的估計,這也被該報視為其數據新聞的開端。[11]因此,很多人將數據新聞視為一項現代發明,這其實是一項誤解。從這一時期一直到20世紀40年代,記者從來沒有停止過將數據運用到自己的新聞報道中,不過這一時期的“數據新聞”更應該稱之為“數字新聞”,主要是運用社會科學統計方法,通過人工的方式處理數字,并將這些經過處理的數字整合到新聞故事中,使之為新聞敘事服務。直到20世紀中葉,計算機技術革命為記者將數據融進新聞報道創造了更多的機會,才賦予了數據新聞現代意義,因此,在追溯數據新聞的發展歷史時,我們選擇以計算機輔助報道作為其開端。
1.計算機輔助報道(Computer-Assisted Reporting,簡稱CAR)的產生
目前,關于計算機輔助報道發展歷史的文章很多,大多數歷史學家認為其產生于20世紀50年代以后[12],伴隨計算機技術而產生和發展。其標志性的事件是1952年,格雷斯?霍潑爾(Grace Hopper)帶領著一個程序員團隊將早期的選舉投票數據輸入到“電子數字式積分器和計算機”(Electronic Numerical Integrator and Computer,簡稱ENIAC)中,并寫出了使得計算機可以正確預測結果的算法。其建立的這個模型不僅可以準確預測最終結果,而且其百分比誤差不到1%(他們通過計算預測艾森豪威爾可以獲得83.2%的選票,最終其實際獲得了82.4%的選票)[13]。格雷斯?霍潑爾和她的團隊使用ENIAC與內特?斯爾弗(Nate Silver)60年后做的事情差不多,都是使用統計模型去預測政治選舉結果,因此,很多人都認為數據新聞是計算機輔助報道直接進化的產物。
2.精確新聞學的提出和發展
其后,因為技術和資金的障礙,計算機輔助報道的發展非常緩慢。直到1967年,底特律(Detroit)發生了一場騷亂,記者菲利普?梅耶(Philip Meyer)使用數據和社會科學方法來講述發生在底特律的真實的故事。其發現底特律騷亂的主要驅動因素是失業、惡劣的居住環境、擁擠的生存條件以及警察暴力,而非其他記者人云亦云的經濟和教育問題,并據此贏得了下一年的普利策獎,才使得計算機輔助報道重新受到重視。梅耶稱其為“精確新聞學,包括在全面的數據采集和采樣實踐活動,審慎分析以及對分析結果的清晰直觀呈現”。[14]其后,精確新聞學被廣泛應用于財經新聞領域,大多數美國大學新聞院系也將其列為專業課程,作為記者專業技能訓練的重要一環。
3.數據新聞的迅速崛起和蓬勃發展
在接下來的幾十年里,美國的記者開始不斷探索和擴展如何運用數據去完成報道和了解讀者。微型計算機和個人電腦這些工具極大地改變了計算機輔助報道的實踐和形式,到20世紀90年代末,全球的記者在很多主要調查性新聞中都開始使用計算機輔助報道技巧和數據庫。
21世紀伊始,移動計算革命增加了網絡連接、網絡訪問,提高了網絡速度,也從根本上改變了計算機輔助報道的范圍,并產生了一個新的名詞——數據新聞。傳統新聞媒體,例如英國的《衛報》,美國的《紐約時報》以及專門的數據新聞網絡媒體等都是最早的數據新聞實踐者。2014年,更是迎來了數據新聞發展的熱潮:數字神童內特?斯爾弗(Nate Silver)將其數據新聞博客“5308”(FiveThirtyEight)從《紐約時報》分離出來,加盟ESPN(娛樂與體育新聞電視網);新媒體公司沃克斯傳媒(Vox Media)聘請《華盛頓郵報》的知名數據新聞記者埃茲拉?克雷恩(Ezra Klein)領導運營沃克斯網站,并獲得了4650萬美元的融資;《衛報》《華盛頓郵報》《紐約時報》等知名新聞媒體也在紛紛增加數據新聞領域的投資,有影響力的數據新聞報道也不斷涌現。
與國外相比,我國發展數據新聞的主要是網絡媒體,新浪、搜狐、網易、騰訊等四大門戶網站從2012年開始陸續開設數據新聞欄目,財新網也于2013年開始成立了數據新聞團隊,傳統新聞媒體的發展速度則相對緩慢,截至目前,我國尚沒有數據新聞報道和團隊獲得國際數據新聞大獎,獲得國際關注的數據新聞報道也相對較少。
從數據新聞的發展背景和發展歷程中,我們可以看到,數據新聞并不是一個新的概念,而是一個新的名詞。作為一個非常新穎的術語,數據新聞目前尚沒有一個明確的定義。數據新聞學的入門讀物《數據新聞手冊》(Data Journalism Handbook)沒有直接對其做出定義,只是對其意義做出了描述:數據新聞為將傳統新聞的敏感性和說服力的敘事能力與海量數據信息相結合創造了新的可能性[15]。方潔、顏冬從新聞呈現形態、新聞生產流程、新聞行業發展三個層面來對數據新聞進行定義,指出“數據新聞的內涵就是基于數據的抓取、挖掘、統計、分析和可視化呈現的新型新聞報道方式”。[16]章戈浩的定義則更加簡單,其主要從新聞生產模式的角度對其進行定義,指出“數據新聞,又稱數據驅動新聞(data-driven journalism)。它指的是對數據進行分析與過濾,從而創作出新聞報道的方式”。[17]
從以上這些定義中,我們可以看到,對于數據新聞的理解,可謂莫衷一是。然而,我們仍然可以從這些不同的理解中找到相似之處,即都非常強調“數據”以及大數據技術使用在數據新聞中的核心地位和價值,有濃厚的技術中心的烙印。然而筆者卻認為,這種理解忽略了新聞業本身所承擔的功能和核心價值。新聞業承擔著信息過濾、篩選和加工、重塑的功能,通過新聞從業者和媒體這些“守門人”的把關,讓符合社會公眾利益的真實的信息得以呈現和傳播,以保障公眾的知情權,滿足公民的精神文化需求。對于新聞業而言,大數據及其相關技術只是在紛繁的信息海洋中挖掘出真正有價值的新聞的一種工具,數據新聞并沒有從本質上改變新聞的本質,其只是幫助我們進行更為深入、更有說服力的報道工具,是對文字敘事的補充,并不會從根本上改變新聞,“與其說數據新聞是新聞業的技術革命,不如說是新聞實踐的工具改良”。[18]
因此,筆者認為數據新聞不是“發現故事中的數據”“使用數據講故事”,而是發現數據中的故事,將數據轉化為新聞背景和故事;不是基于“數據的抓取、挖掘、統計、分析和可視化”這些技術而產生,數據科學技術手段只是發現故事、講故事、呈現故事的重要工具?;诖耍P者對數據新聞做出如下定義:大數據環境下,利用數據科學技術發現和提取蘊含在海量數據中的具有新聞價值的信息,將數據轉化為新聞背景和新聞故事的一種新聞報道方式。
進入21世紀以來,隨著海量數據及其處理技術的產生與發展、懷疑主義的盛行,計算機輔助報道發展成為了數據新聞。數據新聞的故事基于原始數據而產生,它可能是一篇純文本的文章,可能是數據可視化,可能是視頻,也可能是新聞交互項目,它可以有多元化的載體,定義它的不是“數據可視化”“交互地圖”等呈現形式上的東西,而是從數據出發,挖掘和講述好新聞故事。理清數據新聞的真正內涵,我們就可以看到,數據新聞并不是對傳統新聞的顛覆,傳統媒體在數據新聞的發展中仍然具備較強的優勢。目前國際上最有影響力的數據新聞團隊或者由傳統媒體創辦,或者其團隊成員有著豐富的傳統媒體從業經驗。我國的傳統媒體在變革面前不能固步自封,應在強化其固有的新聞專業能力的基礎上加強數據技能的培訓,努力去探索數據,幫助我們更好地理解社會,理解世界。
(作者單位:華南理工大學新聞與傳播學院)
注釋:
[1]European Journalism Centre. Data-driven Journalism:What is There to Learn?[R/OL].[2015-7-20] http://www. lateledipenelope.it/public/ddj_paper_final.pdf
[2]方潔.數據新聞概論:操作理念與案例解析[M].北京:中國人民大學出版社,2015:12
[3]Memorandum on Transparency and Open Government[EB/OL]. [2015-7-26]http://www.archives.gov/cui/documents/2009-WH-memo-on-transparency-and-open-government.pdf
[4]Open Government Partnership. Participating Countries[EB/ OL].[2015-7-20]http://www.opengovpartnership.org/Calendars [5]國家數據網.玩轉中國統計數據庫[EB/OL].[2015-7-21]http://data.stats.gov.cn/staticreq.htm?m=aboutctryinfo
[6][7][13]Tow Center for Digital Journalism. The art and science of data-driven journalism[R/OL].[2014-9-11]http://www.internews.org/sites/default/files/resources/ Tow-Center-Data-Driven-Journalism.pdf
[8]比爾·科瓦奇,湯姆·羅森斯蒂爾.真相:信息超載時代如何知道該相信什么[M].陸佳怡,孫志剛,譯.北京:中國人民大學出版社,2014:12
[9]Richard Sambrook. Journalists Can Learn Lessons From Coders in Developing the Creative Future[EB/OL].[2015-6-12]http://www.theguardian.com/media/2014/apr/27/ journalists-coders-creative-future
[10][15]Jonathan Gray,Liliana Bounegru,Lucy Chambers. Data Journalism Handbook[EB/OL].[2013-6-18] http://www. datajournalismhandbook.org/1.0/en/
[11]Simon Rogers.The first Guardian Data Journalism:May 5,1821[EB/OL].[2014-7-21]http://www.theguardian.com/ news/datablog/2011/sep/26/data-journalism-guardian
[12]Stephanie Glenat,Laurent Heutte,Thierry Paquet. The Development of Computer-Assisted Reporting[J]. International Journal of Information Technology and Decision Making,2007,(2)
[14]Philip Meyer. The New Precision Journalism. Bloomington: Indiana University Press, 1991:7
[16]方潔,顏冬.全球視野下的“數據新聞”:理念與實踐[J].國際新聞界,2013(6)
[17]章戈浩.作為開放新聞的數據新聞——英國《衛報》的數據新聞實踐[J].新聞記者,2013(6)
[18]石磊.數據驅動新聞的技術化迷失[J].今傳媒,2014(7)