周栩睿



關鍵詞:數據新聞;澎湃“美術課”;數據獲取;數據分析;數據可視化
隨著計算機技術的發展,數據在新聞行業的使用程度逐漸加深,出現了數據新聞報道這樣的新型報道方式。數據新聞又稱“數據驅動型新聞”,即通過反復抓取、篩選和重組來深度挖掘數據,聚焦專門信息以過濾數據,可視化地呈現數據并合成新聞故事。與傳統新聞不同,數據新聞的數據采集和數據分析量級已經遠遠超過傳統新聞實踐中的數據圖表,網絡數字媒體的出現又為數據交互可視化提供可能。所以,如何找到好數據、使用好數據越來越成為現在新聞行業發展需要思考的問題。
澎湃“美術課”作為我國數據新聞行業較為知名的新聞媒體欄目,在2014年7月上線以來,秉持著“數字是骨骼,設計是靈魂;與新聞相關,又與新聞無關”的理念,在數據的采集、分析和可視化方面為數據新聞的學習和制作提供了較多的經驗分享和作品參考。據統計,在過去的2021年,澎湃“美術課”共發表數據新聞191篇,下面本文將從數據采集、數據分析和數據可視化三個方面,結合澎湃“美術課”在2021年發表的數據新聞,對數據新聞的數據獲取和數據使用進行分析總結。
數據新聞的數據采集
新聞消息的信源十分重要,所以數據來源的重要性也就不言而喻。有效的數據可以讓新聞敘事更加完整緊密,可以讓可視化順利進行。首先,數據來源應當具有權威性,并且來源廣泛,使得后面的數據分析步驟可以對數據進行交叉驗證,以增加數據的完整性、準確度和可信度;其次,采集數據的手段可以多種多樣,其中涉及對技術的不同程度的要求;最后,收集到的數據不僅僅只局限于“數字”型的數據,而是包括文本、音樂等其他形式的廣義上的數據。
據統計,2021年澎湃“美術課”發布的全部新聞中的數據來源,在去年澎湃“美術課”發布的191篇數據新聞中,形式有圖文、視頻(或動畫)和H5三種,使用的數據來源總共近400個。通過對這些數據來源進行歸納整理,可以發現澎湃“美術課”在數據采集方面主要具有以下幾個特點:
數據來源廣泛,注重數據權威性
在澎湃美術課發布的所有作品中來看,其數據來源大多來自公開數據源,公開數據源的數據具有一定的準確度、可信度和完整性,大概可以分類為一般性信息源、專業|生信息源、司法和商業機構信息和以眾包方式創建的數據。其中一般性信息源作為數據主要來源涵蓋的范圍和領域廣泛,比如世界各國各級政府和各職能部門的公開數據和工作報告,WHO、奧組委等非營利組織數據,天眼查、淘寶等商業機構數據,央視等媒體公開數據等。另外,由于疫情期間澎湃“美術課”生產了大量與醫療和健康相關的新聞數據,故在過去一年大量數據來自專家觀點和醫學論文。數據的可溯源和來源的權威性可以保證數據的可信度,從而保證新聞的真實性。(如圖1)
另外,在許多數據的呈現中,作品匯集了多方數據來源。通過將不同來源的數據進行匯總比照,可以達到數據的交叉驗證,進一步增加數據的真實性和可靠性。
采集數據的手段多樣,具有一定獨創性
除了一般的在公開信息來源進行數據檢索收集的方式,澎湃“美術課”還采用了一些具有一定技術難度的數據收集方法,通過這些方式獲得的數據屬于一手數據,具有獨創性。其中最常見的就是網絡爬蟲,在作品《網絡求助可視化:善意就像火花,一個點燃另一個》中,作品便是以微博相關話題下爬取到的微博作為數據。這樣的收集方法可以做到根據選題對時間范圍、平臺、數據類型等進行“定制”,使收集到的數據貼合選題。同時,相比從公開數據源收集已經被整理好的數據,這種方式可以更加靈活地獲取更詳細的數據,可以為之后的可視化提供更多可選素材。
另外,澎湃“美術課”也會通過互動和發起問卷調查來收集讀者和用戶的數據,在《H51測一測你是哪種減碳星人》這一作品中,便是通過H5的交互形式讓用戶自己點擊作品中的元素生成自己的數據;在2021年,澎湃“美術課”還通過投票和問卷形式收集了參與者數據。這樣的收集方式基于一定的媒體影響力,通過互動的方式讓用戶更有參與感,也讓他們成為了新聞的參與者和生產者。
一切皆可為數據——數據類型的多樣性
數據既是對事實觀察和記錄的結果,也是信息的表現形式和內容主題,它可以是符號、文字、數字、聲音、圖形圖像、視頻等形態。進入大數據時代,數據類型的范圍變得更加廣泛,通過先進的信息技術,我們可以收集到大量的信息,比如互聯網行為及大量的文本、聲音,并將它們轉化為可以利用的數據,技術的進步讓一切皆可變成數據。
比如,澎湃“美術課”作品《H51爆款新出歌曲調配指南》,將12首新春歌曲從節奏、強弱、樂器等多方面變為數據,從而為之后的聲音可視化提供素材。另外,數據新聞《10000條兒童精神科問診數據:家長懂孩子心里的苦嗎?》中的數據來源為醫生的問診記錄,文本中的關鍵字詞也成為了數據新聞中可以進一步利用的數據。
數據新聞的數據分析
由于數據新聞在進行制作時按照數據分析在先、文字在后的順序,因此數據分析這一步驟是獲取數據相關性,從而挖掘數據價值,發現數據新聞敘事邏輯的重要步驟。由于數據量較大,且部分可能存在不準確或缺失等情況。因此在數據分析之前,應當對數據進行整理,并進一步對其有用性進行判斷,即通過核驗對重復的、缺失的或者錯誤的數據進行刪除、補全或糾正的操作。
進入數據分析階段,數據一方面可以通過計算平均值、百分比、眾數等對數據的整體情況進行宏觀描述,作為文案中的重要支撐數據,另一方面也可以通過對同一類型的數據進行分組對比、在某一維度對數據進行觀察、驗證不同維度數據之間的相關關系等方式發現數據的差異、變化和相關性。比如數據新聞《10000條兒童精神科問診數據:家長懂孩子心里的苦嗎?》中,將問診記錄中的關鍵詞進行詞頻分析,通過將關鍵詞進行篩選和分組對比后就能看出當孩子出現什么情況時,家長更愿意帶孩子看醫生。(如圖2)
數據新聞的數據可視化
可視化形式
目前數據可視化在新聞領域的探索主要集中在靜態信息圖、交互可視化、視頻/動畫、VR/AR新聞這幾個層面,其中澎湃“美術課”的數據新聞作品的可視化形式主要有靜態信息圖、交互可視化和視頻/動畫這三個形式。在過去一年,澎湃“美術課”發表圖文形式的數據新聞113篇、H5作品5篇、視頻或動畫73篇。
靜態信息圖主要由條形圖、折線圖、氣泡圖等基礎圖形進行組合、美化而成,通過大小、形狀、顏色、位置等可視化變量來表示數據的類別、變化或差異。比如數據新聞《給虛擬偶像一個月砸了13萬,為啥?》中的靜態信息圖,將氣泡圖和條形圖組合起來,通過氣泡大小來呈現消費的高低,在右邊通過條帶的長度表示一個月消費區間的人數,同時用不同的顏色來區分不同的月消費區間。
澎湃“美術課”的交互可視化主要是H5作品,比如《H5爆款新春歌曲調配指南》,用戶可以通過滑動、點擊查看12首新春歌曲在旋律、副歌主題句、樂器、節奏、強弱方面的信息,同時在最后還可以通過選擇旋律風格、速度和樂器制作屬于自己的新春歌曲。而在視頻和動畫的制作上,主要是將靜態和動態信息圖與視頻資料拼接起來。
適應移動端的閱讀習慣
隨著移動端互聯網的發展,澎湃“美術課”的數據新聞更多傾向于在移動端呈現。而因為PC端和移動端的屏幕寬度不一樣,所以在數據可視化方面有不同的特點。
首先,因為屏幕變得更窄,所以信息圖的寬度也要變窄,另外文字和圖形也要進行一定程度的放大,突出重點,以保證在手機這樣的小屏幕上可以看清。信息圖寬度變窄的同時,還要盡可能保證一張圖可以在一屏中出現,這樣可以防止用戶需要來回滑動屏幕才能閱讀完圖中的信息。如果出現信息圖較長的情況,就應該通過簡化數據、分成多個圖、做成動態圖或H5等方式來對數據的可視化做進一步處理。
另外對于信息量較大的圖,比如地圖、較長的時間軸、同一坐標軸下有大量數據等,可以通過制作H5、視頻或動畫的形式進行呈現,不過這三種形式如果想要回看前面的內容會比較麻煩,所以頁面與頁面之間、畫面與畫面之間的邏輯性需要更強,才能加深用戶的印象。
獨特的設計風格
澎湃“美術課”作為一個數據新聞欄目,同時也作為一個品牌,在可視化設計方面擁有較為獨特的風格。
在信息圖的可視化設計方面,圖形被黑色邊框包圍,信息圖主體框架用黑、白、灰三種顏色搭建起來,同時圖中一般會選擇使用2—3個彩色用來填充圖形或者標注重點文字。另外,數據來源、數據標注、標題和澎湃“美術課”的標志在同一篇數據新聞的不同信息圖中,其位置基本一致。(如圖4)
有一定風格的可視化設計不僅有利于形成媒體獨特的風格,也有助于用戶和讀者對媒體數據可視化呈現風格的熟悉,從而方便用戶和讀者更加順利地讀懂信息圖。
現在,人們正處于一個信息冗雜的時代,注意力的分散讓人們難以捕捉真正有價值的信息。數據新聞可以依靠對數據的采集、分析和可視化,為受眾提供可靠的、準確的、可讀性高的有時甚至是有趣的信息,讓人們對新聞事件的理解不只停留在宏觀的數據和微觀的個人故事,對新聞內容產生更深層的理解。而這些都需要新聞媒體擴大自己獲取數據的途徑,提高自身的數據使用素養。