摘要:新聞是經濟社會發展的參與者、記錄者、推動者。數據已成為經濟發展的關鍵生產要素,新聞內容生產也應加大數據驅動力度。數據新聞生產流程復雜,其中作為先決條件,獲取數據、處理數據,對媒體而言,極為陌生,挑戰難度大。很多媒體甚至對于何為數據、數據應如何處理、數據與大數據等基本觀念存在嚴重誤解。本文首先厘清這些誤解,并基于3個實例探討媒體在數據新聞生產中獲取數據、處理數據的幾種現實路徑。
關鍵詞:數據新聞;數據獲取;數據處理
中圖分類號:G210.7 文獻標志碼:A 文章編號:1674-8883(2020)16-0157-02
一、數據已成為新聞生產的關鍵要素
數字生活時代,經濟組織、社會運行、個人的生活越來越依賴基于數據的分析與規劃。數據已經成為我國經濟發展,尤其是數字經濟發展的關鍵生產要素。
新聞是服務于社會需求的,當社會的需求已出現重大的數據化轉變時,數據也已成為新聞生產中新的關鍵要素。但數據新聞的制作有著比傳統新聞生產遠為復雜的流程。其中,獲取數據與分析數據,是能否制作數據新聞的先決條件。這兩項又是媒體尤其是傳統媒體最為陌生、最難以解決的問題。
二、數據新聞的特征
目前,很多媒體對于何為數據、如何處理數據、數據新聞與大數據的關系等基本概念仍然存在認識偏差。在運用實例,探討媒體如何獲取數據與分析數據前,厘清幾種常見的認識誤區有利于明確討論的邊界。
(一)數字只是數據形態的一種
現在很多媒體報道中,所宣稱的數據新聞實際上只是數字新聞。不可否認,數字新聞簡潔清晰、重點突出,發展百余年仍具有強大的生命力,為受眾所歡迎。但必須厘清的是,“數字”和“數據”是兩種完全不同的信息形態。
數字(figure)是對特定內容數量的表征,傳遞的信息單一且清晰,屬于經計算、分析后的結論性信息。數據(data),根據牛津詞典的解釋,是事實(facts)或信息(information)的集合,屬于原始、模糊的信息,需經過驗證和分析后,才能產生用途,如發現規律、支持決策等。在中文里,data對應的翻譯還包括“資料、材料”等。
可見,數字只是數據的一種。從形態上來說,數據可以包含人類生活中的所有信息形式,包括數字、文字、符號、聲音、圖片、視頻、三維信息等。
(二)二次組裝不是數據處理
數據新聞生產中,何謂對數據的分析與處理,目前沒有清楚的界定。2010年,第一屆“國際數據新聞圓桌會議”上提到,數據新聞的生產流程包括反復抓取、篩選和重組來深度挖掘數據。其中內涵并不清楚。其他一些研究者的論述也極為籠統,如“通過對數據的整合,實現對新聞的挖掘”[1]“挖掘和展示數據背后的關聯和模式”[2]。
新浪、網易等互聯網媒體都已形成頗具影響的數據新聞專欄。但仔細分析可見,這些數據新聞產品中,重要數據描述、分析結論下的數據來源標注并不是來自某類數據庫或數據源,而是來自“某某某報告”。事實上,這一類所謂的數據新聞,實則是在某一新聞主題的統領下收集與之相關的各類數據分析報告,提取各份報告關鍵信息,或打散進行內容重組融入整篇新聞,或將之用于可視化制作進行重新包裝。
不可否認,對成熟報告內容的二次組裝,同樣能發現重要新聞線索和新聞價值。但這樣的新聞能不能稱為數據新聞,是值得討論的。因為在其過程中,更多是編輯對多種數據結論的主觀理解、研判、分類,并不包含利用數據分析工具對元數據的清洗、重組,更遑論建模得出分析結果。
(三)數據新聞與大數據新聞
這是言必稱大數據的時代。一提到數據,仿佛就注定要走進浩瀚無邊的數據海洋。數據新聞與大數據有著怎樣的關系,值得討論。
目前,何為大數據,并沒有普遍認可的概念界定。關于其特征,目前較為廣泛接受的仍是《大數據時代》一書中所提的3點:所有數據、模糊性、相關關系。在我國的日常話語中,大數據更多是指代TB、PB以上規模的巨量數據集。因此,關于數據新聞與大數據新聞的討論,主要是基于數據量級和全面性來劃分,或認為大數據新聞是數據新聞的更高一級形態[3],或認為大數據新聞是數據新聞的一種[4]。
在本文看來,至少在現階段,對于媒體而言,區分大數據新聞與數據新聞既沒有必要,也價值不大。首先,數據新聞最重要的是其新聞價值,數據量越大并不代表能提取的新聞價值越大;其次,目前,媒體最重要的是建設技術團隊和數據兩大基礎,具備基本的數據處理能力,同時擴展多種渠道獲取數據。
三、獲取數據與分析數據的3個實例
獲取數據與分析數據離不開網絡、程序、算法等技術人員,以及行業專家的共同參與。這樣跨領域團隊的建設不作為本文討論的重點,但媒體如何獲得這些專業能力,在實例分析中會作簡要介紹。
(一)從專題數據庫取料,由行業專家建模分析
2018年,《重慶日報》整版報道了《重慶創新百強企業區域與行業分布報告》數據分析內容,通過對專利數據的分析發現,汽車制造業領域企業發明專利授權量占總比近四成,符合汽車在重慶的工業支撐地位,但同時也發現,作為重慶工業的另一大支柱,本地電子信息業企業創新活躍度不高、創新力不強,值得引起重視。
《重慶日報》本身既不掌握專利數據庫,也沒有數據技術人員、科創研究人員。數據新聞前期的數據獲取與數據分析都是旗下的重報大數據研究院進行。而重報大數據研究院正是基于能夠獲取原始專利數據的資源優勢,進行了此次策劃。
對專利數據的處理并不是簡單的統計分析,而是基于專利規模、創新力和影響力3個維度8項指標,進行建模分析。這一過程,除了研究院數據人員外,還有科技情報研究人員與專利代理師的共同參與。數據分析結果還交由中科院成都文獻情報中心專業人員進行獨立評估,確保數據、模型、流程的適用與規范。
(二)獨立建模,由數據企業作處理
《四川日報》依托旗下的四川在線全媒體集群MORE大數據工作室,近年來制作發布不少數據新聞。因《四川日報》與阿里巴巴本地生活形成緊密合作,很多數據新聞的數據都來自阿里巴巴本地生活各門類產生的數據,如口碑、餓了么、支付寶等。
2020年,川報全媒體集群MORE大數據工作室聯合餓了么,聯合制作《D47數字生活·新消費分析報告》,以數據“發現城市新價值”,從“數字生活覆蓋度”“數字生活活躍度”“數字生活消費潛力”“數字生活消費友好性”“數字生活新潮流”5個維度,對四川省47個市轄區的數字消費活力進行綜合排名,計算與分析各區的外賣供需指數,從供求的相對關系中窺探每個市轄區的消費活力與消費增長潛力。
合作的方式,簡單而言,首先,MORE大數據工作室設置好議題和指標體系、權重等;之后,餓了么數據團隊從其數據池中對應提取、清洗,進行模型化計算,得出數量化結果;最終,由MORE大數據工作室的技術團隊進行數據結果審核,由記者團隊分析結果形成數據報告,提煉新聞點,制作數據新聞產品。
(三)通過問卷與爬蟲獲取多源數據,對單一主題進行比對分析
對單一主題的數據分析,并不要求數據的海量,更看重的是利用多種不同來源數據的處理結果,進行比對驗證。對于媒體而言,多源數據的獲取可通過向政府部門申請、從互聯網爬取、問卷等方式統計等渠道和方式進行。
自2016年起,廣州日報數據和數字化研究院每年均會發布《廣報大學一流學科排行榜》。該排行榜通過科學研究指數、人才培養指數、學科聲譽指數和二次評估指數4個維度,對國內327所大學的40個學科進行評價。
報告最后的評價結果是對指標體系分別賦權后綜合計算得出。在對學科聲譽指數進行分析時,因團隊對此的界定是主觀認知評價,遇到了沒有現成數據可用的問題。團隊首先采用了問卷調查的方式,制作學科評價問卷,通過電子郵件發送給全國各地總共4000位高校學者,有效回收1000余份。團隊通過問卷中學者對高校學科的不同打分和排名進行統計分析,初步得出分學科的排名結果。
考慮到抽樣調查代表性、受訪者認知偏差等問題,團隊又從互聯網新聞、論壇等渠道盡可能爬取對所涉及高校及學科的評價,經數據處理后,與問卷調查結果進行比對,對整體排名進行調整。
四、結語
《重慶日報》的操作經驗并不具有廣泛復制性,因為媒體或其下屬機構能夠接觸并利用的元數據數據庫機會是極少的。要自建媒體內容以外的數據庫,時間長、投入大,沒有必要。《四川日報》的操作模式推廣性強,但需注意:一是雙方要簽署權責明確的數據合作協議;二是新聞單位要對數據企業的數據內容有深入了解,否則費力建模,對方卻沒有對應數據;三是新聞單位也應配有數據分析師,檢查數據企業反饋的結果是否符合要求。在《廣州日報》這個實例中,廣州日報數據和數字化研究院并未與外合作,承擔了主題設置、指標建模、數據收集、數據分析等所有工作,所涉工種包括熟知社會科學調查方法的媒體人員、技術人員、數據分析師等。這樣的團隊配置應該成為想要從事數據新聞生產的媒體的標配。
參考文獻:
[1] 祝建華.從大數據到數據新聞[J].新媒體研究,2014(04):11-13.
[2] 郎勁松,楊海.數據新聞:大數據時代新聞可視化傳播的創新路徑[J].現代傳播,2014(03):32-36.
[3] 喻國明.從精確新聞到大數據新聞——關于大數據新聞的前世今生[J].青年記者,2014(12):43-44.
[4] 莫凡.數據新聞的生產現狀、影響與反思[J].新媒體研究,2018(08):35-37.
作者簡介:丁虞(1985—),男,重慶江津人,研究生,碩士,編輯,研究方向:媒體智庫發展與數據新聞制作。