李知兵
(作 者單位:安徽廣播電視臺)
大數據技術在網絡廣播電視臺應用初探——以大數據新聞為例
李知兵
(作 者單位:安徽廣播電視臺)
當前,大數據已從概念階段上升到應用階段,并給傳統行業帶來了新的契機。國家對媒體轉型及媒體融合高度重視并提出了要求。網絡廣播電視臺作為新媒體領域的正規軍,更需順應潮流,積極探索新的傳播規律和傳播手段。本文以大數據新聞生產為例,介紹了大數據的具體應用。
大數據;網絡廣播電視臺;數據新聞
“大數據”一詞最早由2008年9月《科學》(Science)雜志中一篇文章開始廣泛傳播,引起足夠重視的事件是在2011年5月的EMC World 2011會議上,EMC公司拋出大數據(Big Data)概念[1]。大數據作為新一代信息技術近期被寫入“十三五規劃”,意味著已上升到國家戰略層面。大數據的特點是體量大(大到甚至無法用“超大規模”、“海量”等辭藻來描述),結構多樣(結構化、半結構化和非結構化混雜)、存取和處理速度快(已無法用常規軟件工具處理,而采用新型計算架構和智能算法等新技術)、應用價值高(商業智能的基礎)。大數據已逐漸滲透到傳統行業多個領域,并給傳統行業帶來了新的契機,其中傳媒業也不例外。習近平總書記高度重視傳統媒體和新興媒體融合發展,近年來在不同場合與新媒體親密接觸,強調要研究把握現代新聞傳播規律和新興媒體發展規律,強化互聯網思維和一體化發展理念,要利用新技術新應用創新媒體傳播方式。網絡廣播電視臺(下簡稱“網絡臺”)作為廣電領域新興媒體代表,有責任有義務積極響應國家媒體融合發展號召,努力研究新的傳播規律,探索新的傳播方式。
考慮到目前廣電行業體制、資金、人力等現實因素的制約,大數據基礎平臺搭建還需分步實施,因此本文涉及到應用均是借助第三方平臺實現。
數據新聞(Data Journalism),又稱數據驅動新聞,既是基于數據挖掘與分析思維的新聞報道,也是數據驅動型的調查性報道或深度報道。2010年8月,首屆“國際數據新聞”圓桌會議在荷蘭阿姆斯特丹舉行,對這個概念做出了如下界定:“‘數據新聞’是一種工作流程,包括下述基本步驟:通過反復抓取、篩選和重組來深度挖掘數據,聚焦專門信息以過濾數據,可視化地呈現數據并合成新聞故事。”[2]在我國,近兩年,數據新聞形式在央視新聞、人民網、新華網及四大門戶網站均紛紛出現。例如,央視新聞頻道的“據說春運”“兩會大數據”等新聞專題,騰訊網的新聞百科頻道的“數據控”專題。除上述以外,較早研究和使用數據新聞的媒體還有財新網,其“數字說”欄目定期推出優質的數據新聞產品,在業內口碑較好,并多次獲得國內外大獎。
3.1確定新聞選題
確定新聞選題是首要完成的步驟。選題確定意味著目標明確,這樣就可以開展后續工作。這里建議成立專門的數據新聞項目小組,因為整個新聞生產過程不可能由一兩個人來完成,即便能完成,質量也不高。項目小組分工也要具體明確。數據新聞項目組通常至少包含如下三類人員:記者編輯、美術設計師和程序員。其中,記者編輯負責文案起草,美術設計師負責設計,程序員負責前端程序實現。本文以“反腐”題材為例,闡述一個完整的數據新聞生產過程。
3.2海量信息采集與標注
基本邏輯為從海量互聯網信息(15 000家媒體和政府網站的10多億篇資訊報道)中,進行大數據平臺采集工作,通過對“反腐”等關鍵詞標注篩選,得到約260萬篇反腐類新聞報道,繼續針對人名標注篩選,得到90多萬條新聞報道,再對涉腐人員標注篩選,得到相關新聞報道8 914條。
3.3結構化建模與確立維度
建立結構化模型,確立維度,形成模板,利用海量大數據抽取技術,將非結構化文本信息,得到各維度信息。這個過程總結起來實質上是標簽化。如圖1所示。

圖1 結構化建模與信息抽取
3.4多維度信息匯總分析
將第三步得到的多維度信息進行匯總分析,分析思路是針對若干個維度標簽組合,可以得到一些用戶感興趣的數據,這些數據是深層次的,無法通過一兩個案例就能得到的,這也是大數據應用價值體現。例如,本例中,我們可以輕松得到基于時間軸的全國反腐形勢分析、涉腐人員構成分析、腐敗類型分析等。
3.5可視化報告呈現
通過前面四個步驟,完成了數據新聞生產的80%以上工作,但是如果僅到此為止,還不能算作一個數據新聞產品,最多算個半成品,因為我們得到的僅僅是一張張枯燥的表格。如果將這些數字表格呈現給用戶,一般不會受歡迎,因此還需要可視化報告呈現這一環節。這一環節和大數據已沒有關系,但是同樣不可忽視,因為好的展示效果會帶來好的用戶體驗,好的用戶體驗又會帶來收視(點擊)效果。目前,可視化操作主要用到圖形和動畫制作。動畫制作可以傳統的flash方式,也可以使用HTML5方式,且考慮到多終端適配,HTML5方式更容易被關注。HTML5是一門新興網頁標記語言,因具有語法簡單、適配性能好、開發成本低等特點,廣受移動開發者青睞,是開發Web APP的首選工具。要實現豐富的動畫效果,除了掌握HTML5以外,還要熟練掌握CSS3和JavaScript技術。具體要何種形式呈現,需要設計人員和前端程序人員配合才能完成。例如,本例中,為了清晰表達“全國反腐形勢分析”這一數據新聞,設計人員可以設計用“中國地圖+熱點區域”動畫展示,前端程序人員則需要用HTML5+CSS3+JavaScript布局程序,比如用到HTML5的Canvas畫布對象及熱點鏈接,用CSS3和JavaScript實現動畫效果和數據傳遞。
此外,可視化還可以借助網絡上免費第三方工具,如百度echarts(http:// echarts.baidu.com/),詞云工具http:// www.tagxudo.com,http://www.picdata.cn。
網絡臺對大數據新聞生產的研究仍處于初級階段,存在的主要問題集中表現在以下幾方面:一是大數據基礎平臺尚未搭建,仍需借助第三方平臺開展;二是如何進行新聞選題,及報道的深度和維度不好把控;三是H5復合型技術人才缺失。總之,大數據新聞的關鍵已不在數據本身,而在于用數據講故事的能力及提供個性化新聞服務的能力。隨著移動互聯網及智能計算的進一步發展,相信大數據新聞的春天一定會到來。
[1]郭平.當云計算遇見大數據[J].計算機世界,2001,5(23).
[2]喻國明.從精確新聞到大數據新聞:關于大數據新聞的前世今生[J].青年記者,2014(12).