“大數據時代”的自動化新聞寫作的歷史、實踐與未來

2017-05-13 23:03:02沈浩元方

新聞愛好者 2017年4期

沈浩+元方

【摘要】大數據時代已經到來，而大數據的一個顯著特點，就是分析的對象正在從結構化數據向半結構化數據、非結構化數據轉變。這正和新聞文本的特點相契合，因此，大數據中文本挖掘、情感分析的相關方法必將在新聞業中發揮重要作用。

【關鍵詞】自動化生成新聞；機器人新聞寫作；計算新聞

每天股市收盤時，許多投資者的手機上都會收到一條行情軟件的推送消息“今日股市開盤XXXX點，收盤XXXX點，最高XXXX點，最低XXXX點……”。寫這樣一條消息不難，然而，每天下午3點收盤，最遲3：01這條信息就需要完成推送，如果靠人力寫作，顯然是一項非常枯燥乏味的工作，但如果依靠機器自動化寫作，這就是一條最簡單的自動化生成新聞。除了收盤時的簡報，也有軟件可以提供更加詳細的市場資訊，來自于自動化寫作的這樣一條新聞，可以涉及很多名詞：數據（驅動）新聞、計算新聞、程序新聞、算法新聞、機器人報告、自動化新聞，而這些術語都與數據和計算機的使用直接相關，更確切地說，與當下這樣的大數據時代直接相關。

大數據時代已經到來，而大數據的一個顯著特點，就是分析的對象正在從結構化數據向半結構化數據、非結構化數據轉變。這正和新聞文本的特點相契合，因此，大數據中文本挖掘、情感分析的相關方法必將在新聞業中發揮重要作用。

文本挖掘分析的是包含在自然語言文本中的數據，它可以幫助一個組織從基于文本的內容中獲得有價值的潛在業務洞察力。例如文檔、郵件和社交媒體中發布的帖子。在某種意義上，它被定義為從無處不在的文本中發現知識的方式，而且通常這些文本可以在網絡上直接獲取。而文本挖掘中的情感分析更是為新聞自動化寫作打下了很好的基礎。情感分析是指使用自然語言處理、文本分析和計算語言學確定一段文本的作者對某一特定主體的態度，它可以幫助確定文本表達的態度是積極的、消極的還是中立的，情感分析現在經常用于發現消費者對特定主題、產品或想法的感受。在未來，它們可能幫助新聞從業人員發現社交媒體上流行的熱點事件，收集事件的情報；可能發現受眾的情緒所在，從而抓住他們的興趣；還可能幫助機器自動生成的新聞變得更加平易近人，而不僅僅是冷冰冰的客觀陳述。大數據的方法越來越多地滲入各個領域和各個行業中，潛移默化地改變它們。

新聞業確實正在發生改變，從計算機輔助報道到數據新聞，再到自動化新聞寫作，這種術語的變化體現了一個事實，計算機和數據正在逐漸成為關系中的主體。這種變化不僅是由新技術驅動，而且結合了更廣泛的背景?！按髷祿比匀皇且粋€相對較新的概念，人類正身處數據洪流之中，產生了兩種深刻的發展。[1]第一是由于人類（和自然）活動產生的關于人類（和自然）活動的數字化信息的種類和數量都非常多，通過移動設備、跟蹤工具、傳感器以及便宜的計算存儲等來記錄這些信息也日益普及?！霸谝粋€數字化的世界里，消費者每天的活動——溝通、瀏覽、購買、分享、搜索——創造了他們自己巨大的數據流量”[2]。第二個主要發展涉及計算過程、機器學習、算法和數據科學的快速進步和擴散。這些發展使得公司、政府和研究人員更容易地分析公共生活中的數據。無論是稱為大數據還是別的什么，這一時刻都是數據中的一部分，它的收集分析和展現，以及相關數據驅動技術的應用，都對理解媒體、技術和社會的交叉點產生了極大的共鳴。

這種深刻的發展讓我們認識到，日常生活的數據化有助于我們理解世界上發生了什么，從而做出更好的決定。重要的是，這種理解不是來自人類社會創造的理論或者假設檢驗，而是計算機處理大數據所揭示的相關性。

這種深刻的發展也使得新聞生產和分發中的重要方面發生著變化。可以看到的是，在新聞業大規模數據集及它們的收集、分析和解釋對于從數字化信息中獲取價值和意義變得越來越重要，也成為一種趨勢。大數據和數據新聞越來越多地被作為一種思維方式來理解，它體現了我們如何思考人類主題以及探索作為對象的世界的能力。

一、數據導向的新聞業發展

在新聞中使用計算機和數據是一個沿革的過程，精確新聞、計算機輔助報道、數據新聞、數據庫新聞、數據驅動新聞和計算新聞，乃至自動化新聞寫作，它們的共同點都是計算機導向的方法，并且對從業人員來說，需要更多高級的計算機技能。但是本質上，精確新聞強調使用科學方法，計算機輔助報道強調數字化工具的使用，數據庫新聞強調信息存儲和檢索的結構，數據和數據驅動的新聞強調在數據集中找到故事，而計算新聞強調在工具和方法應用中融合計算和新聞價值。（數據導向的新聞生產模式見表1）

[表1 數據導向的新聞生產模式[3]][＼&精確新聞＼&計算機輔助報道＼&數據新聞＼&數據驅動新聞＼&計算新聞＼&焦點＼&新聞的科學性＼&利用計算機技術報道新聞＼&在新聞中發現、分析和展示數據＼&跟隨“數據線索”追蹤未知或推測的故事＼&創造、適應或使用計算工具和方法，在新聞中或作為新聞本身＼&技能＼&社會科學方法＼&高級計算機使用＼&數據處理，數據敘事＼&分析性和探索性的研究＼&計算思維，編程＼&]

（一）計算機輔助報道和精確新聞

計算機輔助報道于19世紀50-60年代出現在美國，1952年CBS使用計算機預測美國總統選舉的結果，1967年Philip Meyer使用計算機報道底特律暴亂，并且他在1973年出版了《精確新聞學》一書，幾乎可以作為數據分析正式成為新聞重要組成部分的一個里程碑。Meyer在書中提倡新聞的“科學”方法：“新的精確新聞是科學新聞……采用科學方法、科學的客觀性和科學理想?！盵4]他認為，計算機輔助報道就是采用計算機獲得信息和分析信息的報道，上述兩個方向正是計算機輔助的方向。精確新聞是通過應用社會科學中的方法使新聞更負責任和更科學，而計算機使這種方法的實現更實用。

在19世紀70—80年代，新聞業開始引入數據庫作為工具，有幾個普利策獎獲獎作品的關鍵方法是引入兩個數據集（例如駕駛學校班車的人與被判定有交通違規的人），找到兩個數據集中交叉的行，或者縮小大型數據集的范圍，從而用于假設檢驗。

計算機輔助報道的基本工具被描述為電子表格、數據庫管理器和在線資源，還包括Web訪問和電子郵件等作為重要技術進步[5]。

（二）數據（驅動）新聞

雖然數據新聞的一些特點與計算機輔助報道非常相似，但是兩者其實存在非常明顯的區別。“數據”在這里表示數字的結構化或非結構化的原始資料，記者用它們調查和解釋事實。典型的數據一般包括稅收記錄、政府預算、普查數據等公開數據，推特和微博等社交媒體數據以及交易日志等私有數據。并且數據新聞是通過可視化和講故事向公眾解釋復雜的數據。（McGhee 2010；Segel and Heer 2010；Weber and Rall 2013）

“數據新聞”這個名字可能更傾向于專門收集和分析數據的“分析師”或“數據科學家”角色，處理數據是新聞生產中最核心的部分，解釋數據是技術之外的挑戰。另一個用計算機制作新聞的名詞是“數據驅動新聞”。它通過追蹤數據中的線索完成故事本身，在分析完成前沒有人知道這個故事是什么樣的，強調分析數據是比管理數據更重要的東西。

（三）計算新聞

但是，并不是上述所有的數據新聞都與大數據有關，大部分數據新聞還只停留在“使用數據寫作新聞”這個層面上。與大數據最直接相關的則是計算新聞，它還被稱為：自動化新聞、算法新聞或者機器人新聞寫作的部分。

我們可以將計算新聞定義為算法、數據和知識的組合，從某些方面而言，計算新聞建立在前述所有術語的基礎之上，“機器做的更好的事情之一是從大量數據中快讀創造價值。自動化過程和內容是降低新聞成本和提高編輯輸出的最缺乏探索的領域”[6]。這就是計算新聞的意義所在，它通過對計算方法的應用創造新聞價值，很少或根本不需要記者的參與。計算新聞的目的是讓新聞生產過程中能夠探索越來越多的結構化和非結構化信息。

Diakopoulos在他的《計算新聞中的創新功能路線圖》一文中提到了一個更加面向過程的定義?！鞍延嬎惴椒ê陀嬎闼季S應用于新聞活動，包含信息收集、組織和意義建構，傳播和展現，以及散發和新信息的公眾反饋”[7]。這種新聞生產的最新發展伴隨著自然語言生成技術的進步，作為自然語言處理的子領域，自然語言生成被定義為從信息的計算中自動生產人類（自然）語言的軟件和計算機系統[8]。

計算機和其他相關技術的進步持續改變著新聞業。這些技術變革成為新的工具，可以幫助記者提高報道質量和效率，還成為講故事的人本身。尤其是在當下大數據時代的背景下，大數據、算法和代碼的興起導致越來越多的新聞媒體開始熱衷于雇用數據科學家幫助甚至領導他們的數據分析。這種轉變表明了記者所需技能的變化，傳統意義上的記者技能通常包含采訪能力和寫作能力，而現在，編寫代碼、參與社交媒體和多媒體交互敘事這些數字化的技能越來越重要。計算新聞的優勢主要體現在以下幾個方面[9]：

（1）提高對紛繁復雜來源的事件的感知速度，識別通向原始新聞的數據模式；

（2）更有效地利用公開數據，調查記者可以對大規模數據進行分析，結合專門知識形成新聞內容；

（3）為數字新聞增加價值，為受眾提供可以檢查事實的工具，使用多媒體和互動元素吸引受眾；

（4）能最大限度地減少花在繁瑣的背景研究和事實檢查上的時間，創建代碼和挖掘數據，然后可以在其他項目上重復使用。

當然，也有人認為這些變化可能引起法律與倫理問題，威脅到隱私，或者帶來黑客風險，新聞業將會被算法驅動的數字記者取代。但從另外一個方面看，算法、AI（人工智能）和大數據為新聞記者提供了一個機會，利用這些新興技術增強人類記者的工作，重塑新聞的性質和實踐。這不僅可以帶來更高的效率，還可以提高人類記者的質量和生產力。

二、自動化新聞的基本流程

從內容和形式上考慮，我們可以把自動化新聞分為五個層次。第一個層次是簡單描述事件。例如當某地發生地震后，軟件通過接口或其他方式從外部數據獲取到該地震的具體時間、震源經緯度、深度、烈度等級等信息，然后將數據填入編寫好的模板中，模板的形式可能是這樣：“今天下午XX時XX分XX秒某地發生X.X級地震，震源位于北緯XX.XX度，東經XXX.XX度，深度XX千米?！痹摋l填寫完畢的新聞自動被發布到媒體的新聞網站或社交媒體上。這是最簡單的簡訊形式，如果從數據庫的角度考慮，事實上它相當于在地震數據庫中插入一條記錄。第二個層次是結合外部數據進行分析。在這一層次，媒體通常會維護一個包含歷史數據和其他相關數據的數據庫，當地震發生時，模板可能變成這樣：“今天下午XX時XX分XX秒某地發生X.X級地震，震源位于北緯XX.XX度，東經XXX.XX度，深度XX千米。這次地震僅低于XXXX年在該地發生的X.X級地震，烈度排名第二……?！彪m然形式上仍然是填入模板，但由于結合了歷史數據的分析，可能會出現一些重要的結論作為新的新聞線索。進入到第三個層次，除了填模板，會有一些與大數據真正相關的智能算法加入進來，例如利用文本分析構造新的句子，利用情感分析改變句子語氣等。這時候生成的新聞，就不像前面兩個層次那樣千篇一律，而會加入與情感相關的因素，這樣可以在一定程度上提高新聞的可讀性。

前三個層次是集中在文章的寫作方面的，雖然我們經常將這套程序稱之為自動化新聞寫作或者機器人新聞寫作，但是事實上，完整的新聞生產流程除了寫作，還包括發布。在第四個層次中，應該可以做到發布新聞的分群體推送，類似數據挖掘中的精準營銷。自動化生成的新聞除了發布在新聞網站和社交媒體上以外，還應該可以通過APP推送、私信推送等方式，針對不同群體推送不同的新聞。這就涉及要對受眾做受眾細分，要收集歸納每一類受眾的特征，為受眾細分群體打標簽，通過標簽決定推送內容。而到了第五個層次，這種推送應該得到進一步細化，做到真正的“個性化推薦”，根據每個受眾不同的特性個性化推送新聞。標簽會從受眾群體細化到受眾個體身上，協同過濾等個性化推薦算法也可能在這里發揮作用。更為關鍵的是，在第四和第五層次，生成程序的算法也會隨著標簽不同而采用不同的參數甚至不同的算法，生成盡可能個性化的內容。總而言之，當自動化新聞達到第五個層次時，它已經成為一個完全的智能化系統，會根據每個受眾特征的不同，選擇不同的新聞事件、不同的生成算法或者算法參數生成不同的文章，并推送到每個人的媒體終端上。這才是真正的大數據時代的新聞。

結合上述五個層次，我們來梳理一下自動化新聞的基本流程。簡單的方法是指從數據庫中提取數字，然后將這些數字用于填充預先編寫的模板故事中的空白，從而完成新聞的寫作。還有更復雜的方法，需要分析數據，獲得更多信息，并創建更有說服力的敘述，這主要依賴于大數據分析和自然語言生成技術，此種方法的成果最初經常出現在體育報道中，Graefe總結了自動化新聞的流程[10]（見圖1），這里我們結合一場籃球比賽的報道詳細解釋一條新聞是如何生成的。

首先，軟件收集可用的數據，例如比賽中的得分、籃板、助攻和歷史記錄，運動員的背景資料等，既可以收集到當前籃球比賽的實時數據，還可以從數據庫中讀取歷史比賽數據，得到趨勢性的數據。第二步，算法采用統計方法識別數據中重要和有趣的事件，比如可以定義如下規則作為事件的判定依據：某球員連續20場得分在25+；某球隊本場投進20個三分球創賽季最佳；某球隊在第三節比賽的最后5分鐘時間內打出了個10：0，從而反超了比分等。第三步，軟件按照重要性對所識別和洞察到的信息進行分類排序，如比賽情況可以分為球隊表現和球員表現，球員表現中又包括明星球員的表現，由此新聞自動寫作程序將比賽表現與受眾的關注程度等結合，從而可以實現第四步，遵循定義的規則安排新聞價值元素，以生成陳述。最后，故事上傳到發布者的內容管理平臺，并可以自動發布。

在此過程中，軟件依賴于一組特定的預先定義規則，這些規則需要工程師、記者和計算機語言學家的協作。工程師實現分析程序，記者定義新聞價值的標準，根據該標準、算法尋找重要事件并排列它們，計算機語言學家通過新聞語料識別潛在的邏輯，并將它們轉換為能夠構造句子的基于規則的系統。

圖1 算法如何生成新聞

三、自動化新聞寫作的實踐

體育和金融新聞已經使用算法自動生成并發布了數以千計的新聞故事，它們不需要人工干預，成本很低或沒有成本[11]，還有一種說法，即自動生成的新聞將在五年內贏得普利策獎[12]。不管未來自動化新聞寫作能不能贏得人類世界的獎項，它在近兩年的發展中已經被越來越多成功的實踐所證明。

從2014年起，美聯社使用自動化洞察（Automated Insights）公司的Wordsmith軟件撰寫每個季度的公司財報，算法挖掘財務報告，總結每份報告中的關鍵要素并生成敘述。Wordsmith平臺每秒最多可以產出2000篇此類新聞，而且出錯率極低，美聯社采用機器人自動寫稿是之前人工報道發稿量的1.4倍[13]。

2014年3月17日，洛杉磯發生了4.7級地震。3分鐘內，洛杉磯時報的網站就發布了關于此事的第一條新聞。雖然該新聞很短，但是它的作者是一個叫做Quakebot的機器人。此外，洛杉磯時報還使用另一個程序報道殺人事件，依靠數據分析和人工智能建立起了一個數據庫，用于追蹤事件并撰寫新聞。此外，自動化寫作的應用案例還包括美國紐約公共廣播電臺“美國全國大學體育協會”賽事報道的NailbiterBot，等等。

新聞寫作系統中甚至可以使用更高級的人工智能技術，這樣的AI系統可以對人類記者的行為方式建模。想象一個系統，該系統基于機器學習和人工智能的相關技術，它監測微博或者推特這樣的社交媒體，學習人類記者的監測方式，選擇有新聞價值的事件，并根據該事件在社交媒體上討論的發展趨勢自動寫成故事。這套系統很容易讓人們聯想起英國《衛報》2014年推出的“#Open001”，這是一份紙質報紙，但是其中幾乎所有內容都由算法生成。預先編寫好的機器人程序分析社交媒體上的熱門分享，并對其進行篩選、編輯和排版，生成一份報紙。這雖然只是一個嘗試，但是表現出了無限的可能。在未來，對應于不同來源的大數據，例如傳感器和移動設備，可以形成不同的寫作系統。

雖然自動化新聞寫作最早出現于國外，國內的相關研究與應用起步較晚，但已有成功案例。在中國，2015年9月，騰訊財經發表了一篇《8月CPI同比上漲2.0% 創12個月新高》的文章，署名為自動化新聞協作機器人Dreamwriter，可以視為自動化新聞寫作第一次在國內得到應用。隨后騰訊又在10月份發布了三篇不同類型的CPI數據報道，分別為“精要版”“研判版”和“民生版”，這四篇新聞報道均采取官方數據加專家分析的結構，讀起來段落間銜接略有不連貫[14]。2015年11月，新華社也推出了自己的寫作機器人——“快筆小新”，它輸入股票代碼，3秒鐘就能完成一篇財報分析，稿件中大小標題一應俱全，還配有圖表等信息[15]。然而，“快筆小新”也只是基于人工錄入的知識庫和模板，寫出的稿件結構單一，內容乏味。2016年里約奧運會期間，今日頭條推出了新聞機器人“張小明”，“小明”作為第二代新聞機器人，除了生成賽事新聞報道外，還能智能檢索并選擇圖片，根據比賽結果模仿人類語氣等[16]。雖然比起單純套用模板進步了不少，但是從“小明”發布的報道中，還是能見到一些由于對語義理解不夠而造成的錯誤?？傮w來說，比起《洛杉磯時報》、美聯社等已經在日常的新聞發布中采用成熟的寫作機器人產品，國內的自動化新聞寫作發展還處在相對初級的階段。

隨著自動化新聞寫作的興起，計算新聞領域也在深度和廣度上得到長足的發展。一方面，新技術的進一步革新，深化了其應用功能，如機器人視覺的持續發展也為新聞攝影的未來帶來了其他可能；有多種智能技術可以捕獲高質量的音頻、視頻，這種技術同樣可以獲取新聞事件照片，因此自動化新聞不僅限于文字寫作，有可能實現多種媒介展現方式的融合，也彌補了其在新聞價值方面的部分缺失。另一方面，計算新聞的發展拓展了其應用范圍，如2016年年底，基于人工智能的新聞真實性核查再次掀起了一股熱潮。人工智能和自然語言處理的技術可以用來檢測見聞背后的語義，也可以通過查看其他網站尤其是權威媒體來源佐證消息的真實性。全球數億網站會形成超級巨大的數據集，在這個數據集上利用人工智能檢測假新聞非常具有優勢。

四、自動化新聞寫作和新聞的未來

自動化新聞已經成為一個需要認真對待的趨勢。首先，新聞職業越來越商業化，基于商業邏輯運轉，新聞任務的自動化生成可以提高利潤率和降低生產成本。其次，盡管計算機生成的新聞可能無法與主要新聞媒體提供的高質量新聞相競爭，這些媒體上的文章注重細節、分析并且語言更活潑，但是對于在互聯網上可以自由獲取的信息，自動化生成的新聞可以擊敗它們。

如前所述，體育報道通常被認為是自動化生成內容的理想選擇，因為比賽中的統計數據非常豐富，并且很容易創建用于比賽的報道模板和短語。除此之外，該技術的應用范圍還包括房地產、財務金融、天氣預報和自然災害，甚至在更長的時間內，一些關于政治的新聞也可以自動化。

自動化新聞被看作是對傳統新聞業的威脅。它吸引了眾多記者的注意力，這主要集中在技術將如何改變記者這個角色，以及隨著技術的發展，記者所需的技能如何變化這樣兩個問題上。自動化技術與傳統記者的關系事實上是取決于記者的任務和技能的，在常規的重復性任務中，通常只需要把原始數據轉換為符合某種標準的文章，這時候人類記者很難與自動化生成程序的速度和規模相競爭，最典型的例子就是在體育賽事和財報分析領域，這兩個領域也是自動化新聞寫作應用得最廣泛的領域。

在樂觀人士的視角下，自動化新聞寫作程序可以提高常規新聞質量，從繁瑣的重復性勞動中解放人類，使他們可以有更多的時間花費在深入分析、評論和調查工作上，寫出更具有深度的新聞文章。而在悲觀人士的視角下，自動化新聞與人類記者是競爭關系，自動化本身是為了減少成本，而原本完成這類任務的常規記者如果不能寫出更好的文章，或者專注于人類勝過算法的技能，他們就將被取代。其實從這種角度看，樂觀人士和悲觀人士的看法在某些方面是具有共同性的。

Reginald Chua提出了一種“人機聯姻”的說法。他認為在未來，人類和自動化新聞將會緊密結合，算法分析數據，找到有趣的故事并形成初稿，之后記者進行深度調查，通過加入對關鍵人物的訪談及背景資料豐富報道。

隨著自動化新聞寫作的發展，記者也會逐漸找到新的定位。自動化新聞的一大挑戰是定義算法從數據創建故事時所遵循的規則與標準，一名體育記者會了解哪些時刻對比賽結果是至關重要的，他可以將這種知識轉化為基于規則的系統，該任務需要分析思維、創造力和一定的統計能力。

從普遍意義來看，自動化新聞寫作技術是可以使新聞消費者受益的。機器人程序快速批量寫作能力可以覆蓋新聞的長尾需求，使更多的細分受眾得到滿足。但是如果把視角切換到整體的角度，受眾可能會關注的兩個問題是自動化新聞的質量和算法透明度。

Clerwall（2014）使用可信度和可讀性兩個指標分析了記者和計算機寫作新聞在感知質量上的差異，受眾在閱讀文章時并不知道作者的身份，他們被要求對新聞進行打分?？傮w來說，這兩種新聞的差異很小，但是計算機寫的文章傾向于收到更高的可信度評價，而記者寫的文章則在可讀性方面得分較高[17]。不過他使用的樣本較小，這使得結果的可靠性容易被質疑。

Andreas等人設計了一個線上實驗研究受眾對計算機寫作的新聞的看法。他們使用222的設計，改變文章主題以及文章的實際和聲明來源。研究發現，改變聲明來源具有較小但一致的效果，表明人類寫作的文章總是被評價為更親切，無論其實際來源如何。改變實際來源則具有更大的影響，計算機寫作的文章被被試者評價為更可信、更具有新聞專業性，但是可讀性較差[18]。

這并不奇怪，常規的新聞寫作經常處于簡單敘述事實的層面，使用程序自動化生成內容嚴格遵循這樣的標準，因此人們自然傾向于在可信度上打分更高，但是這些結果并不能推廣到描述事實之外的主題。記者能夠為新聞故事提供價值的部分，也就是深度報道，仍然沒有自動化程序出現。而當對新技術的興奮退去時，我們可能會發現，新鮮和具有創造力的人類寫作風格依然具有吸引力。

算法透明度則是基于新聞寫作程序中算法的黑箱問題而存在的。寫作程序可能是跨層次的，涉及輸入數據、模型、推理規則和外部接口。數據的質量（包括準確性、誤差范圍、及時性和完整性等），抽樣方法，變量定義，權威性；模型輸入變量和特征，目標變量，特征權重，建模工具，源代碼或偽代碼，參數及可能的人工調整；推理規則的持續性，準確度基準值，誤差分析和置信度等不確定性信息；還有外部接口的開關，輸入和權重的可調整性等多個因素都會影響到寫作文章的質量[19]。這些內容的披露機制在非常大的程度上能決定透明度。然而，可以想到的是，許多專業人士之外的受眾可能難以理解這些內容或對之不感興趣，因此確定關于算法透明度的真實受眾需求，以及如何解決這些需求就成了重要的問題。

對新聞機構來說，正如前文所述，更多的機器人新聞寫作無疑有助于降低機構成本和減少編輯的工作量。但他們同樣有需要考慮的問題，他們的問題集中在源數據、數據處理和輸出新聞質量三個方面。新聞機構需要對源數據的版權和準確性負責，他們需要保證該數據確實可用，因此需要數據管理和驗證的程序。同樣，如果算法的數據處理過程存在錯誤，也會造成大量虛假新聞，這可能對新聞機構的聲譽帶來災難性的影響。自動化新聞寫作程序在首次發布前需要徹底的測試。而對最后輸出的新聞，可能需要匹配新聞機構的官方樣式與風格，此外機構也要意識到可能出現的法律和道德問題。

如果把目光投向整個社會，對自動化新聞的應用事實上是在一個更大的話語體系內部的，那就是，考慮到新聞媒體的輿論監督功能，更大范圍地應用更復雜的由機器人寫作的新聞，是否意味著把這種監督的主體由人讓渡到算法？我們是否可以信任算法作為檢查、識別重要社會問題的機制？算法已經參與到社會管理中的很多方面，它決定了你多長時間能夠打到一輛車，銀行是否應該批準你的信用卡，甚至警察應該監控誰和監控哪里。而接下來，它們還可能會影響你的公共生活，你會在新聞媒體上看到什么，甚至你會處于一個什么樣的社會。

參考文獻：

[1]S.C.Lewis，Journalism in an Era of Big Data：Cases，concepts，and critiques.Taylor & Francis，2015.

[2]J.Manyika et al.，“Big data：The next frontier for innovation，competition，and productivity，”May 2011.

[3] E.Stavelin，Computational Journalism.When journalism meets programming.The University of Bergen，2014.

[4]P.Meyer，Precision journalism：A reporters introduction to social science methods.Rowman & Littlefield，2002.

[5]Cox M.The development of computer-assisted reporting.Informe presentado en Association for Education in Jornalism end Mass Comunication）.Chapel Hill，EEUU：Universidad de Carolina del Norte，2000.

[6] M.Carlson，“The robotic reporter：Automated journalism and the redefinition of labor， compositional forms， and journalistic authority，”Digital Journalism，vol.3，no.3，pp.416–431，2015.

[7]N.Diakopoulos，A functional roadmap for innovation in computational journalism.http：//www.nickdiakopoulos.com/2011/04/22/a-functional-roadmap-for-innovation-in-computational-journalism/， 2011.

[8]K.N.D？rr，“Mapping the field of Algorithmic Journalism，”Digital Journalism，vol.4，no.6，pp.700–722，Aug.2016.

[9] T.Flew，C.Spurgeon，A.Daniel，and A.Swift，“The promise of computational journalism，”Journalism Practice，vol.6，no.2，pp.157–171，2012.

[10]A.Graefe，Guide to automated journalism.2016.

[11]A.Van Dalen，“The algorithms behind the headlines：How machine-written news redefines the core skills of human journalists，”Journalism Practice，vol.6，no.5–6，pp.648–658，2012.

[12]M.L.Young and A.Hermida，“From Mr.and Mrs.outlier to central tendencies：Computational journalism and crime reporting at the Los Angeles Times，”Digital Journalism，vol.3，no.3，pp.381–397，2015.

[13]徐曼. 國外機器人新聞寫手的發展與思考[J]. 中國報業，2015，（23）：32-34.

[14]王江濤. 機器人新聞寫作的局限與不足——基于騰訊財經寫作機器人Dream writer作品的分析[J].傳媒觀察，2016，（7）：12-14.

[15]王悅，支庭榮. 機器人寫作對未來新聞生產的深遠影響——兼評新華社的“快筆小新”[J].新聞與寫作，2016，（2）：12-14.

[16]趙禹橋. 新聞寫作機器人的應用及前景展望——以今日頭條新聞機器人張小明（xiaomingbot）為例[EB/OL].http：//media.people.com.cn/GB/n1/2017/0111/c409691-29014245.html，2017.1.

[17]C. Clerwall，“Enter the Robot Journalist，” Journalism Practice， vol. 8， no. 5， pp. 519–531， Sep.2014.

[18]A. Graefe， M. Haim， B. Haarmann， and H.-B. Brosius， “Readers perception of computer-generated news： Credibility， expertise， and readability，” Journalism， p.1464884916641269， Apr. 2016.

[19]N. Diakopoulos and M. Koliska， “Algorithmic transparency in the news media，” Digital Journalism， pp. 1–20， 2016.

（沈浩為中國傳媒大學新聞學院教授、博士生導師；元方為中國傳媒大學互聯網信息研究院互聯網信息專業媒體大數據與社會計算方向博士生）

編校：鄭艷

新聞愛好者2017年4期

新聞愛好者的其它文章: 藝術的數字化“虛擬空間”探究; 美國青少年的網絡使用和家庭監管; 論我國“微博問政”的制度化; “羅爾事件”的是與非; “發現”和“呈現”：數據新聞學建構的兩個關鍵詞; 數據新聞是如何使用地圖的？

“大數據時代”的自動化新聞寫作的歷史、實踐與未來

“大數據時代”的自動化新聞寫作的歷史、實踐與未來