□文│張 超
智媒時代新聞業(yè)正經(jīng)歷“算法轉向”(algorithmic turn),人工智能技術被視為下一代新聞生產的“標配”,滲透到從選題到內容分發(fā)各個新聞生產環(huán)節(jié),如機器人新聞、個性化新聞推送、智能檢校、用戶評論審查、自動事實核查、自動生成圖表、聊天機器人、數(shù)據(jù)挖掘與分析等。早在2015年,美聯(lián)社就在“2015~2020戰(zhàn)略規(guī)劃”中計劃2020年前實現(xiàn)80%的新聞內容生產自動化。
與此同時,人類正處于貝克所描述的“風險社會”之中,技術的發(fā)展讓各種風險形態(tài)不斷“生產”出來。人工智能也不例外。人工智能的核心是數(shù)據(jù)、算法和計算力。隨著人類從弱人工智能階段奔向強人工智能階段,因人們對算法的過度依賴和算法本身的局限所導致的算法風險(algorithmic risks)將與日俱增。
新聞業(yè)的合法基石在于向公眾提供可信賴的新聞信息服務。當人工智能技術滲入新聞生產時,新聞從業(yè)者需要對新技術保持審慎態(tài)度、提防算法風險。雖然人們主觀上認為人工智能技術比人更可靠,實際上如果算法出錯,波及面更廣、后果更嚴重。在對人工智能技術的憧憬中,國內外新聞傳播領域重在關注算法在新聞生產中的應用、局限、影響、算法權力等問題,對算法風險認識不足、研究薄弱。算法風險何以產生?新聞生產會遇到哪些算法風險?如何應對?本文嘗試彌補當前算法研究的這一“短板”,對算法風險進行系統(tǒng)、深入研究。
社會風險在本質上是屬于人的主體性實踐活動。[1]算法風險的產生既與算法系統(tǒng)自身的局限有關,也與利益相關者對算法的態(tài)度有關。算法風險的產生機制主要包括3個方面。
算法并不完美,有優(yōu)劣和適用性之分,世界上只有更好的算法,沒有完美的算法。算法運行系統(tǒng)包括輸入數(shù)據(jù)(input data)、算法設計(algorithm design)、輸出結果(output decisions)3個環(huán)節(jié)。任何一個環(huán)節(jié)存在問題都將導致算法風險的產生。
輸入數(shù)據(jù)存在問題。設計算法時,設計者需要用數(shù)據(jù)對算法進行訓練。訓練時采用的數(shù)據(jù)和實際輸入的數(shù)據(jù)在數(shù)據(jù)質量上重合度越高,越能得出符合預期目標的結論數(shù)據(jù)。如果用于訓練算法的數(shù)據(jù)存在缺陷(如不完整、陳舊、不相關),無論算法設計得多么完美,最后的數(shù)據(jù)輸出也是錯誤的。如果訓練算法的數(shù)據(jù)本身包含偏見,就會導致“偏見進,偏見出”。
算法設計存在問題。算法設計旨在解決特定問題,卻無法回避設計缺陷這一現(xiàn)實。如果出現(xiàn)有缺陷的假設或判斷、不恰當?shù)慕<夹g、錯誤的編碼、[2]設計者的偏見等問題,算法設計就會引發(fā)算法風險。
解讀輸出結果存在問題。當算法通過數(shù)據(jù)輸入得出特定的數(shù)據(jù)輸出時,輸出的數(shù)據(jù)不會自我解釋,需要人對其進行解讀。如果解讀者對數(shù)據(jù)結果的認識有誤或忽視了基本假設,就會出現(xiàn)解讀錯誤,進而導致算法風險。
對某些專業(yè)知識的無知會成為人們信任某種技術的基礎,同樣也會帶來風險。算法由于復雜和晦澀被視為“黑箱”,對于以文科知識背景為主的新聞從業(yè)者和沒有相關專業(yè)知識的一般公眾而言,算法常被視為中立的、權威的、科學的。一些媒體公司也以此為賣點,聲稱其算法系統(tǒng)沒有價值觀,部分公眾對這些宣傳容易信以為真。這種認為“利用算法、模型等數(shù)學方法重塑一個更加客觀的現(xiàn)實世界”的想法被稱為“數(shù)學洗腦”(mathwashing)。[3]
當“數(shù)學洗腦”成為社會共識后,人們便無視算法的潛在風險,甚至認為算法沒有風險,這種錯誤認識便會成為算法風險的來源,最終讓算法從人的“代理者”變成人的“控制者”。
算法設計者和使用者之間存在一個難以彌合的“算法知溝”。算法所有者可能會利用這種“算法知溝”實現(xiàn)自己的某些意圖。
在新聞生產中,對算法風險的掩蓋都是為了特定利益:一是免除自己可能要承擔的責任。例如一些媒體標榜“技術中立”,聲稱自己的算法不存在缺陷,為的是贏得用戶信任、免除可能承擔的倫理和法律責任。二是為了獲得更大的商業(yè)利益。如果媒體承認算法有缺陷、有風險,會導致用戶流失,影響媒體品牌聲譽。比如在新聞推送中,商業(yè)推薦所占的權重會更大一些,失范內容因稀缺性而產生的暴利也更容易被推送給用戶,[4]但是媒體卻聲稱這是基于用戶的數(shù)據(jù),而非算法故意為之。
當算法成為新聞生產的新中介時,算法風險自然會在新聞生產中產生,總體來看包括以下5類風險。
當算法應用于新聞內容生產環(huán)節(jié)可能會產生失實風險。失實風險是算法得出的錯誤結論導致內容失實、信息錯誤,影響整個新聞報道的準確性和真實性。失實風險主要由算法設計本身的局限性和輸入數(shù)據(jù)的錯誤導致的。
例如《洛杉磯時報》為了調查警察局低估犯罪數(shù)據(jù)設計了一個機器學習算法,結果算法出錯率達24%,需要用人工進行復核。[5]在2016年美國總統(tǒng)大選報道中,美國多家媒體的數(shù)據(jù)新聞預測遭遇“滑鐵盧”,其中一個重要原因是民調數(shù)據(jù)出現(xiàn)系統(tǒng)性的樣本偏差。由于民調數(shù)據(jù)出錯,甚至連續(xù)兩次預測準美國總統(tǒng)大選結果的納特·西爾弗也預測失敗,數(shù)據(jù)新聞的聲譽遭受重創(chuàng)。在機器人新聞寫作中,如果基礎數(shù)據(jù)或處理數(shù)據(jù)的算法包含錯誤,撰稿軟件可能會產生大量錯誤的報道。[6]因此數(shù)據(jù)、算法看上去客觀、權威,生產出來的并不一定是事實和真相。
決策風險是指由于人們過于相信算法,對某些決定進行思考、判斷時出現(xiàn)錯誤。對于新聞媒體而言,決策風險主要出現(xiàn)在個性化新聞推薦中:輕則推送的內容不符合“用戶畫像”;重則真假新聞不分,導致假新聞廣為傳播。
目前不同媒體依賴的算法推薦系統(tǒng)不盡相同。無論哪種推薦系統(tǒng),都有自身的不足,需要不斷完善,否則容易產生錯誤的判斷。當臉書(facebook)完全用算法推送熱門新聞話題后,謠言、假新聞就成了“??汀??!拔宋宋埂保˙uzzfeed)網(wǎng)站的數(shù)據(jù)新聞《空中間諜》(Spies in the Skies)用算法分析飛機數(shù)據(jù)、揭秘美國空軍的秘密活動,但算法會把一些跳傘運動錯誤識別為間諜機。[7]
再如一些數(shù)據(jù)新聞采用“計算器”的方式幫助用戶進行決策,但沒有人關心這種計算器是如何計算出來的,計算錯了,人們的決策也錯了。更重要的是這里的風險不只是眼前的決策風險,更在于人們會越來越依賴算法,從而失去對一些事物的獨立判斷:算法替代人成為決策主體,人的主體性被物化。
偏見風險的產生由于算法運行系統(tǒng)中的偏見因素導致偏見的結果輸出。算法偏見存在于算法設計和運行的每一個環(huán)節(jié),包括算法設計者的偏見、輸入數(shù)據(jù)的偏見和算法局限的偏見。
研究顯示,應用于語言的自動化方法必然會學習人類語言使用中固有的人類偏見。[8]2018年4月“快手”首席執(zhí)行官(CEO)宿華針對快手平臺有大量低俗內容在“快手”官方微博道歉,承認“(‘快手’)社區(qū)運行用到的算法是有價值觀的,因為算法的背后是人,算法的價值觀就是人的價值觀,算法的缺陷是價值觀上的缺陷”。
曾任職于“臉書趨勢”(Facebook Trending)的工程師喬納森·科倫承認,臉書的算法都是對人類行為的數(shù)據(jù)收集和學習,人類帶來的缺陷和偏見,連算法創(chuàng)制者都暫時無法解決。[9]在個性化新聞推送中,基于個人偏好的推薦系統(tǒng)將進一步固化“信息繭房”和“回聲室效應”,讓后真相時代的人們無視廣闊的社會現(xiàn)實,只相信自己愿意相信的東西。
隱私風險的產生因個人數(shù)據(jù)而起。算法的運行離不開數(shù)據(jù),而個性化新聞推薦、用戶分析等服務需要個人數(shù)據(jù)。無論作為一種技術目標,還是一種服務目標,搜集的個人數(shù)據(jù)越多,算法對用戶的“了解”就越準確。算法所有者可能會無視用戶的隱私保護:一方面過度搜集用戶個人數(shù)據(jù),例如將個人敏感數(shù)據(jù)納入收集范圍;另一方面對個人數(shù)據(jù)缺少有效保護,隨意流轉數(shù)據(jù),導致個人數(shù)據(jù)泄露。
路透新聞研究所《數(shù)字新聞報告2016》的數(shù)據(jù)顯示,49%的英國和美國受訪者對算法推薦影響個人隱私表示擔憂。2018年3月16日臉書爆出個人數(shù)據(jù)泄露丑聞,劍橋分析公司(Cambridge Analytica)借助2014~2015年間在臉書推出的一款心理測驗在未經(jīng)同意下盜用高達5000萬用戶的個人信息,用于美國總統(tǒng)大選時為特朗普進行精準的廣告投放,影響了選舉結果。[10]大數(shù)據(jù)時代,個人數(shù)據(jù)被多個終端、平臺所收集,被各種算法“監(jiān)視”,隱私風險隨時可能發(fā)生。雖然有人提出將個人數(shù)據(jù)處理時用匿名的方式規(guī)避隱私風險,但不可否認的是,多個匿名數(shù)據(jù)建立關聯(lián)依然可以識別出特定的個體。不讓個人數(shù)據(jù)“裸奔”,需要更有效的防護措施。
媒體聲譽是人們根據(jù)媒體的行為對媒體進行的整體性評價,是媒介主體的一項總體性的無形資產。[11]良好的聲譽是媒體重要的社會資本,能從各方面提升媒體的競爭力。
媒體聲譽的構成主要取決于專業(yè)能力和社會責任。在傳統(tǒng)媒體時代,媒體聲譽管理的重點在于記者的專業(yè)實踐。只要記者能勝任專業(yè)工作、體現(xiàn)社會責任,媒體自然就實現(xiàn)了公信力、影響力。智媒時代,算法的存在讓媒體聲譽管理變得更為復雜和不可控。作為人工物,算法不僅不能保證客觀、公正,算法帶來的失實風險、決策風險、偏見風險、隱私風險直接導致聲譽風險,這些風險在技術上是無法避免的。
美國愛德曼國際公關公司發(fā)布的《2018年全球信任度調查報告》顯示媒體是全球最不受信任的機構。尤其在西方國家,媒體的公眾信任度很低。許多媒體采用算法的動因之一是讓新聞生產“客觀”“權威”。如果媒體忽視算法風險,很可能使原本脆弱的媒體聲譽雪上加霜。2018年3月臉書個人數(shù)據(jù)泄露事件發(fā)生后,用戶對臉書的好感凈值較2017年10月下降28個百分點,總好感率為48%。[12]
算法是把“雙刃劍”,新聞業(yè)需要在創(chuàng)新和風險中找到平衡。算法風險因人而生,應對算法風險也要以規(guī)制人的行為為重點,同時應對算法風險是一個系統(tǒng)工程,筆者認為可以從4個層面著手。
法律、法規(guī)的制定永遠落后于新技術的發(fā)展,在應對和處理算法風險上,算法倫理的探討與共識應走在前列。目前國外科學技術界提出了很多涉及算法倫理的倡議,如阿西洛馬人工智能原則(Asilomar AI Principles)、美國計算機協(xié)會提出的算法透明和可責性七項原則。
新技術條件下的新聞倫理也需要做出調整,以應對不斷拓展的新聞邊界和不斷涌現(xiàn)的新技術、新問題,智媒時代的新聞倫理應是融合技術倫理的“混合倫理”,筆者認為應當用責任倫理的視角認識和構筑算法倫理,即“算法責任倫理”。
責任倫理最早由馬克斯·韋伯提出,是相對于信念倫理而言的。信念倫理的價值根據(jù)在于行為者的目的、動機和意圖,拒絕對行為的后果承擔責任。責任倫理則相反,強調行為后果的價值和意義,認為人應當積極對自己的行為承擔責任,理性而審慎地行動。[13]
在技術領域,技術員在設計程序、攻克問題時往往強調技術的工具理性和特定技術目標的達成,較少涉及價值理性。一些企業(yè)追逐開發(fā)一切技術上可能被開發(fā)的事物,忽視了技術造成的全面影響,出現(xiàn)“計算機和信息技術的非道德神話”。[14]當算法介入新聞生產時,不能因為所謂的“技術中立”,就無視責任的承擔、無視技術本身所附著的風險和價值觀。新聞生產中的算法價值觀,首先是體現(xiàn)公共利益的,而不是符合少數(shù)人的利益。英國“媒體改革同盟”2018年3月發(fā)布的《英國廣播公司的未來》報告認為,英國廣播公司(BBC)的算法邏輯應該以公共服務為目的,同時給予執(zhí)照費繳納者權利參與甚至控制算法的調整。
新聞生產的算法責任倫理體系應當包括公平、準確、透明、可解釋、可審計、責任等原則。①公平。算法運行系統(tǒng)的設計需要體現(xiàn)社會公平,考慮社會的多元性和不同的價值觀,盡可能避免因偏見的數(shù)據(jù)或偏見的算法設計導致對某一特定群體的歧視。因此算法設計的公平需要納入利益相關者(stakeholders)的利益。關于個人決策的算法都應該被評估其歧視性影響,評估的結果和標準應該被公開發(fā)布并加以解釋。[15]②準確。無論是輸入時的數(shù)據(jù)錯誤,還是輸出時統(tǒng)計上的不確定性(statistical uncertainty),算法總會存在錯誤。需要識別、記錄和測試整個算法及其數(shù)據(jù)源的誤差和不確定性。[16]③透明。讓利益相關者知道某一算法的設計意圖、設計目標、運行效率、適用條件和存在的缺陷,了解算法的運行機制和作出特定決定的原因。[17]④可解釋。算法系統(tǒng)產生的任何決策都應該向利益相關者進行解釋。這些解釋必須便于利益相關者理解,而不是用專業(yè)的技術知識“應付”利益相關者。⑤可審計。開發(fā)算法時應該允許第三方分析和檢查算法。⑥責任。遵守法律、法規(guī),如果出現(xiàn)錯誤,應由責任主體及時修復、中止服務,并及時更正,對造成的損失承擔責任。
當前部分國家和地區(qū)已將人工智能立法提上日程。2017年12月美國國會提出《人工智能未來法案》(Future of Artificial Intelligence Act of 2017),如果經(jīng)兩院通過,該法案將成為美國第一個針對人工智能的聯(lián)邦法案。紐約為了解決政務系統(tǒng)算法歧視問題于2017年12月通過了算法問責法案。2018年5月生效的歐盟 《一般性數(shù)據(jù)保護法案》(General Data Protection Regulation,GDPR)給予用戶申請某項基于算法得出結論的解釋權。中國在《新一代人工智能發(fā)展規(guī)劃》中提出要加強人工智能相關法律問題研究,開展與人工智能應用相關的民事與刑事責任確認、隱私和產權保護、信息安全利用等法律問題研究,建立追溯和問責制度,明確人工智能法律主體以及相關權利、義務和責任等。
當政務系統(tǒng)的算法成為記者的調查對象之時,應用于新聞生產中的算法同樣需要立法監(jiān)管。由于算法性質多種多樣,有基于公共利益的算法、基于商業(yè)利益的算法和二者兼具的算法,相關部門在立法時應充分考慮新聞業(yè)和新聞算法的特殊性,制定有效的監(jiān)管措施,既保障新聞生產的技術創(chuàng)新,又盡可能避免算法帶來“副作用”。
在立法中設立第三方調查機構極為必要。由于社會上大部分算法不是開源算法,第三方調查機構的設立有助于避免借調查之名侵犯知識產權事件的發(fā)生。紐約市計劃成立由自動化決策系統(tǒng)專家和受自動化決策系統(tǒng)影響的公民組織代表組成的工作組,專門監(jiān)督市政機構使用的自動決策算法的公平性、問責性和透明度。[18]
智媒時代“你相信誰的報道”將變成“你相信哪個算法”。彌合“算法知溝”,減少和規(guī)避算法風險,需要利益相關者具備算法的基本常識、批判地看待算法、提升算法素養(yǎng)。算法素養(yǎng)是公眾所具備的認識、評判、運用算法的態(tài)度、能力與規(guī)范。
新聞生產中的算法利益相關者包括:①記者和編輯。他們利用程序員開發(fā)的算法產品進行用戶分析、數(shù)據(jù)分析、輿情監(jiān)測、新聞資源整合。如《衛(wèi)報》內部的“孤兒”(Ophan)分析平臺,幫助記者、編輯簡便地處理受眾數(shù)據(jù)和分析工作。如果記者、編輯不具備算法素養(yǎng),只會使用算法程序,將使整個新聞生產過程“唯技術論”。②受眾。他們利用媒體提供的算法產品進行新聞消費或決策。如果受眾不具備算法素養(yǎng),將使其新聞消費或決策過程盲從、被動,甚至誤導。
利益相關者的算法素養(yǎng)包括三個層次:①態(tài)度層面,對算法的設計和運行原理有一定的認識,對算法本身及其結論的得出持批判態(tài)度。②能力層面,掌握常見算法的設計能力,對試驗數(shù)據(jù)、算法設計、結果輸出有一定的辨別、判斷和解釋能力。③規(guī)范層面,算法應用合理、合法,遵循專業(yè)規(guī)范和社會規(guī)范。
2018年中國將算法課程列入全國高中新課標,提高學生在程序設計、計算思維、算法方面的思維能力。在社會層面,算法素養(yǎng)應像媒介素養(yǎng)一樣,成為公眾知識素質的重要組成部分。公眾的算法素養(yǎng)提高了,對算法的迷信和盲從就少了,算法風險也就更能從容應對了。
隨著人工智能技術的發(fā)展,算法風險將成為新聞業(yè)的新常態(tài),可以預見未來因算法風險帶來的媒體聲譽風險將成為媒體風險管理、危機管理的重要議題。作為責任主體的媒體需要建立一套完善的算法風險應對機制,以減少傷害、降低損失、完善服務、挽回聲譽。
筆者認為算法風險的應對機制包括四個階段。①算法風險的預防階段。這一階段重在“預防”:通過監(jiān)督算法產品設計過程中對專業(yè)標準和新聞倫理的落實情況,將算法風險的發(fā)生幾率降到最低。②算法風險的監(jiān)測階段。這一階段重在“監(jiān)測”:設計好的算法已經(jīng)應用于新聞生產,媒體需對算法系統(tǒng)的運行制定一個風險評估標準,進行日常監(jiān)測。當發(fā)現(xiàn)算法缺陷或潛在風險時,視情況決定是否中止算法系統(tǒng)及相關服務?!敖袢疹^條”算法架構師曹歡歡表示,“今日頭條”在日常會不斷糾偏,設計、監(jiān)督并管理算法模型。③算法風險的發(fā)生與處理階段。這一階段重在“告知”:當算法風險發(fā)生后,媒體應通過各種傳播渠道“即時”告知公眾算法風險的發(fā)生,發(fā)出警示信息,并采用措施進行應對處理,如立刻停止算法系統(tǒng)的運行、解釋算法風險產生的原因、對算法缺陷進行修復、第一時間回應公眾關切。④算法風險的聲譽修復階段。這一階段重在“修復”:媒體需總結處理應對算法風險的經(jīng)驗,評估此次算法風險對媒體聲譽的影響,彌補利益相關者損失,向利益相關者進行解釋、說明,積極開展聲譽修復行動。