當(dāng)前,全球網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理的棘手問(wèn)題是假新聞橫行、不實(shí)言論混淆視聽。智媒時(shí)代虛假內(nèi)容的生產(chǎn)與傳播也具有“智”的特征:造假手段的智能化(如深度偽造)和傳播擴(kuò)散的“擬人化”(如機(jī)器人賬號(hào))。2020年,全球84個(gè)國(guó)家有304個(gè)事實(shí)核查項(xiàng)目,項(xiàng)目數(shù)比2019年增加了近100個(gè),但與全球每天產(chǎn)生的海量虛假內(nèi)容相比遠(yuǎn)遠(yuǎn)不足。造假技術(shù)的智能化迫切需要事實(shí)核查的智能化,自動(dòng)化事實(shí)核查(Automated Fact-Checking,簡(jiǎn)稱AFC)應(yīng)運(yùn)而生。
自動(dòng)化事實(shí)核查用數(shù)字工具來(lái)識(shí)別、驗(yàn)證和回應(yīng)誤導(dǎo)性“陳述”(claims)。它的最大優(yōu)點(diǎn)在于處理速度快,如果用人工閱讀文稿和監(jiān)測(cè)電視尋找事實(shí)性“陳述”需要數(shù)小時(shí),用自動(dòng)化事實(shí)核查工具ClaimBuster只需要幾秒鐘。自動(dòng)化事實(shí)核查還可以規(guī)避某些公眾的“批評(píng)”:傳統(tǒng)的人工事實(shí)核查被視為有“黨派偏見”。在美國(guó),就有批評(píng)者認(rèn)為,事實(shí)核查網(wǎng)站PolitiFact在選擇核查事實(shí)上存在黨派偏見,更容易選擇共和黨的失實(shí)言論作為核查對(duì)象,盡管民主黨人與共和黨人的核查文章總數(shù)相當(dāng),但出自共和黨人的言論更容易被標(biāo)注為“失實(shí)”或“荒謬”。以“技術(shù)中立”面貌出現(xiàn)的自動(dòng)化事實(shí)核查可以賦予事實(shí)核查客觀、中立的形象。自動(dòng)事實(shí)核查在核查“陳述”方面有一定的成效。聯(lián)合國(guó)的研究報(bào)告顯示,一些新聞媒體和事實(shí)核查機(jī)構(gòu)利用自動(dòng)化工具,加快了新冠肺炎病毒相關(guān)的事實(shí)核查速度。
國(guó)內(nèi)學(xué)界對(duì)事實(shí)核查的關(guān)注多聚焦于傳統(tǒng)人工事實(shí)核查的流程、倫理、效果和個(gè)案研究,對(duì)自動(dòng)化事實(shí)核查的技術(shù)邏輯及其蘊(yùn)含的風(fēng)險(xiǎn)缺少關(guān)照。自動(dòng)化事實(shí)核查的核心是算法驅(qū)動(dòng),是打擊謊言和假新聞的算法治理(algorithmic governance)手段之一,但核查過(guò)程并非人工核查在技術(shù)上的“翻版”。從技術(shù)邏輯上看,人工事實(shí)核查與自動(dòng)化事實(shí)核查并非“等同”關(guān)系,人工核查所采用的“匹配”邏輯在自動(dòng)化事實(shí)核查中只是技術(shù)方法之一。計(jì)算科學(xué)家秉持的“算法形式主義”(algorithmic formalism)雖然讓算法解決問(wèn)題的思路變得清晰,讓復(fù)雜的問(wèn)題易于處理,卻讓自動(dòng)化事實(shí)核查蘊(yùn)含技術(shù)風(fēng)險(xiǎn)。
基于此,本文擬從算法技術(shù)的內(nèi)部視角深入分析自動(dòng)化事實(shí)核查的算法邏輯、內(nèi)生性風(fēng)險(xiǎn),并據(jù)此提出規(guī)避風(fēng)險(xiǎn)的舉措。
算法是為解決一個(gè)特定的問(wèn)題所采取的確定的有限步驟。解決一個(gè)問(wèn)題可以有多個(gè)算法設(shè)計(jì),算法性能可能存有差異。在自動(dòng)化事實(shí)核查問(wèn)題的解決上,算法邏輯也各不相同。
1.基于“匹配”的邏輯
自動(dòng)化事實(shí)核查中基于“匹配”的邏輯源于人工事實(shí)核查?;凇捌ヅ洹钡乃惴ㄟ壿嬍且蕴囟ǖ恼Z(yǔ)料庫(kù)為基礎(chǔ)的,當(dāng)“陳述”出現(xiàn)時(shí),系統(tǒng)自動(dòng)將其與語(yǔ)料庫(kù)的內(nèi)容進(jìn)行對(duì)比,如果匹配成功,則完成事實(shí)核查。事實(shí)核查的對(duì)象是“陳述”,而不是觀點(diǎn)。應(yīng)用這種邏輯的前提是要有一個(gè)“比對(duì)庫(kù)”——基于以往已被驗(yàn)證事實(shí)的數(shù)據(jù)庫(kù)。這是一種典型的將現(xiàn)實(shí)思路模擬為技術(shù)思路的核查方法。
2020年新冠肺炎疫情期間,“國(guó)際事實(shí)核查網(wǎng)絡(luò)”(International Fact-Checking Network)建立了一個(gè)事實(shí)核查數(shù)據(jù)庫(kù),包含超過(guò)40種語(yǔ)言的7000多個(gè)已核查“陳述”,聊天機(jī)器人WhatsApp Chatbot能夠從這個(gè)數(shù)據(jù)庫(kù)中找到匹配的“陳述”對(duì)用戶提出的關(guān)鍵字請(qǐng)求進(jìn)行核查回應(yīng)。
人工智能程序Squash可以實(shí)時(shí)匹配在事實(shí)核查系統(tǒng)ClaimReview中已有的事實(shí)核查與現(xiàn)場(chǎng)演講者的“陳述”。Squash可以將政客的言論轉(zhuǎn)錄成可搜索的文本以便查找匹配項(xiàng),幾秒鐘內(nèi)將相關(guān)的事實(shí)核查顯示在觀眾的屏幕上?!捌ヅ洹边壿嬛钥尚校且?yàn)樵诟鞣N場(chǎng)合、平臺(tái)中的失實(shí)或誤導(dǎo)性“陳述”都是重復(fù)的說(shuō)法,而這些“陳述”可能已被事實(shí)核查過(guò)了。類似的算法系統(tǒng)還有《華盛頓郵報(bào)》的“吐真者”(Truthteller)和FullFact的“實(shí)時(shí)平臺(tái)”(Live platform)。

2.基于“信源信度”的邏輯
如果不分析“陳述”內(nèi)容本身的真假,如何預(yù)測(cè)“陳述”的真假?基于“信源信度”的邏輯是一種典型的計(jì)算思維,它通過(guò)對(duì)信源可信度的判斷推論出“陳述”的可信與否。



基于“信源信度”的邏輯用整體封鎖信源的方式杜絕假新聞,看似簡(jiǎn)單粗暴,但對(duì)付自動(dòng)化的假新聞批量生產(chǎn)確實(shí)有效。
3.基于“關(guān)系”的邏輯
將“陳述”視為知識(shí),如果為真,則一定有支持它的相關(guān)知識(shí),反之則很少或沒(méi)有。自動(dòng)化事實(shí)核查的另一個(gè)邏輯在于“關(guān)系”,即尋找某一“陳述”在知識(shí)圖譜中與其他知識(shí)的關(guān)系。

4.基于“缺陷”的邏輯
人工智能技術(shù)的發(fā)展讓“深度合成”游走于“合成”和“偽造”的兩端。深度偽造成為事實(shí)核查新的核查對(duì)象。面對(duì)這種新的、足以以假亂真的文本形態(tài),傳統(tǒng)的人工識(shí)別難以應(yīng)對(duì)。如果從技術(shù)的角度去解決,則有很多突破口。因?yàn)闊o(wú)論是合成還是偽造,從數(shù)據(jù)上看都會(huì)有“缺陷”,如果能找出這類視頻在“缺陷”上的數(shù)據(jù)特征,則可以有效識(shí)別真假。


5.基于“區(qū)塊鏈”的邏輯
基于“區(qū)塊鏈”的邏輯是依靠文本上的“元數(shù)據(jù)”(如時(shí)間、地點(diǎn)、作者以及所有編輯和發(fā)布的信息)來(lái)判斷文本的來(lái)源及其是否被篡改?;凇皡^(qū)塊鏈”的邏輯需要從信息文本(圖片、文章、圖像等)的源頭開始布局,如此才能真正發(fā)揮作用。當(dāng)前,全球部分主流媒體已經(jīng)開始布局區(qū)塊鏈,通過(guò)其核查不實(shí)信息。


技術(shù)風(fēng)險(xiǎn)按生成方式可以分為外生性風(fēng)險(xiǎn)和內(nèi)生性風(fēng)險(xiǎn)。外生性風(fēng)險(xiǎn)是由技術(shù)之外的因素引發(fā)的風(fēng)險(xiǎn)。例如,使用者對(duì)于技術(shù)的誤用、誤解和濫用。內(nèi)生性風(fēng)險(xiǎn)是與技術(shù)設(shè)計(jì)本身直接相關(guān)的各類因素引發(fā)的風(fēng)險(xiǎn)。

1.誤解風(fēng)險(xiǎn)
誤解風(fēng)險(xiǎn)是指由于事實(shí)核查系統(tǒng)無(wú)法準(zhǔn)確“理解”人類語(yǔ)言而引發(fā)對(duì)“陳述”的誤解。誤解風(fēng)險(xiǎn)的產(chǎn)生是人工智能發(fā)展的階段性問(wèn)題。目前還處于弱人工智能階段,算法能夠從事的是簡(jiǎn)單的、重復(fù)的事實(shí)核查,變通性較差。




2.誤判風(fēng)險(xiǎn)
基于“信源信度”的邏輯、基于“關(guān)系”的邏輯、基于“缺陷”的邏輯,由于解決問(wèn)題的思路不直接涉及被核查的內(nèi)容本身,會(huì)產(chǎn)生誤判風(fēng)險(xiǎn)。


在基于“缺陷”的邏輯中,通過(guò)尋找視頻在生物特征上的缺陷的模式,只能在一定時(shí)期、一定階段有效,因?yàn)樯疃葌卧旒夹g(shù)正在完善,生物特征測(cè)試越來(lái)越難以發(fā)揮作用。

在弱人工智能時(shí)代,自動(dòng)化事實(shí)核查不可避免地存在缺陷。作為一種信息糾錯(cuò)機(jī)制,自動(dòng)化事實(shí)核查內(nèi)生性風(fēng)險(xiǎn)的最大后果在于損害事實(shí)核查與公眾間的信任關(guān)系。如何規(guī)避內(nèi)生性風(fēng)險(xiǎn)的產(chǎn)生,不僅是技術(shù)問(wèn)題,還需要多措并舉,在技術(shù)、把關(guān)、利益相關(guān)者和倫理等層面構(gòu)筑立體的防范體系。
1.技術(shù)層面:優(yōu)化設(shè)計(jì),減少源數(shù)據(jù)的偏差



2.把關(guān)層面:“算法+事實(shí)核查員”的人機(jī)協(xié)同模式

3.利益相關(guān)者層面:組建事實(shí)核查網(wǎng)絡(luò)
從全球范圍看,事實(shí)核查是一種公益性的新聞事業(yè)。在人工事實(shí)核查方面,全球范圍有多個(gè)項(xiàng)目進(jìn)行合作。新冠肺炎疫情期間,“國(guó)際事實(shí)檢查網(wǎng)絡(luò)”組織了“新冠肺炎病毒事實(shí)聯(lián)盟”,這個(gè)聯(lián)盟匯集了70個(gè)國(guó)家的100多名事實(shí)檢查員來(lái)更新關(guān)于新冠肺炎疾病的虛假信息的數(shù)據(jù)庫(kù)。法國(guó)的CrossCheck與34個(gè)新聞機(jī)構(gòu)及新聞專業(yè)的學(xué)生聯(lián)手,對(duì)法國(guó)總統(tǒng)大選進(jìn)行報(bào)道。2015年成立的“初稿新聞”(First Draft News)是由媒體、大學(xué)、平臺(tái)和公民組織組成的事實(shí)核查協(xié)作體,它向記者和公眾免費(fèi)培訓(xùn)相關(guān)技能。


4.倫理層面:強(qiáng)化透明和更正原則
當(dāng)算法系統(tǒng)不能保證百分之百正確時(shí),對(duì)公眾誠(chéng)實(shí)的態(tài)度非常重要。只有這樣,公眾才能給予自動(dòng)化事實(shí)核查容錯(cuò)的空間。當(dāng)然,對(duì)于系統(tǒng)開發(fā)者和使用者來(lái)說(shuō),也不能以此為借口經(jīng)常出錯(cuò)。此外,自動(dòng)化事實(shí)核查還要避免成為某些利益相關(guān)者的“工具”,行事實(shí)核查之名,做偏見、誤導(dǎo)之事。


自動(dòng)化事實(shí)核查是網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理的重要手段,不同的算法邏輯展示了從算法角度進(jìn)行事實(shí)核查的不同路徑。面對(duì)“算法形式主義”帶來(lái)的技術(shù)局限,如何規(guī)避風(fēng)險(xiǎn)、提高自動(dòng)化事實(shí)核查的效率和準(zhǔn)確性,是用技術(shù)治理技術(shù)問(wèn)題的“元命題”。當(dāng)智媒時(shí)代算法被“賦魅”時(shí),利益相關(guān)者應(yīng)當(dāng)提高算法素養(yǎng)為其“祛魅”,只有辯證、批判地看待算法在自動(dòng)化事實(shí)核查中的邏輯和效用,我們才能讓自動(dòng)化事實(shí)核查為新聞業(yè)的事實(shí)核查事業(yè)“加分”,也才能更好地參與網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理。
