


[摘 要] 為幫助公眾識別假新聞,研究使用人工智能和高級統計技術檢測假新聞,在此基礎上探討開發學生媒體素養的評估和學習工具。通過人工智能、計算語言學和高級統計,分析用戶或推特屬性是否能區分4165條糾正過拼寫錯誤的英文推文的真、假新聞,這些推文與20條匹配的相關新聞報道之一(10條真,10條假)關聯。相較而言,使用常用詞、負面情緒、更高情感激勵、更高支配力、第一人稱單數代詞、第三人稱代詞或擁有更多關注用戶的推文,是真新聞的可能性更大;使用第二人稱代詞、以無主語句開頭或使用委婉語的推文,是假新聞的可能性更大。結果表明,一些通用的預測因素(如代詞、禮貌用語、關注用戶人數等)和特定主題的預測因素(如常用詞、情緒、委婉語等)可以有效識別真假新聞。最后提出用簡單易懂的媒體素養儀表盤模擬假新聞的傳播范圍、速度和形狀,以幫助學生學習和評估自身媒體素養。
[關鍵詞] 媒體素養;假新聞;人工智能;高階統計
[中圖分類號] G424.74 [文獻標識碼] A
[文章編號] 1673—1654(2024)04—001—008
假信息往往制造聳人聽聞的謠言或偽科學概念,不僅破壞公眾對真相的判斷,還將導致公眾誤解真相或被誤導。因此,提高公眾的媒體素養極其重要。
當下偵測假信息大多采用間接方式,如檢視作者歷史和權威性、辨識作者目的、考慮多重觀點、使用注意力吸引策略等[1-2]。通過檢視作者歷史和權威性,可以識別過去的假信息或找到一連串的真信息記錄,可以用來評估當前信息的效度。然而,過去的信息并不一定能預測現在,以《209 時報》為例,該報紙發布的信息中有99%為真信息,但其中卻混雜1%難以識別的假信息,因此在大部分真信息中偵測假信息非常具有挑戰性。通過文本辨識作者目的或考慮多重觀點也有助于甄別信息真偽,但二者都需要花費大量的時間進行縝密分析,且各人詮釋也未必可靠。使用注意力吸引策略的新聞報道可能是假信息,也可能不是。當《紐約時報》等主流媒體越來越多地使用該策略時,這種策略的存在就不一定代表假信息。總之,上述間接方式雖然有助于甄別假信息,但均存在不足,因此需要采用更加直接的方法偵測假信息。
一、研究假設
基于社會元認知理論(social metacognition theory)[3]、禮貌理論(politeness theory)[4]和問題解決情境理論(the situation theory of problem solving)[5],需要考慮一些假信息(相對于真信息)在理論上的因果機制,如社群/關系、情緒和確定性程度等。有研究發現:欺騙對關系有較大損害[6],因此對假信息作者的關注人數較真信息的關注人數少;粗魯的人較少使用禮貌用語,但與受眾的關系更親近,其被信賴、接納和服從的程度也更高[4];相較于真信息作者,假信息的作者會通過較少使用禮貌用語營造親切感,從而增強受眾對自己的信賴、接納和服從[7];假信息作者還可以通過模糊焦點信息減輕責任[8],如通過使用更多的第二人稱代名詞(你、你的、你們、你們的)和更少的第一人稱代名詞(我、我的),將責任轉移到受眾方;此外,由于驗證第三人稱客觀事件比驗證主觀觀點更容易[9],假信息作者較真信息作者而言,有可能更少地使用第三人稱代名詞(他、她、他們、她們、他的、她的、他們的、她們的)。
真信息和假信息的推文在情緒基調上存在差異。以一條與COVID-19相關的新聞為例。真信息表述為“COVID-19致命。戴口罩。保障生命”。假信息表述為“你相信COVID-19的末日論?享受你的生活和自由。”由此發現:真信息推文(致命、戴、保障)表現出消極情緒、高激情/激勵和高支配力;假信息推文(享受、自由、質疑)則表現出積極情緒,低激情/激勵和低支配力[10]。
真信息和假信息推文在確定性和清晰度上存在差異。以下面兩則推文為例。真信息表述為“COVID-19致命。戴口罩。保障生命。”假信息表述為“所謂最新一代mRNA疫苗直接干預患者的遺傳物質,這是被禁止的,也是犯罪。”由此發現:真信息推文較常使用簡單的詞匯(致命、戴、口罩、保障、生命)和句子結構(名詞-動詞、動詞-名詞)[11],多數是名詞和動詞,較少形容詞或副詞,句子的意思也更加確定和清晰;假信息推文更多地使用艱澀的詞匯(mRNA、遺傳)和復雜的句子結構(復合形容詞、涉及多種介詞詞組的賓語)[5,12],且使用較多的形容詞(所謂的、最新)和副詞(直接),這些修辭和句法的使用反而降低了信息的確定性和清晰度[5,13]。
簡言之,本研究提出10條假設,表示推文中出現以下10種表述方式時,更有可能與真信息相關。
H-1:較多關注者
H-2a:沒有第二人稱代名詞
H-2b:第一人稱代詞
H-2c:第三人稱代詞
H-3:禮貌用語
H-4a:消極情緒傾向
H-4b:高情感激勵
H-4c:高情感支配力
H-5:常見詞匯
H-6:沒有不確定性詞語(如委婉語)
二、研究方法
(一)數據來源
指向新聞報道的推文經常引起人們的注意或用它們支持某種觀點,有些推文甚至可能攻擊它們鏈接的新聞,但我們收集到的數據中并未發現上述情況。
首先,使用獨立的事實查核網站(https://www.snopes.com/fact-check-ratings/)找出10條與COVID-19相關且被評為假或大部分假的新聞,這些假新聞包含有關治療或政治譴責的主張,如“用鹽水或醋漱口可以消除新冠病毒嗎?”。
其次,找到鏈接上述10條假新聞來源(如假新聞網站、Facebook或Twitter帖子)的Twitter推文。為便于比較,在《紐約時報》、路透社、英國廣播公司或美聯社找10條相同議題的真新聞。
再次,從GitHub(https://github.com/echen102/COVID-19-TweetIDs)取得2020年1月21日—2021年1月2日有關COVID-19的推特數據,用Twitter的搜尋應用程序編程接口(https://developer.twitter.com/en/docs/twitter-api/v1/tweets/post-and-engage/api-reference/get-statuses-lookup)獲得完整的Twitter元數據。在超過10億條推文中發現有16 897條鏈接到假新聞或真新聞,刪掉其中10 656條轉發及608條只有網址沒有其他文字(其中603條假新聞和5條真新聞)的推文后,剩下5 633條推文。
最后,用langid軟件(https://pypi.org/project/langid/)分辨推文是英語還是其他語言,刪掉1468條非英語推文后,余下4165條英語推文,其中有3777條鏈接到假新聞,388條鏈接到真新聞。
綜上可知,推文中假新聞的鏈接比例較高,這與過去的研究一致。在a=0.05和效應值小至0.1的情況下,2 358位推特用戶和4 165條推文的統計檢定力均大于0.99,表明樣本大小對研究和分析而言是足夠的。同時,對推文數據進行統一處理,如將推文中存在的符號(如$@#”)和多余的空格做刪除處理,將推文拆分為單詞,將字母轉為小寫,使用spaCy3.0軟件還原詞形,使用自動更正功能(https://pypi.org/project/autocorrect/)糾正拼寫錯誤。
(二)變量
確定真假新聞的值。如果推文鏈接到《紐約時報》、路透社、英國廣播公司或美聯社新聞等來源的真實新聞報道,賦值為1;如果推文鏈接到Snopes.com認證的假新聞,賦值為0。
1.用戶變量
為了更加科學、有效地分析推文數據,需要確定幾個關鍵變量,具體見下文。
與用戶相關的變量包括用戶發布的總推文數、該用戶的用戶數(關注者)以及該用戶關注的其他用戶數(關注中)。
2.文本變量
與文本相關的變量包括寫作風格和詞匯。信息屬性包括日期、寫作風格、情緒、代詞、禮貌程度和不確定性。研究人員依據美國電影和電視連續劇的英文字幕匯編5 100萬個單詞的語料庫(SUBTLEX-US語料庫),計算每個單詞的出現次數(單詞頻率)。通過上述度量標準計算常用單詞頻率,公式為:
常用單詞頻率=log(單詞頻率+1),然后再計算推文中所有單詞的平均值。
3.情緒變量
研究人員給亞馬遜Mechanical Turk網站上的1 827名美國居民付費,請他們對13 915個高頻英語單詞(其中64%是名詞,13%是動詞,23%是形容詞)的情感傾向進行評分,不包括常見的停用詞,如一個(a)、那個(the)、為了(to)[14]。參與者使用9點評分量表(1~9)在3個維度上對單詞評分,其中情感傾向范圍從消極情緒基調(如憤怒)到積極情緒基調(如歡樂),情感興奮度范圍從低情感激勵(如無聊)到高情感激勵(如熱情),情感支配范圍從低情緒自信(如服務)到高情緒自信(如控制),未對具有多種含義的單詞(多義詞)進行評分。最后,計算每條推文在情感傾向、情感激勵和情感支配方面的平均分。
4.代詞
為每條推文中是否存在代詞創建二值變量[10]。如果推文中出現“I”“me”“my”“mine”,則第一人稱單數變量賦值為1;未出現則賦值為0。如果推文中出現“you”“your”“yours”,則第二人稱變量賦值為1,未出現則賦值0。如果一條推文中出現“he”“she” “they” “him” “her” “them” “his”“their”“hers”“theirs”,則第三人稱變量賦值為1,未出現則賦值0。
5.與禮貌相關的變量
Convokit:politeness軟件能夠識別6個禮貌類別的單詞或短語,如道歉(如“對不起”)、順從(如“打擾一下”)、疑問(如“誰…?”)、感謝(如“謝謝”)、請求(如“請你”)、突兀/粗魯的開始(如“所以,你會不會”)[15]。因此,可以使用該軟件為推文創建6個同名的二值變量,即如果推文中包含道歉的單詞或短語,則賦值變量為1,未出現賦值0。
6.與不確定性相關的變量
Convokit:politeness軟件還能識別委婉(如“提議”)和假設(如“或會”)兩個類別的單詞或詞語,因此也可以使用該軟件創建這兩類變量。
(三)分析
為準確分析數據,本研究使用更簡單的統計話語分析方法[16]解決以下8個問題,見表1。
具體而言:用多層分析法(multilevel analysis)[17]比較不同作者之間信息的相似性和差異;用邏輯回歸/概率單位回歸模型(logit / probit)[18]處理離散結果;用邏輯無偏估計量(logit bias estimator)[19]處理罕見結果;用多層M-測試(multilevel M-tests)[20]處理非直接、多層中介效應;用隨機效應模型(random effects models)[21]分析跨層級互動(信息×作者);用兩階段逐步增加程序(two stage linear step-up)[22]處理大量假設的假陽性;使用拉格朗日乘數檢定(Lagrange multiplier tests)[23]比較效應值;分析子數據集以檢定數據集之間的結果是否一致(穩健性)[18]。
巢狀數據:這些數據中的推文按用戶進行組織。同一用戶的推文通常比不同用戶的推文具有更多的相似性,所以忽視這些相似性或會令回歸系數的估計準確度出現偏誤(標準差,Hansen,2022)。
離散變量:因變量是離散(如0或1;錯或對)而非連續(如高度)時,邏輯回歸可得出無偏標準差,有別于一般的最小平方回歸。例如:真實鏈接屬于二元推文變量,其值為1(鏈接真信息)或0(沒有)。因此,用多數統計軟件都包含的邏輯回歸為其建模。(面對有序離散值的有序因變量[如喜好:不喜歡、中性或喜歡],使用有序邏輯回歸處理)。
罕見結果:罕見結果(出現少于25%回合)或會令邏輯回歸結果出現偏誤,因此估算偏誤并將之移除(King amp; Zeng,2001)。
非直接效應:用單層M檢定偵測非直接效應(X→M→Y)或會令標準偏差出現偏誤。因此,用多層M檢定(MacKinnon et al.,2004),通過中介變量適切地測試非直接效應。
跨層級互動:處理巢狀數據時,不能單單將兩個變量相乘來建模跨層級變量之間的互動(如粗魯×總關注人數[推文層級和人層級],結果會出現偏誤(Hox et al.,2017)。要測試跨層級互動(又稱跨層級調節),檢視解釋變量系數的跨組別或跨時段的變化(又稱方差分量,Hox et al.,2017)。若解釋變量如粗魯的回歸系數(如βujk = βu + guk)在更高層級的單位如人(guk≠0?)之間有顯著差異,使用該更高層級的變量(如人層級的總關注人數;βujk = βu + βufollowersk)來建模回歸系數,以測試跨層級調節。
假陽性:測試很多假設會提升假陽性的風險(第一類錯誤)。使兩階段線性逐步增加程序來減少假陽性。計算機仿真結果顯示,此方法比其他13種方法更有效。
比較效應值:測試效應值是否有分別時,Wald 檢定和似然比檢定不適用于邊界點,因此采用拉格朗日乘數檢定,此方法對偏離零假設的小偏差有更大的統計效能。
穩健性:為測試結果的一致性(穩健性),進行了額外分析,檢視子數據集之間的分別(如每用戶的推文,參閱上述關于跨層級互動的部分)。
(四)解釋模型
為了確定將推文鏈接到真實新聞文章而非假新聞文章的先決條件,使用多層二進制邏輯回歸/概率單位回歸分析對用戶的每條推文進行建模。其計算公式為:P(真實_鏈接ij)=F(β0 + fj+βt用戶j +βuj寫作ij +βvj情緒ij +βwj關系ij +βxj不確定性ij +βj轉發ij+βzj互動ij)+eij。用戶j發出的推文i出現真實鏈接的概率為:通過總平均數β0的邏輯鏈接函數(F)及用戶層級和推文層級(fj,eij)的未解釋成分(殘差)得出的預估值。時間因素決定解釋變量輸入的次序。由于用戶特征比推文屬性更早存在,因此可以先輸入用戶變量的向量,如總推文數、關注者數、關注中數等。由于理解先于其他推文的上下文屬性,因此接下來輸入的是寫作變量(平均常用單詞的頻率),然后是情緒變量(情緒傾向、激勵和支配力)。由于人們重視人際關系,因此接下來輸入顯示用戶與受眾關系的單詞,如人稱代詞(第一人稱單數、第一人稱復數、第二人稱、第三人稱)和禮貌用語(道歉、尊重、疑問、感激、請和突兀/粗魯的開始)等。最后,輸入不確定性變量委婉和假設。計算F1比率,即最終模型預測的與實際真實新聞的預測準確度。
三、結果與討論
(一)結果
用戶屬性、詞匯、情感、與觀眾的關系及不確定性都與真實的新聞推文有關,其相關性見圖1。
由圖1可知:
1. 與平均值相比,關注者數量多于1000人的用戶發送真實新聞推文的概率略高(0.3%),支持假設H-1;
2.使用更常見單詞的推文比其他推文更可能是真實的新聞推文,支持假設H-5;
3.情緒屬性(傾向性、激勵、支配力)也與真實的推文有關,如負面情緒效價低1度、激勵高1度或支配力高1度的推文分別有20%、9%或13%的可能性是真實的新聞推文,支持假設H-4a、H-4b和H-4c;
4.受眾關系標記(代詞、禮貌用語)與真實的推文有關,如使用第一人稱單數或第三人稱代詞的推文分別比其他推文更可能是真實的新聞推文,支持假設H-2b和H-2c;
5.以第二人稱代詞或以突兀/粗魯開頭的推文是真新聞的機會比其他推文分別少21%或18%,支持假設H-2a和H-3;
6.有委婉語(不確定性詞語)的推文是真新聞的機會比其他推文少16%,支持假設H-6。最終模型解釋近11%的方差,F1比率為0.95。
(二)討論
與以往有關假信息的媒體素養研究專注于廣義解讀或作者不同,研究表明,特定詞匯或其他與文本相關的變量(如詞匯、情緒、受眾關系和不確定性)在整體模型中的變異性遠大于與作者相關的變量(如關注者數量)。然而,這些與文本相關的變量與假信息之間的聯系是普遍的、特定于某議題還是特定于某情境的,需要通過實證研究解答。或許假信息的情感效價、激勵和支配力與真信息截然相反,因此使它們之間的聯系方向因新聞議題改變而變化。相反,詞匯、受眾關系和不確定性反映欺騙性寫作策略,因此能更廣泛地應用。未來可進一步驗證這些后續假設。
四、研究展望
(一)假新聞的傳播分析
在個人發送推文后,這條信息是否能在人群中傳播給更多的用戶(擴散)并不確定,因此其傳播范圍、速度和形狀有所不同[24]。其中,用戶總數代表擴散范圍,令更多人變成用戶有多快(單位時間內的用戶數量)代表擴散速度。
擴散形狀在廣播和人與人之間的傳播程度方面有所不同[24]。許多用戶可能會很快參與推文,但隨著時間的推移,這樣做的人數會減少,從而產生類似于對數累積分布曲線的趨勢線,該曲線迅速上升然后逐漸放緩(廣播/外部影響),見圖2。
通常,有影響力的個人或機構傾向展示廣播式擴散(如唐納德·特朗普、英國廣播公司等)。與之相反,一些影響力低的人發布的某則引人入勝的推文更容易產生累積分布S線(人傳人/內部影響),即一開始只吸引少數關注者,但經這些關注者傳播之后,推文影響力增加直至信息在目標群眾之間飽和。采用多層擴散分析法[24]測試假信息推文(比真信息推文)的擴散是否會開始更早、擴散范圍更廣、擴散速度更快,或有更多人際間的傳播。
(二)媒體素養儀表盤
為了更科學地評估每條推文是假信息的可能性、傳播范圍和傳播速度,本研究聯合應用整合理論、統計模型和機器學習,偵測和追蹤社群內、跨社群的COVID-19假信息推文,并創建容易閱讀的儀表盤實際應用模型。具體而言:首先將由理論指導并經統計模型提煉的人工智能/機器學習系統加入社交媒體分析及報告工具箱(Social Media Analytics and Reporting Toolkit,SMART 2.0)系統[25]。SMART 2.0儀表盤運用先進的數據可視化功能,更加便于用戶互動探索和實時分析公開的推特和Instagram數據。SMART 3.0的功能進一步提升,可以實時偵測及監察COVID-19假信息在社群內和跨社群之間的擴散。如圖2所示,SMART 3.0顯示了到今天為止的每則推文的內容危險度、傳播范圍、速度和形態(實線)及預測路線(虛線),并伴隨交通燈警示水平(綠色代表低水平、黃色代表中等水平、紅色代表高水平)。具體而言,圖2展示的推文內容危險度為中等,已接觸很多人(范圍),擴散比之前緩慢(速度),因此其整體警示水平為中等。
(三)培養學生媒體素養
SMART 3.0可以幫助學生培養媒體素養,并評估學生的媒體素養。例如每條推文中標記的單詞表示更大的受眾責任(你、你的)、不確定性(相信、疑惑)、復雜性(末日論者),以及正面、低激勵、低支配情緒(享受、免費),學生由此可以了解作者創作假信息的手法。此外,SMART 3.0還展示了未標記信息并突顯選定字詞,如讓學生標個別單字的假信息手法,然后評定該信息整體上是否為真信息,從而評估學生的數字媒體素養。每個單詞或推文本質上都可以看作一道多項選擇題,并且易于用計算機自適應測試和題項反應模型實施測試、評分及分析。學生完成測試后,SMART 3.0可以實時突顯錯誤答案并指出正確的解答思路或答案,進一步說明二者的差異,以便學生進一步訓練。通過培養學生的數字媒體素養,可以幫助他們更有效地偵測假信息,從而作出更好的決策。
(注:論文原文為英文,由林思明譯為中文。)
參考文獻:
[1] Cherner T S,Curry K. Preparing Pre-Service Teachers to Teach Media Literacy:A Response to \"Fake News\" [J]. Journal of Media Literacy Education,2019,11(1):1-31.
[2] Corser K,Dezuanni M,Notley T. How News Media Literacy is Taught in Australian Classrooms? [J]. The Australian Educational Researcher,2022,49(4):761-777.
[3] Chiu M M,Kuo S W. From Metacognition to Social Metacognition:Similarities,Differences,and Learning [J]. Journal of Education Research,2009,3(4):1-19.
[4] Eelen G. A Critique of Politeness Theory [M]. Routledge,2014.
[5] Kim J-N,Grunig J E. Problem Solving and Communicative Action:A Situational Theory of Problem Solving [J]. Journal of Communication,2011,61(1):120-149.
[6] Dunbar N E,Gangi K,Coveleski S,et al. When Is It Acceptable to Lie? [J]. Communication Studies,2016,67(2):129-146.
[7] Baxter L A. An Investigation of Compliance-Gaining as Politeness [J]. Human "Communication Research,1984,10(3):427-456.
[8] Kahn M. The Passive Voice of Science [M]. Ecolinguistics Reader,2006:241.
[9] Moore M E. Third Person Pronoun Errors by Children with and without Language Impairment [J]. Journal of Communication Disorders,2001,34(3):207-228.
[10] Chiu M M,Morakhovski A,Ebert D,et al. Detecting COVID-19 Fake News on Twitter:Followers,Emotions,Relationships,and Uncertainty [J]. American Behavioral Scientist,2023.
[11] Brysbaert M,New B. Moving beyond Ku?era and Francis [J]. Behavior Research Methods,2009,41(4):977-990.
[12] Grunig J E,Kim J-N. Publics Approaches to Segmentation in Health and Risk Messaging [M] // Parrott R,ed. Encyclopedia of Health and Risk Message Design and Processing. Oxford University Press,2017.
[13] Gifford R. The Dragons of Inaction [J]. American Psychologist,2011,66(4):290-302.
[14] Warriner A B,Kuperman V,Brysbaert M. Norms of Valence,Arousal,and Dominance for 13,915 English Lemmas [J]. Behavior Research Methods,2013,45(4):1191-1207.
[15] Danescu-Niculescu-Mizil C,Sudhof M,Jurafsky D,et al. A Computational Approach to Politeness with Application to Social Factors [EB/OL]. arXiv:1306.6078,2013.
[16] Chiu M M,Lehmann-Willenbrock N. Statistical Discourse Analysis [J]. Group Dynamics:Theory,Research,and Practice,2016,20(3):242-258.
[17] Wise A,Chiu M M. Analyzing Temporal Patterns of Knowledge Construction in a Role-Based Online Discussion [J]. International Journal of Computer-Supported Collaborative Learning,2011,6:445-470.
[18] Kennedy P. Guide to Econometrics [M]. New York,NY:Wiley-Blackwell,2008.
[19] King G,Zeng L. Logistic Regression in Rare Events Data [J]. Political Analysis,2001,9(2);137-163. https://doi.org/10.1093/oxfordjournals.pan.a004868
[20] MacKinnon D P,Lockwood C M,Williams J. Confidence Limits for the Indirect Effect [J]. Multivariate Behavioral Research,2004,39(1):99-128.
[21] Hox J J,Moerbeek M,Van de Schoot R. Multilevel Analysis [M]. Routledge,2017.
[22] Benjamini Y,Krieger A M,Yekutieli D. Adaptive Linear Step-Up Procedures that Control the False Discovery Rate [J]. Biometrika,2006,93(3);491-507.
[23] Bertsekas D P. Constrained Optimization and Lagrange Multiplier Methods [M]. Academic,2014.
[24] Rossman G,Chiu M M,Mol J M. Modeling Diffusion of Multiple Innovations via Multi-Level Diffusion Curves [J]. Sociological Methodology,2008,38(1):201-230.
[25] Zhang J,Chae J,Surakitbanharn,C,et al. SMART [R]. In The IEEE Workshop on Visualization in Practice 2017(pp. 1-5). IEEE,2007.
Assessing Media Literacy:Using Artificial Intelligence and Advanced Statistics to Detect Fake News
Chiu Mingming "Lin Siming(Translator)
The Education University of Hong Kong,Hong Kong,999077
Abstract:To help the public identify fake news,research is being conducted on the use of artificial intelligence and advanced statistical techniques to detect fake news. This study uses artificial intelligence,computational linguistics,and advanced statistics to test whether user or tweet attributes can distinguish true versus fake news in 4,165 spell-checked English tweets linked to one of 20 matched COVID-19 news stories(10 true,10 fake). Tweets with common words,negative emotional valence,higher arousal,greater dominance,first person singular pronouns,third person pronouns or by users with more followers were more likely to be true. By contrast,tweets with second person pronouns,bald starts,or hedges were more likely to be fake news. The results suggest some universal predictors(pronouns,politeness,followers)and topic-specific predictors(common words,emotions,hedges). We model diffusion scope,speed and shape of fake news for a dashboard to help students learn and assess their media literacy.
Key words:Media Literacy,Fake News,AI Plus,Higher-order Statistics
(責任編輯:陳暢)