劉妙藝
江蘇省新華報業傳媒集團 江蘇 南京 210019
隨著人們在社交媒體平臺上花費的時間越來越多,他們更容易從社交媒體上消費信息。社交媒體是免費的,易于訪問,并幫助一個人表達意見,因此,它充當了一個很好的個人從社交媒體上消費信息的來源。但社交媒體上的新聞質量普遍低于傳統新聞機構。這是因為任何人都可以在社交媒體上傳播自己想要的信息,且沒有監管部門對信息進行控制[1]。
現在存在一些新聞核查網站來揭露假新聞。這些網站在澄清假新聞方面發揮了重要作用,但它們需要專家分析,這很耗時。由于社交媒體的數量和多樣性,幾乎不可能人工標注假新聞和真新聞。同時,社交媒體中的信息傳播速度驚人,因此需要一個框架來檢測假新聞,以方便社區研究假新聞。
我們統計了來自微博的實時數據來進行實時新聞的檢測,我們希望從微博中收集數據,因為它是中國最大的社交媒體平臺。微博擁有超過5億用戶,約有5000萬用戶是活躍用戶。
為了描述基于使用微博的實時新聞,我們使用了5W(What,Where,When,Who和Why)模型。5W模型提供了實時新聞的五個基本要素,總結如下:
(1)What。5W模型中最重要的元素是當前發生的事情。例如,如果用戶在微博中發布有關火災的消息,除了微博用戶提供的短文本外,還可以獲得圖像和短視頻等多媒體數據。例如,用戶可以在他看到火災時上傳火災的實時圖像。
(2)Where。除了檢測實時發生的事件內容外,還需要揭示實時新聞發生的位置信息。通常,人們在發布微博的同時,會標注自己所在的位置,這些位置信息可以用作定位。
(3)When。微博具有非常好的實時功能。每條微博消息都有一個時間戳,可用于揭示實時新聞的發生時間。除了發生時間,5W模型還想要顯示實時新聞的時間表。例如,在開始時事件可能處于潛在狀態。有關它的微博消息數量可能很少,只有少數人關注到它。當一些里程碑事件發生并作為頭條新聞發布在主要網站上時,事件可能處于爆發狀態,越來越多的人在談論它。當然,最后隨著事件的發展,有關它的微博消息數量可能會再次降低[2]。
(4)Who。不同的人在實時新聞中扮演不同的角色。人作為社交傳感器可以作為實時新聞的見證,因為他們位于實時新聞的現場。例如,當微博用戶拍攝發生的火災事件時,他可以被視為火災的見證人。除了見證人之外,有些人還是實時新聞的參與者。例如,一個人可能會成為搶劫事件的嫌疑人。5W模型想要挖掘提供實時新聞的見證和參與者。
(5)Why。由于實時新聞潛在的巨大影響,收集事發的原因是很重要的。用戶上傳的消息可以揭示實時新聞的原因。例如,微博用戶可能會發布消息“我看到一輛車闖紅燈撞到人了”。用戶作為證人或參與者發布的信息可用于調查實時新聞的潛在原因。
在獲取了實時新聞的5W信息之后,我們會匯集對應的新聞文本,我們利用新聞內容的語言學特征和社會語境的特征來尋找假新聞和真新聞的線索。為了在我們的分類中使用新聞內容,我們使用自動編碼器在低維度的潛在特征空間中學習新聞內容。
社交參與可能是假新聞檢測任務的另一個主要特征。社交語境提供了關于用戶如何與假新聞和真新聞互動的寶貴信息。用戶在社交媒體上的互動會隨著時間的推移而變化。為了捕捉用戶與假新聞的時間互動,我們使用了遞歸神經網絡(RNN)。像微博這樣的社交約定和他們的回復在給網絡之前,由嵌入層以一定的格式嵌入。RNN的輸出被認為是分類的社會背景特征,在我們的實驗中使用了長短期記憶(LSTM),因為它解決了長范圍依賴性和消失梯度問題[3]。
我們使用社交文章融合模型將自動編碼器和社交上下文遞歸神經網絡產生的特征結合起來,將特征學習和分類任務一起訓練,使學習的特征是相對于檢測任務而言的,而不是捕捉普通的語言差異和社會交往,為了避免過擬合,我們對并列特征進行正則化優化。
在獲取數據之后,我們通過多個界面來可視化數據。為了識別真新聞和假新聞在新聞內容上的差異,我們使用了文字數據的詞云表示,可以搜索出一個時間段內的假新聞,并識別出相關數據。另外,我們還提供了特征顯著性和模型性能的比較,作為這個儀表盤的一部分。
對于特定的地理定位,我們可以識別假新聞是如何在某些特定地區傳播的,因為收集到的某些新聞內容存在著地域性特征。使用基于用戶的網絡我們可以將社交網絡可視化,以確定與假新聞和真實新聞互動的用戶之間的差異。通過這些可視化,我們看到了社交網絡和地理位置等用戶特征之間的差異。