主流媒體算法的研究與實踐
——以封面新聞為例

2021-12-06 12:49:29徐楨虎

法治新聞傳播 2021年1期

■徐楨虎

最近幾年，技術賦能在新聞領域的土壤里蓬勃生長，已經逐漸形成了當前人工智能應用的一個重要分支。目前在新聞領域，人工智能技術應用尚處于初級階段，即“弱人工智能時代”，應用側重點聚焦在提升效率上，是對新聞的“策采編審發”生產環節中重復性較高的人力勞動的替代。較為常用的人工智能應用包括：通過全網監控熱點來篩選新聞選題，利用抓取技術獲取及時的全網信息，進行各種類型的快訊機器寫稿，算法實現自動審核校對，借助個性化推薦實現內容精準分發等。

封面新聞早在2015年就投入人工智能技術的媒體應用研究，經過5年時間與實際業務的磨合，逐漸摸索出一套適合主流媒體應用的算法模型。封面新聞推出的主流媒體算法包括內容質量、內容分發、內容傳播、內容生產四大類算法模型，已經在各個業務場景中穩定運行。

內容分發算法

內容分發算法以App應用為主要載體，包括推薦算法、相關新聞算法、搜索算法等。其中推薦算法一直處于輿論的討論熱點中。在目前主流的推薦算法中，用戶的內容閱讀習慣將成為內容推薦的主要指標，個性化內容推送讓用戶過濾掉不感興趣的信息內容，這無形間影響了用戶對于信息內容的自主選擇，導致用戶對于信息接觸面越來越狹隘、單一和固化，形成“信息繭房”效應①。用戶一旦身處其中，就會滿足于被動的知識積累，很難再接受不同的觀點，甚至在不同群體間造成溝通阻礙。2019年12 月20 日，國家互聯網信息辦公室發布了第5 號令《網絡信息內容生態治理規定》②，其中針對當前網絡信息內容服務平臺采用個性化算法推薦技術推送信息所帶來的問題，給出了一套全新的解決方案。即將算法推薦模型+人工干預+用戶自主選擇三者進行有機結合，旨在構建一個具備整體性、群體性以及個體性的網絡信息內容生態，實現信息內容的高度和寬度。

隨之而來的問題是，傳統媒體通常并不具有高水平的技術團隊進行算法研發，而互聯網資訊平臺又不具有傳統媒體那么強的信息安全敏銳性和內容生產專業性，因此適合于主流媒體的推薦算法并沒有在很大程度上達成共識。封面新聞現在應用的主流媒體推薦算法，經過了多個版本的迭代，在封面新聞App6.0 上線的為最新版本。其推薦策略與《網絡信息內容生態治理規定》的要求高度一致，即將“算法推薦模型+人工干預+用戶自主選擇”三者有機結合生成實時推薦流，確保內容的范圍、尺度可控，同時更加突出正能量信息和主流價值觀。

首先是健全人工干預機制。保證信息內容的多樣化，在推薦信息流中增加內容綠區和電子圍欄，增加媒體原創稿件和重大事件的曝光權重，限制低質量UGC 內容（用戶生產內容）進入推薦頻道，保證主流價值引導，同時也能夠彌補算法無法判斷信息內容所體現的價值傾向的弊端。人工干預機制的健全，對于算法偏見和主流媒體自身內容生產的優化也能起到重要作用。同時業務部門通過對推薦頻道各類型新聞的發稿量、曝光率、閱讀轉化率等指標進行數據分析、針對性的內容補充和算法策略優化，以達到用戶獲取信息多樣性的目的。

其次是建立用戶自主選擇機制。強化用戶的自我決定和主觀能動性，防止人類成為算法的奴隸。傳統的推薦算法僅僅是在用戶第一次使用App時，采用冷啟動的方式讓用戶進行興趣選擇。依托封面新聞的用戶分析模型，用戶不僅能實時看到個人的興趣標簽畫像，同時還能以可交互的方式自主選擇內容興趣及其權重，選擇結果會通過系統分析計算并實時生效。想要實現用戶自主選擇機制，前提是要構建一個完善的用戶標簽系統和數據倉庫，以支撐對于用戶個性化的服務應用。

最后是優化個性化算法推薦機制。個性化的算法推薦，依然是推薦系統中不可缺少的一部分。封面的推薦算法由用戶興趣分析、用戶場景分析、新聞內容分析、行為實時計算、新聞推薦召回五大模塊構成，采用算法包括：基于用戶興趣標簽的tag 算法，基于協同過濾的CF 算法，以及基于NLP 的召回算法等。個性化推薦的流程主要包含三層邏輯，第一層是內容召回，主要看重新聞內容特征的應用和搜索排序，對于文本、視頻的標簽編目是核心；第二層是興趣召回，主要根據第一層的排序結果，再與用戶的行為特征信息進行匹配；第三層主要是敏感信息的過濾，包括黑白名單以及文章分類的權重的判定，通過內容質量算法模型提供支撐。

對于內容分發來說，推薦算法是核心，而相關新聞算法和搜索算法中不僅應用到推薦的部分算法策略和具體技術，也應用了內容質量、內容傳播的一些基礎算法。

內容質量算法

內容質量算法以智能化內容生產系統“封巢”為主要載體，包括熱點聚合算法、內容審核算法、新聞標簽算法、價值判斷算法等。

熱點聚合算法通過對全網數據的抓取和分析，進行實時熱點的判斷。我們已經建立了全網抓取平臺，通過實時監測匯聚網站、微信、微博、論壇社區等各大媒體平臺內容大數據，現已經支持超過1000 個國內主流媒體的圖文、視頻源采集。可作為輿情信息匯集、區域資訊同步、記者編輯素材，支持二次編輯或自動發布，同時支持將采集資源進行敏感詞、重復度等策略過濾。結合實時采集的多平臺熱榜熱點進行分析，為編輯提供熱點選題參考。

內容審核算法包括文本審核、圖片審核、視頻審核三部分，主要是通過針對網絡抓取、UGC 內容上傳、記者采集等內容源進行AI 智能審核，通過深度學習技術自動完成文本和視頻的理解并反饋是否存在涉黃、恐暴、涉政嫌疑，同時可對視頻質量進行判斷，幫助后臺編輯快速定位需加強審核的片段，提高審核效率。同時在封巢系統的內容審核流程中加入了標注功能，內容審核算法可以進行識別準確度的自學習和迭代升級。

新聞標簽算法更多是作為基礎算法應用到內容分發中，海量的內容如何分發給目標用戶，光靠人工肯定不現實，必須要給新聞打上標簽，對于最近流行的短視頻更是需要進行精準的標簽編目。解決問題的核心就是新聞實體標簽模型和領域知識圖譜的構建，主要包括人物、地點、組織機構三大類實體。一方面新聞標題和正文中的實體存在大量的歧義現象，無論在詞法層次、句法層次，還是在語義層次和語用層次。另一方面，互聯網新的詞匯（新的人名、地名、組織機構名和專用詞匯）每一天都在不斷出現，尤其在微博、B 站等90 后、00 后使用較多的互聯網產品中，稀奇古怪的新詞和語句結構更是司空見慣，如何在內容分發中理解這些內容并分發給用戶是需要媒體進行深入研究的。除了要有編輯專門對熱搜進行追蹤，人工智能算法能起到輔助作用。需要應用到的研究技術包括了圖文視頻信息抽取、命名實體識別、實體消歧、三元組構建等，在推薦系統、搜索、相關新聞、用戶興趣標簽等業務場景都有用武之地。

內容傳播算法

內容傳播算法主要包括媒體區塊鏈算法、用戶分析算法、輿情分析算法等，這部分的算法通常都不是獨立的算法模型，而是由多個基礎算法整合應用到具體的業務場景中。

比如媒體區塊鏈算法是由智能合約算法、共識算法、哈希算法、公鑰密碼算法等基礎算法組成，目前應用在封面傳媒自主研發的區塊鏈數字內容版權存證系統里。每一篇記者創作的原創稿件，發布即“上鏈”，并生成獨一無二的存證證書，可以在封面新聞App的新聞詳情頁看到實時上鏈信息。在當前媒體行業中，數據的共享交換往往是個難題，直接開放自己的數據庫會帶來安全隱患，開放接口服務又需要自己去維護繁瑣的權限關系，目前主流的爬蟲方式面臨穩定、法律限制等諸多因素的影響。在基于區塊鏈數字內容版權存證系統的聯盟鏈中，聯盟各成員只需要經過授權就可實時獲取其他節點的數據，極大地降低了數據共享成本和復雜性。

用戶分析算法主要應用于用戶閱讀行為研究，應用到的算法包括相關分析、對應分析、聚類分析、因子分析等。我們建立了智能分析云系統，通過對用戶分類分層、事件漏斗、閱讀偏好、用戶行為路徑等各個維度提供日常數據分析能力和自動生成報表。利用數據輔助App精準運營。不僅支持對App用戶閱讀興趣、個人偏好、觀看時長、點評贊等互動信息的數據分析，提供新增用戶、用戶留存率、用戶活躍度、使用時段等維度的數據分析功能，還能夠提供對圖文、視頻、發布量、發布渠道內容傳播情況等多維度的數據分析。

體育教學并不是一種“副課”，其本身的教學有著其他學科無法替代的作用。初中體育教師應當對體育教學有著正確的理解，同時在評價上還應當做到客觀性與科學性，讓評價深入學生的內心，保障初中體育的教學成果。

作為主流新聞媒體來說，輿情分析算法是非常有必要的。通過全網抓取平臺對全網信息進行監測，當互聯網上有與話題相關的輿情產生時能及時發現，對這些輿情信息進行分析。具體可以從時間、情感、網友討論度、主題等幾個方面入手進行分析，并以此來了解輿情的情感傾向。應用到的基礎算法包括分類聚類、線性和非線性、時間序列以及決策樹等。

內容生成算法

內容生成算法主要包括機器寫作算法、視頻生成算法、文本生成算法等。傳統媒體在轉型過程中的另外一大問題是原創生產內容效率不夠。現在這個信息爆炸的時代，用戶注意力不再像以前紙媒時代那樣集中，如果媒體還是以以前的內容生產方式來做新聞App，生產內容的量級是遠遠滿足不了用戶的需求的。而UGC 平臺的大部分流量都被頭條、騰訊幾家頭部互聯網平臺所占據，再加上自媒體的興起，所以在原創內容生產上主流媒體也要擁抱人工智能技術。

利用機器撰寫時效性要求高、強調客觀事實的新聞快訊，能在時效性和產出量同時得到保證，從而使有限的人力資源能夠投入到更加專業深度的報道中去。除了在報道質量上能滿足要求之外，機器寫作的主要優勢在于極大地提升了新聞產出的效率。生成一篇新聞耗時短，可同時生成多篇新聞，機器寫作已經幫助新聞生產掙脫時間和人力的桎梏。并且技術進步正在逐步實現機器人進行基于理解的新聞創作。語法分析使語言流暢，深度學習能夠自適應多種場景、更多信息粒度和維度構建的知識圖譜、多樣化的輸出形式。

封面新聞從2016 年開始試水機器寫作，現在自研的AI 自動化寫作平臺每月寫稿量已超過50000 篇，包括文本和視頻兩種類型，寫稿的領域涉及到體育、財經、生活、科技等10 大類40 多個小類。頻道采用機器輔助編輯管理，實現了全國范圍內新聞內容的自動抓取、地理定位、智能分發。并將這些新聞接入聊天機器人語料、語音查詢功能、個性化推薦定制化寫作等多種交互渠道中去。

應用路徑

在業內提出了“主流算法”的基礎上，封面新聞進一步把主流媒體算法的概念進行了豐富和完善。在應用路徑上，需要從以下四個維度執行算法實踐的具體工作：

明確能力模型，也就是對算法本身要達到的應用能力的要求。明確哪些算法能力是需要完全自主研發，哪些能力是自身不具備可以通過先合作共建，后期再學習借鑒的。

明確產品化制定，也就是對算法在業務中的實際應用場景要制定詳細的方案，有了明確的規劃并要在具體的工作安排中同步推進情況。

明確評估體系，也就是對算法效果要有相應的評估標準，才能找準升級優化的重點。包括曝光率、點擊率、召回率等，都需要明確每次算法迭代時需要提升的指標，量化算法的效果。

扎扎實實走好這四步，主流媒體算法的構建與應用工作才能落到實處，這也絕不是一個短期內就能完成的項目，需要長時間在業務場景的實踐。以具有價值觀判斷的主流媒體算法為核心，貫穿內容質量、內容分發、內容傳播、內容生成這四大場景，這也是我們目前正在做的事情。其中智能推薦、搜索、內容審核等算法場景已經應用到多個對外輸出項目中。

注釋：

①《國家網信辦新規如何規范“算法推薦”？解讀來了！》，https：//m.sohu.com/a/361830154_181884/？pvid=000115_3w_a。