基于多模態融合的突發事件分類研究

2023-05-27 15:00:25陳錕裴雷范濤

現代情報 2023年6期

陳錕　裴雷　范濤

關鍵詞：突發事件；多模態分類；混合融合；特征抽取

ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１００８－０８２１．２０２３．０６．００３

〔中圖分類號〕Ｄ６３；ＴＰ３９１.３〔文獻標識碼〕Ａ〔文章編號〕１００８－０８２１（２０２３）０６－００２４－１１

隨著信息技術的迅猛發展，網絡已然成為當下人們所依賴的虛擬世界。據中國互聯網絡信息中心（ＣｈｉｎａＩｎｔｅｒｎｅｔＮｅｔｗｏｒｋＩｎｆｏｒｍａｔｉｏｎＣｅｎｔｅｒ，ＣＮＮＩＣ）發布的第５０次《中國互聯網絡發展狀況統計報告》中顯示，截至２０２２年６月，我國的網民規模已經達到１０５１億人次，網絡新聞用戶突破７８８億，占總體的７５０％［１］。由于網民數量規模的龐大，一旦在網絡環境中產生突發事件的新聞并傳播，其傳播速度之快、輻射面之廣極易引起群體性事件的發生，這對于社會秩序是極具破壞力的，同時也會對政府公信力和執政能力提出挑戰，網絡輿情也會在此過程中持續發酵。在中國共產黨第二十次全國代表大會中，習總書記明確指出： “要提高公共安全治理水平。堅持安全第一、預防為主，建立大安全大應急框架，完善公共安全體系，推動公共安全治理模式向事前預防轉型”［２］。《中華人民共和國突發事件應對法》也指出： “要預防和減少突發事件的發生，控制、減輕和消除突發事件引起的嚴重社會危害，規范突發事件應對活動”［３］。突發事件事態預防、輿情治理的前提工作便是對突發事件新聞進行識別分類，高效精確的分類能夠幫助相關部門搜集信息以及跟蹤其發展趨勢，當某類突發事件的新聞數量陡然上升時，政府部門就可以及時關注和處理，這不僅能提前預警，為政府采取對應的措施提供寶貴時間，也能有效避免負面輿情升溫，提升政府在人民群眾中的公信力。

突發事件的突發性、破壞性和衍生性等典型特征在傳播過程中會給社會帶來巨大的潛在威脅，因此如何快速有效地識別分類突發事件信息成為目前的研究熱點。梳理突發事件分類相關研究，可以發現以下兩個問題： ①多模態新聞在社交媒體中流行度較高［４］，從筆者粗略統計的突發事件新聞數據來看，多模態內容所占比例達到約四成左右，而現有的突發事件分類研究主要以文本模態為主［５－６］，缺乏結合多模態特征的研究，忽略了多模態信息能夠有效幫助提升突發事件分類模型性能的事實； ②在突發事件新聞中，存在模態缺失或單個文本對應多張圖片的情況，現有的多模態分類研究缺乏針對此問題的解決方案［７］。鑒于此，本文設計了一種基于多模態混合融合的突發事件分類模型（ＥｍｅｒｇｅｎｃｙＣｌａｓｓｉｆｉｃａｔｉｏｎＭｏｄｅｌｗｉｔｈＨｙｂｒｉｄＦｕｓｉｏｎ，ＥＣＭＨＦ），該模型基于預訓練的ＢＥＲＴ模型和ＶＧＧ１９模型對采集的新聞數據進行文本描述特征和圖片語義特征抽取，并對其采取級聯拼接操作構成多模態模型的輸入，最后將單模態模型和多模態模型的決策層輸出賦予權重，進一步提升整體模型的檢測性能和魯棒性，從而實現混合模態下的突發事件分類。

１研究現狀

突發事件的分類研究是應急決策系統中的關鍵環節，對于開展應急響應工作有著至關重要的作用。本節將從突發事件現有研究和多模態混合融合研究兩個方面展開述評。

１.１突發事件分類研究

如何高效精準分類突發事件信息的關鍵在于信息特征的表示和模型的學習能力，為此國內外眾多學者開展了大量研究，大體上可以分為兩個階段：第一階段是利用傳統的機器學習方法；第二階段是采用層次結構緊密的深度學習方法。在機器學習階段，學者通過自主研究設計特征提取規則來將非結構化的信息處理成形式一致的特征，再利用分類器實現進一步的分類工作。例如，ＬｉｕＹ等［８］考慮到單詞的順序和語義關系的重要性，使用可變長度的ｎ－ｇｒａｍ來表示文本特征，利用支持向量機（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ，ＳＶＭ）實現對突發事件文本分類；ＷｅｉＢＢ等［９］在公共安全三角理論的基礎上構建相應的事件規則庫，將此輸入到最大熵模型（ＭａｘｉｍｕｍＥｎｔｒｏｐｙＭｏｄｅｌ，ＭＥＭ）中進行訓練，構造出突發事件分類模型；陳國蘭［１０］采用相對詞頻、詞頻增長率和爆發詞權重來提取爆發詞特征，采用共詞分析的方法實現爆發詞聚類，以此達到突發事件識別分類的目的；張馨月等［１１］構建領域專用停用詞表后利用ＴＦ－ＩＤＦ方法抽取文本特征，再利用支持向量機在公開數據集上進行文本分類；閆宏麗等［１２］將突發事件新聞中成組出現的類別關鍵詞作為決策樹的屬性項，通過判定類別組合情況實現分類。然而，這些提取方法通常只能抽取到表層的信息特征，遺漏掉高層次的抽象語義信息，難以表達詞與詞之間的相互關系和詞序特征，同時對于高維數據的泛化學習能力較差，使得模型在識別分類的準確率上達到瓶頸階段。

近些年隨著技術和理論的不斷發展，深度學習逐漸成為研究熱點，與傳統的機器學習相比，前者更能全面地挖掘深層次的語義特征信息。深度學習是由ＨｉｎｔｏｎＧＥ等［１３］在２００６年提出的概念，主要是通過深層結構的學習模型從數據中提取出高度抽象的具備語義屬性特征的信息，解決了淺層結構網絡對復雜函數表達效果欠佳的問題，因其性能優越而被廣泛應用于自然語言處理的多個任務中，其中突發事件分類任務也因利乘便，日臻完善。例如，ＬａｉＳＷ等［１４］首先將文本特征進行詞向量處理，并將其輸入到ＲＮＮ和ＣＮＮ聯合組成的ＲＣＮＮ神經網絡中去，最后可以觀察到分本分類的效果顯著提升；ＺｈｏｕＢ等［１５］利用多個基于ＢＥＲＴ模型對特定突發事件的推文進行分類，實驗結果顯示基于ＢＥＲＴ的模型其準確率均有所上升；胡庭愷等［１６］利用ＢＥＲＴ模型抽取文本特征，采用自適應決策邊界模型來學習突發事件類別在高維語義空間上的決策邊界，該模型的有效性在公開數據集上被得以驗證；范昊等［１７］以新聞標題為研究對象，構建融合詞嵌入信息、文本特征信息和上下文信息的ＢＥＲＴ－ＴＥＸＴＣ?ＮＮ－ＢｉＬＳＴＭ模型，模型泛化能力和分類效果相較于傳統模型有明顯上升；宋英華等［５］考慮到詞語間或詞語與類別間相互關系，在關鍵詞特征的研究基礎上提出了ＤＣＬＳＴＭ－ＭＬＰ的深度學習新聞文本分類模型，以實現突發事件的識別和分類。

雖然深度學習方法在突發事件分類研究中獲得巨大成功，但從以上文獻可以看出，目前該領域的分類研究仍然局限于單模態分類，未考慮到圖片語義特征對分類模型研判性能的提升作用，從而導致特征信息捕捉不充分、模型學習能力較弱的問題。針對此問題，本文擬在突發事件分類研究中引入多模態融合思想，結合突發事件文本和對應的圖片展開分類研究。

１.２混合融合分類研究

混合融合是特征級融合和決策級融合的結合體［１８］。特征級融合指對多模態數據進行特征信息提取后將其融合在一起的方式；決策級融合是指將對數據進行推理或評估得到的初步決策信息進行融合的方式。多模態混合融合方法雖然使得模型的復雜度增加，學習難度加大，但結合了兩種策略的優勢，在深度學習模型搭建中較為常用。例如，ＬａｎＺＺ等［１９］將混合融合方法應用于多媒體事件的檢測，設計雙融合的方案解決了過擬合問題，并在該領域取得ＳＯＴＡ效果；陶霄等［２０］從文本、視覺和用戶３個特征維度切入口搭建謠言檢測模型，并在前后期融合以實現特征和決策的自動加權，最后將模型運用于微博和Ｔｗｉｔｔｅｒ數據集檢驗自身的準確率；ＨｕａｎｇＦ等［２１］利用視覺與語義內容之間的內在聯系和特征，通過混合融合框架搭建起一種新的圖文情感識別模型，即深度多模態關注融合模型；ＴａｓｈｕＴＭ等［２２］以藝術繪畫為研究對象，利用ＣＮＮ抽取圖像特征，利用ＢＥＲＴ聯動Ｂｉ－ＧＲＵ捕捉具有上下文關系的文本特征，最后進行多級融合后，構造出藝術繪畫多模態情感識別框架；ＹｕｃｅｌＣ等［２３］在情感識別領域也提出一種混合融合策略，尋找相同的潛在空間來融合視頻和音頻兩者的特征，并采用Ｄ－Ｓ證據理論來融合視聽空間和文本模態特征；張繼東等［２４］以旅游評論為研究對象，將融合后的文本表情特征以及提取的圖片特征分別放入分類器中進行反諷識別，再將二者的識別概率進行融合，構建出多模態旅游評論中反諷識別模型。

考慮到現有的突發事件分類研究中模態單一致使分類效果差、突發事件信息結構不統一導致模態缺失或單文本對應多圖片的問題，本文將在多模態思想的基礎上加入混合融合策略，即用深度學習方法提取出突發事件新聞的文本描述特征和圖像語義特征后，利用加權平均策略將指向同一條文本的所有圖片特征處理為一個特征向量，然后在前后期分別對特征信息和決策信息進行融合，并將收集的真實新聞數據輸入到模型中進行訓練和測試，以此構建起魯棒性強、分類效果優越的突發事件分類模型。

２基于多模態融合的突發事件分類模型構建

２.１模型總體架構

本文將采集的突發事件新聞數據拆分為文本數據和圖片數據，然后分別輸入到特征提取模型中進行特征提取，再將提取的文本特征和圖片特征輸入到特征融合模型中進行信息融合，最后將單模態模型和多模態模型的決策層輸出賦予對應權重，以實現混合融合策略下的突發事件分類。

具體地，構建多模態融合的突發事件分類模型ＥＣＭＨＦ，該模型由４個部分組成，分別是突發事件文本特征抽取分類模型、突發事件圖像特征抽取分類模型、突發事件多模態融合分類模型和突發事件混合融合策略，其中混合融合由前期特征融合和后期各模型決策層輸出的概率分布及對應權重組成，模型總體架構如圖１所示。在文本模塊，利用預訓練模型ＢＥＲＴ對其進行特征抽取，然后聯動ＢｉＬＳＴＭ網絡捕捉上下文語義特征信息；在圖片模塊，利用遷移學習的思想將ＶＧＧ１９卷積神經網絡作為特征抽取的基礎模型；在特征級融合模塊，采用Ｃｏｎｃａｔｅｎａｔｅ特征拼接技術融合文本特征和圖像特征；最后利用３個分類模型的決策層輸出進行權重分配，構建出ＥＣＭＨＦ模型。

２.２突發事件文本特征抽取分類模型

ＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ）［２５］是谷歌團隊的ＤｅｖｌｉｎＪ等在２０１８年提出的預訓練語言模型，因掩碼語言模型（ＭａｓｋｅｄＬａｎｇｕａｇｅＭｏｄｅｌ，ＭＬＭ）和下一句預測（ＮｅｘｔＳｅｎｔｅｎｃｅＰｒｅｄｉｃｔｉｏｎ，ＮＳＰ）的獨特設計而在眾多的自然語言處理任務中表現突出。預訓練的ＢＥＲＴ模型可以很好地提取詞語級、句子級和句子之間關系的特征，在文本分類任務［２６］、序列標注任務［２７］以及問答系統領域［２８］等都取得了很好的效果。在ＪａｗａｈａｒＧ等［２９］對ＢＥＲＴ模型的內置推理研究中表明，各編碼層學習到的特征不盡相同，從低向上分別是短語級特征、句法結構特征和語義特征，層次越高，學習到的特征就越抽象。因此，本文采用ＢＥＲＴ模型對突發事件的文本信息進行描述特征抽取，同時引入ＢｉＬ?ＳＴＭ網絡來捕捉文本中長距離的上下文語義信息，獲取能為分類提供決策的優質特征。具體流程如圖２所示。

２.３突發事件圖像特征抽取分類模型

在突發事件識別中，除文本以外，圖片同樣包含著豐富的視覺語義信息，有助于精確識別突發事件類型，因此在多模態分析過程中，圖片的特征抽取也很重要。大量研究表明，卷積神經網絡在圖像特征抽取方面卓有成效，在計算機視覺領域表現突出。本文選取ＶＧＧ１９網絡作為突發事件圖像特征抽取器，ＶＧＧ１９模型是在ＩｍａｇｅＮｅｔ數據集（含有１４００多萬張圖片，超過２萬多個分類）上進行預訓練，取最后一層作為圖像特征輸出，其優勢在于在感受也相同時，采用迭代效率更高的３×３小卷積減少參數量，增加多個非線性層來保證復雜的模型學習，同時其付出代價更?。郏常保?。

本文利用開源計算機視覺庫ＯｐｅｎＣＶ［３２］內置的ｒｅｓｉｚｅ（）函數將圖片尺寸統一設置為２２４×２２４，帶有ＲＧＢ彩色三通道，作為ＶＧＧ１９模型的輸入。再將深度學習庫Ｋｅｒａｓ中封裝的ＶＧＧ１９載入，其結構包含１６個卷積層，５個最大池化層和３個全連接層，為保證實現領域遷移下的特征學習效果，將ＶＧＧ１９模型的權重參數Ｗｅｉｇｈｔｓ設置為Ｉｍａｇｅｎｅｔ，隨后將訓練得到的特征向量輸入到以ＲｅＬＵ為激活函數的Ｄｅｎｓｅ層。為防止出現過擬合現象，增強模型泛化能力，本文加入Ｄｒｏｐｏｕｔ層隨機丟棄網絡單元，最后將結果輸入到Ｓｏｆｔｍａｘ函數中獲得圖像的分類標簽。具體模型如圖３所示。

２.４突發事件多模態融合分類模型

多模態特征融合能夠捕捉不同模態之間的信息交互，是提升多模態分類模型性能的關鍵步驟［３３］。特征融合的方式有簡單的級聯融合和加權融合，雖然特征級聯融合比較簡單，但在識別任務中也能有效提升模型性能［３４］。本文選取級聯拼接的方式來融合突發事件的文本和圖片特征，即用Ｃｏｎｃａｔｅｎａｔｅ操作將兩者聯合起來。

對于上游任務中獲取的文本描述特征Ｈ和圖片語義特征Ｖ進行拼接，得到多模態向量表示Ｍ，如式（８）所示。

３實驗與結果分析

３.１數據獲取及數據預處理

在國家標準化管理委員會發布的《突發事件分類與編碼》中將突發事件分為４類：自然災害事件、公共衛生事件、社會安全事件和事故災難事件。本文將全球網、中國法院網、百度新聞以及澎湃新聞等新聞媒體作為數據源頭，以４類事件名稱為關鍵詞檢索，采用爬蟲工具與人工結合的方法，共采集文本２１２５條，圖片２１３７張，文本與圖片存在一對多情況，數據示例如圖４所示。

對獲取的突發事件新聞進行預處理，采用以下手段措施來檢驗數據可用性和降低噪音： ①檢查圖片與文本的契合度，對圖文不符的進行剔除； ②利用Ｐｙｔｈｏｎ對文本去除特殊字符和停用詞； ③導入ＣＶ２庫檢測圖片是否可讀取和修改為２２４×２２４尺寸，對不符合要求的圖片進行剔除； ④以圖片存儲路徑字符串為基礎對象，對其進行特定修改后獲得對應文本位置，再一一對應讀??； ⑤為不同事件類型貼上數字標簽，通過ｆｉｔ＿ｔｒａｎｓｆｏｒｍ方法轉換為ｏｎｅ－ｈｏｔ形式； ⑥將清洗后的文本、圖像和標簽數據存儲為Ｐｉｃｋｌｅ文件。經過清洗篩選最終獲得符合條件的文本圖片２１１１對，各類別文本和圖片數量如表１所示，再將數據按照４ ∶１劃分為訓練集和測試集，分別為１６８８對和４２３對。

３.２實驗設計

３.２.１實驗環境及參數設置

本文的所有實驗均使用Ｐｙｔｈｏｎ３.８進行編寫運行，使用的深度學習框架為Ｔｅｎｓｏｒｆｌｏｗ２.１０.０，實驗運行設備的內存為１６.０ＧＢ，Ｉｎｔｅｌ（Ｒ）Ｉｒｉｓ（Ｒ）ＸｅＧｒａｐｈｉｃｓ顯卡，ＣＰＵ型號為Ｉｎｔｅｌ（Ｒ）Ｃｏｒｅ（ＴＭ）ｉ５－１２５００Ｈ。

在本文的ＥＣＭＨＦ模型中，ＢＥＲＴ預訓練參數使用谷歌提供的基于維基百科中文預料訓練好的模型參數，句子長度設置為１２８，若長度大于該值則從左向右截?。保玻?字符作為輸入數據，若不足則采用Ｐａｄｄｉｎｇ方法補充為０，抽取模型的ｓｅｑｕｅｎｃｅ＿ｏｕｔｐｕｔ特征作為文本特征向量表示。在ＢｉＬＳＴＭ中，將ＬＳＴＭ的Ｕｎｉｔｓ設置為１２８，優化器采用隨機梯度下降（ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ，ＳＧＤ）［３５］，學習率設置為０.００１，動量大小為０.９，同時采用Ｄｒｏｐ?ｏｕｔ技術防止模型訓練過擬合，其值設置為０.５，全連接層使用激活函數ＲｅＬＵ。利用Ｅａｒｌｙｓｔｏｐｐｉｎｇ方法監測損失值，當損失值在１０個輪次中沒有進展時自動終止訓練。ＶＧＧ１９模型訓練時設置輸入張量為（２２４，２２４，３），抽取模型最后一個全連接層輸出作為圖像特征。經多次實驗發現，文本特征抽取分類模型在訓練輪數為４５左右便穩定，故將Ｅｐｏｃｈｓ設置為５０，批次大小設置為８；圖片特征抽取分類模型Ｅｐｏｃｈｓ設置為１００，批次大小設置為８；特征融合分類模型Ｅｐｏｃｈｓ設置為２５，批次大小設置為１２８。損失函數設置為交叉熵損失函數。

經過多次動態調整權重的實驗對比，本文提出的ＥＣＭＨＦ模型在α ＝０.４、β ＝０. ４、γ ＝０.２時識別性能最好，即決策層融合階段文本分類模型輸出概率分布權重為０.４，多模態分類模型輸出概率分布權重為０.４，圖像分類模型概率分布權重為０.２。

３.２.２評價指標

本文選擇精確率（Ｐｒｅｃｉｓｉｏｎ）、召回率（Ｒｅｃａｌｌ）和Ｆ１值（Ｆ１－ｓｃｏｒｅ）來對突發事件的分類結果進行評估，精確率是衡量模型不將負類樣本預測為正的能力，召回率是衡量模型找出真樣本的能力，Ｆ１值是衡量模型的穩健能力，其值越大，模型穩健能力越強。具體計算方式如式（１２）～式（１４）所示。

其中ＴＰ表示樣本為正且預測為正，ＦＰ表示樣本為負但預測為正，ＦＮ表示樣本為正預測為負。

3.2.3基線模型

為驗證本文模型的有效性，選取以下模型作為對比的基線模型，這些模型在之前研究中都達到過優越效果，具有一定的對比性。

１）ＢＥＲＴ－ＢｉＬＳＴＭ。為驗證提出模型的有效性，本文設計ＢＥＲＴ聯動ＢｉＬＳＴＭ的對比模型來對文本特征進行抽取，后接一個維度為２５６、激活函數為ＲｅＬＵ的全連接層，以及一個分類的Ｓｏｆｔｍａｘ層。

２）ＶＧＧ１９［３６］。ＶＧＧ１９模型在眾多計算機視覺任務中取得過最優效果，為探索該模型在領域遷移后的效果，將收集的突發事件圖片數據處理后輸入模型獲得圖像語義特征，后接一個維度為２５６、激活函數為ＲｅＬＵ的全連接層，以及一個分類的Ｓｏｆｔｍａｘ層。

３）ＥＣＭＭＦ。為與混合模態模型性能對比，構建文本圖片融合的多模態分類模型，將突發事件的文本和圖片特征進行拼接，后接一個維度為２５６、激活函數為ＲｅＬＵ的全連接層和用于分類的Ｓｏｆｔｍａｘ層。

４）ＳＶＭ（ｔｅｘｔ）［１１］。ＳＶＭ在傳統的機器學習任務中性能優越，將ＢＥＲＴ模型抽取的文本特征降維后作為該模型輸入，對文本進行分類。

５）ＳＶＭ（ｉｍｇ）。將ＶＧＧ１９模型抽取的圖片特征作為ＳＶＭ輸入，對圖片進行分類。

６）ＳＶＭ（ｔｅｘｔ＋ｉｍｇ）。級聯拼接降維后的文本描述特征和圖片語義特征，作為ＳＶＭ的多模態特征輸入。

３.３實驗結果分析

本文通過在搜集的突發事件新聞數據集上實驗評估模型的性能效果，通過消融實驗和不同模型對比實驗來比較模型的評價指標以及細粒度事件上的分類效果，以此達到驗證本文提出的基于多模態融合的突發事件分類模型（ＥＣＭＨＦ）有效性的目的。

３.３.１消融實驗

為驗證本文提出模型的有效性，進行消融實驗對比，實驗結果如表２所示。

從實驗結果可以看出：在融合文本特征和圖片特征后，模型的表現均優于單模態模型的表現，驗證了信息融合策略的有效性。同時，為驗證本文提出的混合融合策略的有效性，繪制ＥＣＭＨＦ模型與單文本模態分類模型ＢＥＲＴ－ＢｉＬＳＴＭ與單圖像模態分類模型ＶＧＧ１９的分類效果對比圖，如圖５所示。在突發事件４類新聞的分類效果中，最差的是基于圖像特征的ＶＧＧ１９模型，其Ｆ１值遠低于ＢＥＲＴＢｉＬＳＴＭ模型和ＥＣＭＨＦ模型，說明突發事件新聞識別分類任務中單一的圖像語義特征在信息表征能力上比文本描述特征弱。此外，在自然災害類事件新聞中ＢＥＲＴ－ＢｉＬＳＴＭ模型分類效果最佳，比ＥＣ?ＭＨＦ模型的Ｆ１值高出０.３８％，但在事故災難、公共衛生、社會安全３類突發事件的識別分類任務中均為ＥＣＭＨＦ模型最佳，其Ｆ１值分別高出ＢＥＲＴＢｉＬＳＴＭ模型０.８８８％、１.２５５％和４.６８５％?？傮w而言，ＥＣＭＨＦ模型識別分類綜合效果最佳，說明混合融合策略極大地提升了模型在突發事件新聞上的分類性能。

３.３.２不同模型對比實驗

本文設計的其余基線模型對突發事件整體識別分類的結果如表３所示。結合表１分析，在實驗結果對比中發現：捕捉長距離雙向語義信息的ＢＥＲＴＢｉＬＳＴＭ模型性能優于ＳＶＭ模型，這說明融合文本上下文語義信息能夠提升文本分類器的識別效果。ＳＶＭ模型在圖片分類上的效果優于深層次網絡結構的ＶＧＧ１９模型，原因在于ＶＧＧ１９提取圖像語義特征屬于高維特征，且最后連接Ｓｏｆｔｍａｘ分類器，將提取的特征輸入到兩個分類器模型時，ＳＶＭ對高維特征的效果分類會比Ｓｏｆｔｍａｘ好［３７］。融合文本圖片特征的多模態突發事件識別模型（ＥｍｅｒｇｅｎｃｙＣｌａｓ?ｓｉｆｉｃａｔｉｏｎＭｅｔｈｏｄｗｉｔｈＭｕｌｔｉｍｏｄａｌＭｏｄｅｌ，ＥＣＭＭＦ）和基于ＳＶＭ的多模態識別模型均比單一模態識別模型在各項指標上略勝一籌，這充分展現出多模態融合在突發事件識別中的優勢。值得關注的是，本文提出的ＥＲＭＨＦ模型在各項指標中均達到最優效果，與次優模型相比，Ｐｒｅｃｉｓｉｏｎ高出０.４６６％，Ｒｅ?ｃａｌｌ高出０.８９８％，Ｆ１－ｓｃｏｒｅ高出０.５１％，這充分說明ＥＣＭＨＦ模型性能優越，在突發事件新聞研究中提升了分類效果。

為對比各個模型在細粒度事件上的分類性能，繪制本文單模態分類模型和多模態分類模型在具體突發事件新聞上的識別效果，得到各模型分類效果圖，如圖６所示。在自然災害類事件新聞中，識別分類效果最好的是ＢＥＲＴ－ＢｉＬＳＴＭ模型，Ｆ１值達到９９.２３１％；在事故災難類和社會安全類事件新聞中，識別分類效果最好的是ＥＣＭＨＦ模型，Ｆ１值分別為９８.６０５％、９９.２５９％；在公共衛生類事件新聞中，識別分類效果最好的是ＥＣＭＭＨ模型和ＥＣＭ?ＨＦ模型，兩者的Ｆ１值均達到９９.５７４％。在單模態文本分類中，ＢＥＲＴ－ＢｉＬＳＴＭ模型在自然災害和公共衛生事件中分類效果均優于ＳＶＭ模型，但二者在社會安全類事件新聞的分類效果遠低于其他３類事件，究其原因，筆者認為是由于訓練樣本量偏少，其訓練樣本僅為２５７對新聞數據，致使模型學習不充分，分類效果相比其他３類事件較差一點；在單模態圖片分類中，ＳＶＭ模型在自然災害類、事故災難類和社會安全類事件新聞的分類效果均優于基于ＶＧＧ１９的分類模型，但在公共衛生類事件新聞上基于ＶＧＧ１９的模型識別效果高出ＳＶＭ模型０.６１９％，但兩個模型的分類效果均遠低于文本分類效果。此外，在數據量充足的情況下，兩個模型在自然災害類和事故災難類事件新聞的識別效果仍然低于６６％，筆者對此進行圖像數據整理與核對時發現，兩類事件新聞中部分圖片在不依賴文本的情況下極難區分，例如自然災害類新聞中的火災圖片、不可抗力導致的建筑坍塌圖片與事故災害類新聞中的房屋火災圖片、撞擊導致建筑毀壞圖片，這也致使計算機在提取兩類新聞圖片特征時因相似度高存在極高的難度，導致分類模型不易區分；在多模態分類中，加入混合融合策略的ＥＣＭＨＦ模型在各類具體事件新聞識別分類效果都達到了９８.６％以上，除了在公共衛生類事件新聞中與僅融合特征的ＥＣ?ＭＭＦ模型識別效果持平外，其余各項指標均高出ＳＶＭ模型和ＥＣＭＭＦ模型，說明本文提出的模型在真實實驗數據中表現出較強的識別分類性能。

繪制ＥＣＭＨＦ模型ａｃｃｕｒａｃｙ準確率曲線和ｌｏｓｓ損失曲線，如圖７和圖８所示。從圖７中可以看出，準確率在前１０輪迭代中穩步上升，在２０輪迭代后呈現出穩定趨勢，維持在９８％以上，表明模型學習能力穩定，同時模型訓練也未出現過擬合現象。從圖８的損失曲線走勢中可以看出，迭代初期模型ｌｏｓｓ值下降趨勢明顯，表明深度神經網絡學習能力突出，在２０輪后呈現出穩定狀態，趨于收斂。

４結語

本文針對目前突發事件分類研究的模態單一、分類效果不理想的問題，同時考慮到新聞媒體中承載著形式各異的新聞，設計了一種在特征級和決策級混合融合的多模態突發事件分類模型ＥＣＭＨＦ。該模型利用預訓練的ＢＥＲＴ模型對新聞提取文本特征，引用ＶＧＧ１９模型對新聞提取圖像特征，再以此為基礎構建文本單模態、圖像單模態和特征融合多模態的分類模型，最后將各模型的結果輸出進行決策級融合。本文在真實的突發事件新聞數據集中展開實證研究，實驗結果表明，混合融合的策略能夠較好地結合前期融合和后期融合的優勢，具備一定的魯棒性和可拓展性，該方法應用于真實場景下突發事件新聞數據集所取得的分類效果均優于其他基線模型，表明ＥＣＭＨＦ模型在突發事件的分類中具有一定的優勢。盡管本文提出的模型在采集的新聞數據集上效果良好，但仍需在更多樣、更復雜的突發事件新聞環境進一步驗證，尤其在針對圖片模態的研究中，為更加精準識別出不同類別的突發事件，需要擴大樣本數據量。在未來研究中，將嘗試設計能夠有效學習突發事件多模態數據特征的算法，增強模型表示能力，從而能更為精準地判別突發事件類型。

現代情報2023年6期

現代情報的其它文章: 歐盟政府數據治理：體系建設及其經驗啟示; 面向政府數據開放共享的雙鏈存儲模型與案例應用研究; 開放政府數據用戶參與過程重構; 價值共創視角下學術數據庫知識服務模式比較研究; 我國科研誠信政策與文獻主題演化對比分析; 大模型下人工智能生成內容嵌入數字素養教育研究