圖像情景文本融合的多模態模型性能策略研究

2023-06-21 19:20:21張知奇袁鑫攀曾志高

現代信息科技 2023年9期

張知奇袁鑫攀曾志高

摘? 要：針對多模態模型中基于視覺區域特征提取方法表征能力有限的問題，文章提出了一種基于圖像情景文本融合的多模態特征提取方法，并構建了圖像情景文本融合的視覺語言多模態網絡模型，簡稱OCR-ViLT，通過引入預訓練加微調的遷移學習方案，降低模型訓練成本。并經過大量實驗探究模型的輸入策略，文章建議，在跨模態檢索任務中，采取圖文比例2：3能夠獲得最優的召回率。

關鍵詞：多模態；跨模態檢索；遷移學習；OCR

中圖分類號：TP391.4? 文獻標識碼：A? 文章編號：2096-4706（2023）09-0166-04

Abstract： Aiming at the problem of limited representation ability of feature extraction method based on visual region in multi-modal model， this paper proposes a multi-modal feature extraction method based on OCR image scene text fusion， and constructs a visual language multi-modal network model for image scene text fusion， which is called OCR-ViLT for short. By introducing a pre-training and fine-tuning transfer learning scheme， the model training cost is reduced. After a large number of experiments to explore the input strategy of the model， this paper suggests that taking the image and text ratio of 2：3 could obtain the best recall rate in the multi-modal retrieval task.

Keywords： multi-modal; cross-modal retrieval; transfer learning; OCR

0? 引? 言

模態是事情經歷和發生的方式。我們生活在一個由多種模態信息構成的世界，包括視覺信息、聽覺信息、文本信息、嗅覺信息等，當研究的問題或者數據集包含多種這樣的模態信息時，我們稱其為多模態問題。研究多模態問題，是推動人工智能更好地了解和認知我們周圍世界的關鍵。對于多模態問題，我們需要充分利用多種模態間的互補性和冗余性，充分挖掘模態之間的信息，從而消除數據的異構問題帶來的挑戰。現如今比較常見的應用包括媒體描述、事件識別、多媒體檢索、視覺推理、視覺問答，等等。

如今多模態中視覺和語言的聯合領域，出現了視覺和語言預訓練模型（Vision-and-Language Pre-traing model）。這些模型通過圖文匹配和語言掩碼預測對圖像及其圖像的描述進行預訓練，并在多模態下游任務和多模態的輸入層進行微調。要輸入VLP模型，圖像-文本對需要以流的形式映射到相同的特征空間。自Krizhevsky等人[1]的研究以來，深度卷積神經網絡一直被認為是視覺模態特征提取的關鍵。Pixel-BERT[2]則不那么認為，他使用了CNN抽取圖像的特征，然后輸入到一個特征映射模塊中。該模塊的特色是，隨機的從中扣取本地區域特征，以防止過擬合。然后語言特征和視覺特征組合在一起，輸入到transformer模型中。到目前為止，大多數VLP的研究都集中在通過提高視覺特征提取的能力來提高模型性能。在實驗中，由于通常在訓練時提前緩存視覺區域特征來減輕特征提取層的負擔，所以往往會忽略大型圖像特征提取網絡的缺點。這種缺點在實際應用中很明顯。因此，現今的注意力轉移到輕量級快速視覺輸入上。最近的研究表明[3]，在將圖像輸入Transformer之前，使用簡單的線性投影可以有效的提取圖像特征。雖然這是文本的主流方法[4]，但Transformer[5]也是最近才用于圖像。Kim等人在2021年提出了Vision-and-Language Transformer（ViLT）[6]，它與以前的VLP模型的主要創新在于其輕量化的無卷積圖像輸入層。顯著減小了模型尺寸和運行耗時，同時在視覺和語言的多模態下游任務上表現出良好的性能。

當前基于深度學習的多模態算法往往只關注模態信息本身，而沒有進一步挖掘利用與圖像或者文本相關的其他信息。然而，除了圖像以及相應的圖像文字描述外，在實際生活中，圖像內容經常含有一定的文字信息和這些文字的布局信息，如果能夠高效利用圖像內出現的文本信息和布局信息，模型效果必定會更好。因此深度挖掘場景文本及布局信息使得多模態融合的特征信息更加具體，從而強化多模態間的融合，成為一個關鍵問題。

針對如何利用圖像模態的場景文本和布局信息提升模型精度的問題，我們提出了基于OCR的圖像情景文本融合的多模態特征提取方法，通過引入圖像情景文本和布局信息突出情景文本特征和強化圖像空間信息，綜合分析，預構建了基于ViLT的圖像情景文本融合的多模態網絡模型，簡稱OCR-ViLT。面對多模態模型訓練困難和訓練資源不足的情況，我們通過引入預訓練加微調的遷移學習方案，有效降低模型訓練成本。并經過大量實驗探究模型的輸入策略，使得模型在某種復雜場景下的下游任務中具有更好的優勢。綜上，我們的貢獻如下：

1）針對圖像場景文本特征提取問題，提出了一種基于圖像情景文本融合的多模態特征提取方法，利用光學掃描結合布局位置標注，提取圖像的情景文本特征。

2）提出了一種基于圖像情景文本融合的多模態網絡模型，將圖像中的情景文本融入圖像-文本聯合特征中，實驗證明圖像情景文本能夠有效提升模型的布局感知力。

3）經過大量實驗，探討OCR-ViLT分別在不同的下游任務中的輸入策略，并給出相應的建議。

1? OCR-ViLT

OCR-ViLT（VisionbyOptical Character Recognition and Language Transformer）是一種具有簡潔的體系結構的VLP模型，具有最輕量化的視覺區域嵌入方法。我們使用經過預訓練的ViT模型的Transformer權重來初始化ViLT。這種初始化方式可以利用交互層的處理視覺特征的能力，從而避免復雜的視覺嵌入，模型結構總覽如圖1所示。

根據Wonjae Kim于2020年提出的ViLT模型，如果基于Transformer的網絡模型沒有超大量的數據做預訓練，其性能甚至不如近幾年主流的基于CNN的殘差神經網絡（ResNet，何凱明），因此，在預訓練的時候可以借助富有布局信息的文本文檔等數據聯合做預訓練。接著使用MSCOCO數據集進行微調，使網絡模型與下游任務更加契合，如圖2所示。

1.1? 預訓練方法

OCR-ViLT選取經過OCR掃描的word文檔進行預訓練，它們含有足夠的富文本信息，受到Colin Raffel等人的啟發，本文采用Layout降噪任務作為預訓練任務，并將word文件進行分片處理。這樣就能在預訓練中使用沒有進行人工標注的數據。并且和常規的降噪任務不同的是，本文為模型提供了分片的位置信息，這將使模型在完成預訓練的過程中學習到布局的位置信息。實驗結果表明使用掃描后的word文檔比使用自然圖像效果更好，因為掃描后的word文檔文本密集、布局多樣，有助于模型學習各種空間線索和布局信息。

2? 實驗結果與分析

2.1? 數據集和評估方法

本文在MSCOCO和Flickr30K這兩個公共的圖像-文本多模態數據集上對OCR-ViLT進行驗證實驗。MSCOCO含有123 287個圖像、616 435個自然語言描述，Flickr30K總共包含31 000張圖像和158 915個自然語言描述。

對于性能指標。本文采用在跨模態檢索中廣泛使用的查詢問題評價指標R@K（K=1，5，10）用于性能評估，表示前k個檢索結果中相關結果數與所有相關結果數的比率。

2.2? 模型對比實驗

本文分別選取以下3種模型與OCR-ViLT進行實驗比較，它們分別是MMCA、SGRAF、COTS。其中COTS是現在的跨模態領域中的SOTA方法，并且與最新的單流模型相比，模型性能相當，但是推理速度快10 800倍。

我們在兩個廣泛使用的圖像文本數據集Flickr30K和MSCOCO上比較了我們的OCR-ViLT和最先進的方法，結果如表1所示（表中I2TRetrieval為圖像檢索文本；T2IRetrieval為文本檢索圖像）。

表1是各類算法在Flickr30K和MSCOCO數據集下的R@K指標的實驗結果，分別對給定文本的情況下檢索與文本內容匹配的圖像，和給定圖像的情況下查找與圖像內容匹配的相關文本。整體來說，本文所提的OCR-ViLT算法相較于其他對比方法無論是R@1、R@5還是R@10的檢索召回率都有一定程度的提高。

OCR-ViLT在R@1、R@5和R@10的檢索召回率指標上大大優于MMCA、SGRAF這兩種單流模型。具體而言，與最新的單流模型SGRAF相比，OCR-ViLT均取得了R@K指標的領先。

OCR-ViLT與雙流模型的對比同樣也是可圈可點。在于最近的SOTA模型COTS的對比中，可以看到在T2I Retrieval任務下，兩者的R@K性能表現不相上下，Flickr30K數據集中的R@5和MSCOCO數據集中的R@1和R@10對比COTS均有小幅度的優勢。但是在I2TRetrieval任務下，我們的OCR-ViLT-OP明顯優于COTS，MSCOCO數據集中的R@10指標領先了2.73%（96.73% VS 94.0%）。在實驗環境相同的情況下，考慮到雙流模型比單流模型的參數量要多得多，OCR-ViLT模型大小更輕量，數據利用率更高。另外，因為COTS模型在模態交互之前便提取了模態特征，說明針對視覺模態，我們所提的OCR-ViLT模型對比如今主流的基于區域的視覺特征提取方法能夠提取并學習圖像的場景文本和布局信息，突出圖像布局特征和空間特征的表達能力，強化模型的圖像感知力。

2.3? 輸入策略對比實驗

我們在MSCOCO數據集上根據不同的輸入策略對OCR-ViLT重新進行微調。我們測量了不同場景中的圖像到文本和文本到圖像檢索。我們嘗試了9種不同的圖像和文本比例場景，圖像和文本的數量分別從一逐步增加到三。結果如圖3所示。在檢索任務中，召回率率先緩慢上升，直到圖像與文本的比例為3（圖像）： 1（文本），然后開始顯著下降，然后緩慢上升。在MSCOCO數據集中的檢索任務中，采取3（圖像）： 3（文本）的輸入策略能達到最佳召回率。因此，我們認為，在多模態檢索任務中，建議使用3：3的輸入策略，可以獲得比較好的效果。

3? 結? 論

在本文中，我們研究了如何提高多模態模型視覺嵌入模塊的性能。具體而言，我們充分利用在圖像中的場景文本和布局信息，提出了一種新的融合場景文本的視覺語言預訓練模型，稱為OCR-ViLT。也就是說，我們通過百度光學掃描API分析圖像中蘊藏的場景文本，通過場景文本突出圖像布局特征和空間特征的表達能力，增強模型的視覺圖像布局感知力。

實驗表明我們的OCR-ViLT在圖像文本檢索中具有一定的有效性和高效性。實驗證明了場景文本對區域視覺的表征提取有強化作用。同時大量性能探究實驗證明圖像和文本的不同比例對OCR-ViLT的檢索性能有顯著影響。總體而言，圖像和文本的增加可以增強檢索性能。隨著比例的逐漸增加，當圖像和文本的比例達到2（圖像）： 3（文本）時，檢索性能開始顯著下降；在圖像數量相同的情況下，僅添加文本對OCR-ViLT的檢索性能的改善最為明顯；保持文本比例不變，只增加圖像，模型檢索時間成倍增加，并且檢索召回率有所降低。因此我們建議如果在訓練樣本不足或者訓練資源比較少的情況下，使用OCR-ViLT采取1：1的輸入策略可以得到很好的效果；如果訓練樣本比較充足并起訓練資源豐富的情況下，采取2：3的輸入策略可以將模型性能發揮到極致。

參考文獻：

[1] KRIZHEVSKY A，SUTSKEVER I，HINTON G E. ImageNet classification with deep convolutional neural networks [J].Communications of the ACM，2017，60（6）：84-90.

[2] HUANG Z，ZENG Z，LIU B，et al. Pixel-BERT：Aligning Image Pixels with Text by Deep Multi-Modal Transformers [J/OL].arXiv：2004.00849[cs.CV].（2020-06-22）.https：//arxiv.org/abs/2004.00849.

[3] DOSOVITSKIY A，BEYER L，KOLESNIKOV A，et al. An Image is Worth 16x16 Words：Transformers for Image Recognition at Scale [J/OL].arXiv：2010.11929 [cs.CV].（2020-10-22）.https：//arxiv.org/abs/2010.11929.

[4] DEVLIN J，CHANG M，LEE K，et al. BERT：Pre-training of Deep Bidirectional Transformers for Language Understanding [C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics：Human Language Technologies，Volume 1（Long and Short Papers）.Minneapolis：Association for Computational Linguistics，2019：4171-4186.

[5] VASWANI A，SHAZEER N，PARMAR N，et al. Attention is all you need [C]//NIPS'17：Proceedings of the 31st International Conference on Neural Information Processing Systems.Red Hook：Curran Associates Inc.，2017：5998-6008.

[6] KIM W，SON B，KIM I. ViLT：Vision-and-Language Transformer Without Convolution or Region Supervision [J/OL].arXiv：2102.03334 [stat.ML].（2021-06-10）.https：//arxiv.org/abs/2102.03334v1.

作者簡介：張知奇（1996—），男，土家族，湖南常德人，碩士研究生在讀，研究方向：深度學習下的圖文相似性獨立和跨模態檢索；通訊作者：袁鑫攀（1982—），男，漢族，湖南株洲人，副教授，博士，研究方向：信息檢索、自然語言處理、局部敏感哈希；曾志高（1973—），男，漢族，湖南株洲人，教授，博士，研究方向：機器學習，智能信息處理。

現代信息科技2023年9期

現代信息科技的其它文章: 征稿啟事; 基于STM32的智能感應式噴霧洗手消毒儀; 可感知通信質量的中繼通信機器人; 基于雙重加密的高校在線教育資源安全共享系統; 基于SpringBoot+Vue的BOM表智能生成系統設計與實現; 基于“區塊鏈-加密卡”的加密系統設計