999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于外部知識的視覺問答研究

2023-06-25 18:49:32賈少杰王雷
電腦知識與技術 2023年13期

賈少杰 王雷

摘要:視覺問答(Visual Question Answering, VQA) 是當前融合計算機視覺領域和自然語言處理領域的典型多模態問題之一,而基于知識的視覺問題回答任務要求模型具有關聯外部知識的能力,文章采用多模態數據集當作外部知識源,相比從文本知識庫中提取單模態的文本語義,多模態數據集能夠提供視覺問答所需要的多模態知識,能夠更好地利用圖像中所蘊含的知識,并將其應用到針對圖像中問題的回答中。同時,為了能夠更輕量級地進行學習,在問題文本中添加并訓練了一個前綴prompt,并且凍結了部分的預訓練模型參數,通過采用預訓練和微調指定未凍結參數的學習策略,逐步積累了基礎的多模態知識,用于進行答案的推理。最后,經實驗結果證明,文章模型在凍結預訓練模型中的大部分參數后,在VQA-V2實驗數據集中也具有較好的表現,同時在獲取到VQA-V2中的多模態外部知識后,在需要進行推理的數據集OK-VQA數據集上也取得了令人滿意的結果,擁有較高的準確率。

關鍵詞:視覺問答;prompt tuning;多模態預訓練模型

中圖分類號:TP18? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2023)13-0015-04

開放科學(資源服務)標識碼(OSID)

1 視覺問答研究的相關基礎

1.1 視覺問答的概述

多模態視覺問答作為計算機視覺與自然語言處理的一個交叉領域,近年來受到學術界多方關注,主要任務是通過給定一幅圖像以及關于該圖像的一個開放的用自然語言描述的問題,借助問題和圖像中的內容推斷出正確的答案,傳統的方法是首先將兩種模態的數據分別進行嵌入表示,之后通過特征融合的方法對不同模態的數據進行建模,在獲取到每個模態單獨的特征表示之后進行視覺問答最重要的特征融合工作,目的是將特征空間不同的各模態特征拉入同一個特征空間中,經過融合后的特征向量使用不同的目標函數約束可以得到不同的結果輸出,目前的視覺問答為了方便進行精準度的計算,普遍采用分類形式的答案,生成式的答案不利于指標評估。

視覺問答的關鍵在于不同模態之間的特征融合,特征融合根據階段的不同可以分為早期融合與晚期融合、混合融合等,早期融合指在各模態提取特征后立刻進行融合,晚期融合指分別訓練各模態的模型之后將模型輸出進行融合。早期的特征融合常采用基礎的向量運算,這種處理方法邏輯簡單、計算量較小,但最終并不能在復雜的多模態數據環境下取得很好的融合結果。

目前,常用于特征融合的多模態預訓練模型多采用Transformer 機制,通過對大量的無標簽多模態數據進行預訓練,然后在具體任務中使用少量的標注數據來進行微調,然而使用Transformer 機制計算量與代價都很大,如何能夠減少訓練參數,實現更輕量級的訓練方法也是目前的一大研究熱點。

針對需要外部知識的視覺問答,此類問答不只單純提問圖像中的內容,如圖1所示,圖中左側的問題提問金發的發型叫什么,只根據圖中的信息而不知道發型種類的話是無法推斷出是馬尾發型的。最近的大多數相關工作都基于知識庫檢索的方法,此類方法首先從龐大的外部文本知識庫中檢索相關事實,然后對知識圖進行顯式推理[1-2]。

受Ding[3]等人提出的Mukea模型的啟發,針對需要外部知識進行視覺問答的數據集OK-VQA,通過在知識庫中查詢的方法沒有能夠很好地利用多模態的外部數據,而只是利用了知識庫中的文本知識,這在多模態問答中略顯不足,通過在大規模的視覺問答數據集VQA-V2中對預訓練模型以及模型參數進行粗調,能夠很好地提取到外部的多模態知識。

1.2 Prompt在視覺問答領域的應用

Prompt中文譯作提示,是一種幫助計算機解決視覺問答中關鍵問題的提示內容,此前在NLP領域中微調prompt取得了不錯的成績,prompt一般分為兩種:人工設計的prompt以及連續的prompt, 人工設計prompt的方法通過人工設計的prompt需要額外的知識以及專家的經驗來設計,整個設計過程耗時耗力,可能會取得很好的結果但是不具有可遷移性。而連續類的可學習的prompt,需要考慮初始化、向量的長度等設置,這些設置可以在不斷的實驗過程中根據實驗結果進行調整,在NLP領域中的prompt-tuning和prefix-tuning[4]就是典型的連續類prompt的例子。

Prompt在多模態領域的使用主要目的有兩個,一是將預訓練模型更接近下游任務,二是進行更加輕量級的訓練,通過凍結預訓練模型的參數來降低訓練量,如Frozen模型[5],本文的方法主要側重prompt在輕量級訓練中的應用,在后續的內容中會介紹凍結預訓練參數進行訓練的訓練方法。

2 視覺問答模型研究

問答系統流程的研究,本文將其分為以下幾個部分進行介紹(整體流程如圖2所示),首先介紹模型的兩種模態數據輸入處理,然后介紹預訓練模型的處理,第三部分介紹答案預測部分,最后介紹粗調和精調的訓練思路。

2.1 模型輸入

模型的輸入是一張圖片以及一條涉及圖片內容的問句,第一步就是對兩種模態數據的特征提取,針對圖像可以提取出多個目標區域的位置向量以及語義向量,通過Faster-rcnn[6]獲取圖片中不同主體的特征表示,每張圖片選擇36個特征,通過Faster-rcnn后的圖片特征表示為一個2 048維的向量fi ∈ Rdf (df = 2 048),位置信息則表示為一個四維向量bi∈Rdb(db = 4)。

針對問題文本的嵌入表示,使用了預訓練模型lxmert中的LxmertTokenizer,該tokenizer與bert中的tokenizer用法相同,都是基于WordPiece[7]的嵌入方法,問句經過該嵌入方法后被表示為多個token組成的序列qi。

考慮到多模態預訓練模型在多模態信息的融合方面能力強大,采用lxmert預訓練模型進行多模態內部以及模態之間的信息建模。將fi、di以及問題文本的嵌入表示qi一同輸入經過參數凍結的預訓練模型lxmert中,就能得到問題向量Q和視覺向量V以及一個多模態融合向量cls,其中Q和V∈Rdv(dv=768)。

2.2 預訓練模型處理

Lxmert模型[8]作為典型的雙流預訓練模型,首先在單模態內進行自注意力編碼,然后設計了跨模態的注意力來學習跨模態信息,以及進行跨模態特征融合,筆者設計的Frozen模型,凍結了預訓練模型lxmert中的大部分參數,根據不同的方法凍結不同的參數進行試驗,在進行prompt訓練的過程中,凍結了預訓練模型中除視覺encoder之外的全部參數,整個粗調過程只更新預訓練中的視覺encoder以及后續的相似度矩陣和全連接等參數,參數凍結部分如圖3所示,圖中的雪花標識代表該部分參數已被凍結。

通過只更新視覺encoder來進行訓練,這種訓練的目的是使用更少的訓練參數,避免對數據量較大的預訓練模型進行大規模的參數更新。同時,將vision encoder的參數激活的目的是將圖片特征的嵌入表示拉到文本的特征空間中,減少不同模態數據表示空間之間的差異。

除此之外,筆者嘗試進行了prefix前綴訓練方法,在問題文本的嵌入表示向量之前,添加了一段與文本向量維度相同的prefix,在粗調和精調的階段凍結全部的預訓練模型的參數,只訓練prefix中的參數以及預訓練后的線性層中的參數。

2.3 答案預測

在獲取到預訓練模型的輸出之后,為了能夠更好地縮小圖片特征與文本特征之間的差距,將圖片特征與多模態關系特征進行融合,多模態輸出cls起到將視覺特征拉入文本特征空間的作用。同時,為了衡量圖片中的對象與問題中的每個詞項的相關關系,使用了一個相似度關聯矩陣M,圖中對象與問題詞項相似度越高,則被后續過程選擇中的概率越大,然后再與問題詞項進行相似度計算,選取相似度最高的融合特征。

[M = (W1Q)T(W2(V+cls))]

選取到與問題最相關的融合特征后,經過一個激活函數softmax以及top k來選取到與問題文本相似度最高的融合特征,選取到的特征經過一個全連接層,輸出維度為數據集答案詞典維度,通過在查找表中查找出最終答案,在損失函數的選擇方面,參考Mukea模型的損失函數選擇,受傳統知識圖領域中的知識嵌入方法TransE的啟發,在多模態場景中應用了類似TransE的目標損失函數來作為參數反向傳播的依據。

[LTransE =? ∑t+∈A+ ∑t?∈A? [γ+d(v+cls, t+)?d(v+cls, t?)]]

其中v+cls代表與多模態關系融合后的圖中目標向量,A+代表預測正確的答案,A-代表錯誤的答案,這個損失函數的目的是使融合后的圖中目標向量能夠更加接近正確的答案,與正確答案之間的transe距離變小。

2.4 粗調和精調

粗調和精調的整個流程即為上述的步驟,但是不同之處在于粗調是在大規模的多模態視覺問答數據集VQA-V2上進行操作的,好處在于VQA-V2的數據規模相較目標數據集更大,雖然不及外部知識庫中的開放領域的文本知識量,但是具備豐富的多模態外部知識,能夠解決文本知識模態單一,與圖片模態特征空間差距較大的問題。在進行粗調之前,去除VQA-V2中的yes/no類問題以及計數類問題,只保留包含外部知識的開放類問答對,這樣操作的目的在于去除掉不包含外部知識的訓練數據,減少對預訓練模型的干擾。

精調則是在目標數據集上再一次進行微調,經過粗調后的模型已經獲得了豐富的外部知識,可以針對某些特定的數據集進行微調,OK-VQA數據集中包含的問答是經過人工篩選的,能夠騙過基礎模型的復雜問題,只通過圖片中的信息無法推斷出答案,需要借助一些外部的知識。在針對該數據集進行精調時,該數據集的數據量比起VQA-V2數據集要小很多,所需的計算資源也相對較少,考慮在精調時,放開在粗調時固定的參數,以此取得更好的準確度。其中粗調與精調的兩個步驟均包含在下述的實驗中,包括完整的實驗模型以及針對輕量級學習的prompt和prefix微調的實驗。

3 實驗結果及分析

為了驗證視覺問答模型的可行性,本文利用VAQ-V2以及OK-VQA數據集進行相應的實驗,同時針對不同的微調方法進行了相應的對比和測試,證明了該模型的有效性。

3.1 數據集介紹

VQA-V2[9]數據集 全稱 Visual Question Answering (v2.0),是一個人工標注的、關于圖像的開放式問答數據集。回答這些問題,需要對圖像、語言以及常識都具備一定的理解力,在VQA-V2數據集中,針對每一幅圖像通常準備了三個問題,針對每個問題有10個正確的答案。

OK-VQA[10]數據集中的圖像數據來自COCO數據集,共計約8萬張訓練圖像以及4萬張測試圖像。經過兩輪的人工篩選,剔除掉了直觀上可以回答的簡單問題,原本86 700個問題最終篩選到34 921個問題。針對s數據集中的偏見問題,作者刪除掉了相同答案頻率超過五次的問答對,剩余問答對共計14 055道,包括9 009道訓練題和5 046道測試題。此外,在OK-VQA數據集上的模型準確率要遠低于VQA-V2等直觀問答數據集,因為該數據集需要外部知識進行聯合推理。

3.2 實驗環境及參數設置

本文的實驗環境選擇采用Windows操作系統和英偉達Tesla P100顯卡,深度學習框架采用PyTorch,以此對基于深度學習框架進行實驗,并利用Python語言對其進行編程。

參數設置方面:batch size設置為256,優化器選擇了adam優化器,學習率為1e-4,訓練過程進行200個epoch,得到最終的實驗數據。

3.3 結果分析

表1為OK-VQA數據集上不同方法的最終結果,表2為一部分的消融實驗以及兩種凍結參數的微調方法的最終結果。

如表1所示,完整模型在上述的實驗環境與參數設置下的準確度達到了41.01,好于OK-VQA論文中提及的基準方法MUTAN+AN等,雖然VQA-V2的外部知識遠沒有維基百科和conceptnet中的文本知識豐富,但是模型依然取得了不錯的準確度,證明了模型引入多模態外部知識的有效性。

以下是關于表2的分析:

方法2的結果為在VQA-V2進行粗調之后直接在目標數據集上進行準確度驗證,并不在目標數據集上進行微調,不包含OK-VQA中知識的模型推導能力較差,也反映了OK-VQA數據集中的問答對難度較高,需要豐富的外部知識。

方法3的結果是在凍結lxmert的全部參數且不添加任何其他結構的情況下,只訓練預訓練后的網絡結構參數。

方法4的結果是直接在目標數據集上進行精調的結果,根據準確度可以得出,通過在外部數據集上進行粗調的方式來引入外部知識是一個有效的途徑,直接精調的結果比起完整模型還有一定的差距。

方法6的prompt微調方法和方法5的prefix微調方法在準確度上的差異不大,實驗準確度在凍結大部分參數的情況下依然好于未經VQA-V2預訓練而直接在OK-VQA上微調的方法4,同時也好于完全凍結預訓練模型的方法3。

4 結束語

綜上所述,文章對目前主流的視覺問答方法進行了梳理,并提出了一種基于外部知識和多模態預訓練模型的視覺問答方法,本方法通過使用預訓練模型來進行多模態數據的融合,使用大規模視覺問答數據集VQA-V2來對模型進行一次粗調,之后再利用粗調后的模型數據在目標數據集上進行微調,這樣做能夠更好地引入多模態的外部知識。

方法的局限性在于多模態問答的訓練數據集不夠全面,VQA-V2中所包含的外部知識并沒有通用知識庫中的內容豐富,有很多視覺上相近的材料或物品無法進行有效分辨,prompt和prefix參數的初始化方面還需要繼續進行嘗試。

參考文獻:

[1] Narasimhan M,Lazebnik S,Schwing A G .Out of the box:reasoning with graph convolution nets for factual visual question answering[EB/OL].2018:arXiv:1811.00538.https://arxiv.org/abs/1811.00538.

[2] Wang P,Wu Q,Shen C,et al.FVQA:fact-based visual question answering[EB/OL].2016:arXiv:1606.05433.https://arxiv.org/abs/1606.05433.

[3] Ding Y,Yu J,Liu B,et al.MuKEA:multimodal knowledge extraction and accumulation for knowledge-based visual question answering[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).,New Orleans,LA,USA.IEEE,2022:5079-5088.

[4] Li X L,Liang P.Prefix-tuning:optimizing continuous prompts for generation[EB/OL].2021:arXiv:2101.00190.https://arxiv.org/abs/2101.00190.

[5] Tsimpoukelli M,Menick J,Cabi S,et al.Multimodal few-shot learning with frozen language models[EB/OL].2021:arXiv:2106.13884.https://arxiv.org/abs/2106.13884.

[6] Ren S Q,He K M,Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.

[7] Wu Y,Schuster M,Chen Z,et al.Googles neural machine translation system:bridging the gap between human and machine translation[EB/OL].2016:arXiv:1609.08144.https://arxiv.org/abs/1609.08144.

[8] Tan H, Bansal M. LXMERT: Learning Cross-Modality Encoder Representations from Transformers[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 2019: 5103-5114.

[9] Goyal Y, Khot T, Summers-Stay D, et al. Making the V in VQA Matter: elevating the role of image understanding in visual question answering[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 6325-6334.

[10] Marino K,Rastegari M,Farhadi A,et al.OK-VQA:a visual question answering benchmark requiring external knowledge[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).,Long Beach,CA,USA.IEEE,2020:3190-3199.

[11] Ben-younes H,Cadene R,Cord M,et al.MUTAN:multimodal tucker fusion for visual question answering[C]//2017 IEEE International Conference on Computer Vision (ICCV).IEEE,2017:2631-2639.

[12] Zhu Z,Yu J,Wang Y,et al.Mucko:multi-layer cross-modal knowledge reasoning for fact-based visual question answering[EB/OL]2020:arXiv:2006.09073.https://arxiv.org/abs/2006. 09073.

[13] Gardères F,Ziaeefard M,Abeloos B,et al.ConceptBert:concept-aware representation for visual question answering[C]//Findings of the Association for Computational Linguistics:EMNLP 2020.Online.Stroudsburg,PA,USA:Association for Computational Linguistics,2020.

【通聯編輯:唐一東】

主站蜘蛛池模板: 77777亚洲午夜久久多人| 精品国产欧美精品v| 波多野结衣一二三| 538精品在线观看| 55夜色66夜色国产精品视频| 91无码视频在线观看| 呦视频在线一区二区三区| 99er精品视频| 91福利免费视频| 亚洲乱码视频| 亚洲欧美精品在线| 91破解版在线亚洲| 国产视频a| 亚洲无限乱码| 久久黄色毛片| 中文国产成人精品久久| 日韩123欧美字幕| 91原创视频在线| 99精品国产电影| 国产精品福利一区二区久久| 草逼视频国产| hezyo加勒比一区二区三区| 日韩欧美国产综合| 国产女人18毛片水真多1| 午夜成人在线视频| 成人免费午夜视频| 日本人真淫视频一区二区三区| 国产在线视频自拍| 亚洲一级毛片免费观看| 日本人妻丰满熟妇区| h网站在线播放| 九九热精品视频在线| 国产无码精品在线播放| 四虎AV麻豆| 国产人成网线在线播放va| 91亚洲精品第一| 99热亚洲精品6码| 毛片视频网址| 亚洲人成高清| 国产黄色爱视频| 国产成人综合亚洲欧洲色就色 | 有专无码视频| 老色鬼欧美精品| 精品国产免费观看| 国产69精品久久久久孕妇大杂乱| 毛片免费观看视频| 国产日韩久久久久无码精品| 国产成人91精品免费网址在线| 三级毛片在线播放| 欧美yw精品日本国产精品| 亚洲黄色片免费看| 精品伊人久久久香线蕉| 国产欧美日韩91| 国产大全韩国亚洲一区二区三区| 欧美另类视频一区二区三区| 免费高清a毛片| 欧美翘臀一区二区三区| 国产精品久久久久久影院| 国内精品一区二区在线观看| 丁香六月激情综合| 伊人久久久久久久| 婷婷综合色| 99视频在线免费观看| 天天操精品| 久久综合成人| 日韩欧美亚洲国产成人综合| 亚洲人成网站色7799在线播放| 国产91蝌蚪窝| 久久久久青草线综合超碰| 国产拍揄自揄精品视频网站| 免费国产高清视频| 91精品情国产情侣高潮对白蜜| AV天堂资源福利在线观看| 国产不卡一级毛片视频| 色综合成人| 免费人成在线观看成人片| 国产午夜福利亚洲第一| 天堂成人av| 伊人久久影视| 国产精品欧美日本韩免费一区二区三区不卡| 91国内外精品自在线播放| 国产精品一区在线麻豆|