999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

跨模態數據融合綜述

2022-10-10 01:23:14祁鏵穎
軟件工程 2022年10期
關鍵詞:模態特征文本

祁鏵穎,賀 萍

(河北經貿大學信息技術學院,河北 石家莊 050061)

1 引言(Introduction)

隨著智能設備的不斷更新迭代,越來越多的人選擇在微博、抖音等社交平臺上以文本、圖像、短視頻等形式發表個人觀點。面對海量的社交媒體數據,若能夠實現其合理利用,則將在網絡監管等方面產生極大的價值。不同于特征簡單的數據拼接,數據融合不但包括數據顯示融合,而且包括數據深層次的語義交互及不同數據之間關系的建模。目前,數據融合的對象包括單模態、多模態和跨模態三種類型數據。

通過對三種不同類型數據的梳理,發現單模態數據融合主要集中于文本、圖像數據;多模態數據融合主要集中在文本、圖像、音頻和視頻等數據,包括模態的兩兩結合或者三種模態相結合;跨模態數據融合同樣是對不同模態的數據進行融合,但它通過跨模態關系抽取來獲取不同模態間的交互信息。目前,跨模態數據融合是高效利用海量媒體數據的有效手段之一。

2 單模態數據融合方法(Single-mode data fusion method)

模態是指數據的存在形式,單模態是模態中的一種形式,是對文本或圖像單獨進行處理的一種方法。以基于文本的單模態融合為例,對文本單模態數據進行處理步驟如下:(1)源數據預處理;(2)向量表示;(3)特征提取;(4)模型分類/回歸;(5)輸出結果(圖1)。

圖1 文本單模態數據融合Fig.1 Single-mode data fusion of the text

首先對源數據進行預處理,對文本進行分詞、刪除標簽、歸一化等清洗工作,并將數據序列化;然后在文本分析階段,將獲取的向量表示的文本嵌入同一維度的矩陣中,之后提取文本特征;最后經過模型的分類回歸處理得出結果。

文本特征的提取結果對文本挖掘起到至關重要的作用。PANG等人首次使用基于機器學習的方法解決文本情感分類問題,該方法使用電影評論作為數據,效果優于傳統人工標注。張慶慶等人針對特征向量維度高的問題,提出BPSO與隨機子空間方法結合的選擇性集成算法,使文本情感分類的準確率得到提升,模型具有較優的泛化能力。但是,基于機器學習的方法不能充分獲取文本信息,需要經過大量的訓練語料和復雜的樣本特征抽取的過程才能得到較準確的分類結果。隨著深度學習的發展,基于深度學習方法體系可以自動學習語義特征,避免出現龐大的特征提取過程,常用的方法如使用循環神經網絡(Recurrent Neural Networks,RNN)提取文本特征。盧強等人將非情感詞、情感詞、否定詞和程度詞等中文語法規則以正則化的形式同雙向長短期記憶網絡(Bidirectional Long Short Term Memory,Bi-LSTM)模型相結合,應用于中文文本分類。在此基礎上,盧強等人在模型中引入了注意力機制和雙向門控循環單元(Bidirectional Gated Recurrent Unit,Bi-GRU),能夠更好地提取文本關鍵信息,捕捉文本上下文語義,應用于情感分析中。YUE等人提出了一個Word2vec-BiLSTM-CNN混合模型,該模型得益于卷積神經網絡(Convolutional Neural Networks,CNN)提取特征的能力和Bi-LSTM學習文本短期雙向依賴性的特性,證明了混合網絡模型在短文本中的性能優于單一結構神經網絡,但不足之處是它需要比現有基線模型更多的訓練數據和訓練時間。

對圖像單模態數據進行處理步驟如下:(1)源數據預處理;(2)特征提取;(3)模型分類/回歸;(4)輸出結果(圖2)。

圖2 圖像單模態數據融合Fig.2 Single-mode data fusion of the image

首先對源數據進行預處理,對圖像進行去均值、標注、歸一化等清洗工作,剔除不相關的區域;然后在圖像處理階段,將獲取的向量表示的圖像嵌入同一維度的矩陣中,之后提取圖像特征作為下一層的輸入;最后經過模型的分類回歸處理得出結果。

人眼在圖像處理方面具有很大優勢,傳統的基于機器學習的視覺特征提取包括底層特征提取和中高層特征提取。COLOMBO等人在圖像和視頻數據中根據顏色、溫暖度、位置和大小等特征分割不同的區域,獲取比物體本身更高的語義層次,應用于藝術類圖片的情感分析中。僅從圖像底層特征中提取的信息是有偏差的,黃崑等人提取了圖像物理感知層、情感接受層與喜好層三層不同特征進行情感分類。隨著深度學習的發展,可以自動提取圖像特征,常用的方法如使用CNN提取圖像特征。在此基礎上,李志義等人使用改進的卷積網絡模型,將圖像的底層特征融入圖像的高層語義中,提高了情感分析的準確率和模型的泛化能力,但存在信息冗余的不足。蔡國永等人使用注意力機制以關注圖像中的顯著區域,融合高層特征和底層特征用于情感分類。

單模態數據融合的優勢與問題:單一模態的數據融合具有計算復雜度低、表達更簡練的優點,例如在線評論中短文本的情感分類有利于完成用戶的推送服務。但是現代社會的信息具有豐富的特征,僅靠單一模態往往容易造成收集信息不全面從而導致判斷的不準確性,所以多模態數據融合方法應運而生,以更好地滿足人們以圖文、音頻、視頻等多模態形式表達自己的需求。

3 多模態數據融合方法(Multi-modal data fusion method)

多模態是指兩個或兩個以上模態的各種組合形式。多模態數據融合步驟如下:(1)單模態特征提取;(2)特征融合;(3)模型分類/回歸;(4)結果輸出(圖3)。

圖3 多模態數據融合Fig.3 Multi-modal data fusion

文本、圖像、音頻是多模態研究的三種主要異構數據類型,首先提取不同數據源的特征;然后將提取到的不同特征進行融合,在融合階段可以采用特征級融合、決策級融合、混合融合三種不同的融合方式;最后進行模型分類、回歸等操作得出結果。

3.1 基于顯式融合方式的多模態融合

特征級融合是對從原始數據中提取的特征信息進行融合的一種方式,適用于模態之間高度相關的情況。YANG等人采用特征級融合的方法對音頻和視頻特征進行處理,用于語音識別,但存在特征提取難度大的不足,并不是最理想的融合方法。隨著深度學習的發展,林淑瑞等人分別采用特征級融合和決策級融合對音頻和視頻進行融合,應用于情感分析研究,證明了多模態融合優于單模態融合,且決策級融合結果略高于特征級融合結果,但當特征數量增大時,很難獲得不同特征之間的交叉相關性。模糊推理法、產生式規則法等都是特征級融合的常見方法。

決策級融合是對數據經過進一步評估或推理得到的局部決策信息進行融合的一種方式。決策級融合可以融合異質數據,但存在容易造成信息損失的缺點。謝豪等人充分挖掘圖文之間的相似性信息,運用多層語義決策級融合模型,對社交媒體中的圖文進行情感分類。周紅標在單一模態情感識別的基礎上,將基于隱馬爾可夫的語音情感識別結果和基于最小二乘支持向量機的脈搏情感識別結果進行決策級融合,使情感分類準確率大大提高。貝葉斯概率推理法、D-S證據推理法等都是決策級融合的常見方法。

混合融合是上述特征級融合和決策級融合的結合,它保留了上述兩種融合策略的優勢,但同時也使模型更加復雜,學習難度加大。由于深度學習模型具有靈活性和多樣性的結構特點,比較適合使用混合融合方法,但也需要根據具體問題選擇最合適的融合方法。例如,周新民等人提出了一種深度多模態融合模型,該模型兼顧特征級融合、決策級融合及混合融合多層級數據融合方式,實現了多模態數據的有效融合。混合融合一般應用于網絡安全、遙感影像等領域。

3.2 基于隱式融合方式的多模態融合

與簡單的向量整合操作(如元素相加或拼接)只考慮多模態特征之間的簡單相關性不同,雙線性池化方法由于兩模態之間的二階相互作用而成為信息融合研究的關鍵。但是,直接使用雙線性池化方法會導致學習參數和計算資源的急劇增加,針對這一問題,人們提出了多種解決方法,如多模態緊合型雙線性池化(MCB)、多模態低秩雙線性池化(MLB)、多模態因子化雙線性池化(MFB)和多模態Tucker Fusion(MUTAN)。

條件隨機場在自然語言處理方面具有較好的效果,廣泛應用于標注場景。為提高多模態數據分類效果,JIANG等人提出了一種基于監督學習的多模態數據分類方法——多模態隱條件隨機場(Multi-modal Hidden Conditional Random Field,M-HCRF),捕捉輸入數據的潛在信息,從而促進多模態數據的分類。

多模態情感分析是一個越來越受歡迎的研究領域,它將傳統的基于語言的情感分析定義擴展到一個多模態設置,其中其他相關的模式伴隨著語言。ZADEH等人針對在線視頻中口語的不穩定特性及伴隨的手勢和聲音問題,引入一種新的張量融合網絡模型,融合語言、視覺和聽覺,應用于情感分析中。實驗證明,張量融合能較好地保留多模態數據中各模態之間的交互信息,但存在信息冗余的不足。

近年來,在自然語言處理過程中,注意力機制得到了廣泛應用。得益于深度學習的發展,郭可心等人以文本內容為驅動,充分利用圖像的中低層特征,并在多層圖像特征中引入注意力機制,從多個角度挖掘圖文之間的情感共現,但其只在單一模態中使用注意力機制,忽略了不同模態間的交互作用。范濤等人提出一種基于多模態聯合注意力機制模型,即通過詞引導的注意力機制引導圖像注意,使用圖像引導的注意力機制引導詞注意,將文本和圖像進行融合,應用于網民情感分析,相對減少了冗余與噪聲。

多模態數據融合的優勢與問題:與傳統的單一模態相比,多模態數據融合負責將多個模態的信息進行有效整合,提供了更加豐富的信息,且信息之間具有互補的優勢。但因為每種模態數據看待事物的角度不同,所以存在一些交叉,要想保存各模態信息與各模態間的交互信息,就必然造成數據的冗余,由此跨模態應運而生。

4 跨模態數據融合方法(Cross-modal data fusion method)

隨著人工智能的發展,跨模態數據融合逐漸走進人們的視野。跨模態數據融合步驟如下:(1)跨模態關系抽取;(2)各模態特征提取;(3)跨模態特征融合;(4)模型分類/回歸;(5)輸出結果(圖4)。跨模態數據融合主要是文本、圖像和音頻的融合,首先從源數據中進行跨模態關系抽取,獲取各個模態的交互信息;其次結合模態本身得到相互獨立的文本特征、音頻特征、圖像特征,得到的特征更加全面、準確,這是對多模態的精簡和補充,結果也更準確;最后將得到的各模態特征進行融合,應用于情感分析等眾多領域。

圖4 跨模態數據融合Fig.4 Cross-modal data fusion

4.1 基于深度學習的跨模態融合

CNN因其無須手動提取特征,權值共享且可以直接輸入網絡的優勢,被廣泛應用于語音識別和圖像處理中,而跨模態融合的核心任務在于跨模態關系抽取和聯合特征學習。2016 年,AlphaGO戰勝李世石,深度學習得到迅猛發展,蔡國永等人最早使用CNN對圖文進行情感預測,并將結果通過決策級融合后進行分類,但圖像和文本的表達具有差異。在此基礎上,申自強針對圖文之間情感互斥問題提出一種基于圖文融合的跨模態社交媒體方法,使用CBOW(Continuous Bag of Words)和CNN分別提取文本與圖像特征,但該方法只是提取了圖像中的高級語義特征,而中、低級語義特征同樣影響著情感分類的準確性。針對這個問題,陳巧紅等人在圖像特征提取中利用VGG13網絡外接卷積層,分別獲取高、低、中層次的圖像特征,對文本圖像進行跨模態融合,應用于情感分析。

21 世紀初,RNN發展為深度學習算法之一,LSTM作為RNN的變形,克服了RNN長期依賴的缺點。安迅利用LSTM提取文本特征,使其擁有更強的記憶功能,對文本特征和圖像特征進行跨模態的特征對齊,使用Softmax進行情感分類。雖然LSTM能夠保留較長時間的信息,但是文本的語義同時與上下文有著密切聯系。針對這類問題,陳巧紅等人利用BERT詞嵌入加Bi-GRU提取文本特征,GRU通過添加更新門與重置門,能夠對輸入的時序信息選擇性地保留與遺忘,從而捕捉到重要的長期信息。同時Bi-GRU更好地結合了文本的上下文語義,將文本特征和圖像特征進行注意力融合,應用于情感分析中,但存在計算復雜度大的問題。

深度學習雖然可以提取復雜的數據特征,但是會出現梯度消失的問題,使用殘差網絡可以使神經網絡的層數超越之前的約束,達到幾十層、上百層甚至上千層,為高級語義特征提取和分類提供了可行性。王茂等人使用LSTM提取問題詞特征,使用ResNet-152提取圖像特征,并利用改進的殘差通道自注意力增強圖像特征,將圖文特征進行跨模態動態融合,應用于視覺問答領域,提高了視覺問答的準確性。在此基礎上,吳瓊在圖像特征提取時使用預訓練的152 層殘差網絡,在文本特征提取時使用LSTM,將圖文兩種特征進行拼接,再與圖像的局部和全局特征加權求和,得到最終的視覺表示;接著通過緊湊雙線性融合,對融合后特征進行跨模態的情感分類,從文本、圖像及二者融合三方面研究情感變化,融合結果更加準確,但增加了計算的復雜度。

4.2 基于注意力的跨模態融合

在深度學習中引入注意力機制是使機器更貼合人類行為的重要方法,最早是在圖像情感分析中應用注意力機制。針對傳統的單模態情感分析存在的不足且在特征提取時容易忽略重要特征的情感信息的問題,陳小敏等人提出一種基于注意力機制的TAI-CNN(Text And Image-Convolutional Neural Networks)圖文跨模態情感分類方法,解決了上述問題,但該模型仍存在改進空間。陳巧紅等人提出一種基于多層跨模態注意力融合的圖文情感分析模型,如圖5所示。

圖5 多層跨模態注意力融合模型Fig.5 Multi-layer cross-modal attention fusion model

該模型使用Bi-GRU完成對文本情感的表示,并使用軟注意力機制給予文本中表示情感的關鍵詞更多的權重;使用VGG13網絡外接卷積層,獲取不同層次的圖像特征,將文本特征與多層圖像特征進行注意力融合,并將圖文融合特征輸入多層感知機及Softmax分類器進行情感分類。但基于情感分析的跨模態融合不應只局限于文本和圖像之間,王雨竹等人針對文本、視覺、音頻三種模態,結合跨模態上下文信息并使用注意力機制過濾冗余信息,將融合信息應用在情感分析領域。

跨模態數據融合的優勢與問題:跨模態數據融合與多模態數據融合相比,兩者的相同之處是數據都來自所有模態,兩者的差別是跨模態融合的數據只用于某一個模態,而多模態融合的數據用于所有模態。融合后的跨模態數據相比于單一模態數據具有去冗余、全面、多元及互補的優點,從而實現數據的合理有效利用。今后跨模態數據融合會不斷得到改進,獲得全面發展。

5 跨模態的應用(Cross-modal applications)

5.1 在跨模態圖文檢索上的應用

跨模態圖文檢索能更好地豐富用戶對同一事物的認知,如以文搜圖或以圖搜文,其核心任務是特征提取和語義相似性度量。為提高跨模態圖文檢索的精度和速率,朱路等人提出了一種基于語義自編碼哈希學習的跨模態檢索方法,不僅減小了不同模態數據之間的異構鴻溝,而且降低了存儲空間。當在檢索中出現新數據時,會使計算量大大增加,江朝杰等人針對檢索數據的不斷迭代,提出增量跨模態檢索方法,實驗證明其在新增類樣本集上具有良好的檢索精度。

隨著網絡數據表現形式越來越多樣化,跨模態圖文檢索逐漸成為研究熱點。跨模態圖文檢索具有檢索精度高和應用范圍廣等優勢,目前主要應用于公安領域輿情分析、個性化推薦、醫學數據存儲等方面。減小跨模態之間的語義鴻溝仍是未來的一個研究方向。

5.2 在推薦系統上的應用

推薦系統最早的一個獨立研究領域是新聞推薦,目前還有很大的發展空間。滑瑾從跨模態語義分析的角度展開研究,通過引入外部信息源,解決了現實網絡中的數據稀疏問題,完成高質量推薦。推薦系統性能優越的關鍵就是了解用戶的潛在興趣,賈冬柏從跨模態角度對用戶興趣進行分析,結合艾賓浩斯遺忘曲線,提出構建基于興趣衰減和多模態特征融合的興趣挖掘模型來獲取用戶興趣所在,實現微博用戶個性化推薦。

跨模態數據在推薦系統中的應用使推薦精準度得到提升,目前,基于跨模態數據融合的推薦系統得到了信息檢索、計算機視覺等多個學科研究者的關注。相信隨著跨模態數據融合技術的不斷發展,推薦系統的精度會越來越高,能夠更好地服務于大眾。

5.3 在情感分析上的應用

情感分析作為近幾年的熱點話題,得到了廣大研究者的青睞。目前,基于注意力機制的圖文跨模態情感分析成為研究主流。陳巧紅等人將文本與圖像進行注意力融合,應用于情感分析。ZHOU等人通過使圖文間的語義和情感交互被分層提取,顯著呈現不同模態之間的語義關聯,用于圖文情感分析,解決了噪聲問題和聯合理解上的差異問題,提高了情感分析結果的準確性。

與單一模態情感分析相比,跨模態能夠獲得更加全面的數據,提高情感分析的準確度。目前,基于跨模態數據融合的情感分析主要應用于政府部門監控輿情、微博情感分析及微博用戶情緒異常預警中。但跨模態數據融合不應只包括圖像、文本,基于圖文、音頻、視頻等模態的融合進行情感分析是未來的一個研究方向。

5.4 在人機對話系統上的應用

跨模態學習作為一種能讓機器更加貼近人類行為的技術,已經成為人工智能相關領域研究者關注的熱點問題。可視問答作為跨模態的一個主要示例,也受到越來越多的關注。LAO等人提出了共同注意學習方法和跨模態多步融合網絡,該模型通過句子引導詞注意力和問題引導圖注意力提取不同模態的特征,通過跨模態多步驟融合網絡來生成多步驟特征并實現兩種模態的多個交互,它區別于大多數現有的特征融合方法僅專注于兩種模態之間的復雜交互建模,通過使用池化方法將最終的融合特征應用于答案預測,實現較為精準的視覺問答。

人機對話系統不斷朝著智能化的方向發展,基于文本的細粒度分析和對圖像的關鍵區域提取信息,不僅解決了對話內容的單調性,還能充分結合用戶的個性化特征,確保能夠準確識別用戶意圖。針對個性化人機對話系統,如何有效融合文本、視覺和聽覺等模態構造人機對話系統將成為未來的研究方向。

6 結論(Conclusion)

跨模態數據融合近年來才得到關注,隨著更多研究者的關注,其關鍵技術也將得到提升,可以從以下三方面著手進行研究。

(1)針對社交媒體中網絡新語層出不窮,可考慮在跨模態融合中建立詞典,降低文本模態的噪音,提升跨模態融合性能。

(2)針對視覺數據讀取與用戶對相同信息的理解存在差異的問題,利用注意力模型對齊不同模態特征之間的細粒度將是未來跨模態融合研究的熱點問題。

(3)目前,跨模態融合主要集中在文本和圖像數據上,而視頻數據可以更好地表達人們的不同狀態。因此,整合文本、圖像、視頻等不同模式是未來研究需要考慮的問題。

猜你喜歡
模態特征文本
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 日本不卡在线播放| 99精品影院| 国产精品欧美在线观看| 国产成人精品亚洲77美色| 91久草视频| 看国产毛片| 午夜天堂视频| 久久精品人人做人人综合试看| 国产欧美日韩精品综合在线| 欧美日韩在线成人| 欧美性色综合网| 国产福利一区在线| 国产欧美日韩91| 久久国产精品国产自线拍| 午夜人性色福利无码视频在线观看 | 久久不卡精品| 欧美中日韩在线| 免费一级大毛片a一观看不卡| 伊人婷婷色香五月综合缴缴情| 99视频在线免费观看| 国产精品无码AV片在线观看播放| 久久黄色小视频| 国产亚洲精品自在久久不卡| jizz在线观看| 国产成人亚洲毛片| 91欧美亚洲国产五月天| 欧美一区二区福利视频| 99re经典视频在线| 欧美中文字幕无线码视频| 欧美亚洲第一页| 999精品色在线观看| 露脸一二三区国语对白| 亚洲午夜福利精品无码| 国产成人精品亚洲77美色| 99激情网| 国产www网站| 国产精品成| 中文无码毛片又爽又刺激| 国产三级成人| 综合网天天| 波多野结衣在线se| 色综合天天娱乐综合网| 亚洲中文在线视频| 国产亚洲精久久久久久无码AV| 99久久国产综合精品2020| 国产精品七七在线播放| 四虎亚洲精品| 中国国产A一级毛片| 无码一区18禁| 免费一级大毛片a一观看不卡| 九九热免费在线视频| 亚洲天堂免费在线视频| 久久午夜夜伦鲁鲁片不卡| 91在线高清视频| 亚洲福利网址| 中文字幕日韩欧美| 精品久久久久无码| 国产剧情一区二区| 午夜福利亚洲精品| 99视频在线精品免费观看6| 无码精品一区二区久久久| 动漫精品啪啪一区二区三区| 婷婷六月天激情| 成人福利在线观看| 黑色丝袜高跟国产在线91| 人妻丰满熟妇啪啪| 国产成人狂喷潮在线观看2345| 久久久国产精品无码专区| 久久男人资源站| 色爽网免费视频| 永久天堂网Av| 亚洲一区二区三区麻豆| 久久久久青草大香线综合精品| 国产专区综合另类日韩一区| 99在线观看视频免费| 国产欧美视频综合二区| 亚洲aaa视频| 国产大全韩国亚洲一区二区三区| 少妇精品网站| 欧美不卡二区| 就去吻亚洲精品国产欧美| 91精品日韩人妻无码久久|