999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多模態知識圖譜的3D場景識別與表達方法綜述

2023-10-30 08:57:44李建辛司冠南田鵬新安兆亮周風余
計算機工程與應用 2023年20期
關鍵詞:模態分類模型

李建辛,司冠南,田鵬新,安兆亮,周風余

1.山東交通學院 信息科學與電氣工程學院,濟南 250357

2.山東大學 控制科學與工程學院,濟南 250000

伴隨著場景圖(scene graphs,SG)[1]的流行,以知識圖的快速增長為特征的知識工程再度興起。知識圖(knowledge graph,KG)本質上是一個大規模的語義網絡數據庫,它包含實體以及實體之間的各種語義關系。知識圖在包括文本理解、推薦系統和自然語言問答在內的現實世界中有著廣泛的應用價值。場景圖構建可以捕捉場景的語義[1-2],其核心形式為一種有向圖,其中節點表示場景中的實體(例如,桌子、沙發、電視機等),邊表示節點之間的關系(例如:相鄰、包含等)。這種結構化的表示方法相對于向量表示會更加容易被人理解,同時場景圖的構建過程也可以被看作是一個小型的知識圖譜。

場景圖構建知識圖譜主要是以各個場景實體及其關系來構建,知識圖譜的質量主要由實體的粒度切分和實體之間關系(關聯關系、空間關系等)的細節程度決定。場景知識圖譜構建之后,可以加深同場景下不同實體的(家具、裝修風格、電子器械等)構建關聯,進而通過實體特征和場景圖,建立實體與場景的關聯。通過知識圖譜,可以更加精準描述不同場景下實體分布情況,更加準確關聯不同場景,從而實現對場景的精確分析。有時需要處理場景中的語義信息,以提高各種計算機視覺算法所提供結果的質量。將圖像作為輸入的算法通常傾向于關注圖像中存在的對象的絕對屬性(顏色、形狀、大小等),即概念信息,而不是這些對象之間的關系,即上下文信息(例如,人與狗玩耍)。在場景識別任務中,盡管跨類型實體識別模型可以在一定程度上表達出當前場景的大部分實體,但是要單純使用跨類型實體識別模型識別所有場景的所有實體和知識很難做到。

為了更好地理解場景識別任務中單一結構處理多任務的方法,提出基于知識的3D 場景圖與知識圖譜構建綜述。本文綜述結構分為三層。第一層為場景知識存儲,第二層為場景知識表示,第三層為場景種類劃分。本文為當前場景識別技術發展做出以下貢獻:

(1)多模態知識圖譜作為特征存儲數據庫對場景先驗知識進行存儲的技術總結與討論。通過基于編碼-解碼器結構的節點嵌入、知識圖譜節點匹配方式、知識圖譜補全等技術的綜述和論證,對知識圖譜與場景圖知識互補領域進行了技術論證和未來發展方向的討論。

(2)對2D-3D 數據融合進而增強3D 數據對場景環境表達能力技術的總結和論證,即場景知識表示層的全面綜述。通過對點云和圖像兩種數據不同融合方式的技術討論、多種經典和最新的神經網絡模型的比較和總結,對當前多模態識別模型發展進行總結和展望。

(3)對場景劃分任務做出總結,并提出未來發展方向。

1 結構總覽

由于感知應用的發展,計算機視覺發展重點已轉向需要對場景進行認知的下游任務。基于文本信息和視覺信息的結合,極大提高了計算機視覺領域中檢索、視覺問答等任務的性能,結合GCN(graph convolutional networks)網絡的快速發展,場景圖已經成為結構知識處理關鍵任務的流行方法。場景圖的思想有幾個優點,比如它能夠包含比對象實體更多的信息(例如ImageNet[3]),而且場景圖包含比自然語言標題[4-5]更多的結構和不變性。現有思想基本是用基礎3D信息擴充了基本的場景圖結構,如Visual Genome中的場景圖結構[6],并生成了3D場景圖。場景圖的構建過程也可以被看作是一個小型的知識圖譜,雖然知識圖譜與場景圖都作為一種圖結構而存在,但兩者還是有差別。首先:(1)場景圖目標是讓計算機自動生成一種語義化的圖結構作為圖像的表示。圖像或視頻中的實體對應nodes,實體間的關系對應edges(實體對象的各種屬性)。即場景圖中的每個節點都與一個圖像區域相關聯,這些節點成對出現,即主體和對象;而知識圖中的每個節點都是其語義標簽的一般概念。(2)在場景圖中,有向邊表示對象之間的關系;而知識圖譜的邊表示實體對的概念關系。總體結構如圖1所示:右側實體及位置關系識別流程見第3章,圖1場景分類流程見第4章。存放在知識圖譜內的知識、場景內實體結合神經網絡模型進行特征處理后的知識會進行聚類操作,對不同相似或相近實體進行聚類到不同場景,再對不同場景進行分類,就可達到場景內實體識別和不同場景識別的效果。

圖1 綜述結構示意圖Fig.1 Schematic diagram of overview structure

2 場景知識存儲

認知科學的最新發現表明,認知過程可以大致分解為“表示”和“溝通”。知識表示(knowledge representation,KR)的結構對穩定記憶起著關鍵作用,這表明大腦與圖形結構有著潛在的聯系。知識操作(knowledge manipulation,KOS)中包含的自適應更新和檢索促進了知識的有效利用。場景識別的目的就是根據多種模態數據的環境內容、實體對象及其實體的位置關系布局,將場景分類為預訓練定義場景類別中的一個,其識別效率高、應用前景廣。目前,場景分類任務遠不如圖像分類任務所能夠達到的高準確率,因為現有的方法大多忽略了實體特征之間的復雜關系、場景內實體知識表達的重復利用性、場景知識的存儲再表達等關鍵技術。

為了使3D 場景能快速實時構建,當前最流行的方法是使用多模態知識圖譜[7]作為對象特征的存儲數據庫。為了構建3D場景圖,需要識別它的特征、屬性和依存關系。但是,在給定識別場景模型和傳感器數量的限制下,用對象標簽和足夠多參數的深度網絡模型是構建3D場景圖的工作瓶頸。因此本文綜述焦點是通過外置特征數據庫特征匹配方式快速構建3D場景圖技術。知識圖譜—場景圖存儲的作用是通過識別對象的特征知識[8]與多模態知識圖譜節點快速匹配。Tian 等人[9]利用外部知識庫中無偏置的常識性知識規范場景圖的語義空間,緩解數據集中關系數據分布不平衡的問題,以提高場景圖生成的泛化能力;利用殘差置亂方式對視覺特征和提取的常識性知識進行融合,規范場景圖生成網絡。使用基于外部信息引導和殘差置亂相結合的場景圖生成方法,緩解數據集偏置對場景圖生成的負面影響。

同時,為了應對KG與SG知識交流中的挑戰,研究者們提出很多知識自適應框架結構,該框架可以不斷地積累知識圖譜知識信息,以便在任何新場景都具有更好的泛化質量。Wickramarachchi 等人[10]把場景的實體關系預測形式化為基于知識的實體預測。旨在通過利用駕駛場景的異構、高級語義知識預測潛在的未識別實體來提高場景理解。基于融入知識的學習,提出了一種創新的模型神經符號解決方案,解決引入數據集不可知論本體來描述駕駛場景,提出一種有效的、使用知識圖嵌入將知識的實體預測問題非標準映射到鏈路預測問題。

知識操作(KOS)中[11]包含的自適應更新和檢索促進了知識的有效利用。如此復雜的KR 和KOS 使人們大腦能夠很好地完成知識再利用學習。知識表示與存儲結構如圖2 所示。為了將場景的結構化表示形式化(見圖2),人們定義了場景圖概念。場景圖將對象(例如桌子、沙發、電腦、電話)編碼為節點中心,成對關系(例如位置關系、順序關系)連接的節點作為邊緣,將場景(例如辦公樓、公寓)作為相關實體對應節點關系的集合。然而,現有的場景圖模型忽略了98%以上的關系類別,這些類別沒有足夠的標記實例,而是將重點放在建模。雖然使用建模提取特征可以很好地描述某些場景視覺關系,但它們可能無法捕獲具有高方差、高離散的復雜關系。

圖2 知識存儲示意圖Fig.2 Schematic diagram of knowledge storage

2.1 場景知識嵌入方法

場景圖實體特征嵌入算法可以將場景圖數據映射為低維向量,能夠很好地解決場景圖數據難以高效輸入機器學習算法的問題,在復雜網絡中,研究者們提出了許多融合網絡嵌入算法的改進算法[12]。其中,在編碼器-解碼器框架中,圖表示學習問題視為涉及兩個關鍵操作的方法。首先,編碼器模型將點云、圖像的每個節點映射到低維向量或嵌入其中。其次,解碼器模型采用低維節點嵌入,并使用它們重建原始數據中每個節點的鄰域信息。而節點嵌入的目的是對圖的節點進行編碼,使得節點在嵌入空間的相似度近似節點在圖中的相似度,即場景圖實體關系平行遷移到存儲結構上。如圖3所示,編碼器將節點映射為嵌入向量;定義節點的相似度函數F,度量節點在左邊圖結構的相似度;解碼器將嵌入向量映射為相似度得分;最優的編碼器參數,使得節點在右邊嵌入空間的相似度接近節點在左邊圖結構網絡中的相似度。

圖3 節點嵌入結構示意圖Fig.3 Schematic diagram of node embedding structure

在場景圖與知識圖譜之間找到可靠的對應關系是計算機視覺未來發展的一項重要任務。由于描述符的限制,原始匹配常常被大多數離群值所污染,算法給出的匹配結果可能會在具有相似特征的圖像中進行交叉交換。節點嵌入和相似度匹配預測結構如圖4所示,鏈接預測的目標是根據已知(a)的節點和邊,得到新(b)的邊(的權值/特征),其過程可以用一個有向圖表示。知識圖譜的完整性和準確性是影響其可用性的主要因素,(a)已有的知識圖譜存在A、B、C數據的連接關系不完整問題,鏈接預測技術能夠依據其余完整數據,自動知識圖譜進行補全,提高(b)知識圖譜的質量,輸出為該圖譜的預測值A1、B1、C1。當今研究模型建立了一個基于對象的場景表示,并將句子翻譯成可執行的符號程序。為了將這兩個模塊的學習連接起來,研究者們使用了一個神經符號推理模塊,該模塊在潛在場景表示上執行這些程序。與人類的概念學習類似,感知模塊根據被引用對象的語言描述來學習視覺概念。同時,學習到的視覺概念有助于學習新單詞和解析新句子。通常會用課程學習來指導對圖像和語言構成空間的探索。

圖4 鏈接預測的示例Fig.4 Example of link prediction

2.2 場景知識的關系預測與補全

知識圖譜已經被廣泛采用,很大程度上是因為其無模式的特性,它具有豐富的自然語義,可以包含各種更完整的信息。其具有無縫增長的特性,可以根據需要創建新的節點和關系。知識圖譜將每一項實體和用戶表示為節點,通過邊將相互作用的節點連接并存儲起來,然而,知識圖譜總是不完整的[13]。因此,自適應構造一個更完整的KG是一項具有挑戰性的任務,通常將其表述為鏈接預測問題[14],可使用知識的補充增強技術解決這一問題。Shen 等人[15]探討了考慮拓撲關系的空間場景知識圖構建,積極探索了空間場景知識圖式的定義、拓撲關系知識的獲取和存儲以及空間場景知識圖形的可視化問題。該圖在空間查詢、空間分析和空間數據建模中發揮重要作用。

正如前文所述,預訓練模型可在非結構化數據中獲取到知識;知識圖譜可以看作在視覺中抽取實體與實體關系的數據集合,兩者結合可獲得巨大的研究空間。

作為圖結構的知識圖譜想融合預訓練模型就要進行三段式改造,即輸入前融合改造,模型結構融合方式改造和模型輸出融合方式改造。K-ADAPTER[16]加入了額外的預訓練模型中間層,使得模型參數固定,增強了舊知識穩定性的同時可以不斷融入新知識。但是并未解決多知識和多種知識圖譜的融合問題。KT-NET[17]在Fine-tuning階段使用知識圖譜融入,通過注意力機制將BERT Vector[18]與KB Embedding[19]做融合;并且通過雙層的注意力機制進一步融合BERT和KB的表示,解決了多種知識圖譜的融合問題。但是直接通過KB Embedding和Bert vector的映射關系結合Attention機制融合,舍棄考慮了映射之間的差異性,導致結果差強人意。針對不同下游任務,KnowBERT[20]在pre-training+fine-tuning 階段使用architecture injection+output injection 的融合方式,在輸入中顯式建模實體跨度(entity spans),并使用實體鏈接器(entity linker)從KB 中檢測Mention、檢索相關的實體嵌入(entity embeddings),以形成知識增強的實體跨度表示形式,對映射之間的差異性做出較好解釋。

2.2.1 距離變化和語義匹配

知識圖譜KG是三元組的集合,節點代表對象實體,邊代表對象間關系。眾多知識圖譜,如YAGO[21]、Freebase[22]、DBpedia[23]和NELL[24]成功應用于一些現實應用程序中。學者們針對知識圖譜補全,進行了大量的研究工作,即預測缺失三元組是否正確,并將正確三元組添加到知識圖譜進行補全。目前,許多嵌入模型用來學習實體和關系的矢量表示,如早期的TransE[25]、TransH[26]、TransR[27]等模型[28],這些模型可以有效預測缺失三元組。目前較流行的五種知識圖譜補全函數如表1所示。

表1 五種算法函數公式和參數規模比較Table 1 Comparison of five algorithm function formulas and parameter scales

在語義匹配能量模型(SME)模型中,在輸入層將三元組(h,r,t)分別映射為嵌入向量h,r,t。在隱含層,將關系向量r與頭向量h組合,得到得分向量;同理得到尾實體對應的得分向量;并最終將兩個向量進行組合算出匹配分數。SME 是目前使用較多的語義匹配模型,同為語義匹配模型的還有RESCAL 模型、HoIE 模型、DistMult模型、RESCAL模型等。

知識圖補全(knowledge graph completion,KGC)或鏈接預測(link prediction,LP)已成為一個活躍的研究領域[33],目的是推斷缺失的頭實體、尾實體或三元組中的關系。其主要思想是對具有不同性質的關系進行建模,可以解決圖結構中的對稱和非對稱關系。TransE[25]就是將知識圖譜中的實體和關系看成兩個Matrix。訓練后模型的理想狀態得到的結果近似于實體矩陣中的另一個實體的向量,從而達到通過詞向量表示知識圖譜中已存在的三元組,但它只能處理1-1關系,具體結構見圖5。為了解決這個問題,TransH[26]提出通過將頭部和尾部實體投影到關系特定的超平面中來處理1-N關系,讓一個實體在不同的關系下擁有不同的表示。TransR[34]直接構建獨立的關系和實體空間,將實體從實體空間投影到關系特定空間,以計算實體之間的距離。TransR在兩個不同的空間,即實體空間和多個關系空間(關系特定的實體空間)中建模實體和關系,并在對應的關系空間中進行轉換。TransE 模型需要將實體和關系表示在同一空間中[35-36],但是不能表示一對多、多對一、多對多關系。在實際場景識別的任務中局限性很大,所以人們基于TransE 提出了TransH 模型,通過一個實體在不同的關系下擁有不同的表示[37],將頭實體向量h和尾實體向量t投影到關系r對應的超平面上,再利用TransE模型進行訓練和學習。但是實體和關系處于相同的語義空間中,一定程度限制了模型的表達能力[38]。于是研究人員讓頭實體與尾實體共享投影矩陣,投影過程與關系和實體都相關但此處只用關系,進而研究出TransR模型。

圖5 三種常態化使用結構對比Fig.5 Comparison of three normalized use structures

即使可以對知識圖譜進行補全操作,但是絕大多數的KG 通常是不完整的,很難包含人類擁有[39]的所有概念。而現實世界的數據往往是動態的和不斷演變的,這導致難以構建正確和完整的KGS[40]。為了解決模型擴展和存儲平衡工作能力的問題,TuckER[41]為張量分解提供了一個分解結構,通過輸出核心張量和實體和關系的嵌入向量來學習嵌入,解決稀疏張量的填補問題。基于CNN(convolutional neural network)的模型也被證明可以通過捕獲實體和關系之間的復雜交互以提高表達能力。同時,CNN 的參數效率可以防止模型隨著知識圖規模的擴大而變得難以運行。Convu[42]將頭部實體和關系嵌入到二維矩陣中,并應用二維卷積和全連接層以獲得特征向量。該特征向量和尾部實體嵌入向量被拋出到內積層進行最終預測。類似膠囊網絡在圖像處理領域中的應用,CapsE[43]通過在卷積層之后應用膠囊網絡來捕獲三元組中復雜的高級特征。也可以通過三個關鍵思想[44]:特征置換、一種新的特征重塑和循環卷積,增加了關系和實體嵌入之間的相互作用[45]。

2.2.2 神經網絡辦法

由于涉及神經網絡的模型具有很強的魯棒性和容錯性,信息分布貯于網絡內的神經元中,在場景識別等領域被人所接受。它的自學習、自組織、自適應性,使得網絡可以處理不確定或不知道的系統,可以充分逼近任意復雜的非線性關系,具有很強的信息綜合能力。例如:神經張量網絡模型(neural tensor network,NTN)、ConvE[42]模型等。NTN 模型的關系r對應一個張量與兩個常規矩陣,分別用來匹配雙線性與線性關系。NTN是最具表達力的模型之一,幾乎涵蓋了所有的匹配關系,但是在參數數量上遠大于ConvE 模型,不能疊加多層增強表達能力,所以在復雜度和表達能力間不能找到很好的平衡,以至于NTN 模型相較于ConvE 模型很難以被訓練,所以在大型知識圖譜中使用較少。

(1)關系圖卷積網絡

關系圖卷積網絡[46(]relational graph convolutional network,R-GCN)這種類型的網絡旨在泛化GCN 來處理知識庫中實體之間的不同關系。它的特點在于:對于一個節點,它把周圍所有與之相連的關系r都表示為一個關系矩陣并加入節點更新公式中,并且通過自循環來保持自身信息。在同一類型邊下分為進邊和出邊,還有假設指向自己的邊類型。模型結構沒有太大的改變,真正改變的是鄰接矩陣的類型和個數。R-GCN能夠處理異構圖數據,對于場景的實體識別特征匹配和補全任務有著很好的速度和補全質量。其流程結構如圖6所示。

圖6 關系圖卷積網絡示意圖Fig.6 Schematic diagram of relational graph convolutional network

(2)CompGCN

CompGCN[47]利用知識圖譜中的composition operations同時學習節點、關系的表示向量,并利用參數分解方法使得模型具備多關系的可擴展性。在傳統的圖結構中,即使是異構圖中,邊節點上也并不存儲任何信息,而在知識圖譜等領域中這樣“邊上的信息”較為普遍。由于場景是一個在現實中存在的復雜實體和關系類型,傳統的GCN 算法廣泛應用于同質圖,而同質圖算法遠不能滿足知識圖譜解決場景識別和構建的需求,CompGCN便是針對于Multi-relational Graphs 提出的異質圖表征算法,CompGCN 能夠同時對node 和relation 進行表征學習。在節點分類、鏈接預測和圖分類任務上都取得Sota效果。其結構如圖7所示。CompGCN較為傾向于知識圖譜鄰域,邊的Embedding聚合在常用的異質圖網絡中并不常見,圖7 中有多種節點,如London 和United Kingdom;也有多種有向關系,如Born-in 和Citizen-of,Born-in 和Bord-in_inv 是同一關系的兩個方向。圖7 清晰展示出有向邊和反向邊的聚合過程。

圖7 CompGCN流程示意圖Fig.7 Schematic diagram of CompGCN process

3 場景知識表示

隨著3D采集技術的快速發展,3D傳感器的可用性不斷提升,各類3D傳感器的價格也不斷飆升。這些3D傳感器采集的3D 數據可以提供豐富的三維立體信息如:幾何、形狀和比例[48]。在自動駕駛、機器人技術、等技術領域,3D 技術起到了無可替代的作用[49]。點云作為一種常用的三維數據格式,在三維空間中保留了原始的幾何信息,無需任何離散化。因此,它是許多場景理解相關應用(如自動駕駛和機器人)的首選表示。并且通過2D圖像的補充,3D數據為更好地了解周圍的環境提供了機會[50]。然而,對三維點云的深入學習仍然面臨著幾個重大挑戰[51],如數據集規模小、三維點云的高維性和非結構化性質等。在此基礎上,本章重點分析了用于處理三維點云和視頻的深度學習方法構建場景圖實體特征與實體關系。

3.1 視頻和點云的實體識別

3.1.1 實體識別網絡

研究者們將三維圖像投射到n個視圖中提取特征,對特征進行緊耦合[52]從而實現精確的分類任務。MVCNN組合[53]來自多個視圖的特征聚合表示,這些表示生成一個三維形狀的單一緊湊描述符,且所有參數都經過區分性學習的CNN架構來組合來自多個視圖的信息,從而為3D形狀生成一個緊湊的描述符,但是其僅使用最大池化操作[54]會導致部分知識的丟失。此外,研究者們還提出了幾種其他方法來提高識別精度[55-56]。

而在現實生活更多的是圖結構數據,圖的結構是十分不規則的,可以認為是無限維度的一種數據,所以它沒有平移不變性。當前研究有多種技術處理這類數據,例如GNN[57]、DeepWalk[58]、node2vec[59]等。而GCN(圖卷積神經網絡),作為一個特征提取器,設計了一種從圖數據中提取特征的方法,從而可以使用這些特征去對圖數據進行節點分類(node classification)、圖分類(graph classification)、邊預測(link prediction),還可以得到圖的嵌入表示(graph embedding)。Wei 等人[60]通過將多個視圖視為Grpah節點,在視圖GCN中使用一種由局部圖卷積、非局部消息傳遞和選擇性視圖采樣組成的核心層應用于構造的圖,所有級別上最大池節點特征的串聯最終用于形成全局形狀描述符。同時為了解決GCN網絡卷積操作的圖結構固定大小的限制問題,利用非局部信息的傳遞,通過全圖長距離關聯性來更新節點特征。

3.1.2 位置識別網絡

對于場景對象的定位,常用的方法是利用雙目立體視覺計算圖像視差圖獲取整個場景圖像中每個像素的位置信息,這可能存在計算精度低、速度慢等缺陷。近些年來場景對象識別研究學者,提供了一些新的研究方向[61]。目前位置識別領域應用最廣泛的技術是視覺同步定位與建圖(visual simultaneous localization and mapping,VSLAM)技術,VSLAM也是移動機器人技術的重要研究領域。VSLAM主要功能是實現運動設備在未知場景中的自身位置判斷與環境實體建模。從最早的軍事用途到現在,視覺SLAM 已經逐步走入了大眾的視野。由于現實環境的場景復雜性高、變化性大,眾多學者都在提高復雜光照條件下SLAM 的識別魯棒性上努力。Zeller等人[62]在2018年第一個使用光場相機子圖像進行追蹤建圖的算法設計,使用單傳感器設備從一張光場圖像獲取深度等技術,使得利用單個光場相機具有尺度恢復的能力。對魯棒追蹤進行了改進,使相機能夠在復雜多變的場景中準確定位,追蹤過程直接在微透鏡圖像以及虛擬孔徑圖像上進行,并且使用了coarse-to-fine的方式優化位姿。尺度優化算法能夠連續地估計關鍵幀的尺度,通過對多幀估計聯合優化得到全局一致的尺度。但后續研究停止,該技術僅停留在實驗室的試驗研究階段,并不能在社會、工業上進行有效推廣與應用。

3.2 視頻和點云的融合

3.2.1 數據融合Pixel Level

像素級圖像融合[63]目的是同場景下互補信息收集多個輸入圖像生成合成圖像。從不同的成像設備[64]或單一類型的傳感器捕獲稱為源圖像的輸入圖像,被稱為融合。合成圖像應該比任何單獨輸入更適合人類或機器感知。像素級圖像融合被認為在遙感、衛星地圖、醫學影像、自動駕駛等多個領域具有重要意義。傳統方法大多采用機器學習算法,通過各種技術進行像素圖像分割,如閾值分割[65]、區域增長[66]、邊緣檢測[67]、聚類[68-69]等。同時,深度學習(DL)技術在像素級圖像處理問題上取得了巨大的成功。也有一些研究集中于某些特定應用領域的融合問題,如醫學成像[70]、遙感和[71]監控。而在場景識別中的應用——視頻對象聯合分割中,基于面片匹配的方法被廣泛用于提取視頻幀之間的相似度。但是,由于這些方法降低了像素定位的精度,容易導致像素誤分類。

在邊緣檢測技術對圖像進行處理方面,像素級邊緣檢測器無法準確檢測平滑輪廓,所有閾值操作必須以像素級精度執行。有些應用程序甚至需要比像素網格更高的精度。例如HCNet[72]能有效地捕獲全局上下文信息,以實現更精確的語義分割,并且提出了一種PCM方法來學習由預先分割產生的每個均勻區域內的像素級依賴關系。對不同區域之間的區域級上下文進行建模,聚合細粒度像素上下文特征和粗粒度區域上下文特征。Xu等人[73]提出一種基于深度學習語義分割的像素級變化檢測和對象級變化檢測相結合的方法。針對像素級和目標級變化檢測方法中存在的大量“椒鹽”現象和虛假檢測問題,結合高分辨率遙感圖像的多維特征,使用隨機森林分類器進行分類,得到像素級變化檢測結果。解決了圖像分割過程中繁瑣的問題。

3.2.2 中間融合Feature Level

通過文獻[74]構建復雜的集合,將多個低級圖像特征與來自對象檢測器和場景分類器的高級上下文相結合,但是其性能很容易停滯不前。例如:HyperDense-Net[75]提出一種三維全卷積神經網絡,使用MRI(magnetic resonance imaging)核磁共振T1加權成像圖(T1-weighted image)和T2 加權成像圖結合去改進分割效果,創新使用了densenet 的密集連接用于多模態圖像融合。與早期/晚期融合相比,這顯著提高了學習表示能力。

使用深度學習模型處理點云數據的一種常見方法是:首先將原始點云數據轉換為體積表示,即三維網格[76-77]。然而,這種方法通常會引入量化偽影和過多的內存使用,從而難以捕獲高分辨率或細粒度特征。一類幾何深度學習方法試圖通過將形狀嵌入具有平移不變結構的域來撤回卷積運算。幾何生成模型試圖將自動編碼器、變分自動編碼器(variational autoencoder,VAE)[78]和生成對抗網絡(generative adversarial network,GAN)[79]等模型推廣到Non-Euclidean環境。這兩種設置之間的根本區別之一是輸入和輸出頂點之間缺乏規范順序,因此需要解決輸入-輸出對應問題。對于點云數據提出了多種生成架構,此類方法都是對抽象的特征進行融合,也是使用最多的方法。

3.2.3 決策融合Decision Level

實際場景中會出現光照的變化、實體對象的遮擋[80]、實體對象與場景背景顏色相似等問題,會造成攝像頭的視頻分析出現大量的實體對象計算錯誤和誤分類問題。所以單純憑借視頻或照片的處理模型無法做到對場景的增強現實(augmented reality)[81]。同時針對檢測物理對象(包括表面和特定場景空間內的單個物體),單純憑借圖片或視頻處理技術也是難以做到的。

而多元感知數據融合[82]應用效果方面:利用計算機圖像處理技術可以對不清晰的圖像進行去噪、銳化等處理[83];利用點云表示可以保留三維空間中原始的幾何信息,不進行離散化,同時也可以表示空間分辨率、點位精度、表面法向量等信息;物體的空間輪廓和具體位置,物體距離攝像機的距離也是可知的。然而,由于二維和三維數據生活在不同的空間,因此融合具有挑戰性[84]。雖然有PointNet[85-86],這種端到端的深度神經網絡,可以直接從點云學習到逐點特征以進行分割和分類任務,也已被證明對從激光雷達獲得的密集點云非常有效。但它們對稀疏雷達點云的效果卻不如BEV 或文獻[87]。同時聚合在不同時間戳中獲得的多個雷達讀數有助于在點云中提供更多的點,但這些點并不能很好地表示對象的形狀和大小。相機難以捕捉細粒度的3D 信息,而激光雷達在遠距離提供非常稀疏的觀測[88]。本小節對當前比較流行和經典的模型識別和融合流程進行了匯總,如圖8所示。

圖8 比較流行和經典的模型識別和融合流程進行了匯總示意圖Fig.8 Summary of popular and classic model identification and fusion processes

4 場景種類劃分

在實際場景識別中,一般使用分割模型對場景圖進行分“塊”處理進而識別場景內不同實體。然而現有的語義/實例/全景分割模型往往都要考慮類別信息,這導致在此類圖像編輯場景中出現了一些不可避免的問題,如圖9 所示[89]:類別的歧義性導致模型對同一個“塊”有兩種解讀,例如桌子和椅子,沙發和床。同時,會使得網絡無法預測出訓練階段標注的類別,缺少一定的泛化能力,例如卷發梳、筆和電話。由于實體是一個很客觀的概念,所以一般模型需要做大量的數據人工分析來判斷對實體“塊”的定義是合理的。

圖9 場景種類層概念示意圖Fig.9 Schematic diagram of concept of scene category layer

根據當前技術發展,場景劃分主要分為聚類和分類兩種方法,其中:聚類方法是為了剔除共性實體、分類方法是為了提取特性實體,進而對相似場景、差異場景、陌生場景等進行識別和劃分。一般通過深度學習算法,包括卷積網絡、殘差網絡、殘差收縮網絡[90]等,可以有效地對實體進行分類和聚合,從而分類場景的不同權重,進而分類出不同場景。李飛飛團隊[91]的最新研究——PSGNet(physical scene graphs,PSG)網絡架構,首先進行特征提取,采用ConvRNN[92]從輸入中提取特征進而構建圖形,負責優化現有物理場景圖(PSG)級別,最后用于端到端訓練的圖形渲染。其中,利用向量化,在每個池化核相關聯的圖像區域及其邊界上聚合節點統計產生新節點的屬性向量,這樣便可以直觀地表示出真實場景中的物體屬性,解決了CNN 在識別物體具體屬性方面的缺點。細微到物體表面的紋理都可以利用PSGNet進行識別。Kong 等人[93]為了實現人的感知效果,為三維點云場景提出了一種新的語義圖表示法,它捕捉語義信息并建立了語義對象之間的拓撲關系。同時提出了一個有效的網絡來估計點云場景之間的圖形匹配相似度,該網絡可用于循環閉合檢測,為場景識別提供研究方向。同時可以利用基于全局描述符的方法,如:SeqLPD[94]和LPD-Net[95]在特征空間和笛卡爾空間中提取特征,融合每個點的鄰域特征,并使用NetVLAD 生成全局描述符。上述方法處理了大量的原始點,并且在點云場景旋轉時取得了理想的性能。從場景內實體聚類和場景整體分類兩方面總結場景種類劃分的方法。

4.1 基于實體聚類的場景劃分

聚類(clustering)是按照某個特定標準(如距離、單一特征相似度等)把一個數據集分割成不同的類或簇,使得同一個簇內的對象相似性盡可能大,不在同一個簇中的對象的差異性盡可能大;聚類后同一類的對象盡可能聚集到一起,不同類對象盡量分離。原始知識從多個維度視圖進行語義聚類,例如位置等知識視圖是第一級別區分生成的,表示“集群類型”。總之,形狀和內容是聚類的區分視圖,通過收集每個視圖中的聚類信息,形成語義表示。

聚類的判定方法分為很多種,例如one-hot 編碼聚類方法。在不考慮特征語義的情況下,把所有區分類別的特征進行one-hot 編碼,然后進行聚類降維。這種方法的缺點是:如果特征的類別取值太多,one-hot編碼后的特征維度會過高,降維之后也會丟失大量的信息。針對此缺點,Xiao 等人[96]提出多視圖聚類框架,該框架提供一種新的無監督方法,利用聚類的隸屬粘合度(即概率分布)來識別實體和關系。

對于實體檢索任務,可以將知識元素(即實體/關系)和文本描述聯合嵌入到同一語義空間中。給定一個作為單詞序列的查詢,可以通過語義匹配來預測相應的實體。解決了主要的知識嵌入方法采用幾何翻譯來設計評分函數問題;解決了部分對于自然語言處理領域來說弱語義的問題。但是對于細粒度的異質性信息而言,對用戶交互意圖進行編碼的過程中幾乎沒有被利用。本章節列舉了三種聚類相似度評估分類和10 種算法,如表2所示。

表2 聚類相似度度量方法對比表Table 2 Comparison of clustering similarity measurement methods

4.2 基于場景分類的場景劃分

深度學習可以在圖像中提取高級特征,它的模型在處理圖像、視頻、遙感等任務中取得了驚人的進展。在此之后,研究人員提出了一些基于深度學習的場景分類算法,如基于CNN 的方法和基于GAN 的方法。隨著k均值聚類算法、主成分分析和稀疏編碼技術的成熟,計算機可以自動從未標記圖像中學習特征,由此出現了大量基于無監督學習的場景分類方法,并在場景分類方面取得了實質性進展。然而,這些無監督學習方法不能充分利用數據類信息[97]。深度學習理論的進步以及多模態數據和并行計算資源的增加,有效地解決了此問題的部分難點。

從細粒度圖像分類的角度思考場景間相似性和場景內差異性,針對圖像細粒度分類的技術在場景分類上有效果的提升,如Bilinear CNN。場景分類和圖像分類既有同一性又有差異,例如:細粒度實體分類和細粒度場景分類任務有相當多的相似性,因此可以比較的實際是物體分類、場景分類等概念,而細粒度則不在討論維度上。在場景分類中,場景由實體,實體布局,背景(墻壁、裝飾等)和實體之間的關系等綜合而成,是十分抽象的概念。另外場景的場景間相似性和場景內差異性也不等同于細粒度中的情形,其中可能涉及到空間布局,尺度和物體的種類等因素。

除了實體、關系和事件等元素的定位之外,場景分類應用需要對更加復雜的符號知識定位,這些知識由多個事件組成,相互之間具有密切關系。

這些多重關系事件很難用單一或復雜神經網絡實現精準識別和表達,需依靠外部知識庫的強化補充或融合,使用多模態知識圖譜作為外部知識庫表達不同場景,用其中一個或多個子圖表達由多實體及其關系組成個單一或多個事件,可以增強場景細粒度表達和場景知識復雜性表達。多模態知識圖譜基于傳統知識圖譜構建了多種模態(例如視覺模態)下的實體、實體關系、場景事件。場景與多模態知識圖譜融合做場景分類可以使得網絡預測出訓練階段標注的類別,增強一定的泛化能力。

4.2.1 基于場景靜態元素抽取的分類

場景元素抽取就是場景知識的獲取,是將場景信息轉化為計算機理解的知識,比較普遍的任務是VAQ[98]、NLVR[99]等。其中,事件關系抽取是信息抽取中較難的任務,MMKG 可以通過提供視覺特征使得MNER(multimodal entity recognition)附帶圖像信息用于實體識別。但是現實情況下大部分實體存在多種不同名稱,并且一種名稱可能對應多種實體,多模式實體鏈接(multimodal entity linking,MEL)可以解決此類問題的部分難點[100]。其使用傳統文本和場景視覺數據,將簡單文本中不確定提及信息、場景實體特征轉換后的信息連接到多模態知識圖譜中的實體(節點),成為研究熱門。且越來越多的工作更傾向使用多模態知識圖譜作為場景或鏈接的知識庫。但是MNER 對于文本與圖片無關的情況可能沒有辦法處理,沒法將表面不相關或關聯性復雜的鏈接數據達到相互回歸的狀態,這樣很難做到多模態知識圖譜的實體節點與場景事件的高切合度融合,難以做到多場景的高區分度分類任務。

通過利用相關文章中的背景知識來描述與圖像相關的命名實體、實體關系和事件是解決文本實體和其對應視覺對象embedding 盡量靠近的辦法,通過此方法,可以側面描述場景非實體的事件發生情況,將場景知識有效連接到多模態知識圖譜,將一個事件分類為不同的場景類別,即MMKG 中不同粒度的概念。場景分類也可以看成是一種特殊的鏈接預測任務,預測實體、實體關系和場景事件對應的概念。在多模態知識圖譜層將場景進行分類有諸多方法,例如Zhao 等人[101]構建了一個多模態知識圖譜,將視覺對象與命名實體相關聯,從網絡收集的外部知識中同時建立實體之間的關系,將得到的文本實體和視覺目標的嵌入映射到同一個表示空間中,并且進行訓練保證文本實體和其對應的視覺對象的嵌入盡量靠近。利用此方法,可以有效地對低區分度實體的多場景進行分類。如圖10所示。不同場景存在相同或相似實體集合,通過“工作裝、多人工作”等多模態綜合的事件信息,可以進行有效的場景區分。

圖10 場景識別融合多模態知識圖譜示意圖Fig.10 Schematic diagram of scene recognition fusion multimodal knowledge graph

圖片的實體抽取和自然語言的語義抽取是基于時間點的任務,任務涉及對象通常定格在某個瞬間,具有實體不動性、實體關系復雜程度低、與場景關聯性高等特性。而事件的抽取基于時間段,其具有實體活動范圍大、流動性高、實體與實體間的關系隨時間變化而變化等諸多增加場景分析和抽取難度的特性。視覺常識生成任務比看圖說話要更難,因為需要常識推理來預測給定圖像之前或之后的事件。但對于場景分類等業務模型,常識一旦生成,可增強場景區分度,并極大增加場景細粒度分類準確率,是一種針對場景分類任務的有效區分數據類型。Xing等人[102]提出了一個知識增強的多模態BART(KM-BART)模型,這是一種基于Transformer的seq2seq 模型,能夠從圖像和文本的多模態輸入中推理常識。特別是基于知識的常識生成(sense generation of knowledge,KCG)的預訓練任務通過利用在外部預訓練大型語言模型中的常識知識,提高了VCG(visual common sense generation)任務的模型性能,利用外部常識數據增強場景差異和單場景細粒度,改善了場景分類領域技術。

4.2.2 基于場景時序性元素分類

多模態知識圖譜的節點是偏靜態描述的實體,而場景的事件偏動態。與實體相比,場景事件能夠更加清晰、精確表示發生的各種事實信息,從而讓精準化對時間進行分類。若機器能夠接近于人腦知識結構體系的方式來處理知識和進行場景分類,需要機器更好地理解復雜場景下的具體問題,相較于改變抽取任務和識別任務進而很好地分析場景事件,改變知識圖譜的存儲結構更為穩妥,用多模態知識去表示時間段的事件問題,是值得研究的。

基于時間段的事件抽取涉及三個關鍵對象:實體、觸發器、觸發參數。如圖10 所示,比如,場景描述:“我坐在椅子上,旁邊有人來送文件”。我、桌子、凳子等物品就是此時間段內出現的實體,辦公室就是此事件發生時候的場景所在地,動詞“坐”就是此時間段內實體觸發的觸發器,觸發參數即為“送、拿著”等,是狀態詞。通過視覺的實體識別,實體位置識別、實體關系識別等進而推理出事件,對事件進行分類即是對場景進行分類。但動態運動過程難以表達,在場景事件記錄融合中,Long等人[103]利用隱式特征空間中的交互式消息傳播動態集成視覺和運動學信息。所考慮的多模態輸入數據包含了視頻和運動學序列,并且在提取embedding后建立成一個包含三種關系的知識圖譜,然后用KG embedding中GNN 的方法RGCN 來編碼圖結構信息,之后通過全連接網絡實現手勢分類任務。

另外一種有效方法就是結合外部知識圖譜,即融合常識推理,也就是基于對世界的一般理解來關聯相似實體和推斷相似關系的能力。Kan 等人[104]提出了融合常識知識的SGG 框架,用于零樣本關系預測。整個模型中的核心部分就是一個新的圖挖掘模塊來模擬外部常識知識圖譜中實體周圍的鄰域和路徑信息,并將它們集成到最先進的SGG 框架中。解決了由于缺乏常識推理,即關聯相似實體并根據對世界的一般理解推斷相似關系的能力不足問題,其將多模態知識圖譜和外部常識的高匹配度融合,有效地模仿了人類大腦區分不同場景的思維流程。當場景知識、事件充分分析后,MMKG構建需要將普通KG中的符號知識(包括實體、概念、關系等)與圖像關聯起來。MMKG的構建主要有兩種方式:即在圖像上標注KG 中的符號:在圖像上標注KG 中的對應符號。但此類方法工作量大,知識存儲在多模態知識圖譜不能進行有效的泛化。為解決此類問題,Hong等人[105]提出了一種新穎的語言和視覺實體關系圖,用于對文本和視覺之間的模態間關系以及視覺實體之間的模態內關系進行建模,利用目標和方向鏈接這兩個知識圖譜,進行模型構建。提出了一種消息傳遞算法,用于在圖中的語言元素和視覺實體之間傳播信息,然后將其結合起來確定下一步要采取的行動。在真實場景中,優化了正確感知環境能力,增強了智能體感知場景、理解場景并分類進而解釋復雜指令的能力。

在處理或構建預測場景事件類型中的多模態知識圖譜時,可通過圖像處理模型將實體轉化為節點參數,將觸發器解釋為節點的連線即關系,而節點參數可以解釋為實體的屬性或者狀態。一個實體可以有多個狀態和多個連接其他實體的關系,一個狀態可以有與不同實體相連的多關系。但是,在場景實體不變的情況下,實體的狀態所連接的關系網絡不再是趨于分類,而是趨于回歸狀態。這就是通過預測事件類型進而分類場景。

5 總結與展望

本文引入了3D實時場景圖作為可操作場景空間感知的統一表示,深刻綜述綜合場景知識表達場景思想概念。本綜述展現了基于多模態知識圖譜的3D場景識別與表達方法的思想技術流程和技術可行性分析,并討論了它的幾個應用,包括規劃任務、人機交互、多場景識別、預測等。首先,第1章深刻闡述了特征知識的存儲、遷移和匹配的研究問題。為了使3D場景能快速實時構建,使用多模態知識圖譜作為對象特征的存儲數據庫。對實體特征之間的復雜關系、場景內實體知識表達的重復利用性、場景知識的存儲再表達等關鍵技術進行了技術綜述和可行性分析。其次,第2章分析了用于處理三維點云和視頻的深度學習方法構建場景圖實體特征與實體關系。對當前處理多模態數據網絡、實體識別、位置分析等先進模型進行可行性分析與技術對比;對三種數據融合方式進行了詳細的思想闡述,對當前優秀模型進行了技術分析和對比。最后,通過實體聚類、場景分類兩大步驟為實際場景識別工作的分類難點做出先進技術綜述和分析。通過小實體聚類和大場景分類兩個工作,表述了剔除共性實體、提取特性實體的工作性質。進而詳細展示了對相似場景、差異場景、陌生場景等進行識別和劃分的工作特點和技術難點。

當前場景識別領域還有幾個問題值得研究:

首先,特大量特征知識的存儲、遷移和匹配問題,值得進一步研究。當前場景識別的技術發展需要更多的研究來擴大場景識別的覆蓋范圍,進而引申出特大量特征處理技術。例如,通過開發可以從數據推斷其他節點屬性的算法(例如,對象的材質類型和啟示),或者為不同的環境(例如,室外)創建新的節點類型。同時,知識的表示與符號機器學習的優劣也是促進場景識別技術發展的關鍵。在KR中,知識是指以某種結構化的方式表示的概念、事件和過程。在KR中限定了范圍和結構,而不是人們日常生活中感官所感受和體現的。只有經過計算機編碼的知識才能成為KR中的知識。但是,這種黑盒處理方式并不能有效地處理知識的遷移和異設備公用問題。將知識收集、處理、展示等過程可視化,是當前場景識別領域亟待解決的問題。僅停留在黑盒模型處理結構化數據是不能做到知識的云端存儲、邊端應用、終端顯示等先進技術要求和應用的。

第二,在場景識別中,在沒有良好先驗知識的情況下,無法很好地預測。僅停留在公開數據集是無法做到模型隨著知識更新而更新的,因為公開數據集無法做到隨著時間的更新而進行更新。目前,知識圖譜技術和公開數據集并不能覆蓋現實世界的所有知識,所以推理和補全就成為其核心任務。對于其推理關系涉及實體的位置,可以將其分為轉導推理和歸納推理,在場景識別任務中,需要兩者相互結合對場景的構建和識別做出基于知識基礎的推理作用。即認知作用。將知識圖譜上升到認知圖譜是解決無良好先驗知識、無高時序性知識的優秀方法。認知圖譜從多種心理學、人類歷史等方面汲取經驗,結合多模態知識圖譜、強化學習、持續學習等關鍵技術,建立穩定推理和表達的有效機制,讓知識能夠被計算機理解和運用,實現從感知到認知的突破。解決推理、規劃、聯想、創作等復雜的認知智能化任務。同時,在場景圖與知識圖譜之間找到可靠的對應關系是計算機視覺未來發展的一項重要任務。由于描述符的限制,原始匹配常常被大多數離群值所污染,算法給出的匹配結果可能會在具有相似特征的圖像中進行交叉交換。當今學術界也在尋找一種可解釋的人工智能技術來解決此類問題,例如可解釋機器學習、符號學習、知識學習等。

第三,能否設計分布式機器人共享云端知識來應對不同場景。現實生活更多的圖結構數據給與了研究者們對于可解釋機器學習任務的部分靈感,圖的結構是十分不規則的,可以認為是無限維度的一種數據,所以它沒有平移不變性。節點的周圍結構具有獨特性質。使用這類圖數據可以高效且準確地表示知識,GNN、GCN等基于圖結構的神經網絡模型誕生于此。這些網絡可以抽取圖結構化數據的基礎知識并對此充分理解,可用于更準確地表示復雜概念。這可能包括第三維度很重要的分子或網絡,適用于場景理解和構建任務。同時,由于圖結構的高緯度性、節點高關聯性、復雜關系表達等優點,可以作為異構機器人共享云端數據的知識載體。結合云端海量先驗知識和終端機器人的少量識別即可做到場景識別的高準確率識別、低延時效果。

猜你喜歡
模態分類模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
主站蜘蛛池模板: 亚洲视频欧美不卡| 国产一区二区三区夜色| 人妻精品久久无码区| 毛片在线播放网址| 青青草91视频| 国产免费网址| 真实国产乱子伦视频| 日韩无码白| 欧美日韩国产在线人成app| 久久青青草原亚洲av无码| 99精品国产电影| 三级国产在线观看| 天天综合色天天综合网| 国产精品内射视频| 中文字幕亚洲第一| 亚洲h视频在线| 国产黄色免费看| 欧美激情综合| 亚洲人成电影在线播放| 国产内射一区亚洲| 国产成人亚洲综合A∨在线播放| 米奇精品一区二区三区| 国产午夜人做人免费视频中文| 国产麻豆福利av在线播放| 日韩欧美一区在线观看| 亚洲国产日韩一区| 亚洲一区二区约美女探花| 青青草a国产免费观看| 日本高清在线看免费观看| 国产拍揄自揄精品视频网站| 999精品视频在线| 亚洲综合久久一本伊一区| 国产精品福利社| 91www在线观看| 欧美日韩精品一区二区在线线| 99激情网| 99re热精品视频中文字幕不卡| 找国产毛片看| 欧美国产精品拍自| 久久一级电影| 伊人丁香五月天久久综合| 久久亚洲综合伊人| AV不卡在线永久免费观看| 91久久大香线蕉| 亚洲一区二区三区在线视频| 在线免费无码视频| 中文字幕色站| 国产精品久久精品| 色成人亚洲| 激情六月丁香婷婷| 日本一本正道综合久久dvd| 伊人婷婷色香五月综合缴缴情| 欧美精品v欧洲精品| 亚洲国产综合精品中文第一| 国产成人久久777777| 永久免费AⅤ无码网站在线观看| 毛片免费在线视频| 欧美另类第一页| 人妻中文久热无码丝袜| 在线观看国产网址你懂的| 久久久成年黄色视频| 九色视频在线免费观看| 野花国产精品入口| 国产一区二区三区视频| 亚洲男人的天堂久久香蕉网| 91在线精品免费免费播放| 亚洲Av综合日韩精品久久久| 国产成人精品高清不卡在线| 成人毛片免费在线观看| 日韩123欧美字幕| 久久青草精品一区二区三区 | 婷婷色中文网| 一区二区偷拍美女撒尿视频| 亚洲精品天堂在线观看| 蜜桃视频一区| 亚洲人免费视频| 2019国产在线| 91久久国产综合精品| 亚洲国产看片基地久久1024| 亚洲国产一成久久精品国产成人综合| 久久综合亚洲鲁鲁九月天 | 日本人真淫视频一区二区三区|