吳媛媛 夏沭濤 孫煒瑋
(1.91001部隊 北京 100036)(2.海軍航空大學信息融合研究所 煙臺 264001)
跨模態檢索任務是利用某一種模態信息的數據作為查詢去檢索其他模態信息所對應的數據,模態間關聯關系的建立有助于人們從海量數據中快速準確地找到感興趣的內容。近年來衛星與無人機等遙感探測技術飛速發展,遙感圖像文本跨模態檢索以其靈活高效的獲取感興趣信息的方式和實際應用價值受到了廣泛關注。通過建立遙感圖像信息與文本信息之間準確的關聯關系,實現兩種模態數據之間的關聯檢索,不僅能有效利用多源的情報資源,而且可以得到對同一目標的多方面信息,有利于提高描述同一目標情報信息的可靠性,有著重要的實際意義。
跨模態檢索的方法在自然領域已經得到了廣泛的探索[1~3],國內外學者也開始對遙感領域跨模態問題進行探索。文獻[4]研究了基于哈希網絡的SAR與光學圖像之間的遙感跨模態檢索,通過引入圖像轉換的策略豐富了圖像信息的多樣性。Gou等[5]中提出了一種視覺-語音關聯學習網絡,并構建了圖像和語音的關聯數據集,驗證了遙感圖像與語音數據之間關聯關系構建的可能性。文獻[6]基于不同模態信息間潛在的語義一致性,提出了一種通用的跨模態遙感信息關聯學習方法,通過共同空間的構建實現了多種模態數據的相互檢索。文獻[7]提出了一種深度語義對齊網絡,并設計了語義對齊模塊來細化遙感圖像與文本的對應關系,通過利用注意力和門機制對數據特征進行過濾以得到更具辨別力的特征表示。Yuan 等[8]提出了一種適用于多源輸入的非對稱多模態特征匹配網絡,同時構建了一個細粒度且更具挑戰性的遙感圖像-文本匹配數據集。雖然現在已經有許多對遙感圖像跨模態檢索方法的研究,但由于模型對各模態特征表示能力不足,關聯關系挖掘不夠充分等問題,造成現有的方法準確率仍比較低,難以滿足更高準確性的任務需求。
針對上述問題,為克服遙感圖像與文本描述之間的語義鴻溝,實現兩種模態數據之間的準確檢索,本文提出了一種基于Transformer融合的遙感圖像文本跨模態檢索方法,用于開展面向遙感圖像文本的跨模態檢索問題研究,該模型主要由各模態特征提取部分和跨模態融合部分組成,單模態特征提取部分用于獲取各模態信息準確的特征表示,跨模態信息融合部分用于進一步發掘不同模態之間潛在的關聯關系,實現跨模態特征信息的交互。最后,通過對比損失和匹配損失對不同模態的特征信息進行約束,增強跨模態信息間語義的一致性,以構建準確的關聯關系,并在多個公開數據集上驗證了方法的有效性。
為提高遙感圖像跨模態檢索算法的準確性,本文提出了一種基于Transformer 融合的模型(TFM)。所提模型對兩種不同模態數據分別設計了相應的特征提取模塊,輸入的遙感圖像通過視覺Transformer(Vision Transformer,ViT)[9]來學習其特征表示,圖像輸入后首先被切分為一個個小塊,進一步再經Transformer 編碼器進行處理。對于文本描述,采用BERT[10]模型進行處理,BERT 是一種基于注意力的雙向語言模型,而且其有效性在多種自然語言處理任務中已得到證明。本文所提模型的基本結構如圖1所示。

圖1 本文所提方法構架
輸入遙感圖像的處理過程如圖2 所示,在提取遙感圖像的特征表示時,視覺特征提取模塊首先會將輸入圖像分割為不重疊的小塊:

圖2 遙感圖像特征提取網絡
在圖像被分割成小塊后,首先會通過一個可訓練的線性投影將圖像塊展平并映射成維度為Dm的向量,這個投影的輸出稱為圖像塊編碼,再加以表示整個圖像的[CLS]編碼,輸入遙感圖像被表示成一系列的編碼向量:
在圖像塊編碼中還加入了位置編碼以使模型能夠保留輸入圖像塊的有關位置信息,有助于獲得更準確的特征表示。然后將所得到的向量序列輸入進行特征提取,獲得最終的圖像特征表示向量序列,進而將輸入遙感圖像的編碼向量映射到模型統一特征空間中,得到遙感圖像的視覺特征表示。
對于文本描述,使用BERT 作為其特征提取模塊,文本信息輸入后,首先由WordPieces[11]將輸入數據轉化成一個標記序列,然后將序列分割成單詞塊的形式。
其中,ycls代表整個句子的向量表示;ysep為句子結尾標識符向量;M是分割后單詞塊的數量。
單詞塊在文本特征編碼器初步處理后得到對應詞塊的編碼向量,再與輸入序列文本的位置編碼向量相結合得到最終的序列文本輸入的向量形式。然后進一步進行特征表示的學習,最后將學習到的特征向量映射到模型統一的特征空間中,獲得輸入序列文本信息的特征表示。
圖3 展示了輸入的序列文本信息處理過程,在文本描述輸入到特征編碼器后會先按單詞拆分,再進一步提取輸入數據所包含的豐富淺層特征和深層語義特征信息。

圖3 文本特征提取網絡
為了實現遙感圖像與序列文本之間的跨模態信息間的交互,本文模型中構建了跨模態信息融合模塊。模塊基于Transformer的基本架構,通過使用交叉注意機制進一步挖掘跨模態信息間潛在的相關關系,提高關聯的準確性。這種注意力機制與多頭注意力模塊結構相類似,但存在一定區別,跨模態信息融合模塊中的注意力機理如圖4 所示,其中X和Y是來自不同模態的特征信息。設計的跨模態融合模塊,通過融合單模態的特征表示來獲取融合特征信息,以進一步發掘不同模態信息間的關聯關系,提高特征表示的判別性。在融合之前,單模態編碼器已分別學習得到了視覺特征表示和序列文本特征表示,然后該模塊在單模態獲得的特征信息的基礎上,通過模態間信息的交互進一步挖掘有助于構建跨模態關聯關系的潛在語義信息。

圖4 跨模態融合模塊中的注意力機制
以輸入為同一模態信息時為例,該注意力機制的計算過程可表述如下:
3.學生在課堂中學習了一些有趣事實之后,通過Brainstorm的形式讓學生總結可以表達情感和觀點的形容詞,學生給出的詞匯非常豐富。
其中,Z?Rn×d為輸入向量,n為輸入向量長度,d為維度;WQi=?Rdm×D,WKi=?Rdm×D,WVi=?Rdm×D和WO=?RHD×dm是參數矩陣;dm表示模型的維數,通常dm=d;H為多頭注意力的頭數;D通過D=dm/H計算。其輸出結果會進一步輸入到前饋模塊,經前饋神經網絡和激活函數處理后輸出。
在本文模型中,為了在共同的特征空間中對不同模態信息進行約束,構建準確的跨模態關聯關系,所提模型設計的目標函數是對比損失和匹配損失的組合。對比損失通過最大化遙感圖像和序列文本間的相互信息,使得不同模態的語義信息保持一致性。而匹配損失有助于提高本文所提模型對輸入的圖像和序列信息是否匹配的判別能力,以建立更準確的關聯關系。所提模型整體的目標函數可表示為
1)對比損失
對比學習在一定程度上可以使得不同模態特征表示間的相互信息最大化,讓相關的圖像和文本信息在共同特征空間中更接近,而不相關的圖像和文本的表征信息在共同特征空間中距離更遠。采用與文獻[12]MoCo 類似的方式,使用動態字典作為存儲負樣本的隊列,其中的樣本在訓練過程中會依次被替換,該過程由與對應的模態特征編碼器共享相參數的動量編碼器實現,所提模型中使用兩個隊列存儲來自動量單模態編碼器的視覺和文本表示。不同模態信息間的相似度計算公式如下:
其中,Xcls,Ycls分別是圖像和文本編碼器最終輸出中代表整體信息的[CLS]編碼;gx,gy將[CLS]編碼向量映射為歸一化的低維特征表示。
通過對遙感圖像和文本描述特征表示的對比學習,所提模型可以更好地挖掘跨模態信息中潛在的語義信息,對比損失能夠使得相匹配的遙感圖像和序列文本的語義信息保持一致性,發掘不同模態信息間的潛在相關性,使單模態特征編碼器學習到的特征表示更具判別性。跨模態信息的對比損失有如下定義:
其中,h()表示交叉熵函數;Lit(I)和Lti(T)表示跨模態信息間真實的相似度標簽。
2)匹配損失
為了進一步提高所提方法的關聯性能,在模型中引入匹配損失來預測遙感圖像與序列文本信息是否相匹配。針對部分數據信息間具有很強的相似性,容易造成混淆,因此模型通過不同模態間的相似度找出硬負對來進一步提高判別性能,硬負對是指其中的部分樣本和真值具有較高相似度,但在具體細節存在差異,影響關聯的精確性。在計算跨模態信息間的匹配損失時,所提模型采用了硬負對的訓練策略。匹配損失的計算公式定義為
式中,ym是表示對應真值的二維獨熱編碼向量;pm是跨模態信息相互匹配的概率,由跨模態信息融合模塊輸出的[CLS]編碼向量進行計算。
常用的遙感圖像文本公開數據集主要包括:SYD-Captions 數據集[13],數據集包含613 張遙感圖像,每幅圖像對應5個描述語句。UCM-Captions數據集是在文獻[13]中構造的,數據集包含2100 張遙感圖像,每幅圖像對應5 個描述語句。遙感圖像文本匹配數據集(Remote sensing Image-Text Match dataset,RSITMD)[8]是最新公開的一個細粒度的遙感圖像與文本描述匹配數據集。該數據集共包含4743幅遙感圖像,且仍使用5 個句子來描述每幅圖像的內容,但描述更注重細節信息,各句子之間的相似性更低。上述數據集中的部分樣例如圖5中所示。

圖5 SYD-Captions、RSITMD和UCM-Captions數據集樣例
為了充分驗證本文所提方法的有效性,本文在上述數據集上進行了大量實驗。對于每個數據集,實驗時將80%的數據用作訓練,10%用作驗證,剩下的10%作為測試。
在實驗中,學習率設置為0.00003,迭代次數為20。在訓練過程中使用余弦退火策略來衰減學習率,圖像特征提取模塊通過預先訓練的權值的ViT[14]進行初始化,文本描述特征提取模塊由預訓練的BERT 模型進行初始化,兩種模態數據輸出特征向量的維度均設置為768,使用AdamW優化器[15]進行訓練。
跨模態檢索任務分為遙感圖像檢索文本(I→T)以及文本檢索遙感圖像(T→I)兩種類型。本文實驗采用召回率作為算法的性能衡量指標,R@K表示針對某一模態的查詢數據,返回的其他模態數據的前K 個返回值中包含的真值的比例,K 通常設置為1,5 和10。另一個來評估模型性能的度量指標為R_mean,用R@K 所有數據的平均值表示,能夠更直觀地反映模型的整體性能。上述指標的值越高,模型的表現越好。
為驗證本文方法的有效性,我們在上述數據集上進行了實驗驗證,并與部分圖文跨模態檢索的基準算法進行了對比實驗。對比算法分別為VSE++、SCAN、CAMP、MTFN,對比實驗在相同的實驗條件下進行[8],方法AMFMN 的后面代表其模型不同的注意力計算方法。在遙感領域常用公開的跨模態數據集上的對比結果如表1~3 所示。

表1 不同方法在SYD-Captions數據集上的結果對比

表2 不同方法在UCM數據集上的結果對比

表3 不同方法在RSITMD數據集上的結果對比
對比結果如表1~3 所示,其中VSE++、SCAN、CAMP、MTFN 是計算機視覺領域用于解決自然場景圖像跨模態關聯檢索問題的算法,從表格中可以看出,與這些方法相比,本文所提方法在幾個公開數據集上的實驗結果在反映模型整體性能的度量指標R_mean 以及各任務R@K 指標上大都有較大幅度的提高。這說明計算機視覺領域的部分方法在用于遙感領域時,由于遙感圖像的語義信息相對更豐富,導致這些模型的檢索效果并不理想,難以獲得數據中的準確表征信息來構建關聯關系。AMEMN 是遙感領域最近提出的用于圖像文本跨模態關聯的非對稱多模態特征匹配網絡,可用于多尺度輸入并能動態過濾冗余特征,與計算機視覺領域的幾種方法相比具有更好的性能。而本文所提的方法整體表現更為出色,在各個數據集的模型整體評價值指標R_mean 上均達到了最佳的表現,而且在兩個子任務的評價指標上的表現也較好,實驗結果優于其他基準算法。通過上述在常用公開數據集上與其他基準算法的對比,實驗結果有力說明了本文所提模型在實現遙感圖像跨模態關聯任務上的有效性,表明本文方法能夠較準確地對各模態信息的特征進行表征實現遙感圖像與文本描述之間的相互檢索。
本文提出了一種基于Transformer 融合的遙感圖像文本跨模態檢索方法。針對不同模態的信息,分別設計了對應特征提取模塊,再通過基于注意力的融合模塊實現跨模態信息間的交互,有助于深入發掘不同模態信息間潛在的相關關系,增強語義相關性。進一步通過對比學習損失函數以及不同模態數據間的匹配損失函數的設計,使不同模態間的相互信息最大化,增強跨模態信息間的語義相關性及一致性,構建準確的關聯關系。最后在多個公開數據集上,通過與其他基準方法的對比實驗,充分驗證了所提方法的有效性。不過模型規模相對較大,后續將考慮輕量化的設計進一步優化所提算法。