多模態檢索在醫學領域的研究綜述

2023-01-13 11:56:54丁國輝房士超孫小宇張路霞孔桂蘭

計算機工程與應用 2023年1期

丁國輝，張琦，房士超，李青，孫小宇，，張路霞，，孔桂蘭，

1.北京大學健康醫療大數據國家研究院，北京 100191

2.沈陽航空航天大學計算機學院，沈陽 110136

3.浙江省北大信息技術高等研究院，杭州 311215

隨著計算機與大數據技術在醫學領域中的迅速應用以及醫療信息存儲標準的逐漸完善，醫學數據呈爆炸式增長。醫學數據由于其自身特點而呈現出多模態形式，診斷報告、多種醫療成像設備如X光、計算機斷層掃描、磁共振成像、超聲成像和正電子發射斷層掃描產生的醫學影像都被稱為多模態數據。且這些多模態數據往往同時出現，互相補充[1]。如骨折的位置以及斷裂的狀態和程度可以用X光片來表示，也可以通過文字報告進行表示，實際臨床分析中通常使用以上兩種模態的數據來準確描述骨折的情況[2]。在醫學領域中，這些多模態數據混合并存，形成了一種語義上相似且相互關聯的復雜特征。如何跨越不同模態間底層異構鴻溝以及底層特征與其抽象語義間的語義鴻溝[3]，進而實現多模態數據間的關聯是急需解決的問題。

如圖1所示，醫學領域多模態檢索，即用一種模態的樣本來檢索多種模態的醫學數據，如使用文本來檢索與之語義相似的診斷報告、CT、X光片、MRI等多種模態的數據，是涉及機器學習、自然語言處理、計算機視覺、大數據等技術的交叉領域，具有十分重要的學術價值和研究意義[4]。放射學科醫生進行診斷時，通常根據他們之前肉眼觀察過的病例特征來判斷，由于數據量大、經驗有限等原因，不可避免會出現誤診等情況，對患者治療的準確性留下很大的隱患。而多模態醫學檢索技術能夠幫助醫生檢索到語義相似的多模態病例信息，從而提高臨床診斷和治療決策的效率與準確性，并且這些整合的醫學資源便于新手醫生和學生進行學習，也為促進計算機輔助診斷系統提供了一個新視角。因此，實現多模態數據檢索在醫療領域具有重要的臨床意義。本文通過相關文獻研究，總結了多模態檢索在醫學領域的研究進展，主要貢獻點如下：

圖1 醫學領域的單模態與多模態檢索Fig.1 Unimodal and multimodal retrieval in medical field

（1）綜述多模態檢索在醫學領域的進展，有利于快速了解和熟悉醫學大數據的多模態檢索現狀。

（2）對醫學領域多模態檢索方法進行歸類，并介紹不同類別的多模態檢索方法及其特點。

（3）梳理醫學領域多模態檢索面臨的挑戰，并總結未來該領域的發展趨勢。

1 多模態檢索方法

當前醫學領域，為從海量的異構醫學數據中提取出有效信息，幫助醫生提高臨床診斷與治療的效率及正確率，多模態檢索技術已成為一個研究熱點，尤其是在圖像檢索方面得到廣泛應用并取得較多研究成果[5-14]。本文系統梳理了醫學領域的多模態檢索方法，將其歸納為三類：基于文本的多模態檢索、基于內容的多模態檢索及基于融合信息的多模態檢索。其中，基于內容的多模態檢索可進一步劃分為基于傳統特征的檢索和基于深度特征的檢索。

1.1 基于文本的多模態檢索

基于文本的多模態檢索是早期常用的研究方法，如圖2（a）所示，該方法將數據庫中的多模態醫學圖像通過某種方法以文字的方式表示，通過將多模態檢索轉變成單模態檢索解決異構數據間的“語義鴻溝”問題[15]，其依賴的文本數據一般需要從圖像描述中提取，故基于此方式的數據檢索應該提供圖像的上下文或標題。為實現對大量放射圖像及其相關文本的快速訪問，Kahn等[16]開發了一個包含20萬張多模態醫學圖像的搜索引擎，基于圖像標題來構建索引，然而圖像中包含的信息豐富，一個圖標題概括不了圖中所有的文本信息。于是Xu等[17]開發了一個耶魯圖像檢索系統（Yale image finder，YIF）來實現圖像與論文的檢索，不僅可以基于圖像標題、相關論文摘要和論文標題中的文字完成相關圖像及論文的檢索，而且使用光學字符識別和分析圖像中的文本，然后基于圖像中攜帶的文本來檢索生物醫學圖像和相關的論文。在圖像對應的文本描述中，并非所有文字都起到同等重要的作用，以上提到的兩種方法均無法突出圖像中的重點。為區分重點與噪音內容及得到更匹配的結果列表，Stathopoulos等[18]創建了圖像的結構化文本表示，并使用基于結構化文本中字段的組合對它們進行索引，由于不同字段對圖像描述的權重存在差異，因此該方法采用對相應部分的字段賦予不同的權重作為檢索階段的特征。

圖2 醫學多模態檢索方法分類Fig.2 Classification of medical multimodal retrieval methods

更早的時候，基于文本的多模態圖像檢索方式是通過醫學專家對圖像的人工注釋來構建索引的，但該方法由于昂貴的人工成本及龐大的數據量而難以實現。后來研究者使用圖像依附的上下文、圖像標題或識別圖中的文字來自動構建圖像的文本索引，然而這種方法仍然有很大的局限性，畢竟不是所有的醫學圖像都具有上下文及標題，且很多臨床圖像中也不包含文字，所以上文提到的基于文本的多模態檢索方法不具有普適性。

1.2 基于內容的多模態圖像檢索

在醫學領域中，基于內容的多模態圖像檢索（content based image retrieval，CBIR）是一種圖像檢索技術，如圖2（b）所示。檢索的目標是在包含不同成像方式的多模態醫學圖像數據庫中（例如，CT圖像、X光圖像、MRI圖像、超聲圖像等）搜索與給定查詢圖像具有相似視覺特征的醫學圖像。為了實現這一目標，算法將圖像的視覺內容轉換成視覺特征來表示圖像，然后基于視覺特征之間的距離來計算圖片間的相似度。近年來，許多基于內容的多模態圖像檢索系統得到了發展，但多種模式的醫療成像設備給醫學圖像的檢索帶來了挑戰，面對這一挑戰，研究者開發了一系列算法用于實現基于內容的多模態醫學圖像檢索。通過相關文獻研究，本文將其劃分為基于傳統特征和基于深度特征兩種。

1.2.1 基于傳統特征的方法

醫學領域中使用的圖像特征主要集中于全局顏色、邊緣、紋理等，大多數檢索方法通常使用這些特征的組合。由于這些特征可以自動或半自動地從實際圖像中提取，所以它比昂貴且主觀的人工標注更可靠且更具有可擴展性[19]。Zhou等[20]提出了一個基于案例的骨折圖像檢索算法，其可以在混有X光片、計算機斷層掃描、核磁共振、血管造影等多模態圖像數據庫中完成相似圖像的檢索，案例特征（case feature）由一個視覺關鍵詞和局部尺度不變特征轉換（scale-invariant feature transform，SIFT）[21]共同組成，該方法使用案例特征來計算查詢圖像與數據庫中每張圖片的相似度。為了減小多模態圖像數據檢索中的異構差異，Liu等[22]提出了一種新的傳播圖融合框架來實現基于內容的多模態醫學圖像檢索，該方法首先將查詢對象在不同模態的特征空間中建模，然后將多個特征空間中的圖融合為一個以查詢對象為中心的有向傳播圖，圖中的邊反映了查詢圖像與其他數據間的相關性，最后根據結點之間的相關度來進行索引排序。同樣使用到圖的多模態醫學圖像檢索，與之不同，Kumar等[23]通過將圖像壓縮為圖的方式來實現正電子發射與計算機斷層掃描的檢索，圖的頂點和邊分別代表人體相關的組織器官及空間結構。這種基于空間相似性的圖檢索方法雖然有效提高了檢索精度，然而圖的存儲及圖之間相似性的比較在空間和時間上增大了算法復雜度，而且大規模醫學影像數據也會消耗巨大的存儲空間。為提高系統的可伸縮性與響應速度，Kitanovski等[24]開發了一種基于內容實現多模態醫學圖像檢索的系統，利用編碼和量化技術極大地縮減了圖像表示的大小，其在生成的向量上使用的乘積量化技術提高了系統的可擴展性和響應速度。

1.2.2 基于深度特征的方法

自2006年起，深度學習飛速發展并且在眾多科學挑戰中取得了成功[25-29]，典型的卷積神經網絡（convolutional neural network，CNN）、遞歸神經網絡（recursive neural network，RNN）、深度置信網絡（deep belief network，DBN）等深度學習方法也被應用在多模態檢索領域[30-32]。深度特征即通過深度神經網絡在具有不同成像方式的多模態圖像中學習到的特征，其通過多層網絡融合了圖像中的低級、中級和高級特征，有效解決了傳統特征在捕捉多模態醫學圖像之間語義相似方面的局限性問題。在組織病理學中，Wang等[33]和Janowczyl等[34]介紹了深度學習在該領域的應用，其中使用深度特征實現醫學圖像檢索的研究較少。然而，近幾年利用深度特征實現信息檢索受到了大家廣泛的關注，在醫學領域也有研究人員將深度特征用于醫療多模態圖像的檢索。Shi等[35]利用深度學習技術學習映射函數，提出了基于堆棧式自動編碼器的無監督方法和基于深度卷積神經網絡的有監督方法來挖掘不同模態間的語義關系。2020年，Mbilinyi等[36]提出利用深度特征從包含不同成像方式的多模態醫學圖像數據庫中（例如，CT圖像、X光圖像、MRI圖像、超聲圖像等）中檢索相似的醫學圖像，且使用三種圖像特征進行實驗對比：（1）從自然景物圖像訓練出的CNN模型中通過微調提取深度特征；（2）從基于醫學圖像訓練得到的CNN模型中提取深度特征；（3）使用哈拉里克和局部二值模式的紋理特征，結果證明兩種基于深度特征的檢索性能均優于傳統的紋理特征。Rossi等[37]于2021年使用有監督的深度孿生網絡來改進簡單CNN對醫學圖像的特征提取能力，實現前列腺多模態和多視圖磁共振圖像間的多模態檢索，研究表明該網絡[38-41]在圖像相似性度量方面的能力得到顯著的提升，該方法與成熟的基于深度學習的CBIR的實驗相比，在精度-召回率、平均精度等方面有顯著提高。盡管深度學習極大地推進了多模態檢索在醫學領域的發展，但該方法通常需要大規模數據來訓練網絡，耗時且占用大量的計算空間，引入哈希變換則可以很好地解決這類問題。

哈希變換是跨模態檢索技術中一種常見的性能優化方法，其在提升檢索速度的同時，能夠降低檢索過程中的存儲開銷，因此在跨模態檢索中得到了廣泛的應用[42-46]。其思想是利用多模態數據的樣本對信息學習哈希函數，函數映射的基本依據是相似樣本的哈希碼也是相似的。因此，將多模態數據映射到一個漢明空間，最小化相似樣本之間的哈希距離的同時最大化不相似樣本之間哈希距離，然后在漢明空間中即可實現快速的跨模態檢索[47]。Wang等[48]和Cao等[49]將哈希方法與深度學習結合，分別提出了基于堆疊式的自動編碼器和深度神經網絡相關的自動編碼器。為增強特征提取與哈希編碼的一致性，Jiang等[50]將特征抽取和哈希碼學習進行整合，提出了統一框架，實現了端到端的學習。Yang等[51]將深度哈希算法應用到醫療多模態檢索領域中，提出了一個深度貝葉斯的學習框架，將多模態數據映射到一個共享的漢明空間，從而在多模態神經圖像中學習到能代表該數據的哈希碼，哈希碼之間的距離大小代表著多模態數據間的相似程度。實驗結果表明該方法能夠生成有效的哈希碼，并在三個多模態神經圖像數據集的檢索中取得了良好的性能。然而該方法并未考慮到人體組織間的高度相似性會帶來微小病灶信息難以區分的問題，針對醫學影像視覺差異小這一特點，Zhang等[52]通過加入attention注意力機制，利用平均池化和局部重復注意力提取全局特征，遞歸地從圖像的粗粒度移動至細粒度，完成影像中更具鑒別力區域特征的提取，其在MIMIC-CXR數據集中取得了很好的效果。以上兩者中所提到的醫學圖像均是二維平面圖，面向三維立體的ROI肺結節圖像塊，針對文獻[53]提出了使用多層面二階融合的特征提取的方法提取肺結節特征信息，首先從三個不同角度對ROI圖像塊切片并進行特征融合，然后通過改進的殘差網絡進行低級特征與高級特征的二階融合，提取出更完整的三維肺結節的特征信息。雖然基于哈希的多模態檢索極大地促進了計算機輔助診斷系統的發展，但哈希碼的弱鑒別性則對其發展造成了阻礙。Shi等[35]使用深度確定性信息瓶頸方法（deep deterministic information bottleneck，DIB）[54]來避免變分推理和分布假設從而減少多余的信息，有效地增強了哈希碼的可鑒別性。以上四種方法捕獲兩個模態之間的相關性時均使用的粗粒度的標簽信息或模態間和模態內的相似性，不利于保留原始空間和漢明空間之間的流形結構，針對這一問題，Xu等[55]直接使用多模態流行相似度來保持實例間的相關性，且引入高斯二進制受限玻爾茲曼機利用實值約束直接輸出哈希碼，無需進行任何連續松弛繼而平滑擬合，其提出的判別項可保證哈希函數所編哈希碼的每一位各不相同，解決了哈希碼弱鑒別性問題。

從以上提到的模型可以看出：基于內容的多模態檢索技術逐漸趨于成熟。同時，也經歷了從基于傳統特征到基于深度特征方法的改進，繼續使用傳統的視覺特征很難在準確率與召回率方面得到明顯的提升，目前深度神經網絡發展迅速，其強大的非線性特征提取具有很大的潛力，所以使用基于深度學習的方法會是今后重點研究的方向。鑒于深度模型的參數龐大，需要大量標注的訓練樣本，可以考慮結合遷移學習等方法解決這一問題。

1.3 基于融合信息的多模態檢索

盡管基于內容的多模態醫學圖像檢索取得了一些進展，但現有系統的檢索精度仍然有限，所以將基于內容和基于文本的方法結合起來進行多模態圖像檢索以克服這兩種方法分別進行檢索時的不足成為一個研究熱點。如圖2（c）所示，信息融合常用的方法是利用從文本中提取的語義信息與圖像特征信息進行組合。Martín-Valdivia等[56]使用信息增益（information gain，IG）度量來篩選文本中的有效語義信息，然后通過融合圖像與文本信息對基于視覺內容的多模態圖像檢索系統進行改進。融合多模態異構信息提取出更高級的語義特征，可以更好彌補模態間語義鴻溝。除了這種特征級融合算法，Vikram等[57]還探索了決策級特征融合技術在醫學多模態檢索中的效果，其使用一種基于潛在狄利克雷分配（latent Dirichlet allocation，LDA）的視覺特征編碼方法，首先利用視覺特征來與數據庫中的圖像進行相似度衡量，然后將文本作為補充語義來篩選出更理想的結果列表，研究結果表明這些特征能夠有效地對多模態醫學圖像進行建模。該文提出的決策級融合技術在Image-CLEF2009數據集上實現了比其他技術更高的平均精度均值，證明了其適用于多模態醫學圖像檢索。考慮到現實的臨床應用中經常會缺失一些模態，Cao等[58]開發了一種新的基于深度玻爾茲曼機的多模態學習模型，從多模態信息中學習聯合密度模型來生成缺失的模態，然后使用一種新的概率潛在語義分析模型（probabilistic latent semantic analysis，PLSA）整合醫學圖像的視覺和文本信息，通過融合多模態異構信息提取出高級語義特征彌補語義鴻溝。該方法在很大程度上提高了醫學圖像檢索的性能，在臨床實踐和醫療保健方面也有很大的應用潛力。然而，其中對生成缺失模態信息的算法要求會比較高，生成算法的準確率直接影響檢索算法的性能。

不同模態的數據從不同角度表達了多種相關信息，通過挖掘多模態數據內在內容的相關性可以達到優勢互補的效果。融合的信息可以更好地反映出用戶的檢索需求，有利于提高使用單一模態檢索的效率，但是算法最終的準確率依賴于融合算法的性能，如何有效地對多個單模態的數據進行特征特取與融合是一個富有挑戰性的工作[59]。

2 醫學領域多模態公開數據集

數據集對開展多模態檢索方法研究及性能評價方面的研究至關重要，由于多模態檢索技術在醫學領域應用及發展時間比較短，所以目前醫學領域公開的多模態數據集比較少，而且，多模態數據集的規模也相對較小。醫學領域中常見的公開的多模態數據集如表1所示。

表1 醫學領域中常見多模態數據集Table 1 Common multi-modal datasets in medical field

（1）ImageCLEF：ImageCLEF是跨語言評估論壇（Cross Language Evaluation Forum，CLEF）的一部分，主要涉及信息檢索（文本、視覺、音頻、多媒體、傳感器數據、社交媒體）、機器學習、數據挖掘、自然語言處理等，尤其關注多模態、多語言的交互式方面的挑戰。Image-CLEF醫學圖像數據來源廣泛，包括放射學、病理學、內窺鏡和核醫學圖像，包含了2005至2007年間的66 000多幅圖像。在2013年，ImageCLEF數據集已經擴展到30萬幅多模態醫學圖像，包括磁共振、計算機斷層掃描、正電子發射斷層掃描、超聲波和組合模式，而且所有的圖像都帶有相關的文本報告。該數據集被廣泛應用于醫學領域的多模態醫學圖像檢索中。

（2）LIDC-IDRI數據集：Lung image database consortium（LIDC-IDRI）是一個國際公開的數據庫，也是目前對肺結節研究使用最多的一個數據庫。該數據集由美國國家癌癥研究所（National Cancer Institute，NCI）發起收集，共收錄了1 010個患者的病例。每條數據由CT掃描圖像和一個相關的XML文件組成，該XML文件記錄了4位經驗豐富的胸椎放射科醫生對圖像注釋的結果。每個放射科醫生先獨立檢查每個CT掃描，并標記出“結節≥3 mm”“結節＜3 mm”“非結節≥3 mm”3者中的一種。隨后，每個放射科醫生分別檢查他們自己的標記以及其他3位放射科醫生的匿名標記，以給出最終的意見。每位患者的CT圖像切片有100至300張。

（3）MIMIC-CXR數據集：MIMIC-CXR數據集[60-61]是一個大型公開的X射線胸片數據庫，收錄于馬薩諸塞州波士頓貝斯以色列女執事醫療中心（Beth Israel Deaconess Medical Center，BIDMC）的227 835項影像學研究。該數據集共有377 110張胸部X射線圖像，格式為醫學數字成像和通信（digital imaging and communications in medicine，DICOM）。每張圖像有其對應的自由文本報告，該報告是由放射科臨床醫生對特定影像注釋的總結。每張圖像有14個影像學標簽，這些標簽是從相應的放射學文本報告中提取出的。為了保護患者隱私，所有圖像均已取消標識，該數據集在計算機視覺領域得到了廣泛的應用。

DICOM是一種存儲了帶有大量像素值元數據的二進制文件格式，放射學的復雜性導致DICOM格式的數據體積龐大且難以理解，這給非醫學領域的研究人員造成了障礙。為解決這一問題，MIMIC-CXR數據庫提供其簡便版本MIMIC-CXR-JPG數據庫[62]，該數據庫中的內容完全來自于MIMC-CXR，其中圖像使用有損壓縮轉化為JPG格式，雖然會丟失一部分信息，但是極大地減小了圖像的存儲空間同時便于圖像的處理，以上優點使得該數據庫在計算機視覺與信息檢索等領域很受歡迎。

（4）ChestX-ray14數據集：ChestX-ray14數據集[63]是由NIH研究院整理發布的，其中包含了30 805名患者的112 120張正面胸部X光片，每張X光片有其對應的診斷報告。研究人員對數據采用NLP方法對圖像進行標注，共標有14種不同肺部疾病。利用深度學習技術盡量早期發現并識別胸透照片中肺炎等疾病，對增加患者恢復和生存的最佳機會來說至關重要。

3 多模態檢索方法評價

信息檢索中算法的性能通常使用測試數據集來衡量，常用的性能評價指標包括準確率和召回率，也稱查準率與查全率。準確率代表返回的結果中相似樣本所占比例，定義為：

理想情況下希望以上兩指標都高，但在實際情況中兩者是互相影響的，準確率高時召回率往往會低，而召回率高時準確率會低。構造一個高準確率同時高召回率的算法是很難實現的。平均精度均值（mean average precision，MAP）是將準確率和召回率結合成一個單一的綜合指標。MAP由3個遞進概念構成：P、AP、MAP。P即“precision”即上文的準確率；AP為平均準確率（average precision），其計算公式如下：

其中T為數據庫中與查詢樣本相似的總個數，R是檢索結果返回的樣本總個數，r為檢索結果序列中的位置索引，P(r)表示返回的前r個結果的準確率，δ(r)表示第r個檢索結果是否是查詢數據的相似樣本，若相關則δ(r)=1，否則δ(r)=0。MAP即對所有的測試樣本的AP再求均值，MAP值越大代表算法的準確性越高。對于單個主題的檢索任務來說，MAP是反映算法綜合性能的單值指標。

4 醫學領域多模態檢索總結與展望

4.1 醫學領域多模態檢索總結

如今，人工智能與機器學習的飛速發展使計算機輔助診斷發生了質的飛躍，并普遍應用在實際生活中，多模態醫學數據在數量上呈現出海量化增長的趨勢。多模態醫學檢索技術能夠幫助醫生檢索到語義相似的多模態病例信息，從而提高臨床診斷和治療決策的效率與準確性，本文對多模態醫學檢索方法進行了較為細致的梳理與分類，對基于文本的、基于內容的以及基于融合信息的多模態醫學檢索分別進行介紹，對每類方法中的代表性算法進行了研究、分析與對比，具體見表2。

表2 （續）

表2 多模態檢索方法特點分析與對比Table 2 Analysis and comparison of multi-modal retrieval methods

總的來看，多模態檢索在醫學領域已經取得了很大的進展，但還有很大的發展空間。基于文本的多模態檢索具有很大的局限性，而且文本描述與視覺內容差異會導致準確率低。為了解決這一問題，提出基于內容及基于融合信息的多模態檢索方法。基于內容的多模態檢索利用醫學圖像本身提取灰度、紋理、形狀等特征作為檢索的匹配準則，在臨床診斷提供了很大的幫助，此外在醫學教育和醫學研究方面也產生了積極深遠的影響。其中，基于深度特征的多模態醫學圖像檢索雖然需要大量的樣本使網絡收斂，但深度神經網絡強大的非線性特征提取能力使其有很大的發展潛力，未來可以考慮與遷移學習或者小樣本學習結合。基于融合信息的多模態檢索通過融合不同模態的特征信息可以更好地彌補底層特征與高級語義的語義鴻溝問題，但算法性能依賴于信息融合的好壞，而且模型的復雜度相對增高。

4.2醫學領域多模態檢索挑戰

（1）圖像數據復雜

與普通相機的成像方式不同，醫學圖像不是直接通過傳感器檢測光線來完成圖片的生成，而是在較為嚴格的標準下通過專業的醫學成像設備產生的，圖像質量與許多因素相關且常伴有噪聲[64]。此外，由于人體組織具有高度的相似性，所以醫學圖像之間的視覺差異很小，且差異集中在局部病灶區。故準確識別出這些病灶特征是醫學多模態檢索的一個難點。

（2）異構數據的語義鴻溝

在實際的醫療應用中，器官的檢測通常需要采用多模態成像方式（例如，CT圖像、X光圖像、MRI圖像等），如常見的結合計算機斷層掃描和正電子發射斷層掃描，而不同的成像設備之間的分辨率和灰度變化范圍很大，如何跨越異構數據間的語義鴻溝，從而實現模態間數據的語義對齊為多模態數據的分析和檢索帶來巨大的挑戰。

（3）數據集限制

另一方面，數據集限制也是進行醫療多模態檢索研究時的一大難題。目前醫學領域中可用的多模態公開數據集較少。為保護患者隱私，各醫院必須妥善管理病人的基本信息及診療數據，當在一項研究中需要使用來自多家醫院的患者數據時，會存在各種約束條件[65-66]。若能解決隱私限制問題，醫學專家便可通過智能檢索系統實現對類似病例的異地訪問，這有助于提高臨床診療效率和水平[67]。而且近年來的研究主要針對大規模數據集，尤其基于深度學習的醫學大數據挖掘，該方法需要大量數據來訓練深度人工神經網絡模型，故突破數據集限制將對多模態檢索技術在醫療領域中的發展起到重大推動作用。

4.3 醫學領域多模態檢索展望

醫學領域的多模態檢索較其他領域而言發展較慢，結合該領域特點進行分析，總結未來的發展研究趨勢如下：

（1）細粒度的多模態相關性建模

由于人體組織大體相似，所以醫學圖像較自然圖像而言視覺差異小，且差異一般集中在局部病灶區。現有基于深度特征的多模態檢索方法在學習多模態共同表示時將多模態數據映射到公共空間，然后在該空間內直接度量相似度，這類方法在多模態共同表示建模時太過粗糙，不利于有效挖掘不同模態的語義一致性。因此針對不同模態的數據提取出更細粒度的特征表示會成為未來的一個研究方向。

（2）與最新的深度學習技術結合

目前將深度學習技術應用在醫學多模態檢索的研究還不是很多，從表2中可以看到，基于深度特征與基于傳統特征的方法相比，深度神經網絡在該領域的優越性顯而易見，其分層特征提取能力為圖像的表示提供了很好的思路。關于基于融合信息的方法思路很好，但這方面的研究不多，而且由于對融合算法的高要求導致已有算法表現并不好。超圖神經網絡有較強數據樣本間非線性高階關聯的刻畫和挖掘能力，在處理多模態、異構數據時更加靈活，也方便多模態的融合與擴展，多模態信息融合使用超圖神經網絡等來進行算法改進會是一項可行的研究。類似地，針對醫學領域的特點與需求，將最新的深度學習技術改進多模態檢索算法也是有價值的研究方向。

（3）輕量級的多模態檢索

臨床醫學領域中存在著大量的多模態數據，與之相應的是對于醫學多模態數據檢索的需求與要求也越來越高，目前的文獻研究中，研究者們都在追求提高檢索精度，所設計的算法復雜度高、耗時長，難以部署在小型計算平臺上完成檢索效率的需求。因此，設計高效且性能俱佳的輕量級檢索算法也是未來一個至關重要的研究方向。

（4）建立大規模公開數據集

目前醫學領域可用于多模態檢索研究的公開數據集非常少，而該領域的發展尤其涉及深度學習的一些方法依賴于大批量訓練樣本。故建立大規模、多語義的公開多模態數據集是一項很有價值的工作。

（5）結合聯邦學習

聯邦學習能夠在滿足用戶隱私保護、數據安全和政府法規的要求下，進行數據使用和機器學習建模，這恰好可以解決醫學領域中數據集限制問題。因此利用聯邦學習的核心優勢來解決醫療數據的隱私問題在醫學多模態檢索中是一項很有前景的研究。

5 小結

醫學數據不僅規模龐大，而且其自身特點呈現出多模態形式。面向這些大規模醫學數據，實現多模態檢索的主要挑戰包括跨越多模態數據的異構鴻溝、發現可以表示多模態數據語義信息的特征、挖掘不同模態數據間的復雜關聯。本文對多模態檢索在醫學領域的研究與應用進行了文獻研究，介紹了醫學領域一些公開的多模態數據集，將多模態檢索在醫學領域的實現方法歸納為基于文本、基于內容以及基于融合信息的多模態檢索三類，分析了當前醫學領域多模態檢索研究與應用所面臨的挑戰，最后結合目前醫學領域多模態檢索的一些待解決的問題和部分新興的研究思路，展望了未來醫學領域多模態檢索的研究發展趨勢。