周林鵬, 姚劍敏,2*, 嚴 群,2, 林志賢
(1. 福州大學 物理與信息工程學院,福建 福州 350108;2. 晉江市博感電子科技有限公司,福建 晉江362200)
醫(yī)學影像技術(shù)日益成熟,如何有效地利用已有的醫(yī)學影像數(shù)據(jù)輔助醫(yī)生進行分析和診斷是目前相對有挑戰(zhàn)性的任務。醫(yī)學圖像數(shù)據(jù)主要包括磁共振成像(MRI)、電子計算機斷層掃描圖像(CT)、數(shù)字減影血管造影圖像(DSA)以及正電子發(fā)射斷層掃描圖像(PET)。海量的數(shù)據(jù)、各種各樣的歸類標準給醫(yī)學影像的有效組織和管理帶來了巨大的挑戰(zhàn),與之而來的是專業(yè)影像醫(yī)生的極度緊缺。在中國,醫(yī)學影像的年增長率約為30%,但放射科醫(yī)生的年增長率僅有4.1%。據(jù)統(tǒng)計,以肺結(jié)節(jié)檢測為例,三甲醫(yī)院平均每天需要接待200例左右的肺結(jié)節(jié)篩查患者,每個患者在檢查環(huán)節(jié)中會產(chǎn)生200~300張左右的CT影像,如何利用現(xiàn)有技術(shù)及相關(guān)影像數(shù)據(jù)來輔助醫(yī)生進行臨床診斷成為了現(xiàn)在亟待解決的問題[1-3]。
目前,醫(yī)學影像信息系統(tǒng)(PACS)可以通過各種接口將臨床收集的醫(yī)學影像以數(shù)字化的形式保存起來,初步解決了影像數(shù)據(jù)的存儲問題[4]。為了利用這些醫(yī)學數(shù)據(jù)庫來輔助醫(yī)生進行病情分析及診斷,需要設(shè)計有效的醫(yī)學圖像檢索系統(tǒng)(CBMIR)。通過檢索相似的圖像和病歷,醫(yī)生可以綜合參考多個維度的信息來給出更加全面精準的病情定位及診療方案。因此,圍繞CBMIR系統(tǒng)設(shè)計及優(yōu)化的相關(guān)研究也越來越多。Jiji等提出了一種基于內(nèi)容的皮膚病變圖像檢索方法[5],Mizotin等提出了一種基于SIFT特征的視覺詞袋的方法,用于腦磁共振圖像的檢索,以診斷阿爾茨海默氏病[6]。Rahman提出了一種基于類別信息作為監(jiān)督信號的生物醫(yī)學圖像檢索方法[7]。陳等人提出基于多參數(shù)Gabor的消化道超聲圖像的處理方法,強化了超聲圖像邊緣信息的特征提取[8]。近年來,深度學習在圖像處理領(lǐng)域取得了巨大的成功,為圖像特征提取提供了新思路。Qayyum等人提出了通過遷移學習的方法在自然圖像上預先訓練的CNN模型上使用醫(yī)學圖像進行微調(diào),并將模型所學習的特征和分類結(jié)果用于醫(yī)學圖像檢索[9]。呂等人提出基于三維卷積的肺結(jié)節(jié)圖像處理方法[10]。熊等人提出基于vgg16及哈希編碼的醫(yī)學圖像檢索模型DHCNN[11], 彭晏飛等人提出引入注意力機制進行圖像特征提取[12],周國華等人提出使用多幅不同角度圖像進行CT圖像檢索[13]。
醫(yī)學圖像具有不同于通用數(shù)據(jù)集的固有特征:異質(zhì)性、模糊性、高分辨率、多模態(tài)等[14],而文獻[6]中的模型無法很好地提取圖像語義特征,文獻[9]中模型只用了網(wǎng)絡最后幾層特征描述圖像,忽略了底層紋理特征,因此都未取得較滿意的檢索精度。本文提出了一種融合多尺度特征及注意力機制的醫(yī)學圖像檢索方法,該方法通過抽取不同尺度的特征進行學習,有效融合了淺層視覺特征及深層語義特征,并引入注意力機制來提高網(wǎng)絡對關(guān)鍵區(qū)域的關(guān)注度,抑制無關(guān)背景區(qū)域?qū)z索結(jié)果的干擾。最后在損失函數(shù)設(shè)計上,結(jié)合了交叉熵損失及中心損失的優(yōu)點,有效緩解了檢索過程中誤檢索及漏檢索的現(xiàn)象。
根據(jù)圖1所示,一個完整的醫(yī)學圖像檢索系統(tǒng)一般包括以下3個流程:首先是數(shù)據(jù)集線下特征抽取并組建特征矩陣庫的階段,其次是線上輸入圖像特征提取階段,最后是將輸入圖像的特征與特征矩陣庫中的特征進行相似度計算,并返回相似度排名靠前的top-k圖像。

圖1 醫(yī)學圖像檢索系統(tǒng)示意圖Fig.1 Schematic diagram of medical image retrieval system
上述流程中主要包括圖像預處理、特征提取以及距離度量3個功能模塊,本節(jié)將就這3個功能模塊的具體實現(xiàn)展開介紹,并重點介紹本文在特征提取模塊的設(shè)計及優(yōu)化上所做的相關(guān)工作。
在進行醫(yī)學圖像檢索時,通常需要對不同成像設(shè)備采集到的圖像采取不同的預處理措施,比如常見的CT圖像中,像素值分布較廣,直接歸一化到0~255會損失較多的信息,因此需要根據(jù)不同組織的Hu值來選擇合適的窗寬窗位做特定區(qū)間的像素延展,使圖像的細節(jié)信息得以凸顯。對于X-ray圖像,通常會由于不同采集設(shè)備以及不同放射劑量使數(shù)據(jù)庫中X-ray樣本的亮度、對比度等分布不均勻,需要對圖像數(shù)據(jù)進行直方圖平衡預處理,以減輕外界因素對模型特征學習的干擾。
本文的主要工作主要集中在本模塊的設(shè)計及優(yōu)化上,首先是設(shè)計了一個多尺度特征提取網(wǎng)絡,其次是引入自注意力模塊,最后是結(jié)合多重損失對模型進一步優(yōu)化。本模塊的主體結(jié)構(gòu)如圖2所示。

圖2 特征提取模塊結(jié)構(gòu)圖Fig.2 Structure diagram of feature extraction module
2.2.1 多尺度特征提取網(wǎng)絡
本文的特征提取模塊選用了經(jīng)典的Resnet[15]結(jié)構(gòu),我們希望通過一個深層網(wǎng)絡來獲取醫(yī)學圖像中深層次的語義特征。然而由于網(wǎng)絡層數(shù)變深,同時也帶來了梯度爆炸或梯度彌散的問題,并且梯度在從深層向淺層傳遞的過程中逐步減弱,使得淺層網(wǎng)絡無法得到有效的訓練。由于梯度的不穩(wěn)定及反傳的低效性,導致網(wǎng)絡很難收斂。針對這些問題,Resnet網(wǎng)絡進行了相應的結(jié)構(gòu)改進。
梯度在傳播過程中的不穩(wěn)定性主要由以下幾點導致:首先,在權(quán)重隨機初始化過程中權(quán)值被賦予較大的值,導致反傳的梯度與權(quán)值相乘大于1,并在后續(xù)傳播過程中逐層放大導致梯度爆炸,Resnet網(wǎng)絡通過對權(quán)重進行高斯初始化可以較好避免梯度爆炸的問題;其次,sigmod激活函數(shù)的特性決定了它對較大或較小的輸入值表現(xiàn)出梯度低敏感性,導致梯度無法有效地經(jīng)過sigmod激活函數(shù)反向傳播。基于此,Resnet網(wǎng)絡通過對激活函數(shù)的輸入進行批歸一化(BatchNorm)操作,將輸入限制在激活函數(shù)的梯度敏感區(qū)間,并引入計算更為簡單且對梯度反向傳播更高效的relu激活函數(shù)來緩解梯度經(jīng)過激活函數(shù)損耗較多的問題。
盡管采取BatchNorm操作及選用relu激活函數(shù)緩解了梯度經(jīng)過激活函數(shù)時的損耗,但還是未徹底解決由網(wǎng)絡加深帶來的淺層網(wǎng)絡學習不充分的問題。為此,Resnet網(wǎng)絡提出了經(jīng)典的殘差塊結(jié)構(gòu),即圖2中的Bottleneck結(jié)構(gòu)。在原始順序堆疊的3個卷積層的基礎(chǔ)上,通過一個跳躍連接將輸入疊加到輸出上。由于跳躍連接的存在,為靠近輸出端得到的梯度向靠近輸入端的淺層網(wǎng)絡傳遞提供了可能性,避免了梯度只能經(jīng)過深層網(wǎng)絡回傳引起的梯度彌散問題。同時,圖2中的殘差塊為優(yōu)化之后的結(jié)構(gòu),原始殘差塊由兩個3*3卷積組成,新結(jié)構(gòu)通過使用1*1卷積來對特征圖通道進行壓縮和擴張,保證網(wǎng)絡精度的同時又減少了模型的參數(shù)量,加快了網(wǎng)絡前向推理的速度。
最后,針對本數(shù)據(jù)集特征尺度差異較大的問題,為了使網(wǎng)絡能充分學習到不同尺度的特征,提高特征的有效性,本文在Resnet網(wǎng)絡的基礎(chǔ)上分別抽取Stage1、Stage3、Stage5輸出的特征圖,對于512×512尺寸的輸入,輸出的特征圖尺寸分別為128×128×64、64×64×512、16×16×2 048,分別對應圖像的淺層紋理特征、中間層過渡特征以及深層語義特征,并輸入到后續(xù)的自注意力模塊中對逐層特征進行進一步通道篩選。
2.2.2 自注意力模塊
對于殘差網(wǎng)絡輸出的不同尺度的特征圖,本文通過設(shè)計一個自注意力模塊來對特征圖中不同通道特征進行進一步篩選,來提高關(guān)鍵通道的特征表達能力,進一步引導網(wǎng)絡將注意力聚焦到包含關(guān)鍵信息的區(qū)域。該模塊的設(shè)計思路來源于非局部均值(NLM)降噪算法。NLM算法最初在2005年由Buades等人提出[16],并被廣泛用于圖像復原及視頻降噪領(lǐng)域, NLM的濾波過程可以用下面公式表示:
(1)
C(p)=∑p∈B(p,r)w(p,q)
(2)
(3)

NLM算法的核心思想是為了克服雙線性濾波、中值濾波等濾波算法僅考慮圖像局部信息的局限性,從而提出以圖像塊為單位,在全局范圍內(nèi)根據(jù)不同圖像塊之間的相似度進行像素值加權(quán)平均,更好地實現(xiàn)圖像高斯噪聲的濾除,并且不損失圖像細節(jié)。雖然本文的目的并不是做圖像降噪,但是NLM算法實現(xiàn)降噪的思路其實就是在抑制圖像中的無關(guān)信息,進而使有效信息得到充分表達,基于此,我們可以將這一思想用于高維特征圖的特征通道篩選任務中,從而達到抑制無關(guān)通道特征、強化關(guān)鍵通道特征的目的。事實上,后面的Non Local Neural Network[17]以及Attention GAN[18-19]中的注意力模塊正是借鑒了NLM算法的思想,通過計算任意兩個特征通道之間的交互來直接捕捉遠程依賴,得到更多的全局輔助信息以彌補小卷積核信息獲取不足的缺陷,進而對所有特征通道進行更加合理權(quán)重分配。自注意力模塊結(jié)構(gòu)圖如圖3所示。

圖3 自注意力模塊結(jié)構(gòu)圖Fig.3 Structure diagram of self-attention-module
下面從自注意力模塊結(jié)構(gòu)圖對其中原理做進一步闡述,首先,對于輸入的特征圖,經(jīng)過3條不同的分支f(x)、g(x)及h(x),通過3組數(shù)量相同的1*1卷積進行通道壓縮,并保留通道維度將寬高展平成一維,這里主要是為了減少輸入特征圖的信息冗余,同時降低后面相似度計算的復雜度。其次,對分支f(x)的特征圖進行轉(zhuǎn)置操作再和分支g(x)的特征圖進行矩陣相乘,然后將結(jié)果經(jīng)過softmax進行歸一化,從向量積數(shù)學表達式可以看出矩陣的乘積其實表征了向量間的余弦相似度。實際上,這里進行的就是NLM算法中的不同通道之間特征圖的相似度計算。最后,將歸一化輸出后的注意力矩陣和分支h(x)得到的特征圖進行相乘,這里其實就是根據(jù)相似度對不同通道進行權(quán)重重分配,再次經(jīng)過softmax得到以及1*1卷積對通道擴張至輸入特征圖的通道數(shù),此時輸出的特征圖中的關(guān)鍵細節(jié)特征相對于原特征圖得到了更充分的表達,從而實現(xiàn)注意力重分配。
在上述模塊中對輸入不同尺度的特征圖進行特征壓縮時,對于通道數(shù)較少的淺層特征,容易因壓縮率過高而損失掉有效信息,而對于通道數(shù)較多的深層特征,則會因為壓縮率過低導致存在較高的信息冗余并增加后續(xù)的相似度計算過程的耗時。因此,本文考慮到不同尺度特征圖的通道維度上信息冗余的差異性,從淺層至深層分別采用4倍、8倍、16倍的壓縮率,有效地平衡各尺度的信息利用率及計算效率。同時,借鑒上文殘差塊結(jié)構(gòu),將輸入特征圖通過跳躍連接直接疊加到自注意力模塊的輸出,進一步優(yōu)化梯度反向傳播的效率。
最后,為了優(yōu)化系統(tǒng)在高維特征在檢索時的時間開銷及存儲上的空間開銷,本文采用主成分分析法將不同層的高維輸出嵌入到低維空間中,最終輸出能夠高效表征圖像特征的128維特征向量。
2.2.3 損失函數(shù)
考慮到醫(yī)學圖像背景大多相似度較高,而同一類別的數(shù)據(jù)會因不同采集對象而呈現(xiàn)較大的視覺差異,從而導致不同類之間的樣本特征因高度相似的背景區(qū)域而相互混雜,同類之間數(shù)據(jù)由于存在較大視覺差異使得在特征空間中距離被拉大,因此,本文在損失函數(shù)設(shè)計上,采用了交叉熵損失和中心損失相結(jié)合的思路,來改善上述問題。本文損失函數(shù)公式如下:
L=λ1LCE+λ2LC
(4)
(5)
(6)
對于交叉熵損失,從計算公式(5)可以看出,交叉熵損失反映的是預測值的概率分布和真實標簽的概率分布之間的差異程度。在網(wǎng)絡不斷訓練迭代的過程中,網(wǎng)絡能夠?qū)W習到類別間的區(qū)分特征,使得預測的概率分布能夠逐步擬合真實標簽的概率分布,然而對于醫(yī)學影像數(shù)據(jù)檢索模型,僅讓不同類別的數(shù)據(jù)在特征空間實現(xiàn)類間可分還不夠,我們還希望同類特征分布能夠更緊湊,這樣檢索得到的結(jié)果才能和輸入樣本表現(xiàn)出強相關(guān)性,才能夠為臨床診斷提供更多有價值的參考信息。
進一步的,為了解決類內(nèi)特征不緊湊問題,本文引入了中心損失,公式(6)中xi表示網(wǎng)絡提取到的樣本特征,Cyi表示第yi個類別的特征中心,中心損失統(tǒng)計的是每個批次中的樣本特征與對應類別的特征中心的距離,并在訓練過程中,將計算得到的損失值通過梯度反傳來優(yōu)化網(wǎng)絡參數(shù),從而縮短同類樣本在特征空間中的距離[20]。
在設(shè)計好特征提取模塊的基礎(chǔ)上,可以離線抽取數(shù)據(jù)集中的圖像特征,并將所有的特征向量拼接成特征矩陣進行存儲,同時將數(shù)據(jù)庫中的圖片路徑與矩陣中對應的特征向量建立索引。在檢索過程中,通過計算輸入圖像的特征向量與特征矩陣中所有向量間的距離,并按距離從小到大排序來檢索數(shù)據(jù)庫中的相關(guān)樣本。常用的距離評估函數(shù)有以下幾種:

(7)

(8)
切比雪夫距離:
(9)

(10)
上述距離度量函數(shù)中,歐式距離、曼哈頓距離以及切比雪夫側(cè)重描述特征空間中向量間的數(shù)值關(guān)系,余弦距離則表示特征向量中不同維度間相對層面的差異。由于醫(yī)學圖像固有的異質(zhì)性,同類樣本可能在數(shù)值上存在較大區(qū)別,因此本文采用余弦距離來衡量輸入圖像與數(shù)據(jù)庫中圖像特征間的相似度。
3.1.1 數(shù)據(jù)集
本文使用的是斯坦福吳恩達老師團隊收集的MURA數(shù)據(jù)集,包含來自14 892位不同年齡段患者的40 895張骨骼X光片,分別采集自患者的肩部、肱骨、手肘、前臂、手腕、手掌和手指7個不同的部位。首先,為了保證模型的檢索性能,需要將數(shù)據(jù)集按最具有區(qū)分度的特征進行組織再送入網(wǎng)絡進行特征學習,這里選擇按不同采集部位進行數(shù)據(jù)歸類。數(shù)據(jù)集中各類樣本的數(shù)量分布如圖4所示。

圖4 樣本數(shù)量分布圖Fig.4 Distribution diagram of different classes
觀察到數(shù)據(jù)集中前臂、肱骨這兩個類別數(shù)量不足,而肩部、手腕兩個類別數(shù)量偏多,本文在預處理階段針對數(shù)量較少的前臂、肱骨類別做了圖像旋轉(zhuǎn)、剪裁等數(shù)據(jù)增強操作,并適當減少數(shù)量較多的肩部、手腕兩個類別的訓練樣本數(shù)來平衡各類樣本數(shù)量。其次,注意到數(shù)據(jù)集中圖片長寬比分布不均,且長邊均為512,短邊長度在80~512區(qū)間呈隨機分布,短邊長度分布如圖5所示。

圖5 短邊長度區(qū)間分布圖Fig.5 Distribution diagram of short side length interval
為了避免送入特征提取網(wǎng)絡時圖像被直接resize而導致特征失真,在預處理階段將短邊沿圖像兩側(cè)以圖像均值像素填充至與長邊一致,從而保證圖像中包含有效信息區(qū)域的縱橫比不受破壞。圖像預處理前后的圖片如圖6所示。

圖6 (a)數(shù)據(jù)集原圖;(b)預處理后圖。Fig.6 (a) Original images of dataset; (b) Preprocessed images.
3.1.2 評估指標
一般而言,圖像檢索系統(tǒng)的性能可以分別從查準率(Precision)、查全率(Recall)、F1度量(F1-score)、平均檢索精度(mAP)以及檢索時間幾個指標來評估。 不同的應用場景各個指標的關(guān)注度不同,對查詢準確率較高的場景,比如在醫(yī)學圖像檢索中,需要得到最相關(guān)的檢索信息,且不相關(guān)樣本誤檢索會帶來較大的負面作用,所以更關(guān)注查準率。
查準率和查全率的公式為:
(11)
(12)
其中:TP為檢索結(jié)果中相關(guān)樣本的數(shù)量,F(xiàn)P是檢索結(jié)果中不相關(guān)樣本的數(shù)量,F(xiàn)N是數(shù)據(jù)庫中未檢索到的相關(guān)樣本數(shù)量。
事實上,查準率和查全率是相互影響的。一般情況下,當查準率高時,容易漏檢索,導致查全率低;而查全率高時,容易檢索到錯誤樣本,導致查準率低。因此,通過計算查全率和查準率的加權(quán)調(diào)和平均值F1-score可以綜合考慮這兩個指標。F1-score的計算公式為:
(13)
在一些圖像檢索比賽中,通常還會參考檢索結(jié)果中top-k的平均檢索精度(mAP@k),如2020年的華為DIGIX數(shù)碼設(shè)備檢索比賽中,以top1的檢索精度以及top-k的平均檢索精度加權(quán)得到最終的成績。一般情況下,用戶只會選擇性瀏覽排名靠前的10~20條檢索結(jié)果,因此, top-k平均檢索精度更能反映用戶在實際檢索場景中的直觀感受。top-k平均檢索精度的公式為:
(14)
其中s為查詢次數(shù)、Position(j)指搜索到的第j個相關(guān)樣本在檢索結(jié)果中的位置。
3.1.3 訓練
本實驗在開源linux操作系統(tǒng)ubuntu18.04下進行,相關(guān)硬件設(shè)備為NVIDIA-1080顯卡、32 G內(nèi)存主機。并使用通用的深度學習框架pytorch進行網(wǎng)絡設(shè)計,在pycharm編輯器中進行代碼調(diào)試。
在訓練前,為了更好地衡量模型在查準率和查全率兩個指標上的評估,本文在測試集構(gòu)造時統(tǒng)一了各個類別的數(shù)量。分別從每個類別中抽取1 100張圖片,其中1 000張作為圖像庫,100張作為待檢索的輸入圖片。這樣可以避免在召回率計算時,數(shù)量多的類別召回率表現(xiàn)很低的情況。在此基礎(chǔ)上,對數(shù)據(jù)集中剩余樣本按類別進行5∶5的訓練集、驗證集劃分。
在數(shù)據(jù)加載時,為了盡可能保留數(shù)據(jù)集原始信息,圖像以每批次4張,尺寸為512×512輸入網(wǎng)絡。為了進一步平衡樣本數(shù)量差異帶來的少數(shù)樣本特征學習不充分的問題,采用類別平衡采樣法來保證每次采樣中少數(shù)樣本類別的被采樣概率。其次,為了使模型對實際檢索場景中輸入圖像的光照、角度、尺寸變換有更強的適應能力,對每個批次的數(shù)據(jù)進行在線數(shù)據(jù)增強。相比于離線增強,在線數(shù)據(jù)增強能夠節(jié)省大量的數(shù)據(jù)存儲空間,并且由于每個批次增強方式的隨機性,能得到更豐富的輸出,提高模型的魯棒性。
最后,為了加快網(wǎng)絡收斂,采用初始學習率為0.001,權(quán)重衰減因子為1e-4的adam優(yōu)化器對模型參數(shù)沿負梯度方向更新,并在20,50,90訓練輪數(shù)時對學習率進行衰減,使網(wǎng)絡在訓練初期保持較高的學習率,加快損失值下降的速度,在訓練后期通過降低學習率來抑制損失振蕩現(xiàn)象,使網(wǎng)絡逐步收斂。
3.2.1 定量分析
為了驗證本文方法的有效性,分別對比了SIFT-BoVWs、DHCNN、RAN在Mura數(shù)據(jù)集上的各個指標上的表現(xiàn),其中查準率及查全率采用相似度0.8為閾值,即只取相似度大于0.8的作為最終檢索結(jié)果,并統(tǒng)計了各個模型在Mura數(shù)據(jù)集上每個類別的mAP@100、mAP@20指標,表1是實驗具體數(shù)據(jù)。

表1 對比試驗模型性能比較Tab.1 Performance comparison of comparative test models
從對比實驗可以看出,基于視覺詞袋表征圖像特征的SIFT-BoVWs模型在本數(shù)據(jù)集上精度比較低并且檢索時間較長,主要是因為模型更關(guān)注圖像的紋理及形狀信息,而無法提取并利用圖像的深層語義信息來進行圖像檢索,檢索時間較長主要是圖像SIFT特征提取階段耗時過多。DHCNN模型則利用了vgg16特征提取網(wǎng)絡來代替SIFT特征提取并對高維的特征進行哈希值編碼,在GPU設(shè)備的加速下,加快了特征提取的速度,并且由于訓練過程中學習到了每個類的抽象特征,使得模型精度有了6.2%的mAP@20精度指標的提升。RAN模型同樣是采用深度學習的方法來提取圖像特征,并在此基礎(chǔ)上引入了自注意力模塊,使得模型精度有了大幅度提升,但是RAN的特征提取網(wǎng)絡采用了結(jié)構(gòu)較復雜的Resnet101網(wǎng)絡,檢索耗時相比于DHCNN網(wǎng)絡有所增加。本文設(shè)計的模型,在特征提取網(wǎng)絡上參考了相較于前兩者更輕量的resnet50主干網(wǎng)絡,并在此結(jié)構(gòu)上進行了一定改進,通過抽取不同層的特征,并利用注意力模塊對其進行權(quán)重重分配,最后在訓練階段通過交叉熵損失和中心損失融合進一步讓每個類別的特征在特征空間分布更加合理,最終在Mura數(shù)據(jù)集上mAP@20取得了0.98的檢索精度。
3.2.2 定性分析
為了使檢索效果得到更直觀的體現(xiàn),對同一張輸入圖片分別用4個模型進行檢索,并得到top10檢索結(jié)果,如圖7所示。

圖7 不同模型的檢索效果圖。(a) SIFT-BoVWs; (b)DHCNN; (c)RAN; (d)本文模型。 紅框中為誤檢索圖片。Fig.7 Effect diagram of different models.(a) SIFT-BoVWs;(b)DHCNN;(c)RAN;(d)Ours. The picture in the red box is the wrong picture.
從檢索結(jié)果top10可以直觀地看出,SIFT-BoVWs模型更關(guān)注樣本的顏色、形狀等特征,而對于輸入的肘部測試圖像,由于檢索結(jié)果中第四幅肱骨圖像和輸入圖像在視覺上的相似性導致誤檢索。模型DHCNN和RAN則在誤檢索上有所改善,但仍存在個別誤檢。綜合來看,本文的模型在top10的檢索精度表現(xiàn)較好,也比較符合實際場景對模型的檢索精度要求。
3.3.1 定量分析
本節(jié)對本文第二部分中提到的主要改進點進行消融實驗分析,并以此對各個模塊引入的目的及取得的效果做更直觀地敘述。
在實驗過程中嘗試過的且對精度提升有比較大幫助的主要3點:(1)融合多個尺度特征對樣本進行更全面的描述,優(yōu)化模型對于輸入圖像中不同尺度范圍的檢索能力;(2)加入自注意力模塊,強化圖像中關(guān)鍵細節(jié)特征的表達能力;(3)結(jié)合多重損失優(yōu)化,在加大類間距離的同時,縮短類內(nèi)距離,使樣本特征在特征空間的分布更加合理。
為了更方便地描述上述改進點在數(shù)據(jù)集中每個類別上的提升效果,統(tǒng)計了實驗中模型在Mura數(shù)據(jù)集7個類別的mAP@100指標,表2是消融實驗的具體數(shù)據(jù)。

表2 消融實驗模型性能比較Tab.2 Performance comparison of ablation experimental models
在Resnet50的基礎(chǔ)上,結(jié)合上文提到的優(yōu)化措施,設(shè)計了6組實驗。通過對模型在各類的檢索精度分析可知,模型在手肘、肩部這兩類的精度較低。而通過觀察這兩類易檢索出錯的樣本發(fā)現(xiàn),模型對于肘關(guān)節(jié)的局部圖像以及包含前臂和肱骨的肘部圖像容易檢索成其他類,而肩膀這類樣本也是如此,由此猜想模型對于尺度變化大的樣本的特征辨別能力還不夠,因此有了引入多尺度特征的嘗試,通過對不同尺度特征的組合嘗試,這兩類的檢索精度得到了平均10個點的提高。同時對比了注意力及多重損失單獨作用的模型精度提升,在單一尺度的注意力作用下,手肘、前臂、肩膀3個類的提升并不如多尺度的明顯,而多重損失的加入則能夠在前臂、手掌這兩個易混淆的類上有十分明顯的提升。
結(jié)合上述實驗可以發(fā)現(xiàn),在引入多尺度特征的基礎(chǔ)上,雖然模型的整體精度提高了,但是手腕、前臂這兩類的精度有所下降。對這兩類的特征圖可視化之后發(fā)現(xiàn),前文引入的淺層紋理會對手腕的特征造成一定程度的影響,使得模型的注意力被邊緣紋理特征破壞,導致手腕與前臂這兩類混淆的幾率加大。基于此,引入自注意力機制,使網(wǎng)絡能夠關(guān)注到重要的特征并抑制無關(guān)的干擾性特征,實驗表明,引入注意力機制后, 網(wǎng)絡的注意力能夠關(guān)注到不同類別的關(guān)鍵特征區(qū)域,從而較好地解決了類間易混淆問題。
在引入注意力模塊之后,每個類別的精度都得到了平衡。為了進一步提高模型精度,引入中心損失和交叉熵損失結(jié)合來優(yōu)化各類樣本在特征空間的分布,減少位于邊界區(qū)域的樣本混淆概率。
3.3.2 定性分析
為了使每個模塊的改進更加直觀,本文隨機抽取了部分樣本的特征進行了可視化處理,并以熱力圖的形式疊加到原圖進行展示,圖8是具體效果。

圖8 消融實驗效果圖。(a)原圖;(b)RvesNet50; (c)ResNet50+多層特征;(d)ResNet50+多層特征+注意力。Fig.8 Effect diagram of ablation experiment. (a)Original image; (b) ResNet 50; (c) ResNet 50+ Multiple feature; (d) ResNet 50+ Mutiple feature+Self-attention.
可以看出,相對于ResNet50基礎(chǔ)模型,多尺度特征的引入可以從全局角度對不同尺度特征進行更合理的組合。引入自注意力模塊后,網(wǎng)絡的關(guān)注度進一步集中到了關(guān)鍵區(qū)域。
引入多重損失前后在注意力圖中無明顯變化,這里將樣本特征進行降維處理,降維到二維后,在平面圖中進行展示,圖9是使用多重損失前后的每類樣本特征分布圖。


圖9 樣本特征分布圖。(a)原分布圖; (b)優(yōu)化后分布圖。Fig.9 Distribution map of sample features. (a) Original distribution map; (b) Optimized distribution map.
針對醫(yī)學圖像的一些固有特征造成現(xiàn)有的一些圖像檢索方案偏低的問題,本文提出了一種融合多尺度特征及注意力機制的醫(yī)學圖像檢索系統(tǒng)優(yōu)化思路。在特征提取階段,借鑒了深度殘差網(wǎng)絡的結(jié)構(gòu)設(shè)計,并融合不同層次、不同尺度的特征圖,充分利用了圖像的淺層紋理特征及深層語義特征,較好地緩解了不同尺度目標的特征提取問題。同時,設(shè)計了一個改進的注意力模塊以適應不同尺度的特征圖輸出,并對所有通道特征進行權(quán)重重分配,提高了關(guān)鍵通道的特征表達能力,使圖像中的重要細節(jié)特征更加突出。最后,在模型訓練階段,采用交叉熵損失和中心損失相結(jié)合的思路,使得各個類的樣本特征在樣本空間的分布更加合理,進一步提高了模型的檢索精度。實驗證明,本文的方案相較于其他醫(yī)學圖像檢索模型在Mura數(shù)據(jù)集上mAP@20能夠獲得0.98的精度,基本符合實際場景對模型的檢索精度要求。