邸 敬, 郭文慶, 任 莉, 楊 燕, 廉 敬
(蘭州交通大學 電子與信息工程學院,甘肅 蘭州 730070)
現代醫學影像設備提供了人體不同部位的病變圖像,協助醫生對疾病進行快速診斷和治療。多模態醫學圖像通常分為兩種類型:解剖醫學圖像和功能醫學圖像[1]。解剖醫學圖像有較高的分辨率,能夠清晰地提供人體器官的結構信息,如計算機斷層掃描(Computer Tomography,CT)和核磁共振成像(Magnetic Resonance Imaging,MRI)圖像。功能醫學圖像主要反映人體器官的代謝信息,如單光子發射計算機斷層掃描(Single-Photon Emission Computed Tomography,SPECT)和正電子發射計算機斷層掃描(Positron Emission Tomography,PET)圖像。由于單模態醫學圖像成像單一,不能提供病灶的準確信息。因此,多模態醫學圖像融合被廣泛用于臨床分析,實現對病灶部位準確、全面地描述[2]。
目前,圖像融合分為特征級、決策級和像素級三個層次。特征級融合雖然降低了算法復雜度,但是融合圖像容易丟失部分細節信息。決策級融合具有較好的實時性和自適應性,但會增加實驗數據誤差,導致圖像信息損失最大。像素級融合是對圖像的像素點進行信息融合的過程,也是當前主流研究方法。目前醫學圖像融合算法分為傳統融合方法和深度學習融合方法。多尺度變換(MultiScale Transform,MST)是一類典型的傳統融合方法,常用的MST 融合算法包括小波變換[3]、金字塔變換[4]、非下采樣剪切波變換(Non-Subsampled Shearlet,Transform,NSST)[5]、非下采樣輪廓波變換(Non-Subsampled Contourlet Transform,NSCT)[6]。近年來,諸多學者提出了許多人工神經網絡方法用于模擬動物神經系統原理。例如,脈沖耦合神經網絡(Pulse Coupled Neural Network,PCNN)[7],它正是根據小型哺乳動物視覺皮層神經系統模擬產生的,具有處理復雜信息的能力。PCNN 模型最早由Eckhorn 等人提出[8],此方法無需訓練測試數據,網絡框架可以直接提取特征信息。目前,深度學習的熱潮迅速席卷全球,基于深度學習的方法在圖像配準[9]、病變分割[10]、圖像融合[11-12]等高級視覺任務中取得了較好的成績。
然而,基于MST 融合算法需要多步分解操作。因此,它的適應性不好。基于PCNN 的融合算法模型中有大量的參數,增加了復雜度。基于深度學習的醫學圖像融合算法雖然結構簡單、易于實現、適應性強,但在提取圖像紋理特征、對比度、多任務融合能力和效率方面都需要提高。WANG 等提出一種模態合成和增強的弱監督醫學圖像融合方法[13],能有效增強MRI 圖像的紋理和結構,但在此過程中忽略了CT 圖像的骨骼信息,導致邊緣輪廓模糊。陳永等將注意力機制引入圖像融合中[14],其融合圖像獲得了源圖像較多信息,但在融合模型中使用了單分支神經網絡,并沒有信息之間的交互,因此紋理細節較差。FANG 等提出了卷積神經網絡和注意力機制的多模態醫學圖像融合[15],通過減少冗余信息的影響來提高模型的整體性能,但減少模型復雜度的過程中紋理細節嚴重丟失,并且僅適用醫學領域,實時性較差。TANG 等人提出了多尺度自適應變換器來融合多模態醫學圖像[16],從不同尺度的角度充分獲取了圖像的結構信息,但在此過程中忽略了圖像的功能信息,導致軟組織信息丟失嚴重。ZHANG 等人提出了端到端的融合分解網絡[17],通過融合分解使圖像細節紋理更加清晰,但此網絡在損失函數中的梯度損失和強度損失通過調整權重比例會造成融合圖像輪廓信息丟失、對比度低,從而降低了醫學圖像融合結果質量。
為此,針對融合圖像紋理細節模糊、邊緣輪廓缺失和對比度低等問題,本文提出了一種結構功能交叉神經網絡的多模態醫學圖像融合方法,采用結構功能模塊和功能結構模塊構成的交叉網絡實現信息交互,提升融合圖像的紋理細節信息。使用有效通道注意力機制和空間注意力機制(Effective Channel Attention mechanism and Spatial attention mechanism model, ECA-S)結合的改進注意力機制進行圖像融合,來增強融合圖像對比度。設計了融合圖像到源圖像的分解過程,使融合圖像包含更多的邊緣輪廓信息。本文的多模態醫學圖像融合是基于結構和功能信息的提取與重建,并設計了由結構項和功能項組成的損失函數。大量實驗結果表明,本文方法融合的圖像不但紋理細節清晰,而且圖像整體對比對更高。最后將本方法擴展到紅外與可見光和多聚焦圖像融合,也取得了較好的融合結果,說明本文方法具有適用性。
為了解決多模態醫學圖像融合結果中出現紋理細節模糊、邊緣輪廓缺失和對比度低的問題,本文提出了基于結構功能交叉神經網絡的多模態醫學圖像融合模型,網絡總體框架如圖1 所示。在融合網絡模型中,兩種單模態醫學圖像作為輸入,通過結構功能模塊和功能結構模塊提取圖像特征信息,ECA-S 注意力機制融合出最終圖像。在分解網絡模型中,由殘差網絡組成的分解網絡迫使融合圖像包含更豐富的信息。

圖1 網絡總體框架圖Fig.1 General network framework diagram
為了使細節信息被充分提取,本文將交互神經網絡引入圖像融合中。將源圖像分別饋送到結構功能特征提取分支(GRFEB)和功能結構特征提取分支(RGFEB)模塊。GRFEB 包括一個核為5×5 的卷積和激活函數為Leaky ReLU(LReLU)的低級特征提取塊以及三個結構引導功能塊(G-R 塊)組成。RGFEB 由低級特征提取塊和三個功能引導結構塊(R-G 塊)組成,如圖1所示。在G-R 塊和R-G 塊上設計了多個交叉連接,以實現GRFEB 和RGFEB 之間的結構和功能信息交互。每個G-R 塊的輸入不僅包括GRFEB 中前一塊的輸出,還包括RGFEB 中對應的前一塊的輸出。R-G 塊也是如此。第三個GR 塊和第三R-G 塊的輸出在通道維度上級聯,并饋送到ECA-S 注意力機制,得到最終的融合圖像。表1 列出了所提出方法模型的融合網絡參數和分解網絡參數,其中卷積層在每個塊或模塊中從左到右、從下到上編號。

表1 網絡模型具體參數Tab.1 Specific parameters of network model
2.1.1 G-R 模塊和R-G 模塊
G-R 模塊的網絡架構如圖2 所示。G-R 塊的輸入包括GRFEB 和RGFEB 中先前塊的輸出,即和,其中n∈[1,3]表示特征提取分支中的塊索引。為了從MRI 圖像中充分提取特征,使用了兩階段殘差結構。具體來說,被送入第一級殘差結構,該結構由兩個3×3 卷積層和LReLU 層組成。輸入與輸出相加構成殘差連接。由相同的殘差結構處理,以加入從PET 或SPECT 圖像中提取的特征。這兩種殘差結構的輸出在通道中級聯,然后用于特征融合和3×3 卷積層進行通道降維。第二階段殘差結構用于增強MRI 圖像中的結構信息。原始輸入與1×1 卷積層的輸出相加得到最終輸出。R-G 模塊也采用了兩級殘差結構,如圖3 所示。不同之處在于第二級殘差連接是在RGFEB 中的先前塊的輸出上執行的(即),以增強PET 或SPECT 圖像中的功能信息。

圖2 G-R Block 網絡結構Fig.2 G-R Block network structure

圖3 R-G Block 網絡結構Fig.3 R-G Block network structure
2.1.2 ECA-S 注意力機制模塊
通過剖析有效通道注意力機制[18](Efficient Channel Attention,ECA),發現避免維度縮減對于學習特征信息非常重要。同時注意到醫學圖像中只有部分部位對融合結果有貢獻,而空間注意力機制[19](Spatial Attention Mechanisms,SAM)主要處理圖像重要部位信息。因此,將ECA 注意力機制和SAM 注意力機制“并行連接”,使兩種注意力模塊都直接學習原始的輸入特征信息,從而無需關注空間注意力和通道注意力順序,形成一個新的ECA-S 注意力機制模型,模型如圖4 所示。

圖4 ECA-S 注意力機制模塊Fig.4 ECA-S attention mechanism module
ECA-S 注意力機制的一條分支由SAM 構成。首先,對輸入特征圖進行最大池化和平均池化并在通道維度堆疊。其次,使用1×1 大小的卷積核對堆疊特征圖特征提取。最后,將提取到的特征信息結果經過sigmoid 激活函數空間權重歸一化,再將輸入特征圖和權重相乘得到。
另一條分支由ECA 構成。首先,針對輸入的特征層進行全局平均池化。其次,將池化后的特征長條進行卷積提取,通過sigmoid 激活函數生成每一個特征點的權值。最后,權值與原始特征層結合,便可以得到MECA。將其計算的MS與MECA相加得到MECA_S。其全部計算過程可以表示為式(1)~式(3):
其中:MS為SAM 輸出特征信息,MECA為ECA 輸出特征信息,MECA_S為ECA-S 輸出特征信息,I為輸入特征信息,σ為sigmoid 激活函數,AvgPool表示平均池化,MaxPool表示最大池化,GlobalAvg-Pool表示全局平均池化,⊕表示逐元素相加。
為了提取到更豐富的圖像信息,本文引入分解網絡模型。具體來說,不僅考慮了從源圖像到融合結果的融合過程,而且考慮了從融合結果到源圖像的分解過程,可以使融合結果包含更多的紋理細節。本文的分解網絡模型如圖5 所示,每一塊先經過1×1 的卷積層,再經過3×3 的卷積層,組成多尺度結構,充分提取空間信息,最后再通過LReLU 激活函數輸出特征信息。為了充分分解融合圖像的特征信息,分解網絡的輸入分為兩部分,一部分輸入為通過ECA-S 注意力機制融合后的圖像,另一部分為G-R Block 和R-G Block 的第三層的輸出,其目的是經過ECA-S 注意力機制提取到的是圖像的顯著信息,而一些不重要的信息卻容易被忽略,因此直接將G-R Block 和R-G Block 的第三層作為分解網絡的一部分輸出讓分解過程中信息提取更充分。

圖5 分解網絡流程Fig.5 Flowchart of decomposition network
本文的網絡框架分為兩個部分,融合網絡特征提取生成單個融合圖像。分解網絡對結構和功能信息進行分解和重構,分解網絡專用于從融合結果分解近似源圖像的結果。相應地,損失函數也由兩部分組成:融合損失Lsf和分解損失Ldc。
2.3.1 融合損失
圖像中包含的信息可以分為結構信息和功能信息,因此,本文將多模態醫學圖像融合問題轉化為提取和重建圖像中的結構信息和功能信息的問題,融合損失也由結構損失項和功能損失項組成,損失函數可表示為公式(5):
其中,β用于平衡結構損失項和功能損失項。
本文設計了一個自適應結構損失函數Lstru來增加融合圖像的紋理特征。自適應決策塊通過高斯低通濾波器濾除噪聲對圖像的影響,盡可能減少噪聲對決策塊的影響。利用Scharr 算子求出結構圖,結構圖包含大量的紋理細節信息以及清晰的輪廓信息。之后根據結構的大小生成決策圖。其原理圖如圖6 所示。

圖6 自適應決策塊Fig.6 Adaptive weight block
其中:i和j表示像素在第i行和第j列權重圖,H和W代表圖像的高度和寬度,I1和I2為源圖像,Ifusion為融合圖像,|·|表示絕對值函數,?(·)為Scharr 算子,S(·)是由決策塊基于源圖像的結構水平生成的決策圖,L(·)表示高斯低通濾波器函數,min(·)表示最小函數,sign(·)為符號函數。
功能損失函數Lfunc影響融合圖像的對比度。功能損失函數通過對Frobenius 范數進行改進,改進后的Frobenius 范數與歐式距離有所不同,它是矩陣中每一個位置的元素的平方和取平均數再開方,其作用是衡量融合圖像像素和源圖像像素的距離,有效調整融合圖像和兩個源圖像之間的權重,迫使網絡選擇更有效的信息。功能損失的公式可以表示為式(9):
2.3.2 分解損失
分解損失項Ldc要求融合圖像的分解結果盡可能與源圖像相似,可以表示為:
其中:I1_de和I2_de為融合圖像的分解結果,I1和I2為源圖像。由于分解后的圖像與輸入圖像之間的差異程度決定融合結果的效果,因此分解損失函數將盡可能使融合結果獲得更多圖像信息,從而使融合質量達到最好。
本文模型包括融合網絡和分解網絡。無論是在訓練階段還是測試階段,框架都使用Tensorflow 實現。所有實驗均在Windows 11(64 位),硬件配置為Intel(R) Core(TM) i7-12700H 2.30 GHz筆記本電腦和16 GB RAM 軟件上運行。
本節證明本文算法具有更好的性能,驗證所提出的融合模型的實用性。對來自公開數據集哈弗醫學庫(http://www.med.harvard.edu/aanlib/home. html)的200 對256×256 的醫學圖像,共裁剪成39 200 個大小為120×120 的圖像塊進行訓練。實驗設置epoch=30,batch_size=32、學習率為1×10-4。在優化算法方面,選擇適應性強的自適應優化算法Adam。此外,在總損失中包含的梯度損失、強度損失、分解損失的比例經過重復實驗后設置為10,1,1。
為了進一步說明本文算法的有效性,選擇了包括空間頻率(SF)[20]、平均梯度(AG)[21]、融合質量(QAB/F)[22]、相關系數(CC)[23]、熵(EN)[24]和互信息(MI)[20]等客觀指標來評價融合圖像的結果。AG 和EN 是衡量圖像清晰度和信息量的指標,數值越大說明從輸入圖像中提取的信息越豐富和全面。MI 通過度量融合圖像和源圖像之間的相似程度,即融合圖像獲取了源圖像信息量的多少。互信息越大,質量越好。兩幅圖像之間的相關性用CC 表示,數值越接近1 表示兩幅圖像之間的特征信息越接近。圖像灰度的測量用SF 表示,SF 值越大,表明融合結果的灰度值越接近輸入圖像的灰度值。QAB/F是對融合圖像信息表現程度的一種估計,數值越大說明信息量越大,圖像質量越好。
為了驗證本文方法的有效性、實用性和時效性,與七種可比較的方法進行了主觀視覺評價和客觀數據比較:MLEPF[25],NSST[26],LEGFF[27],MATR[16],CNP[28],SDNet[17]和CFL[29]。
3.2.1 主觀視覺評價比較
圖7 展示了“輕度阿爾茨海默病”MRI-PET圖像。圖7(a)和圖7(b)為MRI 和PET 源圖像,圖7(f)和圖7(h)說明該實驗結果對應的方法融合后的圖像較模糊,存在紋理細節缺失。圖7(c)和圖7(d)實驗結果對應的方法融合后的圖像軟組織中間區域出現紫色塊效應。圖7(i)實驗結果對應的方法在軟組織處亮度過于飽和,丟失MRI 軟組織解剖信息。相比之下,圖7(e)和圖7(g)實驗結果對應的方法融合圖像獲取了較多來自源MRI 和PET 圖像中的細節信息。但是,目標邊緣處比較模糊。對比來看,本文方法結果圖7(j)保留了PET 彩色信息,并且獲取了較多MRI軟組織亮度解剖信息,紋理細節更清晰。

圖7 “輕度阿爾茨海默病”MRI-PET 圖像融合比較Fig.7 Comparison of MRI-PET image fusion in "mild Alzheimer′s disease".
圖8 展示了“轉移性支氣管癌”MRI-SPECT圖像(彩圖見期刊電子版)。圖8(a)和圖8(b)為MRI 和SPECT 源圖像,圖8(c)和圖8(h)說明該實驗結果對應的方法融合后的圖像紋路模糊,導致軟組織分辨率低。圖8(d)說明該實驗結果對應的方法融合后的圖像軟組織區域出現紫色塊效應,無法正常觀察病變區域。圖8(e)和圖8(i)說明該實驗結果對應的方法包含了PET 圖像較多的色彩信息,但沒有較好得融入MRI 軟組織解剖信息。圖8(f)和圖8(g)說明該實驗結果對應的方法內部出現偽影,能量信息嚴重丟失。觀察本文實驗結果圖8(j),不僅對比度增強,且軟組織紋理細節和輪廓信息特征明顯,融合圖像色彩更自然。
圖9 展示了“腦膜瘤”MRI-CT 圖像。圖9(a)和圖9(b)為MRI 和CT 源圖像,圖9(c)說明該實驗結果對應的方法融合結果圖較模糊。圖9(d)說明該實驗結果對應的方法融合結果中紋理骨骼出現失真。圖9(f)和圖9(h)說明該實驗結果對應的方法融合結果整體偏暗,導致紋理模糊。圖9(e)和圖9(i)說明該實驗結果對應的方法融合結果對比度高,但邊緣輪廓平滑,無法正確顯示骨骼細節特征。綜合來看,本文算法融合結果圖9(j)保留了單模態醫學圖像的特征,能有效地提取軟組織細節信息及灰度信息,能綜合MRI 與CT 源圖像豐富信息。

圖9 “腦膜瘤”MRI-CT 圖像融合比較Fig.9 Comparison of MRI-CT image fusion of "meningioma"

圖10 “人物”多聚焦圖像融合比較Fig.10 "Person" multi-focus image fusion comparison

圖11 3 種不同場景下紅外與可見光圖像融合比較Fig.11 Comparison of infrared and visible image fusion in three different scenes
3.2.2 客觀評價指標
從三組醫學圖像的融合結果表明,本文提出的結構功能交叉神經網絡的多模態醫學圖像融合策略得到的融合圖像高度符合人眼視覺特性,細節提取更充分,色彩更自然。從表2~表4 可以看出,AG,EN,SF,MI,QAB/F和CC 等指標均取得了較好的性能,但AG 和QAB/F在MRI-PET 和MRI-CT 圖像中表現稍弱,這是因為在LEGFF,NSST,PCNN 方法中過度去關注對比度,是以圖像的亮度去換取圖像的細節信息,如在LEGFF方法融合MRI-CT 圖像時,對比度指標AG 較高,但MI 卻低于本文方法,說明信息提取較弱。在NSST 方法融合MRI-PET 圖像中,整體亮度較高但軟組織處出現失真,出現藍色斑塊,導致信息丟失。因此,與其他對比算法相比,本文的算法在融合過程中更注重PET 圖像和SPECT 圖像的色彩豐富度、MRI 圖像的邊緣輪廓信息和軟組織信息,以及CT 圖像的骨骼信息,使融合后的圖像輪廓邊緣更清晰,色彩更自然,更符合人眼視覺特性,可以輔助醫生快速診斷和治療疾病。

表2 “輕度阿爾茨海默病”MRI-PET 圖像融合客觀評價指標Tab.2 Objective evaluation indexes of MRI-PET image fusion in "mild Alzheimer′s disease"

表3 “轉移性支氣管癌”MRI-SPECT 圖像融合客觀評價指標Tab.3 Objective evaluation indexes of MRI-SPECT image fusion in "metastatic bronchogenic carcinoma"

表4 “腦膜瘤”MRI-CT 圖像融合客觀評價指標Tab.4 Objective evaluation indexes of "meningioma" MRI-CT image fusion
為了驗證本文方法中結構功能交叉網絡、改進注意力機制、分解網絡的有效性,設計了四組消融實驗。如圖12 所示,所提出的方法被降級為三種不同的網絡結構用于測試。

圖12 消融實驗的四種不同網絡結構Fig.12 Four different network structures for ablation experiments
第一組實驗將交叉網絡變為雙通道網絡,每一個G-R Block 和R-G Block 模塊變為藍色區域的殘差網絡,其他網絡結構不變,記為ECA_S+DeNet。第二組實驗將改進注意力機制取消,其余網絡結構不變,記為FuNet+DeNet。第三組實驗將分解網絡取消,其他網絡結構均不變,記為ECA_S+FuNet。第四組實驗將結構功能交叉網絡、改進注意力機制、分解網絡都放入模型中去觀察融合結果,記為All。實驗的具體流程如圖12 所示。
如圖13 四種不同網絡結構20 幅圖像均值柱狀圖所示,在六個指標中完整架構在所有指標都獲得最高值,這證明了在本文網絡中采用的結構功能交叉神經網絡、改進注意力機制和分解網絡的重要性。圖14 展示了由不同模型生成的兩組融合結果,可以看出,四幅圖視覺質量差異顯著,完整模型在細節保留、對比度和邊緣輪廓方面都優于其他三個降級模型。

圖13 消融實驗的四種不同網絡結構20 副圖像均值柱狀圖Fig.13 Histogram of the mean values of 20 images of four different network structures for the ablation experiment

圖14 消融實驗其中兩組融合結果Fig.14 Fusion results of two groups of ablation experiments
方法的運行時間也是評價性能的一個重要指標。表2~表6 記錄了全部算法的運行時間,可以看出本文方法的網絡運行時間略高于SDNet,但SDNet 算法融合圖像的紋理細節和對比度都較差。因此,綜合來看,本文算法的效率在時間和性能方面更好。
為了驗證本文提出的算法在其他鄰域的圖像融合是否表現的同樣有效,將其擴展到多焦點、紅外和可見光圖像。融合后的圖像如圖10 和圖11 所示,表5 和表6 中提供了客觀評價指標。可以看出,本文設計的結構功能交叉神經網絡、改進注意力機制和基于殘差網絡的分解模型與人類視覺系統特點高度吻合。圖10(a)和圖10(b)顯示了多聚焦輸入圖像,圖11(a)和圖11(b)顯示了紅外與可見光輸入圖像。本文融合方法與現有的LEGFF[27],SDNet[17],CFL[29],LRD[30],DCPCNN[31],SMVIF[32],ResNet[33]和CCF[34]方法進行了比較,所得融合結果如圖10 和圖11 的(c)~(h)所示。從融合結果的主觀和客觀評價得出,本文方法的融合結果很好地保留了輸入圖像的重要信息,并且在紋理、邊緣輪廓和對比度方面處理都較好。充分證明了本文的方法在其他圖像融合領域也具有很強的適應性。

表5 “人物”多聚焦圖像融合客觀評價指標Tab.5 Objective evaluation index of multi-focus image fusion of "people"
為了提高醫學圖像的融合質量,本文提出了一種結構功能交叉神經網絡的多模態醫學圖像融合方法。在融合階段,通過結構功能交叉神經網絡完成圖像結構信息和功能信息交互,使其充分提取源圖像中的信息,并將提取的特征信息通過ECA-S 注意力機制得出融合圖像。在分解階段,為了提取到更多的圖像信息,再將融合圖像分解為兩幅源圖像,與輸入圖像比較盡可能減少其信息損失。實驗結果表明,本文提出的方法客觀評價指標AG,EN,SF,MI,QAB/F和 CC 均 提 高 了 22.87%,19.64%,23.02%,12.70%,6.79%,30.35%,因此本文方法不但對比度高,紋理細節清晰,且更符合人眼視覺特性。此外,通過客觀實驗數據顯示,本文方法在多聚焦圖像融合、紅外和可見光圖像融合領域的應用也有很大優勢。本文方法的不足之處在于處理實時性任務,即沒有在提取特征信息之前加入圖像預處理。因此,下一步工作將在提取特征信息之前加入圖像配準,并將其應用在實時性任務中。