


關鍵詞:內窺鏡;雙目視覺;三維重建;高斯潑濺;動態場景重建;深度學習
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2024)36-0006-04 開放科學(資源服務) 標識碼(OSID) :
0 引言
隨著遠程手術和機器人輔助手術領域的持續研究及其商業化進程的成熟,這一領域迅速發展并受到越來越多的關注。手術醫師通過內窺鏡視角不僅可以提高操作的準確性,而且基于其可視化重建效果,可以更好地理解手術場景的醫學解剖結構。在與虛擬現實或增強現實技術結合后,還能夠為醫療教學提供珍貴的資料[1]。
相比傳統的開放性手術,采用內窺鏡技術輔助的微創手術不僅降低了創口尺寸,還可以借助靈巧的機械臂實現遠程手術,為醫療資源的充分利用提供了一種新方向。然而,從內窺鏡雙目相機采集的視頻中重建并模擬手術場景,是機器視覺領域中一項重要且高難度的任務[2]。此前的解決方案通常利用離散的術前醫學影像(如磁共振成像(Magnetic Resonance Imaging,MRI) 和計算機斷層掃描(Computed Tomography,CT) ,結合立體配準方法對施術部位進行三維重建[3]。然而,手術過程中,由于器械操作引起的器官組織形變以及器械遮擋,手術場景會不斷變化,嚴重影響傳統方法的重建完整性和速度,從而降低手術的安全性。
目前,可行的優化方向主要包括基于神經輻射場和基于高斯潑濺的重建方法。雖然神經輻射場因其良好的重建質量受到廣泛研究,但其高昂的計算成本限制了其在動態形變手術場景重建任務中的渲染速度。與之相比,本文提出了一種基于高斯潑濺的重建方法,通過結合時域動態編碼的場景表達,對形變組織進行高效建模,并配合與底層硬件兼容的加速渲染算法,解決了上述問題。在保證重建質量的同時,大幅提升了重建效率。
1 相關工作
1.1 基于立體視覺的重建方法
早期的研究通過計算立體方法[4-5]實現內窺鏡場景的重建,其中多視角重建[6]是目前較為流行的方法。該方法以輸入的 RGB 視頻幀圖像對為基礎,通過使用特征點匹配算法(如 SIFT 算法[7]) 對圖像進行配準,隨后根據生成的深度值恢復三維點云,從而實現重建效果。然而,在手術器械遮擋的情況下,特征點匹配容易出錯,導致無法達到預期效果。
近年來,一些研究嘗試使用已知的幾何先驗信息作為網絡的監督信息,但由于器官組織空間狹窄以及手術過程中組織形變的復雜性,三維幾何信息的真實值難以獲取。在此背景下,神經輻射場[8]和高斯潑濺技術[9]兩種新興三維重建方法相繼被提出。
1.2 基于神經輻射場的重建方法
神經輻射場(Neural Radiance Fields, NeRF) 通過描述各點在不同視角下的顏色和體密度,實現對場景的建模。其采用多層感知機(Multilayer Perceptron,MLP) ,將場景中每一個點的三維坐標(x,y,z)和視角方向(θ,φ)作為輸入,生成對應的 RGB值和體積密度。隨后,利用體渲染技術將生成的 RGB 值c 和體積密度σ聚合為二維圖像。
由于其高重建質量以及利用高頻信息描述復雜場景細節的能力,神經輻射場被廣泛應用于醫療場景的重建中,例如 EndoNeRF[10]。然而,由于其隱式表達的特性,NeRF 的結果難以被直觀理解,同時其重建速度也難以顯著提升。
1.3 基于高斯潑濺的重建方法
高斯潑濺(Gaussian Splatting) 因其顯式表達的直觀性以及基于 CUDA編譯的光柵渲染器所帶來的實時渲染能力而備受關注,因此許多研究工作逐漸從神經輻射場轉向高斯潑濺。
高斯潑濺通過一組高斯球來描述整個場景,每個高斯球具有位置(μ)、旋轉(R)、不透明度(o)、尺度(S)以及球諧函數(SH) 等屬性。結合其可與 GPU底層語言 CUDA編譯實現的可微分光柵化渲染器,高斯潑濺為場景表達帶來了簡易性和實時性。然而,高斯潑濺通常需要多視角圖像序列進行初始化,如何簡單快速地初始化高斯球并有效地重建器官組織的形變仍然是一個挑戰,也是本文研究的重點。
當t=0.01時,在手術器械遮擋部分的重建效果對比中,雖然本文方法相較于其他方法展現了更好的重建細節,但仍然無法很好地對模糊部分進行填補和修復,這也是本文方法的局限性所在。當t=0.11時,圖中重建細節部分的對比表明,本文提出的網絡在內窺鏡手術場景中的形變組織重建上,能夠呈現更豐富的細節以及更清晰的邊緣紋理。
表 1 展示了本文所提出的模型與 EndoNeRF[10]網絡在 EndoNeRF 數據集上的 PSNR、SSIM 和 LPIPS 評價指標平均值的對比結果。
實驗結果表明,通過使用高斯潑濺和時域空間高斯形變場,本文模型重建的圖像評價指標平均值均高于先前網絡 EndoNeRF[10],這表明本文方法能夠更好地對組織形變部位進行建模并生成更高質量的渲染結果。
4 結束語
本文提出了一種基于高斯潑濺作為場景表達的動態雙目內窺鏡場景重建網絡。網絡首先使用預訓練的雙目深度估計網絡提取視頻幀的深度信息,用于高斯潑濺初始化,從而增強重建結果的幾何質量。其次,通過引入時域空間編碼體系對動態形變組織部分進行建模,有效地從器械遮擋以及組織形變中恢復了高質量的手術場景。最后,引入邊緣感知正則化函數對深度值進行監督,有效約束了重建的幾何特性。在公開數據集 EndoNeRF[10]上的可視化以及指標對比實驗表明,本文網絡的效果優于其他工作。
同時,本文方法也存在一些限制與有待改進的方向。首先,本文利用深度信息初始化高斯潑濺,但未對直接融合產生的高斯參數進行修剪,由此產生的冗余參數可能會影響網絡重建的實時性。其次,使用雙目內窺鏡采集數據對設備的要求較高。在接下來的研究工作中,為了使這一技術更廣泛地應用,針對單目內窺鏡數據的動態場景重建是一個很有價值的方向。此外,在本文的可視化對比實驗中,被器械遮擋研究的部分未能被網絡顯著修補,因此可以考慮使用擴散模型(diffusion model) [18]等生成式領域的方法,輔助生成被器械遮擋部分的圖像,從而獲得完整的重建效果。